Documente Academic
Documente Profesional
Documente Cultură
Resumen
Antes de disear una instalacin, e independientemente del sistema de control domtico y de la tecnologa de reconocimiento y sntesis de voz a utilizar, se hace necesario el estudio y la catalogacin de las condiciones de uso, las necesidades concretas de los usuarios y de los dispositivos de captura y reproduccin de sonido a utilizar. Una eficaz implementacin del sistema, seleccionando la tecnologa ms adecuada en cada caso mejora considerablemente la experiencia del usuario y la efectividad del sistema. En este artculo, de una forma divulgativa, evitando en la medida de lo posible explicaciones muy tcnicas, se examinan las tipologas de captura y reproduccin del sonido que se integran con las tecnologas del Hogar Digital. Se analizan tambin sus ventajas e inconvenientes en funcin de las necesidades e impedimentos de los diferentes tipos de usuario y se incluyen recomendaciones de uso y soluciones concretas para cada caso.
impediments of different kinds of users and includes guidelines, and specific solutions in each case.
1. Introduccin
El Hogar Digital es ya una realidad. El nuevo reglamento Infraestructuras Comunes de Telecomunicacin (ICT) cataloga los Hogares Digitales en tres niveles, basndose en los servicios y sistemas que estos incluyen. Uno de estos servicios es el control por voz. Prcticamente todas las tecnologas existentes para el control del hogar cuentan ya con una o varias opciones comerciales para el control por voz. Los primeros sistemas desarrollados realizaban el reconocimiento de un conjunto limitado de comandos de voz. Estos sistemas son una opcin vlida que permite a los grandes discapacitados el control de iluminacin, motores de camas y apertura de puertas, y estn presentes en el mercado mucho antes de la aparicin del concepto de Hogar Digital. Posteriormente se han desarrollado sistemas de interaccin hombre-mquina en lenguaje natural, con una capacidad de reconocimiento del habla muy sofisticada y sntesis de voz muy cercana al habla natural. Independientemente del sistema usado y su capacidad para el reconocimiento y la sntesis de voz, el control por voz se integra en la mayora de los casos dentro de un sistema multimodal que aade un modo o interfaz ms para la interaccin entre el usuario y el Hogar Digital. Debido a la naturaleza del proceso de comunicacin oral, e independientemente del sistema a utilizar, es necesario el uso, de un sistema de captacin, y de un sistema de emisin del sonido. Simplificando al mximo estos dispositivos se puede decir que la captacin se realiza mediante micrfonos y la emisin mediante altavoces. Cada uno llevar asociado una serie de componentes electrnicos que
Abstract
Before designing an installation and regardless of the Digital Home control or voice recognition and synthesis technique used, it is necessary to study and catalog the terms of use, the specific needs of users and capture and playback sound devices to use. An effective implementation of the system, selecting the most appropriate technology in each case significantly improves user experience and efficiency of the system. In this article, in an informative way, avoiding as far as possible, highly technical explanations, the capture and reproduction typologies integrated with Digital Home technologies are discussed. It also analyzes the advantages and drawbacks in terms of the needs and
permitirn su funcionamiento y la correcta gestin del sonido. En esta parte del sistema, la ms expuesta y la que el usuario conoce y con la que realmente interacta es donde se centra este trabajo, valorando tanto los aspectos de usabilidad como los tcnicos y desde puntos de vista diferentes en funcin del tipo de usuario. En un uso cotidiano de sistemas multimodales, para los usuarios, el uso de un interfaz de control u otro, en la mayora de los casos se realiza de forma no consciente atendiendo a la sencillez y la comodidad que aporta dicha interaccin. En el caso de personas discapacitadas prima igualmente la comodidad y la sencillez de uso aunque no siempre resulta posible utilizar distintos interfaces. Por tanto no son aplicables los mismos criterios que para el resto de personas con mayores posibilidades en el control multimodal. Identificar las situaciones y los lugares favorables o desfavorables para el uso del interfaz de control adecuado debe ser una tarea previa al diseo del sistema y ha de ser estudiada atendiendo a sus usuarios, sus condicionantes y sus preferencias de uso, contemplando tambin sus hbitos y la tipologa de la vivienda donde residen. La mayora de las consideraciones y recomendaciones de uso del control por voz expuestas en este artculo son extensivas a los lugares de trabajo de tipo oficina. Para otros casos es necesario un estudio pormenorizado de las condiciones acsticas del entorno.
2. Sistemas fijos
Tanto los sistemas de captacin como los sistemas de emisin pueden dividirse en dos grupos: fijos y porttiles. Los sistemas fijos son aquellos que se encuentran instalados de forma permanente en lugares determinados de la vivienda. Estos dispositivos, en un principio, atendiendo a su alimentacin, podrn ser autnomos o cableados. La primera opcin, la de un sistema fijo y autnomo no tiene sentido prctico debido al elevado consumo elctrico de estos dispositivos en comparacin con otros sistemas sensores utilizados en el hogar (por ejemplo, detectores de humo o de movimiento). Centrndonos en la opcin cableada, aparecen dos tipologas, la primera, indicada en la figura 1, con un cableado dedicado, donde cada par de dispositivos captador-emisor, emparejados por estancias, est conectado a la unidad central del sistema mediante dos cables dedicados. Cada cable interconecta la central con el elemento captador por un lado, y con cada dispositivo emisor por otro. La unidad central debe disponer de tantas entradas de audio como dispositivos captadores y tantas salidas de audio como dispositivos emisores.
disponer
vivienda y parte del exterior de esta. Normalmente son soluciones que integran la emisin y la captacin, es decir, disponen de micrfono y de altavoz en el mismo dispositivo. Atendiendo al modo de activacin cuando el usuario habla al sistema se pueden dividir en dos tipos: Sistemas automticos. Sistemas con PTT (Push To Talk). Los sistemas automticos se activan cuando el nivel sonoro captado supera un umbral determinado. Este umbral se puede preajustar en funcin del nivel ambiente o del nivel de voz del hablante. Normalmente los dispositivos cuentan con sistemas de reduccin de ruido y control automtico de ganancia para mejorar la relacin seal ruido en la captacin. Dentro de este grupo se pueden incluir los micrfonos-auriculares porttiles y los telfonos mviles de ltima generacin. Son sistemas full-duplex, que permiten la comunicacin en ambos sentidos de forma simultnea. Los dispositivos con PTT son los que conocemos normalmente como Walkie-Talkies. Son sistemas semi-duplex donde el usuario presiona un botn para hablar y transmitir y suelta el botn para or y recibir. Estos dispositivos inalmbricos utilizan diferentes tecnologas para su conexin inalmbrica. Desde DECT o Bluetooth para micrfonos-auriculares porttiles a WIFI en los telfonos mviles. Los Walkie-Talkies utilizan la banda de frecuencia de uso libre en FM conocida como PMR 446 donde existen 8 canales de radio. Este sistema de uso libre permite discriminar conversaciones de otros usuarios en el mismo canal de radio mediante el uso de la tecnologa de subtonos. Estos subtonos sirven de cdigo de apertura de la comunicacin. Este cdigo debe estar en concordancia en ambos dispositivos que para que la comunicacin pueda realizarse.
4. Ventajas e inconvenientes
Haciendo un resumen de los sistemas analizados hasta ahora se tiene: Fijo Cableado: dedicado o red LAN Fijo Inalmbrico: red WiFi Fija Mixta: red LAN-WiFi Porttil Automtico. Porttil con PTT. En general, el mayor problema del control por voz radica en la interpretacin de las rdenes de control. El sistema de reconocimiento de voz discrimina las rdenes, es decir, la voz del usuario, de otros sonidos superpuestos que dificultan su reconocimiento. Esta experiencia es de sobra conocida por todos si recordamos alguna comunicacin telefnica con una
3. Sistemas porttiles
Los sistemas porttiles son aquellos que el usuario transporta consigo fcilmente. Su rango de funcionamiento cubre todas las estancias de la
persona que se encuentra en un lugar con mucho ruido de fondo. La solucin para mejorar la inteligibilidad es reducir de alguna forma el ruido de fondo, saliendo fuera de ese restaurante tan ruidoso, o elevando el tono de voz para que este predomine sobre el ruido de fondo. Otro efecto que experimentamos en ocasiones es cuando alguien habla lejos del telfono en modo manos libres. Cuando el hablante se aleja del telfono o mira hacia otro lado el sonido recibido es mucho ms dbil. Por el contrario, cuanto ms cerca est del telfono, mejor se escucha.. Con estos dos ejemplos nos hemos puesto en el lugar del sistema de captacin de voz. Mediante nuestra experiencia personal se puede entender, sin entrar en justificaciones tcnicas, que cunto ms nivel de voz y menos ruido, y cunto ms cerca se hable al captador, mucho ms fcil ser su entendimiento.
de l. El inconveniente, a nivel de usabilidad, que encuentran personas no discapacitadas e invidentes de los dispositivos porttiles es la necesidad de mantener la atencin sobre un dispositivo que tiene que llevarse consigo en el hogar. En bastantes ocasiones suelen encontrar mucho ms efectivo actuar directamente sobre el pulsador situado en la pared, para el encendido de la iluminacin o el control de un automatismo, que localizar el dispositivo captador extraviado en la vivienda. En el caso de discapacitados con silla de ruedas se evita este problema integrando el dispositivo porttil con la silla por medio de un adaptador especfico. Algunos modelos de sillas de ruedas elctricas se pueden integrar con telfonos mviles de ltima generacin. Normalmente este tipo de sillas, adems de la integracin con el mvil, cuentan con uno o varios puertos USB que proporcionan alimentacin de 5V DC. De esta forma se permite la carga de otros dispositivos adicionales, pudiendo ser uno de estos dispositivos el captador de voz. Para minusvlidos que hacen uso de silla de ruedas elctrica, sin duda sera la mejor opcin pues se evitara la limitacin de autonoma de uso, al estar el dispositivo siempre conectado a las bateras de la silla y se beneficiara de la buena relacin seal ruido de los sistemas porttiles. Un inconveniente de los sistemas con PTT, si se usan canales de frecuencia libre (PMR 446), puede ser el uso compartido del canal de radio. Puntualmente es posible que no se pueda realizar una correcta transmisin o recepcin por existir varios usuarios en el mismo canal intentando transmitir simultneamente. Como solucin se recomienda escanear previamente, sin el uso de subtonos, los diferentes canales de radio disponibles hasta encontrar el de menor ocupacin.
contempla la instalacin de una red LAN dentro de las viviendas. Su topologa es en estrella desde el Punto de Acceso a Usuario (PAU), situado en la entrada de la vivienda, donde se instala el hardware del sistema de control, hasta la toma de red de cada una de las estancias. Esta instalacin cableada es ms robusta frente a interferencias electromagnticas que los sistemas inalmbricos. Los sistemas fijos inalmbricos comparten su canal de transmisin (el aire) con otros usuarios de viviendas colindantes. El efecto no deseado cuando se comparte el canal de transmisin es la ralentizacin de las comunicaciones y en ocasiones el bloqueo de estas. En estos casos es necesario cambiar el canal de radio de la conexin WIFI utilizada para que no coincida ni se solape con los ms cercanos. La ventaja de los sistemas fijos inalmbricos respecto a los cableados es su facilidad de instalacin. nicamente se hace necesario conectarlos a la red elctrica para su alimentacin en la estancia que se quiera dotar de control por voz. Las instalaciones mixtas fijas con estancias con conexin cableada y estancias con conexin inalmbrica pueden ser la mejor opcin en muchos casos para aprovechar las ventajas de cada sistema y evitar sus inconvenientes. Una correcta valoracin ahorra costes de instalacin y mejora su eficacia.
Electrodomsticos: lavadoras, lavavajillas, secadoras, microondas, extractores de humos, secadores de pelo, etc. Ruidos exteriores: trfico rodado, gento, fenmenos meteorolgicos, ruidos en viviendas colindantes. Conversaciones de otras personas dentro de la vivienda. El mobiliario proporciona ciertas orientaciones espaciales predominantes en las estancias de una vivienda fijando una serie de posiciones determinadas de uso. Teniendo esto en consideracin y tratando de mejorar la relacin seal ruido, que tiene una relacin directa con la distancia entre el usuario y el elemento captador del sistema de control por voz, se pueden establecer unas recomendaciones genricas de colocacin de los sistemas captadores y emisores para los sistemas fijos. Diferenciando por estancias tpicas de las viviendas se indican a continuacin, y nicamente a modo recomendatorio, las posibles ubicaciones de los dispositivos para un funcionamiento adecuado y un mnimo impacto visual. En el trabajo de ingeniera previo al diseo del sistema debern estudiarse en detalle cada una de las estancias segn el uso al que se vayan a destinar. Como trabajo futuro se plantea una instalacin en un entorno real de uso de los dispositivos de captacin, tanto en las ubicaciones recomendadas a continuacin, por ser las que a priori realizarn una mejor captacin, como en otras ubicaciones menos idneas respecto al reconocimiento ptimo pero con otras ventajas respecto a la instalacin y montaje (en registros de toma en pared, por ejemplo). Se deber realizar la instalacin en cada estancia de una vivienda tpica. Posteriormente todos los de datos capturados debern ser procesados por varios sistemas de reconocimiento de voz. Saln: Si la estancia cuenta con sistemas de reproduccin de audio y video, el mejor lugar para instalar los dispositivos de captura ser, o bien en la pared hacia donde miran los espectadores cuando ven la televisin, aproximadamente a la misma altura que las cabezas de las personas estando sentadas, o bien en el techo justo encima de la posicin central del sof o sillones donde se acomodan los espectadores. La eleccin de una ubicacin u otra dependen del tamao de la estancia. Si la estancia es grande y el espectador est a menos de 3 metros de la pared frontal la opcin del captador en la pared es la ideal. Para distancias mayores entre espectador y pared la opcin del captador en el techo es ms recomendable. Comedor: Si la estancia no dispone de sistemas de audio-video, una instalacin en techo situada cerca del sistema de iluminacin de la mesa es lo recomendable.
Si dispone de sistemas de audio y video se tendrn en cuenta las consideraciones indicadas en la estancia Saln. Cocina: Es el lugar ms crtico por disponer de una gran variedad de electrodomsticos que generan ruido no deseado. Una instalacin en el techo, centrada, para dar una cobertura lo ms equilibrada posible a toda la estancia es la mejor solucin. Bao: La resonancia de los baos suele dar problemas de inteligibilidad, sobre todo si sus dimensiones son grandes. En algunos casos se evita la instalacin de sistemas captadores en estas estancias. En caso de realizarse se puede instalar encima del lavabo en uno de los laterales del espejo. Pasillo: Si su longitud es menor de 4 metros es suficiente con un captador situado en el techo a la mitad de su longitud. Si superan los 4 metros de longitud o estn constituidos por varios tramos ser necesario instalar al menos un elemento captador por cada tramo. Dormitorio: Una instalacin del sistema captador en el techo, lo ms centrada posible, es suficiente para cubrir toda la habitacin. Despacho: Respecto a la posicin de la mesa de trabajo, una instalacin en la pared hacia la que mira el usuario una vez que se encuentra sentado en la silla de trabajo, es la mejor opcin. Como opcin genrica la instalacin en techo es tambin vlida. En resumen, la instalacin en el techo, cerca de los puntos de luz es una primera aproximacin bastante buena ya que la distancia al techo es un valor constante e independiente los cambios de mobiliario y por tanto de la orientacin. Cuando se instalan en pared, la altura debe evaluarse en funcin de sus usuarios y de la posicin que ms tiempo van a adoptar en esa estancia. El efecto conocido por todos cuando se habla en una habitacin vaca donde hay mucha reverberacin es el peor caso para el reconocimiento de voz. La introduccin del mobiliario en la estancia va reduciendo este efecto. Las alfombras, moquetas, cortinas, sofs y sillones adems de proporcionar un valor esttico y de confort, absorben una buena parte del sonido reverberante proporcionando acondicionamiento acstico gratuito y permitiendo una audicin ms confortable a sus habitantes y una mejora en la captacin de la voz. Para estancias grandes con gran resonancia puede ser necesario introducir elementos de acondicionamiento acstico para reducir los tiempos de reverberacin y mejorar su acstica. Existen en el mercado gran cantidad de productos para el acondicionamiento acstico con un gran valor esttico que pueden realizar estas funciones sin afear las estancias. Como futuro trabajo, en complemento al indicado anteriormente, pueden compararse diferentes
7. Situaciones crticas
Los momentos ms crticos son aquellos asociados a un gran nivel de ruido no deseado o a la presencia de ms voces que la del usuario que trata de dar las rdenes de control. Ante estos casos el propio usuario debe ser consciente de las limitaciones del sistema y debe actuar sobre la fuente de ruido siempre que sea posible. Algunas de las acciones cotidianas que ms fcilmente se pueden realizar son: Cerrar las ventanas en presencia de ruido exterior. Reducir el nivel sonoro de la televisin o de los equipos de sonido.
Indicar a otras personas presentes que va a realizar un control por voz y necesita un momento de silencio.
8. Conclusiones
El control por voz puede ser un complemento muy vistoso que aporta comodidad en el control del Hogar Digital para personas sin minusvalas, o puede ser la aplicacin fundamental que mejora la calidad de vida de una persona con limitaciones fsicas. La eleccin del sistema a utilizar va a depender de las circunstancias particulares en cada caso. A nivel tcnico, son ms eficientes los sistemas porttiles, muy recomendables para personas en sillas de ruedas. Los sistemas fijos, con ms inconvenientes que los porttiles para su instalacin en viviendas ya construidas, y menos efectivos en la captacin, son una opcin ms ventajosa para invidentes y para usuarios en general. Para que una instalacin de Hogar Digital funcione adecuadamente, sea fcil de usar y transmita confianza a sus usuarios, debe adaptarse a estos y nunca al contrario. Cuanto ms se humanizan los interfaces, y este es el caso del control por voz, donde el hogar habla y escucha, ms debe aproximarse al comportamiento humano. Es fundamental que los usuarios tengan conocimiento de los problemas que surgen en la comunicacin oral debidos a interferencias externas. Si se tienen en cuenta las consideraciones anteriores el emisor y receptor sern ms empticos entre s y se conseguir una comunicacin mucho ms satisfactoria y efectiva.
[7] Fernando Martn de Pablos, Estudio de la integracin de las tecnologas de reconocimiento de voz para el control y gestin del Hogar Digital. Trabajo fin de Mster. Universidad Europea de Madrid, Madrid, septiembre 2008. http://integrahogardigital.es/docs/PFM.pdf [8] Hannu Soronen, Markku Turumen, Jaakko Hakulinen, Unit of Human-Centered Technnology, Tampere University of Technology, Finland and Department of Computer Sciences, University of Finland Voice Commands in Home Enviroment. http://tapla.cs.tut.fi/pub/p1324.pdf [9] Pasi Pertila, teemu Korhonen and Ari Visa. Department of Signal Processing, Tampere University of Technology, P.O. Tampere, Finland Measurement Combination for Acoustic Source Localization in a Room Enviroment. EURASIP Journal on Audio, Speech and Music Processing. Volume 2008, Article ID 278185 http://downloads.hindawi.com/journals/asmp/2008/278185.p df [10] Jeremy Anderson, John Harris, University of Florida, Quantifying the Effect of Room Response on Automatic Speech Recognition Systems. Audio Engineering Society. Convention Paper 7548. 2008 October 2-5. [11] Sean E. Olive and Floyd E. Toole The detection of Reflections in Typical Rooms. National Research Council, Division of Physics, Ottawa, Canada. J Audio Eng. Soc. Vol 37, No. 7/8 1989 July/August. [12] Guillermo Prez, Gabriel Amores & Pilar Manchn. A Multimodal Architecture for Home Control by Disabled Users. Proceedings of IEEE/ACL Workshop on Spoken Language Technology (SLT), Aruba. December 2006. [13] J. Gabriel Amores, Guillermo Prez & Pilar Manchn. MIMUS A Multimodal and Multilingual Dialogue System for the Home Domain. Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, pages. 1-4. ISBN: 978-1932432-87-9. 23-30 June 2007.
9. Referencias
[1] Speak Home. http://www.alhenaing.com/index.php [2] Indisys. http://www.indisys.es [3] Proinssa. http://www.proinssa.com [4] InVox. http://www.vocali.net/invox/es/index.html [5] Ipdomo. http://www.ipdomo.com/index.htm [6] Home Systems. http://www.homesystems.es