El objetivo tecnológico principal es el desarrollo de un prototipo
de una herramienta innovadora para el soporte a la producción en diferido de subtítulos para contenidos audiovisuales. Una herramienta de estas características implica unos importantes retos tecnológicos y científicos que se pueden dividir en tres áreas:
Reconocimiento del habla. Analizar, evaluar, definir e integrar una herramienta
de reconocimiento automático del habla con modelos independientes de locutor y en condiciones ambientales no controladas con ruidos, música de fondo, etc. Queda fuera del ámbito de este proyecto el desarrollo de esta herramienta como tal. Sin embargo, el reto tecnológico en estos casos es lograr la mejor integración posible con el sistema completo, a la vez que garantizando un diseño modular que permita la eventual sustitución de esta herramienta por otra más adecuada que pudiera surgir en el futuro.
Sincronización o alineamiento de la salida del reconocedor de voz con el guión
original del programa, para poder asociar las marcas de tiempo correspondientes a las intervenciones de cada hablante. Se trata de un problema complejo estudiado en el mundo de la investigación, que aúna dos áreas de trabajo: tratamiento de la señal de audio, obviamente, y el procesamiento del lenguaje natural, en lo que respecta a la comparación “borrosa” o aproximada de texto (el guión del programa), correctamente escrito y fiable, y la transcripción del reconocedor de voz, con errores y poco fiable. El principal reto es lograr implementar un algoritmo que permita obtener la mayor calidad posible del proceso de alineamiento, medida en términos de la precisión de las marcas de tiempo incluidas en los subtítulos.
Procesamiento de lenguaje natural aplicado a la generación de subtítulos
conformes a la norma UNE 153.010. La norma viene a normalizar un gran número de aspectos que intervienen en la realización del subtitulado para personas sordas por el teletexto de televisión. Se tiene como objetivo diseñar e implementar un módulo de procesamiento lingüístico para la partición del guión del programa en subtítulos que sean conformes a la norma UNE 153.010, para asegurar la mejor calidad posible. Este supone otro importante reto de tipo científico-tecnológico por la dificultad inherente al procesamiento del lenguaje natural, y en ciertos aspectos aún más por el castellano, por la dificultad del análisis morfosintáctico y la ambigüedad semántica. Actualmente se está trabajando en la extensión de la norma UNE 153.010 para contemplar otros medios de difusión como son la TDT o Internet, que caen también dentro de los objetivos de la presente propuesta.
Por último, para que estos módulos anteriores definidos a partir
de los objetivos sean útiles en el proceso de subtitulado en RTVE, es necesario integrarlos en una herramienta de subtitulado útil para las personas involucradas en el proceso que pudiera servir de prototipo.