Documente Academic
Documente Profesional
Documente Cultură
1. Introducción
Una laringectomía total (TL) se refiere a la remoción completa de la laringe y la
separación de la vía aérea de la boca, nariz y esófago. Como consecuencia, los pacientes que
fueron sometidos a una TL no pueden producir sonidos de habla de manera convencional,
debido a la remoción de sus cuerdas vocales. Por lo tanto, el objetivo principal del proceso
postquirúrgico consiste en recuperar una nueva voz. Tres opciones son posibles hoy en día
para una rehabilitación después de una TL: Voz esofágica, electrolaringe y habla
traqueoesofágica.
En esta publicación, nos enfocamos en el análisis del habla traqueoesófagica (TE) que como se
ha demostrado en diversos estudios, es una opción de rehabilitación superior a la voz
esofágica y la electrolaringe.
Desde que el esófago y la tráquea son separados después de la TL, un agujero llamado
Traqueostoma es creado en el cuello del paciente para permitir la respiración. En la cirugía
de voz TE, una fistula quirúrgica (llamada punción Traqueoesofágica) es creada en la pared
que esta separando la tráquea y el esófago, permitiendo el posicionamiento de la prótesis
fonatoria. Las diferencias fisiológicas antes de la TL después de la creación de la punción
traqueoesofagica (TE) son ilustradas en la figura 1.
La prótesis fonatoria actúa como una válvula de un sentido: Un flujo de aire puede pasar
desde la tráquea al esófago y además a las cavidades del tracto vocal, permitiendo la
producción del habla; el pasaje desde el esófago a la tráquea hace imposible evitar que los
alimentos o bebestibles ingeridos por el paciente penetren en la tráquea y bajen a los
pulmones.
Cuando se esta produciendo el habla TE, el flujo de aire que esta pasando a través de la
prótesis fonatoria genera en algunos pacientes, la vibración de algunos órganos residuales
llamados segmento faringoesofágico. Cuando el control de este neovibrador (también
llamado neoglotis) es conseguido, los pacientes están capacitados para producir sonidos
vocales, pero generalmente con un bajo nivel de tiempo fonatorio. Como consecuencia,
aunque el habla TE permite recobrar un nuevo medio de comunicarse, padece la mayor parte
del tiempo de una disminución de la naturalidad y la inteligibilidad. En adición, la
individualidad/personalidad del hablante es a menudo perdida (especialmente las pacientes
femeninas), principalmente debido a dos razones: (i) la vibración de la neoglótis,
generalmente ocurre en una frecuencia fundamental baja comparado a la voz normal; (ii) la
forma espectral generada por la vibración de la neoglótis puede ser radicalmente diferente a
la de las cuerdas vocales. En Singer et al. (2012), estos inconvenientes fueron observados
incluso de manera más pronunciada en la voz esofágica y la electrolaringe.
Varios trabajos se han dirigido a la evaluación de la manera en como es percibida la
voz TE. Esta aceptabilidad e inteligibilidad ha sido comparada en Most et al (2000) a las de
ambas voces, laríngea y esofágica. A pesar de que ambos aspectos son degradados cuando los
comparamos con el habla normal laríngea, resulta que el habla TE es percibida por ser más
aceptable que una buena habla esofágica mientras que ambas voces, voz laríngea y esofágica,
tienen un nivel similar de inteligibilidad. El estudio conducente en Singer et al (2012)
investigó la evolución de la inteligibilidad en el habla sin laringe durante el primer año de
seguimiento de la cirugía TL. Pacientes con un prótesis TE, fueron observados por tener los
mejores resultados. Los autores también enfatizaron la mejora de los pacientes dentro del
primer año, tanto como la necesidad de asistir a las sesiones de rehabilitación durante este
periodo.
La comparación entre habla TE y voz laríngea o otros tipo de voz alaringea también
han sido abordados sobre la base de algún parámetros acústico. En Robbins et al (1984), el
hable TE ha sido utilizado usando las características de frecuencia, intensidad y duración.
Basado en estas características, se demostró que el habla TE era más similar al habla normal
que el habla esofágica, y más intensa que ambos otros tipos de habla. Most et al (2000)
observó que la mayoría de las diferencias entre habla laríngea y alaringea reside en la
frecuencia fundamental de la señal. Un sistema que traduce una señal acústica basado en una
inspección visual de un espectrograma de banda estrecha, fue propuesto en Van As-Brooks et
al (2006). De acuerdo con esta herramienta de visualización, el usuario puede clasificar el
habla TE que le proporcionó un paciente entre 1 de 4 categorías predefinidas. Los autores
también mostraron la conexión de esta clasificación con algunas características acústicas
(desviación estándar de F0, Jitter, proporción de la voz hablada y la diferencia de la banda
energética). El estudio conducente en Siric et al. (2012) investigó las diferencias entre TE y
habla esofágica, basándose en los siguientes mediciones acústicas: Intensidad, máximo tiempo
fonatorio, F0, jitter, shimmer y el HNR. Los autores aún no han encontrado alguna diferencia
estadística significativa por lo que concluyeron que cada paciente un acercamiento individual.
Sin embargo, el valor promedio del F0, la intensidad y el máximo tiempo fonatorio demostró
la superioridad de la rehabilitación de habla TE.
En la gran mayoría de los casos, el habla TE es evaluada usando cuestionarios
completados por los pacientes y/o una escala perceptual usada por un Fonoaudiólogo. Varios
instrumentos de autoevaluación de pacientes han sido diseñados para medir la calidad de
vida con disfonía específicamente. Estos incluyen el índice de desventaja vocal (VHI, Moerman
et al. 2004), el cual mide el efecto de desventaja psicosocial de los desordenes de voz, la
medición del relato hablado de la calidad de vida del paciente (V-RQOL, Schindler et al 2012)
o los cuestionarios generales de la Organización Europea de Investigación y Tratamiento del
Cáncer (EORTC), Alvarez-Buylla Blanco y Herranz González-Botas, 2011. La evaluación
perceptual involucra un rating de fonación hecho por los Fonoaudiólogos usando una escala
dedicada. Para este propósito, la escala GRBAS (De Bodt et al. 1997) fue diseñado para la
evaluación general de los desordenes de voz. La escala IINFVo fue propuesta en (Moerman et
al. 2006) específicamente para la evaluación de sustitución sonora. En esta escala, cinco
parámetros son definidos: impresiones generales (I), impresión de la inteligibilidad (I), ruido
aditivo no deseado (N), flujo (F) y sonoridad (Vo). Finalmente, el trabajo en De Bodt et al.
(2002) esta dirigido a expresar la inteligibilidad del habla Disartrica como una combinación
lineal de la calidad vocal, articulación, nasalidad y prosodia.
Los instrumentos antes mencionados permiten una evaluación del habla TE, sin
embargo se exhiben algunos inconvenientes: (i) son los objetivos que se basan en el criterio
propio del paciente, o el del Fonoaudiólogo. Las mediciones resultantes van a esta afectados
por una inherente variabilidad; (ii) Requieren mucho tiempo. En relación a superar estos
inconvenientes, la meta de esta publicación es entregar automáticamente herramientas
acústicas permitiendo una evaluación del habla TE objetiva y cuantitativa. Esta publicación se
basa en nuestro estudio preliminar descrito en Drugman et al. (2013) comparado con
Drugman et al. (2013), tenemos que ampliar aún más el estudio de los artefactos presentes en
el habla TE para llegar a cinco dimensiones relevantes, para la caracterización de cual
herramienta acústica automática especifica esta desarrollándose y compararla con otras
técnicas. Estas cinco dimensiones relevantes incluyen la periodicidad y la regularidad de la
señal, su ruido de alta frecuencia, rango de habla, y la cantidad creakiness/garglings en la
voz. Basado en las dimensiones propuestas, las diferencias entre la voz normal laríngea
(incluyendo un grupo control de personas de edad avanzada) y el habla TE, son estudiados
variados sujetos (conteniendo 63 grabaciones de habla TE y 21 de sujetos control).
Además, un estudio estático es llevado a cabo para investigar la significancia de estas
diferencias. Estas nuevas herramientas son encajadas en una escala propuesta dedicada a la
evaluación objetiva del habla TE, llamada A4S (entendido esta abreviación como Evaluación
Automática Acústica del Habla Alaringea). Finalmente, ilustramos la aplicabilidad del A4S
en el seguimiento de los pacientes y en el estudio del impacto del tipo de cirugía usado para el
TL, discutiendo sus perspectivas.
El resultado de este trabajo es doble. Primero, la escala propuesta permite una
evaluación objetiva de la calidad de la voz de los pacientes a través de varias dimensiones.
Esta información puede ser usada por el Fonoaudiólogo para varios propósitos: (i) para
concentrarse en aspectos específicos de la voz, (destacados por la evaluación propuesta), (ii)
para comparar varios enfoques de rehabilitación de voz, (iii) para mantener un seguimiento
del paciente. Segundo, el conocimiento de estas características es esencial en el diseño de los
sistemas de ayuda de habla destinadas a resintetizar una versión mejorada del habla TE
(como en Qi et al., 1995 o Del Pozo y Young, 2006). En efecto, para mejorar la naturalidad e
inteligibilidad del habla TE, desarrollamos métodos que tienen procesos integrados para
aligerar tales características.
Como se indicó anteriormente, algunos estudios en la literatura han ya reportado un
análisis acústico del habla TE (Most et al. 2000; Robbins et al. 1984; Van As-Brooks et al.
2006; Siric et al. 2012). En adición a esto el trabajo descrito en Huang et al. (2009) investigó el
uso que tienen las técnicas de análisis acústicos existentes, originalmente desarrollado para el
análisis de habla telefónica de banda estrecha, a fin de estimar las cualidades del habla TE.
Con el mismo objetivo en mente, se empleó el modelo auditivo Moore-Glasberg en McDonald
et al. (2010) para extraer características perceptivamente relevantes de la señal acústica. Los
resultados mostraron que la correlación entre las puntuaciones subjetivas y las predicciones
objetivas obtenidas mediante las características del modelo auditivo, era mejor que con las
características de uso común en la industria de las telecomunicaciones. Sin embargo, el
modelo auditivo Moore-Glasberg requiere el uso de una señal de referencia (es decir, de habla
para que la misma frase sirva como una línea de base, generalmente de "buena" calidad), y
consecuentemente del mapeo de tiempo-frecuencia entre las señales probadas y de
referencia. Por último, el enfoque que en Maier et al. (2009) propusieron para predecir las
puntuaciones subjetivas basadas en la tasa de reconocimiento de palabras (WRR) obtenida
mediante un sistema de reconocimiento de voz automático. Se demostró que WRR se
correlaciona fuertemente con la inteligibilidad de la voz. Una evaluación similar basada en el
reconocimiento de voz automático de expresión TE se llevó a cabo que en Haderlein (2007).
Sin embargo los estudios existentes antes mencionados, por lo general sufren de
varios inconvenientes que tratamos de superar en este documento. En primer lugar, las
posibles características nunca se han categorizado y la evaluación de expresión TE en base a
un análisis acústico implica generalmente una calificación a lo largo de una sola dimensión: la
calidad de voz perceptual o la inteligibilidad. En segundo lugar, el análisis acústico o bien
requiere una inspección manual de las señales o se basa en herramientas automáticas
disponibles se utilizan generalmente en forma de caja negra. Estas últimas herramientas en
general se han diseñado para el habla laríngea normal, tienen una solidez baja y por lo tanto
no son adecuadas para el análisis de expresión TE. Por otra parte, la mayoría de las medidas
se derivan de la información F0 cuya estimación es problemática si las herramientas de
análisis son inapropiadas. En tercer lugar, los estudios en general o bien implican un número
limitado de pacientes de TE, o únicamente se basan en vocales sostenidas. En este trabajo, nos
dirigimos a un análisis automático realizado en el habla de lectura continua de un número
bastante grande de pacientes con una punción TE. Las características se clasifican y métodos
automáticos robustos para su caracterización acústica se desarrollan y se integran en la escala
A4S propuesta.
Este documento está estructurado de la siguiente manera. La sección 2 ofrece una
descripción de la base de datos utilizada en nuestro estudio. Las características presentes en
el habla TE se investigan en la Sección 3, donde se desarrollan los métodos de análisis
automático para su caracterización. La escala A4S propuesta se describe en la sección 4 y su
potencial aplicabilidad se demuestra en la Sección 5, en donde también se discuten sus puntos
de vista. Por último, la sección 6 concluye el documento y discute nuestros trabajos futuros.
Si la producción del habla es estratificado y por el modelo AR perfecto, con la voz del
habla se caracterizaría por una señal residual LP siendo un tren de impulsos ideal, y el error
LP sería mínimo. Cuanto más fuerte es la turbulencia durante la fonación, la señal de
excitación más ruido e irregularidades contiene, y más se desvía de la secuencia de impulsos
ideal. Una fonación irregular se refleja por errores LP normalizados de mayor tamaño.
Finalmente, los períodos cortos temporales dinámicos (STTD) que se propuso en Falk et al.
(2012) para caracterizar las perturbaciones de patrones rítmicos. STTD puede ser calculado
como la desviación estándar de la tasa de inicio de energía del cambio, que se define como la
primera derivada de coeficiente cepstral de orden cero. Se ha demostrado en Falk et al. (2012)
para ser un buen indicador de inteligibilidad disartrica de la palabra.
Los resultados se muestran en la Fig. 3. Estas distribuciones reflejan el mismo
fenómeno: la regularidad en el grupo de TE es mucho menor. Estas diferencias se observaron
para ser estadísticamente significativas (p <0,001) para los cuatro parámetros (que emplean
una prueba t para CGD, las variaciones espectrales y STTD, y una prueba de MWW para el
error LP normalizado). Una vez más, el efecto del envejecimiento se puede ver en el conjunto
de control que es menos regular en comparación con las bases de datos de TTS. Vale la pena
señalar en este punto que la periodicidad y la regularidad son dos aspectos complementarios
de la palabra. Como se discutió en la sección 3.1, estas dos dimensiones son de sólo poco
correlacionados. Por ejemplo, hemos observado que algunos pacientes son capaces de
producir el habla TE con una periodicidad aceptable, pero con una regularidad baja, o
viceversa.
Por el contrario, para algunos otros, la cantidad de ruido HF puede ser relativamente
alta. Una manera de explicar estas diferencias es el hecho de que la producción en el segmento
de PE puede ser alterado fuertemente en comparación con la vibración en la glotis en el habla
laríngea normal. Como consecuencia de ello, el habla TE carece de la conformación espectral
impuesta por la fuente glotal y se caracteriza principalmente por una baja frecuencia de
resonancia llamada formante de la glotis (Drugman et al, 2011a;. Drugman, 2011). Como se ha
indicado anteriormente, este efecto podría ser reforzada aún más por la falta de control de la
válvula en el traqueostoma.