Documente Academic
Documente Profesional
Documente Cultură
Fundamentos y evaluación
de la voz
Marco Guzmán
© Editorial EOS
Fundamentos y evaluación de la voz 247
1. FISIOLOGÍA FONATORIA
La laringe participa en muchas funciones que permiten la comunicación y también la
mantención de la vida. El propósito de este apartado es describir a la laringe como una vál-
vula parcial o completamente cerrada, capaz de producir fonación. La fonación es determi-
nada por características neuromusculares, biomecánicas, acústicas y aerodinámicas que, a
su vez determinan la duración, tono, sonoridad, cualidad, registro vocal y movimientos de
los pliegues vocales a través del control en el largo, masa, tensión, contorno de los pliegues
vocales, aducción de los aritenóides, presión subglótica y tamaño y forma del tracto vocal.
Vistas desde arriba, los pliegues vocales parecen dos bandas que se despliegan a tra-
vés de las vías respiratorias. Están unidos a la parte anterior e interna del cartílago tiroides
y cada uno de ellos está además unido a un cartílago aritenoides en la parte posterior
de la laringe (Figura 1). Los cartílagos aritenoides son capaces de realizar movimientos
complejos causando que los pliegues vocales se contacten (aducción), o se separen (ab-
ducción) abriendo las vías respiratorias para la respiración1.
El espacio entre los pliegues vocales es llamado glotis. Considerando que los pliegues
vocales son móviles, la glotis puede ser muy grande (en abducción completa como ocurre
en la inspiración) o incluso llegar a no existir (en aducción como ocurre durante la fona-
ción normal). 1, 2
© Editorial EOS
248 Trastornos del habla: de los fundamentos a la evaluación
El cuerpo de los pliegues vocales está envuelto por una capa llamada la cubierta. Su
estructura es bastante compleja. La capa superficial de la cubierta está formada por tejido
epitelial. Bajo de este epitelio hay una malla de fibras que de alguna manera se asemeja
© Editorial EOS
Fundamentos y evaluación de la voz 249
a una banda elástica (lámina propia). Esta estructura está particularmente bien formada
cerca del borde de la porción superior del pliegue vocal, donde se constituye el ligamento
vocal. Esta estructura tiene propiedades mecánicas inherentes bien definidas, pero dife-
rentes al cuerpo de los pliegues vocales, estas propiedades no pueden ser alteradas nor-
malmente. La cubierta está unida de una forma relativamente suelta al cuerpo. Similar a
la piel en la parte posterior de la mano, es parcialmente libre para ser deslizada sobre las
capas inferiores del cuerpo de los pliegues vocales. 4
Figura 4. Esquema de los pliegues vocales en sección transversal durante la fonación (Traducido)85
Al comienzo del ciclo fonatorio, los pliegues vocales están juntos. Note que la sección
de área transversal es una porción con una superficie plana arriba y sección inferior con
cierto grado de inclinación. 2,3 En este estado, se dice que la glotis está convergente. Se
caracteriza por un estrechamiento hacia la parte superior, desde un extremo inferior rela-
tivamente amplio. La aproximación de los pliegues vocales cierra las vías respiratorias y
por lo tanto no hay flujo de aire. Toda la presión del aire en los pulmones actúa sobre la
superficie inclinada de las paredes glóticas. Esta presión tiende a empujar a los pliegues
vocales hacia afuera y la separación aumenta a medida que la presión incrementa. Final-
mente, la presión fuerza la separación hasta la superficie superior de los pliegues vocales
y así aparece el espacio glótico. 5
© Editorial EOS
250 Trastornos del habla: de los fundamentos a la evaluación
es estirado más y más. Como una banda elástica, a medida que es estirada, mayor será la
tendencia de ésta a regresar a su forma inicial. Luego de un momento, estas fuerzas de
restauración comienzan a superar la fuerza de la presión de aire que separa los pliegues
vocales. La porción superior de los pliegues vocales entonces comienza a moverse hacia
la línea media. Finalmente la glotis restaurará su posición original cerrada y el ciclo está
listo para ser repetido otra vez. 3
Es interesante ver que los márgenes superiores e inferiores de los pliegues vocales no
se mueven en sincronía. La parte inferior está siempre más adelantada en sus movimien-
tos que la parte superior. Esto comienza con la separación de la zona inferior y luego con
el retorno más temprano hacia la línea media. Esto se conoce formalmente como la dife-
rencia de fase vertical, la cual es crucial para el mantenimiento de la fonación normal. 2
© Editorial EOS
Fundamentos y evaluación de la voz 251
Figura 6. Dos ciclos sucesivos de flujo glótico. El flujo aumenta hacia arriba en forma vertical86.
El corte rápido del flujo es particularmente importante, porque éste determina el mate-
rial en bruto para la producción del sonido vocal. El corte relativamente abrupto del flujo
de aire que caracteriza a la onda glótica crea el mismo efecto en el tracto vocal (boca,
laringe, faringe). Un impulso es producido, el cual excita la vibración de las moléculas de
aire en el tracto vocal. Esa excitación es la voz en un estado no refinado. 3, 6
La velocidad con que ocurren estos impulsos determina la frecuencia fundamental (F0)
de la voz y es medida en Hertz (Hz). El tiempo que transcurre entre dos ciclos es llamado
periodo, el cual es medido en milisegundos. Como cualquier onda compleja (como los im-
pulsos que la laringe entrega al tracto vocal) es compuesta por una serie de tonos puros (ar-
mónicos), por lo tanto la señal de la fuente glótica entrega una variada gama de frecuencias,
las cuales pueden ser seleccionadas por el tracto vocal creando la señal de la voz final. 3, 6
© Editorial EOS
252 Trastornos del habla: de los fundamentos a la evaluación
Cada ciclo fonatorio libera aire a través del flujo glótico, el cual es el encargado de
generar el sonido. En la fonación normal, la excitación acústica es creada a través de la
variación del flujo. La Figura 8 muestra dos ciclos del flujo glótico. El periodo T, el cual
es de 10 ms (por lo tanto la F0 es igual a 100 Hz). La velocidad de flujo glótico (en litros
por segundo) comienza a excitar la glotis gradualmente, se eleva hasta un punto máximo,
y luego cesa de una forma relativamente abrupta. El aire excita la glotis desde el punto
A hasta el punto B durante el movimiento lateral y luego medial de la parte membranosa
de los pliegues vocales. La glotis está cerrada, o casi cerrada entre los puntos B y C. La
cantidad de aire durante este intervalo corresponde a la perdida de aire que ocurre cuando
los cartílagos aritenoides están separados en algún grado. 10
Figura 8. Forma de onda del flujo glótico (arriba). Derivada de la forma de onda de flujo glótico (abajo).
© Editorial EOS
Fundamentos y evaluación de la voz 253
La percepción del tono de la voz puede ser afectada por la existencia de inconsisten-
cias entre ciclos consecutivos durante la fonación. 5 El tiempo entre excitaciones acústicas
primarias de un ciclo a otro varía levemente durante la fonación normal, ayudando a crear
una cualidad de voz normal y la percepción de un solo tono. Sin embargo, la variación
del periodo se puede incrementar si existen anormalidades en los tejidos de los pliegues
vocales tales como inflamación, nódulos, pólipos y rigidez, causando inconsistencia en el
flujo glótico y en la vibración de un ciclo a otro. En forma consecutiva, estas variaciones
en los periodos pueden también crear un flujo turbulento de aire a través de la glotis, pro-
duciendo una cualidad de voz soplada y agregando ruido a la señal acústica. 5
La percepción del tono y de la cualidad vocal también puede ser afectada por cambios
que ocurren sobre periodos de tiempo más largos que un ciclo fonatorio. La diplofonía
(existencia de dos tonos simultáneos) 13 y los subarmónicos (divisores enteros de la fre-
cuencia fundamental) se producen por modulaciones múltiples de la señal de flujo glótico
(Figura 9). 14-17
El tono puede ser también alterado por congestión de fluidos (edema). La explicación
común para la caída del tono en personas con edema es que masas más grandes producen
frecuencias fundamentales más bajas. 18
© Editorial EOS
254 Trastornos del habla: de los fundamentos a la evaluación
© Editorial EOS
Fundamentos y evaluación de la voz 255
La tensión de la cubierta de los pliegues vocales puede ser cambiada (y por lo tanto
también la frecuencia fundamental) por ajustes externos que afectan el largo de los plie-
gues vocales. El hecho de tirar el hueso hioides hacia anterior por los músculos suprahioí-
deos puede ayudar a la inclinación del cartílago tiroides hacia adelante, hacia la posición
donde el borde inferior se acerca al borde superior del cartílago cricoides (similar a la
función del músculo cricotiroídeo), por lo tanto incrementa el largo de los pliegues voca-
les y esto a su vez sube la frecuencia fundamental. 22 Además, es posible que el cartílago
cricoides pueda ser inclinado hacia abajo y en la zona posterior, acortando el largo de
los pliegues vocales producto de un tiramiento traqueal inferior. Esto se produciría por
un descenso del diafragma con niveles altos de volumen pulmonar (o por co-activación
del diafragma durante la fonación), induciendo a un descenso del tono, a menos que sea
compensado por un aumento de la actividad del músculo cricotiroideo. 22
© Editorial EOS
256 Trastornos del habla: de los fundamentos a la evaluación
La intensidad vocal es una función de la cantidad de excitación que las ondas glóticas
entregan al aire en el tracto vocal. Es fácil ver que si todo el resto permanece constante,
a mayor amplitud de la onda glótica, mayor será la excitación del tracto vocal y por lo
tanto la señal vocal tendrá mayor intensidad. Al subir la presión de aire aumenta el aire
que es empujado a través de la glotis cuando ésta es abierta. Esto produce una onda de
flujo glótico más alta. Por lo tanto, al incrementar la presión pulmonar aumenta la inten-
sidad vocal. 1, 10
Sin embargo, se señaló antes que la repentina cesación del flujo glótico es la primera
responsable de poner el aire del tracto vocal en vibración acústica. Mientras más abrupto
es el corte de flujo, mayor será la excitación del tracto vocal y más intensa será la señal
© Editorial EOS
Fundamentos y evaluación de la voz 257
vocal. Una intensidad vocal mayor, es de hecho, asociada una abrupta fase de cierre del
ciclo glótico. Este efecto el logrado no solamente por la alta presión, sino que también
por cambios voluntarios en la biomecánica de los pliegues vocales que tienden a resistir
el incremento del flujo de aire que la alta presión produce. En consecuencia, la intensidad
es producida por una interacción regulada de la presión de aire y una resistencia glótica
al flujo de aire incrementada. 1, 10
© Editorial EOS
258 Trastornos del habla: de los fundamentos a la evaluación
Figura 12. Forma de onda flujo glótico y su correlación con el movimiento de los pliegues vocales.
Cuando existe una mayor inclinación, acústicamente esto se relaciona con una mayor
energía en los armónicos altos del espectro de la voz y por lo tanto existe una percepción
de voz más brillante y más sonora. Las cualidades de la voz dependen de la forma de la
onda de flujo glótico. Espectralmente, la cualidad de voz soplada tiene primariamente
mayor energía en los primeros dos parciales, mientras que en las cualidades de voz normal
y apretada, la energía está distribuida en los armónicos de alta frecuencia. Por esta razón
en las voces sopladas la pendiente espectral es relativamente abrupta (Figura 13), mientras
que en las voces normales y apretadas la pendiente es menos inclinada (Figura 14). 10
Figura 13. Espectro voz soplada con pendiente espectral general abrupta y dos primeros
armónicos con predominio de energía
© Editorial EOS
Fundamentos y evaluación de la voz 259
Figura 14. Espectro voz normal con pendiente espectral general gradual y energía más
concentrada en armónicos de alta frecuencia.
© Editorial EOS
260 Trastornos del habla: de los fundamentos a la evaluación
causado por la mayor separación glótica que es creada cuando la presión subglótica es
incrementada. A medida que el valor máximo de flujo glótico incrementa, el nivel de
intensidad de la frecuencia fundamental crece. 30 Adicionalmente, un incremento en la
presión suglótica puede causar que los pliegues vocales regresen más rápido a la línea
media, luego una mayor excursión lateral, creando un corte del flujo más abrupto cerca
de la línea de base, produciendo un aumento de la energía espectral. Por lo tanto, una
presión subglótica mayor puede contribuir a incrementar el pico del flujo, aumentando
la derivada del flujo máximo y haciendo la esquina de corte de flujo cerca de la línea de
base más abrupta. Estos efectos cambian la forma del espectro incrementando el nivel de
intensidad de la frecuencia fundamental e incrementando la intensidad de los sobretonos,
por lo tanto subiendo la intensidad total de la voz. 39
La fonación requiere una cantidad mínima de presión subglótica para poner a los
pliegues vocales en vibración (umbral de presión de la fonación) 38 y luego para mantener
la fonación. Si los pliegues vocales están ubicados dentro del rango fonatorio, la presión
subglótica se coordina con las características de los tejidos de los pliegues vocales (rigi-
dez, masa y amortiguación) para causar que ellos comiencen el ciclo vibratorio. 38
© Editorial EOS
Fundamentos y evaluación de la voz 261
menos presión supraglótica). Para parar la fonación, los pliegues vocales pueden estar
sobre aducidos, sobre abducidos, o la presión trabsglótica puede ser descendida a través
de la disminución de la presión subglótica o el aumento de la presión supraglótica por
medio de una oclusión supraglótica. Los cuatro métodos son utilizados en la producción
normal del habla. Estos mecanismos de cese de la fonación pueden ser comprometidos
potencialmente por alguna disfunción de los aritenoides, alteración respiratoria o articu-
latoria. También una aducción anormal puede ser causada por alteraciones o cambios en
los tejidos de los pliegues vocales. 10, 40
Para entender cuáles son las medidas aerodinámicas de la fonación y cómo interac-
túan entre ellas, se recordará en forma general el proceso de producción de la voz a nivel
glótico. La voz es producida cuando la presión subglótica de aire, generada por un volu-
men pulmonar de aire exhalado, excede la resistencia de los pliegues vocales que están
aducidos, causando que éstos sean activados y así a su vez causar un flujo de aire que los
pone en oscilación. Cuando los pliegues vocales oscilan, se emiten pulsos de aire desde la
glotis para generar la energía acústica, la cual entra posteriormente al tracto vocal y es fi-
nalmente percibida como voz cuando ocurre el proceso de radiación hacia la atmosfera.41
Esta breve descripción del proceso de fonación muestra de manera implícita que ele-
mentos como el volumen de aire, la presión de aire, flujo de aire y la resistencia a este
© Editorial EOS
262 Trastornos del habla: de los fundamentos a la evaluación
3.2. Flujo
La medida de flujo de aire, a su vez se divide en dos parámetros: el volumen de flujo y
el promedio de velocidad de flujo. El volumen de flujo es la cantidad total de aire utilizada
durante una tarea de habla y es medido en litros (lt) o mililitros (ml). Cuando el volumen
es medido durante la producción de una fonación sostenida al máximo de tiempo posible,
es llamado volumen fonatorio. Para medir el volumen fonatorio, el paciente debe tomar la
inspiración más profunda posible y luego sostener lo más establemente posible una vocal.
En adultos, el volumen fonatorio normal es de 1500-4000 ml, dependiendo del género y
talla del paciente. 42, 43 Este parámetro permite estimar la capacidad de suministro de aire
para la voz y el habla.
© Editorial EOS
Fundamentos y evaluación de la voz 263
Figura 15. Equipo para la realización del examen de las medidas aerodinámicas de la fonación.
Durante la producción de la voz, el flujo de aire que pasa a través de la laringe está so-
metido a rápidas variaciones o cambios provocados por la vibración de los pliegues vocales.
Este flujo es de interés clínico porque revela información relacionada con la naturaleza de la
función vocal en la generación de la fuente de excitación laríngea hacia las cavidades faríngea
y oral. El contenido espectral de la fuente de la voz es a menudo derivado como un reflejo de
la naturaleza de los pulsos de flujo en cada ciclo de vibración de los pliegues vocales. 42, 43, 44
Los pacientes con hiperfunción glótica severa (hiperaducción) o fonación con vocal
fry pueden presentar promedios de velocidad de flujo muy bajos (10-15 ml/seg). Pa-
cientes con incompetencia glótica (hipoaducción) pueden presentar valores muy altos
(400-600 ml/seg. La Figura 16 grafica los modos de fonación señalados. Pacientes con
alteraciones de origen neurológico pueden mostrar un flujo irregular e inestable. 42, 43 La
Figura 17 muestra las medidas de flujo glótico antes y después de una terapia vocal.
Figura 16. Este gráfico muestra como el flujo de aire transglótico (línea gris) aumenta desde
una fonación apretada (izquierda), pasando por una fonación normal (tercio medio) y llegando a
una fonación soplada (tercio derecho). A medida que disminuye la resistencia (aducción) de los
pliegues vocales, el flujo de aire incrementa entre ellos.
© Editorial EOS
264 Trastornos del habla: de los fundamentos a la evaluación
3.3. Presión
3.3.1. Presión subglótica
La presión, en términos físicos, es definida como la fuerza por unidad de área, ac-
tuando perpendicularmente en esta área. En el caso de la fonación, la presión subglótica
(medida en cm de H2O) actúa como una fuerza debajo de los pliegues vocales, subiendo
hasta que supera la resistencia que éstos oponen y dando comienzo así a la oscilación. 46
La presión subglótica es la energía disponible para la creación de la señal acústica de la
voz. En sujetos normales, la presión subglotica necesaria para una fonación a intensidad
conversacional es entre 5 y 10 cm de H2O. 42, 45-47
En una persona con alguna alteración funcional u orgánica, los pliegues vocales tienen
un umbral de presión de la fonación aumentado, es decir, para poder iniciar o mantener la
fonación necesitará mayor cantidad de presión subglótica comparado con una persona con
pliegues vocales sanos. El umbral de presión de la fonación ha sido asociado con la sensa-
ción de esfuerzo fonatorio. De esta forma, una persona que refiere un alto grado de esfuerzo
© Editorial EOS
Fundamentos y evaluación de la voz 265
Algunos elementos que afectan el valor del umbral de presión de la fonación, además de
los ya mencionados, son la frecuencia fundamental, el grado de hidratación de los pliegues
vocales, presencia o no de fatiga vocal. Pliegues vocales bien hidratados, vibrando a una
frecuencia fundamental adecuada para cada sujeto y en ausencia de fatiga vocal, deberían
presentar un bajo umbral de presión de la fonación y baja sensación de esfuerzo al fonar. 51
3.4. Resistencia
Resistencia es entendida en términos generales como lo opuesto al movimiento. La re-
sistencia glótica es una medida derivada que combina las medidas de presión subglótica y
de velocidad de flujo transglótico. La resistencia glótica no puede ser medida directamente,
sino que se calcula dividiendo la presión subglótica por el promedio de velocidad de flujo. 42
Esta medida sirve como una estimación de la función de válvula de la laringe. Aun
cuando la resistencia laríngea varía dependiendo de la etapa del ciclo vibratorio de los
pliegues vocales (mayor resistencia en la fase cerrada que en la fase abierta), este pará-
metro generalmente se refiere al promedio de resistencia a lo largo de varios ciclos (ten-
dencia general de la voz de una persona). Desde el punto de vista clínico, una resistencia
laríngea elevada puede ser atribuible a una excesiva presión subglótica, insuficiente flujo
transglótico, o ambos juntos. Un sujeto con voz apretada, perceptualmente hablando,
presenta probablemente un alto valor de resistencia glótica debido a un alto grado de
aducción cordal. Por el contrario, un paciente con cualidad de voz soplada, presenta una
resistencia glótica disminuida. 42, 45, 47
© Editorial EOS
266 Trastornos del habla: de los fundamentos a la evaluación
Figura 18. Esquema compuesto por una resistencia, flujo y dos presiones o concentraciones de
partículas diferentes.
Este fenómeno ocurre, por ejemplo en un sistema eléctrico, donde las partículas son
los electrones y el flujo es la corriente eléctrica. En la fonación, el gradiente de presión
está determinado por la diferencia que existe entre la presión subglótica y la supraglóti-
ca (definida anteriormente como la presión transglótica). Como fue señalado, la presión
transglótica es la responsable de la existencia de movimiento de partículas de aire desde
la subglotis hacia la cavidad oral, y por lo tanto del flujo transglótico y de la oscilación
de los pliegues vocales. 42
Donde el voltaje es la diferencia de potencial eléctrico entre dos puntos del circuito,
corriente es el movimiento de electrones debido al gradiente o potencial eléctrico y la
resistencia es el dispositivo que opone dificultad a este flujo de electrones.
© Editorial EOS
Fundamentos y evaluación de la voz 267
Cuando la fonación está asociada a un tracto vocal abierto (como ocurre en el habla
normal), la presión supraglótica o intraoral es igual a la presión atmosférica, la cual es
considerada en términos relativos igual a cero. Por lo tanto, basado en la fórmula, presión
subglótica menos cero, tendrá como resultado únicamente la presión subglótica.
4. FILTRO INVERSO
Como fue ya señalado anteriormente, los parámetros aerodinámicos de la fonación
pueden ser medidos de dos formas: conociendo las variaciones de ellos dependiendo de
la fase del ciclo vibratorio (fase abierta, fase de cierre o fase de apertura), u obteniendo un
promedio de ellos durante un periodo de tiempo determinado de fonación.
La voz que escuchamos desde la boca de una persona está afectada por tres instancias
acústico-fisiológicas. La primera de ellas la constituyen las resonancias de los pliegues
vocales (también llamados armónicos), las que están determinadas por los diferentes mo-
dos de vibración de ambos pliegues vocales. La segunda instancia está determinada por
las resonancias del tracto vocal (llamados formantes), producidos por los modos de vi-
bración del aire contenido en el tracto vocal. Finalmente, la última etapa que modifica la
señal original producida en la glotis, está determinada por las características de radiación
que toman lugar cuando el sonido filtrado por el tracto vocal abandona la cavidad oral y
se propaga hacia la atmósfera. 53
La técnica de filtro inverso aplica una serie de filtros con la finalidad de eliminar el
efecto de filtro del tracto vocal en la fuente la señal producida por la fuente glótica, para que
ésta pueda ser estudiada aisladamente desde el punto de vista aerodinámico (Figura 19).
© Editorial EOS
268 Trastornos del habla: de los fundamentos a la evaluación
Figura 19. Software para la realización del filtro inverso. A través de los diferentes comandos que
se observan se realiza el proceso de filtraje inverso.
Una vez obtenida la señal filtrada es posible calcular una serie de cocientes que en-
tregan valiosa información relacionada con el comportamiento vibratorio de los pliegues
vocales, a través de las variaciones de flujo durante las fases del ciclo glótico. Los dos
cocientes más utilizados en investigación y en la clínica son el cociente de cierre y el
cociente de inclinación.
El cálculo de estos cocientes está basado en la duración de las diferentes etapas que
componen el ciclo vibratorio y que se representan en el glotograma de flujo o forma de
onda glótica, el cual es un gráfico que refleja la velocidad del volumen de flujo glótico. El
tiempo es graficado en el eje horizontal y el aumento de velocidad del volumen de flujo
es graficado en ascendentemente en el eje vertical. Cada ciclo de velocidad de volumen
de flujo glótico corresponde a una apertura y un cierre en la vibración. La parte horizontal
plana debajo de la forma de onda, representa la pérdida de flujo glótico. En otras palabras,
los pliegues vocales están aducidos y la glotis está cerrada completamente. Cuando el
gráfico se muestra en ascenso representa un aumento del flujo a medida que los pliegues
vocales se están abriendo, y el descenso representa una disminución del flujo glótico a
medida que los pliegues vocales se están cerrando. Los picos de las forma de onda (pun-
tos más altos) representan la máxima velocidad de volumen de flujo glótico y corresponde
a la máxima apertura de los pliegues vocales en el ciclo vibratorio. Ver Figura 20.
© Editorial EOS
Fundamentos y evaluación de la voz 269
Figura 20. Glotograma de flujo. Se muestran las diferentes etapas de un ciclo. En base a estas
etapas es posible calcular los cocientes de inclinación y cociente de cierre.
© Editorial EOS
270 Trastornos del habla: de los fundamentos a la evaluación
La secuencia papapa está compuesta de dos elementos claves para el cálculo de las
presiones. La consonante áfona /p/ y la vocal sonora /a/. El procedimiento consiste en
poner un tubo dentro de la boca, el cual está conectado a un transductor de presión, que
convierte la señal de presión en señal eléctrica. 41, 42
Figura 21. Tubo introducido dentro de la cavidad oral para estimar indirectamente la presión
subglótica desde la presión intraoral.
© Editorial EOS
Fundamentos y evaluación de la voz 271
Si el flujo esta aumentado, como ocurre en las voces sopladas, es debido a una dis-
minución del denominador de la división (resistencia) y/o un aumento del numerador
(presión) o ambos juntos.
© Editorial EOS
272 Trastornos del habla: de los fundamentos a la evaluación
Un caso opuesto, muy comúnmente visto en la clínica de voz, es una persona con un
patrón fonatorio hiperfuncional, es decir con un aumento de la aducción de los pliegues
vocales al fonar. En este caso, el promedio de flujo transglótico está disminuido compara-
do con una fonación normal. Esta disminución se debe ya sea a un aumento de la resisten-
cia glótica (mayor valor en el denominador de la fórmula), o a una disminución de la pre-
sión subglótica (numerador). Sin embargo, en la clínica, lo que se ve normalmente en los
pacientes con voces hiperfuncionales es un aumento de ambos parámetros paralelamente.
Es decir, ocurre un incremento de la aducción glótica (lo que provoca una disminución
del flujo) y además por compensación la presión subglótica también sube con el propósito
de vencer la gran resistencia impuesta los pliegues vocales y de esa forma poder inicial o
mantener la oscilación.
7. ELECTROGLOTOGRAFÍA
7.1. Bases de la electroglotografía
La electroglotografía es un método simple y no invasivo que permite obtener infor-
mación sobre los movimientos vibratorios de los pliegues vocales y estimar el grado de
contacto relativo de ellos. Este método es posible de ser realizado paralelamente a la gra-
bación de muestras de audio de la voz y la toma de la señal aerodinámica de la fonación.
La electroglotografía se basa en las propiedades de conducción eléctrica de los tejidos
laríngeos. La Figura 23 muestra algunos de los equipos comerciales de electroglotografía
disponibles actualmente en el mercado internacional.
© Editorial EOS
Fundamentos y evaluación de la voz 273
La correcta postura de los electrodos es crucial para la obtención de una buena señal
electroglotográfica. Una errada colocación de ellos puede producir una señal de baja am-
plitud. Aspectos como la altura de la laringe del paciente, los movimientos verticales de
la laringe al fonar o respirar y cuan apretada está la banda electica que fija los electrodos
pueden determinar cambios en la señal obtenida y por lo tanto los parámetros cualitativos
y cuantitativos electroglotográficos pueden verse afectados. 55
Normalmente es necesario hacer una correcta limpieza de los electrodos antes de ser
utilizados. De igual forma, es importante el uso de un gel conductor en ambos electrodos
para asegurar una señal de mejor calidad.
© Editorial EOS
274 Trastornos del habla: de los fundamentos a la evaluación
Figura 25. Típica onda electroglotográfica espacialmente orientada con la zona de mayor contacto
hacia arriba.
La onda electroglotográfica puede ser dividida en dos grandes partes: fase de abierta
y fase de contacto. A su vez la fase de contacto se subdivide en fase de cierre y fase de
apertura (Figura 26).
Figura 26. Un ciclo completo de la onda electroglotográfica divido en sus diferentes fases.
© Editorial EOS
Fundamentos y evaluación de la voz 275
La porción de la forma de onda que representa una disminución del contacto de los
pliegues vocales (y por lo tanto un incremento de la apertura glótica) es menos abrupta
que la fase donde incrementa en contacto (fase de cierre) de los pliegues vocales. Note
también la breve duración del máximo contacto relativo de los pliegues vocales (corres-
pondiendo en una laringe normal al cierre glótico). Además, la fase de apertura es más
larga que la fase de cierre y que la fase cerrada. 47, 53, 55
Figura 27. Un ciclo completo mostrando los principales puntos y segmentos de una onda
electroglotográfica
© Editorial EOS
276 Trastornos del habla: de los fundamentos a la evaluación
• Cociente de contacto: relación entre en tiempo cuando los pliegues vocales están
en contacto y el tiempo total del ciclo vibratorio. Es también llamado algunas veces
como cociente de cierre, sin embargo, el pico de la onda electroglotográfica, así
como también el cociente de contacto, no necesariamente representa cierre de la
glotis, sino que máximo contacto relativo de los pliegues vocales. Es posible asumir
que en una laringe normal, el pico si representa un cierre completo de la glotis. 45, 55
• Cociente de apertura: relación entre la fase abierta de la vibración de los pliegues
vocales y la duración del ciclo vibratorio completo. 45, 55
• Cociente de velocidad: relación entre la duración de la fase de apertura y la dura-
ción de la fase de cierre. 45, 55
Los cocientes recién presentados son útiles para un análisis cuantitativo del comporta-
miento vibratorio de los pliegues vocales. Sin embargo, es necesario tener en cuenta que
los puntos exactos de la forma de onda electroglotográfica, que corresponden a eventos
tales como la apertura y cierre, son estimados, y por lo tanto pueden variar de un estudio
a otro afectandose los valores.
© Editorial EOS
Fundamentos y evaluación de la voz 277
© Editorial EOS
278 Trastornos del habla: de los fundamentos a la evaluación
Figura 31. Onda electroglotográfica perteneciente a una fonación en registro modal. Se observa
una onda asimétrica con un tiempo de contacto cercano al 50%.
© Editorial EOS
Fundamentos y evaluación de la voz 279
Figura 33. Onda electroglotográfica perteneciente a una fonación en registro de vocal fry. Se
observa una onda asimétrica con un tiempo de contacto cercano 70%. Adicionalmente de observa
doble oscilación, algo característico del vocal fry.
• Entregar mayor comprensión acústica del output de la voz y producir una mayor
asociación de este tipo de análisis con la valoración perceptual auditiva.
• Proveer datos normativos para diferentes realidades vocales, diferentes culturas,
diferentes rangos etarios, diferentes ocupaciones, etc.
• Ofrecer una posibilidad de documentación para trazar la línea de base de la voz de
una persona.
• Monitorear el avance de la terapia o entrenamiento de la voz de una persona.
• Sirve como instrumento de detección precoz de posibles problemas vocales.
© Editorial EOS
280 Trastornos del habla: de los fundamentos a la evaluación
conocer de forma detallada las bases acústicas de la producción de la voz. El presente ca-
pítulo no incluye este tema, por lo tanto se recomienda a los lectores consultar la literatura.
• Oscilograma.
• Espectrograma.
• Spectrum FFT.
• Spectrum LPC.
• Cepstrum.
• Espectro promedio a largo plazo (LTAS).
• Análisis de índices foneticoacústicos.
• Fonetograma.
• Histograma.
• Contornos.
9.1. Oscilograma
El oscilograma es también llamado forma de onda. Constituye la representación visual
más elemental del sonido y es conformado en su eje horizontal por el tiempo y en el eje
vertical por la amplitud de la señal (Figura 36). De esta forma, el oscilograma es una repre-
sentación gráfica de una vibración en función del tiempo. 45 Esta representación gráfica es la
que primero se observa cuando una señal de audio es grabada. A partir de este gráfico se ob-
tienen todos los otros análisis acústicos tales como espectrograma, espectro, cepstrum, etc.
© Editorial EOS
Fundamentos y evaluación de la voz 281
Figura 36. Se observan cuatro oscilogramas obtenidos de la grabación de una voz normal. Todas
estas formas de ondas muestran la misma señal de audio. La primera de ellas está totalmente com-
primida, mientras que la última está descomprimida y por lo tanto se observan más detalles en
cada uno de los ciclos.
9.2. Espectrograma
El espectrograma es la representación gráfica de la frecuencia y la intensidad de la
forma de onda en función del tiempo. El tiempo es graficado en el eje horizontal y la
frecuencia en el eje vertical. La tercera dimensión se representa en un tercer eje, el cual
contiene la energía o amplitud de la señal. Esta energía es comúnmente representada en
escala de grises, donde las zonas más oscuras representan las partes con mayor energía.
En ocasiones la energía es representada utilizando diferentes colores. 45
La espectrografía está basada en el teorema de Fourier. Este teorema señala que todas
las ondas periódicas pueden ser descompuestas en la suma de una serie de ondas senoi-
dales con frecuencias armónicas. El análisis de Fourier es el proceso mediante el cual se
separa una onda compleja en sus componentes senoidales. Un espectrograma contiene
una gran cantidad de información, sin embargo, no toda puede ser mostrada al mismo
tiempo. Cuando se produce un espectrograma, se debe tomar la determinación acerca de
qué tipo de información de desea mostrar, ya sea ésta relacionada con la fuente de sonido
(pliegues vocales) o con el filtro (tracto vocal). Un espectrograma puede mostrar informa-
ción detallada acerca de la estructura armónica de la fuente (pliegues vocales) y acerca de
las resonancias del tracto vocal. Ambos tipos de información no pueden ser entregadas al
mismo tiempo con la misma claridad.45
© Editorial EOS
282 Trastornos del habla: de los fundamentos a la evaluación
Las Figuras 37-42 representan diferentes tipos de emisiones, algunas de ellas analiza-
das con filtro de banda estrecha y otras con filtro de banda ancha.
Figura 37. Espectrograma vocal /a/ voz Figura 38. Espectrograma vocal /a/ voz
normal con filtro de banda ancha. Buena normal con filtro de banda estrecha (Buena
definición temporal (se observan lo periodos) definición para los armónicos)
y buena definición para los formantes. (Buena
definición para los formantes y ciclos)
Figura 39. Espectrograma de banda estrecha Figura 40. Espectrograma de banda estrecha
de una voz disfónica con escape de aire (ruido de un glissando. A medida que aumenta la
interarmónico). Se observa pérdida de los frecuencia fundamental en el glissando, la
armónicos de las frecuencias altas y pérdida distancia interarmónica es mayor.
de energía en los armónicos.
© Editorial EOS
Fundamentos y evaluación de la voz 283
Yanagihara en el año 1967 propuso una forma de categorizar las disfonías según las
características espectrográficas. El autor basó su análisis utilizando espectrogramas de
banda estrecha en las cinco vocales, a intensidad media con tono habitual. Los espec-
trogramas fueron categorizados dentro de cuatro tipos, los cuales representan de manera
adecuada el grado de la disfonía. 53
Grado 2: Los componentes de ruido en el segundo formante de las vocales /e/ e /i/
dominan por sobre los componentes armónicos, y leves componentes de ruido adicional
aparecen en la región de altas frecuencias sobre 3000 Hz.
© Editorial EOS
284 Trastornos del habla: de los fundamentos a la evaluación
Grado 4: El segundo formante de la /a/, /e/ e /i/ son remplazados por componentes de
ruido, e incluso el primer formante de todas las vocales a menudo pierde su componente
periódico. Además, los componentes de ruido de la alta frecuencias son intensificados.
© Editorial EOS
Fundamentos y evaluación de la voz 285
Figura 43. Espectro FFT de la vocal /a/. Se Figura 44. Espectro LPC de vocal /a/
observa de manera clara los armónicos con (forma de corte). Se observan claramente los
diferentes amplitudes dependiendo de la formantes o resonancias del tracto vocal.
función de la fuente y del filtro.
© Editorial EOS
286 Trastornos del habla: de los fundamentos a la evaluación
Figura 45. Espectros FFT y LPC de la vocal /a/ juntos en una misma imagen
Figura 46. Espectro LPC de la vocal /a/. A la izquierda en forma de corte y a la derecha
en forma de historia formántica. En éste último los formantes están señalados en color blanco
y en función del tiempo.
Figura 47. LPC historia formántica (color blanco) de un segmento de habla conectada. Se observa
la variación de los formantes en función del tiempo. Esta variación es propia del habla conectada
producto de los cambios articulatorios
© Editorial EOS
Fundamentos y evaluación de la voz 287
Es importante considerar que el LPC tiene ciertas limitaciones y que por lo tanto sus
resultados no son confiables en todas las circunstancias. A continuación se enumeran las
limitaciones más relevantes:
• LPC es bueno para vocales no nasalizadas. LPC asume que el espectro analizado
está formado principalmente por picos espectrales sin antiformantes.
• Es necesario especificar por anticipado el número de formantes a encontrar en el
espectro. Si el número anticipado de picos es más grande que el de los picos reales,
LPC pondrá picos pequeños donde no existen realmente. Por el contrario, si se
anticipan muy pocos picos, menos que los reales, LPC fallará en encontrar picos
que si existen realmente en el espectro.
• Puede fallar si las señales cambian abruptamente. Como ocurre en muchas altera-
ciones de la voz.
• Si la F0 es muy alta (arriba de 350 Hz.). El proceso de LPC no será preciso.
Investigaciones previas han reportado que el valor del pico cepstral es el mejor predic-
tor de disfonía en comparación con los índices de perturbación e índice de ruido glótico.
58-61
Además, el pico cepstral ha mostrado una alta correlación con el grado de severidad
de la alteración vocal. 62-66
© Editorial EOS
288 Trastornos del habla: de los fundamentos a la evaluación
Figura 48. Se observa un espectro FFT (arriba) y el cálculo del cepstrum (abajo). Este último
resulta en la determinación del pico de mayor amplitud en una escala temporal, lo que permite
calcular el valor de la frecuencia fundamental, y la amplitud del pico del cepstrum, entregando
información relacionada con grado de periodicidad.
Figura 49. Pico cepstral voz normal. Se observa Figura 50. Pico cepstral voz disfónica.
un pico con un valor de 7,6. Este valor representa Nuevamente se observa un pico con un valor
el periodo de la F0 y a través de éste podemos de 7,6. y por lo tanto el valor de la frecuencia
derivar que el valor de la frecuencia fundamental fundamental es 131 Hz. Pero, en forma
es 131 Hz. La intensidad de ese pico está dada
contraria a la imagen anterior, acá vemos
por el valor de 146, señalado presencia de alta
energía en la F0 (atribuido a una voz de buena un pico de F0 de baja intensidad y mayor
calidad). Además podemos observar que existe anchura. Lo primero señala poca energía en
una anchura reducida del pico cepstral, indicando este componente espectral y lo segundo indica
alta estabilidad de la frecuencia. alto grado de inestabilidad. Ambos rasgos
característicos de voces de mala calidad.
© Editorial EOS
Fundamentos y evaluación de la voz 289
Figura 51. De arriba hacia abajo, se observa el espectrograma, espectro y cepstrum de una voz
disfónica. El espectrograma muestra pobre definición de los armónicos en la zona alta. Ruido
glótico reemplaza a los armónicos. El espectro muestra lo mismo pero desde otra perspectiva. Los
armónicos altos se observan con baja amplitud. Finalmente el pico cepstral es poco definido, de
base ancha y bajo en amplitud.
© Editorial EOS
290 Trastornos del habla: de los fundamentos a la evaluación
Figura 52. Este gráfico LTAS corresponde a al habla espontanea de un actor con “voz resonante”.
Posee gran amplitud de los armónicos de alta frecuencia.
Figura 53. Este gráfico LTAS corresponde a al habla espontanea de un actor con “voz opaca”.
Posee pobre amplitud de los armónicos de alta frecuencia si la comparamos con la imagen
anterior perteneciente a una voz “resonante”.
© Editorial EOS
Fundamentos y evaluación de la voz 291
Figura 54. LTAS de una voz severamente disfónica. Se observa ausencia completa de energía
armónica en casi todo el espectro. Solo se pueden distinguir los dos primeros armónicos. Desde
700 Hz hacia arriba sólo existe energía no armónica (ruido glótico)
Las medidas de perturbación indican la variabilidad que existe ciclo a ciclo en una
señal. Estas medidas pueden ser solo aplicadas en vocales sostenidas o extracciones de
segmentos vocálicos. De manera genérica se denomina Jitter a la perturbación de la fre-
cuencia y Shimmer a la perturbación de la amplitud. Existen a su vez varios tipos de
Jitter y de Shimmer. En general los índices de perturbación como el Jitter y el Shimmer
son índices de estabilidad del sistema fonatorio y de la calidad vibratoria de los pliegues
vocales. 55 Si el sistema fonatorio fuese perfectamente estable (hecho que no ocurre en la
voz) los valores de Jitter y Shimmer serían igual a cero. Dentro de los factores que causan
las inestabilidades del sistema fonatorio se encuentran deficiencias en el control aerodi-
námico, control motor y alteraciones en los movimientos de los tejidos.
© Editorial EOS
292 Trastornos del habla: de los fundamentos a la evaluación
En el año 1982, Yumoto propuso una forma para cuantificar la calidad de una voz. La
propuesta de Yumoto está basada en que la voz siempre contiene componentes periódicos
y componentes de ruido (ondas aperiódicas) y además que el rasgo característico de la
disfonías es el reemplazo de armónicos por ruido (Figura 55). 79
Figura 55. Ambos espectrogramas muestran voces con presencia de ruido glótico. En el
espectrograma de la izquierda el ruido es predominante a partir de los Hz. 1.200 hacia arriba. En el
espectrograma de la derecha el ruido glótico se encuentra a lo largo de todo el rango frecuencial.
Considerando lo anterior, entonces el mejor índice para disfonía debería ser por lo
tanto una relación de uno con el otro. De aquí nace entonces la relación de amplitud ar-
mónico/ruido (HNR). Esto es la amplitud de las ondas periódicas dividida por la amplitud
de las ondas aperiódicas de la voz. Mientras más alto es el valor, mejor es la calidad vocal
(Figura 56).
Figura 56. El espectrograma de la izquierda pertenece a una voz normal, con un valor de HNR de
22 dB. El espectrograma de la derecha pertenece a una voz moderadamente disfónica, con un valor
de HNR de 4 dB.
© Editorial EOS
Fundamentos y evaluación de la voz 293
Además del índice HNR existen otros índices que entregan información relacionada
con la cantidad de energía de ruido que tienen las voces: razón ruido/armónico (NHR),
razón señal/ruido (SNR), índice de turbulencia de la voz (VTI), índice de fonación suave
(SPI). Es importante señalar que los índices HNR y NHR son opuestos, es decir, cuando
la calidad de la voz es buena, el valor de HNR debería ser alto, mientras que el valor de
NHR es esperable que sea bajo.
Algunos programas de análisis acústico entregan los resultados en forma gráfica, ade-
más de numérica (Figuras 57-59). Estos gráficos normalmente entregan resultados de los
índices señalados y otros que no han sido mencionados en el presente capítulo.
Figura 57. Gráfico de índices acústicos de una voz normal (todos los índices están en color más
oscuro, dentro de rangos normales).
Figura 58. Gráfico de índices acústicos de una voz alterada (paciente con nódulos de cuerdas
vocales). Se ven índices en gris oscuro (fuera del rango de normalidad). Por ejemplo, se observa
que los índices jitter (Jitt) y shimmer (Shim), perturbación de la frecuencia y de la amplitud
respectivamente, están fuera de rangos normales.
© Editorial EOS
294 Trastornos del habla: de los fundamentos a la evaluación
Figura 59. Gráfico de índices acústicos de una voz severamente alterada (parálisis de cuerda
vocal). La mayoría de los índices acústicos están en color rojo indicando que están fuera del rango
de normalidad.
9.7. Fonetograma
Figura 60. Fonetograma voz normal. Se Figura 61. Fonetograma voz patológica.
observa un amplio campo vocal (rango vocal y Campo vocal disminuido (disminución del
rango dinámico adecuados) rango dinámico y rango vocal)
© Editorial EOS
Fundamentos y evaluación de la voz 295
La gráfica que expresa los resultados de la medición esta finalmente constituida por
dos curvas, una superior y una inferior, que indican respectivamente los niveles de pre-
sión sonora máximos y mínimos que es capaz de emitir la persona evaluada. Una vez
realizada la medición, es posible obtener el campo vocal uniendo estas dos curvas. En la
gráfica final, el límite izquierdo del campo vocal corresponde a las frecuencias más bajas
que la persona es capaz de emitir, y el límite derecho del campo vocal corresponde a las
frecuencias al altas. 80
Este método de valoración permite delimitar el potencial vocal de cada persona. Ade-
más es útil para mostrar al paciente de forma gráfica el estado de su voz y como se espera-
ría es ésta cambie después del tratamiento vocal. Este instrumento puede ser utilizado tan-
to para personas con voces normales, como personas portadoras de alteraciones vocales.
Este método de evaluación vocal ha sido conocido a lo largo del tiempo con varios
nombres. Clavet en el año 1953 lo denominó curva vocal, refiriéndose a la expresión
gráfica del resultado de la prueba. Luego en 1972, Komiyama lo llamó fonograma. Final-
mente en 1977, Dejonckere lo denominó fonetograma, siendo este el nombre con el que
se le conoce en la actualidad en habla hispana. 82 En inglés, se utiliza el término Voice
Range Profile. 81
© Editorial EOS
296 Trastornos del habla: de los fundamentos a la evaluación
9.8. Histogramas
En términos generales, un histograma muestra la dispersión de valores. Aplicado al
área vocal, el histograma es un gráfico que muestra el número de veces que se repite cada
valor de frecuencia fundamental (F0) y cada valor de intensidad durante la emisión de la
voz. Dicho de otra forma, el histograma muestra los tonos fundamentales y las intensida-
des que más utiliza el paciente durante la emisión de voz. Para obtener la F0 y la inten-
sidad más utilizada por un paciente, se le pide que diga una frase, hable en forma normal
(habla espontánea), o que mantenga una vocal durante un tiempo determinado. Esta señal
se grafica posteriormente en los histogramas de recurrencia en intensidad. El histograma
es la forma objetiva más confiable para obtener el “tono medio hablado” de una persona.
Las Figuras 63-66 muestran ejemplos de histogramas de frecuencia y amplitud.
Figura 65. Histograma de F0 correspondiente a una voz con quiebre vocal (comúnmente
encontrado en la puberfonía). Se observan dos picos claramente diferenciados producto de la gran
diferencia de F0 de la voz antes y después del quiebre vocal.
© Editorial EOS
Fundamentos y evaluación de la voz 297
Figura 66. Histograma de amplitud correspondiente a una voz con quiebre vocal. Se observa una base
muy ancha producto de la gran diferencia de amplitud de la voz antes y después del quiebre vocal.
9.9. Contornos
Los contornos grafican la variación ciclo a ciclo de la frecuencia fundamental (F0) y
la amplitud (intensidad). Mientras más parejo (estables) sean los contornos, se demues-
tra menos variación ciclo a ciclo y por lo tanto mejor calidad vocal durante una vocal
mantenida en el tiempo. Las escalas de F0 e intensidad son diferentes e independientes.
Los contornos de F0 y amplitud son complementarios a los histogramas, debiendo am-
bos ser observados en forma conjunta. Las Figuras 67-70 muestran ejemplos de con-
tornos melódicos y de amplitud pertenecientes a pacientes con voces normales y con
alteraciones vocales.
Figura 67. Gráfico mostrando una voz normal con frecuencia fundamental (F0) y amplitud
estables. Arribase observa el contorno de amplitud y abajo, en la línea de abajo, el contorno de F0
o contorno melódico.
© Editorial EOS
298 Trastornos del habla: de los fundamentos a la evaluación
Figura 68. Gráfico mostrando un quiebre vocal. En la línea de arriba se observa el contorno de
amplitud el cual baja bruscamente producto del quiebre vocal. Abajo, en el contorno melódico (F0),
el cual asciende bruscamente pasando desde registro de pecho a falsete durante el quiebre tonal.
Figura 70. Estos contornos de intensidad y F0 pertenecen a un paciente con temblor de voz.
Patología de origen neurológico. En el gráfico se observa claramente que tanto el contorno de
amplitud, como el de F0 presentan modulaciones periódicas reflejando el temblor del paciente.
© Editorial EOS