Sunteți pe pagina 1din 54

6

Fundamentos y evaluación
de la voz

Marco Guzmán

© Editorial EOS
Fundamentos y evaluación de la voz 247

1. FISIOLOGÍA FONATORIA
La laringe participa en muchas funciones que permiten la comunicación y también la
mantención de la vida. El propósito de este apartado es describir a la laringe como una vál-
vula parcial o completamente cerrada, capaz de producir fonación. La fonación es determi-
nada por características neuromusculares, biomecánicas, acústicas y aerodinámicas que, a
su vez determinan la duración, tono, sonoridad, cualidad, registro vocal y movimientos de
los pliegues vocales a través del control en el largo, masa, tensión, contorno de los pliegues
vocales, aducción de los aritenóides, presión subglótica y tamaño y forma del tracto vocal.

1.1. Rol de los pliegues vocales en la generación de la señal de la


fuente
Los pliegues vocales tienen el rol de comenzar la generación de la señal de la fuente.
El resto de las estructuras laríngeas son secundarias.

Vistas desde arriba, los pliegues vocales parecen dos bandas que se despliegan a tra-
vés de las vías respiratorias. Están unidos a la parte anterior e interna del cartílago tiroides
y cada uno de ellos está además unido a un cartílago aritenoides en la parte posterior
de la laringe (Figura 1). Los cartílagos aritenoides son capaces de realizar movimientos
complejos causando que los pliegues vocales se contacten (aducción), o se separen (ab-
ducción) abriendo las vías respiratorias para la respiración1.

Figura 1. Pliegues vocales humanos. A la izquierda en abducción (Posición respiratoria), a la


derecha en aducción (Posición fonatoria). (Traducido y adaptado)83.

El espacio entre los pliegues vocales es llamado glotis. Considerando que los pliegues
vocales son móviles, la glotis puede ser muy grande (en abducción completa como ocurre
en la inspiración) o incluso llegar a no existir (en aducción como ocurre durante la fona-
ción normal). 1, 2

Si utilizáramos técnicas exploratorias (tales como cámaras de alta velocidad o estro-


boscopía laríngea) para observar el movimiento de los pliegues vocales durante la fona-

© Editorial EOS
248 Trastornos del habla: de los fundamentos a la evaluación

ción, veríamos movimientos esquematizados como los que se observan en la Figura 2. En


la condición inicial, donde los pliegues vocales están en contacto completo (y el tamaño
de la glotis es igual a cero), ellos se separan progresivamente hasta que la glotis alcanza
su máximo tamaño. Los pliegues vocales, luego regresan a la línea media, cerrando la
glotis una vez más. En promedio, en la voz del hombre, este ciclo se repite cerca de 100
veces por segundo, lo que genera una frecuencia fundamental (F0) de 100 Hz. Las muje-
res, por otro lado, generan en promedio una F0 de 200 Hz. 3

Figura 2. Ciclo fonatorio, movimiento de los pliegues vocales durante la fonación

1.2. Generalidades de la estructura de los pliegues vocales


La imagen en sección transversal de los pliegues vocales muestra que éstos son divi-
sibles básicamente en dos zonas. Esencialmente, los pliegues vocales están construidos
sobre la masa del músculo tiroaritenoideo que está dispuesto a lo largo de la laringe (Fi-
gura 3). Esta región muscular, que es la que forma la mayor parte de la masa de los plie-
gues vocales, es llamada cuerpo. La contracción y relajación de este músculo cambia de
manera importante el largo, grosor y elasticidad. Estos cambios juegan un rol primordial
en la determinación de las características de la señal de la fuente. También el ligamento
vocal puede ser considerado parte del cuerpo de los pliegues vocales. 3, 4

Figura 3. Corte histológico, sección transversal de los pliegues vocales. (traducido)84.

El cuerpo de los pliegues vocales está envuelto por una capa llamada la cubierta. Su
estructura es bastante compleja. La capa superficial de la cubierta está formada por tejido
epitelial. Bajo de este epitelio hay una malla de fibras que de alguna manera se asemeja

© Editorial EOS
Fundamentos y evaluación de la voz 249

a una banda elástica (lámina propia). Esta estructura está particularmente bien formada
cerca del borde de la porción superior del pliegue vocal, donde se constituye el ligamento
vocal. Esta estructura tiene propiedades mecánicas inherentes bien definidas, pero dife-
rentes al cuerpo de los pliegues vocales, estas propiedades no pueden ser alteradas nor-
malmente. La cubierta está unida de una forma relativamente suelta al cuerpo. Similar a
la piel en la parte posterior de la mano, es parcialmente libre para ser deslizada sobre las
capas inferiores del cuerpo de los pliegues vocales. 4

1.3. Eventos del ciclo glótico


Para que se inicie la fonación debe haber cierta cantidad de aire presurizado en los
pulmones. Esta presión debe ser cercana a los 7 cm de H2O (valor típico). 5 En la Figura 4
se observan los pliegues vocales mostrados esquemáticamente en su sección transversal.

Figura 4. Esquema de los pliegues vocales en sección transversal durante la fonación (Traducido)85

Al comienzo del ciclo fonatorio, los pliegues vocales están juntos. Note que la sección
de área transversal es una porción con una superficie plana arriba y sección inferior con
cierto grado de inclinación. 2,3 En este estado, se dice que la glotis está convergente. Se
caracteriza por un estrechamiento hacia la parte superior, desde un extremo inferior rela-
tivamente amplio. La aproximación de los pliegues vocales cierra las vías respiratorias y
por lo tanto no hay flujo de aire. Toda la presión del aire en los pulmones actúa sobre la
superficie inclinada de las paredes glóticas. Esta presión tiende a empujar a los pliegues
vocales hacia afuera y la separación aumenta a medida que la presión incrementa. Final-
mente, la presión fuerza la separación hasta la superficie superior de los pliegues vocales
y así aparece el espacio glótico. 5

El hecho de existir un flujo de aire a través de la estrecha constricción glótica, implica


que la presión de aire dentro de la glotis debe ser menor que la presión de aire arriba o de-
bajo de ésta. Esta presión negativa relativa produce el efecto de succión de los márgenes
inferiores de los pliegues vocales (efecto de Bernoulli), llevándolos hacia la línea media.
2, 3
Además, considerando que las paredes de los pliegues vocales han sido empujadas
hacia los costados durante el proceso de apertura, esto trae como resultado que ellas ahora
intentarán regresar a su posición de reposo (línea media). Por lo tanto, el ciclo prosigue,
los márgenes inferiores han comenzado su retorno hacia la línea media, mientras que los
márgenes superiores aún están separados. 2, 3

En este punto, un nuevo efecto comienza a producirse. La porción superior de los


pliegues vocales contiene el ligamento vocal (estructura altamente elástica). A medida
que los bordes de los pliegues vocales son empujados hacia lateral, el ligamento vocal

© Editorial EOS
250 Trastornos del habla: de los fundamentos a la evaluación

es estirado más y más. Como una banda elástica, a medida que es estirada, mayor será la
tendencia de ésta a regresar a su forma inicial. Luego de un momento, estas fuerzas de
restauración comienzan a superar la fuerza de la presión de aire que separa los pliegues
vocales. La porción superior de los pliegues vocales entonces comienza a moverse hacia
la línea media. Finalmente la glotis restaurará su posición original cerrada y el ciclo está
listo para ser repetido otra vez. 3

Es importante considerar que el movimiento de los pliegues vocales es guiado por


la combinación de fuerzas aerodinámicas (presión pulmonar y efecto de Bernoulli) y las
propiedades elásticas de los tejidos. Por lo tanto, el mecanismo recientemente descrito es
comúnmente llamado modelo mioelástico-aerodinámico de la fonación.

Es interesante ver que los márgenes superiores e inferiores de los pliegues vocales no
se mueven en sincronía. La parte inferior está siempre más adelantada en sus movimien-
tos que la parte superior. Esto comienza con la separación de la zona inferior y luego con
el retorno más temprano hacia la línea media. Esto se conoce formalmente como la dife-
rencia de fase vertical, la cual es crucial para el mantenimiento de la fonación normal. 2

La clave del movimiento de los pliegues vocales está en el desplazamiento de la cubierta


móvil de éstos y los cambios en su forma. La ondulación de la cubierta crea la onda mucosa
que puede ser vista en su superficie superior durante el examen de videoestroboscopía larín-
gea (Figura 5). Sin la cubierta de los pliegues vocales, la fonación no podría ser posible. 1

Figura 5. Onda mucosa de los pliegues vocales a través de la videoestroboscopía laríngea

1.4. Producción de la onda glótica


La señal de la onda glótica es descrita como un flujo de aire a través de la glotis (es-
pacio entre los pliegues vocales). Este flujo es conducido por la presión de aire en los
pulmones, el flujo se incrementa de manera relativamente gradual, alcanza su pico máxi-
mo, y luego disminuye abruptamente hasta que cesa. Luego de una pausa corta, el mismo
patrón se repite. Este patrón de flujo es llamado onda glótica (Figura 6).

© Editorial EOS
Fundamentos y evaluación de la voz 251

Figura 6. Dos ciclos sucesivos de flujo glótico. El flujo aumenta hacia arriba en forma vertical86.

El corte rápido del flujo es particularmente importante, porque éste determina el mate-
rial en bruto para la producción del sonido vocal. El corte relativamente abrupto del flujo
de aire que caracteriza a la onda glótica crea el mismo efecto en el tracto vocal (boca,
laringe, faringe). Un impulso es producido, el cual excita la vibración de las moléculas de
aire en el tracto vocal. Esa excitación es la voz en un estado no refinado. 3, 6

La velocidad con que ocurren estos impulsos determina la frecuencia fundamental (F0)
de la voz y es medida en Hertz (Hz). El tiempo que transcurre entre dos ciclos es llamado
periodo, el cual es medido en milisegundos. Como cualquier onda compleja (como los im-
pulsos que la laringe entrega al tracto vocal) es compuesta por una serie de tonos puros (ar-
mónicos), por lo tanto la señal de la fuente glótica entrega una variada gama de frecuencias,
las cuales pueden ser seleccionadas por el tracto vocal creando la señal de la voz final. 3, 6

Esta gama de frecuencias es descrita como el espectro de la voz. El componente fre-


cuencial más bajo es la frecuencia fundamental y el resto de los componentes frecuencia-
les son llamados sobretonos. La frecuencia fundamental más los sobretonos constituyen
todos los parciales de la voz. Todos ellos juntos forman una serie armónicos. El parcial
más bajo es la frecuencia fundamental. El resto de los otros parciales son múltiplos ente-
ros de la frecuencia fundamental (Figura 7).

Figura 7. Gama de frecuencias en el espectro de la voz humana

© Editorial EOS
252 Trastornos del habla: de los fundamentos a la evaluación

1.5. Control de la frecuencia fundamental, intensidad y tiempo de


fonación
La frecuencia fundamental (F0), la intensidad y el tiempo de fonación, son tres de los
parámetros más importantes que pueden ser modificados en la voz. Estos cambios son
importantes en el habla y más aún en el canto. Otro parámetro importante es el timbre de
la voz. Perceptualmente hablando, estos parámetros corresponden al tono, la sonoridad, la
cualidad vocal. Cada uno de estos elementos tiene varias variables de control biomecánico.

1.6. Control de la frecuencia fundamental


La percepción del tono, corresponde a la medida física de la frecuencia fundamental
y registro vocal. 5 En términos generales, ambos aspectos son altamente dependientes del
largo de los pliegues vocales 7, 8 y asociados con la tensión de la cubierta de éstos. 9, 3 La
frecuencia fundamental a su vez corresponde al número de ciclos por segundo del movi-
miento glótico durante la fonación. En la fonación normal, el movimiento de los pliegues
vocales es similar de un ciclo a otro, produciendo que los periodos glóticos sean por lo
tanto también similares.

Cada ciclo fonatorio libera aire a través del flujo glótico, el cual es el encargado de
generar el sonido. En la fonación normal, la excitación acústica es creada a través de la
variación del flujo. La Figura 8 muestra dos ciclos del flujo glótico. El periodo T, el cual
es de 10 ms (por lo tanto la F0 es igual a 100 Hz). La velocidad de flujo glótico (en litros
por segundo) comienza a excitar la glotis gradualmente, se eleva hasta un punto máximo,
y luego cesa de una forma relativamente abrupta. El aire excita la glotis desde el punto
A hasta el punto B durante el movimiento lateral y luego medial de la parte membranosa
de los pliegues vocales. La glotis está cerrada, o casi cerrada entre los puntos B y C. La
cantidad de aire durante este intervalo corresponde a la perdida de aire que ocurre cuando
los cartílagos aritenoides están separados en algún grado. 10

Figura 8. Forma de onda del flujo glótico (arriba). Derivada de la forma de onda de flujo glótico (abajo).

© Editorial EOS
Fundamentos y evaluación de la voz 253

La parte inferior de la Figura 8 es la derivada del tiempo de la señal de flujo glótico.


En cualquier momento del tiempo, el valor en la línea inferior es igual a la pendiente de
la señal de la velocidad de flujo en ese momento. El cambio más rápido de velocidad de
flujo ocurre en el punto D, que corresponde al punto M de la derivada. El punto M es el
momento del tiempo en donde ocurre la mayor excitación acústica. 11, 12

La percepción del tono de la voz puede ser afectada por la existencia de inconsisten-
cias entre ciclos consecutivos durante la fonación. 5 El tiempo entre excitaciones acústicas
primarias de un ciclo a otro varía levemente durante la fonación normal, ayudando a crear
una cualidad de voz normal y la percepción de un solo tono. Sin embargo, la variación
del periodo se puede incrementar si existen anormalidades en los tejidos de los pliegues
vocales tales como inflamación, nódulos, pólipos y rigidez, causando inconsistencia en el
flujo glótico y en la vibración de un ciclo a otro. En forma consecutiva, estas variaciones
en los periodos pueden también crear un flujo turbulento de aire a través de la glotis, pro-
duciendo una cualidad de voz soplada y agregando ruido a la señal acústica. 5

La percepción del tono y de la cualidad vocal también puede ser afectada por cambios
que ocurren sobre periodos de tiempo más largos que un ciclo fonatorio. La diplofonía
(existencia de dos tonos simultáneos) 13 y los subarmónicos (divisores enteros de la fre-
cuencia fundamental) se producen por modulaciones múltiples de la señal de flujo glótico
(Figura 9). 14-17

Figura 9. Espectrograma voz patológica con presencia de subarmónicos. Se observa en algunos


segmentos un subarmónico entre dos armónicos.

El tono puede ser también alterado por congestión de fluidos (edema). La explicación
común para la caída del tono en personas con edema es que masas más grandes producen
frecuencias fundamentales más bajas. 18

© Editorial EOS
254 Trastornos del habla: de los fundamentos a la evaluación

1.7. Cambios biomecánicos que afectan la frecuencia fundamental


Cambiar la frecuencia fundamental implica una variación de la velocidad en que la
onda mucosa se repite. La forma más eficiente para hacer esto es modificando las propie-
dades mecánicas de los pliegues vocales (aunque veremos más adelante que también es
posible cambiar la F0 alterando la presión de aire). 3, 6

Antes de hablar directamente de los mecanismos que controlan la F0, recordaremos


algunos aspectos básicos anatómicos relacionados con este proceso. Los pliegues vocales
se estiran desde los cartílagos aritenoides (los cuales están anclados a la parte posterior
del cartílago cricoides) en la parte posterior, a la pared interna del cartílago tiroides en la
parte anterior (Figura 10). El cartílago tiroides se articula con el cartílago cricoides de tal
forma que puede girar. El músculo cricotiroideo que se extiende sobre el espacio entre los
cartílagos tiroides y cricoides en el frente (Figura 11). Cuando este músculo se contrae
acerca a ambos cartílagos causando un movimiento en báscula del cartílago tiroides hacia
abajo. Además el cartílago tiroides se desliza hacia adelante en cierta medida. Note que
el efecto de estos cambios es incrementar la distancia desde el cartílago aritenoides a la
parte interna del cartílago tiroides. Considerando que los pliegues vocales deben cubrir
el espacio entre los aritenoides y el tiroides, al incrementar esta distancia, se estiran los
pliegues vocales haciéndose más largos.

Figura 10. Ubicación anatómica de los pliegues vocales87.

Figura 11. Músculo cricotiroideo88.

© Editorial EOS
Fundamentos y evaluación de la voz 255

Estos cambios causan importantes modificaciones en el ciclo glótico. Primero, si los


pliegues vocales son más largos tendrán una superficie más grande para la presión de aire
debajo de ellos. Esto en esencia produce que la presión sea más efectiva al separar los
pliegues vocales durante la fase de apertura del ciclo glótico. Los pliegues vocales, por lo
tanto, se separan más rápido, acortando la duración del ciclo. 2, 7 El resultado será enton-
ces un ritmo de repetición más rápido y por lo tanto una F0 mayor. Además, el hecho de
alargar los pliegues vocales implica que las fibras elásticas de la cubierta y en particular
las del ligamento vocal son estiradas. El ligamento vocal es como una banda elástica, que
al estirarlo produce el mismo resultado, la mayor rigidez genera que el regreso hacia la
posición de reposo sea más rápida después de haber sido separados. Por lo tanto, una vez
que los pliegues vocales han sido separados, ellos retornan más rápidamente hacia la línea
media, por lo tanto al incrementar la rigidez de la cubierta de los pliegues vocales (debido
a la contracción del músculo cricotiroideo) también produce un acortamiento del ciclo
glótico contribuyendo al aumento de la F0. 2, 3, 7

La frecuencia fundamental es también dependiente de la actividad del músculo tiroari-


tonoideo (el cuerpo de los pliegues vocales). 19, 20 Este músculo actúa antagonistamente
al cricotiroideo en relación al cambio del largo de la cubierta de los pliegues vocales. 19,
21
Por lo tanto, si solo la cubierta está vibrando, como ocurre en la fonación suave en de
tonos altos, un incremento en la contracción del musculo tiroaritenoideo debería acortar
y reducir la tensión de la cubierta mucosa, y por lo tanto bajar la frecuencia fundamental.
Sin embargo, si el músculo tiroaritenoideo participa en el movimiento de los pliegues
vocales de manera significativa, como ocurre en la fonación de alta intensidad y fonación
con baja frecuencia fundamental, un incremento en la actividad de este músculo incre-
mentará la tensión efectiva de todos los tejidos en movimiento como efecto primario, y
por lo tanto subirá la frecuencia fundamental. 19, 21

El efecto del cambio de la frecuencia fundamental relacionado con la participación


muscular del tiroaritenoideo, conceptualmente depende de la cantidad relativa del muscu-
lo participando en la masa vibratoria, la tensión dentro la porción de masa en movimiento
del tiroaritenoideo y de la actividad relativa del mismo músculo. 19

La tensión de la cubierta de los pliegues vocales puede ser cambiada (y por lo tanto
también la frecuencia fundamental) por ajustes externos que afectan el largo de los plie-
gues vocales. El hecho de tirar el hueso hioides hacia anterior por los músculos suprahioí-
deos puede ayudar a la inclinación del cartílago tiroides hacia adelante, hacia la posición
donde el borde inferior se acerca al borde superior del cartílago cricoides (similar a la
función del músculo cricotiroídeo), por lo tanto incrementa el largo de los pliegues voca-
les y esto a su vez sube la frecuencia fundamental. 22 Además, es posible que el cartílago
cricoides pueda ser inclinado hacia abajo y en la zona posterior, acortando el largo de
los pliegues vocales producto de un tiramiento traqueal inferior. Esto se produciría por
un descenso del diafragma con niveles altos de volumen pulmonar (o por co-activación
del diafragma durante la fonación), induciendo a un descenso del tono, a menos que sea
compensado por un aumento de la actividad del músculo cricotiroideo. 22

© Editorial EOS
256 Trastornos del habla: de los fundamentos a la evaluación

1.8. Cambios aerodinámicos que afectan la frecuencia fundamental


La frecuencia fundamental no solo cambia por factores biomecánicos, sino que ade-
más por modificaciones aerodinámicas. De hecho, la modificación de la presión de aire
que conduce al ciclo glótico produce cambios en la F0. Al aumentar la presión subglótica
se produce un incremento de la intensidad vocal, y al mismo tiempo existe una tendencia
al incremento de la F0. Los fundamentos de este efecto no son totalmente conocidos, pero
Titze 3 ha propuesto una hipótesis que es muy posible. Esta hipótesis se relaciona con la
distancia que se produce cuando existe una alta presión de aire entre el borde de los plie-
gues vocales y la línea media. Muchos experimentos han demostrado que la F0 cambia
cerca de 3 o 6 Hz por cada cm de H2O de presión. 23, 24 Para el habla conversacional, este
cambio de frecuencia no es muy significativo. Sin embargo, considerando que al subir la
intensidad también sube la F0, esto tiene una clara importancia en los cantantes, quienes
tendrán que compensar de alguna forma. 1, 10

La presión de aire empujando en contra de la superficie inferior mueve los pliegues


vocales lateralmente y también algo hacia arriba. 10 La extensión lateral de la excursión
depende de la cantidad de presión subglótica y del largo de los pliegues vocales. Por lo
tanto, cuando existe un largo antero-posterior constante de la glotis, una presión subgló-
tica mayor empujará a los pliegues vocales con una mayor extensión, creando un estira-
miento máximo mayor que en presiones subglóticas menores. Estiramientos máximos
mayores producen una tensión efectiva mayor y por lo tanto una frecuencia fundamental
más alta. 10 Los cambios de la prosodia o melodía del habla durante la conversación son
causados por una combinación del estiramiento pasivo de los pliegues vocales provoca-
dos por la acción del músculo cricotiroideo y la presión subglótica. 24, 25

1.9. Control de la intensidad y cualidad vocal


La sonoridad y la cualidad de la voz son correlatos perceptuales de la intensidad y
del espectro acústico respectivamente. 26, 5, 27, 28 Ambas percepciones dependen de las ca-
racterísticas de la forma de la onda de velocidad de flujo glótico y de las estructuras de
resonancia del tracto vocal. En este apartado solo se verá los aspectos relacionados con
la fuente (pliegues vocales).

La intensidad vocal es una función de la cantidad de excitación que las ondas glóticas
entregan al aire en el tracto vocal. Es fácil ver que si todo el resto permanece constante,
a mayor amplitud de la onda glótica, mayor será la excitación del tracto vocal y por lo
tanto la señal vocal tendrá mayor intensidad. Al subir la presión de aire aumenta el aire
que es empujado a través de la glotis cuando ésta es abierta. Esto produce una onda de
flujo glótico más alta. Por lo tanto, al incrementar la presión pulmonar aumenta la inten-
sidad vocal. 1, 10

Sin embargo, se señaló antes que la repentina cesación del flujo glótico es la primera
responsable de poner el aire del tracto vocal en vibración acústica. Mientras más abrupto
es el corte de flujo, mayor será la excitación del tracto vocal y más intensa será la señal

© Editorial EOS
Fundamentos y evaluación de la voz 257

vocal. Una intensidad vocal mayor, es de hecho, asociada una abrupta fase de cierre del
ciclo glótico. Este efecto el logrado no solamente por la alta presión, sino que también
por cambios voluntarios en la biomecánica de los pliegues vocales que tienden a resistir
el incremento del flujo de aire que la alta presión produce. En consecuencia, la intensidad
es producida por una interacción regulada de la presión de aire y una resistencia glótica
al flujo de aire incrementada. 1, 10

A nivel glótico, la variación de la cualidad vocal está controlada primariamente por


el cierre de los pliegues vocales (aducción) y esto está relacionado con la percepción de
voz normal, soplada o apretada. La voz soplada ocurre cuando los pliegues vocales están
levemente abducidos de forma tal que ellos no cierran completamente durante cada ciclo
vibratorio, permitiendo que parte del volumen de flujo glótico no sea modulado y resulte
en turbulencia. 29 Una voz soplada también puede ser producida por un cierre completo
de los pliegues vocales en la parte anterior (anterior a los procesos vocales de los arite-
noides), pero con una glotis abierta en la zona posterior, permitiendo la creación de aire
turbulento entre los cartílagos aritenoides. Si existe una hiperaducción de los pliegues
vocales, pero con una apertura importante a nivel posterior, se produce una cualidad de
voz soplada-apretada. 30 La cualidad de voz apretada sin soplo es la consecuencia de una
aducción glótica completa, con una cantidad muy pequeña de aire que fluye entre los
pliegues vocales. 26

La Figura 12 muestra una forma de onda típica de la velocidad de flujo glótico en un


registro modal y su correspondiente movimiento glótico. La forma general de la onda de
flujo glótico muestra que el flujo típico comienza más gradualmente en comparación con
lo que ocurre cuando éste está cesando, y que el flujo máximo es producido después del
momento en que ocurre la máxima área glótica. Esta característica retardada del flujo (o
inclinación relativa hacia la derecha del área glótica) está relacionada con la inertancia
de la columna de aire del tracto vocal, el movimiento de las paredes glóticas y la forma
glótica. El efecto de la inertancia se refiere a que el aire dentro del tracto vocal tiene masa.
31, 32
Cuando la glotis recién se abre, el aire (que es conducido por la presión transglótica =
diferencia entre presión subglótica y presión supraglótica) se mueve a través de la glotis
para encontrarse con la columna de aire del tracto vocal. El aire que viene a través de
la glotis literalmente mueve el aire que está dentro del tracto vocal, y esto enlentece el
movimiento de aire que salió inicialmente de la glotis. 33 Correspondiente a este evento,
ocurre un incremento de la presión de aire justo arriba de la glotis a medida que el aire se
mueve a través de ésta hacia el aire que está arriba, produciendo una reducción de la caída
de la presión de aire transglótico. 34, 35 Si el tracto vocal fuese un tubo uniforme, se crearía
una mayor inclinación de la forma de onda del flujo glótico producida por una mayor
inertancia creada por un alargamiento del tracto vocal (ya sea descendiendo la laringe o
protruyendo los labios) o por estrechamiento del área de sección transversal. 35, 36

© Editorial EOS
258 Trastornos del habla: de los fundamentos a la evaluación

Figura 12. Forma de onda flujo glótico y su correlación con el movimiento de los pliegues vocales.

Adicionalmente, se ha visto que la mínima resistencia glótica puede ocurrir cuando


la glotis crea una forma más difusa de un ángulo pequeño, lo cual es altamente probable
que ocurra justo después del momento de máxima área glótica. Por lo tanto cuando la
glotis adopta esta forma difusa, la resistencia al flujo puede ser menor que cuando ocurre
la máxima apertura glótica, y por lo tanto un mayor flujo transglótico podría ocurrir para
ayudar a la inclinación relativa hacia la derecha de la forma de onda de flujo glótico. 10

Cuando existe una mayor inclinación, acústicamente esto se relaciona con una mayor
energía en los armónicos altos del espectro de la voz y por lo tanto existe una percepción
de voz más brillante y más sonora. Las cualidades de la voz dependen de la forma de la
onda de flujo glótico. Espectralmente, la cualidad de voz soplada tiene primariamente
mayor energía en los primeros dos parciales, mientras que en las cualidades de voz normal
y apretada, la energía está distribuida en los armónicos de alta frecuencia. Por esta razón
en las voces sopladas la pendiente espectral es relativamente abrupta (Figura 13), mientras
que en las voces normales y apretadas la pendiente es menos inclinada (Figura 14). 10

Figura 13. Espectro voz soplada con pendiente espectral general abrupta y dos primeros
armónicos con predominio de energía

© Editorial EOS
Fundamentos y evaluación de la voz 259

Figura 14. Espectro voz normal con pendiente espectral general gradual y energía más
concentrada en armónicos de alta frecuencia.

La intensidad total o nivel de presión de sonido de la voz puede incrementar con el


aumento del cambio de la máxima velocidad de flujo transglótico (corte de flujo) que
corresponde al valor M mostrado en la Figura 8 30, 37 Esta máxima velocidad de cambio
del flujo glótico corresponde también a la máxima pendiente negativa o a la máxima des-
aceleración del flujo transglótico. Pendientes más abruptas en el flujo producen el efecto
espectral de incrementar la energía de los parciales de la región del primer formante,
usualmente la porción más importante para la intensidad total de la voz. 37

Es importante también destacar algunos otros efectos espectrales relacionados con


las diferencias en la onda de flujo glótico. La cantidad de tiempo que la forma de onda
muestra el aire excitando la glotis (desde el punto A al B en la Figura 8) dividido por el
periodo del ciclo (desde el punto A al C) es llamado cociente de apertura. El cociente de
apertura comúnmente disminuye cuando cambia la aducción desde una cualidad de voz
soplada a una normal y además ocurre un incremento en la intensidad de la voz. 38 Cuando
el cociente de apertura tiende a disminuir podría haber una pequeña reducción (pocos dB)
en la intensidad de la frecuencia fundamental y posiblemente un pequeño incremento de
la intensidad del primer sobretono (una octava arriba de la F0). 10 También mientas mayor
es la amplitud de la forma de onda del flujo glótico (o un área más grande bajo la forma de
onda), mayor es la amplitud de la frecuencia fundamental. 10 Cuando el flujo ha casi com-
pletado su corte, es decir cuando el flujo casi ha alcanzado la línea de base justo antes del
cierre glótico, hay una esquina de corte. La brusquedad del corte está relacionada con la
energía generada en los armónicos de la voz. 10 Un cambio desde una esquina redondeada
a una esquina muy abrupta puede causar un incremento en la energía de los sobretonos
de hasta 10 a 20 dB y por ende afectar la cualidad de la voz 10 (cambiando la aducción
glótica desde una cualidad de voz soplada a una normal puede producir una esquina más
abrupta de manera considerable).

La intensidad y espectro del flujo glótico son dependientes de la presión de aire


subglótico y la frecuencia fundamental. A medida que la presión de aire incrementa con
un nivel de aducción constante, el flujo máximo a través de la glotis es mayor. Esto es

© Editorial EOS
260 Trastornos del habla: de los fundamentos a la evaluación

causado por la mayor separación glótica que es creada cuando la presión subglótica es
incrementada. A medida que el valor máximo de flujo glótico incrementa, el nivel de
intensidad de la frecuencia fundamental crece. 30 Adicionalmente, un incremento en la
presión suglótica puede causar que los pliegues vocales regresen más rápido a la línea
media, luego una mayor excursión lateral, creando un corte del flujo más abrupto cerca
de la línea de base, produciendo un aumento de la energía espectral. Por lo tanto, una
presión subglótica mayor puede contribuir a incrementar el pico del flujo, aumentando
la derivada del flujo máximo y haciendo la esquina de corte de flujo cerca de la línea de
base más abrupta. Estos efectos cambian la forma del espectro incrementando el nivel de
intensidad de la frecuencia fundamental e incrementando la intensidad de los sobretonos,
por lo tanto subiendo la intensidad total de la voz. 39

La intensidad de la voz también es fuertemente afectada por la frecuencia fundamen-


tal. El poder acústico aumenta 6 dB cada vez que la F0 sube una octava, causado por un
incremento en la derivada del flujo máximo al subir la F0

1.10. Control de la duración de la fonación


La duración se refiere a la cantidad de tiempo en que los pliegues vocales oscilan
durante la creación de sonido. En una laringe normal, la aducción es una de las dos prin-
cipales variables para la duración. Los pliegues vocales deben estar lo suficientemente
juntos como para permitir la oscilación. La presión del aire subglótico es también necesa-
ria para proveer de fuerza suficiente para mover los pliegues vocales al comienzo de cada
ciclo vibratorio. Luego que la fonación haya comenzado, ésta debe cesar, en este acto los
aritenoides se separan (abducen), o se juntar aún más apretadamente (mayor aducción).
Ambos casos producen una cesación de la fonación si el grado de abducción o aducción
es lo suficientemente grande. Otras formas para causar la cesación de la fonación son el
descenso de la presión subglótica o la imposición de presión de aire en el tracto vocal so-
bre la glotis, hasta que la presión cae a través de la glotis (presión trasglótica) a un grado
tan bajo que es imposible mantener la fonación. 10

Desde el punto de vista de la aducción, la duración de la fonación depende del po-


tencial de los pliegues vocales para ser puestos dentro del rango de aducción fonatoria y
de la cantidad de tiempo en que los pliegues vocales están ubicados en ese rango. Para
descontinuar la fonación, los cartílagos aritenoides pueden ser configurados para producir
una sobre compresión, o de forma alternativa una abducción. 10

La fonación requiere una cantidad mínima de presión subglótica para poner a los
pliegues vocales en vibración (umbral de presión de la fonación) 38 y luego para mantener
la fonación. Si los pliegues vocales están ubicados dentro del rango fonatorio, la presión
subglótica se coordina con las características de los tejidos de los pliegues vocales (rigi-
dez, masa y amortiguación) para causar que ellos comiencen el ciclo vibratorio. 38

En términos generales, la creación y duración de la fonación dependen de cuan cerra-


das estén los pliegues vocales y de la cantidad de presión transglótica (presión subglotica

© Editorial EOS
Fundamentos y evaluación de la voz 261

menos presión supraglótica). Para parar la fonación, los pliegues vocales pueden estar
sobre aducidos, sobre abducidos, o la presión trabsglótica puede ser descendida a través
de la disminución de la presión subglótica o el aumento de la presión supraglótica por
medio de una oclusión supraglótica. Los cuatro métodos son utilizados en la producción
normal del habla. Estos mecanismos de cese de la fonación pueden ser comprometidos
potencialmente por alguna disfunción de los aritenoides, alteración respiratoria o articu-
latoria. También una aducción anormal puede ser causada por alteraciones o cambios en
los tejidos de los pliegues vocales. 10, 40

2. EVALUACIÓN OBJETIVA DE LA VOZ


La evaluación funcional de la voz es el proceso mediante el cual el fonoaudiólogo va-
lora cada uno de los parámetros de la voz. Como resultado de este proceso se obtiene una
visión del estado de la voz del paciente. Para llevar a cabo la evaluación vocal, el clínico
debe aplicar diferentes pruebas y procedimientos con el objeto de valorar cada uno de los
elementos que intervienen en la producción de la voz hablada y cantada. Estos elementos
se evalúan en gran parte a través de valoración perceptual auditiva, palpación y observa-
ción visual, lo que convierte a este tipo de evaluación en subjetiva. A pesar que la evalua-
ción perceptual es importante y nunca debería ser eliminada del proceso de evaluación
de la voz, es conveniente complementar esta evaluación funcional con el uso tecnología
que permite objetivar las medidas vocales. Algunos de los instrumentos utilizados en el
proceso de valoración objetiva de la voz son el análisis acústico, la electroglotografía y
las medidas aerodinámicas de la fonación.

3. Medidas aerodinámicas de la fonación


3.1. Introducción
Las medidas aerodinámicas de la fonación constituyen un método clínico de evalua-
ción funcional para obtener información acerca de la función vocal de forma no invasiva.
Estas medidas son consideradas objetivas, conjuntamente con el análisis acústico de la
voz y la electroglotografía.

Para entender cuáles son las medidas aerodinámicas de la fonación y cómo interac-
túan entre ellas, se recordará en forma general el proceso de producción de la voz a nivel
glótico. La voz es producida cuando la presión subglótica de aire, generada por un volu-
men pulmonar de aire exhalado, excede la resistencia de los pliegues vocales que están
aducidos, causando que éstos sean activados y así a su vez causar un flujo de aire que los
pone en oscilación. Cuando los pliegues vocales oscilan, se emiten pulsos de aire desde la
glotis para generar la energía acústica, la cual entra posteriormente al tracto vocal y es fi-
nalmente percibida como voz cuando ocurre el proceso de radiación hacia la atmosfera.41

Esta breve descripción del proceso de fonación muestra de manera implícita que ele-
mentos como el volumen de aire, la presión de aire, flujo de aire y la resistencia a este

© Editorial EOS
262 Trastornos del habla: de los fundamentos a la evaluación

flujo tienen un rol primordial en la producción de la voz. A partir de estos elementos


fisiológicos se describen las medidas aerodinámicas de la fonación utilizadas en la eva-
luación funcional de la voz: presión, flujo y resistencia. Estas medidas son a menudo
llamadas también medidas fisiológicas ya que están directamente relacionadas con las
características de válvula de los pliegues vocales, incluso más que los datos entregados
por el análisis acústico de la voz o electroglotografía.

3.2. Flujo
La medida de flujo de aire, a su vez se divide en dos parámetros: el volumen de flujo y
el promedio de velocidad de flujo. El volumen de flujo es la cantidad total de aire utilizada
durante una tarea de habla y es medido en litros (lt) o mililitros (ml). Cuando el volumen
es medido durante la producción de una fonación sostenida al máximo de tiempo posible,
es llamado volumen fonatorio. Para medir el volumen fonatorio, el paciente debe tomar la
inspiración más profunda posible y luego sostener lo más establemente posible una vocal.
En adultos, el volumen fonatorio normal es de 1500-4000 ml, dependiendo del género y
talla del paciente. 42, 43 Este parámetro permite estimar la capacidad de suministro de aire
para la voz y el habla.

El segundo parámetro es el promedio de la velocidad de flujo, el cual es definido


como la velocidad con que el aire pasa entre los pliegues vocales durante la fonación y es
medido en litros por segundo (l/seg) o mililitros por segundo (ml/seg). El promedio de la
velocidad de flujo también puede ser definido como el volumen de flujo en litros dividido
por el tiempo máximo de fonación en segundos. El promedio normal para este parámetro
se encuentra entre 80 y 200 ml/seg. 42, 43 Considerando aspectos fisiológicos y de rehabili-
tación vocal, el promedio de velocidad de flujo tiene mayor importancia que el volumen
de flujo ya que el primero está íntimamente ligado con las características de válvula de la
laringe, y por lo tanto con el grado de aducción de los pliegues vocales.

El flujo de aire es medido con un instrumento llamado neumotacómetro (medidor de


velocidad de aire). Las grabaciones o toma de muestras de este flujo son realizadas a la
salida de las vías respiratorias (boca) con una máscara puesta sobre la cara del paciente
(Figura 14). El neumotacómetro usa el principio de presiones diferenciales a través de
una resistencia conocida para estimar la velocidad de flujo de aire. Este dispositivo es
esencialmente un tubo con una resistencia mecánica (una malla por ejemplo) en su inte-
rior. A medida que el aire pasa por el tubo y a través de la resistencia, las presiones dife-
renciales son medidas. 44 Esta medida está basada en la Ley de Ohm que será explicada
más adelante. La máscara puesta en la cara del paciente debe ir firmemente cerrada para
evitar perdida de aire y por lo tanto un error en el cálculo. Sin embargo, este cierre crea
la sensación de presiones hacia atrás y un cambio en el timbre percibido por el paciente.
Esto provoca, a menudo, que el paciente cambie las características de si voz y por lo tanto
las medidas obtenidas no sean representativas de su voz en condiciones regulares. Por
esta razón se aconseja instruir al paciente en producir una voz natural y cómoda durante
la realización de la maniobra. 44, 45

© Editorial EOS
Fundamentos y evaluación de la voz 263

Figura 15. Equipo para la realización del examen de las medidas aerodinámicas de la fonación.

Durante la producción de la voz, el flujo de aire que pasa a través de la laringe está so-
metido a rápidas variaciones o cambios provocados por la vibración de los pliegues vocales.
Este flujo es de interés clínico porque revela información relacionada con la naturaleza de la
función vocal en la generación de la fuente de excitación laríngea hacia las cavidades faríngea
y oral. El contenido espectral de la fuente de la voz es a menudo derivado como un reflejo de
la naturaleza de los pulsos de flujo en cada ciclo de vibración de los pliegues vocales. 42, 43, 44

Los pacientes con hiperfunción glótica severa (hiperaducción) o fonación con vocal
fry pueden presentar promedios de velocidad de flujo muy bajos (10-15 ml/seg). Pa-
cientes con incompetencia glótica (hipoaducción) pueden presentar valores muy altos
(400-600 ml/seg. La Figura 16 grafica los modos de fonación señalados. Pacientes con
alteraciones de origen neurológico pueden mostrar un flujo irregular e inestable. 42, 43 La
Figura 17 muestra las medidas de flujo glótico antes y después de una terapia vocal.

Figura 16. Este gráfico muestra como el flujo de aire transglótico (línea gris) aumenta desde
una fonación apretada (izquierda), pasando por una fonación normal (tercio medio) y llegando a
una fonación soplada (tercio derecho). A medida que disminuye la resistencia (aducción) de los
pliegues vocales, el flujo de aire incrementa entre ellos.

© Editorial EOS
264 Trastornos del habla: de los fundamentos a la evaluación

Figura 17. Gráficos representativos de la disminución de la velocidad de flujo después de la terapia


vocal. A la izquierda (pre-terapia) se ve un mayor flujo que en el gráfico de la derecha (post-terapia).

3.3. Presión
3.3.1. Presión subglótica
La presión, en términos físicos, es definida como la fuerza por unidad de área, ac-
tuando perpendicularmente en esta área. En el caso de la fonación, la presión subglótica
(medida en cm de H2O) actúa como una fuerza debajo de los pliegues vocales, subiendo
hasta que supera la resistencia que éstos oponen y dando comienzo así a la oscilación. 46
La presión subglótica es la energía disponible para la creación de la señal acústica de la
voz. En sujetos normales, la presión subglotica necesaria para una fonación a intensidad
conversacional es entre 5 y 10 cm de H2O. 42, 45-47

3.3.2. Umbral de presión de la fonación


Una medida derivada de la presión subglótica, y de gran importancia clínica, es el
umbral de presión de la fonación. Este parámetro es definido como la mínima presión
subglótica requerida para que los pliegues vocales inicien o mantengan la fonación. 48, 49

El umbral de presión de la fonación es de vital importancia como predictor de la es-


tructura y de las capacidades vibratorias de los pliegues vocales. Específicamente, este
parámetro depende de las características viscoelásticas de los pliegues vocales, de la con-
figuración de la glotis (ancho glótico prefonatorio), grosor del borde libre de los pliegues
vocales, cantidad de amortiguación de los tejidos (pérdida gradual de la oscilación) y la
velocidad de la onda mucosa. Cuando la amplitud glótica prefonatoria es pequeña, la vis-
cosidad de los pliegues vocales es baja y sus bordes vibratorios están flexibles y relajados,
la amortiguación es mínima (la flexibilidad es grande), y la velocidad de la onda mucosa
es baja, entonces el umbral de presión de la fonación es bajo. 46

En una persona con alguna alteración funcional u orgánica, los pliegues vocales tienen
un umbral de presión de la fonación aumentado, es decir, para poder iniciar o mantener la
fonación necesitará mayor cantidad de presión subglótica comparado con una persona con
pliegues vocales sanos. El umbral de presión de la fonación ha sido asociado con la sensa-
ción de esfuerzo fonatorio. De esta forma, una persona que refiere un alto grado de esfuerzo

© Editorial EOS
Fundamentos y evaluación de la voz 265

fonatorio presenta un alto valor de umbral de presión de la fonación. En sujetos portadores


de voces normales se espera que el umbral se encuentre entre 3 y 5 cm de H2O. 42, 46, 48-50

Algunos elementos que afectan el valor del umbral de presión de la fonación, además de
los ya mencionados, son la frecuencia fundamental, el grado de hidratación de los pliegues
vocales, presencia o no de fatiga vocal. Pliegues vocales bien hidratados, vibrando a una
frecuencia fundamental adecuada para cada sujeto y en ausencia de fatiga vocal, deberían
presentar un bajo umbral de presión de la fonación y baja sensación de esfuerzo al fonar. 51

3.3.3. Otras medidas de presión


Otras medidas de presión involucradas en la producción de la voz son la presión su-
praglótica o intraoral, presión transglótica y presión intraglótica. La presión intraoral es
la presión de aire que se encuentra en la cavidad oral y faríngea, la presión intraglótica
es la presión de aire entre los pliegues vocales y la presión transglótica se define como la
presión subglótica menos la presión supraglótica. Esta última tiene un rol importante en el
proceso de fonación, puesto que si no hay diferencia entre las presiones sub y supraglóti-
ca, no existe flujo de aire entre los pliegues vocales y por lo tanto no se produce vibración.

3.4. Resistencia
Resistencia es entendida en términos generales como lo opuesto al movimiento. La re-
sistencia glótica es una medida derivada que combina las medidas de presión subglótica y
de velocidad de flujo transglótico. La resistencia glótica no puede ser medida directamente,
sino que se calcula dividiendo la presión subglótica por el promedio de velocidad de flujo. 42

Esta medida sirve como una estimación de la función de válvula de la laringe. Aun
cuando la resistencia laríngea varía dependiendo de la etapa del ciclo vibratorio de los
pliegues vocales (mayor resistencia en la fase cerrada que en la fase abierta), este pará-
metro generalmente se refiere al promedio de resistencia a lo largo de varios ciclos (ten-
dencia general de la voz de una persona). Desde el punto de vista clínico, una resistencia
laríngea elevada puede ser atribuible a una excesiva presión subglótica, insuficiente flujo
transglótico, o ambos juntos. Un sujeto con voz apretada, perceptualmente hablando,
presenta probablemente un alto valor de resistencia glótica debido a un alto grado de
aducción cordal. Por el contrario, un paciente con cualidad de voz soplada, presenta una
resistencia glótica disminuida. 42, 45, 47

Elementos tales como la frecuencia fundamental, intensidad de la voz, registro vocal


utilizado y modo de fonación, afectan de diferente forma a todos los parámetros aerodi-
námicos de la fonación. Por ejemplo, la pesión subglótica está positivamente relacionada
con la intensidad de la voz. Siempre que exista un aumento sustancial de la intensidad
vocal, también existirá un incremento de la presión subglótica.48, 52 Del mismo modo,
normalmente cuando se incrementa la frecuencia fundamental manteniendo un mismo
registro (Ej. registro modal), también existe un incremento de la resistencia glótica.

© Editorial EOS
266 Trastornos del habla: de los fundamentos a la evaluación

3.5. Bases físicas de las medidas aerodinámicas de la fonación


Para profundizar en los aspectos físicos relacionados con las medidas aerodinámicas
de la fonación, es necesario conocer la Ley de Ohm. Esta ley se contextualiza en un
sistema compuesto por elementos de flujo, presión y resistencia, al igual que el sistema
fonatorio. Cuando la concentración de partículas es mayor a un lado de la resistencia que
en el otro, éstas se desplazarán desde la región de mayor a la de menor concentración o
densidad. Esta diferencia de densidad determina la existencia de un gradiente de presión
o potencial entre ambas regiones, lo cual a su vez produce el flujo de partículas. 42 La
resistencia representa en este sistema la dificultad o impedimento al flujo. Por lo tanto, el
flujo sólo ocurre cuando se cumplen dos condiciones: existencia de una asimetría en la
concentración de partículas (gradiente o potencial) y cuando la resistencia permite el paso
de éstas partículas de una región a la otra (Figura 18).

Figura 18. Esquema compuesto por una resistencia, flujo y dos presiones o concentraciones de
partículas diferentes.

Este fenómeno ocurre, por ejemplo en un sistema eléctrico, donde las partículas son
los electrones y el flujo es la corriente eléctrica. En la fonación, el gradiente de presión
está determinado por la diferencia que existe entre la presión subglótica y la supraglóti-
ca (definida anteriormente como la presión transglótica). Como fue señalado, la presión
transglótica es la responsable de la existencia de movimiento de partículas de aire desde
la subglotis hacia la cavidad oral, y por lo tanto del flujo transglótico y de la oscilación
de los pliegues vocales. 42

La ley de Ohm es definida matemáticamente y desde el punto de vista eléctrico como:

Voltaje = Corriente x Resistencia

Donde el voltaje es la diferencia de potencial eléctrico entre dos puntos del circuito,
corriente es el movimiento de electrones debido al gradiente o potencial eléctrico y la
resistencia es el dispositivo que opone dificultad a este flujo de electrones.

© Editorial EOS
Fundamentos y evaluación de la voz 267

La fórmula que refleja la Ley de Ohm en la fonación es:

Diferencial de presión = Flujo x Resistencia

Donde el diferencial de presión está determinado por la presión subglótica menos


la presión supraglótica, el flujo indica el flujo de aire transglótico y la resistencia es la
oposición que oponen los pliegues vocales al flujo de aire, la cual es determinada por el
grado de aducción de éstos.

Cuando la fonación está asociada a un tracto vocal abierto (como ocurre en el habla
normal), la presión supraglótica o intraoral es igual a la presión atmosférica, la cual es
considerada en términos relativos igual a cero. Por lo tanto, basado en la fórmula, presión
subglótica menos cero, tendrá como resultado únicamente la presión subglótica.

En este caso, la formula final aplicada a la fonación es

Presión subglótica = flujo transglótico x resistencia glótica

Despejando aritméticamente esta fórmula se obtiene que:

Flujo transglótico = presión subglótica / resistencia glótica

Resistencia glótica = presión subglótica / flujo transglótico

4. FILTRO INVERSO
Como fue ya señalado anteriormente, los parámetros aerodinámicos de la fonación
pueden ser medidos de dos formas: conociendo las variaciones de ellos dependiendo de
la fase del ciclo vibratorio (fase abierta, fase de cierre o fase de apertura), u obteniendo un
promedio de ellos durante un periodo de tiempo determinado de fonación.

Estudiar el poder aerodinámico generado por la glotis, dependiendo de la etapa del


ciclo vibratorio, requiere la utilización de la técnica denominada filtro inverso.

La voz que escuchamos desde la boca de una persona está afectada por tres instancias
acústico-fisiológicas. La primera de ellas la constituyen las resonancias de los pliegues
vocales (también llamados armónicos), las que están determinadas por los diferentes mo-
dos de vibración de ambos pliegues vocales. La segunda instancia está determinada por
las resonancias del tracto vocal (llamados formantes), producidos por los modos de vi-
bración del aire contenido en el tracto vocal. Finalmente, la última etapa que modifica la
señal original producida en la glotis, está determinada por las características de radiación
que toman lugar cuando el sonido filtrado por el tracto vocal abandona la cavidad oral y
se propaga hacia la atmósfera. 53

La técnica de filtro inverso aplica una serie de filtros con la finalidad de eliminar el
efecto de filtro del tracto vocal en la fuente la señal producida por la fuente glótica, para que
ésta pueda ser estudiada aisladamente desde el punto de vista aerodinámico (Figura 19).

© Editorial EOS
268 Trastornos del habla: de los fundamentos a la evaluación

Figura 19. Software para la realización del filtro inverso. A través de los diferentes comandos que
se observan se realiza el proceso de filtraje inverso.

Una vez obtenida la señal filtrada es posible calcular una serie de cocientes que en-
tregan valiosa información relacionada con el comportamiento vibratorio de los pliegues
vocales, a través de las variaciones de flujo durante las fases del ciclo glótico. Los dos
cocientes más utilizados en investigación y en la clínica son el cociente de cierre y el
cociente de inclinación.

El cálculo de estos cocientes está basado en la duración de las diferentes etapas que
componen el ciclo vibratorio y que se representan en el glotograma de flujo o forma de
onda glótica, el cual es un gráfico que refleja la velocidad del volumen de flujo glótico. El
tiempo es graficado en el eje horizontal y el aumento de velocidad del volumen de flujo
es graficado en ascendentemente en el eje vertical. Cada ciclo de velocidad de volumen
de flujo glótico corresponde a una apertura y un cierre en la vibración. La parte horizontal
plana debajo de la forma de onda, representa la pérdida de flujo glótico. En otras palabras,
los pliegues vocales están aducidos y la glotis está cerrada completamente. Cuando el
gráfico se muestra en ascenso representa un aumento del flujo a medida que los pliegues
vocales se están abriendo, y el descenso representa una disminución del flujo glótico a
medida que los pliegues vocales se están cerrando. Los picos de las forma de onda (pun-
tos más altos) representan la máxima velocidad de volumen de flujo glótico y corresponde
a la máxima apertura de los pliegues vocales en el ciclo vibratorio. Ver Figura 20.

© Editorial EOS
Fundamentos y evaluación de la voz 269

Figura 20. Glotograma de flujo. Se muestran las diferentes etapas de un ciclo. En base a estas
etapas es posible calcular los cocientes de inclinación y cociente de cierre.

El cociente de cierre es definido como la duración de la etapa de cierre de los pliegues


vocales (cuando los pliegues vocales se encuentran cerrados), dividida por el periodo
glótico (duración de un ciclo completo). 46, 53

El cociente de inclinación se define como la duración de la fase de apertura (cuando los


pliegues vocales se van abriendo) dividida por la duración de la fase de cierre (cuando los
pliegues vocales se van cerrando). Ambos cocientes afectan las características timbrísticas
de la voz, específicamente aquellas relacionadas con el grado de brillo percibido auditi-
vamente. Una voz brillante normalmente es causada por un mayor tiempo de contacto de
los pliegues vocales y una gran inclinación de la onda de flujo glótico, lo cual a su vez,
refleja un rápido corte del flujo transglótico. En términos prácticos, esto implica respecti-
vamente que los pliegues vocales permanecen más tiempo cerrados que abiertos y que el
tiempo la cesación del flujo transglótico ocurre rápidamente. 46, 53 Desde el punto de vista
acústico, este comportamiento fisiológico, produce mayor excitación de los componentes
armónicos altos del espectro vocal y por lo tanto la voz es percibida más brillante y sonora.

5. VALORES PROMEDIOS DE FLUJO, PRESIÓN Y RESISTENCIA


Recordemos que los parámetros aerodinámicos de la fonación pueden ser medidos de
dos formas: conociendo las variaciones de ellos dependiendo de la fase del ciclo vibra-
torio (fase abierta, fase de cierre o fase de apertura), u obteniendo un promedio de ellos
durante un periodo de tiempo determinado de fonación. La obtención de ellos dependien-
do de la fase del ciclo glótico, ya fue explicada (Filtro inverso). A continuación veremos
la obtención a través de valores promedios.

© Editorial EOS
270 Trastornos del habla: de los fundamentos a la evaluación

5.1. Obtención del flujo


Para obtener los valores promedios de flujo transglótico durante un tiempo determinado
de fonación, es necesario pedirle al paciente una vocal mantenida por algunos segundos,
leer un texto, hablar, o cantar una canción. Una muestra de flujo transglótico se obtiene cu-
briendo la boca del paciente con una máscara, la cual recibe el flujo de aire (Figura 1). Este
flujo de aire es captado finalmente por un transductor que convierte la energía aerodinámica
en un voltaje eléctrico. Para calcular la presión subglótica, sin embargo, se requiere solicitar
una tarea fonatoria diferente. Para profundizar en este tema, es necesario describir algunos
aspectos técnicos vinculados con la adquisición de la medida de presión subglotica.

5.2. Obtención de la presión subglótica


La presión subglótica puede ser medida directamente, solo a través de un procedi-
miento invasivo que requiere una punción con una aguja en la tráquea, directamente de-
bajo de los pliegues vocales. La aguja es conectada a un catéter y este a su vez a un trans-
ductor de presión, el cual capta las variaciones de presión debajo de la glotis. Este método
no es clínicamente utilizado debido a que es un procedimiento invasivo. 54 Sin embargo,
la presión subglótica puede ser además estimada desde la presión intraoral durante la
producción de la secuencia silábica papapa. 41

La secuencia papapa está compuesta de dos elementos claves para el cálculo de las
presiones. La consonante áfona /p/ y la vocal sonora /a/. El procedimiento consiste en
poner un tubo dentro de la boca, el cual está conectado a un transductor de presión, que
convierte la señal de presión en señal eléctrica. 41, 42

Durante la producción de la secuencia papapa, específicamente durante la consonan-


te áfona /p/, la presión de la cavidad oral (presión intraoral) es igual a la presión de la
subglotis (presión subglótica), debido a que los pliegues están completamente abducidos
y por lo tanto ambas cavidades están conectadas. Entonces, al medir la presión intraoral
con el tubo introducido dentro de la boca durante la consonante /p,/ se está midiendo tam-
bién la presión subglótica por el hecho de que ambas cavidades están conectadas (Figuras
21 y 22). 41, 42, 45, 47, 53

Figura 21. Tubo introducido dentro de la cavidad oral para estimar indirectamente la presión
subglótica desde la presión intraoral.

© Editorial EOS
Fundamentos y evaluación de la voz 271

Adicionalmente, durante la producción de la consonante /p/ las válvulas velofaringeas


y oral están cerradas, hecho que también contribuye a la medición de la presión subglótica
estimada desde la presión intraoral.

Figura 22. Gráficos representativos de la disminución de la presión subglótica después de la


terapia vocal. A la izquierda (pre-terapia) se ve una mayor presión subglótica que en el gráfico
de la derecha (post-terapia). Ambos gráficos muestran los picos de presión producidos por la
consonante P durante la secuencia silábica papapa

6. UTILIDADES CLÍNICAS DE LAS MEDIDAS AERODINÁMICAS


Son variadas las utilidades clínicas de las medidas aerodinámicas de la fonación, entre
ellas encontramos: ayudan a interpretar la estructura, configuración y movimiento de los
pliegues vocales, ayudan a discriminar una función vocal normal o alterada, permiten
medir la severidad de la alteración a través de la función, ayudan a indicar en forma
general la etiología funcional de la disfonía y además pueden ser útiles como método de
retroalimentación para la terapia vocal. 42

6.1. Ejemplos aplicados


Veamos a continuación dos ejemplos aplicados de las medidas aerodinámicas de la
voz. Las voces sopladas o aéreas (perceptualmente hablando) reflejan un gran promedio
de flujo transglótico. Este aumento de flujo puede ser causado por una disminución de
la resistencia glótica (disminución de la aducción de los pliegues vocales), un aumento
de la presión subglótica, manteniendo la resistencia constante, o ambos casos al mismo
tiempo. Este comportamiento fisiológico está claramente representado en la fórmula que
define al flujo transglótico.

Flujo = Presión / Resistencia

Si el flujo esta aumentado, como ocurre en las voces sopladas, es debido a una dis-
minución del denominador de la división (resistencia) y/o un aumento del numerador
(presión) o ambos juntos.

© Editorial EOS
272 Trastornos del habla: de los fundamentos a la evaluación

Un caso opuesto, muy comúnmente visto en la clínica de voz, es una persona con un
patrón fonatorio hiperfuncional, es decir con un aumento de la aducción de los pliegues
vocales al fonar. En este caso, el promedio de flujo transglótico está disminuido compara-
do con una fonación normal. Esta disminución se debe ya sea a un aumento de la resisten-
cia glótica (mayor valor en el denominador de la fórmula), o a una disminución de la pre-
sión subglótica (numerador). Sin embargo, en la clínica, lo que se ve normalmente en los
pacientes con voces hiperfuncionales es un aumento de ambos parámetros paralelamente.
Es decir, ocurre un incremento de la aducción glótica (lo que provoca una disminución
del flujo) y además por compensación la presión subglótica también sube con el propósito
de vencer la gran resistencia impuesta los pliegues vocales y de esa forma poder inicial o
mantener la oscilación.

7. ELECTROGLOTOGRAFÍA
7.1. Bases de la electroglotografía
La electroglotografía es un método simple y no invasivo que permite obtener infor-
mación sobre los movimientos vibratorios de los pliegues vocales y estimar el grado de
contacto relativo de ellos. Este método es posible de ser realizado paralelamente a la gra-
bación de muestras de audio de la voz y la toma de la señal aerodinámica de la fonación.
La electroglotografía se basa en las propiedades de conducción eléctrica de los tejidos
laríngeos. La Figura 23 muestra algunos de los equipos comerciales de electroglotografía
disponibles actualmente en el mercado internacional.

Figura 23. Dos equipos de electroglotografía disponibles en el mercado. A la izquierda el equipo


de la empresa KayPentax. A la derecha el equipo de la empresa Glottalenterprises.

Fabre en 1957 fue el primero en describir la electroglotografía, señalando que este


examen permitiría la exploración de algunos fenómenos laríngeos (frecuencia de vibra-
ción, y detalles del cierre y apertura de los pliegues vocales) bajo condiciones fisiológi-
cas de producción de sonido, tanto en sujetos con voces normales como en sujetos con
voces disfónicas. 53

© Editorial EOS
Fundamentos y evaluación de la voz 273

Para la realización de la electroglotografía, dos electrodos de superficie son colocados


a ambos lados del cuello, puestos sobre las láminas derecha e izquierda del cartílago tiroi-
des y fijados con una faja elástica (Figura 24). Una corriente eléctrica de débil voltaje (0.5
V) de alta frecuencia (entre 300 KHz y 5 MHz) es aplicada a un electrodo y el otro elec-
trodo recoge la corriente eléctrica que pasa a través de la laringe. Esta corriente eléctrica
que fluye de un electrodo a otro no daña los tejidos y no es sentida por los pacientes. Esto
es debido a la combinación de alta frecuencia y bajo voltaje de la señal. Los tejidos de los
pliegues vocales son buenos conductores de la electricidad, mientras que el aire entre los
pliegues vocales (cuando éstos están abiertos) es un mal conductor eléctrico. Por lo tanto
la impedancia eléctrica varía con la apertura y cierre de la glotis, lo que se traduce en una
variación de la corriente eléctrica, en fase con la etapa del ciclo vibratorio de los pliegues
vocales. La impedancia eléctrica a través de la laringe sube cuando los pliegues vocales
de abren y baja cuando éstos se cierran y por lo tanto aumentan su contacto. 45

Figura 24. Postura de los electrodos durante la evaluación con electroglotografía

La correcta postura de los electrodos es crucial para la obtención de una buena señal
electroglotográfica. Una errada colocación de ellos puede producir una señal de baja am-
plitud. Aspectos como la altura de la laringe del paciente, los movimientos verticales de
la laringe al fonar o respirar y cuan apretada está la banda electica que fija los electrodos
pueden determinar cambios en la señal obtenida y por lo tanto los parámetros cualitativos
y cuantitativos electroglotográficos pueden verse afectados. 55

Los cambios de impedancia eléctrica a través de los tejidos de la laringe medidos –


mediante de la electroglotografía son capaces de representar, tanto los ajustes laríngeos
lentos, tales como los relacionados con la posición general de los pliegues vocales; como
también los cambios rápidos relacionados con cambios en el área de contacto producidos
por la vibración de los pliegues vocales durante la fonación. 55, 57, 53

Normalmente es necesario hacer una correcta limpieza de los electrodos antes de ser
utilizados. De igual forma, es importante el uso de un gel conductor en ambos electrodos
para asegurar una señal de mejor calidad.

© Editorial EOS
274 Trastornos del habla: de los fundamentos a la evaluación

7.2. Onda electroglotográfica


La onda electroglotográfica (electroglotograma) debe ser espacialmente orientada con
la zona de mayor contacto hacia arriba, es decir, a medida que la onda sube, el contacto
cordal es mayor. Esto indica al mismo tiempo que la menor impedancia eléctrica estará
con orientación hacia arriba (Figura 25). 45, 47, 53

Figura 25. Típica onda electroglotográfica espacialmente orientada con la zona de mayor contacto
hacia arriba.

La onda electroglotográfica puede ser dividida en dos grandes partes: fase de abierta
y fase de contacto. A su vez la fase de contacto se subdivide en fase de cierre y fase de
apertura (Figura 26).

Figura 26. Un ciclo completo de la onda electroglotográfica divido en sus diferentes fases.

© Editorial EOS
Fundamentos y evaluación de la voz 275

La porción de la forma de onda que representa una disminución del contacto de los
pliegues vocales (y por lo tanto un incremento de la apertura glótica) es menos abrupta
que la fase donde incrementa en contacto (fase de cierre) de los pliegues vocales. Note
también la breve duración del máximo contacto relativo de los pliegues vocales (corres-
pondiendo en una laringe normal al cierre glótico). Además, la fase de apertura es más
larga que la fase de cierre y que la fase cerrada. 47, 53, 55

La Figura 27 muestra la correspondencia de los eventos vibratorios y la forma de la


onda electroglotográfica. Los principales puntos y segmentos de una onda electrogloto-
gráfica perfecta se observarían como se ven a continuación. 53

Figura 27. Un ciclo completo mostrando los principales puntos y segmentos de una onda
electroglotográfica

1 = Mínimo contacto entre los pliegues vocales.


a = Área de contacto comienza a aumentar rápidamente. Inicio de la fase de cierre,
contacto margen inferior de los pliegues vocales.
a-b = Prosigue la aproximación del margen inferior de los pliegues vocales.
b = Margen superior hace contacto.
b-c = Se alcanza el cierre glótico.
c = pto. De máximo contacto de las cuerdas vocales. Termina la fase de cierre.
c-d = Máxima área de contacto. La glotis es mínima.
d = Inicio de la fase de apertura.
d-e = Prosigue la separación gradual del margen inferior de los pliegues vocales.
e = Separación completa del margen inferior Inicio de la separación del margen superior.
E-f = Espacio glótico aumenta.
f = Punto de mínimo contacto, glotis máxima.
f-a = Pico de alejamiento entre las cuerdas vocales.

© Editorial EOS
276 Trastornos del habla: de los fundamentos a la evaluación

7.3. Parámetros de la onda electroglotográfica


La evaluación de la onda electroglotográfica considera tanto aspectos cuantitativos,
como cualitativos. Tres medidas cuantitativas o cocientes de la onda electroglotográfica
son utilizadas para resumir los cambios de los pliegues vocales durante la fonación.

• Cociente de contacto: relación entre en tiempo cuando los pliegues vocales están
en contacto y el tiempo total del ciclo vibratorio. Es también llamado algunas veces
como cociente de cierre, sin embargo, el pico de la onda electroglotográfica, así
como también el cociente de contacto, no necesariamente representa cierre de la
glotis, sino que máximo contacto relativo de los pliegues vocales. Es posible asumir
que en una laringe normal, el pico si representa un cierre completo de la glotis. 45, 55
• Cociente de apertura: relación entre la fase abierta de la vibración de los pliegues
vocales y la duración del ciclo vibratorio completo. 45, 55
• Cociente de velocidad: relación entre la duración de la fase de apertura y la dura-
ción de la fase de cierre. 45, 55

Los cocientes recién presentados son útiles para un análisis cuantitativo del comporta-
miento vibratorio de los pliegues vocales. Sin embargo, es necesario tener en cuenta que
los puntos exactos de la forma de onda electroglotográfica, que corresponden a eventos
tales como la apertura y cierre, son estimados, y por lo tanto pueden variar de un estudio
a otro afectandose los valores.

Algunos parámetros cualitativos de la onda electroglotográfica son los siguientes:

• Amplitud de la onda: amplitud máxima calculada desde el punto de máximo con-


tacto al punto de mínimo contacto. Indica de forma indirecta el área de contacto
de los pliegues vocales.
• Simetría de la onda: simetría entre la fase de cierre y la fase de apertura.
• Estabilidad de amplitud y periodo: variaciones de la amplitud y periodo.
• Duración de la fase de contacto: tiempo que dura la fase de contacto.
• Duración de la fase de abierta: tiempo que dura la fase abierta.

7.4. Desventajas de la electroglotografía


La electroglotografía tiene varias ventajas, entre ellas, el bajo costo, es de fácil uso,
fácil de conseguir en el mercado y no es un método invasivo. Sin embrago, este sistema
también posee desventajas tales como, la señal puede ser de mala calidad en sujetos con
laringes pequeñas, particularmente mujeres y niños, para quienes en cambio en la resis-
tencia debido al contacto de los pliegues vocales o ausencia de contacto es muy pequeña.
También es difícil obtener una señal adecuada en sujetos con cuellos muy gruesos, debido
tanto a mucha musculatura o mucho tejido adiposo. 53, 55

Uno de los problemas más importantes de la electroglotografía es la interpretación


de la forma de onda, particularmente en sujetos con alteraciones vocales. La presencia

© Editorial EOS
Fundamentos y evaluación de la voz 277

de la capa de mucus en los pliegues vocales puede cambiar la resistencia natural de la


corriente eléctrica entre los dos electrodos, haciendo confusa la interpretación del verda-
dero contacto de los pliegues vocales. La hiperfunción muscular puede cambiar también
la naturaleza de la resistencia, alterando la forma de la onda electroglotográfica y por lo
tanto alterando la interpretación. 53

7.5. Ejemplos de ondas electroglotográficas


7.5.1. Modos de fonación
Los modos de fonación dependen del grado de aducción de los pliegues vocales. Por
lo tanto los diferentes modos de fonación (apretado, normal, soplado y susurrado) mani-
fiestan tiempos y cocientes de contacto diferentes (Figuras 28-30).

Al comparar las tres ondas electroglotográficas correspondientes a tres diferentes mo-


dos de fonación, es posible observar claramente que la zona de contacto es mayor en la
voz apretada comparada con las muestras de voz normal y voz soplada. Además, la onda
de voz apretada tiene una mayor amplitud de vibración de las otras dos. Este último hecho
indicaría un área de contacto de los pliegues vocales mayor.

Figura 28. Onda electroglotográfica perteneciente a un paciente con voz normal.

Figura 29. Onda electroglotográfica perteneciente a un paciente con voz apretada.

© Editorial EOS
278 Trastornos del habla: de los fundamentos a la evaluación

Figura 30. Onda electroglotográfica perteneciente a un paciente con voz soplada.

7.5.1. Registros vocales


Los registros vocales o mecanismos fonatorios también son reflejados en la onda elec-
troglotográfica. A continuación se muestran ondas pertenecientes a los registros modal,
falsete y vocal fry (Figuras 31-33).

Figura 31. Onda electroglotográfica perteneciente a una fonación en registro modal. Se observa
una onda asimétrica con un tiempo de contacto cercano al 50%.

Figura 32. Onda electroglotográfica perteneciente a una fonación en registro de falsete. Se


observa una onda asimétrica con un tiempo de contacto cercano 35%. El grado de simetría en
registro de falsete es mayor comparado con el registro modal. Esto se debe a la menor diferencia
de fase vertical que caracteriza al registro de falsete.

© Editorial EOS
Fundamentos y evaluación de la voz 279

Figura 33. Onda electroglotográfica perteneciente a una fonación en registro de vocal fry. Se
observa una onda asimétrica con un tiempo de contacto cercano 70%. Adicionalmente de observa
doble oscilación, algo característico del vocal fry.

8. ANÁLISIS ACÚSTICO DE LA VOZ


El análisis acústico es una forma de analizar y estudiar en forma objetiva la voz de una
persona. El hecho de que sea objetivo permite eliminar la subjetividad de la evaluación
realizada con el oído del evaluador. Para llevar a cabo el análisis acústico de la voz es
necesario considerar varias etapas: 1) grabación de la voz del paciente utilizando una ca-
dena de grabación apropiada, 2) se le pide al paciente que emita diferentes tipos de tareas
fonatorias, 3) estas señales acústicas ingresan a un software el cual capaz de extraer las
dimensiones físicas de una onda sonora, analizarlas en forma cuantitativa y cualitativa, y
finalmente entregar como resultado gráficos y parámetros numéricos que deben ser inter-
pretados por el evaluador (Figuras 34 y 35).

Las utilidades del uso del análisis acústico de la voz incluyen:

• Entregar mayor comprensión acústica del output de la voz y producir una mayor
asociación de este tipo de análisis con la valoración perceptual auditiva.
• Proveer datos normativos para diferentes realidades vocales, diferentes culturas,
diferentes rangos etarios, diferentes ocupaciones, etc.
• Ofrecer una posibilidad de documentación para trazar la línea de base de la voz de
una persona.
• Monitorear el avance de la terapia o entrenamiento de la voz de una persona.
• Sirve como instrumento de detección precoz de posibles problemas vocales.

A pesar de la contribución innegable que entrega el análisis acústico de la voz, la eva-


luación perceptual realizada por el oído entrenado del clínico nunca debe ser eliminada. El
análisis acústico debe ser utilizado como una forma complementaria de evaluación vocal
y como una manera objetiva no invasiva de documentar el estado vocal de una persona.

Para realizar un correcto análisis acústico y una posterior interpretación, es necesario

© Editorial EOS
280 Trastornos del habla: de los fundamentos a la evaluación

conocer de forma detallada las bases acústicas de la producción de la voz. El presente ca-
pítulo no incluye este tema, por lo tanto se recomienda a los lectores consultar la literatura.

Figura 34. Fonoaudiólogo preparando Figura 35. Fonoaudiólogo durante proceso


ubicación del paciente frente al micrófono de grabación de voz para posterior análisis
para posterior grabación de la voz acústico

8.1. Tipos de análisis acústicos


A continuación de describirán los tipos de análisis acústicos más utilizados actualmen-
te. Cada análisis acústico está acompañado por ejemplos prácticos y su interpretación.

• Oscilograma.
• Espectrograma.
• Spectrum FFT.
• Spectrum LPC.
• Cepstrum.
• Espectro promedio a largo plazo (LTAS).
• Análisis de índices foneticoacústicos.
• Fonetograma.
• Histograma.
• Contornos.

9.1. Oscilograma
El oscilograma es también llamado forma de onda. Constituye la representación visual
más elemental del sonido y es conformado en su eje horizontal por el tiempo y en el eje
vertical por la amplitud de la señal (Figura 36). De esta forma, el oscilograma es una repre-
sentación gráfica de una vibración en función del tiempo. 45 Esta representación gráfica es la
que primero se observa cuando una señal de audio es grabada. A partir de este gráfico se ob-
tienen todos los otros análisis acústicos tales como espectrograma, espectro, cepstrum, etc.

© Editorial EOS
Fundamentos y evaluación de la voz 281

Figura 36. Se observan cuatro oscilogramas obtenidos de la grabación de una voz normal. Todas
estas formas de ondas muestran la misma señal de audio. La primera de ellas está totalmente com-
primida, mientras que la última está descomprimida y por lo tanto se observan más detalles en
cada uno de los ciclos.

9.2. Espectrograma
El espectrograma es la representación gráfica de la frecuencia y la intensidad de la
forma de onda en función del tiempo. El tiempo es graficado en el eje horizontal y la
frecuencia en el eje vertical. La tercera dimensión se representa en un tercer eje, el cual
contiene la energía o amplitud de la señal. Esta energía es comúnmente representada en
escala de grises, donde las zonas más oscuras representan las partes con mayor energía.
En ocasiones la energía es representada utilizando diferentes colores. 45

La espectrografía está basada en el teorema de Fourier. Este teorema señala que todas
las ondas periódicas pueden ser descompuestas en la suma de una serie de ondas senoi-
dales con frecuencias armónicas. El análisis de Fourier es el proceso mediante el cual se
separa una onda compleja en sus componentes senoidales. Un espectrograma contiene
una gran cantidad de información, sin embargo, no toda puede ser mostrada al mismo
tiempo. Cuando se produce un espectrograma, se debe tomar la determinación acerca de
qué tipo de información de desea mostrar, ya sea ésta relacionada con la fuente de sonido
(pliegues vocales) o con el filtro (tracto vocal). Un espectrograma puede mostrar informa-
ción detallada acerca de la estructura armónica de la fuente (pliegues vocales) y acerca de
las resonancias del tracto vocal. Ambos tipos de información no pueden ser entregadas al
mismo tiempo con la misma claridad.45

© Editorial EOS
282 Trastornos del habla: de los fundamentos a la evaluación

Lo que determina la claridad de los elementos observados en el espectrograma es


el ancho de banda del filtro aplicado durante el proceso de creación del espectrograma.
Un filtro de banda estrecha o angosta produce un espectrograma con buena resolución
frecuencial, esto es, buena resolución de los armónicos de la fuente de sonido. Por el
contrario, el filtro de banda ancha favorece una buena resolución temporal. Esto permite
una buena visualización de los pulsos glóticos y además una buena resolución para las
resonancias del tracto vocal o formantes.

Las Figuras 37-42 representan diferentes tipos de emisiones, algunas de ellas analiza-
das con filtro de banda estrecha y otras con filtro de banda ancha.

Figura 37. Espectrograma vocal /a/ voz Figura 38. Espectrograma vocal /a/ voz
normal con filtro de banda ancha. Buena normal con filtro de banda estrecha (Buena
definición temporal (se observan lo periodos) definición para los armónicos)
y buena definición para los formantes. (Buena
definición para los formantes y ciclos)

Figura 39. Espectrograma de banda estrecha Figura 40. Espectrograma de banda estrecha
de una voz disfónica con escape de aire (ruido de un glissando. A medida que aumenta la
interarmónico). Se observa pérdida de los frecuencia fundamental en el glissando, la
armónicos de las frecuencias altas y pérdida distancia interarmónica es mayor.
de energía en los armónicos.

© Editorial EOS
Fundamentos y evaluación de la voz 283

Figura 41. Espectrograma secuencia Figura 42. Espectrograma banda estrecha


vocálica /i, e, a, o, u/ (Banda ancha). Gran vocal /a/ cantada con vibrato. Se pueden ver
variación de los formantes 1º y 2º a medida las oscilaciones del vibrato en cada armónico
que se modifica el tracto vocal cambiando el y además se observa claramente el “formante
molde vocálico. Vocal /i/, F1 en frecuencias del cantante” cercano a los 3000 Hz.
bajas y F2 en frecuencias altas. Vocal
/a/, F1 y F2 muy cercanos en frecuencias
medias. Vocal /u/, F1 y F2 muy cercanos en
frecuencias bajas.

Yanagihara en el año 1967 propuso una forma de categorizar las disfonías según las
características espectrográficas. El autor basó su análisis utilizando espectrogramas de
banda estrecha en las cinco vocales, a intensidad media con tono habitual. Los espec-
trogramas fueron categorizados dentro de cuatro tipos, los cuales representan de manera
adecuada el grado de la disfonía. 53

Grado 1: Componentes armónicos mezclados con componentes de ruido principal-


mente en la región de los formantes vocálicos

Grado 2: Los componentes de ruido en el segundo formante de las vocales /e/ e /i/
dominan por sobre los componentes armónicos, y leves componentes de ruido adicional
aparecen en la región de altas frecuencias sobre 3000 Hz.

© Editorial EOS
284 Trastornos del habla: de los fundamentos a la evaluación

Grado 3: El segundo formante de la /e/ e /i/ es totalmente reemplazado por compo-


nentes de ruido y componente de ruido adicional sobre los 3000 Hz. con mayor energía
y expansión de su rango.

Grado 4: El segundo formante de la /a/, /e/ e /i/ son remplazados por componentes de
ruido, e incluso el primer formante de todas las vocales a menudo pierde su componente
periódico. Además, los componentes de ruido de la alta frecuencias son intensificados.

© Editorial EOS
Fundamentos y evaluación de la voz 285

Adicionalmente, fuera de la clasificación de Yanagihara, se muestra a continuación un


espectrograma representando una afonía completa.

9.3. Espectro FFT y LPC


El espectro o espectrum FFT (Fast Fourier Transformation) es una representación grá-
fica de la señal de audio que es extraída desde un punto específico de tiempo del espectro-
grama. En el eje horizontal está representada la frecuencia y en el eje vertical la amplitud
de la señal. El espectro FFT muestra la amplitud relativa de los armónicos, reflejando la
combinación del espectro de la fuente, la función de transferencia y las características de
radiación. El espectro FFT no es preciso para determinar la frecuencia de los formantes ya
que en ocasiones el centro de frecuencia de estos no coincide con los armónicos (Figura
43). Por otra parte, el espectro LPC (Lineal Predicting Code) muestra una envolvente
del espectro y por lo tanto la identificación de los formantes es fácil. 53 No se pueden ver
los armónicos (Figuras 44-45). El LPC se puede graficar de dos formas: como historia
formántica o como un corte (Figuras 45-46).

Figura 43. Espectro FFT de la vocal /a/. Se Figura 44. Espectro LPC de vocal /a/
observa de manera clara los armónicos con (forma de corte). Se observan claramente los
diferentes amplitudes dependiendo de la formantes o resonancias del tracto vocal.
función de la fuente y del filtro.

© Editorial EOS
286 Trastornos del habla: de los fundamentos a la evaluación

Figura 45. Espectros FFT y LPC de la vocal /a/ juntos en una misma imagen

Figura 46. Espectro LPC de la vocal /a/. A la izquierda en forma de corte y a la derecha
en forma de historia formántica. En éste último los formantes están señalados en color blanco
y en función del tiempo.

Figura 47. LPC historia formántica (color blanco) de un segmento de habla conectada. Se observa
la variación de los formantes en función del tiempo. Esta variación es propia del habla conectada
producto de los cambios articulatorios

© Editorial EOS
Fundamentos y evaluación de la voz 287

Es importante considerar que el LPC tiene ciertas limitaciones y que por lo tanto sus
resultados no son confiables en todas las circunstancias. A continuación se enumeran las
limitaciones más relevantes:

• LPC es bueno para vocales no nasalizadas. LPC asume que el espectro analizado
está formado principalmente por picos espectrales sin antiformantes.
• Es necesario especificar por anticipado el número de formantes a encontrar en el
espectro. Si el número anticipado de picos es más grande que el de los picos reales,
LPC pondrá picos pequeños donde no existen realmente. Por el contrario, si se
anticipan muy pocos picos, menos que los reales, LPC fallará en encontrar picos
que si existen realmente en el espectro.
• Puede fallar si las señales cambian abruptamente. Como ocurre en muchas altera-
ciones de la voz.
• Si la F0 es muy alta (arriba de 350 Hz.). El proceso de LPC no será preciso.

9.4. Análisis cepstral (Cepstrum)


El análisis “cepstral” provee una forma efectiva de derivar el valor de la F0 y eva-
luar algunas características de la función del filtro del tracto vocal y de la fuente de
una forma no invasiva. La palabra “cepstrum” se origina de la inversión de la primera
sílaba de la palabra “spectrum”. La razón de esto es porque el análisis cepstral es de
alguna forma lo inverso del análisis espectral. En otras palabras, el método cepstrum
consiste en aplicar dos Transformadas de Fourier a la forma de onda. 56, 57 Para efec-
tos de análisis de la calidad vocal de una persona, lo que se utiliza específicamente
del análisis cepstral es la prominencia del pico cepstral (Figura 48). Un pico cepstral
alto (valor alto) es obtenido en voces caracterizadas por una estructura armónica bien
definida (Figura 49). Por el contrario, una voz soplada o ronca tiene una estructura
armónica débilmente definida y, por lo tanto, el pico cepstral es bajo (bajo valor)
(Figura 50-51).

Investigaciones previas han reportado que el valor del pico cepstral es el mejor predic-
tor de disfonía en comparación con los índices de perturbación e índice de ruido glótico.
58-61
Además, el pico cepstral ha mostrado una alta correlación con el grado de severidad
de la alteración vocal. 62-66

© Editorial EOS
288 Trastornos del habla: de los fundamentos a la evaluación

Figura 48. Se observa un espectro FFT (arriba) y el cálculo del cepstrum (abajo). Este último
resulta en la determinación del pico de mayor amplitud en una escala temporal, lo que permite
calcular el valor de la frecuencia fundamental, y la amplitud del pico del cepstrum, entregando
información relacionada con grado de periodicidad.

Figura 49. Pico cepstral voz normal. Se observa Figura 50. Pico cepstral voz disfónica.
un pico con un valor de 7,6. Este valor representa Nuevamente se observa un pico con un valor
el periodo de la F0 y a través de éste podemos de 7,6. y por lo tanto el valor de la frecuencia
derivar que el valor de la frecuencia fundamental fundamental es 131 Hz. Pero, en forma
es 131 Hz. La intensidad de ese pico está dada
contraria a la imagen anterior, acá vemos
por el valor de 146, señalado presencia de alta
energía en la F0 (atribuido a una voz de buena un pico de F0 de baja intensidad y mayor
calidad). Además podemos observar que existe anchura. Lo primero señala poca energía en
una anchura reducida del pico cepstral, indicando este componente espectral y lo segundo indica
alta estabilidad de la frecuencia. alto grado de inestabilidad. Ambos rasgos
característicos de voces de mala calidad.

© Editorial EOS
Fundamentos y evaluación de la voz 289

Figura 51. De arriba hacia abajo, se observa el espectrograma, espectro y cepstrum de una voz
disfónica. El espectrograma muestra pobre definición de los armónicos en la zona alta. Ruido
glótico reemplaza a los armónicos. El espectro muestra lo mismo pero desde otra perspectiva. Los
armónicos altos se observan con baja amplitud. Finalmente el pico cepstral es poco definido, de
base ancha y bajo en amplitud.

© Editorial EOS
290 Trastornos del habla: de los fundamentos a la evaluación

9.5. Espectro promedio a largo plazo (LTAS)


El espectro promedio a largo plazo es ampliamente conocido como una herramienta
útil y efectiva para la evaluación de las características de la fuente (pliegues vocales)
y filtro (tracto vocal) de la voz. 67 El espectro promedio a largo plazo provee una vista
promedio de la distribución de la energía espectral en una muestra de habla continua. En
otras palabras, el LTAS pone en un sólo espectro la medida de varios espectros obtenidos
en un periodo de tiempo determinado, mientras el paciente habla, lee un texto o canta una
canción. A través del LTAS es posible obtener varias variables relacionadas con la distri-
bución de la energía espectral de la voz, por medio de pendientes espectrales, siendo una
de las más utilizadas el Alpha Ratio (diferencia de energía armónica entre una zona baja
y una zona alta del espectro). Este tipo de análisis es ampliamente utilizado en el ámbito
de la investigación. Ha sido aplicado en estudios de reconocimento de voces, detección de
la cualidad vocal, alteraciones de la voz, envejecimiento vocal, evaluación de técnicas de
terapia vocal y diferenciación vocal entre diferentes poblaciones. 68-78 Las Figuras 52-54
muestran espectros de diferentes cualidades vocales, obtenidas a través de LTAS.

Figura 52. Este gráfico LTAS corresponde a al habla espontanea de un actor con “voz resonante”.
Posee gran amplitud de los armónicos de alta frecuencia.

Figura 53. Este gráfico LTAS corresponde a al habla espontanea de un actor con “voz opaca”.
Posee pobre amplitud de los armónicos de alta frecuencia si la comparamos con la imagen
anterior perteneciente a una voz “resonante”.

© Editorial EOS
Fundamentos y evaluación de la voz 291

Figura 54. LTAS de una voz severamente disfónica. Se observa ausencia completa de energía
armónica en casi todo el espectro. Solo se pueden distinguir los dos primeros armónicos. Desde
700 Hz hacia arriba sólo existe energía no armónica (ruido glótico)

9.6. Índices foneticoacústicos


Otra manera de analizar la voz mediante el análisis acústico, es a través de índices
numéricos. La diferencia de estos índices con la utilización del espectrograma o espectro
es que entregan resultados totalmente objetivos y no necesitan de la experiencia visual,
como si es requerido en la interpretación de algunos análisis espectrográficos. Dentro de
estos índices se encuentran: las medidas de perturbación de la frecuencia, medidas de
perturbación de la amplitud y los índices de ruido glótico.

Las medidas de perturbación indican la variabilidad que existe ciclo a ciclo en una
señal. Estas medidas pueden ser solo aplicadas en vocales sostenidas o extracciones de
segmentos vocálicos. De manera genérica se denomina Jitter a la perturbación de la fre-
cuencia y Shimmer a la perturbación de la amplitud. Existen a su vez varios tipos de
Jitter y de Shimmer. En general los índices de perturbación como el Jitter y el Shimmer
son índices de estabilidad del sistema fonatorio y de la calidad vibratoria de los pliegues
vocales. 55 Si el sistema fonatorio fuese perfectamente estable (hecho que no ocurre en la
voz) los valores de Jitter y Shimmer serían igual a cero. Dentro de los factores que causan
las inestabilidades del sistema fonatorio se encuentran deficiencias en el control aerodi-
námico, control motor y alteraciones en los movimientos de los tejidos.

Dentro de los índices de perturbación de la frecuencia se encuentran: Jitter absoluto,


Jitter relativo, Relative Average Perturbation (RAP), Pitch Period Perturbation Quotient
(PPQ), Smoothed Pitch Period Perturbation Quotient (sPPQ), Coefficient of Fundamental
Frequency Variation (vF0). En la clínica de voz el índice de perturbación de frecuencia
más comúnmente utilizado es el Jitter relativo, siendo su valor umbral cercano a 1. Esto
implica que valores mayores a 1 estarían fuera del rango de normalidad.

Dentro de los índices de perturbación de la amplitud se encuentran: Shimmer ab-


soluto, Shimmer relativo, Amplitud Perturbation Quotient (APQ), Smoothed Amplitude

© Editorial EOS
292 Trastornos del habla: de los fundamentos a la evaluación

Perturbation Quotient (sAPQ), Coefficient of Amplitude Variation (vAm). En la clínica


de voz el índice de perturbación de amplitud más comúnmente utilizado es el Shimmer
relativo, siendo su valor umbral cercano a 3. Esto implica que valores mayores a 3 esta-
rían fuera del rango de normalidad.

En el año 1982, Yumoto propuso una forma para cuantificar la calidad de una voz. La
propuesta de Yumoto está basada en que la voz siempre contiene componentes periódicos
y componentes de ruido (ondas aperiódicas) y además que el rasgo característico de la
disfonías es el reemplazo de armónicos por ruido (Figura 55). 79

Figura 55. Ambos espectrogramas muestran voces con presencia de ruido glótico. En el
espectrograma de la izquierda el ruido es predominante a partir de los Hz. 1.200 hacia arriba. En el
espectrograma de la derecha el ruido glótico se encuentra a lo largo de todo el rango frecuencial.

Considerando lo anterior, entonces el mejor índice para disfonía debería ser por lo
tanto una relación de uno con el otro. De aquí nace entonces la relación de amplitud ar-
mónico/ruido (HNR). Esto es la amplitud de las ondas periódicas dividida por la amplitud
de las ondas aperiódicas de la voz. Mientras más alto es el valor, mejor es la calidad vocal
(Figura 56).

Figura 56. El espectrograma de la izquierda pertenece a una voz normal, con un valor de HNR de
22 dB. El espectrograma de la derecha pertenece a una voz moderadamente disfónica, con un valor
de HNR de 4 dB.

© Editorial EOS
Fundamentos y evaluación de la voz 293

Además del índice HNR existen otros índices que entregan información relacionada
con la cantidad de energía de ruido que tienen las voces: razón ruido/armónico (NHR),
razón señal/ruido (SNR), índice de turbulencia de la voz (VTI), índice de fonación suave
(SPI). Es importante señalar que los índices HNR y NHR son opuestos, es decir, cuando
la calidad de la voz es buena, el valor de HNR debería ser alto, mientras que el valor de
NHR es esperable que sea bajo.

Algunos programas de análisis acústico entregan los resultados en forma gráfica, ade-
más de numérica (Figuras 57-59). Estos gráficos normalmente entregan resultados de los
índices señalados y otros que no han sido mencionados en el presente capítulo.

Figura 57. Gráfico de índices acústicos de una voz normal (todos los índices están en color más
oscuro, dentro de rangos normales).

Figura 58. Gráfico de índices acústicos de una voz alterada (paciente con nódulos de cuerdas
vocales). Se ven índices en gris oscuro (fuera del rango de normalidad). Por ejemplo, se observa
que los índices jitter (Jitt) y shimmer (Shim), perturbación de la frecuencia y de la amplitud
respectivamente, están fuera de rangos normales.

© Editorial EOS
294 Trastornos del habla: de los fundamentos a la evaluación

Figura 59. Gráfico de índices acústicos de una voz severamente alterada (parálisis de cuerda
vocal). La mayoría de los índices acústicos están en color rojo indicando que están fuera del rango
de normalidad.

9.7. Fonetograma

El fonetograma es una representación gráfica de los rangos de frecuencia e intensidad


de una voz, rango vocal y rango dinámico respectivamente (Figuras 60-61). Mediante la
grabación se le pide al paciente que emita cada nota de la extensión tonal a la mínima y
máxima intensidad que sea capaz de mantenerla por al menos dos segundos. 80 Esto dará
un área denominada campo vocal. El fonetograma es muy útil para registrar el estado pre
y post tratamiento fonoaudiológico, médico o quirúrgico. De esta forma se pueden obser-
var en forma gráfica los avances del tratamiento a través de los parámetros ya mencio-
nados: Rango vocal (rango frecuencial), rango dinámico (rango de intensidad) y campo
vocal (área total).

Figura 60. Fonetograma voz normal. Se Figura 61. Fonetograma voz patológica.
observa un amplio campo vocal (rango vocal y Campo vocal disminuido (disminución del
rango dinámico adecuados) rango dinámico y rango vocal)

© Editorial EOS
Fundamentos y evaluación de la voz 295

Los resultados son graficados en un diagrama cartesiano. En el eje horizontal se repre-


sentan las frecuencias (Hz) y en el eje vertical se representan los niveles de presión sonora
(dB), es decir las intensidades mínimas y máximas a las cuales es posible emitir cada una
de las frecuencias del eje horizontal. El fonetograma puede ser realizado tanto manual-
mente (Figura 62), como a través de la utilización de un programa computacional. 81

Figura 62. Procedimiento de realización de un fonetograma manual. Este procedimiento no


requiere un programa computacional. Se utiliza un piano (teclado musical) y un sonómetro. Se
solicita al paciente que produzca ciertas notas de su rango vocal utilizando la intensidad más baja
y más alta posible.

La gráfica que expresa los resultados de la medición esta finalmente constituida por
dos curvas, una superior y una inferior, que indican respectivamente los niveles de pre-
sión sonora máximos y mínimos que es capaz de emitir la persona evaluada. Una vez
realizada la medición, es posible obtener el campo vocal uniendo estas dos curvas. En la
gráfica final, el límite izquierdo del campo vocal corresponde a las frecuencias más bajas
que la persona es capaz de emitir, y el límite derecho del campo vocal corresponde a las
frecuencias al altas. 80

Este método de valoración permite delimitar el potencial vocal de cada persona. Ade-
más es útil para mostrar al paciente de forma gráfica el estado de su voz y como se espera-
ría es ésta cambie después del tratamiento vocal. Este instrumento puede ser utilizado tan-
to para personas con voces normales, como personas portadoras de alteraciones vocales.

Este método de evaluación vocal ha sido conocido a lo largo del tiempo con varios
nombres. Clavet en el año 1953 lo denominó curva vocal, refiriéndose a la expresión
gráfica del resultado de la prueba. Luego en 1972, Komiyama lo llamó fonograma. Final-
mente en 1977, Dejonckere lo denominó fonetograma, siendo este el nombre con el que
se le conoce en la actualidad en habla hispana. 82 En inglés, se utiliza el término Voice
Range Profile. 81

© Editorial EOS
296 Trastornos del habla: de los fundamentos a la evaluación

9.8. Histogramas
En términos generales, un histograma muestra la dispersión de valores. Aplicado al
área vocal, el histograma es un gráfico que muestra el número de veces que se repite cada
valor de frecuencia fundamental (F0) y cada valor de intensidad durante la emisión de la
voz. Dicho de otra forma, el histograma muestra los tonos fundamentales y las intensida-
des que más utiliza el paciente durante la emisión de voz. Para obtener la F0 y la inten-
sidad más utilizada por un paciente, se le pide que diga una frase, hable en forma normal
(habla espontánea), o que mantenga una vocal durante un tiempo determinado. Esta señal
se grafica posteriormente en los histogramas de recurrencia en intensidad. El histograma
es la forma objetiva más confiable para obtener el “tono medio hablado” de una persona.
Las Figuras 63-66 muestran ejemplos de histogramas de frecuencia y amplitud.

Figura 63. Histograma de intensidad o Figura 64. Histograma de frecuencia (la


amplitud (la barra más larga es la intensidad barra más larga es la F0 más utilizada por
más utilizada por el paciente) el paciente)

Figura 65. Histograma de F0 correspondiente a una voz con quiebre vocal (comúnmente
encontrado en la puberfonía). Se observan dos picos claramente diferenciados producto de la gran
diferencia de F0 de la voz antes y después del quiebre vocal.

© Editorial EOS
Fundamentos y evaluación de la voz 297

Figura 66. Histograma de amplitud correspondiente a una voz con quiebre vocal. Se observa una base
muy ancha producto de la gran diferencia de amplitud de la voz antes y después del quiebre vocal.

9.9. Contornos
Los contornos grafican la variación ciclo a ciclo de la frecuencia fundamental (F0) y
la amplitud (intensidad). Mientras más parejo (estables) sean los contornos, se demues-
tra menos variación ciclo a ciclo y por lo tanto mejor calidad vocal durante una vocal
mantenida en el tiempo. Las escalas de F0 e intensidad son diferentes e independientes.
Los contornos de F0 y amplitud son complementarios a los histogramas, debiendo am-
bos ser observados en forma conjunta. Las Figuras 67-70 muestran ejemplos de con-
tornos melódicos y de amplitud pertenecientes a pacientes con voces normales y con
alteraciones vocales.

Figura 67. Gráfico mostrando una voz normal con frecuencia fundamental (F0) y amplitud
estables. Arribase observa el contorno de amplitud y abajo, en la línea de abajo, el contorno de F0
o contorno melódico.

© Editorial EOS
298 Trastornos del habla: de los fundamentos a la evaluación

Figura 68. Gráfico mostrando un quiebre vocal. En la línea de arriba se observa el contorno de
amplitud el cual baja bruscamente producto del quiebre vocal. Abajo, en el contorno melódico (F0),
el cual asciende bruscamente pasando desde registro de pecho a falsete durante el quiebre tonal.

Figura 69. Gráfico mostrando contornos de intensidad y F0 muy inestables. Se le solicitó al


paciente producir una vocal mantenida los más estable posible, sin embargo, no fue capaz de
realizar la tarea solicitada.

Figura 70. Estos contornos de intensidad y F0 pertenecen a un paciente con temblor de voz.
Patología de origen neurológico. En el gráfico se observa claramente que tanto el contorno de
amplitud, como el de F0 presentan modulaciones periódicas reflejando el temblor del paciente.

© Editorial EOS

S-ar putea să vă placă și