Sunteți pe pagina 1din 49

Análisis Acústico de la Voz

Claudio E. Pedemonte Solanich


Docente U. MAYOR
TEMUCO
OBJETIVOS DEL ANÁLISIS ACÚSTICO
COMO PARTE DE LA EVALUACIÓN VOCAL

• Identificar o cuantificar cambios en la estructura o características


vibratorias de las cuerdas vocales.

• Identificar o cuantificar cambios en las características perceptuales


de la voz.

• Monitorear cambios de la voz a través del tiempo, ya sea a lo largo


de una terapia, antes y después de una cirugía o evaluar la
progresión de una enfermedad.

(Sapienza, 2013)
OBJETIVOS DEL ANÁLISIS ACÚSTICO
COMO PARTE DE LA EVALUACIÓN VOCAL

Ventajas Desventajas

• Software y Hardware • Se requiere un


a bajo costo. ambiente idóneo
• Comodidad del acústicamente.
Paciente. • Conocimientos del
• Número de hardware y software
publicaciones. a utilizar.
• Minimiza la • Conocimiento en la
subjetividad en la correlación entre las
evaluación medidas acústicas y
el diagnostico clínico.
OBJETIVOS DEL ANÁLISIS ACÚSTICO
COMO PARTE DE LA EVALUACIÓN VOCAL
Recomendaciones Técnicas:
• Usar micrófono de condensador omnidireccional o cardiode con una
sensibilidad mínima de -60 dB.

• Para la grabación de vocales sostenidas la distancia al micrófono


debiera ser menor a 10 cm. Utilizar un soporte para el micrófono.

• Para posiciones cercanas del micrófono, este debiera tener una


inclinación de 45° fuera del eje.

• El tiempo de reverberación, ruido de fondo, superficies reflectantes y


modos normales del recinto de grabación debieran estar controladas.

• Se deben ajustar las ganancias del sistema de forma tal de evitar


grabar señales de muy bajo nivel o señales recortadas.

• La cadena electroacústica a utilizar debe proporcionar una adecuada


relación señal-ruido
(Titze, 1994)
Herramientas de Análisis
PRAAT
• Praat es una herramienta para el análisis fonético del habla desarrollada
por Paul Boersma y David Weenink en el Instituto de Ciencias Fonéticas de la
Universidad de Ámsterdam.

• Puede descargarse gratuitamente para varios sistemas operativos desde la


página del programa, en la que se encuentra también la documentación
necesaria para utilizarlo:
http://www.praat.org
Clasificación de los tipos de señales
de voz:
El National Center for Voice and Speech (Titze 1994) sugiere
una clasificación de las voces según el grado de
perturbación.

• SEÑALES TIPO 1: voz con vibraciones casi periódicas.


Perturbación menor al 5%. Voces Normales y
Patológicas.

• SEÑALES TIPO 2: voces Patológicas con subarmónicos y


modulaciones. Perturbación mayor al 5%.

• SEÑALES TIPO 3: voces caóticas o random.


Clasificación de los tipos de señales
de voz:
MEDIDAS ACÚSTICAS
Las Medidas Acústicas se pueden clasificar en seis categorías

• Espectrogramas – señales tipo 1, 2 y 3

• Frecuencia Fundamental – señales tipo 1

• Intensidad – señales tipo 1, 2 y 3

• Perturbaciones a corto plazo – señales tipo 1 (2)

• Niveles relativos de ruido – señales tipo 1

• Mediciones de Espectro a Corto Plazo – señales tipo 1

• Mediciones de Espectro a Largo Plazo – señales tipo 1, 2 y 3

(Sapienza, 2013)
Oscilograma o forma de onda
(waveform)
• Es una representación gráfica en que se muestra la variación de energía
–eje vertical- de una onda con respecto al tiempo –eje horizontal-.
• Análisis de amplitud, periodo, duración.

Oscilograma Tono Puro 440 Hz, Software PRAAT


Oscilograma o forma de onda
(waveform)

Oscilograma Voz Normal, fonema /a/, software PRAAT


Espectrograma
• Es una representación que nos permite observar la concentración de
energía en rango o componentes particulares de frecuencia y la
evolución temporal de esta.
• Representación de las variaciones intensidad –escala de colores o
grises- de las frecuencias –eje vertical- con respecto al tiempo – eje
horizontal-.
• Análisis de la duración y estructura formántica, amplitud.
Espectrogramas
Espectrogramas de Banda Ancha y Banda estrecha
• La resolución de un espectro depende del largo de la ventana FFT.
• Con una buena resolución se pueden observar y medir la F0 y los armónicos.
• Con una resolución menor, se pueden apreciar mejor los formantes, los pulsos
glóticos y las transiciones entre fonemas.
• A los espectrogramas de buena resolución se les llama de Banda Estrecha. Los
de menor resolución se llaman de Banda Ancha.
• En Praat, una buena resolución o espectro de banda estrecha se obtiene con
Windows length = 0,1 segundo.
• Un espectro de banda ancha se obtiene con Windows length = 0,005
segundos.
Espectrogramas

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda ancha


software PRAAT
Espectrogramas

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrecha


software PRAAT
Espectrogramas

Oscilograma y Espectrograma Pólipos, fonema /a/, Filtro de banda estrecha


software PRAAT
Espectrogramas

Oscilograma y Espectrograma de secuencia vocálica /i, e, a, o, u/


Filtro de banda Ancha
software PRAAT
Perturbaciones a corto plazo
Jitter

• Mide la perturbación o variación del periodo de la


frecuencia fundamental entre cada ciclo vocal en una
emisión sostenida.
• Se tolera cierta variabilidad porque es imposible la ausencia
de variación tonal.
• Se presenta alterado especialmente con la falta de control
en la vibración de las cuerdas vocales, por ejemplo
disfonías neurológicas (Cecconello, 2012)
• El jitter se correlaciona con la aspereza. (Behlau et al, 2004)
• En el software PRAAT 1,04 % es el umbral patológico.
• PRAAT nos entrega 5 tipos de Jitter, pero generalmente se
utilizan solo dos:
Perturbaciones a corto plazo

• Jitter (local)
• Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por
el periodo promedio (MDVP – Jitt)
• 1,04 % es el umbral patológico.

• Jitter (local, absolute)


• Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP –
Jita)
• 83.200 μs es el umbral para patologías.

• Para entender bien el concepto utilizaremos un tono puro.


Perturbaciones a corto plazo - Jitter

T=0.01153

T=0.01151 T=0.01154
Perturbaciones a corto plazo
Shimmer

• Mide la perturbación o variación de la amplitud entre ciclo y ciclo


de fonación.
• Es el promedio de las diferencias absolutas entre la amplitud de
periodos consecutivos, dividido por la amplitud promedio.
• Se presenta alterado especialmente cuando existe reducción de
la resistencia glótica, parálisis de cuerdas vocales, fallas de
contacto glótico, lesiones de masas y edema difuso. (Cecconello,
2012)
• Se correlaciona con la presencia de ronquera y soplocidad.
(Behlau et al, 2004)
Perturbaciones a corto plazo

• Shimmer (local)
• Es el promedio de las diferencias absolutas entre la amplitud de periodos
consecutivos, dividido por la amplitud promedio. (MDVP – Shim),
• 3.810% umbral patológico.

• Shimmer (local, dB)


• Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las
amplitudes de periodos consecutivos multiplicado por 20. (MDVP – ShdB),
• 0.350 dB umbral patológico
Perturbaciones a corto plazo - Shimmer
Niveles relativos de ruido
HNR (índice armónico-ruido)

Aunque un sonido se produzca por vibración de cuerdas


vocales, siempre presenta un componente de ruido en el
sonido.
En una fonación adecuada, el ruido queda enmascarado.
Razón entre la energía del ruido propio de la señal entre 1500-
4500 Hz y las componentes armónicas ubicadas entre 70-4500
Hz
La amplitud de los armónicos, múltiplos de la frecuencia
fundamental, depende de un correcto cierre de las cuerdas
vocales y supone un sonido periódico.
Niveles relativos de ruido
HNR (índice armónico-ruido)
Ruido es toda señal que contamina la emisión vocal y que es solo
aire o energía no armónica que se puede producir por flujos
turbulentos de aire producto del cierre parcial de las cuerdas vocales
al vibrar.
Entonces, el índice armónico ruido es la relación entre la energía
armónica y la energía del ruido.
Valores bajos de este parámetro se pueden asociar a vibraciones
irregulares de las cuerdas, presencia de escape de aire, presencia de
sub-armónicos y/o quiebres en la voz. (Cecconello, 2012)
Se correlaciona con la presencia de soplocidad, aspereza y ronquera
(Sapienza 2013)
Un valor indicador de fonación adecuada es 20 dB o más.
Ante la presencia de hiatus, el valor HNR disminuye a valores
menores a 20 dB.
HNR (índice armónico-ruido)

DIENTE DE SIERRA + RUIDO BLANCO


HNR=30 dB

DIENTE DE SIERRA + RUIDO BLANCO


HNR=20 dB

DIENTE DE SIERRA + RUIDO BLANCO


HNR=10 dB
Espectro FFT o Spectrum
• Algoritmo informático que nos permite obtener el espectro de frecuencia de
una señal tanto periódica compleja como no periódica en tiempo real.

• Representación gráfica en la que se muestra la relación de energía (amplitud) de


las diferentes componentes o armónicos de un sonido, o concentraciones de
energía en ciertos rangos de frecuencias.

• Representación de la frecuencia -eje horizontal- y la amplitud -eje vertical- de


los armónicos en un instante o intervalo de tiempo de la señal sonora del habla.

• Análisis de la intensidad y de la estructura formántica (timbre).

• No es preciso para determinar el valor de los formantes.


Espectro FFT o Spectrum
(Fast Fourier Transformation )
• FILTRO DE BANDA ANCHA
• Análisis espectral realizando con una ventana temporal pequeña.
• Menor cantidad de líneas espectrales para la representación del espectro.
• Se visualizan zonas de concentración de energía.
• Mala resolución para los armónicos y componentes del sonido

• FILTRO DE BANDA ESTRECHA


• Análisis espectral realizado con una ventana temporal grande.
• Mayor cantidad de líneas espectrales para la representación del espectro
• Buena resolución para los armónicos y componentes del sonido.
Espectro FFT o Spectrum
FFT Sonido Armónico
Forma de onda Espectro

FFT

Onda Periódica Espectro Discreto


Espectro FFT o Spectrum
FFT Sonido Armónico
Forma de onda Espectro

FFT

Onda no Periódica Espectro Continuo


Espectro FFT o Spectrum

Spectrum Voz Normal, fonema /a/, Filtro de banda ancha


software PRAAT
Espectro FFT o Spectrum

Spectrum Voz Normal, fonema /a/, Filtro de banda estrecha


software PRAAT
Espectro LPC
• La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.

• Facilita la identificación de formantes y su estudio

• No permite ver los armónicos

• Se puede graficar de dos formas como corte LPC y como historia


formántica
Espectro LPC
Sound pressure level (dB/Hz)

60

40

20

0 2.205·104
Frequency (Hz)

Corte LPC de vocal /a/


Espectro LPC
Sound pressure level (dB/Hz)

60

40

20

0 2.205·104
Frequency (Hz)

Espectro FFT y Corte LPC de vocal /a/ juntos


Espectro LPC

Oscilograma, Espectrograma e Historial Formántica de


serie vocálica /i, e, a, o, u/
Mediciones de Espectro a Corto Plazo

H1 – H2
• Es la diferencia entre la amplitud de la fundamental (F0) y el segundo
armónico.
• Generalmente, F0 o H1 presenta mayor amplitud.
• Sirve para estimar el cociente de apertura de los pliegues vocálicos.
• Mientras mayor sea la diferencia, mayor será el cociente de abertura.
• Valores positivos voces sopladas y normales (mientras mayor el valor,
menor contacto cordal)
• Esto cambia si la voz es estridente.
Mediciones de Espectro a Largo Plazo - LTAS

• Long-term Average Spectrum es el espectro promedio de muchos


espectros obtenidos durante un cierto intervalo de tiempo, mientras el
paciente habla, lee un texto o canta una canción.

• Es especialmente útil para obtener características tanto de la fuente


(cuerdas vocales), como del filtro (tracto vocal).

• A través del LTAS es posible obtener varias variables relacionadas


con la distribución de la energía espectral de la voz, por medio de
pendientes espectrales.
• Aporta a la discriminación y caracterización de distintos tipos de
emisión vocal o mordiente y caracterización del timbre o color de la
voz.
Caracterización del espectro vocal
LTAS (Long Time Average Spectrum)

LTAS graficado con


una curva de
interpolación entre
los valores de cada
bin.
Caracterización del espectro vocal
LTAS (Long Time Average Spectrum)

LTAS graficado en
bandas de
frecuencia (bin)
con ancho de
banda igual a 178
Hz
Caracterización del espectro vocal
LTAS (Long Time Average Spectrum)

LTAS graficado con


una curva de
interpolación y
bins
Caracterización del espectro vocal
Inclinación espectral (Spectral
Tilt)
• Línea que representa la
tendencia o inclinación del
espectro LTAS.
• En términos comparativos, la
inclinación espectral nos sirve
para comparar distintos timbres
de voz.
Caracterización del espectro vocal
Inclinación espectral (Spectral Tilt)
Espectro Promedio a Largo Plazo
(LTAS)

LTAS “Voz Resonante”


Espectro Promedio a Largo Plazo
(LTAS)

LTAS “Voz Opaca”


Espectro Promedio a Largo Plazo
(LTAS)

LTAS Voz severamente Disfónica


Mediciones de Espectro a Largo Plazo - LTAS

Proporción alfa
• Corresponde a la diferencia entre 0.05-1KHz y 1-5 KHz,
• Diferencia que entrega información sobre la pendiente espectral.
• Está determinada por factores como la velocidad de cierre de los pliegues
vocales, cuanto más rápido es el cierre de estos, la pendiente espectral es
menor, existiendo aquí una mayor energía en los armónicos altos.
(Guzmán, 2013).
Mediciones de Espectro a Largo Plazo - LTAS

L1-L0
• Diferencia de energía espectral entre las regiones F1 y F0
específicamente la diferencia entre 300-800 Hz y 50-300Hz.
• Entrega información sobre los modos de fonación. Al igual que la
proporción alfa tiene relación con el grado de abducción o aducción de
los pliegues vocales, lo que produce diferentes grados de contacto entre
ellos, modificando la relación de la fase abierta y la fase cerrada de la
glotis. (Sundberg, 1990, 1994)
• Pendiente negativa cuando la voz es soplada, pendiente positiva cuando
la voz es resonante o estridente.
• Hay que mantener controlada la intensidad.
Mediciones de Espectro a Largo Plazo - LTAS

1K-5K – 5K-8K
• Es la relación de energía entre las banda de 1 kHz a 5kHz y la
de 5 kHz a 8 kHz.
• Medida de ruido glótico.
• Pendientes negativas.
• En voces sopladas menor pendiente (mayor ruido glótico)
• En voces apretadas mayor pendiente. (menor ruido glótico)