Sunteți pe pagina 1din 29

02-06-2015

Anlisis Acstico de la Voz


Claudio E. Pedemonte Solanich
Docente U. MAYOR
TEMUCO

Tipologas de Seales.
Tono puro o peridico simple

Corresponde a una variacin de presin sinusoidal.


Amplitud.
Frecuencia.
Periodo.

02-06-2015

Tipologas de Seales
Tono peridico complejo
Est compuesto por una frecuencia fundamental y un grupo
determinado de armnicos
Sonidos producidos por instrumentos musicales de afinacin
definida.
Sonidos producidos por el sistema fonatorio con vibracin de
pliegues voclicos.
Amplitud, Frecuencia, Periodo.

Tipologas de Seales.
Tono peridico complejo
TEOREMA DE FOURIER
Toda seal peridica compleja se
puede descomponer en una
sumatoria de tonos simples

La frecuencia fundamental de un
tono peridico complejo
corresponde a la menor de sus
componentes.

02-06-2015

Tipologas de Seales
Sonidos aleatorios o ruido
Compuestos por muchas frecuencias cuyos valores son
impredecibles
Ruido blanco
Ruido generado por una cascada de agua
Ruido rosa
Amplitud

Representaciones
grficas del sonido
Anlisis Acstico de la Voz

02-06-2015

Oscilograma o forma de onda


(waveform)
Es una representacin grfica en que se muestra la variacin de energa
eje vertical- de una onda con respecto al tiempo eje horizontal-.
Anlisis de amplitud, periodo, duracin.

Oscilograma Tono Puro 440 Hz, Software PRAAT

Oscilograma o forma de onda


(waveform)

Oscilograma Voz Normal, fonema /a/, software PRAAT

02-06-2015

Espectro FFT o Spectrum


Algoritmo informtico que nos permite obtener el espectro de frecuencia de
una seal tanto peridica compleja como no peridica en tiempo real.
Representacin grfica en la que se muestra la relacin de energa (amplitud) de
las diferentes componentes o armnicos de un sonido, o concentraciones de
energa en ciertos rangos de frecuencias.
Representacin de la frecuencia -eje horizontal- y la amplitud -eje vertical- de
los armnicos en un instante o intervalo de tiempo de la seal sonora del habla.
Anlisis de la intensidad y de la estructura formntica (timbre).
No es preciso para determinar el valor de los formantes.

Espectro FFT o Spectrum


(Fast Fourier Transformation )
FILTRO DE BANDA ANCHA

Anlisis espectral realizando con una ventana temporal pequea.


Menor cantidad de lneas espectrales para la representacin del espectro.
Se visualizan zonas de concentracin de energa.
Mala resolucin para los armnicos y componentes del sonido

FILTRO DE BANDA ESTRECHA


Anlisis espectral realizado con una ventana temporal grande.
Mayor cantidad de lneas espectrales para la representacin del espectro
Buena resolucin para los armnicos y componentes del sonido.

02-06-2015

Espectro FFT o Spectrum


FFT Sonido Armnico
Espectro

Forma de onda

FFT

Espectro Discreto

Onda Peridica

Espectro FFT o Spectrum


FFT Sonido Armnico
Espectro

Forma de onda

FFT

Onda no Peridica

Espectro Continuo

02-06-2015

Espectro FFT o Spectrum

Spectrum Voz Normal, fonema /a/, Filtro de banda ancha


software PRAAT

Espectro FFT o Spectrum

Spectrum Voz Normal, fonema /a/, Filtro de banda estrecha


software PRAAT

02-06-2015

Espectrograma
Es una representacin que nos permite observar la concentracin de
energa en rango o componentes particulares de frecuencia y la
evolucin temporal de esta.
Representacin de las variaciones intensidad escala de colores o
grises- de las frecuencias eje vertical- con respecto al tiempo eje
horizontal-.
Anlisis de la duracin y estructura formntica, amplitud.

Espectrogramas
Espectrogramas de Banda Ancha y Banda estrecha
La resolucin de un espectro depende del largo de la ventana FFT.
Con una buena resolucin se pueden observar y medir la F0 y los armnicos.
Con una resolucin menor, se pueden apreciar mejor los formantes y los pulsos
glticos.
A los espectrogramas de buena resolucin se les llama de Banda Estrecha. Los de
menor resolucin se llaman de Banda Ancha.
En Praat, una buena resolucin o espectro de banda estrecha se obtiene con
Windows length = 0,1 segundo.

Un espectro de banda ancha se obtiene con Windows length = 0,005 segundos.

02-06-2015

Espectrograma

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda ancha


software PRAAT

Espectrograma

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrecha


software PRAAT

02-06-2015

Espectrograma

Oscilograma y Espectrograma Plipos, fonema /a/, Filtro de banda estrecha


software PRAAT

Espectrograma

Oscilograma y Espectrograma de secuencia voclica /i, e, a, o, u/


Filtro de banda Ancha
software PRAAT

10

02-06-2015

Espectro Promedio a Largo Plazo


(LTAS)
Long-term Average Spectrum es el espectro promedio de muchos
espectros obtenidos durante un cierto intervalo de tiempo, mientras el
paciente habla, lee un texto o canta una cancin.
Es especialmente til para obtener caractersticas tanto de la fuente
(cuerdas vocales), como del filtro (tracto vocal).
A travs del LTAS es posible obtener varias variables relacionadas
con la distribucin de la energa espectral de la voz, por medio de
pendientes espectrales.

Espectro Promedio a Largo Plazo


(LTAS)

LTAS Voz Resonante

11

02-06-2015

Espectro Promedio a Largo Plazo


(LTAS)

LTAS Voz Opaca

Espectro Promedio a Largo Plazo


(LTAS)

LTAS Voz severamente Disfnica

12

02-06-2015

Espectro LPC
La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.
Facilita la identificacin de formantes y su estudio
No permite ver los armnicos
Se puede graficar de dos formas como corte LPC y como historia
formntica

Sound pressure level (dB/Hz)

Espectro LPC

60

40

20
2.205104

0
Frequency (Hz)

Corte LPC de vocal /a/

13

02-06-2015

Sound pressure level (dB/Hz)

Espectro LPC

60

40

20
2.205104

0
Frequency (Hz)

Espectro FFT y Corte LPC de vocal /a/ juntos

Espectro LPC

Oscilograma, Espectrograma e Historial Formntica de


serie voclica /i, e, a, o, u/

14

02-06-2015

Anlisis de ndices
acsticos
Anlisis Acstico de la Voz

Herramientas de Anlisis
MDVP
El Multi-Dimensional Voice Program (MDVP) es un software que trabaja en
conjunto con el Computerized Speech Lab (CSL) ambos de la firma KayPENTAX.
El MDVP permite la adquisicin, anlisis y clculo de ms de 33 parmetros de la
voz a partir de una vocalizacin sostenida de un fonema sonoro

15

02-06-2015

Herramientas de Anlisis
MDVP

Herramientas de Anlisis
PRAAT
Praat es una herramienta para el anlisis fontico del habla desarrollada
por Paul Boersma y David Weenink en el Instituto de Ciencias Fonticas de la
Universidad de msterdam.
Puede descargarse gratuitamente para varios sistemas operativos desde la
pgina del programa, en la que se encuentra tambin la documentacin
necesaria para utilizarlo:
http://www.praat.org

16

02-06-2015

Parmetros de Anlisis
Medidas de Perturbacin
Jitter
Mide la perturbacin o variacin del periodo de la frecuencia
fundamental entre cada ciclo vocal en una emisin sostenida.
Se tolera cierta variabilidad porque es imposible la ausencia de
variacin tonal.
PRAAT nos entrega 5 tipos de Jitter, pero generalmente se utilizan
solo dos:

Parmetros de Anlisis
Medidas de Perturbacin
Jitter (local)
Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por
el periodo promedio (MDVP Jitt)
1,04 % es el umbral patolgico.

Jitter (local, absolute)


Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP
Jita)
83.200 s es el umbral para patologas.

Para entender bien el concepto utilizaremos un tono puro.

17

02-06-2015

Parmetros de Anlisis
Medidas de Perturbacin

T=0.01153

T=0.01151

T=0.01154

Parmetros de Anlisis
Medidas de Perturbacin
Shimmer
Mide la perturbacin o variacin de la amplitud entre ciclo y ciclo de fonacin.
Se presenta como porcentaje de variacin de la amplitud entre ciclos o perodos
de frecuencia.
Shimmer (local)
Es el promedio de las diferencias absolutas entre la amplitud de periodos
consecutivos, dividido por la amplitud promedio. (MDVP Shim),
3.810% umbral patolgico.
Shimmer (local, dB)
Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las
amplitudes de periodos consecutivos multiplicado por 20. (MDVP ShdB),
0.350 dB umbral patolgico

18

02-06-2015

Parmetros de Anlisis
Medidas de Perturbacin

Parmetros de Anlisis
HNR (ndice armnico-ruido)
Aunque un sonido se produzca por vibracin de cuerdas
vocales, siempre presenta un componente de ruido en el
sonido.
En una fonacin adecuada, el ruido queda enmascarado.
Razn entre la energa del ruido propio de la seal entre 15004500 Hz y las componentes armnicas ubicadas entre 70-4500
Hz
La amplitud de los armnicos, mltiplos de la frecuencia
fundamental, depende de un correcto cierre de las cuerdas
vocales y supone un sonido peridico.

19

02-06-2015

Parmetros de Anlisis
HNR (ndice armnico-ruido)
Ruido es toda seal que contamina la emisin vocal y que es
solo aire o energa no armnica que se puede producir por
flujos turbulentos de aire producto del cierre parcial de las
cuerdas vocales al vibrar.
Entonces, el ndice armnico ruido es la relacin entre la
energa armnica y la energa del ruido.
Valores bajos de este parmetro se pueden asociar a
vibraciones irregulares de las cuerdas, presencia de escape de
aire, presencia de sub-armnicos y/o quiebres en la voz.
Un valor indicador de fonacin adecuada es 20 dB o ms.

Ante la presencia de hiatus, el valor HNR disminuye a valores


menores a 20 dB.

HNR (ndice armnico-ruido)


DIENTE DE SIERRA + RUDIO BLANCO
HNR=30 dB

DIENTE DE SIERRA + RUDIO BLANCO


HNR=20 dB

DIENTE DE SIERRA + RUDIO BLANCO


HNR=10 dB

20

02-06-2015

Parmetros de Anlisis
Jitter
Shimmer
NHR

Estabilidad de la F0
Tiempo de Ataque
Todo sonido presenta un ataque, decaimiento, sostenimiento y
decaimiento. Esto se conoce como envolvente del sonido.
El ataque es el inicio del sonido vocal. Es representado por la
pendiente inicial de intensidad del sonido.
Se mide a partir del fonema /a/ como inicio de una palabra.
Se propone medir el tiempo de ataque a partir de las palabras
ala, rbol, amigo. Con esto se caracterizan distintas
coarticulaciones.
Entonces, se obtiene el tiempo de ataque promedio.

21

02-06-2015

Estabilidad de la F0
Tiempo de Ataque

Ataque vocal

Estabilidad de la F0
Tiempo de Ataque

Ataque vocal

22

02-06-2015

Clasificacin de los tipos de seales de voz.


El national center for voice and speech (Titze 1995) sugiere una
clasificacin de las voces segn el grado de perturbacin. Lo que
permite determinar el tipo de estudio o anlisis idneo para
cada caso.
TIPO 1: voz con vibraciones casi peridicas. Perturbacin
menor al 5%. Puede ser analizada por medio de los parmetros
de perturbacin a corto plazo (Jitter,Shimmer,HNR).
TIPO 2: voces con subarmnicos y modulaciones. Perturbacin
mayor al 5%. No puede ser analizada de forma fiable con los
parmetros anteriores. Debe estudiarse con un mtodo
perceptual, un mtodo visual como el espectrograma y
caracterizacin espectral.
TIPO 3: voces caticas o random. Solo pueden ser estudiadas
por mtodos perceptuales,

23

02-06-2015

Caracterizacin del espectro vocal


LTAS (Long Time Average Spectrum)
Espectro Promedio de Largo Plazo.
Se obtienen bandas de frecuencia promedio con anchos de banda determinados por
el usuario.
Se obtiene en un contexto de Habla o Canto segn los aspectos que se deseen
caracterizar.
En un contexto hablado, se sugiere utilizar un texto fonticamente balanceado.
Considera aportes de la emisin larngea y de las resonancias del tracto.
Aporta a la discriminacin y caracterizacin de distintos tipos de emisin vocal o
mordente.
Aporta a la discriminacin y caracterizacin del timbre o color de la voz.

Caracterizacin del espectro vocal


LTAS (Long Time Average Spectrum)

LTAS graficado en
bandas
de
frecuencia
(bin)
con ancho de
banda igual a 178
Hz

24

02-06-2015

Caracterizacin del espectro vocal


LTAS (Long Time Average Spectrum)

LTAS graficado con


una
curva
de
interpolacin entre
los valores de cada
bin.

Caracterizacin del espectro vocal


LTAS (Long Time Average Spectrum)

LTAS graficado con


una
curva
de
interpolacin
y
bins

25

02-06-2015

Caracterizacin del espectro vocal


Inclinacin espectral (Spectral
Tilt)
Lnea que representa la
tendencia o inclinacin del
espectro LTAS.
En trminos comparativos, la
inclinacin espectral nos sirve
para comparar distintos timbres
de voz.

Caracterizacin del espectro vocal


Inclinacin espectral (Spectral Tilt)

26

02-06-2015

Caracterizacin del espectro vocal


R (alfa ratio)
Es la relacin entre el nivel de energa promedio que existe entre la
banda de 1000 Hz 5000 Hz y 50 Hz y 1000 Hz.
Para una anlisis pre y post es necesario controlar la intensidad de la
emisin vocal, puesto que diferentes intensidades afectan la anergia de
altas frecuencias.
En PRAAT se puede obtener la energa por banda de frecuencia a partir
de un objeto LTAS.
Un aumento de intensidad no produce un aumento lineal de frecuencia

Caracterizacin del espectro vocal


H1 H2
Es la diferencia entre la amplitud del primer armnico (F0) y el segundo armnico.
Los valores de amplitud se pueden medir directamente de un espectro simple.
Tambin pueden medirse a partir de un LTAS considerando la amplitud del bin 1 y
del bin 2.
En este ltimo caso, el ancho de banda de cada bin, debe considerar el rango de
variacin de ambos armnicos.
Generalmente, F0 o H1 presenta mayor amplitud.
Esto cambia si la voz es estridente.

27

02-06-2015

Caracterizacin del espectro vocal


L1-L0
Es la relacin de energa entre las bandas de 300 Hz a 800
Hz y de 50 Hz a 300 Hz.
Es una medida del grado de contacto gltico. (Sundberg)
Relacin entre los armnicos afectados por el primer
formante y la energa de F0.
Pendiente negativa cuando la voz es soplada.
Pendiente positiva cuando la voz es resonante o apretada.
Hay que mantener controlada la intensidad.

Caracterizacin del espectro vocal


1K-5K 5K-8K
Es la relacin de energa entre las banda de 1 kHz a 5kHz y la
de 5 kHz a 8 kHz.
Medida de ruido gltico.
Pendientes negativas.
En voces sopladas menor pendiente (mayor ruido gltico)
En voces apretadas mayor pendiente. (menor ruido gltico)

28

02-06-2015

Caracterizacin de las resonancias


Formantes
Son las resonancias del tracto vocal.
Se denominan F1, F2, , FN.
En su estudio, se busca realizar una correlacin entre aspectos
articulatorios (normalidad o trastorno) y las resonancias del
tracto vocal.
Por los general, para un anlisis fontico basta con evaluar F1 y
F2.
Para analizar el mordiente y el color de la voz, se estudia F3, F4
y F5.

Caracterizacin de las resonancias


Propiedades de los Formantes
Las formantes varan las amplitudes del espectro del sonido madre, pero no
desplazan las frecuencias propias del mismo.
Se analizan normalmente entre 3 y 5 formantes.
El formante F1 generalmente controla la amplitud del sonido y depende de el
grado de apertura del tracto vocal. A mayor apertura, mayor valor frecuencia de
F1.
El formante F2 depende de la posicin del punto articulatorio. Mientras ms
anterior, mayor frecuencia de F2.
El formante F3 depende de las dimensiones de la cavidad que se forme por
delante del pex lingual; cuanto ms pequea, mayor frecuencia de F3.
F4 y F5 varan con la anchura y longitud del tracto vocal; cuanto ms corto y
estrecho el tracto, mayor frecuencia de F4 y F5.
Todos los formantes tienen un ancho de banda definido donde se aprecia el
fenmeno de resonancia

29

S-ar putea să vă placă și