Psicoacústica

Psicoacústi
ca
• Anatomia del oido humano
• Percepción de la altura
• Percepción de la sonoridad
• Enmascaramiento
• Direccionalidad
• Espacialidad
• Inteligibilidad de la palabra (*)
1. Breve anatomía
del oído
El oído es un detector biológico
del sonido. Es una de las
estructuras mecánicas mas
intrincadas y delicadas del cuerpo
humano. Se especializa en
responder a una particular forma
de energía, la energía acústica, en
un intervalo de 20 a 20 Khz y un
rango dinámico de 120 dB.
El aparato auditivo está
formado por tres secciones:
El oído externo
El oído medio
El oído interno
Yunque
Martillo Caja
Pabellón timpánica
de la oreja Canales
semicirculares
Cóclea
Canal Ventana
auditivo oval
Ventana
redonda
Estribo Trompa de
Tímpano Eustaquio
Oído Oído Oído

externo medio interno
i. El oído externo
Oído externo
Pabellon de la oreja
o auricula
Canal Auditivo
Seccion tranversal de 30 a 50 mm2 ,

largo 2,5 cm. Volumen 1 cm3.
La forma de la sección transeversal
es variable de unos individuos a
otros (circular, ovalo alargado)
El oído externo tiene la
finalidad de focalizar el
sonido hacia el tímpano.
Oído externo
Otra finalidad del oído
externo es proteger al
tímpano y al oído medio.
Oído externo
Oído externo
Oído externo
Oído externo
Oído externo
Oído externo
Oído externo
Oído externo
Oído externo
Los vellos detienen las

partículas de polvo
Oído externo
Oído externo
Oído externo
Oído externo
El cerumen
arrastra las
partículas hacia
afuera
ii. El oído medio
Yunque
Martillo Caja
timpánica
Membrana
del Tímpano
Estribo Trompa de
Eustaquio
Oído
medio
El oído medio conduce el
sonido desde el tímpano al
oído interno.
Convierte la energía
acústica en movimientos
mecánicos.
Oído medio: mecánica de los huesecillos
Martillo Yunque
Sonido conducido por

el Canal auditivo (oido Estribo
externo)
La cadena de huesecillos actúa
como una palanca, convirtiendo
las oscilaciones de gran amplitud
y pequeña presión del tímpano en
oscilaciones de pequeña amplitud
y gran presión en el oído interno.
Ventana
oval
Tímpano
Ventana
oval
Tímpano
Ventana
oval
Tímpano
Ventana
oval
Tímpano
Ventana
oval
Tímpano
Dos pequeños músculos, el tensor
del tímpano (unido al martillo) y
el estapedio (unido al cuello del
estribo), limitan un poco los
movimientos de los huesecillos.
Para altas intensidades estos
pequeños músculos cambian su
extensión para reducir la
amplitud del movimiento. Este
proceso se conoce como Reflejo
Acústico y requiere de cerca de
0,5 ms para hacerse efectivo. Por
tanto no ofrece protección para
sonidos súbitos impulsivos (ej.
disparos de armas de fuego)
iii. El oído interno
El oído interno transforma
el sonido en impulsos
eléctricos y los envía al
cerebro a través del nervio
auditivo.
Oído interno: la cóclea
Canales
semicirculares
Cóclea
Estribo
Ventana Ventana
oval redonda
Membrana
Células ciliadas de Reissner Rampa
internas
coclear
Rampa
vestibular Na+ Membrana
tectoria
K+
Células ciliadas
Nervio externas
auditivo
Membrana
Na+ basilar
Lámina
espiral
Rampa
timpánica
Nervio auditivo
Células ciliadas
El tubo de la cóclea está dividido en:
vestíbulo superior y vestíbulo inferior.
La división se completa por una
membrana fibrosa flexible (membrana
basilar). La unica comunicación entre
los vestíbulos es de una pequeña
abertura en el véctice de la cóclea
(helicotrema).
Membrana
tectoria Rampa
coclear
Órgano
de Corti
Células Células Membrana

ciliadas ciliadas basilar
internas externas
Membrana
tectoria Rampa
coclear
Órgano
de Corti

internas externas
Membrana
tectoria Rampa
coclear
Órgano
de Corti

internas externas
Membrana
Pandeo
tectoria Rampa
coclear
Órgano
de Corti

internas externas
El movimiento de pandeo de
los cilios de las células
ciliadas hace que éstas
generen impulsos eléctricos
denominados microfónicos
cocleares.
La cóclea o caracol es un
tubo de sección transversal
aproximadamente circular,
hace alrededor de 2,5 vueltas
y tiene una longitud de 3,5
cm.
Ondas “viajeras” en la membrana basilar
Membrana
basilar
Ápex
Base
Helicotrema
Membrana
Estribo basilar
f Ápex
Base
Helicotrema
Membrana
Estribo basilar
f Ápex
Base
Helicotrema
0,05 mm 0,5 mm
Longitud 32 mm
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Base Ápex
Zona de máxima
oscilación
La zona de máxima
oscilación depende de la
frecuencia del sonido
Zonas de máxima oscilación
11 kHz 2 kHz 500 Hz 200 Hz
Base Ápex
Este comportamiento se
debe a las propiedades
elásticas de la membrana
basilar.
La membrana basilar es
más pequeña y rígida en
la base, por eso en dicha
zona la frecuencia de
resonancia es alta.
En cambio, es más ancha
y flexible en el ápex, por
lo cual allí la frecuencia
de resonancia es baja.
En la zona de máxima
oscilación las células ciliadas
experimentan deformaciones
más intensas, enviando más
impulsos nerviosos al cerebro
Zona de máxima oscilación
Base Ápex
x
x = 61 – 14 log f
La membrana basilar
constituye, así, un analizador
de espectro que envía al
cerebro la señal sonora
descompuesta en sus
frecuencias constitutivas.
2. Percepción
de la altura
La relación entre la frecuencia
y la altura percibida es simple,
al menos para la cultura
basada en la música
occidental.
La frecuencia patrón de 440 Hz
corresponde a la altura del la de
la octava central del piano.
La 440
La
440 Hz
Cada vez que la altura aumenta
un semitono la frecuencia se
multiplica por:
12
2 = 1,05946
Por ejemplo, para obtener la
frecuencia del si bemol hacemos:
fSi bemol = 1,05946 × fLa
fSi bemol = 1,05946 × 440 Hz
fSi bemol = 466,16 Hz
fLa = 440 Hz
fSi bemol = 466,16 Hz
La 440 Si b 466,16
Análogamente, cada vez que la
altura baja un semitono la
frecuencia se divide por:
12
2 = 1,05946
Por ejemplo, para calcular la
frecuencia del sol sostenido:
fSol sostenido = fLa / 1,05946
fsol sostenido = 440 Hz / 1,05946
fsol sostenido = 415,30 Hz
fLa = 440 Hz
fSol sostenido = 415,30 Hz
La 440 Sol # 415,30

Las relaciones de frecuencias de
los restantes intervalos pueden
deducirse de las anteriores.
Por ejemplo, un tono entero
equivale a dos semitonos, por lo
tanto se multiplica por:
12 12
2× 2 = 1,12246
fLa = 440 Hz
fSi = 493,88 Hz
La 440 Si 493,88
Un tercera mayor equivale a
cuatro semitonos, por lo tanto se
multiplica por:
12 12
2 × ... × 2 = 1,25992
4 veces
fLa = 440 Hz
fDo sostenido = 554,37 Hz
La 440 Do # 554,37
Un quinta equivale a siete
semitonos, por lo tanto se
multiplica por:
12 12
2 × ... × 2 = 1,49831
7 veces
fLa = 440 Hz
fMi = 659,26 Hz
La 440 Mi 659,26
Finalmente, una octava equivale
a doce semitonos, por lo tanto se
multiplica por:
12 12
2 × ... × 2 = 2
12 veces
fLa = 440 Hz
fLa’ = 880 Hz
La 440 La’ 880

El “cent”
En acústica musical se suele
utilizar una unidad de altura
denominada cent, equivalente a
1/100 de semitono. Corresponde
a una relación de frecuencias
f2 / f1 = 1,00057779
El “cent”
Así, un tono son 200 cents, una

quinta, 700 cents y una octava
1200 cents.
El cent permite medir intervalos
con gran precisión.
Cuando no está involucrada la
estética musical, la percepción
de la altura obedece a una escala
graduada en una unidad
llamada “mel”.
3500
3000
2500
Altura [mel]
2000
1500
1000
500
0
20 50 100 200 500 1000 2000 5000 10000 20000
f [Hz]
EJEMPLO
Averiguar a cuántos mel
corresponde un LA de 1760 Hz.
3500
3000
2500
Altura [mel]
2000
1400 mel
1500
1000
500
0
20 50 100 200 500 1000 2000 5000 10000 20000
f [Hz]
Es interesante comparar la
escala de semitonos con la
escala mel.
3500
3000 120
110
2500 100
90
Semitonos
Altura [mel]
2000 80
70
1500 60
50
1000 40
30
500 20
10
0
20 50 100 200 500 1000 2000 5000 10000 20000
f [Hz]
3. Percepción
de la sonoridad
La presión sonora audible
abarca un rango muy amplio:
0,00002 Pa a 20 Pa
Conviene expresarla como
nivel de presión sonora, Lp,
decibeles.
P
Lp = 20 log ——
Pref
P: presión sonora eficaz

Pref : 0,00002 Pa
Los valores inferiores a 20 dB
son muy inusuales, y muchas
personas no los escuchan.
Los valores superiores a 80 dB
son peligrosos para la audición
humana.
La relación entre el Lp y la
sensación de sonoridad
no es sencilla...
... Fue investigada por
Fletcher y Munson en 1930.
En su experimento hacían
escuchar a un sujeto un tono
puro de 1000 Hz y determinado
nivel de presión sonora.
A continuación le hacían
escuchar un tono puro de
otra frecuencia.
El nivel del segundo tono
era ajustable.
El sujeto debía ajustarlo
hasta que lo percibiera
igualmente sonoro.
dB
120
110
100
90
80
70
Lp
60
50 fon
50
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
El experimento se repetía
cambiando el nivel de
presión sonora del tono de
referencia de 1000 Hz.
dB
120
110
100
90
80
70
Lp
60
50 fon
50
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10 Contornos de
Fletcher-Munson 0
0
20 100 500 1000 5000 10000 Hz

f
dB
120 fon
120
Umbral de
110
dolor
100
90
80
70
Lp
60
50
Umbral de
40
audición
30
20
10
0 fon
0
20 100 500 1000 5000 10000 Hz

f
A partir de estos contornos
se pretendió lograr un
instrumento que midiera la
sensación de sonoridad.
Para ello se propuso aplicar
al medidor de nivel de
presión sonora un filtro que
compensara la respuesta del
oído humano...
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
0
0
20 100 500 1000 5000 10000 Hz

f
... Pero como la respuesta era
diferente según el nivel de
sonoridad en fon, se resolvió
utilizar tres filtros diferentes,
que se denominaron A, B y C.
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
0
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
100
100
90
80
70
70
Lp
60
50
40
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
C 100
100
90
80
B
70
70
Lp A
60
50
40
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
C
100
90
80
B
70
Lp A
60
50
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
C
100
90
80
B
70
Lp A
60
50
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
100
90
80 C
70 B
Lp
60
A
50
40
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
100
90
80
70
Lp
60
C
50
B
40 A
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
dB
120
110
100
90
80
70
Lp
60
50
40
30
A
20
10 B
0
C
20 100 500 1000 5000 10000 Hz
f
dB
0
C
-10 B
-20
A
-30
K
-40
-50
-60
-70
20 100 500 1000 5000 10000 Hz

f
El propósito inicial no se
cumplió, ya que los
contornos de Fletcher y
Munson fueron obtenidos
para tonos puros...
... y los ruidos del ambiente,
como se vio, están formados
por una gran cantidad de
tonos de diferentes
frecuencias.
Sin embargo, la curva A ha
tenido aceptación por su
gran correlación con la
molestia y con el riesgo
auditivo.
Las mediciones obtenidas
intercalando este filtro se
expresan en decibeles A,
abreviados dBA.
Para algunos casos, como
cuando los ruidos tienen
gran contenido de baja
frecuencia o son impulsivos
se usa la respuesta C.
dB
0
C
-10
-20
A
-30
K
-40
-50
-60
-70
20 100 500 1000 5000 10000 Hz

f
Las curvas de Fletcher y
Munson posteriormente
fueron redeterminadas por
Robinson y Dadson, y más
tarde normalizadas por la
ISO 226.
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
0
0
20 100 500 1000 5000 10000 Hz

f
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
Contornos de
0 Robinson-Dadson
20 100 500 1000 5000 10000 Hz
f
dB
120 fon
120
110
110
100
100
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
Contornos de
0 Robinson-Dadson
20 100 500 1000 5000 10000 Hz
f
Los contornos de
Fletcher - Munson, así como
los de Robinson - Dadson
proporcionan una magnitud
psicofísica denominada
nivel de sonoridad, NS
El nivel de sonoridad se
expresa fon.
Si bien el nivel de sonoridad
permite ordenar los sonidos
según su sonoridad en
forma independiente de la
frecuencia, no constituye
una verdadera escala.
Por ejemplo, un sonido que
tenga el doble de nivel de
sonoridad que otro sonido,
no se percibe como
doblemente sonoro.
Se realizaron nuevos
experimentos comparando
la audición de un tono
escuchado monoauralmente
y binauralmente.
El resultado de estos
experimentos fue la
obtención de una nueva
magnitud, la sonoridad, S,
que sí constituye una
escala.
La sonoridad se expresa en
una nueva unidad, el son.
La sonoridad se relaciona
con el nivel de sonoridad
mediante la siguiente
curva de transferecncia.
100
10
1
S [son]
0,1
0,01
0,001
0 10 20 30 40 50 60 70 80 90 100 110 120
NS [fon]
Un sonido de 2 son es
doblemente sonoro que
uno de 1 son.
Por encima de 40 fon la
curva anterior es lineal.
Esto permite obtener:
NS – 40
———
30
S = 10
EJEMPLO
Determinar la sonoridad de
un tono de 3 kHz y 80 dB
NS – 40
———
30
S = 10
Este tono de 3 kHz y 80 dB
tiene un nivel de sonoridad
de 90 fon.
dB
120 fon
120
110
110
100
100
90
90
90
80
80
70
70
Lp 60
60
50
50
40
40
30
30
20
20
10
10
0
20 100 500 1000 5000 10000 Hz

f
Entonces
90 – 40
———
30
S = 10 = 46,4 son
Hasta ahora hemos
analizado la sonoridad de
los tonos puros.
Para sonidos espectralmente
complejos debe introducirse
un procedimiento que
permita combinar
sonoridades.
Para ello tengamos en cuenta
las siguientes propiedades:
1. Para sonidos de frecuencias
distantes se suman las
sonoridades (S).
2. Para sonidos de frecuencias
próximas se suman las
intensidades (Pef2)
El criterio para decidir si los
tonos están próximos o no
es si están en una misma
banda crítica.
Las bandas críticas abarcan

unos 3 semitonos excepto por
debajo de 400 Hz, donde son
constantes e iguales a 100 Hz.
Banda Frecuencia central Ancho de banda
1 50 100
2 150 100
3 250 100
4 350 100
5 450 110
6 570 120
7 700 140
8 840 150
9 1000 160
10 1170 190
11 1370 210
12 1600 240
13 1850 280
14 2150 320
15 2500 380
16 2900 450
17 3400 550
18 4000 700
19 4800 900
20 5800 1100
21 7000 1300
22 8500 1800
23 10500 2500
24 13500 3500
El método consiste en:
1. Dividir el espectro en bandas

críticas
2. Sumar las presiones cuadráticas en
cada banda y de allí obtener el nivel
de presión sonora
3. Obtener el nivel de sonoridad y de
allí la sonoridad de cada banda
4. Sumar las sonoridades
—2
p (f )
Bandas críticas
Pef 1 Pef 2 Pef 3 Pef 4 Pef 5 Pef 6 Pef 7 Suma o integral
NS1 NS2 NS 3 NS4 NS 5 NS 6 NS 7 Robinson-Dadson
Curva de
S1 S2 S3 S4 S5 S6 S7
transferencia
S = Σ Si
Se han propuesto métodos
simplificados para llevar a cabo
esta idea. El más simple es el
de Stevens, llamado Mark VI.
El método Mark VI requiere
disponer del espectro de
bandas de octava del sonido a
analizar. Utiliza las bandas
centradas en 31,5 Hz hasta
8000 Hz.
Por medio de los contornos de
Robinson-Dadson se determina,
para cada banda, el nivel de
sonoridad y luego la sonoridad.
Finalmente, se aplica la siguiente
fórmula:
S = 0,7 Smáx + 0,3 Σ Si

El método de Stevens, así como
otro propuesto por Zwicker han
sido normalizados por la Norma
ISO 532
4. Enmascaramiento
Enmascaramiento
En condiciones de silencio un
determinado tono se percibirá
hasta un nivel de presión sonora
bastante bajo, llamado umbral
de audición.
dB
120
110
100
90
80
70
Lp
60
50
Umbral de
40
audición
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
Enmascaramiento
Si ahora se agrega un sonido

externo, se encuentra que
algunos sonidos, que en
condiciones de silencio se
percibían, ya no se perciben.
dB
120
110
100
90
Tono Máscara
80
70
Lp 400 Hz, 80 dB
60
50 500 Hz, 40 dB
40
400 Hz + 500 Hz
30
20
10
0
20 100 500 1000 5000 10000 Hz

f
Enmascaramiento
Se dice que dicho sonido externo

enmascara a los otros sonidos.
Por esa razón se lo denomina
sonido máscara
Enmascaramiento
El umbral de audición en este

caso ha aumentado, es decir,
otros sonidos requieren un
mayor nivel de presión sonora
para que se los pueda percibir.
Enmascaramiento
Cuanto mayor sea el nivel del

sonido máscara, tanto mayor
será el aumento del umbral en
las diversas frecuencias.
Enmascaramiento
El siguiente ejemplo
corresponde a un tono máscara
de 400 Hz a tres diferentes
niveles: 40 dB, 60 dB y 80 dB
Enmascaramiento
Resultan tres curvas de umbral

de audición sucesivamente más
elevadas y más anchas.
dB
120
110
100
90
80 dB
80
60 dB
70
Lp 40 dB
60
50
40
30
20
10 Umbral de
audición
0
20 100 500 1000 5000 10000 Hz

f
Enmascaramiento
El enmascaramiento se origina
en algunas limitaciones del oído.
Aunque esto podría parecer
inconveniente, en realidad es
ventajoso, ya que permite
eliminar información inútil.
Enmascaramiento
En muchos casos, no obstante,

resulta perjudicial. Por ejemplo,
dificulta la inteligibilidad de la
palabra o de la música en
presencia de ruido ambiente.
Enmascaramiento
Actualmente, la tecnología de
audio digital aprovecha el
enmascaramiento para reducir
la cantidad de información a
almacenar o transmitir.
Enmascaramiento
Ello se consigue evitando
aquellos sonidos que, por quedar
enmascarados por otros sonidos,
no se escucharán.
Un ejemplo es el formato MP3,
hoy muy utilizado en Internet.
5. Direccionalidad
La audición permite no
sólo permite obtener
información semántica,
sino además espacial. La
direccionalidad del
sonido es una de las
características espaciales
básicas.
La direccionalidad del
sonido, o ángulo de
procedencia, es percibida
fundamentalmente
gracias a la audición
biaural (dos oídos).
∆x = c ∆t
Los caminos entre la
fuente y los oídos son de
diferente longitud, por lo
que se produce una
diferencia de tiempo
interaural, ∆t , abreviada
ITD
También hay una
diferencia de intensidad
interaural, IID, que
obedece a dos factores:
la diferencia de distancia
y la atenuación de la
propia cabeza.
La diferencia de distancia
influye debido a la
divergencia geométrica
(atenuación por distancia)
del campo sonoro.
La divergencia geométrica
es importante cuando la
fuente se encuentra muy
cerca. Así, una diferencia de
10 cm en una distancia de
1 m implica una diferencia
de apenas 1 dB.
Para distancias mayores
este factor pierde
importancia frente a la
atenuación de la propia
cabeza.
La atenuación de la cabeza
se debe al efecto pantalla
que la misma causa en el
oído menos expuesto.
Pero a causa de la
difracción se producen
variaciones del sonido
percibido en un mismo
oído.
Esto se evalúa mediante la
función de transferencia
de la cabeza, HRTF (Head
Related Transfer Function).
La HRTF expresa la
atenuación para diferentes
ángulos y frecuencias.
Eje
interaural
Azimut
Plano medial
20
15
f
10
[kHz]
0
0 45 90 135 180
Azimut [º]
La HRTF se puede medir
mediante la construcción de
maniquís que representen una
persona promedio.
Actualmente se utilizan en los

sistemas de realidad virtual
para simular la ubicación
espacial de una fuente.
6. Espacialidad
El oído no sólo permite
determinar la procedencia del
sonido sino obtener una imagen
sorprendentemente precisa del
entorno acústico.
Las personas con vista normal
no prestan en general
demasiada atención a la
información espacial provista
por el sonido.
Los ciegos, en cambio. al

faltarles la información visual,
aprovechan muy bien esta
capacidad.
La percepción espacial del
sonido está determinada
fundamentalmente por el patrón
de reflexiones del sonido.
Receptor
Fuente
El camino más corto es siempre
el directo. Esto da origen al
Efecto de Precedencia o Hass,
por el cual la dirección
percibida corresponde a la del
primer frente de onda recibido.
El Efecto de Precedencia,
tambíen llamado Efecto Hass,
explica por qué en un
ambiente reverberante la
ubicación de la fuente en
general se percibe
correctamente, pese a las
múltiples reflexiones.
Veamos algunos parámetros
acústicos de las salas que
tienen importancia en la
calidad de la percepción.
Tiempo de reverberación (T o T60)
Es 2 veces el tiempo que

demora el sonido en caer de
-5 dB a -35 dB con respecto al
nivel alcanzado en régimen
permanente una vez
interrumpida la fuente.
Tiempo de reverberación (T o T60)
Lp
Lp 0
Lp 0 - 5 dB
Lp 0 - 35 dB
t
T/2
En los albores de la acústica
arquitectónica moderna (fines
del siglo XIX) se pensaba que el
tiempo de reverberación era el
único parámetro importante.
Más adelante se comprobó que
también eran muy importante
las primeras reflexiones,
denominadas reflexiones
tempranas. Se introdujeron
varios parámetros relacionados
con ellas.
Retardo inicial (ITD)
Es el tiempo entre la
llegada del sonido directo y
el de la primera reflexión.
En los mejores auditorios
está comprendido entre
10 ms y 25 ms.
Retardo inicial (ITD)
Lp
t
ITD
Tiempo de caída inicial (EDT)
Es el tiempo de reverberación
que se obtiene extrapolando la
caída de 0 dB a -10 dB con
respecto al nivel alcanzado en
régimen permanente una vez
interrumpida la fuente.
Tiempo de caída inicial (EDT)
Lp
Lp 0
Lp 0 - 10 dB
t
EDT/6
Índice de claridad (C80)
Es el cociente entre la energía

que llega entre 0 ms y 80 ms
después de llegado el sonido
directo, y la que llega entre
80 ms e ∞, expresado en dB.
En otras palabras, es una medida

logarítmica de la relación entre la
energía temprana y la tardía.
0,08
C80
∫ p
= 10 log —————
0
2
(t) dt
∞
∫ (t) dt
p 2
0,08
p2(t)
0,08
po2
∫ 0
p2(t) dt
∞
∫
0,08
p2(t) dt
to to + 0,08 s
t
En las mejores salas de concierto

del mundo el índice de claridad
está comprendido entre 0 y -4 dB.
Esto significa que la energía
temprana está entre un 40% y un
100% de la energía tardía.
Definición (D50)
Es el cociente entre la energía

que llega entre 0 ms y 50 ms
después de llegado el sonido
directo, y la energía total, a
veces expresado en %.
Definición (D50)
En otras palabras, es la fracción

de la energía total que llega
tempranamente:
0,05
∫
D = —————
0
p 2
(t) dt
∞
∫ (t) dt
0
p 2
Definición (D50)
Se utiliza en la evaluación de
salas para la palabra hablada.
Valores entre 40% y 80%
permiten una buena
inteligibilidad de la palabra.
Fracción de energía lateral (LF)
Es el cociente entre la
energía correspondiente a
las reflexiones laterales y
la energía total en los
primeros 80 ms.
0,08
∫0,005
LF = ——————
p g
2
(t) dt
0,08
∫ (t) dt
p
0
2
donde pg(t) es la presión medida

por un micrófono direccional
orientado a 90º con respecto a la
dirección del camino directo.
0,08
∫0,005
LF = ——————
p g
2
(t) dt
0,08
∫ (t) dt
p
0
2
Como micrófono direccional se

emplea uno de gradiente, cuya
sensibilidad es nula a 90º de su
eje principal (figura de 8).
Micrófono “figura de 8”
0º
330º 30º
300º 60º
90º
Sensibilidad
270º
nula
240º 120º
210º 150º
180º
Correlación interaural (IACC)
Es una medida de la
diferencia entre los sonidos
que llegan a ambos oídos.
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
Los tiempos t1 y t2 dependen de si

se está analizando la respuesta
total, temprana o tardía.
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
La respuesta total implica t1 = 0 y

t2 = 1000 ms. La respuesta temprana,
t1 = 0 y t2 = 80 ms. La respuesta tardía,
t1 = 80 ms y t2 = 1000 ms.
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
El retardo τ se toma entre -1 ms y

1 ms, ya que es el máximo retardo
posible entre ambos oídos.
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
La correlación interaural varía entre

-1 y 1. Vale ±1 cuando para algún
retardo τ se cumple pI(t) = pD(t ± τ).
t2
IACC(τ) =
∫ p (t) p (t + τ) dt
t1
——————————
I D
t2 t2
∫t1
pI2(t) dt ∫
t1
pD2(t) dt
Se define el coeficiente de
correlación interaural, IACC, como
el máximo valor de |IACC(τ)|.
Cuando el IACC es alto significa

que las señales que llegan a
ambos oídos tienen formas
parecidas y a lo sumo tienen un
pequeño retardo.
pI(t)
IACC = 1
t
pD(t+τ )
t
pI(t)
IACC < 1
t
pD(t+τ )
t
Se encuentra que los menores

valores de IACC[0; 80] resultan
preferibles.
7. Inteligibilidad
de la palabra
Un factor muy importante en
una buena acústica es la
inteligibilidad de la palabra.
Para comprender las causas de
la pérdida de inteligibilidad
tengamos en cuenta las
características acústicas de la
palabra hablada.
Los fonemas (mínimo fragmento
con identidad fonética propia) que
constituyen el lenguaje hablado
se dividen en vocales y
consonantes.
Las consonantes confieren

mayor cantidad de información
que las vocales.
Las vocales son sonidos cuasi
periódicos, y por lo tanto
poseen un espectro formado
por una fundamental y sus
armónicos. Las consonantes, en
cambio, por lo general tienen un
espectro predominantemente
continuo.
Las vocales tienen su energía
principalmente en baja
frecuencia. Las consonantes,
en alta frecuencia.
Las vocales son más
intensas y duran más que
las consonantes.
En consecuencia la palabra se
encuentra amenazada por el
ruido y la reverberación.
El ruido puede enmascarar
total o parcialmente a las
débiles consonantes.
La reverberación puede
superponer la energía de las
vocales reflejada múltiples
veces a las consonantes.
a m a g a
La inteligibilidad se mide como
porcentaje de articulación,
definida como el promedio para
varias personas de la cantidad
de aciertos dividida por la
cantidad de emisiones.
Hay tres tipos de porcentajes de
articulación: silábico, de
palabras y de frases.
Estos tres porcentajes, PAS.
PAP, PAF, están relacionados
entre sí.
100
90
80
70
60
PAP 50
% 40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
PAS %
Vemos que ante un moderado
porcentaje de articulación de
sílabas se obtiene un alto
porcentaje de articulación de
palabras.
Esto se debe a que las personas
muchas veces pueden
reconocer una palabra aun si
pierden algún detalle en su
pronunciación.
100
90
80
70
60
PAF 50
% 40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
PAP %
Análogamente, aun perdiendo
alguna palabra el oyente puede
reconstruir la frase a partir del
contexto.
EJEMPLO
Si el porcentaje de articulación
silábico es del 70 % ¿cuántas
frases serán reconocidas de un
total de 100?
100
90
80 92%
70
60
PAP 50
% 40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
PAS %
100
90 97%
80
70
60
PAF 50
% 40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
PAP %
Vemos que con un 70 % de
sílabas correctas se
reconocerán 92 % de
palabras y 97 % de frases.
El porcentaje de articulación
silábica para ambientes
típicos con muy baja
reverberación puede
estimarse en función del
nivel de la palabra.
100
90
80
70
60
PAS
50
%
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
100
90
80
70
60
PAS
50
Así, para un nivel de 40 dB...
%
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
100
90
80 88%
70
60
PAS
50
%
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
100
90
80
70
60
... se percibe correctamente
PAS
50
%
un 88 % de la sílabas.
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
Al agregar ruido ambiente, la
inteligibilidad empeora para
un mismo nivel vocal. Por
ejemplo, para un ruido
de 43 dB...
100
90
80
70
60
PAS
50
%
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
100
90
80
70
60
PAS
50 39%
%
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
Lp [dB]
Es posible calificar un lugar
para la audición de la palabra
hablada en función de la
articulación silábica.
Clase Calificación PAS medio,
%
I Excelente > 90
II Buena 80 - 90
III Satisfactoria 70 - 80
IV No satisfactoria < 70
Los casos anteriores se
referían a tests subjetivos,
con la participación de un
equipo de oyentes.
Un primer test objetivo utiliza 20
bandas de frecuencia cuyas
contribuciones a la inteligibilidad
son consideradas similares.
La inteligibilidad se calcula a
partir del índice de articulación,
definido como
20
AI = ΣAI
i=1
i
AIi es la inteligibilidad de la banda i,
obtenida de
(S/R)i + k
0,05 ———— si (S/R)i + k ≤ 30
30
AIi =
0,05 si (S/R)i + k > 30
donde (S/R)i es relación señal / ruido

en dB para la i-ésima banda y k un
factor de corrección, en general 0.
En lugar de utilizar bandas
específicas, difíciles de obtener
en los analizadores de espectro
convencionales, otros métodos
proponen la utilización de
bandas de tercio de octava.
Se le asigna un peso qi a cada
banda y se calcula AI como
n
AI = Σq ∆L
i=1
i i
donde ∆Li es la diferencia entre el

nivel de pico de la voz y el nivel de
ruido en la i-ésima banda.
A partir del AI se obtiene el
porcentaje de articulación
silábica mediante curvas como
la siguiente.
100
90
80
70
60
PAS 50
% 40
30
20
10
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
AI
También es posible calificar
directamente la inteligibilidad a
partir del índice de articulación.
Clase Calificación AI
I Excelente > 0,7
II Buena 0,5 - 0,7
III Satisfactoria 0,3 - 0,5
IV No satisfactoria 0,1 - 0,3
V Muy mala < 0,1
Otro método es el que utiliza el
Índice de Transmisión de la
Palabra, STI (speech
transmission index) y su versión
rápida, RASTI.
Estos métodos consisten en
aplicar una señal modulada en
amplitud y obtener la función de
transferencia de modulación,
MTF.
Una gran ventaja es que
permite incluir el efecto de
enmascaramiento causado por
la propia reverberación.
Se utiliza una señal del tipo:
p(t) = Po(1 + sen 2πFt) s(t)
donde s(t) es la portadora, es

decir bandas de ruido de
octava entre 125 Hz y 8 kHz, y F
son frecuencias que van
desde 0,25 Hz a 25 Hz.
p(t)
t
La señal recibida tendrá una
menor amplitud de
modulación a causa del ruido
y de la reverberación.
La señal recibida será:
p(t) = Po(1 + m(F) sen 2πF(t -τ)) r(t)
donde m(F) es la reducción en la

profundidad de la modulación y
τ un eventual retardo.
p(t)
Po
Po
p(t)
Po Po m(F)
t
Se define la función de
transferencia de modulación
como:
MTF = 20 log m(F)

Para el estudio se obtienen las
MTFi para las frecuencias
Fi = 0,25 Hz a 25 Hz y luego se
calcula el índice se
transferencia de la palabra,
STI, del siguiente modo:
100 21
1
STI = ——
21 Σi = 1—————
1 – 0,3 MTFi
100
90
80
70
60
PAP 50
% 40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
STI %
Finalmente, al margen de la
inteligibilidad en particular,
existen criterios de
aceptabilidad de un ambiente
acústico.
En la Norma IRAM 4070:1986 se
introducen las curvas NR para
evaluar la calidad acústica en
función del ruido de fondo.
Se pueden utilizar como criterio
para varias usos de lso
ambientes.
Curvas NR
120
110
110
100
100
90
90
80
80 NR 50 70
70
Lp 60
60
[dB] 50
50
40
40
30 30
20
20
10
10
0
0
31,5 63 125 250 500 1k 2k 4k 8k
f [Hz]
Ambiente NR recomendado
Estudios de Radio y Televisión 15 - 20

Salas de concierto 20 - 25
Teatros 20 - 25
Residencias suburbanas 25 - 35
Salas de conferencia 25 - 35
Cines 25 - 35
Aula de escuela 25 - 35
Salas de lectura de escuela 25 - 30
Habitaciones de hospital 25 - 35
Residencias urbanas 30 - 40
Bibliotecas 30 - 40
Quirófanos 30 - 40
Restaurantes, bares, comedores 35 - 45
Oficinas públicas 35 - 45
Piscinas 40 - 55
Salones de venta comerciales 40 - 50
Grandes tiendas 50 - 55
Talleres 60 - 70
Obsérvese que los límites
inferiores también deben
cumplirse, ya que para
determinados usos no es
aceptable un silencio
demasiado profundo.
BIBLIOGRAFÍA
Miyara, Federico: “Control de Ruido”. Publicación electrónica en CD.
Editorial ASOLOFAL, Rosario, 2000.
Beranek, Leo L.: “Acústica”. Editorial Hispanoamericana S. A.
Buenos Aires (Arg.), 1961.
Beranek, Leo L., Vér, István (eds.): “Noise and Vibration Control
Engineering”. John Wiley. New York (USA), 1992.
Miyara, Federico: “Acústica y Sistemas de Sonido”. UNR Editora.
Rosario (Arg.), 1999.
Harris, Cyril M.: “Handbook of Acoustical Measurements and Noise
Control”. Acoustical Society of America. Woodbury (USA), 1998.
Makrinenko, Leonid: “Acoustics of Auditoriums in Public Buildings”.
Acoustical Society of America, Woodbury (USA), 1994.
BIBLIOGRAFÍA
Barron, Michael: “Auditorium Acoustics and Architectural Design”.
E & FN Spon. Londres (UK), 1993.
Beranek, Leo L.: “Concert Opera Halls: How they Sound”.
Acoustical Society of America. New York (USA), 1996.
Davis, Don; Davis, Carolyn: “Sound System Engineering”. SAMS
(Prentice Hall Computer Publishing). Carmel, Indiana (USA),
1994.
Everest, F. Alton: “The Master Handbook of Acoustics”. McGraw-
Hill. Blue Ridge Summit (USA) 1989.
Haas, Helmut: “The influence of a single echo on the audibility of
speech”. Journal of the Audio Engineering Society, Vol 20, No 2,
March 1972, pp 146-159.
IRAM 4070:1986 “Ruidos. Procedimiento para su evaluación
utilizando las curvas ‘NR’”
PROBLEMAS
2.1. En Acústica Musical una quinta justa es
un intervalo cuya relación de frecuencias es 3:2.
Verificar que una quinta temperada, es decir, un
intervalo formado por 7 semitonos, coincide
con mucha aproximación con una quinta justa.
2.2. Obtener la frecuencia de un fa 2 octavas
por debajo de la octava central.
2.3. Determinar si un tono puro de 100 Hz y
70 dB es más o menos sonoro que uno de 700
Hz y 64 dB.
2.4. Obtener el nivel de sonoridad en fon de un
tono de 60 dB y 200 Hz.
2.5. Luego de mejorar el aislamiento acústico
de una habitación en la cual se produce un
sonido de 90 Hz y 100 dB se obtiene, fuera de
ella, un nivel sonoro de 35 dB. ¿Qué puede
afirmarse de la efectividad del tratamiento?
¿Por qué?
2.6. ¿Cuál es la sonoridad en son de un tono de
7 kHz y 61 dB?
2.7. ¿Cuál es la sonoridad de una onda
cuadrada de 300 Hz y 80 dB? Sugerencia: Los
armónicos de una onda cuadrada son de orden
impar y sus amplitudes vienen dadas por
4 Pmáx/(nπ), donde n es el orden del armónico
impar considerado.
2.8. a) Calcular la potencia sonora que llega al
tímpano cuando se escucha un sonido de 60 dB.
b) Determinar qué fracción de esa potencia
llega al oído interno (ventana oval). Sugerencia:
trabajar con la intensidad sonora, teniendo en
cuenta las áreas del tímpano y la ventana oval,
así como la ganancia mecánica del oído medio,
suponiendo que éste no tiene pérdidas.
2.9. Un individuo es capaz de entender un
40% de las palabras tomadas de una lista de
palabras fonéticamente balanceadas
pronunciadas de manera de tener 20 dB en su
oído. Indicar si su audición es normal o no.
2.10. Determinar el índice porcentual de
articulación de frases cuando el nivel de presión
sonora es de 30 dB, en ausencia de ruido.
2.11. Repetir el problema anterior cuando el
nivel de presión sonora es de 40 dB pero el
ruido ambiente es de 43 dB.
2.12. En un ambiente hay un ruido rosa de 75
dB. Determinar si será posible comunicarse
oralmente sin gritar a 2 m de distancia.
Sugerencia: para calcular el espectro del ruido
rosa tener en cuenta que el mismo tiene la
misma energía en todas las bandas de octava.
2.13. El espectro promedio de la música de rock
típica sube a razón de 18 dB por octava hasta
los 80 Hz, y luego baja a razón de 6 dB por
octava. a) Si el nivel sonoro máximo dentro de
una discoteca es de 105 dB, determinar el
espectro de bandas de octava entre 31,5 Hz y 8
kHz. b) Si la atenuación provista por la pared
medianera con una casa vecina se incrementa a
razón de 12 dB por octava arrancando en 30 dB
en la octava de 31,5 Hz, determinar si dicha
casa cumple con el criterio NR para residencias
urbanas.
—2
p (f)
f
80 Hz

Psicoacústica

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Psicoacústica

Încărcat de

Drepturi de autor:

Formate disponibile

Psicoacústi

Oído Oído Oído

Seccion tranversal de 30 a 50 mm2 ,

Los vellos detienen las

Sonido conducido por

Células Células Membrana

Células Células Membrana

Células Células Membrana

Células Células Membrana

11 kHz 2 kHz 500 Hz 200 Hz

La 440 Sol # 415,30

La 440 La’ 880

Así, un tono son 200 cents, una

P: presión sonora eficaz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

20 100 500 1000 5000 10000 Hz

Las bandas críticas abarcan

1. Dividir el espectro en bandas

Pef 1 Pef 2 Pef 3 Pef 4 Pef 5 Pef 6 Pef 7 Suma o integral

NS1 NS2 NS 3 NS4 NS 5 NS 6 NS 7 Robinson-Dadson

S = 0,7 Smáx + 0,3 Σ Si

20 100 500 1000 5000 10000 Hz

Si ahora se agrega un sonido

20 100 500 1000 5000 10000 Hz

Se dice que dicho sonido externo

El umbral de audición en este

Cuanto mayor sea el nivel del

Resultan tres curvas de umbral

20 100 500 1000 5000 10000 Hz

En muchos casos, no obstante,

Actualmente se utilizan en los

Los ciegos, en cambio. al

Es 2 veces el tiempo que

Es el cociente entre la energía

En otras palabras, es una medida

En las mejores salas de concierto

Es el cociente entre la energía

En otras palabras, es la fracción

donde pg(t) es la presión medida

Como micrófono direccional se

Los tiempos t1 y t2 dependen de si

La respuesta total implica t1 = 0 y

El retardo τ se toma entre -1 ms y

La correlación interaural varía entre

Cuando el IACC es alto significa

Se encuentra que los menores

Las consonantes confieren

donde (S/R)i es relación señal / ruido

donde ∆Li es la diferencia entre el

p(t) = Po(1 + sen 2πFt) s(t)