Sunteți pe pagina 1din 25

Codificação de Áudio II

MDCT e Transformadas
ESTI019 – Codificação de Sinais Multimídia
Profs: Celso Setsuo Kurashima,
Kenji Nose e Mário Minami
UFABC - Março 2018
Codificadores por Sub-Bandas x Transformada
• Sub-bandas: codificadores com poucos canais de frequência como
MPEG camadas I e II
• Transformada: codificadores com muitos canais de frequência como
DOLBY AC2 e AC3 e MPEG AAC
• Matematicamente, apesar da nomenclatura diferente, eles são
equivalentes
A Transformada de FOURIER (TF) e a
Transformada DISCRETA DE FOURIE (DFT)
A TRANSFORMADA DE FOURIER:
• Mapeia os Domínio do Tempo (DT) no Domínio da Frequência (DF):

𝑥(𝑡) ֞ 𝑋(𝑓)
• Se o sinal x(t) de banda máxima fmáx for amostrado com frequência
de amostragem
𝑓𝑠 ≥ 2𝑓𝑚á𝑥
1
• Teremos as amostras 𝑥[𝑛] ≜ 𝑥(𝑛𝑇𝑠 ) onde 𝑇𝑠 =
𝑓𝑠
A Transformada DISCRETA DE FOURIER (DFT)
• Um sinal limitado no tempo, num intervalo T, que possui um conjunto
finito de amostras não nulas pode ser completamente representado
por um conjunto de amostras na frequência 𝑋 𝑘 = 𝑋(𝑘/𝑇)
• Deseja-se então trabalhar com um representações limitadas no
tempo e na frequência:
• Deseja-se operar com blocos finitos do sinal amostrado no tempo (DT) e
convertê-los em conjuntos finitos de amostras na frequência (DF)
• Uma solução de compromisso pode ser encontrada, com quase nenhuma
perda de informação.
• É o que denominamos de Transformada Discreta de Fourier (DFT)
Janelas no Domínio do Tempo: Retangular e
Senoidal
∞ 𝑇
• Janela Retangular: 𝑊𝑅 𝑓 = ‫׬‬−∞ 𝑤𝑅 𝑡 𝑒 −𝑗2𝜋𝑓𝑡 𝑑𝑡 = ‫׬‬0 𝑒 −𝑗2𝜋𝑓𝑡 𝑑𝑡 =
−𝑗𝜋𝑓𝑇 sin(𝜋𝑓𝑇)
𝑒
𝜋𝑓𝑇
• Janela Senoidal:
𝑤𝑆 𝑡 = sin 𝜋𝑡/𝑇 , tempo contínuo
1
𝑛+
𝑤𝑠 𝑛 = 𝑠𝑖𝑛 𝜋 𝑁
2 para n = 0,1,..., N-1 em tempo discreto
E,
𝑊𝑆 𝑓∞ ∞ 2𝑇
𝜋𝑡 𝜋
= න 𝑤𝑠 𝑡 𝑒 −𝑗2𝜋𝑓𝑡 𝑑𝑡 = න 𝑠𝑖𝑛 𝑒 −𝑗2𝜋𝑓𝑡 𝑑𝑡 = 𝑒 −𝑗𝜋𝑓𝑇 cos(𝜋𝑓𝑇)
𝑇 1 − (2𝑓𝑇)2
−∞ −∞
Janela de Hanning
Hanning:
𝑤𝐻 𝑡 = 12 1− 𝑐𝑜𝑠 2𝜋𝑡
𝑇
, para 0 ≤ 𝑡 ≤ 𝑇 e 0 c.c.
Ou:
1
2𝜋 𝑛+
𝑤𝐻 𝑛 = 12 1−cos
𝑁
2
, para n=0,1,...,N-1
Cujo espectro é:
−𝑗𝜋𝑓𝑇
sin(𝜋𝑓𝑇) 1/2
𝑊𝐻 𝑓 = 𝑒 cos(𝜋𝑓𝑇)
𝜋𝑓 1 − (𝑓𝑇)2
Aspecto (Shape) Espectro
Janela de Kaiser-Bessel
𝑛−𝑁/2 2
𝐼0 𝜋𝛼 1− 𝑁/2
𝑤𝐾𝐵 𝑛 = ,
𝐼0 [𝜋𝛼]
𝑥 2
( 2 )𝑘
onde 𝐼0 𝑥 = σ∞
𝑘=0 é a 0-ésima função modificada de Bessel.
𝑘!

E o espectro aproximado desta janela será:


𝑇 𝑠𝑖𝑛ℎ 𝜋 2 𝛼 2 − (𝑇2𝜋𝑓/22
𝑊𝐾𝐵 𝑓 =
𝐼0 (𝜋𝛼) 𝜋 2 𝛼 2 − (𝑇2𝜋𝑓/22
Janela Kaiser-Bessel: Formato e Espectro
Procedimento de Sobreposição-e-Adição
(Overlap-And-Add)
• A transformação para o DF permite a separação do sinal (seu
espectro) em blocos de bandas de frequência com redundância de
informação.
• Utiliza-se o efeito de mascaramento em frequência no Sistema
Auditivo Humano para remoção de componentes “irrelevantes”
• Descarte de componentes de frequência inaudíveis
• Alocação de bits variável por banda, penalizando faixas espectrais encobertas
pelo ruído de quantização
Overlap-And-Add
Overlap-And-Add
Overlap-And-Add: Normalização das Janelas
• Para Reconstrução perfeita, se usamos as mesmas janelas para a
Análise e para a Síntese:
𝑤 𝑖 [𝑛]2 +𝑤 𝑖−1 [𝑀 + 𝑛]2 = 1 para n = 0,1,...,N-M-1
𝑤 𝑖 [𝑛]2 = 1 para n = N-M, N-M+1,...,M-1
• Para uma janela senoidal, fica:
1
𝑛 + 2
𝑠𝑖𝑛 𝜋2 para 0, … , 𝑁 − 𝑀 − 1
𝑁−𝑀
𝑤𝑛 = 1 para 𝑛 = 𝑁 − 𝑀, … , 𝑀 − 1
1
𝑵 − 𝑛 − 2
𝑠𝑖𝑛 𝜋2 para 𝑛 = 𝑀, … , 𝑁 − 1
𝑁−𝑀
Overlap-And-Add: Normalização Genérica
σ𝑛𝑝=0 𝑤 ′ [𝑝]
para 𝑛 = 0, … , 𝑁 − 𝑀 − 1
σ𝑁−𝑀
𝑝=0 𝑤 ′ [𝑝]

𝑤𝑛 = 1 para 𝑛 = 𝑁 − 𝑀, … , 𝑀 − 1
σ𝑁−𝑀
𝑝=𝑛−𝑀+1 𝑤 ′ [𝑝]
para 𝑛 = 𝑀, … , 𝑁 − 1
σ𝑁−𝑀
𝑝=0 𝑤 ′ [𝑝]
Janela normalizada derivada da Kaiser-Bessel
(KBD)
• 50% de
sobreposição
com os blocos
adjacentes
• Dolby AC e
MPEG AAC,
usam α = 4 KBD
Considerações na utilização das Janelas
• Maximização da separação das frequências do Banco de Filtros e a
minimização dos efeitos da segmentação em blocos.
• Dois parâmetros das janelas a serem considerados são o Tamanho e o
Formato da Janela.
• Dado um certo tamanho de bloco para os dados de entrada do banco de
filtros, a seleção do formato da janela (tipo) determina o grau de separação
espectral do banco
• P.ex. o lóbulo principal da janela senoidal é mais estreito que o da α = 4 KBD;
entretanto, a rejeição nos lóbulos laterais é pior na senoidal que na α = 4 KBD.
Utilização de vários tipos de Janelas: switch
Block Switching
Ajustar a seletividade do Banco
de Filtros:
• Mudar o tamanho da janela
mantendo o critério de
Reconstrução Perfeita
• Para efeitos transitórios,
janelas estreitas
• Para sinais mais estacionários,
janelas mais largas
• Não é necessário manter
simetria nas janelas
FILTROS MDCT (usados no MP3 e no AAC)
• São Filtros PQMF generalizados para bancos de filtros modulados
por cossenos com Reconstrução Perfeita, ou Modified Discrete
Cosine Transform (MDCT) filter (Princen e Bradley 1986).
• Respostas impulsivas dos filtros de análise:
2
ℎ𝑖 𝑛 = ℎ 𝑛 cos 2𝜋𝑓𝑖 𝑛 + 𝜑𝑖 com 2𝑖 + 1 1
𝑀 𝑓𝑖 =
2𝑀 2
𝑔𝑖 𝑛 = ℎ𝑖 𝑛 (2𝑀 − 1 − 𝑛) 2𝑖 + 1 (𝑀 + 1)
𝜑𝑖 =
• Condições PR: 4𝑀
ℎ2 𝑛 − ℎ2 𝑛 + 𝑀 = 1
ℎ 𝑛 = ℎ 2𝑀 − 1 − 𝑛 para n = 0,...,M-1
Modulated Lapped Transform Filter Bank
(Malvar 1990), caso especial da MDCT
1 𝜋
ℎ 𝑛 = 𝑠𝑖𝑛 𝑛 + 2
, para n=0,...,2M-1
2𝑀

• Utilizados nas normas:


• MPEG-1, camada 3 (MP3)
• MPEG-2 AAC
• MPEG4
Codificador por Transformada M-Canais, N=M
Notação Matricial Filtros de Análise e Síntese

𝐲 = 𝐇𝐱

𝐱 = 𝐆𝐲
TC, M Canais,
N=2M
visão da
segmentação
pelos blocos
TC M Canais, N>M
Referências
• DUTOIT, T. and MOREAU, N., How is sound processed in an MP3
player?, in: Applied Signal Processing, Ch.3, Springer, New York, 2009.
• BOSI, M. and GOLDBERG, R. E., Introduction to Digital Audio Coding
and Standards, Kluwer Academic Publishers, Dordrecht, 2003.
• PAN, D., A Tutorial on MPEG/Audio Compression, IEEE Multimedia
Magazine, pp. 60-74, 1995.
• MINAMI, M., Codificação de Áudio, Slides da disciplina EN2616,
2013.

S-ar putea să vă placă și