6 Curs 6 I Compresia Surselor Audio

Curs 6 - Compresia surselor de informatie audio si a vorbirii Continut Aspecte specifice compresiei audio Debitul de informatie al surselor audio
Motivatia compresiei audio Motivatia compresiei vorbirii Schema bloc a unui sistem cu CODEC audio Structura aparatului auditiv si modelarea acestuia Codarea perceptuala Compresia vorbirii Tehnici de compresie prin prelucrari elementare Compresia vorbirii prin metoda LPC Compresia vorbirii prin metoda CELP Concluzii Tema de casa 1. Aspecte specifice compresiei audio 1.1. Debitul de informatie al surselor audio Clasele de semnale audio generate de vorbirea umana pot fi pentru pentru canale telefonice, vorbirea de banda larga, semnalul audio de banda larga, care difera fiecare dintre ele prin banda, gama dinamica (dynamic range), si calitatea asteptata a ascultatorului (destinatarului). Calitatea vorbirii de banda telefonica (cca. 3 kHz) este acceptabila pentru telefonie si o serie de servicii de video-telefonie. Benzi mai mari (7 kHz pentru vorbirea de banda larga) sunt necesare pentru imbunatatirea inteligibilitatii si naturaletii vorbirii. Reprezentarile audio de banda larga (fidelitate mare) necesita benzi de cel putin 20 kHz. Formatul numeric conventional al acestor semnale este dat de modulatia in cod a impulsurilor (PCM= Pulse Code Modulation), cu rate de esantionare si rezolutie de amplitudine (PCM bits per sample) exemplificate in tabelul 1.
Tabel 1 - Parametrii de baza pentru codarea PCM a vorbirii si a semnalelor audio Gama Frecventa PCM Debitul de inf Clase de semnale Frecventa [Hz] de esantionare [KHz] [bit / esantion] [Kb/s] Vorbire telefonie 300-3400 8 8 64 Vorbire de banda larga 50-7000 16 8 128 Audio banda medie 10-11000 24 16 384 Audio banda larga 10-22000 48 16 768
Formatul pentru CD(Compact disc) este standardul de facto al reprezentarii audio numerice. Cu rata de esantionare de 44.1 KHz, debitul de informatie pentru un semnal stereo pentru un CD este 2 x 44.1 x 16 x 1000 = 1.41 Mb/s, asa cum se prezinta in tabelul 2.
Tabel 2 Debitele pentru CD (Semnal stereo, esantionat cu 44.1 KHz) Dispozitiv Rata audio Over-head Rata binara totala de memorare [Mb/s] [Mb/s] [Mb/s] Compact disc CD 1.41 2.91 4.32
Observatie: Pentru arhivarea si stocarea semnalelor audio, se folosesc rate de esantionare de doua ori mai mari ca cele mentionate si rezolutii de amplitudine de 24 biti/esantion. Acestea
73
Compresia datelor
nu folosesc compresia cu pierdere de informatie. In acest caz, ca suport de stocare, se folosesc DVD (Digital Video Disk or Digital Versatile Disk) cu capacitati de 4.7 GB (un strat) sau 8.5 GB pentru dublu strat. Exista multe diferente intre codarea vorbirii si a semnalului audio. Codarea audio implica rate de esantionare mai mari, o rezolutie in amplitudine mai buna, gama dinamica mare, variatii mari in spectrul de putere, reprezentare stereo si multicanal, si in final calitate mai buna. Codarea vorbirii si codarea audio sunt similare in sensul ca ambele se bazeaza pe proprietatile perceptiei audio umane. Pe de alta parte, vorbirea poate fi codata foarte eficient prin utilizarea unui model de producere a sunetului, pe cand semnalele audio nu se preteaza la aceasta prelucrare. 1.2. Motivatia compresiei audio Urmatorul exemplu doreste sa justifice necesitatea compresiei informatiei audio. Fie o melodie cu durata de 1 minut. In conditii de calitate CD, semnalul audio este esantionat cu frecventa de 44.1 KHz (deci, 44100 esantioane/secunda), este semnal stereo, si are 16 biti pe esantion. In format binar (wav), rezulta un necesar de memorie (sau de stocare) de: 44.100 esantioane / s * 2 canale * 16 bit / esantion * 60 s = 84.672.000 biti = 10,584 MBytes O melodie modesta de cateva minute, de exemplu 3-4 minunte, va ocupa un spatiu de 10,584 MBytes * 3-4 min. = 31.752 42.336 MB Pentru un album cu 10 melodii rezulta un necesar de memorie de 10 melodii * 40 MB = 400 MB ceea ce este cam mult pentru majoritatea utilizatorilor obisnuiti. Daca se considera problema transmiterii pe un canal internet a unei singure melodii, pe o conexiune cu viteza de 64 Kbit/s, este necesar un timp de [10,584 MBytes * 8 bit/Byte] / [64 Kbit/s * 60 s/min ] = 22.05 min. ceea ce este iarasi destul de mult pentru un utilizator obisnuit. Utilitarele de compresie a semnalelor audio (mp3, mp4, mp3pro, etc) realizeaza rapoarte de compresie de pana la 10 ori, fara pierderea calitatii subiective a semnalului, astfel incat timpul transmiterii se poate reduce la 2 min, ce poate fi acceptabil. Rezulta importanta deosebita a construirii, dezvoltarii si utilizarii unor instrumente de compresie a surselor (fisierelor) audio. 1.3. Motivatia compresiei vorbirii Codarea vorbirii este un aspect important al telecomunicatiilor moderne. Codarea vorbirii inseamna procesul de reprezentare numerica a semnalului vorbire. Obiectivul de baza al codarii vorbirii este de a reprezenta semnalul vorbire cu un numar mic de biti, cu mentinerea unui nivel de calitate suficient pentru refacerea vorbirii originale cu un grad de dificultate rezonabil. Compresia vorbirii are o trasatura distincta fata de compresia audio in sensul ca vorbirea este folosita si ca limbaj de interogare/dialog cu sistemele computerizate.
Compresia surselor de informatie audio si a vorbirii
74
Semnalul vorbire este un semnal analogic s(t) care se esantioneaza mai intai cu o frecventa de esantionare ts 2fmax, unde fmax este frecventa maxima din spectrul semnalului s(t). Semnalul discret va fi notat cu s(n). Acesta din urma este apoi codat prin diverse scheme de codare cum sunt PCM (Pulse Coded Modulation) sau codare diferentiala sau codare predictiva. In codarea predictiva codorul considera un grup de esantioane, la un moment dat, extrage un numar de parametri ai unui model ce modeleaza esantioanele considerate, converteste coeficientii in simboluri binare si le transmite pe canal. Se obtine astfel o reprezentare compacta cu mai putini biti. Decodorul reconstruieste semnalul vorbire din parametrii transmisi, asa cum se prezinta in figura 1. Compresia surselor audio va fi denumita, in continuare, din motive de simplitate, codare.
Figura 1 Codarea vorbirii Interesul pentru reducerea ratei de bit (low bit rate coding) este dat de necesitatea minimizarii costurilor de transmisie si a necesarului de memorie pentru stocare, de necesitatea de a transmite pe canale cu capacitate limitata, asa cum sunt canalele radio mobile, si pentru a suporta codarea cu pas variabil. Reducerea ratei de informatie pentru semnale audio si vorbire se poate face pana la valori de 0.5-1 bit/esantion pentru vorbire si 1-2 bit/ esantion pentru semnale audio. 2. Structura aparatului auditiv si modelarea acestuia Asa cum se prezinta in figura 2, sistemul auditiv uman are un maxim de sensibilitate in domeniul 2-4 kHz. Existenta unui prag de audibilitate sugereaza o posibilitate de a realiza o compresie cu pierdere de informatie, prin eliminarea esantioanelor cu valoare sub pragul auditiei. Intrucat pragul depinde de frecventa trebuie ca blocul CODEC sa cunoasca in permanenta spectrul semnalului voce prelucrat. Toate componentele care nu se aud nu se mai transmit. In afara de acest aspect, mai sunt doua fenomene ce pot fi folosite la compresie: mascarea frecventelor (frequency masking) si mascarea temporala (temporal masking). In Fig. 2a, componenta reprezentata cu sageata arata o sursa puternica la 8 kHz. Sursa creste pragul normal de audibilitate in vecinatatea sa, confrom curbei punctate. Ca efect, sunetele audibile invecinate, aflate acum sub curba punctata, devin inaudibile. O metoda de compresie trebuie sa identifice aceste modificari si sa stearga, deci sa nu mai transmita, semnalele sub pragul de audibilitate. Acesta este una din caile de compresie bazate pe perceptie.
75
Compresia datelor
Figure 2 Praguri de mascare a sunetului
Figura 3: (a) mascarea frecventelor (b)- model simplu de mascare
76
Mascarea temporala poate sa apara cand un semnal puternic A de frecventa f este precedat sau urmat in timp de un semnal B mai puternic cu aceeasi frecventa sau apropiata. Daca intervalul de timp de timp dintre sunetele A si B este mic, atunci sunetul B s-ar putea sa nu se auda. Figura 3 prezinta un exemplu de mascare temporala. Pragul de mascare temporala din cauza unui sunet puternic aparut la momentul de timp 0 se duce spre zero mai intai puternic apoi lent. Un sunt mai slab de 30 dB nu va fi auzit daca apare inainte sau dupa sunetul puternic la un interval de 10 ms, dar va fi audibil daca intervalul de timp este mai mare de 20 ms.
Figura 3 Fenomenul de mascare temporala 3. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding) Schema de baza a unui codor-decodor audio 1, bazat pe model, este prezentata in figura 4. Se remarca existenta unui model care modeleaza aparatul auditiv. Acesta furnizeaza o aproximare a mecanismelor de perceptie ale urechii umane, asa cum s-a descris anterior.
Figura 4 - Structura de baza a unui codor decodor audio In etajul de reprezentare al semnalului are loc reducerea redundantei semnalului. In codarea vorbirii, un model fizic al tractului vocal este folosit pentru definirea parametrilor vorbirii. Acesti parametrii, impreuna cu informatia reziduala, sunt codati. In timp ce aceasta tehnica permite obtinerea unor rapoarte de compresie foarte mari, nu este foarte eficienta cu semnale muzicale pentru ca este foarte dificil sa se modeleze bine toate sursele posibile de muzica. In codarea audio, reprezentarea din domeniul timp a semnalului este tipic transformata intr-o reprezentare timp-frecventa cu ajutorul unui banc de filtre (cascada de filtre). In acest caz, iesirile din domeniul frecventa ale bancului de filtre furnizeaza reprezentarea primara a semnalului. Prin alocare de bit se intelege calculul numarului de biti pentru reprezentarea
AUDIOCODEC sau CODEC Audio
77
Compresia datelor
semnalului. Semnalele cu gama dinamica mare necesita un numar mai mare de biti in comparatie cu semnalele cu gama dinamica mica. 4. Compresia vorbirii Clasificarea si performantele generale ale vocoderelor sunt prezentate in figura 5. Vocoderele sunt CODEC-uri audio bazate pe mecanismul de generare a sunetelor de sistemul de vorbire uman (metodele de codare LPC, CELP). Waveform CODEC-urile se refera la principii de compresie fara sa tina seama de sursa sunetelor emise (metodele de codare diferentiala, ex, DPCM, ADPCM). CODEC-urile hibride au la baza ambele metode de codare, aproximarea formei de unda dar si aspectele specifice sistemului auditiv uman.
Figura 5: Calitatea vorbirii in raport cu debitul de informatie al CODEC-urilor vorbirii (VOCODERE) 5. Tehnici de compresie a vorbirii in domeniul timp Motivarea principala pentru compresia vorbirii in timp este pentru reducerea timpului necesar unui utilizator pentru a asculta un mesaj, prin cresterea capacitatii de comunicare a urechii. A doua motivatie este legata de reducerea cantitatii de date in vederea minimizarii spatiului de memorare si a benzii de transmisie a mesajelor vorbite. Compresia in timp a vorbirii poate fi utilizata intr-o varietate de aplicatii incluzand instruirea, ajutorarea celor cu deficiente auditive si pentru interfetele om-calculator. Studiile au aratat ca ascultarea de doua ori a materialelor redate cu o viteza dubla este mult mai eficienta decat ascultarea mesajelor la viteza normala. Compresia temporala a fost utilizata in prezentarea mesajelor in sistemele de mail vocal si in asistarea persoanelor cu deficiente majore de vedere. Mai mult, vorbirea poate fi incetinita pentru invatarea limbajelor, de exemplu. Tehnicile de compresie in timp se utilizeaza si in sistemele de recunoastere a vorbirii cand formele de intrare sunt normalizate la o lungime standard. Vorbirea comprimata in timp este referita ca accelerata, comprimata, cu scara de timp modificata, cu viteza marita, sau cu timp modificat. 3.1. Eliminarea pauzelor (Silence Removal) Cea mai simpla metoda consta in utilizarea energiei sau mediei amplitudinii, combinata cu pragurile de timp. Alte metode utilizeaza masuratori de trecere prin zero sau parametrii LPC. Un exemplu de inregistrare se prezinta in figura 6.
78
Figura 6: Segmente cu voce (a) si fara voce (b) 3.2. Esantionare neuniforma O alta tehnica prezentata in figura 7, segmentele semnalului vorbire sunt alternativ indepartate si retinute.
Figura 7 Tehnici de esantionare Durata fiecarui interval de esantionare trebuie sa fie cel putin egala cu a unui formant 2 (pitch) (15 ms) dar trebuie sa fie de asemenea mai mica decat lungimea unui fonem3.
formant, denumire dat de L. Hermann n 1890 unei seciuni de frecven* din structura sunetului*, care se pune n eviden independent de tonul fundamental (v. armonice, sunete), influennd timbrul* sunetului respectiv. F. au fost folosii de Helmhotz i Stumpf n studierea spectrului vocalelor. S-a constatat c timbrul*, caracterul sunetelor emise de un instrument muzical sau de voce (1) este stabilit de ctre maxima a dou regiuni corespunztoare celor doi f. de baz ai sunetelor, care mpreun dau un raport puternic de frecven. Dac se filtreaz un f. al unui sunet, acest sunet i schimb caracteristica timbral, nemaiputndu-i-se recunoate originea instrumental (vocal). Aceste sunete ale f. amputai sunt folosite n muzica electronic. (Din DEX-on line) 3 FONM, foneme, s. n. Cea mai mic unitate sonor a limbii, care are funciunea de a diferenia cuvintele ntre ele, precum i formele gramaticale ale aceluiai cuvnt.
2
79
Compresia datelor 4. Metoda de compresie bazata pe predictia parametrilor meodelului (Linear Prediction Coefficients- LPC)
4.1. Aspecte de baza LPC provine de la Linear Predictive Coding si este una din tehnicile comune codare a vorbirii. LPC exploateaza redundanta semnalului vorbire prin mecanismul de generare a vorbirii: un filtru liniar excitat de un semnal numit semnal de excitatie. Semnalul excitatie se mai numeste si semnal rezidual. Codoarele pentru vorbire prelucreaza un grup de esantioane, numit cadru sau segment. Modelului de vorbire prezentat in figura 1 are doua moduri de functionare. In primul mod, comutatorul K este in pozitia a si se genereaza fonemele sonore. Semnalul excitatie este constituit dintr-o serie de impulsuri dreptunghiulare cu perioada Tp, Ts este frecventa de esantionare. Al doilea mod de lucru necesita comutatorul K in pozitia b, si corespunde fonemelor insonore. Exista trei filtre care modeleaza efectele glotei, ale tractului vocal si al radiatiei sonore (efectul buzelor). Multiplicarea cu constanta G este pentru modificarea intensitatii. In aplicatiile practice se utilizeaza o schema mai compacta, asa cum se prezinta in figura 2, unde cele trei filtre sunt inlocuite cu unul singur, H(z).
Figura 1 Modelul vorbirii
Figura 2 Reprezentarea simplificata a procesului vorbirii Pentru filtru, care este un filtru de generare a semnalului vorbire s(n), se poate folosi structura ARMA(p,q) (Autoregressive Moving Average). Esantionul vorbirii s(n) este modelat ca o combinatie liniara a iesirilor vechi si prezente si a intrarilor vechi, dupa relatia:

s (n) = a k s (n k ) + G
k =1 p
80
k =0
bk u (n k ),
b0 = 1
(1)
unde G este castigul filtrului si {ak, bk} sunt parametrii modelului. Numarul p implica folosirea a p esantioane trecute, si se numeste ordinul predictiei liniare. Functia de transfer H(z) a modelului se obtine prin aplicarea transformatei in z ecuatiei (1):
1 + bk z k 1 + a k z
k =1 k =1 p q
H ( z) =
S ( z) =G U (z)
(2)
k
ceea ce arata un model de tip poli-zerouri. In spectrul vorbirii, nazalele sunt reprezentate de zerouri si formantii sunt reprezentati de poli. Pentru cazul numai a unui model AR(p) avem relatia
s ( n) = a k s ( n k ) + G u ( n)
k =1 p
(3)
Coeficientii {ak} sunt numiti coeficientii LP ai filtrului liniar. Codorul vorbirii calculeaza coeficientii filtrului si semnalul de excitatie pentru fiecare cadru. Coeficientii filtrului sunt calculati pentru a asigura minimizarea erorii de aproximare (energia erorii), pe durata fiecarui cadru. Un astfel de filtru se numeste filtru LP analizor. Semnalul rezultant se numeste semnal rezidual pentru acel cadru particular. La decodare, filtrul LP lucreaza ca un filtru de sinteza, in timp ce semnalul rezidual actioneaza ca semnal de excitatie pentru filtrul de sinteza. Tipic, se folosesc rate de esantionare de 8 kHz iar lungimea cadrului este de 20 ms, astfel incat exista 160 esantioane in fiecare cadru. Se gaseste ca un filtru de ordinul 10 este suficient pentru modelarea anvelopei spectrale pentru o rata de esantionare de 8 kHz, decodorul lucreaza cu 12 parametri (10 coeficienti, castigul fitrului si perioada impulsurilor de excitatie) 4.2 Calculul coeficientilor prin metoda autocorelatiei Mai intai, semnalul vorbire s(n) este multiplicat cu o fereastra w(n) pentru a obtine un segment de vorbire ponderat sw(n), dupa relatia
s w ( n) = w( n) s ( n)
(1)
Al doilea pas este minimizarea energiei semnalului rezidual. Energia reziduala se obtine cu expresia
E=
n =
e 2 (n) =
p s w (n) + a k s w (n k ) n = k =1
(2)
Valorile parametrilor {ak} care minimizeaza energia E se gasesc prin calcularea derivatelor partiale ale lui E in raport cu {ak} si egalarea lor cu zero, unde rezulta un set de p ecuatii cu p necunoscute
E = 0, a k pentru k = 1,..., p , de
81
p
Compresia datelor
k =1
a k s w (n i )s w (n k ) = s w (n i ) s w (n),
n = n =
1 i p
(3)
In ultima ecuatie, semnalul ponderat sw(n)=0 in afara ferestrei de filtrare. Setul de ecuatii liniare poate fi scris matricial sub forma
R ( 0) R(1) R( p 1) R(1) R ( 0) R ( p 2) R( p 1) a1 R(1) a R( 2) R ( p 2) 2 = R(0) a p R ( p)
(6)
Ultima ecuatie poate fi scrisa matricial sub forma

R a = r
(7) (8)
cu solutia
a = R 1 r
Matricea R este o matrice Toeplitz, deci are toate elementele de pe diagonala principala egale. Acest lucru permite rezolvarea ecuatiei matriciale prin algoritmul LevinsonDurbin sau prin algoritmul lui Schur. Datorita structurii matricii R, A(z) este de tip faza minima. Filtrul folosit la sinteza are functia de transfer H(z) = 1 / A(z), deci zerourile lui A(z) devin polii lui H(z). Astfel, faza minima a lui A(z) garanteaza stabilitatea filtrului H(z). 4.3. VOCODEC LPC-10 O varianta standard a vocoderului LPC este vocoderul LPC-10, ce lucreaza pentru semnale vorbire in domeniul (100-3600 Hz), la un debit de 2.4 kbps (22.5 ms per cadru, 54 biti / cadru, 8kHz frecventa de esantionare. Debitul = Nr. Cadre in 1 s * 54 = 44.4 * 54 =2400 bps). Calitatea LPC-10 exprimata ca MOS (Mean Opinion Score) este 2.2. Intervalul de valori admisibil pentru frecventele fundamentale este limitat la [50, 400] Hz. Caracterul Voiced/Unvoiced este estimat prin algoritmi bazati pe (i) energie, (ii) treceri prin zero, (iii) raportul dintre maximumul si minimumul functiei de autocorelatie. Castigul se transmite prin codarea segmentului pe 5 biti. Pentru cadrele cu voce se codifica 10 coeficienti LPC. Pentru cadrele fara voce se codifica primii 4 coeficienti LPC. Structura unui cadru in cazul LPC este LPCF = [ LPC, TF = 20e-3; NSF = TF * fs; Gain, V / UV T];
% frame period..16 to 25 ms % number of samples in a frame = 160
Lungimea cadrului comprimat este: 10 coef.+ 1 nr. + 1 bit + 1 bit + 1 nr Raportul de compresie 4.4. Vocoder CELP
RC = 160 samples * 8bits 1280 = = 14 .22 10 * 8bits + 1 + 1 + 8bits 90
82
In vederea reducerii ratei de bit totale, codoarele vorbirii cum sunt CELP (code excited linear prediction) nu transmit intreg semnalul rezidual, intrucat se foloseste un tabel de codare vectorial pentru a coda semnalul de excitatie. Tehnica este numita cuantizare vectoriala (VQ), astfel incat codorul selecteaza unul dintre semnalele de excitatie dintr-un tabel predeterminat, si transmite indexul semnalului de excitatie care se afla cel mai aproape de cel care trebuie transmis. Tabelul cu semnalele de excitatie este cunoscut atat de codor cat si de decodor. Semnalul excitatie este selectat astfel incat distorsiunea dintre cadrul original si cel reconstruit sa fie minima. Tipic, se folosesc rate de esantionare de 8 kHz iar lungimea cadrului este de 20 ms, astfel incat exista 160 esantioane in fiecare cadru. Un filtru de ordinul 10 este suficient pentru modelarea anvelopei spectrale pentru o rata de esantionare de 8 kHz. Decodorul lucreaza cu 12 parametri (10 coeficienti, castigul filtrului si indexul semnalului de excitatie) in loc de 160 de esantioane pentru un cadru. Structura ofera o calitate foarte buna la debite mici de informatie (deci rapoarte de compresie mari). Algoritmul CELP codeaza excitatia utilizand un dictionar de secvente gaussiene (codebook). Se folosesc 1024 vectori si fiecare vector are 40 esantioane (5 ms durata). Un factor de castig scaleaza vectorul de excitatie si esantioanele excitatiei care sunt filtrate de filtrele de timp scurt si de timp mare. Vectorul optim care se selecteaza este acela pentru care MSE (Mean Square Error) este minima. Calitatea CELP exprimata ca MOS (Mean Opinion Score) este 3.1.
Figura : VOCODER CELP Unul dintre dezavantajele CELP il constituie efortul de calcul pentru explorarea dictionarului.
Concluzii Compresia audio foloseste doua trasaturi ale semnalelor audio: irelevanta (sunete neaudibile) si redundanta (sunete bogate informational). Micsorarea irelevantei se face prin construirea unor modele ale perceptiei umane, iar metodele de compresie se numesc metode bazate pe model.
83
Compresia datelor
Metodele de compresie prin micsorarea redundantei se refera la metodele de codare entropica. Metodele de compresie audio sunt generale si pot fi aplicate atat vorbirii cat si semnalelor audio, diferite de vorbire, pe baza criteriilor de refacere a formelor de unda, de unde rezulta si denumirea de waveform codecs sau audio-codec. Rapoartele de compresie obtinute sunt modeste. Pentru compresia vorbirii se folosesc metode speciale bazate pe modele de generare si refacere a vorbii. Codorul LPV are, in general, 8-14 parametri LP sunt suficienti pentru descrierea comportarii tractului. Latimea cadrului este 10-30 ms. Exista implementari LPC care lucreaza cu sub-cadre de 5 ms, parametrii sub-cadrelor adiacente obtinandu-se prin interpolare. Codorul predictiv cu analiza prin sinteza este esential un codor hibrid, in sensul ca el combina trasaturile bazate pe model ale vocoderelor (prin reprezentarea formantilor si a fundamentalei vorbirii) cu proprietatile codecurilor de forma (waveform) prin alegerea excitatiei astfel incat sa se minimizeze eroarea de aproximare a intrarii. Exercitiu 1: Se considera un fisier audio cu urmatoarele 14 esantioane, cuantizate PCM pe 8 biti: y = [0.1, 0.25, 0.8, -0.95, 0.2, 0.55, 0.89, 0.50, 0.25, 0.25, 0.62, 0.36, 0.78, 0.88] Sa se comprime vectorul y prin eliminarea esantioanelor pare. La decompresie esantionale lipsa se refac prin interpolare. Sa se calculeze raportul de compresie. Exercitiu 2: Se considera un fisier audio cu urmatoarele 14 esantioane, cuantizate PCM pe 8 biti: y = [0.1, 0.25, 0.8, -0.95, 0.2, 0.55, 0.89, 0.50, 0.25, 0.25, 0.62, 0.36, 0.78, 0.88] Sa se comprime vectorul y prin metoda recuantizarii. Fiecare esantion este recuantizat pe n/2 biti. La decodare se vor considera jumatatile intervalelor de cuantizare. Sa se calculeze raportul de compresie. Tema pentru acasa #6: Sa se scrie o aplicatie pentru compresia si decompresia unui fisier audio, monocanal, format PCM, prin folosirea, separata, a urmatoarele metode: M1: La codare se elimina esantioanele pare. La decodare, esantioanele pare (eliminate la compresie) se refac prin interpolare. M2. Care este numarul maxim de esantioane ce poate fi eliminat astfel incat distorsiunle de redare sa nu fie perceptibile ? M3: Compresie prin recuantizare. Fiecare esantion este recuantizat pe n/2 biti. Pentru fiecare din tranformari sa se calculeze raportul de compresie. Sa se calculeze RMSE-ul ca si criteriu cantitativ de calitate a informatiei audio refacute. SOUND Test File: 1). http://compression.ca/act/act-files.html 2). Voice: Mike Steeves on "Talking About Laundry", recorded: 16bit, mono, 22KHz (1193 KB zipped)

6 Curs 6 I Compresia Surselor Audio

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

6 Curs 6 I Compresia Surselor Audio

Încărcat de

Drepturi de autor:

Formate disponibile

Curs 6 - Compresia surselor de informatie audio si a vorbirii Continut Aspecte specifice compresiei audio Debitul de informatie al surselor audio

Compresia surselor de informatie audio si a vorbirii

Figure 2 Praguri de mascare a sunetului

Figura 3: (a) mascarea frecventelor (b)- model simplu de mascare

Compresia surselor de informatie audio si a vorbirii

AUDIOCODEC sau CODEC Audio

Compresia surselor de informatie audio si a vorbirii

Figura 1 Modelul vorbirii

Compresia surselor de informatie audio si a vorbirii

Ultima ecuatie poate fi scrisa matricial sub forma

% frame period..16 to 25 ms % number of samples in a frame = 160

Compresia surselor de informatie audio si a vorbirii

S-ar putea să vă placă și