Sunteți pe pagina 1din 17

Sunete si zgomote

Intocmit de:Rat Alexandru Florin.

Sunetul s-a integrat in viata noastra cotidiana incat rareori suntem constienti de toate
functiile sale.El ne ofera momente de distractie cand a ascultam o simfonie sau cantecul
pasarilor;ne permite sa comunicam cu familia si prietenii nostrii prin intermediul
vorbirii.Tot sunetul ne avertizeaza de apropierea unui automobil,ne atrge atentia atunci
cand suna telefonul sau bate cineva la usa sau cand suna sirena unui vapor.

I.Sunetele.

Din mediul ambiant omul vede doar 7 culori dar spectrul luminii este mult mai
complex.Urechea umana percepe sunetele cu frecventa situata intre 16-20000 vibratii/s
sau hertzi,in timp ce gama acoperita de un pian de la tonul cel mai grav pana la tonul cel
mai ridicat este de la 27,5Hz-4186Hz.Sunetul se propaga sub forma de unde elastice
numai in substante(gaze lichide si solide) dar nu se propaga in vid.El se propaga cu
331m/s in aer.Caracteristicile lui sunt:

-a)inaltimea(exprimata in frecventa vibratiei);

-b)intensitatea(exprimata in energia vibratiei); 54942jet15vhx4c

II.Infrasunetele.

Infrasunetele sunt oscilatii sonore de frecvente foarte joase,situate sub 16Hz,deci urechea
umana nu le aude.Fiintele marine,cum ar fi pestii,meduzele aud infrasunetele si simt
aparitia furtunilor si uraganelor care coboara si sub frecventa de 16Hz.Oamenii nu
sesizeaza in mod direct prezenta infrasunetelor dar unele modificari ale starilor fizico-
pshice confirma ca si organismele umane sunt totusi influentate.O recenta ipoteza lansata
de savanti incearca sa dea o explicatie absolut stiintifica unor "misterioase" accidente si
catastrofe.De-a lungul timpului au fost gasite pe diferite mari nave abandonate sau avand
la bordul lor cadavre ale caror fete purtau expresia durerii si a groazei.Conform ipotezei
amintite in timpul furtunilor sunt emise infrasunete care se propaga cu viteza
sunetului,ajungand la mari departari cu mult inaintea furtunii propriu-zise,astfel incat in
ciuda vremii bune se pot resimtii efectele lor.Masuratorile efectuate arata ca infrasunetele
provocate de furtuni pe mari si oceane au o frecventa medie de 6Hz.S-a constatat ca
infrasunetele de intensitati mari,la frecventa de 7Hz pot traumatiza grav sistemul
nervos,sistemul circulator,provocand chiar moartea.Astfel s-ar putea gasi o explicatie
pentru catastrofele misterioase care au avut loc pe diferite mari si oceane.

Tot pe seama actiunii infrasunetelor cercetatorii explica si senzationala distrugere a unei


paduri siberiene in 1908,prin explozia in atmosfera a unui meteorit.Astazi infrasunetele
pot fi produse de unele tipuri de turbine,avioane turboreactoare cum ar fi avionul
Concorde.

Asa cum nu pecepe vibratiile de frecvente foarte joase(infrasunetele),urechea umana nu


le percepe nici pe cele de frecvente foarte inalte(ultrasunetele). eh942j4515vhhx

III.Ultrasunetele.

Ultrasunetele sunt vibratii sonore situate intre 20000-1000000Hz.Unele fiinte cum ar fi


liliacul percepe si ultrasunetele.Ele se propaga ca si sunetele sub forma de unde
elastice,mai greu prin aer decat prin lichide sau solide,avand o lungime de unda mai mica
decat sunetele.

Ultrasunetele pot fi produse prin mijloace mecanice(generatorul Hartman),mijloace


electromagnetice,sau mijloace termice.Efectele ultrasunetele diferitelor stari de agregare
a materiei si asupra organismelor vii sunt variate:unele fiind utile altele fiind
daunatoare.Dintre aplicatiile utile face parte sondajul submarin pe baza de ultrasunete
utilizat pentru a stabili adancimea apei sau pentru detectarea unor vase esuate in adancul
marilor.O alta aplicatie o constituie defectoscopia cu ultrasunete,care permite punerea in
evidenta a unor defecte in elementele de beton armat sau in organele de masini,fara a
produce nici cele mai mici deteriorari suplimentare ale acestor piese.

Ultrasunetele sunt utilizate la distrugerea unor bacterii sau virusuri ale unor boli
contagioase cum sunt bacilul tuberculozei,virusul gripei,insa ultrasunetele au si multe
efecte nocive asupra omului atunci cand acesta se afla in imediata apropiere a
sursei.Dr.Williams,cercetator la Departamentul de Biofizica al Universitatii
Manchester(M.B.)facand experiente pe animale apoi pe oameni,considera ca terapia cu
ultrasunete poate dezintegra globulele rosii din sange si afecteaza chiar globulele albe.In
cazul folosirii ultrasunetelor pentru stabilirea unui diagnostic intensitatea lor este mult
mai redusa dar totusi reclama prudenta.

O alta aplicatie utila este si realizarea unui bisturiu cu ultrasunete.Societatea olandeza


A.H.S. a fabricat un bisturiu cu ultrasunete numit D.X.-101 utilizabil cu bune rezultate in
neurochirurgie.

Zgomotul si efectele sale nocive

In conditiile civilizatiei contemporane,omul traieste intr-o continua ambianta


sonora.Pretutindeni el este insotit neincetat de un cortegiu de sunete si zgomote de cele
mai diferite intensitati avand efecte mai mult sau mai putin agresive asupra confortului si
chiar asupra sanatatii sale.

Zgomotul poate fi definit ca vibratii sonore fara caracter periodic care se propaga prin
diverse medii(aer,apa,etc.) si care impresioneaza negativ urechea omeneasca.
Dupa -Larousse - zgomotul constitue un asmblu de sunete fara armonie.Fizicienii
definesc zgomotul ca o suprapunere dezordonata cu frecvente si intensitati diferite, iar
fiziologii considera zgomotul ,orice sunet suparator care produce o senzatie dezagreabila.

Caracteristicile fizice sau obiective ale zgomotului privesc taria sau intensitatea,durata si
frecventa.

Intensitatea este caracterul cel mai important care depinde de trasaturile sursei,de
distanta si posibilitatile de transmitere sau multiplicare.Ea se masoara in decibeli sau
foni.Decibelul(d.B.)este o marime fizica si reprezinta unitatea logaritmica calculata
pornind de la pragul absolut de audibilitate 0 d.B. pentru un sunet de 1000Hz.Fonul este
unitatea de masura fiziologica de perceptie de catre urechea umana a celei mai slabe
excitatii sonore.S-a admis ca cifra 80 pe scara de decibeli sau pe scara de foni reprezinta
pragul la care intensitatea sunetului devine nociva.

Durata reprezinta timpul cat excitantul sonor(zgomotul)actioneaza asupra analizatorului


auditiv.Efectul nociv al zgomotului este direct proportional cu durata acestuia iar peste
anumite limite de suportabilitate se ajunge la o pshihoza periculoasa.S-a observat ca daca
zgomotul intens actioneaza un anumit timp asupra urechii drepte iar apoi asupra celei
stangi,persoana respectiva are senzatia ca zgomotul este mult mai intens decat cel pe care
il auzea anterior cu urechea dreapta.In acest caz se poate spune ca urechea dreapta s-a
adaptat la zgomot.

Frecventa reprezinta numarul de vibratii acustice intr-o secunda si se masoara in numar


de perioade pe secunde sau Hz.In banda de frecvente 1000-5000Hz in care urechea are
sensibilitatea cea mai ridicata,inaltimea este direct proportionala cu frecventa.Sunetele
joase cuprind gama de frecvente cuprinse intre 30-400Hz;cele mijlocii 400-1000Hz iar
cele inalte peste 100Hz.

Nivelul zgomotului se masoara tinandu-se seama atat de intensitatea,cat si de frecventa


sunetelor care-l compun.Aceste insusiri confera zgomotului potente nocive,indiferent de
preferinte si de starea psihica a individului.

Zgomotul poate prosuce la nivelul organului auditiv fenomenul de oboseala


auditiva,traumatism sonor si surditate profesionala.

1)Oboseala auditiva este caracterizata printr-o scadere temporara a pragului perceptiei


auditive;ea se accentueaza in cazul maririi intensitatiim,frecventei si timpului de
expunere a zgomot.Astfel un zgomot cu intensitate de peste 92d.B. si cu ofrecventa
cuprinsa intre 500-800Hz produce dupa 60 de minute de expunere o scadere temporara a
auditiei.

2)Traumatismul sonor produs brusc de zgomotul puternic chiar pentru un timp foarte
scurt poate cauza ruptura timpanului.Astfel de situatii se intampla in cazul unor
explozii,impuscaturi,eruptii intense de gaze din recimpiente sub presiune.Dupa
vindecarea leziunii poate persista surditatea pentru sunete cu frecvente de peste 9000Hz.
3)Surditatea profesionala se datoreaza efectuarii anumitor activitati expuse in mod
deosebit la zgomot.Surditatea datorata zgomotelor se caracterizeaza printr-o pierdere
definitiva si ireversibila a auditiei.

Surse de poluare sonora

Sursele de poluare sonora sunt foarte numeroase si diferite.Acestea sunt:

a)circulatia sau transporturile

b)industria

c)constructiile si montajele

d)comertul

e)copiii in terenurile de joaca(tipetele lor inregistrand 70-80d.B.

f)terenurile sportive si stadioanele(zgomotele provenite din acestea fiind de peste 100d.B.

g)animalele(cainii,pisicile,pasarile)pot tulbura linistea mai ales noaptea.

Latratul unui caine inregistreaza intensitati sonore de 70-80d.B.

Masurile de combatere a zgomotului se impun ca o necesitate de prim ordin si ele sunt


foarte numeroase.Astfel pentru diminuarea zgomotului produs de traficul rutier,perdelele
forestiere constituite din arbori si arbusti au capacitatea de a reduce zgomotul cu circa
10d.B.

Bibliografie

1)Carsium,M.A.;Postelnicu M.-Indreptar de cultura generala,ed.Porto-Franco,1993.

2)Dorobont,A.;Costin,A. -Poluarea sonora si civilizatia


contemporana,ed.Tehnica,Bucuresti,1982.

3)Ursoniu,C;Dumitrescu C.-Poluarea sonora si consecintele ei,ed.Faclia,1976.


Recunoașterea vocală este procesul de convertire a cuvintelor vorbite în format digital
care poate fi utilizat ulterior pentru tipărire, arhivare, căutare. Termenul de recunoaștere
vocală poate însemna și recunoașterea vorbitorului. Domeniile de aplicabilitate sunt:
Medicină (transcriere medicală), Armată (comenzi vocale pentru aparate de zbor),
antrenarea controlorilor de zbor și pentru persoanele cu handicap.

Din punct de vedere fiziologic, sunetul constituie senzația produsă asupra organului
auditiv de către vibrațiile materiale ale corpurilor și transmise pe calea undelor acustice.
Urechea umană este sensibilă la vibrații ale aerului cu frecvențe între 20 Hz și 20 kHz, cu
un maxim de sensibilitate auditivă în jur de 3500 Hz. Acest interval depinde mult de
amplitudinea vibrației și de vârsta și starea de sănătate a individului. Sub amplitudinea de
20 μPa vibrațiile nu mai pot fi percepute. Odată cu vârsta intervalul de sensibilitate se
micșorează, în special frecvențele înalte devin inaudibile.

Din punct de vedere fizic, sunetul are o definiție mai largă, el nefiind legat de senzația
auditivă: orice perturbație (energie mecanică) propagată printr-un mediu material sub
forma unei unde se numește sunet. În această definiție se includ și vibrații la frecvențe
din afara domeniului de sensibilitate al urechii: infrasunete (sub 20 Hz) și ultrasunete
(peste 20 kHz).

Un caz particular de sunet este zgomotul, care se remarcă prin lipsa obiectivă sau
subiectivă a unei încărcături informaționale. Zgomotul deranjează fie prin senzația
neplăcută pe care o produce, fie prin efectul negativ asupra transmiterii de informație.
Orice zgomot poate fi perceput ca sunet util dacă i se atribuie o valoare informațională.

Din punct de vedere muzical (sau estetic), sunetul este o entitate caracterizată de patru
atribute: înălțime, durată, intensitate și timbru. Înălțimii îi corespunde frecvența
(măsurată în Hz). Intensității îi corespunde nivelul de intensitate sonoră (măsurat în dB).

[modifică] Viteza sunetului


Articol principal: Viteza sunetului.

Viteza cu care se propagă undele sonore depinde de mediul de propagare, în particular de


elasticitatea și densitatea acestuia. În fluide (gaze și lichide) participă la propagarea
sunetului numai deformarea volumică a mediului; la solide mai intervin și forțele de
forfecare.

Exemple:

 aer: 343 m/s (la 20 °C);


 apă dulce: 1435 m/s;
 oțel: 5100 m/s.

Viteza sunetului
De la Wikipedia, enciclopedia liberă
Salt la: Navigare, căutare

Viteza sunetului este unul dintre parametrii care descriu propagarea sunetului printr-un
mediu. Această viteză depinde de proprietățile mediului de propagare, în particular de
elasticitatea și densitatea acestuia.

În fluide (gaze și lichide) participă la propagarea sunetului numai deformarea volumică a


mediului; la solide mai intervin și forțele de forfecare. Formulele generale pentru viteza
sunetului în aceste tipuri de mediu sînt

Mediu Formulă Variabile

Gaze și  este modulul de elasticitate volumic,


lichide adiabatic

 ρ este densitatea fluidului


 E este modulul lui Young
Solide
 ρ este densitatea solidului
Cuprins
[ascunde]
 1 În gaze
o 1.1 Numărul lui Mach
 2 În lichide
 3 În solide

 4 Note

[modifică] În gaze
În aer și alte gaze viteza sunetului depinde în primul rînd de temperatură. De exemplu la
0°C viteza sunetului este de 331,5 m/s, iar la 20°C aproximativ 343,4 m/s. Presiunea are
un efect mic, iar umiditatea nu are aproape nici un efect asupra vitezei. Pentru aer,
formula aproximativă de mai jos permite calculul vitezei de propagare a sunetelor în
funcție de temperatură, pentru un domeniu de temperaturi în jur de 0°C:
unde t este temperatura aerului exprimată în grade Celsius. Această formulă este
aproximația liniară (primii doi termeni din seria Taylor) a funcției:

care permite calculul mai exact al acestei dependențe în ipoteza că variația cu


temperatura a capacității calorice a aerului este nulă; erorile derivate din această ipoteză
sînt mici în condițiile temperaturilor obișnuite din atmosferă, dar cresc în special la
temperaturi înalte.

Coeficientul pentru aproximația liniară se obține astfel ca

[modifică] Numărul lui Mach

Mach (pronunție /mah/, după numele fizicianului austriac Ernst Mach) este o unitate de
măsură folosită în aerodinamică pentru a exprima viteza unui corp care se deplasează
într-un fluid: proiectil, avion, rachetă etc. Viteza Mach 1 este egală cu viteza sunetului în
fluidul respectiv; în condiții standard Mach 1 este egal cu 1224 km/h (sau 340 m/s).

Numărul lui Mach este o mărime adimensională care arată de cîte ori este mai mare
viteza unui mobil decît viteza sunetului în acel mediu. Valorile subunitare ale numărului
lui Mach înseamnă viteze subsonice (mai mici decît viteza sunetului), iar valorile
supraunitare înseamnă viteze supersonice. O clasificare mai detaliată definește în plus
vitezele transsonice (între Mach 0,8 și Mach 1,2) și vitezele hipersonice (mai mari de
Mach 5).

[modifică] În lichide
Viteza sunetului în lichide este mai mare decît în gaze, pentru că deși densitatea este mai
mare (ceea ce ar însemna o inerție mai mare deci o viteză inferioară), compresibilitatea
lichidelor este mult mai mică decît a gazelor, ceea ce face ca o perturbație a presiunii
într-un punct să se propage rapid la punctele vecine. Astfel, în aer viteza sunetului este de
330-350 m/s, iar în apă este de aproximativ 1500 m/s.

Cunoașterea precisă a vitezei sunetului în apă este importantă într-o serie de domenii
precum cartografierea acustică a fundului oceanic, aplicații ale sonarului subacvatic,
comunicații etc. Viteza sunetului în apă depinde de o serie de parametri:

 presiune (deci și adîncime);


 temperatură: aproximativ 4 m/s la 1°C;
 salinitate: aproximativ 1 m/s la 1‰.

Modul în care se comportă această dependență este complicat, de aceea practic se


folosesc formule empirice.[1] O astfel de formulă, suficient de simplă și de precisă, este
cea propusă de Kenneth V. Mackenzie în 1981:[2]

c(t,s,z) = a1 + a2t + a3t2 + a4t3 + a5(s - 35) + a6z + a7z2 + a8t(s - 35) + a9tz3,

unde t este temperatura în grade Celsius, s este salinitatea în părți la mie, iar z este
adîncimea în metri. Cei nouă coeficienți a1, a2, ..., a9 sînt:

a1 = 1448,96; a2 = 4,591; a3 = -5,304×10-2; a4 = 2,374×10-4; a5 = 1,340; a6 =


1,630×10-2; a7 = 1,675×10-7; a8 = -1,025×10-2; a9 = -7,139×10-13

Pentru parametrii t = 25°C, s = 35‰ și z = 1000 m se obține valoarea vitezei c =


1550,744 m/s. Eroarea de calcul a vitezei în limitele obișnuite ale parametrilor este de
sub 0,2 m/s.

[modifică] În solide
Într-o bară a cărei secțiune este mult mai mică decît lungimea de undă a sunetului viteza
de propagare depinde de modulul lui Young și de densitatea solidului:

De exemplu, într-o bară de oțel viteza sunetului este de aproximativ 5100 m/s.

Cînd dimensiunile transversale ale mediului devin comparabile cu lungimea de undă


această formulă nu mai este corectă, viteza reală fiind mai mare. Pentru o bară cu
secțiunea transversală mult mai mare decît lungimea de undă modulul lui Young trebuie
înlocuit cu modulul undei plane, M, care se poate calcula din modulul lui Young și
coeficientul lui Poisson, ν:

Viteza de propagare a sunetului calculată astfel este mai mare. De exemplu oțelul are un
coeficient Poisson de aproximativ 0,3, ceea ce face ca viteza sunetului într-un bloc de
oțel să fie de aproximativ 5900 m/s.
Recunoaştere vocală în sisteme distribuite
De la Vasile Alaiba - MediaWiki
Salt la: navigare, căutare
Cuprins
[ascunde]
 1 Introducere
 2 Tipuri de recunoaştere vocală
 3 Arhitectura
o 3.1 Arhitectura unui sistem de recunoaştere vocală
o 3.2 Arhitectura unui sistem distribuit de recunoaştere vocală
 4 Algoritmi
o 4.1 Dynamic Time Warping
o 4.2 HMM (Hidden Markov Models/Modele Markov Ascunse)
 4.2.1 Generalităţi
 4.2.2 Algoritmi bazaţi pe HMM
 5 Aplicaţii care folosesc recunoaşterea vocală

 6 Bibliografie

Introducere
Recunoaşterea vocală în informatică poate fi descrisă ca o modalitate de introducere a
datelor în calculator prin identificarea cuvintelor vorbite.

De-a lungul timpului au fost folosite diverse dispozitive de introducere a datelor, precum
tastatura, mouse-ul, joystick-ul, tabletele digitale. Recunoaşterea vocală este un alt
asemenea dispozitiv. Acest mod de introducere a datelor nu va putea probabil să
înlocuiască în totalitate mouse-ul sau tastatura, pentru că unii utilizatori vor alege pe
acestea din urmă pentru anumite activităţi, iar pentru realizarea altor activităţi va fi mai
eficient să se foloseasca recunoaşterea vocală.

În mod obişnuit, recunoaşterea vocală este folosită pentru a eficientiza utilizarea unor
aplicaţii, sau pentru a accesa anumite functionalităţi mai rapid decât cu ajutorul celorlalte
dispozitive de intrare.

Aplicaţiile care pot beneficia de pe urma folosirii recunoaşterii vocale sunt cele în care
utilizatorul este nevoit să foloseasca cât mai putin mâinile: dispozitivele fără-mâini, în
care ecranul nu este vizibil. Condusul unei maşini este un exemplu tipic: şoferul poate fi
atent la drum şi în acelasi timp să schimbe postul de radio, să iniţieze o convorbire
telefonică sau să regleze aerul condiţionat.

În contextul sistemelor distribuite, recunoaşterea vocală se aplică în domeniul


dispozitivelor mobile. Recunoaşterea pe aceste dispozitive este restricţionată datorită
unor limitări hardware: spaţiul de stocare este limitat (aceasta duce la folosirea unor
modele acustice şi de limbaj mai mici, în acest mod scazând performanţa), frecvenţa mică
a procesorului (împiedica folosirea algoritmilor optimi pentru recunoaştere), nu există
suport hardware pentru instrucţiuni în virgulă mobilă, microfoane ieftine (degradarea
semnalului audio), consum mare de energie în timpul operaţiei de recunoastere (scade
durata de viaţă a bateriei).

Recunoaşterea vocală distribuită permite dispozitivelor mobile wireless, cu putere de


procesare mică, să expună utilizatorului o interfaţă vocală, pe lânga cea grafică. Semnalul
audio achizitionat de la dispozitivului mobil este transmis prin intermediul retelei
wireless către un server care conţine aplicaţia de recunoaştere. Pentru a minimiza lăţimea
de bandă folosită şi a maximiza durata de viaţă a bateriei dispozitivului mobil, semnalul
audio este compresat înainte de a fi transmis. Rezultatele găsite în urma procesării
semnalului vocal sunt transmise dispozitivului mobil pentru a fi prezentate utilizatorului.

Tipuri de recunoaştere vocală


Sistemele de recunoaştere vocală pot fi împărţite în câteva categorii, în functie de tipul
frazelor pe care le pot recunoaşte. Aceste categorii sunt bazate pe faptul că una din
dificultăţile pe care le întâmpină aceste sisteme este determinarea momentului când un
utilizator a terminat de vorbit o comandă.

Categoriile sunt urmatoarele:

 cuvinte izolate – aplicaţiile de recunoaştere care sunt bazate pe acest sistem,


necesită ca un cuvânt sa fie precedat şi urmat de pauza (lipsa de semnal audio).
Asta nu înseamna că aceste sisteme acceptă doar un cuvânt per comanda, ci că pot
procesa comenzile în mod iterativ, cu pauze între ele.

 cuvinte conectate – sistemele de acest fel sunt asemanatoare celor care folosesc
cuvinte izolate, cu diferenţa că pot procesa mai multe fraze, cu o pauză minimă
între ele.

 vorbire continua – acest tip de sisteme permit utilizatorilor să vorbească aproape


natural, în timp ce aplicaţia determină conţinutul vorbit.

 vorbire spontana – această categorie de sisteme poate procesa diferite forme de


vorbire naturală, reuşind să proceseze cuvinte vorbite cu accent diferit, cu diferite
interjectii între ele, si chiar cu mici bâlbâieli.

 verificarea vocii – reprezintă sistemele care sunt capabile să recunoască diferiţi


utilizatori.

O altă modalitate de a diferenţia aplicaţiile de recunoaştere a vocii este după dependenţa


de utilizator. Daca aplicaţia poate recunoaşte cuvinte de la orice utilizator, fară a necesita
o “antrenare” înainte de recunoaştere, intră in categoria aplicaţiilor de recunoaştere
independente de utilizator. Dacă aplicaţia necesită “antrenare” înainte de recunoaştere,
atunci aplicaţia este dependentă de utilizator.

Arhitectura
Arhitectura unui sistem de recunoaştere vocală

Un sistem de recunoaştere vocală este compus dintr-o componenta de procesare a


semnalului audio, o componenta de recunoaştere vocală şi o componentă de
postprocesare.

 componenta de procesare a semnalului audio extrage din semnalul audio,


vectori de caracteristici (părţile din semnalul audio care sunt relevante pentru
recunoaştere) care vor fi procesaţi de către componenta de recunoaştere.

Figura 1. Procesarea semnalului audio


 componenta de recunoaştere vocală realizează recunoaşterea propriuzisă,
folosind algoritmi specializaţi, bazati pe HMM (Hidden Markov Model), si
programare dinamica.

 componenta de postprocesare (opţională) realizează o procesare adiţională


asupra rezultatelor obţinute în etapa de recunoaştere, pentru o filtrare mai buna a
rezultatelor şi pentru creşterea acurateţii sistemului.
Figura 2. Arhitectura unui sistem de recunoaştere vocală

Arhitectura unui sistem distribuit de recunoaştere vocală

Recunoaşterea vocală distribuită este reprezentată de o arhitectură client-server, unde o


parte a sistemului de recunoaştere vocală se află la client (modulul de extragere a
caracteristicelor vocale), iar modulul care execută operaţiile complexe necesare pentru
algoritmii de recunoaştere se află pe server.

Figura 3. Arhitectura unui sistem distribuit de recunoaştere vocală

Pentru a realiza recunoaşterea, nu e nevoie de o calitate inaltă a semnalului audio, ci doar


de câţiva parametri caracteristici. Astfel, nu e nevoie de o rată mare de transmitere a
datelor, fiind îndeajuns un minim de 4.8kbit/s pentru transmiterea caracteristicilor vocale.
Pentru acest tip de sistem mai apar un număr de componente:

 componenta de compresie a caracteristicilor vocale - are rolul de a codifica


vectorii de caracteristici, pentru a reduce dimensiunea datelor care trebuie trimise
la server, micşorând astfel timpul de transfer.
 componenta de transmitere a datelor - este reprezentată de un protocol de
transport VoIP.
 componenta de decodificare a vectorilor de caracteristici vocale - are rolul de
a recontrui informaţia care a fost compresată pe partea de client.

Algoritmi
Dynamic Time Warping

Algoritmul DTW este unul din cei mai vechi si cei mai importanţi algoritmi folosiţi în
recunoaşterea vocală.

Cea mai simplă metodă de a recunoaşte un cuvânt izolat este să fie comparat cu un număr
de şabloane predefinite şi de a determina şablonul cu care se potriveşte mai bine. Această
metodă este complicată de un număr de factori:

 în primul rând, diferite versiuni ale aceluiaşi cuvânt pot avea dimensiuni diferite,
din punctul de vedere al semnalului audio. Această problemă poate fi rezolvată
normalizând şabloanele şi datele audio ale cuvântului care trebuie procesat, astfel
încât ambele să aibă aceeaşi durată.

 o altă problemă poate fi faptul că rata vorbirii poate să nu fie constantă pe toată
lungimea semnalului audio (alinierea dintre şablon şi informaţia vocală poate sa
fie neliniară).

DTW este folosit pentru a găsi alinierea neliniară optimă.

DTW face parte din clasa algoritmilor care aparţin programării dinamice. Complexitatea
timp şi spaţiu a algoritmului este liniară, fiind influenţată de durata semnalului audio şi de
mărimea vocabularului. Algoritmul realizează o singură trecere printr-o matrice de
scoruri asociate frame-urilor (pe linii conţine frame-urile din şabloanele predefinite, iar
pe coloane conţine frame-urile semnalului audio) calculând segmentele locale optimizate
ale alinierii.

Descriere:

 fie D(x, y) distanţa euclideană dintre frame-ul x aparţinând semnalului audio şi


frame-ul y aparţinănd şablonului
 fie C(x, y) scorul cumulat de-a lungul alinierii optime care duce la perechea (x, y),
atunci:

C(x, y) = MIN( C(x-1, y), C(x-1, y-1), C(x, y-1) ) + D(x, y)

Figura 4. Dynamic time warping

O aliniere optimă este calculată pentru fiecare şablon, şi cea cu scorul cumulat minim
este considerată cea mai bună alegere pentru semnalul audio respectiv.

Există multe variante ale algoritmului DTW, cea mai importantă fiind algoritmul One
Stage DTW, care este folosit pentru recunoaşterea vorbirii continue. Acest algoritm
găseşte alinerea optimă dintre semnalul audio şi cea mai bună secvenţă de şabloane.
Complexitatea pentru acest algoritm rămâne liniară depinzând de lungimea semnalului
audio şi în mărimea vocabularului.

HMM (Hidden Markov Models/Modele Markov Ascunse)

Generalităţi

Un model Markov ascuns este reprezentat de o colecţie de stări conectate prin tranziţii
(Figura 5). Începe într-o stare iniţială precizată in prealabil, apoi la fiecare pas temporal
se activează o tranziţie care duce într-o stare nouă , unde se va genera un simbol de ieşire.
Alegerea tranziţiilor şi a simbolurilor de ieşire sunt aleatoare, fiind controlate de
distribuţia unor probabilităţi care depind de modelul acustic. Modelele Markov ascunse
pot fi comparate cu o cutie neagră, unde este vizibilă doar secvenţa de simboluri de ieşire
generate pe o anumită durată de timp, dar secvenţa stărilor prin care se trece în acea
perioada de timp este ascunsă (de unde şi denumirea de modele Markov ascunse).

Figura 5. Un model Markov ascuns, cu 2 stări şi 2 simboluri de ieşire, A şi B

În recunoaşterea vocală, stările din HMM-uri sunt interpretate ca modele acustice,


indicând ce sunete pot fi auzite pe diferite segmente de semnal audio, iar tranziţiile
introduc constrângeri temporale indicând în ce secvenţă se vor activa stările. Deoarece
vorbirea se deplasează intotdeauna inainte din punct de vedere temporal, tranziţiile dintr-
o aplicaţie de recunoaştere vocală, se vor activa într-un singur sens, sau activând aceeaşi
stare, permiţând acesteia să aibă o durată variabilă.

În reprezentare formală un model Markov ascuns conţine următoarele elemente:

 {s} = o mulţime de stări

 {ai,j} = o mulţime de probabilităţi de tranziţie, unde ai,j este probabilitatea ca


tranziţia să treacă din starea i în starea j

 bi(u) = o mulţime de probabilităţi de emisie, unde bi este distribuţia probabilităţii


peste spaţiul acustic care descrie posibilitatea emiterii fiecărui sunet u, cât timp
starea i este activă

Algoritmi bazaţi pe HMM


 Algoritmul Forward - este folosit pentru recunoaşterea cuvintelor izolate

 Algoritmul Viterbi - folosit pentru recunoaşterea vorbirii continue (dictare)

 Algoritmul Forward-Backward - folosit pentru antrenarea modelelor Markov


ascunse

Toţi aceşti algoritmi sunt derivaţi din DTW şi calculează secvenţa de stări cu
probabilitatea cea mai mare, având ca date de intrare un set de probabilităţi.
Aplicaţii care folosesc recunoaşterea vocală
În principiu, orice aplicaţie care necesită interacţiune cu utilizatorul uman poate beneficia
de o interfaţă de control vocală. Totuşi, aplicaţiile de recunoaştere vocală au o
aplicabilitate marită în următoarele domenii:

 Dictare – folosită în contextul domeniilor medicale, legale si de afaceri, unde pot


fi folosite un set de vocabulare speciale pentru a mări rata de recunoaştere a
sistemului.

 Comandă şi control – sistemele sunt configurate să execute o anumită acţiune la


recunoaşterea unui cuvânt (a unei comenzi).

 Telefonie – având în vedere că interacţiunea telefonică este in proporţie de 90%


realizată prin voce, recunoaşterea vocală este foarte importantă în acest domeniu
(ex: unele sisteme de poştă vocală permit utilizatorilor să vorbească comenzile, în
loc să apese tastele telefonului)

 Medical/Persoane cu handicap – multe persoane care nu pot folosi


tastatura/mouse-ul din cauza unei boli, pot folosi cu uşurinţă diferite interfeţe
vocale (ex: persoane care au auzul deficitar, pot folosi o aplicaţie pe telefonul
mobil care transformă informaţia vorbită în text).

 Aplicaţii embedded – folosite cu precădere în industria automobilistică, unde


utilizatorul trebuie să fie atent la drum, si nu la interfaţa grafică a computerului de
bord.

Aplicaţii:

Xvoice este o aplicaţie de recunoaştere pentru dictare (vorbire continuă) care poate fi
folosită cu diverse aplicaţii Xwindow. Pentru a fi folosită necesită instalarea în prealabil a
motorului de recunoaştere ViaVoice, creat de IBM, si configurarea acestuia din urmă.

Pagina aplicaţiei: http://xvoice.sourceforge.net/xvoice-sphinx/

CvoiceControl-kVoiceControl este un sistem de recunoaştere vocală care oferă


funcţionalitate de bază pentru a executa acţiuni folosind comenzi vocale sub Linux.
Această aplicaţie este uşor configurabilă, dând posibilitatea de adaugare de comenzi noi
de către utilizator.

Pagina aplicaţiei este: http://www.kiecza.net/daniel/linux/.

CMU Sphinx este dezvoltat de CMU (Carnegie Mellon University), iniţial a fost closed
source, dar a devenit open source. Acesta este un program destul de avansat, conţinând
multe unelte (modele acustice, modele de limbaj, compilatoare de gramatici) şi opţiuni de
configurare, fiind destinat în principal utilizatorilor avansaţi si programatorilor.

Pagina aplicaţiei este: http://cmusphinx.sourceforge.net/html/cmusphinx.php.

MMP (MultiMediaPlatform) este dezvoltat de compania Continental (fosta Siemens


VDO). Aplicaţia reprezintă o platformă de dezvoltare pentru produse multimedia în
domeniul automotive. Aceasta conţine, pe lângă alte funcţionalităti multimedia, o
interfaţă vocală destul de performantă. Produsul este incă in curs de dezvoltare. Detalii:
MMP

Microfonul este un aparat care transformă sunetul în semnale electrice. Acesta are multe
aplicații, fiind folosit îndeosebi în radioteleviziune și în telecomunicații.

S-ar putea să vă placă și