Recunoaşterea Vocii Umane

Recunoaterea vocii umane
Rezumat. n acest articol este descrisa pe scurt recunoaterea vocii umane (apariie concept, evoluie, tendine, finaliti) n contextul dezvoltrii tehnologice actuale. De asemenea, n introducere sunt tratate sumar metodele biometrice pentru a putea percepe importana recunoaterii vocii umane ntre acestea. Studiul a vizat cautarea i testarea unor programe destinate recunoaterii vocii umane, obinerea unor rezultate i interpretarea lor n sensul determinrii utilitii acestei tehnologii n diverse domenii. Cuvinte cheie: recunoatere voce, biometrice
Introducere. Metodele biometrice sunt metode automate de recunoatere a unei personae pe baza unor caracteristici fisiologice i/sau comportamentale. Caracteristici fiziologice sunt: amprenta digital, amprenta palmar, retina, irisul, faa. Caracteristici comportamentale au un character indirect, bazndu-se pe msurri i date ce rezult din aciuni efectuate de subieci ntr-un interval de timp: vocea, semntura, tastarea. Aceste caracteristici reprezint surse de informaie ce pot fi prelucrate cu o oarecare finalitate, cel mai bun exemplu fiind vocea. Alte caracteristici mai puin folosite sunt ADN-ul, forma urechii, mirosul, venele superficiale, geometria degetelor, forma unghiilor, stilul de mers. Toate au ca scop integrarea lor ntr-un sistem care s permit recunoaterea individului, lucru care se face contextual prin verificare sau identificare prin compararea datelor introduse, cu o nregistrare din baza de date (verificare) sau comparare cu toate nregistrrile (identificare). O alt clasificare a tehnologiilor biometrice, este din punct de vedere al necesitii cooperrii subiectului n vederea recunoaterii, activ (semntur, voce) sau pasiv (recunoatere facial). Recunoaterea vocii umane este o tehnologie ce permite utilizatorului s i foloseasc vocea ca dispozitiv de intrare, avnd utilitate n identificare, comandarea computerului, sau n dictare de text. (Rabiner L. [6]). Aceast tehnologie s-a mbuntit mult de la introducerea conceptului ( Turing, 1936 modelul algortimului de calcul; Shannon, 1948 aplicarea modelului probabilistic ale proceselor discrete Markov n procesarea vocala i lingvistic), dei unii utilizatori nc au probleme din cauza felului n care vorbesc, naturii vocii lor, accentului, zgomotelor de fond. Astfel se estimeaz c recunoaterea vocii umane va ocupa un procent important din piaa tehnologiilor biometrice, considerndu-se ca vasta majoritate a companiilor va adopta o forma de recunoatere a vocii datorit particularitilor fiziologice umane care permit att recunoaterea ct i folosirea facil pentru introducerea de date. [poza fiziologie] Exist dou aspecte referitor la recunoaterea vocii umane: verificarea identitii (recunoaterea unei parole n conjuncie cu caracteristicile individuale ale subiectului) i recunoaterea vorbirii i translaia la text, aceste dou utilizri fiind frecvent intricate. Aplicaiile cele mai largi ale recunoaterii vocii sunt n domeniul telefoniei n dialoguri automate. De asemenea exist aplicabilitate i n interaciunea cu automate montate n locuri publice (bancomate, hri electronice). n domeniul medicinii este folosit pentru creterea ergonomiei i scderea timpului de completare al formularelor, fiind una din opiunile ce pot fi implementate n EMR/EHR (Electronic Medical/Health Record). Metode. Am cutat pe internet (folosind diverse motoare de cutare) programe capabile de recunoaterea vocii umane i le-am testat. Am testat 4 din 10 programe gsite (avnd in vedere limitri impuse de existena versiunilor demo sau gratis precum i a sistemului de operare folosit, repectiv Windows XP). O parte din ele nu dispun de versiune demo (Dragon naturally speaking, Loquendo, Why type MS, The eloquent physician), alte 2 sunt mai vechi i au fost descalificate din start ( Digital dictation, Digital buddy).
n fine, unul din ele (Tazty) are support doar pentru comandarea calculatorului aa c au ramas pentru testarea propriuzis Speak to text 2.0, e-Speaking i Voice explorer. Materialele folosite au fost calculatorul personal, conexiune la internet precum i perifericele necesare. [poza tabel programe testate] Rezultate. Rezultatele au artat tendina net de mbuntire a ratei de recunoatere dup 12 sesiuni de antrenament/adaptare. [poza graphic epi] Acurateea recunoaterii nu a variat semnificativ de la program la program, ele fiind probabil din aceeai categorie de performan. Rezultatele obinute cu cele 3 programe au fost centralizate i asupra datelor am efectuat o analiz statistic. [table date]. n urma analizei cu programul Epi Info, se observ c dispersiile pentru cuvintele recunoscute cu cele 3 programe n parte nu difer prea mult. [epi1]. Dispersiile sunt omogene, lucru confirmat de valoarea P dat de testul Bartlett (0.9498 < 0.05), iar testul Anova (P-value = 0.4292 > 0.05) relev c nu exist diferen semnificativ ntre mediile numerelor de cuvinte recunoscute de fiecare program. (ipoteza nul confirmat). [epi2]. Concluzii. Se impune s discutm nti despre limitrile impuse de experimental realizat care duc la o estimare limitat, dei este uor de remarcat progresele realizate n ultima perioad chiar comparnd trecutul cu aplicaii prezente low-end. Pe de-o parte experimental ar trebui realizat cu mai muli subieci i n mod extensiv (numrul de ncercri, variabilitatea tipului cuvintelor testate), lucru care a fost imposibil n condiiile date. Pe de alt parte, n-am avut acces la programe profesionale de ultim generaie care, dup cum reiese din documentaie, au o performan i adaptabilitate mult mai mare. Ali factori in de calitatea prelurii i prelucrrii sunetului (calitatea microfonului, specificaiile computerului). Nu n ultimul rnd, trebuie inut seama de zgomote de fond (respiraia, alte voci, muzic, zgomot de motor) precum i de factori care pot modifica fiziologia vorbirii: vrsta, stri patologice, atmosfera respirabil ( Williamson, 1997), accesorii precum masca de gaze sau de oxigen, ineria i fora centrifug (Vasiletz i Yakimenko, 1995). Unul din cele mai importante concepte ce stau la baza recunoaterii vocii umane este HMM (Hidden Markov Models modelele ascunse Markov) ce reprezint o mod de abordare al modelrii semnalelor vocale i domin felul cum e tratat recunoaterea vocii astzi i refer la estimarea probabilitii de producere a unor evenimente condiionate de un model: P(O|Model) [6]. [poza tipar de recunoastere bazat pe HMM] Adaptarea necesar se poate face prin metode cum ar fi MLLR (regresie liniar de probabilitate maxim) ce aplic transformri liniare la grupuri de uniti acustice, cu aplicabilitate pentru cantiti mici de date (Siohan et all, 2001) sau MAP (maximum a posteriori) care combin informaii deinute despre parametrii modelului cu informaii obinute din adaptare, cu aplicabilitate pentru cantiti mari de date, nefiind ideal pentur cantiti mici de date. Optim este o combinaie ntre MLLR cu MAP (Young, 2002). Combinarea HMM cu reele neurale, tehnici de pattern matching (comparare cu elemente stocate n memorie) sau alte forme de difereniere ntre sunete bazate pe cunoaterea prealabil a semnalelor sonore a rezultat n adaptarea modelelor acustice integrate n motoare de recunoatere automat a vocii umane (ASR).
Conform HMM, probabilitatea de a ajunge ntr-o anumit stare e determinat de starea iniial i de probabilitatea de tranziie (reprezentat algebric sub forma unei matrici). Recunoaterea vocii const n signal modeling (process de conversie a secvenelor de vorbire n vectori de observare ce reprezint evenimente ntr-un spaiu de probabiliti) i network searching (gsirea celei mai probabile secvene a acestor evenimente innd cont de reguli sintactice). [poza procesare si modelare semnal] Sistemele avansate de recunoatere a vocii atac problema folosind combinaii de tehnologii i metode cum ar fi HMM i reele neurale, avnd n plus acces la resurse ce conin date colectate de la o multitudine de vorbitori (eantion reprezentativ) cu distribuie statistic normal pe vrste, sexe, arii geografice. Astfel aplicaiile sunt multiple, avnd deja implementare la scar larg n arii cum ar fi cartea telefonic complet automat la Telecom Italia. n Australia compania Nuance a aplicat cu success aceast tehnologie dup cum rezult mai jos ( Speech Recognition Customer Satisfaction Survey. HLA Research, 2005). [nuance1] [nuance2] De asemena, n domeniul medical, exist puternice tendine n investiia n sisteme informatice ce includ n componena lor i recunoaterea vocii umane ( 18th Annual Health Information and Management Systems Society Leadership Survey). [tendinte] Exist un mare interes i pentru implementarea n domeniul militar cum ar fi pentru piloii militari de avioane elicoptere, operatori de trafic, terminale portabile pe cmpul de lupt. Totui efectul negativ asupra acurateii recunoaterii vocii a unor factori ce in de zgomote de fond (motor), zgomote rezultate din respiraia folosind masca de oxigen precum i efectul forelor G au facut ca aceast tehnologie s fie, deocamdat, utilizat doar experimental. (Englund, 2004 [3]) Putem estima c, datorit dezvoltrii extraordinare a tehnicii de calcul, acest domeniu va cunoate o dezvoltare la fel de spectaculoas i n continuare att economic (cifrele de afaceri n domeniu s-au dublat la fiecare interval de 1-2 ani) precum i n privina creterii performanelor sistemelor. Turing, unul din pionierii sistemelor de calcul, n-a fost departe de adevr cnd a estimat in anii 1940 c la sfritul secolului XX, o main cu 10 Gb de memorie ar avea 30% anse s pcleasc n testul Turing un interogator uman dup 5 minute de chestionare. (n acest test care implic att recunoaterea vocii ct i elaboarea de rspunsuri inteligente, iau parte 3 subieci: o main i 2 persoane din care unul e interogatorul care, dup chestionarea celorlali participani trebuie s determine identitatea lor). Bibliografie.
1. 2. 3. 4. Huang X. Spoken language processing: a guide to theory, algorithm and system development. Prentice Hall, 2001. Elenius K Blomberg M. Automatisk igenknning av tal. Institutionen fr tal, musik och hrsel, KTH, 2003. Englund C. Speech recognition in the JAS 39 Gripen aircraft - adaptation to speech at different G-loads. Centre for speech and technology, 2004. Jelinek F. Statistical methods for speech recognition. Bradford, 2001. Jurafski D. Martin J.H. Speech and language processing : An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall, 2000. Rabiner L. Fundamentals of speech recognition. Prentice Hall, 1993. Schroeder M.R. Computer speech: Recognition, Compression, Syntesis. Springer 2004.
5.
6. 7.

Recunoaşterea Vocii Umane

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Recunoaşterea Vocii Umane

Încărcat de

Drepturi de autor:

Formate disponibile

Recunoaterea vocii umane

S-ar putea să vă placă și