Documente Academic
Documente Profesional
Documente Cultură
Abstract
Obiectivul acestui proiect este de a investiga algoritmi de recunoaştere vocală prin programare şi simularea
sistemului proiectat în Matlab. Totodată, un alt scop al acestui proiect este de a utiliza cunoştinţele dobândite
printr-o aplicaţie reală, precum un sistem automat de fotografiere prin comandă vocală.
Cuvinte cheie: sistem automat de fotografiere, Matlab, amprentă auditivă, comandă vocală, DSLR
Fig.3.3
4. ACKNOWLEDGMENT
This work was supported by POSDRU based
on POSDRU/107/1.5/S/76903 financing program
Fig. 3.4Ansamblul sistemului automat de recunoaştere a unei and EDL – UPB.
amprente vocale
Ø Interfaţă grafică utilizator-maşină 5. CONCLUZII
S-a realizat o interfaţă grafică cu funcţia GUI
inclusă în Matlab pentru a aduce un grad de Înainte de a fi utilizate în cadrul proiectului, au
confort şi manevrabilitate a comenzilor şi fost evaluate experimental o parte din metode
totodată să fie prietenoasă cu utilizatorul în într-o aplicaţie simplă, de recunoaştere automată
ultimă instanţă. Programul a fost conceput cu 5 a unui vocabular mic de cuvinte pronunţate
funcţii principale: Start / Rafală / Start Expunere / izolat, folosind o bază de date vocale de mici
Stop Expunere / Eroare dimensiuni colectată ad-hoc în etapa de
Numărul lor şi gradul de utilizare pentru aplicaţia fundamentare a metodelor utilizate. Aceste
din proiect, au fost îngrădite de softul aparatului evaluări au confirmat calităţile coeficienţilor
foto DSLR, implicit funcţiile acestuia şi de nivelul cepstrali în recunoaşterea automată a vorbirii şi
de cunoştinte din acest moment. au arătat că performanţele cele mai bune se
obţin prin utilizarea cepstrului melodic.
Pentru recunoaşterea automată a vorbirii au
fost încercate de-a lungul timpului diferite
metode, în urma performanţelor demonstrate prin
evaluarea sistemelor în care au fost
implementate, se numără printre cele mai
frecvent utilizate în sistemele contemporane de
recunoaştere a vorbirii şi au fost utilizate şi în
cercetările proprii. Utilizarea parametrilor
semnalului vocal pentru recunoaşterea automată
a vorbirii presupune gruparea lor în vectori dintr-
un spaţiu acustic. Modelele Markov ascunse,
constituie fundamentul sistemelor moderne de
Fig. 3.5 Comanda Start
recunoaştere a vorbirii. Acestea permit
rezolvarea elegantă a ambelor probleme prin
construcţia ierarhică a unor modele, înglobându-
le pe cele lingvistice şi acustice, cunoscute sub
numele de reţele de recunoaştere sau reţele
integrate, în care şirul cel mai probabil de cuvinte
este găsit cel mai adesea folosind algoritmul
Viterbi [21].
Procesarea vorbirii depinde foarte mult de
colectarea unui număr mare de unităţi acustice,
iar de aici apar erorile de recunoaştere a vorbirii.
Există o serie de limitări în sensul că sunt
necesare înregistrări fără zgomot de fundal şi
cuvintele trebuie pronunţate cât mai clar.
Pe viitor, doresc să aprofundez mai mult
algoritmul ascuns a lui Markov pentru a dezvolta
Fig. 3.6 Start – Distanţă acustică dintre vectorii a 2 înregistrări
un model mai robust, cu precizie ridicată de
consecutive recunoaştere a unei amprente auditive.
ELECTROTEHNICA, ELECTRONICA, AUTOMATICA
REFERINȚE [16] L. Rabiner şi B.H. Juang. Fundamentals of
Speech Recognition. Prentice Hall, 1993.
[1] L.R. Rabiner. Applications of Voice
[17] F. Jelinek. The Development of an
Processing to Telecommunications.
Experimental Discrete Dictation Recognizer.
Proceedings of the IEEE, 82(2):199–228,
Proceedings of the IEEE, 73(11):1616–24,
februarie 1994.
noiembrie 1985.
[2] J.L. Flanagan. Technologies for Multimedia
[18] J.R. Deller, J.G. Proakis şi J.H.L. Hansen.
Communications. Proceedings of the IEEE,
Discrete-Time Processing of Speech Signals.
82(4):590–603, aprilie 1994.
Macmillan Publishing Company, New York,
[3] L. Torres, E. Masgrau şi M.A. Lagunas
1993.
(editori), SIGNAL PROCESSING V: Theories
[19] J. Allen. Natural Language Understanding.
and Applications, pag. 1199–1201. Elsevier
Benjamin/Cummings, Redwood City,
Science Publishers, 1990.
California, 1995.
[4] L.R. Rabiner şi R.W. Schafer. Digital
[20] W. Minker, A. Waibel şi J. Mariani.
Processing of Speech Signals. Prentice-Hall,
Stochastically-based semantic snalysis.
1978.
Kluwer Academic Publishers,
[5] G. Stolojanu, V. Podaru şi F. Cetină.
Boston/Dordrecht/Londra, 1999.
Prelucrarea numerică a semnalului vocal.
[21] Marian Boldea, Contribuţii la recunoaşterea
Editura Militară, Bucureşti, 1984.
automată a vorbirii continue în limba română,
[6] J.R. Deller, J.G. Proakis şi J.H.L. Hansen.
Universitatea Politehnică din Timişoara,
Discrete-Time Processing of Speech Signals.
Facultatea de Automatică şi Calculatoare,
Macmillan Publishing Company, New York,
2003
1993.
[22] F. Jelinek, L.R. Bahl şi R.L. Mercer. Design
[7] A.S. Spanias. Speech Coding: A Tutorial
of a Linguistic Statistical Decoder for the
Review. Proceedings of the IEEE,
Recognition of Continuous Speech. IEEE
82(10):1541–82, octombrie 1994.
Transactions on Information Theory,
[8] F. Itakura. Minimum Prediction Residual
21(3):250–56, mai 1975.
Principle Applied to Speech Recognition. IEEE
[23] R.O. Duda şi P.E. Hart. Pattern
Transactions on Acoustics, Speech, and
Classification and Scene Analysis. John Wiley
Signal Processing, 23(1):67–71, februarie
& Sons, New York, 1973.
1975.
[24] K. Fukunaga. Introduction to Statistical
[9] J. Allen, M.S. Hunnicut şi D. Klatt. From
Pattern Recognition. Academic Press, New
text to speech: The MITalk system. Cambridge
York, 1972.
University Press, 1987.
[25] R. Vancea, Şt. Holban şi D. Ciubotariu.
[10] T. Dutoit. An Introduction to Text-to-Speech
Recunoaşterea formelor – Aplicaţii. Editura
Synthesis. Kluwer Academic Publishers,
Academiei, Bucureşti, 1989.
Dordrecht, Olanda, 1997.
[26] Bhattacharya A. and F. -G. Zeng (2005),
[11] J.P.H. van Santen, R.W. Sproat, J.P. Olive
Companding to improve cochlear implant’s
şi J. Hirschberg (editori). Progress in Speech
speech processing in noise, in Proceedings of
Synthesis. Springer, New York, 1997.
Conference on Implantable Auditory
[12] Y.K. Muthusamy, E. Barnard şi R.A. Cole.
Prostheses, Pacific Grove, Calif, USA, July-
Reviewing Automatic Language Identification.
August 2005.
IEEE Signal Processing Magazine, (5):33–41,
[27] Loizou P. C., K. Kasturi, L. Turicchia, R.
octombrie 1994.
Sarpeshkar, M. Dorman, and T. Spahr (2005),
[13] G.R. Doddington. Speaker Recognition –
Evaluation of the companding and other
Identifying People by their Voices.
strategies for noise reduction in cochlear
Proceedings of the IEEE, 73(11):1651–64,
implants, in Proceedings of Conference on
noiembrie 1985.
Implantable Auditory Prostheses, Pacific
[14] D. O’Shaughnessy. Speaker Recognition.
Grove, Calif, USA, July-August 2005.
IEEE Acoustics, Speech, and Signal
[28] Cap. 5 Tehnici de procesare şi
Processing Magazine, (5):4–17, octombrie
recunoaştere a semnalului vocal, URL:
1986.
http://www.scribd.com/doc/79832639/Cap5-
[15] H. Gish şi M. Schmidt. Text-Independent
Tehnici-de-proc-si-recun-a-semnalului-vocal
Speaker Identification. IEEE Signal Processing
Magazine, (5):18–32, octombrie 1994.
ELECTROTEHNICA, ELECTRONICA, AUTOMATICA
Abstract
Obiectivul acestui proiect este de a investiga algoritmi de recunoaştere vocală prin programare şi
simularea sistemului proiectat în Matlab. Totodată, un alt scop al acestui proiect este de a utiliza
cunoştinţele dobândite printr-o aplicaţie reală, precum un sistem automat de fotografiere prin comandă
vocală.
Cuvinte cheie: sistem automat de fotografiere, Matlab, amprentă auditivă, comandă vocală, DSLR