Sunteți pe pagina 1din 132
1. MgTODs DF SINTHZA A VORBIRIT 1.1. Introducera. Clasifioari, In general, un sintetizor de vorbire poate fi definit ca un aparat capabil, si genereza masaja vorbite, pe baza unor in- formayii inregistrate in praalabil, dar cara difer& din punct de vedere semantic de mesajul generat. Informatia mamorat% sa constituie ca o mulfime de parama~ tri asupra cérora trabuie efactuat& o anumité prelucrare in va— doxea objinerii mesajului ca trabuie ganarat. Aceast% prelucrare aste dofinité ca fiind operatia de sintez’ a vorbirii artificia- la, vorbira care, fn acest caz, se mai numaste $i vorbire sinte~ ticd. Caracteristic sintazei vorbirii mai este gi faptul ci tre- buie s& sa realizeze in timp real, existind in acest caz o asami— nara intre sinteza vorbirii si pronuntia vorbirii umane, unde, de asemenga, trecerea de la stadiul de concept 1a cel de undd acusticd trebuie si se realizeze in timp real, pentru a se asigu~ va continuitataa vorbirii 9i perceperea masajului. © alt& caracteristicd importanta a sintezei vorbirii esta acoga c& pantru a selecta informatia de bazd, ca urmeazd a fi foregistrat& in sintebizor, esta necasard o oparatia prealabild, nomit& analizé, prin care se extrag din vorbirea naturald un.sat de Paramatri ce se constitule apoi ca informayie de bazd in ve- darea sintezsi. Functie da felul in care sa face analiza, depin~ da $i tipul acastor paramatri, pracum gi modul in care sa reali- aeaz& sinteza, razultind astfol mai multe matoda de sintezd a vorbirii. . Bxistd dowd criterii‘ganarals de clasificara a sinteti~ Zoaraloz da vorbire: ‘ - dup& parformentele sintetizorului; - dupi felul in cara sa realizeazé sinteza. Principalii parametri ca definesc parformantele unui sin- tetizor de vorbira stot: inteligibilitatea, naturaletea, dimen~ foarte bund dupa intetgibititete 4 bund setistdcdtoare cu vorbire neturalé : dupa neturalete Lou vorbire nenaturalé {mecanicd) redus : dup’ performante dupé. dmensiunea + extins vocabylarului nelimitot i rolumul de memorie necesar ree Coen cae. slocdrii vocabulorului de bazt + ne A SINTETIZOARELOR OE a. VORBIRE cu sinteza (codificarea) sutsei semnal dupa modal in care se face sintezo 2 sinteza forme semnatului TABEL 19. CRITERI GENERALE GE CLASIFICARE A SINTETIZOARELOR DE VORBIRE age siunea vocabularului precum 4 volumul da memoria necesar stoci~ xii informatiei de bazd. Ca $i in alte cozuri, imbundtifirea tuturor acastor para- metri introduce conditii contradictorii, casa ca implic& alege~ zea Unor solujii de compromis pantru a ob}ina o situayie optima din punct da vedera al unuia sau mai mulfi paramatri. Conform a- castor parametri sa pot face urmatoarele clasificéri (Tab.1l.0.). Mai asta de ramarcat $i faptul cA acalaasi matode de sin- tazd pot fi realizata fie in tehnicd analogic’, fie in tahnic& digitalé, ultima impunindu-~se in axclusivitate odataé cu raspin— direa tehnicilor de prelucrara digitald a semnalelor,cu ajutorul sistemalor cu logicd programat& /2/. 1.2, Matode da _sintes% a vorbirii cu codificarea sursei. do _samnal (Metoda paramatrice da sintez&) /2/,/2/ 1.2.1. Introducaras Clasificdri Acesta matode sintetizsazi de fapt sursa ganaratoare do vorbine, adic simuleaz’ functionarea tractului vocal si'a sam— nalului de excitatie a acestuia. #le au avantajul c& necasit& un volum mai redus de infor- mabii da baz gi, ca atara, un volum mai redus de memorie pen~ tru stocarsa lor, dar prezint&é $i dezavantajul c& impun prelu- crSri mai complexe asupra acastor informafii, Pantru a realiza Sinteza. Totodati, atapa da analiz& a vorbirii, afactuat& in scopul salect&rii informafiei de baz4,pantru sintez%, este mai complex $i deoareca aceasta informatie difar& semnificativ de vorbirea propriu~zis&, ea se constitnie ca un sat da paramatri necesari sintezei, motiv pantru cara aceste metoda au mai fost danumite si matode parametrice de sintez& a vorbirii /2/. Sstul de parametri ce alcitulesc informatie aa bazi in vaderea sintezei poate fi separat in doud categorii si anuma: - Panamatri aferenyi tractului vocal (t;), si - parametri aferen¥i surselor de excitable a tractului vocal (a,)+ : Astfel, schema bloc generald a unui sintatizox parametric da vorbire asta cea rapreéentaté tn figura 1.1. Acaasta schem& bloc geneval& mai poate fi detaliati func~ tie da tehnica, analogic& sau digiteld, in care se realizaazéi sinteza. SURSA BLOC DE SIMULARE | AMPLIFICATOR OE ATRACTULUI VOCAL AUDIO EXCITATIE at Difuzor ae ei Figelel. Schema~bloc generalé a unui sintetizor Pparemetric de vorbire In figurile 1.2 si 1.3 sint reprezentate schemele bloc corespunzitoare, celor doud cazuri, scheme ce simuleazi modele~ le'mecenic gi respectiv electric ale aparatului fonator-uman 131,141 + GENERATOR DE IMPULSURI a i FILTRU MULTIPLU AMPLIFIC. : L| ACOROABIL AUDIO Comulater Dituzor i Figel.2. Schema bloc a unui sintetizoxr parametric anelogic Prin intexmediul celor dowd genezatoaxe se furnizeazi semnalul de excitatie, echivalent fluxulad de aex, modulat sau nu de corzile vocale. - . : Semnelul de excitatie a tractului vocal poate fi simulat in punct de vedere electric cu un semnal periodic, de impul~ suri aproximativ triunghiufere, in cazul prodncerii sunetelor sonore, gi cu un semnal de zgomot, in cazul producerii sunete~ lor nesonore. Blocul comutator are rolul de a comuta unul din cele doud genoratoare de somal de excitatie, in functie de tipul cee sunetulud ce urmeazé a fi sintatizat (sonor sau nesonor), co- manda comut&rii efectuindu-se prin intermediul unui parametru binar (4,)- Filtrul multiplu acordabil are rolal de a simula compor~ taraa in fracvent& a tractului-vocai, al fiind realizat, de xe- gulé, prin conectarea in seria, sau paralel, a mai multorfiltra simple, acordabile, a cdror acord se realizaazi prin intermadiul parametrilor $+ Sa modaleaz’ astfel comportarea tractului vocal, pentru producerea unui anumit sunet,utilizind un vactor da co~ mand& specific acalui sunat, a cirai componenta sint tocmai va~ lorile parametrilor da sintazd corespunziitori producerii sunetu~ lui respectiv: Vis Vays 955 Oy4 ty) (lel) Prin intermediul parametrilor @, $i 0; se comandé ampli- tudinea somnalului furnizat de ganeratorul da zgomot $i raspac— tiv frecventa semnalului dat de generatorul de impulsuri, schi-~ valent& fracvenfei fundamentala ds vibrajie a corzilor vocale. Deci prin intermadiul parametrului 6, se poate regle inilfimea “vyocii" sintetizoxului, putindu-se astfel simala o voce masculind, faminind, sau mecanicd. Parametrii de comand& a filtrului multiplu sint spscializati, da regula, pentru: - comanda frecventei da rezonanbi; ~ comanda lavimii da banda; - comanga amplitudinii semnalului. Filtrul multiplu,ce simuleazi functionarea tractului vo~ cal,trebuie sd fie format dintr-un numdr suficient de elemente componente, astfel incit s& parmit& realizaraa unei buns apro~ xim&ri a Gnfdsuratorii spectrala corespunzdtoare fiec&rui sunet de vorbire, fari da care sinteza ax conduce 1a un’ sunat neinte- ligibil. Da regula, fn sintetizoarela analogice sa utilizeazd structuri simplificata ale filtrului multiplu, care au doar rolul de a reface infésurétoaraa spactrald corespunzdtoare z0~ nélor in care apar formantii spacifici-sunetului respectiv, conform propriat&jilor acastor forman}i de a fi daterminanti (in.spacial primii trei) pgntru recunoagterua sunatelor vorbi- rid. z In cazul sintetizorului paramatric digital, locul gane~ ratorului de zgomot asta luat de un generator de impulsuri a leatoars, iar in locul generatorului de impulsuri pariodica Ba tziunghiulere, se utilizeazi un generetor-de impuleuri perio~ dice dreptunghiulere. Piltrul analogio eate de asemensa inlo- eit cu un filtry digitel comandabil, urmat de un convertor numeric-ana logics GENERATOR [OE IMPUL SURI PERIODICE ta a] oweRton| = pest FILTRU DIGITAL -—s| NUMERIC ANALOGIC AMPLIFIC, FUT) auoio Dituzor Comutpior fi GENERATOR IDE IMPULSURI ALEATOARE fy Fig+l.3- Schema bloo a unui sintetizor parametric digital Desi, do~a lungul timpuloi, s-au dezvoltat mai multe mo- tode de sintezé parametricd a vorbirii ca : ~ sinteza fonemicd ; : - sinteza prin refecerea infdguriterii spectzale ; - sinteza prin formanti 5 - sinteza homomorficd ; : . + sinteza prin predictie liniaxd, etc., totugi, doar doud din aceste metode s-au impus in ultima vzeme, ajungind si fie implementate gi aub forma unor cirouite inte- grate specializate, de largé ciroulatie /1/, gi anume : sinteza prin forman{i gi sinteza prin prediofie liniard. - - Mei trebuie remarcat of, in ordinea-aparitiei,-primele sintetizoare au fost cele parametzice, in timp ce sintetizoa- rele-bezate pe codificarea formed semnalului au apizut abia mai tixaiu, odeté ou dezvoltarea metodelor de codificare gi prelucrare numericé a semnalflor gi cu aparitis sistemelor ou logicd programati pentru aplicarea acestor motodes - Sintetizoarele pazametrice an fost denumite la incepnt gsi "vocodeze" /3/ fiind considerate ca nigte sisteme. de codi- ficare a vocii~gi utilizate atit pentru sinteze vorbirii, oft age gi in.telecomunicatii, pentru reducerea redundantei semnalului vorbit,-in scopul cresterii gradului de multiplexare e canalu- lui de transmisie /4/. Trebuie specificat insé faptul c& un vo- coder includea, pe ling& sintetizorul proprinsis, gi un anali-~ zor, cu rolul de a obtine informatia de bezé necesar’ sintezei, conform figurii 1.4. Microfon ANALIZOR| COmsvruric. pt be | SNTENZOR AMPLIFIC VoRaIRE 4 VORBIRE Difuzor Figele4s Schema bloc a unui vocoder Odaté cu dezvoltarea sistemelor cu logics progremata, analiza a inceput s& fie efectuat& doar cao etapa de obtinexe 8 pazametriloy pentru sintezd, care au fost apoi memorati in memoria sistemului,. urmind a fi extragi si folositi,pentru sin- tezd,atunci oind este nevoie. -In felul acesta, xolul vocoderului a fost preluat-doar de sintetizor, care s-s impus ca un sistem de sine st&tator. 1.2.2. Sinteze fonemicd /4/ Swa constatat cl vorbirea normeld. produce, in medie, ax Proximativ lo foneme/secund&’, care ar putea fi codificate gi - tyansmise cu un debit de numai 60 biti/secund’. Comparind acest debit ou cel corespunzéitor codificdrii undei acustice prin me~ toda MIC standard (64 kbiti/secundd) reault&é of dacd s-er rengi codificarea vorbixii direct 1a nivel fonemic, s-ar putes redu- ce debitul de peste looo oxi, ceea ce ax cénduce 1a o economie spectaculoasé de memorie, 14 inregistrare, sau de volum de ca- nal pentru trensmisie. = + - Pentru a obtine ins&o compresie atit de mare gi a ex- trage numizul minim, de perametri necesari sintezei fonemelox, se impun conditii foorte dificile operatiei.de ansliz&, care devine. foarte complexd, iar vorbixea sintetizati,in acest.mod, nu ve péstra decit inteligibilitatea,din totalitatea caracte- eo yisticilor vorbirii umane, fiind nepldcuté si obositoare la ascultat gi interpretate Desi s-au facut multe fncercari de realizare a unor sintetizoare fonemice, limita maximé de compresie nu a fost {nc atins&, Sinteza vorbirii, pe baza fonemelor, presupune stabilirea unui mare num4r de reguli,referitoare nu numai la modul de producere al unui fonem, dar pi la aldturarea lui cu alte fonene, 1a accentuarea sau neaccentuarea lui functie de cuvintul in care intervine, ete. Pe de alt parte, se pune problema stabilirii unui numiir minim de reguli care s4 permité sinteza fonemicas Cercet&ri fonetice,intreprinse tn acest domeniu /4/,au eviden— tiat of exist un numir de aproximativ 12 optiuni binare,de tip "da" sau "nu", de care dispune omul pentru a produce vorbirea, fenomen vala- bil pentru toate limbile,si care sint expuse si comentate in tabelul din figura 1.56 Modelarea electricd eficienta a acestor conditii rimine ins Geocamdata o problema de viitor. Caracterizarea sintezei fonemice printr-un mare numar de reguli a fScut ca aceastS metoda sé fie inclusd in aga numita categorie de metode de "sintezi prin reguli" /4/, apreciindu-se ca reprezint& o ca- le pentru realizarea sintetizoarelor de vorbire cu vocabular nelimitat, in conditiile cele mai avantajoase, dar, deocamdaté, greu de abordat Ds In figura 1.6 este indicat& schema bloc a unui sintetizor fone~ mic prin reguli /6/. Sinteza prin reguli poate fi considerata ca o metodd de trans~ formare a unei reprezentiri discrete a vorbirii,intr-o forma acustica continud, echivalent&. Transformarea se realizeasd tn doud etapes In prima se transforma parametrii discreti, ce caracterizeaza fonemele,in Parametri continui, pentru controlul functiondrit unui sintetizor, iar In etapa a doua se transformi parametrii de control ai sintetizo~ rului In vorbire sinteticd, simtetizorul fiind de tipul celui repre~ zentat In figurile 1.2 sau 1.3.5 Dezvoltarea metodelor de analiza a vorbirii,utilizind logica programatd..,a condus gi le elaborarea unor algoritmi complexi de sin- teza prin reguli, specializati pentru diferite limbi, gi aplicati mai ales in realizarea unor sisteme de conversie directa text-vorbire /26, at/. wre orte le a Be 4e 66 Te Bs ED lo. n.’ 12. Caracterul Caracteristicd scustice Vocal/nevocal Bxistents/absente unei structuri _ formantice evidente. Constant/neconstant Nivel mare/nivel mic al enexgied : totale. Compact/difuz Concentra tie maré/contentratic ‘mick a energiei (a intensitapii) intr—on domeniu relétiv ingust a1 spectru- ui, insotita de o cregtere/scédere a energies totale. Incordat/neincor- Enexgie toteld mai mere/energie to~ dat #028 mai micd,impreund cu o disper sate mai mae-mai mic a energiei in spectru si in timp. Sonor/surd Existenta/absenta excitatiei perio- dice de frecventa joasa. Nezal/orel Diapersarea energiei intr-o bandé de fretvente mai laxg&/mei ingustd datorits gedderii intensit&jit uno formanti (fn special a primului forment) gi introducerea formanti- lox suplimentari (nazali). Bxploziv/neexploziv Pauza dupé care urmeaz’ gi/seu care precede o disperaare a energied intr-o gamé lergé de frecvente (ex- plozia sau tranzitia repidé e for- mantilor vocalelor sau” absenta tranzitiilor brugte intxe sunet gi © esemenee paled)« Acut/plat Intensitatea zgomotului mai mare/ mai micd Oclusiv/neoglusiv Vitez& mei mare de soidere a ener- giei In limitele unui interval mai Bic de timp/vitesd mai mick de sod- deve a energiei in limitele unui interval de timp mai mare- Tonalitate joast/ Concentratia energiei in portiunea tonelitate inaltd inferioaré/superioaraé a spectrului. Bemol/simplu Unéle componente de frecventé se deplaseazé in jos/nn se~depleseazé, sau sint/nu sint atennate. _Diez/simpla Unele componente de frecventé se daplageazé/nu se deplaseazé in sua, sau sint/nu sint emplificet Figel.5. Tabel cu caracteristici discriminatorii binare ale fonemelor -lo- Difuzor SINTETIZOR DE VORBIRE P, } { { cH b —<———porametri pentru controlu! continuy of sintezei Regul STRATEGIE DE SINTEZA lingvistice REGUL! DATE INREGISTRATE | inREGISTRATE| porametri discreti ai fonemelor Pigsl.6. Schema bloc a unui sintetizor fonemic prin reguli 1.2.3. Sinteze prin refacerea infSsurktorii spec trele /2/ Aceasta metodd utilizeazé oa pavametri pentyu sintezd © serie de valori ale infdégurdtorii spectrale a semnalului de vorbive, determinati printr-o analizé prealabild. De regula este utilizaté pentru anelizd bande vocald telefonicé (300- 3.400 Hz), sau banda 200-4-000 Ha, avind in vedere ck frecven- tele ce depagecc valoarea de 4.000 H2 av o importanté redusé pentru inteligibilitete, contribuind mai eles la esigurarea calitaéii vorbirii, atit din punct de vedere a caracterului natural oman al vooii,cit gi a recvnoagtexii vorbitorului, - Calea cea mai simplé de analiza si sintezd,prin aceasté netods,consté fn egantionarea,in frecventa, cu un set do fil- txe adiecente trece band’, a semnalului de vorbire, conform figurii 1.7. a - : Iegirile acestor fidtre sint preluorate (de regula prin redresare gi integraxe), obtinindu-se astfel un det de para— metri de bazd,sub forma unor tensiuni lent variabile, ou care se comandé apoi realizerea sintezei+ -h- Calitatea sintezei va depinde, pentru o bandd de- frec~ venté fixatd pentru-analizdé, de intervalul dw dintre dovd egen-~ tioane. Cu cit acesta va fi mai mic,-ou atit aproximazea inf gurdtorii ve fi mai bund, dar ou atit gi numdrul perametrilox va fi mai mare, ier sinteza va fi mai complicaté. [xteo)} 2345678 90 - {paw ra Figel.7. Infigurdtoare spectrelé a ufiui semfal de vorbixe la un moment de timp dat Sintetizoarele care functioneaz& pe acest principin se numesc sintetizoare de.bandé, iar schema bloc de analiz& a unui canal este indicatd in figura 1.8. xin | FITRU [yy lt) DETECTOR DE FITRU | pte xls wl TRECE AMPLITUDINE [>] TRECE F——=— BANDA (REDRESOR) vs | Figel.8s Schema bloc a analizorului de canal cores- punzitor sintetizorului de bandd Pentru a modela matematic obtinerea unui estfel.de pa- xemetru /4/ se tine cont ci semnalul de la iegirea filtrului txece handé se obtine prin convolutia : s t “+ = ay6t) = | x0) 2,(t80)8e (1.2) , : in care sin 22(t-2) Aw ore a(t) = +0080 yt (2.3) bu (4 Bett 8) Pay este functia de réspuns a filtrului considerat. ideal avind ca- xacteristica de faz& linierd in banda de trecere gi caracteris— tica de frecventaé datd de relatia : L pentru ©, <|wlew, alo) = aa) O pentry wyeiwlewy AwsW_-W (145) fiind bandede trecere, iar oy frecvente céntralé a acestei benzi. Notind cu h(t) infadgurdtoa- zea functiei de raspuns s filtrului, reletia (1-3) devine : Aus a, (t) = B(t-3) -cosa ft (1.6) jer reletie (1.2) : + y(t) { x(G) sh(4-2) 008 wy (t-2)d5 (2.7) san: a : ct jot =jw jt y(t) = SE ne oF] x(e).h(t-2) 00 kas (1.8) 5 i t oO . # Jw 4b Notind X( wyyt)= | x(5) sh( 4-6) -0 ae (2.9) relatia (1.8) devine : : Joyt y(t) =P Re X(o,,t)-0 (1-10) gi pune in evidenté feptul cd tensiunea de la iegivea filtru- lui trece jos, este proportionald cu spectrul semnalului x(t) gi reprezinté un semnel modulet, semnificind faptul cé dupa detectie gi filtrere se va ob}ine o tensiuns proportionala cu inféguritosrea spectral le frecventa de analizi ©, : = : py(t) = 22 ( x(e).ncs-205 (a) : - care va reprezenta chiar pafametzul corespunzitoxr canalulni respectiv. Bfectuind astfel o analizd pe mai muite canale.se obtine setul de parametri utilizetji la sintezd. Se constata o& variatia acestor tensiuni este lentd, astfel cd in cazul in care sinteza se face pe cale numeric’, conversia.analog-nume- rick a acestor parametri va conduce le un debit total binar peeitiit aeeptiee malt mai scdzut comparativ cu cel rezultat in urma conversiai semnalulni de vorbire propriu-zis. Ia sintetizorul de bandé, l&}imea cenalelor spectrala de analiz& nu aste acaeasi ps toate canalele, ci sa stabilaste in funchie de caracteristicile analizorului auditiv uman. Astfel, decarace s-a constatat c& rolul cal mai important pentru parcep- fia vorbirii, corsspunzdtoare zonai primului formant, aste cuprin- si in zona de piné la looo Hz, in timp ce, paste aceasta valoara, aportul la inteligibilitate al componentelor spactrale scade,a~ proximativ logaritmic,cu crestersa frecvantei, esantionarea in-~ fsuratorii se va realiza conform acestor proprietafi, ajungin~ du-se la repartizarea canalolor spactrala in band& conform aga numited "se&ri de egal articulabie" a lui Koenig /4/. Canalele vor fi astfal mai dese $i mai.inguste pind la looo Hz si mai re~ va $i mai largi dup acaast& valoara. In tabelul din figura 1.9 asta indicatd, spre axemplifi- cara, distribujia filtrelor coraspunzdtoare unui sintetizor de bandi realizat /7/. Sintetizorul permite sinteza oricdrui cuvint = - din limba roman&, cu o inteligibilitate satisfacdtoare, dar cu o voce nenaturalé, mecanica. Banda da Fracvenya Canal assess” canevele 08002 _easena cantrala L300 Hz 275 Ha 7? 300 Ha 1663 Hz 2 150 Hz = So Ha 8 330 He 1980 Hz 3-180 He 70H Ha 9 360 Hz 2320 He 4 lo Hz 898 Hz lo 380 Hz 2690 Hz 5 Ho Hx = 1120 Ha lL oo Ha 3080 Hz 6 270 Hz 1379 Ha 12 600 Hz 3650 Hz Fig.1.9.Tabel cu distribubia canalelor spactrale Pentru un sintetizor de bana. Schama bloc a unui sintetizor da banda esta, in princi- piu, similard celoi din figura 1.2, cu mentiunaa c& in locul filtrului multiplu se ubilizeaz&é un bloc dq filtra trece band, a caror caractaristici sint echivalente cu cele utilizate in analizoruldin cara sa objid parametrii ce comand sinteza, prin roglarea nivelalui somaalulsi aplicat la intrarea fiscdrei til- tru, astfel incit sumarea semnalelor da iagire sé refack infi- suritoaraa semnalului de vorbire. In figura 1.lo esta raprazanta- #& schama bloc a unui vocoder de band& realizat /7/, /8/, /9/; -14- compus dintr-un enalizor gi un sintetizor de vorbire. In cazul variantei digitale, la sintetizorul de banda prezentat in figura 1.lo, se inlocuiese filtrele de bend& ou filtze digitale, ler parametrii de comendi se convertesc ana- log-numeric gi comandé nivelul semnalului de la iegiree fiecd— rui filtro Anali zor | —-——=-Sintetizor ° a Fieu. Lee, oe t ANALIZA | [GENERATOR| foeNeRaTOR Hip FoNEM [OS zeomot | |ARMONICI * FITRU_ | ANALIZA bg ey Let JFRecvENTA | Comutator FUNDAMENT, : moa) Pasa : DETECTOR th [rovanos) FILTRU Lot AypuituD. Pe] FTE be | Pm caNAL bedi (act) CANAL (DAL hen ItRu| to canal bey act 2 Microfon AMPLIF. FILTRU | CANAL? ct facta] Lom tcANaL bey act n FILTRU canatn [A] OA. pet TS AMPLIFIC. | SUMATOR | otuzor { oe AMPLIFIC. | AUDIO Figelelo. Schema bloc a unui vocoder de band& “O varienté. digiteald mai complexd se poate utilize cu ajutorul unui sistem de echizitie gi prelucrdri-digitale a semnalelox snalogice, pe care si fie implementat un snalizor Fourier g4 prin intermediv} cdruie si se.realizeze egantione- zea spectruloi semnalului de vorbixe pentzu.a obtine setul de parametri, cu care sé se realizeze apoi, tot pe cale digitald, gi sinteza. : Viteze de calcul necesar& unui astfel de sistem este in- s& maze, datorité necesitétii de @ functiona in timp real gi 5 ea nu poate fi realizatd prin implementarea microprocesoarelor de uz general, ci doar cu procesoare de semnal, sau bit-slices Cercetéri actuale, in domeniul vocoderilor, au ca scop tmbuna~ tétirea performantelor, iar ca obiect perfectionarea modului de se~ lectare a parametrilor utilizati pentru sintezd. Dintre acesti parametri, frecventa tonului fundamental gi ti~ pul fonemului (sonor/nesonor) stnt luati, tndeosebi, tn considerare, avind in vedere contributia lor decisiva la calitatea vorbirii sinte- tizate /29,30/. In acest context, o serie de cercetari recente au evidentiat faptul c& utilizarea unei deciaii unice asupra tipului fonemului, la sinteza, este o cauzd care introduce distorsiani importante /lo/. A rezultat astfel c& limitarea sursei de excitatie a modelu- lui tractului vocal numai le un semnal periodic, sau la un semnal de zgomot, constituie o limitare care, la sintezd, face ca energia spec— tralé a anumitor benzi de freevent&, din spectrul fonemului sintetizat, - s& difere substantial de cea a fonemului originar qi 8a constituie una din cele mai importante surse de distorsiuni, specificd vocodere~. lor de banda. © alt& surs& de perturbafii este legat& de determinarea para~ “metrilor ce caracterizeaz’ modelul tractului vocal. Pentru a obtine o calitate imbunkt&titA a performantelor vo- coderilor, cercetdrile actuale au in vedere atit un model Imbunata- fit al tractului vocal, eft si metode mai perfectionate pentru esti- marea parametrilor acestui model qi a sursei de excitatie. Una din- tre cele mai interesante realisXri In acest domeniu o constituie mo~ delul excitatiei multibanda /lo/, in care, pentru banda de frecventi din jurul fiecdrei armonici a frecventei fundamentale, se ia 0 deci~ aie de a fi considerat& drept sonora (vocal), sau nesonor& (nevoca— 18). Se utilizeazd, de asemenea, gi o metodd mad persectignatéde determinare a parametrilor tractului vocal. Astfel¥ parametrul clasic, specific sursei de excitatie, ce indica tipul fonemului, la nivel Global, cu o functie (sonor/nésonor) dependentd de frecyentS. Specr- trul fonemului analizat este divizat, in acest scop, tn mai multe benzi (peste 20), grupate 2n jurul armonicilor frecventei fundamen~ tale. Se analiseazd spectrul fiecdreia din aceste benzi si, fn funcs - 16 - : tie de componenta acestula, se stabileste dack banda respectiva este © band& sonord,sau nesonorde Datoritaé naturii cvasistationare a semnalului vorbit, dup& egantionare, [x(n)] , se aplic& mai intfi o functie fereastr& w(n), pentra a@ separa astfel un interval de lo-~do ms, obtinfndu-se segmentuls x(n) = w(n) » x(n) (1.12) Fereastra w(n) poate fi deplasaté,{n timp, pentru a selecta orice segment din reprezentarea fonemalui respectiv. Pe un interval de timp sourt, transformata Fourier X,(w) a acestui segment poate fi modelat& ca un produs + X,(w) = Hw) « [E(w )| : (2.13) in care H(t) represinta infagurdtoarea spectrald a segmentului ana— lizat, iar B,(u2) semnalul de excitatie. Intlpurétoares spectreld poate £1 repnezentattt, eventual, prin cooficienti liniari de predictie, coeficienticepstra. el ‘istimile de band& respective, sau, efectiv, prin benzi filtrate din spectrul semnalului original. De asemenea, parametrii sursei de excitatie gi cei ai anvelopei spectrale, se pot determina nu doar fn doua procese diferite, ci intr-unul singur, metodd cunoscutd gi sub denumirea de "analiza prin sintezi". Estimarea parametrilor mentionati se face ‘ins tn doud etape. In prima etapé, perioada gi parametrii tnfdgurétorii spectrale sint estimafi prin minimizarea erorii ntre spectrul original X y) si cel sintetic X gods In etapa a-doua se estimeaz& decizia sonor fnw~ sonor, in fune}ie de apropierea existentS intre cele dou spectre, co- respunzdtoare benzii din jurul fiec&rei armonici a frecvenfei funda~ mentales Parametrii acestui model de vorbire se determin’ minimiztna eroarea data de a : bate “ty, (ol AVF (co 1)? avo (a4) ee Considerfnd criteriul‘de eroare propus, in intervalele spec~ trale situate tn jurul armonicilor frecventei fundamentale, pentru armonica a m-a, criteriul de eroare va fi aplicat intervalului (ay? bay avind 1atimea egal& cu cea a frecventei fundamentale si centrat pe a m-a armonic& a acestei frecvente + te oy fee de} Ux] lag} favor] (as) an Pentru simplificare, in formula precedentd, s-a presupus ch anfdgardtoarea spectral& a fiecKrui interval considerat[a,, by J este de amplitudine constanta:a, + Din conditia de minimizare a erorii resulta ¢ ae a sei X,) | «| B,()|dw Lag! By - . 5 [B,C] *- am (1.16) Se pot astfel ob}ine parametrii corespunzitori infasurktorii spectrale, presupust de amplitudine constantd, pentru banda din jurul fiecdrei armonici a fundamentalei, care se pot utiliza apoi la sin- tezae : Broarea totalX minim, pentru toate .intervalele adiacente, adi~ cd pentru Intregul semal de excitatie, corespunzitor unei perivade 4 tonului fundamental, se calculeaz& prin insumare + ees bn (1.27) f in care €, este €, tn formula cireia (1.15) s-a inlocuit |a,| cu vas loarea din relatia (1.16). Se pot determina astfel parametrii anvelopei spectrale care s& minimizeze eroarea pentru o perioad% intreagi a frecvenfei tonului fundamental. Experimental, ea observat ci eroarea tinde s& varieze ea perioada T a frecvenjei tonului fundamental. Se poate obtine ast~ fel o estimare initial% a perioadei, apropiatY minimului global E, urmat% de o determinare mai precisd, corespunzXtoare gi minimizarii fiecXrei componente a erorii globale. In practicé, fn locul integra~ lelor din rela}iile (1.14, 1.15, 1.16) vor fi‘utilizate, binetnteles, aproxim&rile numerice ale funptiilor respective. Pentru o determinare m4i exact&é a valorii freeventei tonului fundamental, se poate efectua“gi o analisi bazati pe programare di~ namic, procedeu specific mai ales recunoagterii automate a vorbirii. Estimarea deciziei sonor/nesonor pentru fiecare armonica a frecvenfei tonului fundamental se face printr-o comparare, cu o vam loare de prag. a erorii normalizate,specifice zonei acelei armonici, definit® prin relatia + _uRAELERENT ES 4 : a" } X,(co}? dw (1.18) an Dacd valoarea erorii normalizate este sub valoarea de prag, se considerd cd pe[a,, b,] spectrul semalului va fi de tip sonor, gi de tip nesonor in caz c& este depdgitd valoarea de prag. Apoi sint determinati gi parametrii ce caracterizeazd tnfdgurftcarea spectra 1a pe intervalele respective. Sinteza se poaté apoi ob}ine prin efectuarea unei sumari de semnale sinusoidale, avind frecventele egale cu cele ale armonicilor fundamentalei gi amplitudinile determinate de parametrii ce definese valoarea tnf&guritorii spectrale, pentru fiecare interval [a,, b,] determinat ca fiind de tip sonor, precum gi prin sumarea unor semale de zgomot alb, filtrate conform intervalelor de tip nesonor, de am- plitudine corespunz&toare coeficientilor anvelopei spectrale fn in- - tervalele respective. Performantele vocoderului cu excitatie multibandy reaulté printr-o comparare cu cele ale unui vocoder cu excitatie simpla- band3, fiind , tn general, mai bune gi chiar mult mai bune in cazul 4n care vorbirea supush analizei gi apoi sintezei este ‘Insotita de zgomot de fond /1lo/, 1.2.4. Sinteza pe basd de formanti /4,1 / Aceast& metodé de sintezd reprezint&,de fapt,un caz parti- cular al metodei precedente, fiind considerat& ca o metodad distincta doar datorit& faptului c& este una din cele ‘mai frecvent utili~ zate, f&ctnd obiectul mai +multor implementaérd sub forma unor eircuite integrate specialifate /1, 11/. = 19 5 Spre deosebire de metoda precedenta, ce avea ca obiect re- facerea tnfésurdtorii spectrale fn toaté banda de freové¥ stabili~ +8 pentru sinteza, sintezd pe baza de formanti tsi propune s& refack 4nfdgurdtoarea spectral doar tn acele regiuni care prezint& o impor- tanf& deosebitk pentri inteligibilitatea vorbirii, adic% fn zona for— mantilor /3,4,9/. Experientele efectuate fn acest domeniu /4/ au pus fn evidenfa faptul c& pentru a asigura o inteligibilitate foart& bunk a vorbirii sintetizate este suficienté refacerea infagurXtorii speo— trale corespunztoare primilor trei formanfi, importanta celorlalti doi fiind destul de redus& din acest punct de vedere, Analiza va avea,in acest caz,rolul de a extrage din vorbirea ~ naturald parametrii caracteristici pentru definirea formantilor, precum gi cei corespunsiitori sursei de excitatie, pentru a comanda un sintetizor care, tn principal, este de tipul celui reprezentat tn figura 1.1. Parametrii formantilor se referi la frecventa centra 1E, amplitudine gi bandd corespunzdtoare, m&surata, de regulX, la 3 @B fath de nivelul componentei centrale. Precvenfele formantilor corespund unor frecvente de rezonan- te a tractului vocal, ce determin aparitia unor mexime tn spectrul semnelului de vorbire gi ele se modifica permanent tn timpul vorbi- rii, functie de pozifia organelor de articulntie. Variatii similare suferd gi amplitudinile, precum gi benzile acestor formanfi, ulti- mele ins tn destul de nic# afsurd, deoarece idtimea formanfilor depinde mai ales de pierderfie ce eu loc la aceste frecvente tn trac~ tul vocal, ele putind fi considerate constante intr-o prima aproxi- matie /4/. Importanta, de aceea, pentru asigurarea inteligidilit: Vorbirii cursive, este dinamica formantilor, adica cunoas - = 30 = teres modului de variatie « frecventelor centrale st e smplitu- dinilor lor. Datoritd ineytiei organelor de articulatie, aceste ve- vietii sint ined destul de lente, ceea ce face ca paremetrii respectivi s% ocupe un volum redus de semnal, ier conversia lox analog-numericd 34 conducd, in cazul utilizévii tehnicii digi- tale pentru xeelizerea sintetizorului, la un volum foerte redua de-memorie necesax stocézii informstiei de bazé, comparativ on metoda precedent a. Gonsiderind cA se urméregte doer sinteza primilor trei formanti, se poste-determina foarte exect numérul de paremetri corespunzitoni pentra comanda filtrului multiplu, ca fiind 6 (tred referitori 1a frecvents centreld gi trei la amplitudinea éi), le care se mai adaugd alti 3 corespunzitori suraei de ex- citatie (frecventa generatorului de armonici, amplitudinea gi tipnl genevetorului de excitetie, care va.fi folosit pentru sin- teza unui fonem). Celitatea vorbirii sintetizate prin-metoda formantilor depinde in cea mai mare m&suré de corectitudinea on cere ge realizeazé analiza, referitor, mai ales, le determine- xea corecté a frecventelor centrele gi e amplitudinii formanti- lor, precum gi a verie{iilor lor in timp. Deck detexminares e- cestor parametri pentru sunete izolate este o problemé destul de simpl4, determinarea lor in cursul vorbirii cursive este destul de complicet&, datorité atit verietiilor, cit gi inter- ferentelor care apar cu sunstele vecines Domeniul. de variatic a primilor trei fotmanti pentru cele mai importante vocals ale limbii romane este prezentet in tabelul din figura l.ll.a, pe beza céxuia s-e realizat gi greficul din figura 1.12.5, in care se observa 04 apar suprapuneri intre domeniile de aperitie a formentilow pentre vocale diferite, ceea.ce explic& complexita— tea problemei. De asemenea, problema sintezei prezinté compli+ catii prin necesitetea de a realize filtre comandabile, atit ca bend, cit mai ales ca frecventé gi amplitudine, corespunzitoa- xe formantilor. Tehnica anplogicd a fost in acest caz depagité complet decea digitald, unde filtrele digitale prezinté faci- LitSti mult mai importenteZpentru generorea formantilor. Sintetizoarele enelogice formantice au filtrui multiplu format dintr-un ansamblu de filtze, egal cu numérul formantilox propugi a fi ointetizayi gi care pot fi conectate in serie, sau in paralel. iov Astfel, schema bloc generalé a unui sintetizor formantic poate avea una din cele doud forme reprezentete in figura 1.12, Hizl 3000 (s400He}f Amplitude Vy 3 2800 025} or \)2 A 2000- 2: { F 1500; ons t 1000 : 00 Y ale 0.08} - 500) a I i 0 / Bod Todd 7500 2600 2500 3000 3600 4000 f(Hz) (Uj teeta acer onsaseraaed| } domeniile primitor 3 formonti bleoracteristicite omplitudine -frecven{é o primilor 3 formant Fige1.11. Date caracteristice formentilox unor vocale ele limbii romane in varient& analogicé de realizere, varienta digiteld utili- - ind un singur filtyu digitel, datoritd posibilititilor oferi~ te de filtrele digitale de a vealiza structuri de filtze multi- ple /12/. Wily tala °j e NER lcenerar. [zsomor Z60MoT FuRo] FRO @ e * tavpL bef a NJ Iron bey FORM, comutctor comutster] _o 4 > GENER. cencrar]__f Bit. laRwoN: Lat ARON FTA + ai FORM PAu 3 Fe o. poralet bserie Figel.12. Schema bloc unui sintetizor formantic pentru 3 formenti Determinares parame{rilor formantilor se poate realiza gi in tehnick analogicd, if special prin numizazea trecerilor prin zero a semnelului rezultat printr-o filtzere in zona de aparitie a fiecdrui formant (figura 1-13),dar solutia cea mai aventajoasi o oferd totugi analiza spectrald, prin transforma- ta Fourier, realizaté pe cale digiteld, cu un sistem de achizi- a - 225 tie gi prelucrfri de date analogice prin metode digitale. > FTB FTB CU BANDA Rae NoA} | 300% VARIABILA oo ft aid NUMARATOR [TRECERI PROV fi FTB FTB CU BANDA NUMARATOR | _'F2 [002.004 VARIABILA ie RN Fig»1.13. Schema bloc a unui sistem de determinare pe cale analogic&’ a frecvenjelor primilor doi formangi. Problema determingrii formantilor se complica in cazul con~ soanelor, comparativ cu vocalele, deoarece,in acest caz,formangii nu stnt la fel de conturati ca la vocale, iar variatia lor in timp este mai rapidd. Din aceste motive, la consoane, se recomand& ca fiind mai indicat sX¥ se aisoare momentele spectrale tn care apar maxi~ - me de energie: M(fy5 A,) utilizindu-se in acest scop niste valori me~ ii gi medii patratice de freevent 2 oA ie (1.19) r Se A, ack 2 She A. fy = (1420) = a - definindu-se gi o 1dtime (dispersie) a spectrului prin relatie : At=22 ~ #2 (1.21) fe - Un sintetizor formantic mai performant va confine astfel tn c& dou filtre, unul special pentru consoane,.comandat prin inter~ mediul parametrilor ce definesc momentele spectrale ale acestora gi un altul specific conscanelor,nazale, conform schemei bloc din fi- gura 1.14, Un sintetizor formantic digital,destul de performant, implemen- tat intr-un circuit integrat specializat gi foerte raspindit la ora actual& este circuitul MBA 8000,realizat de firma Philips /1/,iar cer- cetari recente fn domeniul sintezei prin formanti urmirese gi obtin © vorbire sintetizaté de bund calitate /24,28/. = 257 sey FLTRU |CONSOANE | NAZALE GENER JARMONICI Fee FILTRU FILTRU + FORMANT fm} FORMANT JAMPLIF. 1 2 Dituzor ats | condos i) T Meg ae FILTRU_ CONSOANE (MOMENTE SPECTRALE) tims Figel.14. Schema bloc s unui sintetizor formentic adaptat si pentru consoane 122.5. Sinteza prin predictie liniaré /13/,/14/,/15/ : 1.2.5.1- Principiul predictiei liniere /16/ Metoda predictiei liniere este o metodd de analizé gi sintezd a semialelox reprezentate numeric, care au proprietatea c&.intre egantioanele succesive exist& o dependenta specifick autocoreletiei. Diferente dintre egantioanele adiacente va avea in acest caz 0 gami de veriatie mai redus& decit a semnalului insugi, pro- prietate utilizetaé gi in cadrul metodelor diferentiele de coda- ze si care favoriseasd codarea acestei diferente ou un numéx mai redus de biti,comparativ ou semnelul propriuzis. Existenta corelatiei intze eganticenele unui semnal-va permite insi gi o reprezentare a acestuia printr-o alt’ metodd, ce exploateazd existenta unei depondente nu aumei intre dod egantioene adiacente, ci gi in cadrul unei. seovente formate din mai multe egantioane consecutive. Predictia linierd oqnetdé in acesa of un egantion el’ unei secvente numerice corelate Zpoate fi aproximat printr-o combina+ tie linierd a mai multoz egantioane precedente conform relatiei: Pp x(n) a ay ex(n-k)+G69(n) (1-22) - ‘24° in care a, sint nigte coeficienti de ponderare,-G un factor de cigtig, jer s(n) un semnal numit semnal de excitatie. Semnalul de vorbixe fiind un semnal corelat, se preteazi bine scestui mod.de tratare. Similar metodelor de codere dife- rentiald, se poate defini un semnal de aproximere (predictie) : Pp En) = a %Xpox(n=K) (24.23) numit predictie’linierg, cu coeficientii {a} numiti coeficienti de predictie gi cu sistemul care-1 genereazi numit predictor linier. : Intre relatiile (1.22 gi (1.23) se poate defini ercares de predictie e(n) ca fiind diferenta dintre cele dovd semnale : Pp e(n) = x(n)-Ra) = x(n) - 3S Oox(n-Ke) (1424) pentru.care se poate obtine o xeprezentare echivalenté, ou aju- torul transformatei z : B(2) = A(z) -X¢2) (3025) in care P B(z) = 2= 2 ayn (1,26) k=l poste fi consideraté ca functie de transfer a unui sistem liniar numit filtre et erorii de predictie, conform figurii 1.15. | x)—s) a(n) 2 te a Figel.15. Simbolul filtrului erorii de predictie Conform relatiilox (1.:25) gi (1.26) se poate obtine : E(z) =k. (2) = lz, (1.27) A(z) . = a 2 kel ee Relatise precedentd indicd posibilitatea de realize aproxina- zea functiei X(z) eu o functie de transfer de forma : H(z) = (1528) = 257 ce corespundefunctiei de transfer a unui filtru numeric de tip "numei poli" gi in care G reprezinté un factor de cigtig,oe ur- meezé a fi determinat din conditia ca si se poat&é scrie : R(z) =¢ (1,29) fn care E(z) este o aproximare a functiei R(z). In domeniul timp relatia precedenté este echivalentd, au : @ pentru n=0 o(n)= : (130) O fn rest Valoarea factorului G se determin&é aplicind conditia de conser- vare a energiei intre functia e(n) gi eroarsa de predictie mi- nimi a secventei {e,}: s x2 2 on = ong xen (132) in care ey este erosrea pitraticd minim& totela, definité ¢i ca energie a exorii de predictie. Decd se considerd : a, = %, gi se tine cont de rel.(1.22), (1.52) relatia (1-24) devine : e(n) = Gea(n) (4.33) ceea ce pune in evidentd un aspect. foarte important gi enume ch sennalul “erorid’ de predictie este proportional ou semnalul de excitatie, prin internediul factorului G, ceea ce inseamné od semnalul de eroare poate fi utilizat gi ca semnel de excitatie a(n) = S.0(n) (1.34) G 1.2.5+2+ Aplicerea predictiei liniere 2a semnalul de_vorbire Avind in vedere considerentele precédente, rezult& cf tractul vocal poate fi modelat din punct de vedere al prediot¢iei linisre cu modelul din figura 1-16. Datorité naturii nestationere » semnalului vocal, estima rea-coeficientilor de predictie liniaré trebuie facuta pe seg- mente. scurte de timp’ (lo-20.ms), pe care se conataté o comporta- xe a tractului, vocel ce poate fi consideraté stationar’ gi co- respunzitosre generdrii unui anumit sunet de vorbire. Pentru a determina coeficientii de predictie se utilizeazé tot metoda mi- eva nimizérii energiei erorii de predictie medie patratice totale: — 2 2 = Sona) = S fa, (m) - ms O03, (a0-ke)] (1435) in care x, () reprezinté un segment “vocal din vecindtetes egan- tionului n, pe care se consider% c&é s~a realizat anelize. GENERATOR DE IMPULSURI ~ & sin) xtal : “H FitRU NUMERIC LO y? g GENERATOR | —comuictor G oe lampitudine?—_porametri_de z2GoMor predictie tai) Fig.1.16. Model de aproximare a tractului vocal prin predictie liniar& Pentru minimizare, din dexivares relatiei precedente xe- zultd un sistem de ecuatii diferentiale liniere : 26, cried : ° ds leeep care conduce la sistemul de ecuatii : P Z wy(ar4) ox, (m) = 2 oye 2x, (mt)ex,(mek) (1637) cI + Introducing notatia : P,Q) = Do x, (mda, (mk) (1438) m eee sistemul (1.37) se mai poate scrie : Dp Zed kK) = = #40) eur L14, devine tot mai lenté, estfel incft oregterea in continuare @ num&rului de coeficienti de predictie nu mai este justificet& de rezulta- tele care se obtin. : Din acesagi figurd se mai poate remarca gi feptul ci o- roaraa de predictie este mai mare pentru sunetele sonore decit pentru cele nesonore, deoarece gi energie acestor aunete este, in general, ou aproximativ un ordin de marime mai mare ca cea a suneteloy neaonoze. De o mare importanté in realizerea.unei bune sinteze prin predictic liniard este gi elegerea segmentului de analizd (N). Deoarece numfrul total de caloule depinde de N, este de.dorit ca acesta-si fie cit mai mic, dar, pe de alt parte, datorita periodicitaétii sunctelor sonore, pentru a se refleota accat aspect in sintezd, eate neceser oa N sd contind citeva pericade ale frecventei fundamentele. Utilizarea unei ferestre de ponderare impune, de asemenea, lunginea escventei de analiz’, estfel incit erorile de inoeput gi sfirgit, mai mari, ce se obtin in acest caz, sé poat& fi ne- glijate. Practic, pentru o frecvent& de egantionare ouprins’ in= tye 8-lo Kiz,se recomandd o“durat® de anelizd corespunzétoere la loo-400 egantioane. Acest numix mai poate fi redus in cazul in care se reelizeazé o analizé sincrond cu frecventa fundamen— tal a vorbirii, in care caz se pot folosi segmente de analizé ce contin numai doud periogde ele fundementalei. Reelizarea unui sintetizor de vorbire-prin prediotie li- nieré presupune simulerea modelului reprezentat in figura 1.16 gi comande se cu mn set de vectori de forte + SPRFKE Vay = Veg be yG o2y fage++mg) (ae) in care e, - veprozinté pexametzul ce comandé frecventa tonului fundumental pentru generatorul de axmonici ; eo, - Yeprezint& paronetrul ce comandd comutatorul sonoz/ nesonor ; = {RFAHMMpK Factor ul de clgtig al semnalului de excitaties 4 = 345 a, ~ pexametri de predictie. Implementaxea sintezei prin predictie lintaré,pe sisteme cu lo- gic& progrematd,impune condiyii de vitez% de oaloul, in vedexea realizérii sintezei in timp real, motiv pentru cere realizarea unui sintetizor eficient, prin predicyie linisrd, pentru limba roméné,rdmine incd o problemi deschis&, naputind fi razolvaté cu mioroprosesoare uzua- ; la pe 8,sau 16 biti, Eroore Gi doar cu micropro- pormalizat’ casoare de tip bit - slice, sau cu pro- eosoare do semnal. 4 8 12% «2P Fig+1.18. Variajia erorii de predictie normalizete in functie de numdrul coeficientilor de predictie 1e3. Metode de gintezi a vorbirii ou codificarea formei de_semnal * In cadrul acestor metode, informatia de bazd este formeta din segmente ale formei acustice a vorbirii, putindu-se opera le unul din urm&toarele nivele : - la nivel de cuvint; - le nivel de morfem; - la nivel de difonens - le nivel de fonem {alofon). Structura sintetizoruiui este aseminatoare celei a unui sistem de achizitie si prelucrdri de date analogice prin metode nume- tice, asistat .de un miorocaleulator, ssu un sistem similar de~ dicat, realizet pe baza implement&zii unui microprocesore ilo Schema bloc a sistemului este reprezentatd in figura 1.19. MEMORIE DISPLAY GRAFIC Microfon O-[ eure} fae circuit circult Ofte PROCESOR| Oe INTERFATA tmicro- INTERF. coicutotor) : CONVERT Difuzor AMPLIFICAT FU i n ond Figel.19. Schema bloc a unui sintetizor cu codificarea formei de semnel 2 In cezul varientei in care segmentele ce constitute in- formatie de bazé sint chier cuvintele, acestea ae Inregistrea- z& sub formd numeric’ in meporia celculatorulai, la. adrese.pre~ cise, fri pauze, de unde se extrag in ordinea alodtuirii tex- tului.ce urmeazd e fi generat, Pentru a genera pauzele, se in- xegistreazd o zond de memorie cu zgomot de fond, care se cicles— 2 apoi de un numdy de oxi pentra a obtine o pauzd de o anumitd durata. Prin tehnici-de programare,se realizeaz& apoi un tabel de-sdrese corespunzétosre inceputului fiec&rui cuvint gi sfix- gitului adu, in cave sint intercalate gi adrese ale zonei de zgomot de fond, pentru @ merce pauzele dintre cuvinte. Conform acestui. tabel, datele sint extrase din memorie cu o vitez’ covespunsétoere realiz&rii.unei vorbiri cursive .(vi- tez& ce poate fi programaté) gi aplicate Ila intrarea converto~ rului nowexic enelogic, 16 a ciitui fegire, dupi filtrare, se ob+ ine mesajul ce trebuie geherat. Penzele se introduc’ sub forma unor zone cu zgomot de fond, deoarece acest fapt corespunde gi vorbirii reales Absen- $e ordcdyni seanel intre cuvinte d&.aspectul-unei vorbiri nena- turele, in caze inceputul gi sfixgitul cuvintului se percep foerte brusc, ceea co dexenjeazé la auditie. ~ 36 - Refacerea formei semnelului, plecind de le inregistrarea unor.cuvinte, asiguré calitetas cea mai bund a vorbizii sinte- tizate, permitind recunoagterea vocii celui ce.a-pronuntet cv- vintele, deci asigurind o naturelete gi o calitate foarte bune. Este necesar insi,in acest caz,un-volum de memorie pentxu inre~ gistrere, motiv pentru care sintetizorul respectiv dispune de un vocabuler destul de limitat. Inregistrarea cuvintelor in me- morie se face printr-nune din teknicile obignuite de converaie enalog-numericé (MIC, delta, sau variante ale.gcestora). In sazul in care informatie de bazd este inregistratd 1a nivel de morfeme, acestea se aleg, de regul&, ca fiind silebele cuvintelor care trebuie sé alcdtuiescd vocabularul sintetizory~ luis Se procedeaz& deci, mai intii, la o analiz& a semnalului de vorbive,-care se.xealizeezd cu acelasi sistem de echizitie gi prelucrari de.date (prezentat-in figure 1.19), enalize-gi segmentarea efectuindutse cu ajutorul unui dispozitiv de tip display grefic. : Dac& informatie de bazd este selectatad sub forme difoni~ lor, se obtine o sintez& prin difoneme, ier dacd se inzegistrea- 28 aub formé de.foneme, sau slofoni, se obtine o sintez& fone- mick. Acest eintetizor fonemic, degi poartd acelegi-nume cu cel specific codificdrii sureei de vorbire, se deosebegte.fundamen- tal de acela, deoarece nu-gi propune sé modeleze tractul vocal, corespunzdtor producerii unui anvmit fonem, oi interceleand doax functia de timp corespunzétoare.semnalului de vorbire sub form’ acusticd, pe care o are memorata. - Pentru a eda fidel gi tranzifiile de la un fonem la al- tul, practic, acelegi fonem se inregistreazd in mai multe ve- viante, addugindu-i~se gi un vest din fonemul ou cere se leagi in cadrul cuvintului respectiv, iar sintetizorul este ounoscut freovent sub denumitea de sintetizor ox alofoni. - Trebuie fdout% o distinotie insi intre acest tip de.sinte- tizor gi sintetizorul ou difoneme, deoarece primul inregistreazé doar un rest din fonemul 44 legiturd, pe cind cel de-al doilea inregistreazd ambele fonemé, inclusiv trenzitia dintre ele. . In cazul sintetizorului cu alofoni, s-e calovlat of pen- trun fiecara limb’ exist un numér de citeva mii de astfel de combina tii.intre. foneme diferite,ce.se pot cuple, gi care az tre- bui menorate pentru a ‘permite o sintez& ou o bunk inteligibili- tates : ee ~37 - Pentru e se asigure gi o calitete corespunzdtoare eate necesar sd se mai prevaddé gi inregistrarea fonemelor in doud variante : accentuate gi neaccentuate, Astfel alofonul "o" din cuvintul "doi"este diferit de cel din cuvintul "doué",“ultimul fiind accéntuat. ee Cuplores @ doi alofoni,in cedrul sintezei,trebuie ef so realizeze printr-o tennicd.de interpolare, cere,in cel mai sim- plu caz,consté in a delimita fiecere astfel de fonem ou un in~ ceput gi un efixgit de nivel aproximativ constant. Aceasté mé- suraé de precautie inlétur& trenzitiile brugte dintze doud fone- me de nivele mult diferite, diferente de nivel fiind perceputé ca o pocnitura, ce deranjeazi enditias Necesarul de memorie pentru memorarea tuturor alofoni- lor necesarisintezei unui vocabuler nelimitat este destul-de maze, dex se constaté cé, pentru un voogbular uzual, aceste este in jur de 2-000, putind fi astfel implementat gi pe-un mi- crocalculator cu o memorie disponibilé de ordinul. megaccteti- lor, sau chiax sutelor de kiloocteti. Pentru oa aceastdé momozio sé fie cit mai ugor de realizet, se combind svantajele momorii- lor RAM dinemice, de a realize cepacitdtyi mari de memorie,cu capsule putine, cu memoriile externe,de tip disc flexibil, pen- tzu care en fost eleborate programe de utilizere foarte eficien- te gi cave permit schimbarea rapidé a suportului de memorare (discheta). Se ajunge astfel le ega numitul “disc virtuel" cau "RAM-dise" reprezentat de o memorie de Giteve gute dé kiloocl toti, sau citiva megaccteti, care se incarcé prin intermediul unei unithti de disc flexibil, gi care, in continuere, este exploateta prin intermediul progremelor utilitere efexente o~ cestui periferic, dar in conditiile unei viteze de acces si a unei fiabilitdji superioare (figura 1.20) /22/. : Un sintetizor pe bazd'de segmente de vorbire inregistre- te gi realizet cu logicd progrematé va aves. astfel schema bloc genorelé conform celei reprezentate in figura 1-20, in care ¢ fost inclusé gi pextea de echizitie a segementelor de vorbire. : Microfon Cfacuecl-| COMPRESOR Fu CAN DINAMICA, DISPLAY GRAFIC oisc FLEXIBIL eo MICROCALCULATOR 4 OISC VIRTUAL [RAM DISC] Dituzor CNA FI AAF Pigel.20. Utilizerea disoulni virtual in confi- guratia unui microcelculator -30- 2. SISTEM CU LOGICA PROGRAMATA PENTRU ANAbIZA VORBIRIT 2.1. Obiective impuse de sintezi analizei vorbiyii Sinteza vorbirii implich reelizarea unei operstii presla- bile de enalizd, in acopnl determin&rii parametrilor pe baze c&- rore se efectueazé sinteza. Functie de metoda de sinte2d abordaté, va depinde gi mo- dul in caze txebuie sé ae efectueze enaliza. In general insé, pot fi deosebite trei domenii principale de efectuere a analizei vorbirii, valebile pentru oricare din metodele de sintezd utilizate si anume : : - analiza in scopul selectérii unor perametri oe cazacte- rizeazé vorbitorul ; ‘ - anelize in scopul selectérii unor perametri ca definesc semnificetie semantici a vorbirii ; - enalize in scopul realizévii unei compresii a vorbirii. In primal caz, parametrul esential este frecventa funda- mentglZ a vorbitorului, functie de care depinde naturaletea vor~ birii sintetizate. Se poate astfel genera, prin sintez&, o vorbi- re cy o voce aparent neturalé, ce sdigereazd prezenta unei per- soane, sau cu o voce impersonald (mecanicé), ce sugereazé prezen- te vovi robot, sau, in general, a unui gutomat.care vorbegte. In primul caz, se poate genera un ton fundamental prelevat de la bn ahumit vorbitor uman, sau unul generat artificial, dar ase~ mindtor unei anumite voci, astfel incit ascultétorul s& aibé sen- zatia c& identificé sexul, virsta, sau chiar persoana care vox- beste. Functie de metoda de’sintead utilizatd, acest parametxru poate fi individual (cazul getodelor cu codificarea sursei),sau inclus in restul informa tied (cazul metodelor cu codificarea for- moi). -Analiza vorbirii efectuat& in scopul identificdrii unor perametri caracteristici din punct de vedere semantic implica : 4. OOOO ~ 4o~ - = stabilirea unor paremetri care sé permit& identificaree tipului fundamental de fonem (sonor, nesonor) ; - stabilirea unor parametri care si permitd identificerea fonemului propriuais (formanti, coeficienti de predictie, etc). Analiza in scopul reolizdrii unei compresii este specifi- o& sintetizoarelor bazete pe logicd programataé gi uxmaxegte redu- cerea volumului de memorie necesar stocarii informatie de bazé. Indifexent care din obidctivele entericare este urmérit, analiza gemnalului vorbit se realizeazd in domeniile ; amplitu- dine, timp gi freoven}é, cees ce impune analizoareloz de vorbire capecitatea de e efectua o enalizé temporelé gi une spectreld. Avind in vedere posibilitétile de @ rezolva aceste proble- me prin metode numerice, solutia optiad pentru realizarea aneli~ zei vorbirii consta in implementerea logicii programate. Pentry aceasta, se pot realize sisteme dedicate analizet vorbixii, sau se pot adapta in acest scop calculatoare de uz ge- nezal. : : Din punct de vedere soft, pe ling’ softul curent, speci fic sistemelor de calcul (soft de operare, de programare, ete), sistemele de analizé a vorbirii se pot considere un caz particu- ler al sistemelor de anelisd prin metode digitale a semnalelor analogice, oftore le este necesar gi un soft dedicat, destinat prelucréxilor propriuzise, im care trebuie s& existe rutine ape~ cialisate pentru reelizexea urmétoarelor functii principale + - comanda gi controll sistemelox de achizitie gi resti~ tuize a senndblor anelogice (egantionare, montinere, conversie A/N gi N/a) 5 - efigerea pa un terminal grafic a semelelor achizitio- nate, sau restituite ; - posibilitatea de a izola un anumit segment de semnel ; ~ posibilitatea de a indica pe texminalul grafic un anu- mit moment 22 semnalului, prin intermediul unui oursor, ou spe~ cificarea valorilor oe caracterizeazé dimensional acel moment 5 = efectusrea transfoxmirilor Fourier, directé gi inversd ; - posibilitetes de atindica, printr—ua cursor, o enumita Linie spectrelé din apectyul semnalului enalizat, cu specifics~ rea amplitudinii gi frecventei ; - efectuares unei.snalize de corelatie gi autocorelstie ; - implementarea unor struoturi de filtre digitale ; - posibilitates de a efectua segmentéxi ale semnalului enalizat (in domeniile timp sau frecventd) gi de e le combine in A ESR SS -41- diferite moduri (concatenare). Aceast& gama largi de cerinte impune un grad de dificultate destul de ridicat in realizarea unui analizor digital de semnale ana~ logice performant.Astfel de sisteme stint produse, tn serie,doar fn tarile cu tehnologie avansataé,iar pretul lor este destul de ridicat /23/0 Mai trebuie renarcat si faptul cA analiza vorbirdi, efectuata an scopul determindrii informatiei de baz& pentru sintez&,este mai simplu de realizat,comparativ ta analiza aceleiasi vorbiri efectuata 4n scopul recunoasterii automate a vorbirii,sau a vorbitorului,care introduc dificult&ti suplimentare,impuse atit de viteza de lucru,care trebuie s& fie In timp real,clt si de faptul c& analiza si interpre- tarea rezultatelor trebuie sa se facd automat, fara interventia opera~ torului uman. Astfel,de exemplu,tehnici speciale de determinare automaté a frecventei fundamentale,a tipului de fonem,a formantilor,sau compara— rea unor tipargfonetice,cum sint numdrarea trecerilor prin zero, dé- terminarea Kepstrumului, sau programarea dinamicd /13/25/46/, nu sint necesare. Deoarece etapele de analizi si sintez& a vorbirii sint distinc~ te, analiza efectuindu-se doar la inceput, pentru definitivarea in- formatiei de baz, operatorul uman poate determina cu euficienta pre- cizie parametrii importanti,ce definesc vorbirea, pe baza formelor de und’ corespunzatoare in domeniile timp si freeventaé. In cazul sintezei prin predictie liniard, se pot determina, de asemenea, prin calcul, coeficientii de predictie corespunzatori, utilisind algoritmi de cal- cul ce implementeazd una din metodele elaborate pentru calculul aces- tor coeficienti /2/. Alte metode de analizd au In vedere doar 0 codi- ficare optima a vorbirii discretizate,functie de anumite criterii ur- marite /52/53/. 22+ Metode numerice de prelucrere a semnalelor analogice esantionate, utilizate frecvent in analiza vorbirii Esantionarea si codareg semnalelor analogice deschid calea prelucrérii lor prin metode nimerice, cu ajutorul Sistemelor bazate pe logicé programata. In cadrul acestor metode,din punct de vedere al analizei vor- birii, efectuataé in vederea sintezei,intereseazd mai ales transforma~ ta Fourier discreta(directa si infersa) si analiza prin predictie li-~ niara, ee aore Trensformeta Fourier discretd directd permite ob{inezea spectzului.de frecventé corespunzitor sunetelor vorbirii, din cave se pot determina : ~ frecventa fundamentalé gi emplitudinea ei ; ~ tipul fonemului (sonor, nesonor) ; ~ frecventele de apexitie a formantiloy gi emplitudinile lor ; ~ spectzul semnificetiv al unui anumit sunet de vorbire ; ~ modificdrile de spectru survenite in cezul sunetelor accentuate, fayé de cele neaccentuate , etc. Traneformeta Fourier digcreté inversi permite refaceres formed de variatie in timp a unui aunet, plecind de la spectrul su de freoventé gi este frecvent utilizetaé in-determinarea zonelor spectrale semnificative ele ecelui sunet, din punct de vedere a inteligibilitayii. Se pot astfel elimine anumite zone ale spec~ trului gi se poste reveni le forma in timp a senmalului, ce poa- te fi ascultatd prin intermediul unui traductor eloctroacustic, a pentya a se aprecia in ce misur& au fost afectate inteligibili- tatea, naturaletea, etc. Se pot astfel depista zone spectrale re- dundante din punct de vedere a inteligibilitétii, ce pot consti- tui o cale de vealizere a compresiei informatiei de bazi pentru sintezé, cu avantaje in reducerea volumului de memorie necesar stocdrii.acestei informatii in sintetizoarele bazate pe logicd progrensté. Analize prin predictie linierd este necesera determinarii coeficientilor de predictie liniera pentru sunetele vorbirii, coeficienti ce vor constitui informatie de baz in vederea sinte- zei prin eceasté metodd,conform modelului predictiei liniare,pre- zentat in capitolul precedent. 2.2.1. Transformata Fourier rapidd /13/,/18/ 2.2.11. Clasificare a tipurilor de slgoritmi TFR Plecind de.le trensfoxmata Fourier normal&, algoritmii de TER s-au dezvoltat, in genetal, pe trei dixactii : - algoritmi in care secventa de N egantioane este impar- 4it& succesiv in subsecvante din ce in ce mai mici (el~ goritmi cn decimexe) ; - algoritmi pentru un numar N impus 5 << O ET -43- - algoritmi cu descompunerea matricei Ty intr-un produs de mai multe matrici (algoritmi Winograd). Primii (printre care gi algoritmul Cooley-Tukey) se uti- lizeazi in cazul in care numérul de egantioene (N), carore li se aplicd tronsformata, verificd relatia: We oe (2.1) Algoritmii pentzu N impus se utilizeazé in cazul in care N poate fi xepezentat ca un produs da factorxi : N = pysPgreePy, (2,2) Noting a) = Poreed, (2.3) vezulta Ne peg) . (264) Geea ce conduce la ideea-de a impdrti secventa de intrare in p) soovente de cite q, egantioane, asooiind fiscaze al p,-lea egan- tion cu o secventé daté. Reletia N-1 ae x(n) Wee ou k=0,1,2,e00N-1, (2-5) Bro TED {x3 coxespunzétoare TFR normale /18/ devine in acest caz : Sige aa aot pyetek Sang = Saxe eS x(ayeeD) Wipe + slate (pypeade Patek + oes x(pyttpy-1) hy oy (2-6) sau Pyot qt pyrk oe Fi X= So Wh BD x(pyrel).w (2.7) VS ipa N fo at v in caze i a- pyrk = gac? Z, Bepeh. ‘e = = x(pyz+0) «wee (2.8) . a deosrece : . pytk ae pentzu N= pyq) xezultd Wy" = a (2.9) gi se poate interpreta ci X,, dat de yelatia (2.7), este oxpri~ TTT - 44- mat in functie de p, TFD a unor seovente de lungime a, egantios~ nes i Se poate axiita cd in acest caz sint necesare N(p,~1)+p, +4" inmuljixi gi sumdxi complexe. In algoritmii de tip Winograd, se cauté pentru mtzicea T din ecuatia [J = Ty] (2.10) ce caracterizeazd TFR normeld, unde ees eee aw; a Cae Be : (2.11) : j-1 (u-2)? Lv 0 descompunere de forma + Ty = SyeOyeTys (2412) in care V, esto o matrice incidenté, de disensiuni Jx¥ (ca ele- - mente de 0, 1 si -1), Cy este o metrice diagonals, de dimensiuni UxJ, iex Sy este tot o metrice.incidenté, dex de dimensiuni NxJ. Se poate demonstra existenta descompunerii din relatia pentru valor suficient de mari ale lui J (exemplu : Winograd a elaborat gi metoda de combinare a acestui al- goritm in structuri inlanfuite, pentru valori mai mari ele numé- rplai de egantioane considerate (MN). In tebelul din figura 2.1 sint reprezentate cifre compara- tive privind nom@rul de operatii necesaze pentru TFD gi FR de tip Winograd. Implementarea acestei proceduri implick ins&_atit reordo~ hazea datelor de intrere, inainte de prelucrare, aft gi a celoz de iegire, dupi prelucrare. f~ on ‘TED W Winograd | Lo (x) (+) e9) (+) 32 192 416, 30 72 48 352 784% 48 108 256 2304 5248" 240 648 saz | 6144 - leas | S04] 1872 jo24 | 12288 26624 | 1008. 4212 2520 44032 92672 _| 2520) 11232 102348 Fige2.1. Tgbel comparativ ou numirul de dperetii necesare Pentru realizarea TFD gi a TFR tip Winograd -45 - 2e201.25 Algoxitmi cu decimere pentru TER Sub sceast& denumixe sint cunoscute. variantele clasice gi totodat& mai frecvent utilizate ale algoritmilox pentru TFR. Se poste descompune in secvente, in acest caz, atit secventa in timp a semnalului {x,}, oft gi cea in freoventé {x}, functie de care algoritmii respectivi se vor numi cu "decimare in timp", sau cu “decimare in frecventa". 7 fe 2.2.1.2+1. Algoritmi TFR ou decimere in timp Algoritmii.cu deoimare in timp preaupun divizaree in aub- secvente mai scurte a sqcventei. {x}, ier secventa {X,} va re- zulta din combinarea transformatelor covespunzétoare. Acegti el- govitmi se utilizeazd, de reghld, etunci cind num&rul agentioanc- lor (N) luate in considerare se poate scrie ca o putere a lui 2: N= 2 : (2.13) In acest caz secventa {xy} se poate impérti in dovd sub- secvente + - perd {a,} gi - impard [h,), .separind egantioanele cu indice par de cele cu indice impar+ Avem + {fa nen N cu neé[o, & -1jfnz (2614) By * Feng fo $ J La fel se poate separa in dowd componente gi X, t N-1 zo ke 2nk 2. k QM oS Gg ERs co POY ET (2.15) Oe” 5 io : Dar datorita mod ulus de definire a functiei Wy /18/ ae ir Py ce . (2.16) eto 8 2 5 2k. -3 Genk & -25§ SPk J nk ee Co re (ae B/e)ce who (2017) Tinind cont de proprietatesa precedentd, X, devine : N/2-1 N/2-1 : le = k 2nk Ze enttie + Zs Fons WME (2-38) Reo ag cy

S-ar putea să vă placă și