Sunteți pe pagina 1din 193

INTERFETE OM-MASINA

Titular curs: Prof. Dr. ing. Inge Gavat Titular aplicatii: Asistent cercetare Drd. ing. Marius Cotescu
1

Fisa disciplinei
Tipul: pregatire de specialitate Numar ore curs: 28 ore Numar ore aplicatii: 14 ore Numarul de puncte de credit: 5 Semestrul: VII Pachetul: aria curriculara de specialitate

Obiectivele disciplinei
pentru curs: familiarizarea studentilor cu canalele umane de intrare: vedere, auz, simturi somatice familiarizarea studentilor cu modalitatile de intrare in calculator: tastatura, mouse, camere de luat vederi, microfoane, dispozitive de intrare 3D, Brain-Computer Interface familiarizarea studentilor cu modalitatile de iesire din calculator: vizual, acustic, haptic familiarizarea studentilor cu modalitatile de dialog om-calculator pentru aplicatii : realizarea de scenarii de aplicatii ca: intelegerea vorbirii, intelegerea audio-vizuala a vorbirii, intelegerea imaginilor

Competente specifice
Aplicarea in practica a scenariilor multimodale de comunicatie om-masina pe baza prelucrarii digitale a semnalelor audio si de imagine

Continutul tematic (sylabus) curs


Capitolul 1 2 3 4 5 6 7 8 9 Continutul (CURS) Introducere. Definitia termenilor de baza Canale de intrare umane; modalitati de intrare: vaz, auz, simturi somatice Modalitati de iesire din calculator: modalitati media, dispozitive si metode pentru iesire vizuala, auditiva, tactila Perceptia bi si multimodala: perceptia vizual-acustica, perceptia audio-vizuala; bimodalitatea comunicarii verbale; inteligibilitatea vorbirii vizibile Modalitati de intrare in calculator: tastatura, mouse, camere de luat vederi, microfoane, dispozitive de intrare 3D Controlul bi si multimodal al actiunilor umane: control vizual-gestic, scris manualvizual, scris de mana-vorbit, control motric-vizual Cunoasterea umana: simbolica, subsimbolica si reprezentari conceptuale: probleme de baza si cerinte; invatarea si adaptarea Modele si arhitecturi pentru sistemele multimodale; arhitectura interfetei de dialog multimodale; arhitectura coprocesorului cognitiv Scenarii de aplicatie Total 2 2 2 2 2 2 4 8 4 28 Nr. Ore

Continutul tematic (sylabus) aplicatii


Nr.crt 1 2 3 4 Lucrari de laborator Codarea si analiza vorbirii Modelarea acustica Arhitecuri de recunoastere a vorbirii Arhitecuri de recunoastere bimodala Total Nr. Ore 3 3 4 4 14

Evaluarea
a) Activitatile evaluate si ponderea fiecareia: Evaluarea studentilor se face tinand cont de activitatea depusa in timpul anului (60%) si de rezultatul examenului final (40%). Activitatea depusa in timpul anului consta in activitatea in laborator (20%), sustinerea unor teste scrise neanuntate (10%) si sustinerea unui examen partial (30%). Atat examenul partial cat si cel final se sustin in scris. Se acorda un bonus de 10 puncte pentru activitati personale deosebite (program, referat, etc). Cerintele minimale pentru promovare:
prezenta la laborator; obinerea a 50 % din punctajul total; obinerea a 50 % din punctajul verificrii finale

c)

e)

Calculul notei finale prin rotunjirea punctajului final

Repere Metodologice
Cursul in aceasta forma este nou introdus. Se va realiza:
Un format electronic pentru notele de curs Un format electronic pentru aplicatii

Materialul se va pune la dispozitia studentilor pe site-ul titularului de curs. studentilor vor avea de asemenea acces la celelalte materiale indicate in bibliografie.
8

Bibliografia
[1] Inge Gavat: Note de curs si aplicatii [2] G. Rigoll: Mensch-Maschine-Kommunikation 1, 2, TUM, 2006-2007 [3] L. Schomaker and al: http://hwr.nici.ru.nl/~miami/taxonomy/ taxonomy.html: A Taxonomy of Multimodal Interaction in the Human Information Processing System [4]
9

Interactiunea om-calculator
Modalitati de intrare in calculator CALCULATOR Cunoastere Modalitati de iesire din calculator

Canale de iesire umane Cunoastere OM

Canale de intrare umane

Fig. 1a

Procesele de baza ale interactiunii om-calculator

10

Modelul interpretarii imaginii


alegere scena

scena
realitate calculator

captare

mediu
interactiune

imagine
prelucrare imagine

segmentare

descriere mediu
interpretare de nivel ridicat

descriere imagine descriere scena


Fig. 1b

interpretare de nivel scazut intelegerea obiectelor

Procesele de baza ale interpretarii imaginii) - dupa [ ]

11

Modelul recunoasterii si intelegerii vorbirii

Fig. 1c

Modelul recunoasterii si intelegerii vorbirii - dupa [ ]

12

Modelul Intelegerii si valorizarii vorbirii


1 s Prelucrare conceptuala Interpretarea mesajului

Captarea informatiei lexical semantice si de atribuire a rolului Captarea informatiei despre categoria sintactica de cuvinte si despre structura sintactica

Informatia despre intonatie si frazare

Informatia despre accentuare

ti m p

Prelucrarea informatiei despre inaltimea tonului (prosodia sau setul de melodie)

Prelucrarea acustic - fonetica

Fig.1d Modelul intelegerii si valorizarii i vorbirii

13

Multidisciplinaritatea in comunicarea om-masina

Optica

14

Actuatori umani Tastatura Touchscreen Maus Manusa Microfon Vorbire, sunete, muzica Miscarea corpului Miscarea capului Gesturi cu mana Mimica Miscarea ochilor

Masina

Senzori umani

Scris de masina Scris de mana

Modificarea pozitiei

Zgomot motor Lumina Vorbire Auz

Deplasare si clicare Manusa de date

Audio Mecanica Vibratie Vaz

Camera video

Video

Display Pipait

Tactil Presiune Element haptic

Forta de reactie

Miros

Activitatea creierului

EEG

Neural

Nervi

Fig.3 Comunicare om-masina multimodala

15

Structura unui sistem om-masina


procesare educatie structurare munca Sistem nervos central OM Abilitati senzoriale Comunicare OM MASINA Abilitati motrice (efectori) aspecte sociale aspecte mediu aspecte civilizatie

Sisteme de afisare

Sisteme de intrare date

MASINA Prelucrare informatie

Fig.4 Structura unui sistem Om Masina - dupa [2]

16

Nivele de comportare umana


Comportare bazata pe cunoastere Scopuri simboluri identificare decizia sarcinii planificare

Comportare bazata pe reguli

s e m n e

recunoastere

asociere staresarcina (semne)

reguli stocate pentru sarcini

Comportare bazata pe abilitati

formare caracteristici

amprente senzomotorii automate

intrari senzori

semnale

actiuni

Fig.5

Cele trei nivele de performanta ale operatorilor umani dupa Rasmussen [2 ] (nivelele interactioneaza)

17

Fluxuri informationale la om

Fig.6 Fluxuri informationale la om

18

Dispozitive I/O la sisteme ommasina


aparat Tastatura Maus Intrare vorbire scanner Iesire vorbire Imprimanta.... Imprimanta laser Afisare grafica CPU Terminal de retea Terminal LAN Memorie optica Banda magnetica Discheta CD-ROM intrare intrare intrare intrare iesire iesire iesire iesire iesire Intrare sau iesire Intrare sau iesire memorie memorie memorie memorie comportare om om om om om om om om masina masina masina masina masina masina masina partener 0.01 0.02 0.02 200 0.6 1 100 30.000 200 0.05 200 500 2.000 2.000 6.000 rata de date (kByte/s)

19

Performante I/O la om
Organul uman Ureche Ochi: citire text Ochi: intelegerea de forme Mana: Tastare Voce Pentru comparatie: ISDN Rata de date I/O (kByte/s) 8000 60000 0.030 0.370 125.000 0.010 0.025 0.003 0.015 8000 Intarzierea I/O 10 10 10 100 100

20

Posibilitati de prezentare ale informatiei


acustic sunete Informatie extrem de scurta si simpla vorbire Informatie extensiva Indicator luminos Informatia este simpla, alternativa sau suplimentara sunetelor Semnificatia trebuie cunoscuta imagini Informatie complexa vizual display Informatie complexa, adesea oscilanta, continut sarac Tema informatiei trebuie cunoscuta Utilizatorul nu are experienta Continutul trebuie extras repede si sigur, posibilitati de dialog limitate ecran Continut informational ridicat, extensiv imprimanta Continut informational ridicat, extensiv

Smnificatia informatiei trebuie cunoscuta Utilizatorul are experienta sau trebuie antrenat Informatia trebuie sa solicite absoluta atentie

Se clarifica singura

Semnificatia nu trebuie neaparat cunocuta, rezultand singura Utilizatorul nu are experienta Cunoasterea limbii tarii nu este urgenta, rectia spontana fiind posibila

Se clarifica singura

Se clarifica singura

Utilizatorul nu are experienta Continutul trebuie inteles sigur in situatii de stres Reactia este sigura dar lenta, ritmul de lucru trebuie puternic asigurat Mai multe informatii, manualul de utilizare

Utilizatorul nu are experienta Informatia trebuie sa determine o atentie persistenta fara interferente

Utilizatorul are nevoie de experienta Oferta mare de informatie, vie, complet capabila de dialog

Utilizatorul are nevoie de experienta Informatia trebuie retinuta, nu e posibil dialogul

Utilizatorul trebuie sa reactioneze spontan si imediat Cele mai simple dar importante indicatii de utilizare

Informatia trebuie prezentata persistent, fiind posibile ritmuri de lucru diferite

Marcarea starilor, indicatii de utilizare simple

Manual de utilizare

Controlul intrarii, indicatii de utilizare, informatii scurte (numere, notiuni)

Iesiri informationale de mare calitate si cantitate

hard copy

21

INTERFETE OM-MASINA_2

Poducerea si perceptia vorbirii Analiza de timp scurt a vorbirii Tonul fundamental Proprietatile statistice ale vorbirii Vorbirea ca sursa de informatie
1

Sistemul fonator uman

Modelarea producerii vorbirii


AV
Gen. de impulsuri Circ. de formare param. tr. vocal

vocalizate

k Model traiect vocal Model radiatie

s(n)

nevocalizate Gen. de zgomot H(z) V(z) R(z)

AN

Sunetele de baz ale vorbirii (fonemele)


Vocalele: a, e, i, o, u, , Consoanele:
Nazale (exemplu: m, n) Fricative nevocalizate (exemplu: f, s, ) Fricativele vocalizate (exemplu: v, z) Stopatele vocalizate (exemplu: b, d, g) Stopatele nevocalizate (exemplu: p, t, c) Glisante (exemplu: r) Africative (exemplu: z, h) Lichide (exemplu: l)
4

Variaia energiei n domeniul timp-frecven pentru vocalele din limba romn.


a, e, i, o, u,
t t t

t 5

Vedere mrit a urechii medii i interne.

presiunea pe timpan

Urechea medie

deplasarea Membrana bazilara scaritei

deplasarea membranei

Analiza in timp a semnalului vorbit


Scopul analizei: determinarea parametrilor globali pentru semnal, valabili pe timp scurt (in care vorbirea poate fi considerata semnal stationar). Clasificarea fonemelor (sunetelor)

Intervalul de stationaritate (intervalul in care se determina parametrii globali) de durata: 20-30ms.

Ferestre de analiza
Gruparea esantioanelor cuantizate ale semnalului cu ajutorul unor functii fereastra. Parametrii ferestrei: x (k) N Nf = 2k durata ferestrei Np pasul prelucrarii
q f

Exemplu: Daca se ia Nf = 256 es si Np = 128 es, pentru fes = 8 kHz: Tf = 256.125.10-6 = 32 ms Tp = 16 ms

lot 1

lot 2

lot 3

Np

Introducerea ferestrelor

semnalul de prelucrat

Orice tip de fereastra are un spectru trece jos cu un lob principal la frecvente joase si mai multi lobi secundari atenuati diferit.

Fereastra dreptunghiulara
w(n) 1

10

Ferestrele Hamming si Hanning

Forma ferestrei dreptunghiulara triunghiulara Hanning Hamming Blackmann

Aten.lobi sec.fata de pr. - 13 dB - 21 dB - 30 dB - 40 dB - 51 dB 8/M 8/M 8/M 8/M

Latimea lobului pr. 4/(M+1)

11

Parametrii de timp scurt(1)


Energia de timp scurt

x(n)

[x(n)]2 h(n) En

Pentru dinamica mare

x(n)

| x(n)| h(n)

|M|n

Pentru dinamica redusa

pentru En, |M(n)| > prag fonema sonora (semnal periodic) pentru En, |M(n)|< prag fonema nesonora (impuls,zgomot)
12

Parametrii de timp scurt(2)


Frecventa (rata) trecerilor prin zero de timp scurt (numarul trecerilor prin zero in intervalul de analiza):

pentru zn < prag fonema sonora (vocale) pentru zn > prag fonema nesonora (siflante

13

Parametrii de timp scurt(3)


Functia de autocorelatie de timp scurt:

Functia de autocorelatie pentru un fragment sonor pentru Tes = 125 s si o fereastra de 50 ms.

14

Tonul fundamental (1)


Variatia tonului fundamental da melodia sau intonatia vorbirii) Se determina indirect prin stabilirea perioadei functiei de autocorelatie. Deoarece aceasta functie necesita un timp lung de calcul se cauta o varianta simplificata prin netezirea spectrului luat in calcul. Metoda de netezire prin limitare centrala

y(x) -CL CL x CL -CL

x (n)) )

p n

y(n) n

Rn (k) p

15

Tonul fundamental (2)


Metoda de netezire prin limitare cu trei nivele
y(n) p 1 -CL -1 x CL n

y(x)

Rn (k) p k

16

Statistica semnalului vorbit(1)


1. Densitatea de probabilitate a vorbirii
Gamma

Laplace Gauss

f(x)

10-2 10-3 10-4

Gauss

Gamma Laplace x

- 4

-2 4

17

Statistica semnalului vorbit(2)


2. Functia de autocorelatie si densitatea spectrala de putere
Pentru timp continuu si timp discret:

18

Vorbirea ca sursa de informatie (1)


1. Daca vorbirea este modelata cu o sursa discreta fara memorie cu alfabetul X si distributia de probabilitati P: [X] = [x1, x2,...xD] [P] = [ p(x1), p(x2), ,... p(xD), ], cu = 1, Atunci entropia acestei surse este

Daca D = 32 si p(xi)= 1/D atunci H(x) = log D = 5 bit / litera Daca probabilitatile corespund limbii romne si sunt date in tabelele de mai jos H(x) = 4,1795 bit / litera

19

Entropia limbii romane (1)


xi e a i r n u t c l s o a* d p p(xi) 102 11,98 10,47 9,422 7,293 6,511 6,285 6,131 5,363 4,652 4,067 4,063 3,912 3,395 3,136 i(xi)= -log p(xi) 3,08 3,27 3,40 3,80 3,93 4,01 4,03 4,22 4,40 4,63 4,64 4,66 4,92 5,01 i(xi) p(xi) 0,3689 0,3424 0,3203 0,2558 0,2559 0,2520 0,2470 0,2264 0,2046 0,1883 0,1885 0,1822 0,1670 0,1571
20

Entropia limbii romane (2)


m i* s* f v t* b g z h j k y 2,969 2,410 1,58 1,165 1,137 1,130 0,926 0,846 0,652 0,284 0,220 0,001 0 5,11 5,42 6,01 6,47 6,49 6,50 6,67 6,90 7,28 8,47 8,83 12,00 0,1517 0,1306 0, 0949 0,07537 0,07379 0,07345 0,0618 0,05838 0,0474 0,0240 0,0194 0,0120 0

Entropia H(x) = i i(xi) p(xi) = 4,1795


21

Vorbirea ca sursa de informatie (2)


2. Daca vorbirea este modelata cu o sursa ergodica de tip Markov cu probabilitatile starilor (literelor) pk cu k = 1D si cu probabilitatile de tranzitie intre stari pjk atunci entropia sursei este:

Astfel calculata valoarea entropiei limbii romne scade la 3.8 bit / litera. Daca se introduc si alte restrictii (lexicale, gramaticale), entropia scade in continuare si se poate aproxima mai bine entropia limbii romne reale catre valoarea de 3.14 bit / litera.

22

INTERFETE OM-MASINA_3

Analiza spectrala a vorbirii Analiza cepstrala a vorbirii Analiza liniar-predictiva

Analiza spectrala a vorbirii


Transformarea Fourier. Principiile analizoarelor de spectru. Sonagraful. Analizor cu filtre digitale. Transformarea Fourier rapida (TFR). Parametrii spectrali: formanti si ton fundamental
2

Transformarea Fourier 1

Transformarea Fourier 2

Principiile analizoarelor de spectru 1

Analizor de spectru cu bancuri de filtre

Principiile analizoarelor de spectru 2

Intrare
Amplificator de intrare Filtru acordat Detector

Amplificator de iesire

Iesire la inregistrare

Semnal de acordare

Analizor cu heterodinare
6

Sonagraf

Analizor spectral cu filtre digitale

Filtru trece-banda digital de ordinul 2

unde: fc= frecv. centr.; b= banda

Caracteristica de frecventa a bancului de filtre de analiza

10

Analiza cepstrala a vorbirii 1


s(n)= e(n) * h(n)

Modelul uzual de producere a semnalului vorbit

11

Analiza cepstrala a vorbirii 2


Reprezentarea intuitiv pentru obinerea cepstrului

Reprezentarea intuitiv pentru obinerea cepstrului

12

Analiza cepstrala a vorbirii 3


Separarea cu o fereastr de timp a celor dou componente ale cepstrului

Separarea cu o fereastr de timp a celor dou componente ale cepstrului

13

Analiza cepstrala a vorbirii 4


Cepstrul real de timp scurt (1)

Schema bloc de calcul a cepstrului real de timp scurt

14

Analiza cepstrala a vorbirii 5


Cepstrul real de timp scurt (2)

Calculul cepstrului real de timp scurt utiliznd transformata Fourier discret TFD.

15

Analiza cepstrala a vorbirii 6


Estimarea frecvenei tonului fundamental

T0

P = T0 /Tes

16

Analiza cepstrala a vorbirii 7


Estimarea frecvenelor i benzilor formanilor. Spectrul netezit

Schema bloc de calcul a spectrului netezit

17

Analiza cepstrala a vorbirii 8

Spectre netezite si nenetezite

18

Analiza cepstrala a vorbirii 9


Analiza homomorfica si reprezentarea parametrica

1. Densitatea de probabilitate a vorbirii

Histogramele frecvenelor formantice pentru vocalele /a/,/e/,/ i/, /o/, /u/ determinate prin analiza homomorfic.

Histograma frecvenelor formantice pentru vocala /a/ determinat prin analiza homomorfic.

19

Analiza cepstrala a vorbirii 10


Vectorii coeficienilor cepstrali pentru cadre vocale
Putem considera eantioanele ch(n) drept coeficieni ai dezvoltrii n serie Fourier a funciei periodice log|H()|. Pentru cadrul m:

Distana dintre doi vectori cepstrali ch1(m) i ch2(m), are expresia:

20

Analiza cepstrala a vorbirii 11


Cepstrul perceptiv (Mel cepstrul) (1)

Scara Mel pentru perceptia auditiva

21

Analiza cepstrala a vorbirii 12


Metode de determinare a coeficientilor Mel cepstrali 1
Frecventa dorita (Hz) Frecventa TFD cuantizata (Hz) Valoarea lui k

Folosirea transformatei Fourier discrete de timp scurt pentru obinerea componentelor de frecven corespunztoare pentru calculul coeficienilor mel cepstrali.
Nr. benzilor critice

1148 1318 1514 1737 1995 2291 2630 3020 3467 4000
Frecvena central (Hz)

1152 1318 1514 1738 1992 2294 2627 3018 3467 4004
Lrgimea benzii critice (Hz)

118 135 155 178 204 235 269 309 355 410 9 10 11 12 13 14 15 16 17 1000 1170 1370 1600 1850 2150 2500 2900 3400 160 190 210 240 280 320 380 22 450 550

1 2 3 4 5 6 7 8

50 150 250 350 450 570 700 840

100 100 100 110 120 140 150

Variaia lrgimii de band critic cu frecvena

Analiza cepstrala a vorbirii 13


Metode de determinare a coeficientilor Mel cepstrali 2
Folosirea filtrelor de band critic pentru calculul mel cepstrului

Forma de unda a cuvntului / iapa/. Evolutia coeficientilor mel-cepstrali pentru cuvntul /iapa/. 23

Analiza cepstrala a vorbirii 14


Delta mel cepstru

Traiectoria unui coeficient mel-cepstral aproximat cu un polinom de ordinul 2. Folosirea coefienilor polinomiali conduce la estimri mai netezite ( linia plina) ale derivatelor dect operaia de difereniere direct (conturul dintre puncte).

24

INTERFETE OM-MASINA_4

Analiza liniar-predictiva Concluzii asupra analizei vorbirii; aplicatii Sinteza vorbirii

Analiza liniar predictiva


Modelul LPC Ecuaiile modelului LPC Schema bloc a analizei LPC. Set de parametri LPC care pot fi: coeficienii LPC, coeficienii de reflecie sau PARCOR, coeficienii log-area ratio, coeficienii cepstrali Predicia liniara perceptual
2

Modelul LPC
u(n) A(z) s(n)

Ecuaiile modelului LPC (1)

Cutm s minimizm eroarea medie ptratic la momentul n:

sau din pentru k=1,2,,p rezulta:

daca se noteaza

Ecuatiile modelului LPC (2)

Schema bloc a analizei LPC


Semnal vocal Metoda autocorelaiei p

Preaccentuare

M N

Segmentarea n blocuri

Analiza LPC

w(n)

Ferestruire

Conversia parametrilor LPC

Schema bloc a analizei LPC (segmentarea n blocuri)

N N

M
M N

n acest pas semnalul preamplificat este mprit n cadre de N eantioane, cadrele adiacente fiind separate de M eantioane. Se observ c dac , atunci cadrele alturate se suprapun, iar estimaii spectrali LPC rezultai vor fi corelai din cadru n cadru dac Estimaii spectrali LPC din cadru n cadru vor varia foarte puin. Pe de alt parte, dac nu va mai aprea suprapunerea ntre cadre; de fapt o parte din semnal va fi pierdut, i corelaia ntre estimaii spectrali LPC rezultai din cadre alturate va conine o component de zgomot care va crete o dat cu M.

Schema bloc a analizei LPC Sonagraf (ferestruirea )


Urmtorul pas n procesare este s ferestruim fiecare cadru astfel nct s minimizm discontinuitile semnalului la nceputul i la sfritul fiecrui cadru.

Daca fereastra de analiz este :

rezultatul ferestruirii este semnalul

Pentru fereastra Hamming:

Predicia liniar perceptual 1


s(n)n

Schema bloc a analizei PLP Etapele analizei PLP sunt prezentate n figura alaturata. Semnalul vocal este iniial supus unei analize spectrale, folosind segmente vocale de 20ms lungime i fereastra de tip Hamming: Spectrul de putere pe termen scurt este (cu DFT):

Ferestruire

s(n).w(n) DFT P() Aliniere Burk P() Convolutie cu () () E() E() Coeficienti PLP IDFT Functia de autocorelatie Regresie

()

Predicia liniar perceptual 2


Preaccentuarea pentru egalizarea triei sonore este necesar pentru a compensa percepia neliniar a triei sonore la diferite frecvene. Preaccentuarea se face folosind relaia:

unde sunt coeficienii de autocorelaie, sunt coeficienii modelului all-pole i .

Efectul preaccenturii. 10

Concluzii la analiza vorbirii (1)


Analiza vorbirii se poate efectua cu ferestre de timp si cu ferestre de frecventa (bancuri de filtre), conducand la o reprezentare comprimata a vorbirii: Analiza cu ferestre de timp, numita si analiza de timp sciurt conduce la o reprezentare a vorbirii prin: parametrii de timp scurt ai traiectului vocal: - parametrii globali:energia, rata trecerilor prin zero - parametrii spectrali: benzile si frecventele formantilor - coeficientii cepstrali cu derivatele lor de ordinul 1 si 2 - coeficientii melcepstrali cu derivatele lor de ordinul 1 si 2 - coeficientii de predictie iniara, de reflexie, log-area ratio, cepstrali - coeficientii PLP parametrii de timp scurt ai generatoarelor de excitatie: - decizia vocalizat/nevocalizat - perioada tonului fundamental
11

Concluzii la analiza vorbirii (2)


Analiza cu ferestre de frecvente se poate realiza cu bancuri de filtre reale sau simulate prin heterodinare. Permite determinarea distributiei energiei in benzile de frecventa selectate de filtre. Filtrele pot fi cu largimea de banda constanta, cu largime de banda relativa constanta (de decada, de octava, de 1/3 octava) sau cu banda critica si se realizeaza actualmente digital; ultimele doua tipuri de filtre se utilizeaza mai des deoarece tin cont de caracteristicile perceptiei umane, adaptate distributiei energiei sonore in spectru Analiza spectrala tipica cu ferastra de timp se realizeaza prin transformarea Fourier discreta, in varianta ei rapida (TFR) (FFT). Daca numarul de esantioane intr-o fereastra este N (de preferat o putere a lui 2) rezolutia in frecventa este f = 2 f.max / N unde fmax este limita superioara a benzii semanlului analizat si numarul de operatii de multiplicare, care determina timpul de calcul este de 4NlogN.

12

Aplicatii ale analizei vorbirii

13

SINTEZA VORBIRII Modaliti de realizare a sintezei


Sistemele cu rspuns vocal Vocoderele Sistemele de sintez dup text

14

Schema bloc a unui sistem cu raspuns vocal

Se bazeaz pe codare instantanee: secvena vorbit s(n) care trebuie sintetizat este digitizat utiliznd de exemplu modulaia impulsurilor n cod (MIC), este memorat fr prelucrri suplimentare i reprodus prin citirea memoriei. Eantioanele fiecrui rspuns vocal, cuantizate cu 8 bii, ca ntr-un sistem MIC standard sunt introduse ntr-o memorie, de tip ROM de exemplu, la o anumit adres. Cu o comand de citire de la adresa respectiv de memorie, se scot pe rnd eantioanele necuantizate, iar dup trecerea lor prin filtrul de reconstrucie se obine semnalul analogic s(t), care poate fi ascultat ntrun difuzor. 15

Vocodere

Sunt sisteme de analiz-sintez, bazat pe codarea parametric a vorbirii: analizorul analizeaz secvena de vorbire s(n) din care extrage parametrii p(n) ai unui model de producere a vorbirii. Parametrii codificai p(n) pe fiecare cadru sunt utilizai pentru comanda sintetizorului n forma modelului, care astfel reconstituie secvena analizat, rezultnd o sintez dup text vorbit. Vorbirea care se obine este plcut i inteligibil, analiza i reproducerea secvenei de sintetizat fcndu-se cadru cu cadru, memoria necesar nu este mare i bineneles, este independent de lungimea textului . Memoria trebuie s fie o memorie tampon, n care s fie reinute pe cteva (23) cadre valorile parametrilor.

16

Vocoder Spectral
FTB 1 x(n) ...................................................................... dete ctor FTJ 1 Deci mare
Codor

FTB 1 ^ x(n)

FTB n

dete ctor

FTJ n

Deci mare

Codor

FTB

V/N analizor T0
Codor

com sintetizor

GT0

GZg

17

Vocoder Formantic
F1 B1

FTB 1 x(n)

Codor

decodor

FTB 1 ^ x(n)

...................................................................... Fn Bn
FTB n
Codor decodor

FTB

V/N
Codo r

com

T0

GT0

GZg

analizor

sintetizor

18

Vocoder LPC
x(n) Segmen tare d(n) T0 V/N G

Param. excitatie

GT0 Predictor ~ x(n) {i =1..p} calcul coeficien. GZgg


Comu tare

Predictor

analizor

sintetizor

19

Vocoder Cepstral

x(n) TFD

X(k) Log |.|

log|X(k)|

c(n) TFDI
fereastra de timp

c(n)w(n)

analizor
V/N T0

detectie T0 V/N T0 c(n)w(n) TFD


log|H(k)| exp(.)
H(k

GExc h(n) TFDI


convolutie

^ x(n)

sintetizor

20

Performante Vocodere
Rata de bit intre 1 si 6 kBit/s Factor de compresie intre 64 si 10.6 (factorul
de compresie este raportul intre rata de Bit a MIC-audio standard si rata de Bit a vocoderului)

Vorbirea este inteligibila Calitatea vorbirii exprimata prin MOS (Mean Opinion Score) este 2, pe o scara 0..5 (La vorbirea codata MIC, MOS = 4.5)
21

Sistemele de sintez dup text

22

Sintetizator formantic

Semnal vocalizat

Semnal nevocalizat

23

Sintetizator formantic
(testare)

Semnalul original (cuvntul /ase/).

Semnalul sintetic (cuvntul /ase/).

Spectrele semnalului original i sintetic pentru un cadru al vocalei /a/ din cuvntul /ase/.

24

Modul sintetizor de vorbire


1-bloc de prelucrare a semnalului de intrare care preia succesiunea de coduri ASCII corespunztoare fonemelor textului i le transform n adresele din memoria ROM la care se afl stocai parametrii pentru comanda sintetizorului 2-sintetizor, unde sunt coninute sursa de semnal periodic i sursa de zgomot precum i patru rezonatori formantici (ultimul cu frecvena fix), care livreaz eantioanele semnalului vorbit de calitate telefonic. 3- circuit de ieire in care eantioanele produse de filtrele formantice sunt trunchiate, interpolate i reconvertite n form analogic, pentru a obine semnalul audibil.

25

Modul sintetizor de vorbire


(testare)
Ratele de "recunoatere" a vorbirii sintetice relizate cu modulul de sinteza
Rata de "recunoatere" foneme Cu acomodare Fraze Cuvinte izolate Fraze Fr acomodare Cuvinte izolate

Voce brbtesc

98% 72%

96% 68% 91% 66% 83% 59%

92% 69% 91% 62% 89% 60%

89% 65% 87% 60% 85% 55%

Voce feminin

92% 62%

Voce de copil

88% 54%

26

INTERFETE OM-MASINA_5

Schema generala de recunoastere automata Modele acustice


Modele Markov (statistice) Modele neurale (conectioniste) Modele mixte

Sistemul de recunoastere ASRS_RL


1

Scheme generale de recunoastere

ASR Automatic Speech Recognition

HSR Human Speech Recognition

Recunoasterea formelor vorbirii

Tehnici statistice bazate pe modele Markov ascunse (MMA)


MMA cu observatii discrete
N numrul de stri ascunse ale modelului (starea la momentul i o notm cu Si ) {i = 1, 2, , N} M numrul de simboluri observate n fiecare stare sau dimensiunea alfabetului generat de model) A={ai,j} matricea probabilitailor de tranziie ntre stri

n cazul modelului ergodic. B={bj(k)} matricea distribuiei probabilitii simbolurilor observate

Modelul Bakis

= {i} distribuia strii iniiale

Modelul Markov se noteaz astfel: =(A,B,), stabilindu-se nainte i parametrii N, M

Problemele de baz ale modelelor Markov ascunse (MMA)


Problema 1: Fiind dat secvena de observaii i modelul =(A,B,), trebuie calculat n mod eficient probabilitatea ca aceast secven de observaii s fie produs de respectivul model, P(O/). Calculul probabilitii de producere a unei secvene de observaii cu ajutorul modelului Markov se face cu algoritmul forward sau backward (Evaluarea modelului). Problema 2: Fiind dat secvena de observaii i modelul =(A,B,), trebuie stabilit secvena de stri optimale. Cel mai folosit algoritmi este algoritmul Viterbi. Problema 3: Trebuiesc ajunstai / reestimai parametrii modelului , pentru a maximiza probabilitatea P(O/). Cel mai utilizat algoritm de reestimare a parametrilor este algoritmul Baum-Welch (Antrenarea modelului).

Algoritmii Forward si Backward


Probabilitatea secvenei de observaii secvena de stri , este: ,dndu-se

Probabilitatea secventei de stari S este: Probabilitatea de simultaneitate a O si S este:

Algoritmul Forward (1)


Se consider variabilele forward definite astfel i starea i la momentul t, Care este probabilitatea secvenei pariale de observaii, dndu-se modelul . Se poate calcula prin inducie 1. Iniializare

2. Inductie

3. Final

q1

1j qj

qN t

N j

t+1
7

Algoritmul Forward (2)


Pasul 1 iniializeaz probabilitile forward ca probabilitatea de a avea starea iniial i i observaia . Pasul 2 de inducie este ilustrat n figura. Aceast figur ilustreaz cum poate fi gsit starea j la momentul t+1 din cele N stri posibile, i ( ), la momentul t. Deoarece este probabilitatea combinat a secvenei pariale de observaii, , i a strii i la momentul t, produsul este probabilitatea combinat de a avea secvena de observaii i se ajunge n starea j la momentul t+1 din starea i la momentul t . Sumnd acest produs peste toate cele N stri posibile la momentul t, rezult probabilitatea strii j la momentul t+1 cu toate osbservaiile pariale anterioare. Odat ce j este cunoscut, se observ c se obine prin multiplicarea cu . Pasul 3, se calculeaz ca fiind suma variabilelor forward terminale. Volumul de calcul n acest caz se reduce la ordinul fa de , care este volumul de calcul pentru cazul calculului direct. q1

1j qj

qN t

N j

t+1

Algoritmul Forward Algoritmul Backward (1)


Se consider variabilele definite ca

1. Initializare

2. Inducie

Algoritmul Backward (2)


Pasul 1 de iniializare definete arbitrar ca fiind 1 pentru toi i. Pasul 2, care este prezentat in figura, arat c pentru a fi n starea i la momentul t, i pentru a ine cont de secvena de observaii parial de la momentul t+1 ncolo, trebuie s se ia n consideraie toate strile posibile j la momentul t+1, n conformitate cu tranziia din starea i in starea j (termenul ), i trebuie s se in cont de observaia n starea j (termenul ). i n acest caz volumul de calcul este diminuat de la , care este volumul de calcul pentru cazul calculului direct, la pentru cazul algoritmului backward.

t+1
10

Algoritmul Viterbi (1) Sonagraf


Se doreste estimarea secventei optime de stri Se definete variabila de probabilitate a posteriori:

starea cea mai potrivit n mod individual la momentul t, este:

Aceasta abordare nu duce intotdeauna la secvente optimale valide. Solutia pentru evidarea acestei situatii este data mai jos:

11

Algoritmul Viterbi (2)


Se defineste care reprezint cea mai mare probabilitate de-a lungul unei singure secvene pariale de stri pana la momentul t . Probabilitatile urmatoare se obtin prin recursie. 1. Initializare

2. Recursie

3. Final

4. Backtracking

12

Algoritmul Baum- Welch (1)


Cea de-a treia i cea mai complicat problem a modelelor Markov ascunse este aceea de a determina o metod de ajustare a parametrilor modelului pentru ca acetia s satisfac un anumit criteriu de optimizare. Nu exist o cale analitic de a face ca setul de parametri s maximizeze probabilitatea secvenei de observaii. Totui, se poate alege modelul pentru care se maximizeaz local utiliznd o procedur iterativ, cum ar fii metoda Baum-Welch sau tehnici ale gradientului. n continuare se prezint prima procedur enunat mai sus Se defineste probabilitatea de a fi in starea i la momentul t si probabilitatea j la momentul t+1

Folosind variabilele forward i backward, se poate scrie relatia de mai sus sub forma urmtoare:

qi

qj

t-1

t+1

t+2 13

Algoritmul Baum- Welch (2)


Se poate scrie si: Setul de formule pentru reestimarea parametrilor pentru parametrii modelului Markov ascuns este dat mai jos:

Procesul de reestimare se opreste in momentul in care variatia parametrilor scade sub o anumita limita impusa

14

Modele dependente de context, trifoni


Modelele Markov ascunse s-au dovedit a fi o baz real n modelarea secvenelor spectrelor vorbirii. Pentru captarea variaiilor n spectrele reale (inter i intra-vorbitor) este necesar s dispunem de un numr mare de modele. De exemplu, pentru obinerea unui rezultat bun ntr-un sistem MMA cu densiti continue, este necesar s folosim mbinarea dintre distribuiile Gaussiene i modelele (fonetice) dependente de context. Practic, apare o problem a insuficienei datelor din cauza numrului mare de modele care rezult. Mai mult, datele sunt rspndite inegal i este nevoie de o metoda care s echilibreze complexitatea modelelor cu disponibilitatea datelor. Aceast problem a insuficienei datelor devine una acut atunci cnd se folosete un sistem care incorporeaz dependena de context cross-word. Pentru c exist un numr mare de trifoni, sunt multe modele de luat n considerare i un numr mare dintre aceti trifoni vor avea puine contribuii, sau chiar deloc, n datele de antrenare. Numrul total de trifoni necesari pentru orice aplicaie depinde de setul de sunete (foneme), de constrngerile gramaticale i lexicale. De exemplu pentru limba romn exist 34 foneme care conduc la un numr de cca 40000 trifoni. Metodele tradiionale care trateaz aceast problem implic modele mprite n diferite contexte pentru a forma aa-ziii trifoni generalizai i pentru a utiliza tehnici de netezire a posteriori. mprirea modelelor este limitat, contextul drept i cel stng neputnd fi tratate independent, ceea ce duce la utilizarea sub-optimal a datelor disponibile. n mod similar, netezirea a posteriori este i ea nesatisfctoare, ntruct modelele folosite pentru netezirea trifonilor sunt bifoni i monofoni, prea numerosi cnd se folosesc seturi mari de antrenare. Metoda prezentat n continuare funcioneaz pentru sisteme care au cuvinte cu trifoni interni i pentru care este posibil s gsim date pentru fiecare trifon. Aa cum sunt prezentate i n figurile urmtoare, sistemele care folosesc trifoni ai cuvintelor ncruciate necesit date pentru un numr mare de trifoni i muli dintre acetia vor fi nevzui (invizibili) n datele de antrenare. Noul sistem este bazat pe utilizarea arborilor de decizie fonetici, care sunt folosii pentru a determina seturile echivalente contextual ale strilor MMA. Pentru a lucra cu seturi mari de date de antrenare, construirea arborilor este bazat numai pe statistici pentru fiecare stare a MMA i nu se face referin direct la datele originale [Jen05], [Ode92], [You92], [You94]. 15

Legarea starilor MMA

16

Arbori de decizie

17

Concluzii MMA
Avantajele MMA suport matematic foarte bun, existnd algoritmi eficieni de antrenare i de calcul al probabilitii a posteriori; bun capacitate de nvare, se pot adapta cu uurin dinamicii temporale a semnalului i nu necesit proceduri de aliniere; posibilitatea de utilizare n sistemele expert. Dezavantajele MMA necesitatea n practic a unor presupuneri asupra distribuiei probabilitilor bj(k) de emisie a simbolurilor n starea j; Ignorarea corelaiei ntre vectorii acustici succesivi; lipsa de discriminare ntre modele; modele antrenate pentru maxima potrivire cu secventa de antrenare.

18

Modele neurale
Primul strat, de intrare, acioneaz ca un buffer; Stratul 3 Stratul 2 Al doilea strat, ascuns, se comport ca un detector de caracteristici; Al treilea strat, de ieire, conine neuroni clasificatori care combin caracteristicile furnizate din stratul ascuns pentru a lua decizii de recunoatere a formelor.

Stratul 1

- este ponderea conexiunilor de la i la j; - este pragul neuronului j din stratul ascuns; - este ponderea conexiunilor de la j la k; - este pragul neuronului k din stratul de ieire. f este o funcie neliniar ( ) care poate fi de tip sigmoid sau tangent hiperbolic: 19

Algoritmul de nvare (Back-Propagation)


pasul 1: se aplic la intrare vectorul Xp; pasul 2: se calculeaz activarea neuronilor din stratul ascuns; pasul 3: se calculeaz ieirile din stratul ascuns; pasul 4: se calculeaz activarea neuronilor din stratul de ieire; pasul 5: se calculeaz ieirile din stratul de ieire;

pasul 6: se calculeaz termenii de eroare pentru stratul de ieire; pasul 7: se calculeaz termenii de eroare pentru stratul ascuns; pasul 8: se rafineaz ponderile aferente stratului de ieire; pasul 9: se rafineaz ponderile aferente stratului ascuns; pasul 10: se calculeaz eroarea

20

Reeaua neuronal cu autoorganizare Kohonen


Pasii algoritmului sunt urmtorii: competiia: pentru fiecare form de intrare neuronii din reea calculeaz valorile funciei discriminant. Neuronul cu valoarea cea mai bun pentru acest funcie este declarat nvingtor. cooperarea: neuronul nvingtor determin localizarea spaial a vecintii topologice a neuronilor excitai, n felul acesta crend bazele pentru cooperarea ntre acesti neuroni. adaptarea ponderilor: permite neuronilor excitai s-si creasc valorile individuale ale funciei discriminant legat de formele de intrare, prin ajustri convenabile ale ponderilor acestora. Ajustarile sunt astfel fcute ncat rspunsul neuronului nvingtor la forma corespunzatoare de intrare este mbuntit.

21

Reeaua neuronal cu ntrziere n timp


w1,j
1

w2,j

x1

. . . N . . . . 1

wN+1,j

F
wk,j wk+1,j

xk

. . . N

wk+N,j

22

Reeaua neuronal recurent (RNN)


x1(t) x2(t) xN(t)

. . .

. . .

xN(t-1) x2(t-1) x1(t-1) 23

Modele hibride
Funcionarea sistemului de recunoatere prezint dou etape: etapa de antrenare, n care sistemul i optimizeaz parametrii n vederea potrivirii ct mai bune cu cuvintele din dicionar; etapa de recunoatere, n care sistemul calculeaz probabilitile de potrivire cu modelele i determin maximul dintre acestea; probabilitatea maxim corespunde modelului, respectiv cuvntului ctigtor.
24

INTERFETE OM-MASINA - 6

Recunoasterea cuvintelor rostite izolat Sistemul de recunoasterea vorbirii continue ASRS_RL (Automatic Speech Recognition for Romanian Language)
1

Recunoasterea cuvintelor rostite izolat (cifre)

Structura modelelor Markov ascunse


N = numrul de stri ale modelului = 5 M = numarul de simboluri emise in fiecare stare = 7

Antrenarea modelelor Markov ascunse (MMA) -1


1. Initializarea matricilor , A, B

i = [0.2 0.2 0.2 0.2 0.2]

2.

Reestimarea parametrilor matricilor , A, B pentru cuvantul DOI

i =[ 0.000000 0.000000 1.000000 0.000000 0.000001 ]

Antrenarea modelelor Markov Problemele de baz ale modelelor ascunse (MMA)- 2 Markov ascunse (MMA)
3. Reestimarea parametrilor matricilor , A, B pentru cuvantul TREI

i =[1.000000 0.000000 0.000000 0.000000 0.000000 ]

Sistemul hibrid de recunotere a cuvintelor rostite izolat -1


Datele de intrare sunt urmtoarele: dictionarul este alcatuit din V cuvinte care reprezinta comenzi vocale numerice si de deplasare: zero, unu, doi, trei, patru, cinci, sase, sapte, opt, noua, start, stop, sus, jos, stnga, dreapta, nainte, napoi; pentru antrenare fiecare cuvnt are cte P variante obtinute pentru fiecare din cei R vorbitori; pentru test fiecare cuvnt este reprezentat de alte P variante obtinute de la aceeasi vorbitori Arhitectura sistemului Sistemul hibrid propus cuprinde dou elemente de baz: modelul Markov ascuns care modeleaza statistic vectorii acustici, adica secvenele de observatii obtinute prin prelucrarea semnalului vocal si care ajuta si la segmentarea datelor de intrare, respectiv la supervizarea retelei de tip perceptron neliniar; reteaua de tip perceptron neliniar care este antrenata sa memoreze prin parametrii proprii caracteristicile secventelor de observatii, sa emuleze de fapt modelul Markov ascuns asociat, respectiv sa furnizeze probabilitatile a posteriori algoritmului Viterbi, pentru determinarea probabilitatilor de potrivire cu modelul respectiv.
6

Functionarea sistemului hibrid


etapa de antrenare n care sistemul si optimizeaza parametri n vederea potrivirii ct mai bune cu cele V cuvinte ale dictionarului; etapa de recunoastere n care sistemul calculeaza probabilitatile de potrivire cu modelele si determina maximul dintre acestea; probabilitatea maxima corespunde modelului, respectiv cuvntului cstigator.

Perceptronul multistrat (MLP)

STRATUL DE IESIRE (5 neuroni)

STRATUL ASCUNS (14 neuroni )

STRATUL DE INTRARE (5 neuroni)

x n-c

xn-1

xn

xn+1

xn+c

Parametrii reestimati ai sistemului -1


Pentru cuvantul ZERO Parametrii modelului Markov:

Parametrii reestimati ai sistemului -2

10

Parametrii reestimati ai sistemului -3

11

Parametrii reestimati ai sistemului -4

12

Parametrii matricii B in faza de test

aa

13

Rezultatele experimentului de recunoatere a unui vocabular de 40 cuvinte rostite izolat.


Lot

14

Sistemul de recunoatere a vorbirii ASRS_RL

Structura sistemului de recunoatere a vorbirii

15

Etapele procesului de recunoastere


Etapa 1: n aceast etap se realizeaz extragerea trsturilor importante, parametrizarea semnalului vocal, sub form de parametri obinui pentru fiecare cadru al semnalului vocal analizat. Aceti parametri pot fi: parametri cepstrali, parametri LPC, parametri PLP, etc. Dup parametrizarea semnalului vocal, n toate sistemele de recunoatere a vorbirii, urmeaz o segmentare n clase fonetice, ca de exemplu: monofoni, trifoni, etc. Etapa 2: n aceast etap se antreneaz sistemul pentru a obine cte un model pentru fiecare clas fonetic. Pentru obinerea acestor modele se pot utiliza metodele statistice (de exemplu modelele Markov ascunse), metodele neuronale (de exemplu perceptronul multistrat, reeaua Kohonen, TDNN, RNN, etc), sau metode hibride (MMA i MLP). Pentru a obine modele bine antrenate avem nevoie de o baz de antrenare ct mai mare. ntr-un sistem de recunoatere a vorbirii procesul de antrenare se realizeaz off-line, deoarece dureaz foarte mult. Etapa 3: n etapa de clasificare a formelor, forma necunoscut este comparat cu toate modelele obinute n etapa anterioar, calculndu-se ntre formele necunoscute i modelele antrenate diferite distane sau probabiliti de potrivire. Etapa 4: n aceast etap se ia o decizie. Forma necunoscut se atribuie modelului cu care seamn cel mai bine, pe baza unui criteriu de probabilitate maxim sau pe baza distaei minime. Procesul de recunoatere se realizeaz on-line

16

Programul ASRS_RL
Are aplicatiile construite pe toolkit-urile: HTK bazat pe MMA pentru recunoasterea vorbirii continue NICO bazat pe retele neurale pentru recunoasterea fonemelor VOICEBOX bazat pe modele hibride pentru recunoasterea cuvintelor izolate Aplicatiile sunt accesate printr-o interfata prietenoasa cu utilizatorul, care nu trebuie s cunoasc sintaxa acestor tool-uri. Pentru buna functionare a interfetei mai sunt necesare: Microsoft Word, Acrobat Reader orice program de navigare pe Internet implementat pentru Windows.

17

Optiunile programului
HMM > Hidden Markov Models
Vowel Recognition Digit Recognition Utterance Recognition

ANN > Artificial Neural Networks


Vowel Recognition

HMM ANN > Hybrid System


Digit Recognition

APPLICATION Telephone dial INFO > Information


Database
Romanian Database English Database German Database

Speech Analysis >methods Markov Models > theory Artificial Neural Networks > theory Manuals
HTK NICO VOICEBOX SAMPA

Future in ASR 18

Interfaa pentru recunoaterea vorbirii continue

19

Interfaa pentru pregtirea antrenarii.

20

Interfaa pentru antrenarea monofonilor.

21

Interfaa pentru pregtirea testarii.

22

Interfaa pentru testarea monofonilor.

23

Interfaa pentru recunoaterea numerelor de telefon.

24

Exemplu de gramatic pentru voice dial.


zero unu

formeaz

nou

. . .

Bizonov a
sun

Zuzana

Dumitru
telefoneaz

. . . .

Eliza

Dumitru

Octavian

25

Rezultate experimentale -1 MMA trifoni


Rata de recunoatere a vorbirii continue cazul dependent de vorbitor:
Tipul coeficienilor MFCC Nr. Coef. Cuvinte 12 88,40% MFCC_D 24 95,10% MFCC_D _A 36 98,00% LPC 12 74,80% LPC_D 24 69,90% LPREFC 12 80,60%

Rata de recunoatere a vorbirii continue cazul independent de vorbitor:


Tipul coeficienilor MFCC Nr. Coef. Cuvinte 12 76,70% MFCC_D 24 86,40% MFCC_D _A 36 96,10% LPC 12 73,80% LPC_D 24 67,00% LPREFC 12 73,80%

unde:

MFCC LPC LPREFC D A

coeficieni mel-cepstrali, coeficieni LPC, coeficienii de reflexie, coeficienii delta, coeficienii delta delta.

26

Rezultate experimentale -2 MMA comparatie trifoni-monofoni


Tipul Monofon Trifon Cuvinte Fraze Cuvinte Fraze Rata de recunoastere MFCC_D_A 68,35% 23,75% 88,97% 60% LPC 27,58% 3,75% 53,24% 10% PLP 52,52% 18,75% 75,78% 36,25%

Antrenare mixta si testare cu voci masculine

Tipul Monofon Trifon Cuvinte Fraze Cuvinte Fraze

Rata de recunoatere MFCC_D_A 60,19% 31,25% 85,69% 55% LPC 25,42% 6,25% 52,28% 11,25% PLP 48,44% 20% 79,86% 46,25%

Antrenare mixta si testare cu voci feminine

Tipul Monofon Trifon Cuvinte Fraze Cuvinte Fraze

Rata de recunoastere MFCC_D_A 67,39% 30% 89,45% 57,50% LPC 33,09% 12,5% 63,55% 33,75% PLP 40,29% 22,50% 62,35% 30%

Antrenare si testare cu voci feminine 27

Rezultate experimentale -3 Recunoasterea vocalelor cu MLP

parametrizare fr energie, 12 coeficieni, scala MEL; antrenare: tipul ecuaiei - tangent hiperbolic, numrul de neuroni din stratul intermediar 100. numrul de epoci - 100, rata de nvare - 0,9, eroarea - 10 -5

28

Hri fonetice folosind reeaua neuronal Kohonen


a a e i e i e u o o o u u u a a a a u a e e i a a a a a o o o a a o a a a a o o o a a a o o o a a a i i e e u u e e u u e e u u i

Vocal a e i o u Eroarea medie

Eroare de repoziionare 0% 1,50% 0,50% 0% 0% 0,40%

Vocalele sunt caracterizate prin 12 coeficienti Melcepstrali

29

INTERFETE OM-MASINA 7 IOM referitoare la vedere- Prelucrari de imagini

Notiuni de baza despre vedere Notiuni de baza privind reprezentarea imaginilor in vederea prelucrarii lor Teoria informatiei in prelucrarea imaginilor
1

Tipuri de imagini
Dupa natura radiatiei incidente: Optice, obtinute, in lumina vizibila, de obicei cu camere de luat vederi: - fixe pentru fotografiat - mobile pentru tv, cinema, sateliti. Radar, obtinute din unda radio reflectata de obstacole Radiologice, pentru medicina, defectoscopie: - Raze X - Rezonanta magnetica nucleara - Ultrasunete (Ecografie) Dupa numarul de dimensiuni al spatiului de reprezentare: Imagini 2D, plane, cazul uzual Imagini 3D, Spatiale, in dezvoltare Dupa culoare: Imagini alb-negru - binare - cu nivele de gri Imagini color

Modelarea imaginilor
Modelare perceptiva care tine cont de marimi percepute vizual ca: luminozitatea, contrastul, repartizarea spatio-temporala a a culorilor si obiectelor Modelare locala realizata prin prelucrari standard ca: esantionarea si reconstructia semnalului, cuantizarea sa, analiza (modelarea) spectrala prin transformarea Fourier si alte transformari ortogonale unitare Modelare ierarhica inteligenta, cu metode ale inteligentei computationale bazate pe invatare si adaptare la nivel de pixel, clasa, scena.
3

Prelucrarea imaginilor
Prelucrarea la nivel de pixel presupune determinarea pentru fiecare pixel a caracteristicilor spectrale, de textura si geometrice, formand un vector de trasaturi. Prin algoritmi de clasificare (clustering),pixelii cu caracteristici asemanatoare pot fi grupati in clase (clustere), carora adesea li se poate atribui o semnificatie, o semantica. Numarul de clase dintr-o imagine determina complexitatea ei. Prin algoritmi de segmentare se determina contururile obiectelor dintr-o scena Interpretarea scenei consta in delimitarea obiectelor din scena, stabilirea relatiilor spatiale si ierarhice dintre ele si valorizarea lor (exemplu)
4

Histograme

Image change
tsunami

Sourse (emission)

[X]

channel

[Y]

User (reception)

Naturale catastrophes Meteorological phenomenons Human activities 6

Masuri informationale
Divergenta Kullback-Leibler de ordin1 Divergenta Jeffries de ordin 1 Divergenta Kullback-Leibler de ordin2 Divergenta Jeffries de ordin 2

Informatia mutuala Entropia

Detectie de schimbari (KL1)

10x10 pixel

20x20 pixel

30x30 pixel

Detectie de schimbari (cu corelatie

Detectie de schimbari (KL1)

xy = 5x5 pixel

10x10 pixel

20x20 pixel

KL masura a disimilaritatii dintre o imagine si ansamblul imaginilor


Image d_001 d_002 d_003 d_004 d_005 d_006 d_007 d_008 KL divergence 0.775 0.900 1.101 0.622 0.786 0.901 0.533 0.674 Image d_009 d_010 d_011 d_012 d_013 d_014 d_015 d_016 KL divergence 1.549 0.953 1.015 0.889 1.955 0.992 0.925 0.775

10

Clasificarea imaginilor, optimizarea numarului de clase 1


Clasificarea se face cu algoritmul K-means Clasificarea reprezinta o metoda de compresie cu pierderi Eroarea de clasificare este data de relatia:

K este numarul de clase Ni este numarul de pixeli din clasa I m este numarul de dimensiuni al vectorului de caracteristici
11

Teoria rata-distorsiune
Eroarea de clasificare reprezinta distorsiunea cu care poate fi reconstruita imaginea Numarul de clase reprezinta rata de bit a codarii; curbe distorsiune/rata sunt date mai jos pentru figura alturata:

12

Exemplu de calcul D si H
D KL ( I
k

p ( i / I k ) log
i

p ( i / I k ) q ( i ) q ( 3 ) = 1 12 1 3 ; D KL ( I
k

caz 1 : caz 2 : D KL ( I
)

i = 3;

p ( 3 / I k ) = 1;

) max

= 1 log 2 ;

1
2

1 / 12

= log 1 ;

5 = 3 ,5 q ( 4 ) = 1

H min = 0

caz 3 :

3 12 12 1 1/3 2 2/3 = log 2 + log 2 = 0 ,66 + 2 = 2 ,66 - log 2 = 0 .9 H = - log 2 3 1 / 12 3 1 / 12 3 1/1 3 1 /1 i == 1 , 2 , 3 , 4 , 5 p ( 1 / I k ) = 1 / 6 ; p ( 2 / I k ) = 1 / 6; p ( 3 / I k ) = 1 / 6 ; 1 1/3 2 2 /3 p ( 5 / I k ) = 1 / 6; 1/ 6
2

i = 1, 2 , 3 , 4 , 5

p ( 2 / I k ) =

p( 4 / I k ) =

q( 2 ) =

p ( 4 / I k ) = 1 / 3; D KL ( I caz 4 D min = 12 1 12 log


)

p i = 1;
1/3

q (1 ) =

1 12

q ( 2 ) =

1 12

q( 3 ) =

1 12

q ( 4 ) =

1 12

q ( 5 ) =

1 12

.....

qi = 1

= 4

1 6

log

1 / 12 1 / 12

1 3

log

1 / 12

= 0 , 66 + 0 , 66 = 1,32

H = 1 . 7 + 0 . 52 = 2 . 2

1 / 12

= 0

H max = 12

1 12

log

1
2

12

= 3 .5

Log2N
H D C=HD

Uniformitate p neuniforma p p p uniforma


nivele gri

13

Dependenta rata-distorsiune
1 cluster: media pixeli: (1+2+3+4)/4 = 10/4 = 2.5 MSE1 = 2 clustere: (1, 2) si (3, 4) cu mediile 1.5 si 3.5 MSE21 = MSE22 = 3 clustere: (1), (2, 3) si (4) cu mediile 1, 2.5, 4 MSE31 = 0 MSE32 = MSE31 = 0 4 clustere: (1), (2), (3), (4) MSE4 = 0
MSE

1 cluster: media pixeli: (2+3)/2 = 2.5 MSE1 = 2 clustere: (2) si (3) cu mediile 2 si 3

14

INTERFETE OM-MASINA 10 Interfete creier-calculator


Zonarea dupa activitati a cortexului uman Metode de explorare neinvaziva a activitatii cerebrale Arhitecturi BCI bazate pe electroencefalografie Electroencefalograme Metode de extragere si translatare (transformare in comenzi) a caracteristicilor EEG Exemple de BCI
1

Zonarea dupa activitati a cortexului uman

a) Lobii creierului uman: frontal, parietal, occipital si temporal. Adancitura centrala (sulcus centralis) separa lobii frontal si parietal. b) Corespondenta intre partile corpului si cortexul motoric/somatosenzoric
2

Monitorizarea neinvaziva a activitatii cerebrale


Metodele de monitorizare existente : Electroencefalografia (EEG) Tomografia cu emisie de pozitroni (PET) Tomografie functionala cu rezonanta magnetica (fMRI)

Electroencefalografia (EEG)

Plasarea standardizata a electrozilor pentru EEG

Exemplu de casca cu electrozi pentru EEG

Preprocesarea semnalelor pentru EEG

Tomografia cu emisie pozitronica (PET)


Unitatea de procesare a coincidentelor

Sinograma/ Lista de date

Anihilarea radiatiei

Reconstructia imaginii

Scanarea PET a creierului uman

Tomografia functionala cu rezonanta magnetica (fMRI)

Scaner pentru fMRI (Berkley)

Imagine de tomografie functionala (fMRI). Zonele colorate sunt cele activate 6

Arhitectura sistemelor BCI bazate pe electroencefalografie


Achizitie si procesare de semnale
Caracteristicile semnalelor

Algoritm de translatie

Comenzi dispozitive

Reactii la utilizator

Arhitectura sistemelor BCI cu instruire automata bazate pe electroencefalografie


Faza de calibrare Amplificator EEG multicanal Extragerea seturilor de antrenare Antrenarea clasificatorului / Validarea generalizarii Exemple: -1: imaginarea mainii stangi +1: imaginarea mainii drepte Faza de calibrare Amplificator EEG multicanal Fereastra glisanta Clasificator f(X) Iesire continua

Subiect

Aplicarea reactiei

Reactia vizuala

Electroencefalograma (inregistrarea semnalelor cerebrale)


Se inregistreaza diferenta de potential intre electrozi si masa (urechile interconectate) Diferenta de potential este cuprinsa intre 5 si 100 V Semnalul captat de electrozi este condus la amplificatoare cu cstig mare si zgomot redus Avantajele encefalogramei la BCI:
Ieftina si bine studiata Usor de inregistrat si prelucrat Poate fi controlata in mod volitiv

Dezavantajele encefalogramei la BCI:


Nivel mic al semnalului util Semnale perturbatoare importante produse muscular si ocular

Tipuri de semnale encefalografice


Semnalele sunt de urmatoarele categorii A. Ritmuri:
Ritmul : 813 Hz, amplitudine moderata, caracteristic pentru stari de relaxare, in stare de trezire Ritmul : 1330 Hz, amplitudine redusa, caracteristic activitatii mentale intense Ritmul : 0.54 Hz si ritmul : 47 Hz, caracteristice starii de somnolenta si somnului timpuriu Ritmul : 813 Hz, caracteristic pentru activitati motorii

C. Potentiale evocate, produse de stimuli (EP sau ERP) E. Semnale perturbatoare in EEG
EOG (Electrooculograma) EMG (Electromiograma)
Preprocesarea semnalelor pentru EEG 10

Eliminarea semnalelor perturbatoare n EEG (n timp)

a) Exemplu de detectie: se dau EEG si iesirea filtrului invers pentru artefacte EMG minore (sus) si majore (jos) eliminare a EOG: se dau semnalul EEG (sus), semnalul EOG (mijloc) si semnalul EEG corectat (jos)

b) Exemple de

11

Eliminarea semnalelor perturbatoare n EEG (n frecventa)


Canal 1 Canal 2 Canal 3

Densitati spectrale de putere pentru trei subiecti s1, s2, s3 pentru 4 tipuri de miscari (mana dreapta, mana stanga, picior, limba)

12

Metode de extragere si translatare a caracteristicilor EEG


Metode de extractie a caracteristicilor
1) a) b) c) d) e) f) g) 2) a) b) c) d) e) f) 3) a) b) c) 4) a) b) Caracteristici temporale Trannsformata Fourier Transformata Wavelet Modele autoregresive (Predictie lineara) Bancuri de filtre trece-banda Potrivirea modelelor Filtrare Kalman Detectia de varfuri Caracteristici spatiale Filtrare laplaceiana Analiza componenetelor principale (PCA) Analiza componentelor componente (ICA) Modele spatiale comune (CSP) Amplitudini Rapoarte si diferente Caracteristici spatio-temporale Analiza componentelor in timp si spatiu Modele autoregresive multivariabile Corelatie si coerenta Modele inverse Electrocochleografie (EcoG) prin EEG Electrooculografie prin EEG

Transformarea caracteristicilor in comenzi


1) a) b) c) 2) a) b) Metode lineare Analiza lineara dicriminativa Perceptron Regresia lineara Metode nelineare Cu structura fixa Analiza patratica discriminativa Cu structura variabila Cu memorie k - cei mai apropiati vecini SVM Metoda celor mai mici patrate Combinatii de nelinearitati simple Retele neuronale Arbori de decizie Cuantizare vectoriala cu invatare Cu modele generative Mixturi de Gaussiene (GMM) MMA (HMM )

13

Exemplul 1: BCI pentru sisteme de comunicatii


Componenta de Componenta de producere a producere a semnalului semnalului (S1) (S1) Componenta de procesare a semnalului (S2) S1: digitizeaza semnalul EEG si il trimite prin retea la S2 S2: realizeaza preprocesarea, extragerea caracteristicilor, formarea modelelor si clasificarea S3: permite vizualizarea semnalelor vizuale sau auditive folosite ca stimuli si aplicarea reactiilor Retea

Semnale de control Componenta de vizualizare (S3) Arhitectura sistemului BCI 14

Exemplul 1: Moduri de operare (MO)


MO 1: Vizualizare semnalelor si caracteristicilor acestora pentru familiarizarea utilizatorilor cu sistemul MO 2: Antrenare fara reactie: utilizatorului i se prezinta stimuli asociati cu efectuarea activitatilor mentale (AM). PC face modele pe baza semnalelor corespunzatoare AM MO 3: Antrenare cu reactie: rezultat pozitiv cand PC recunoaste AM si negativ cand nu recunoaste AM, prin comparare cu modele constituite in MO 2. MO 4: Subiectul poate testa sistemul MO 5: Posibilitate de lucru cu mai multi utilizatori
15

Exemplul 1: Procesarea semnalelor


Preprocesarea semnalului (esantionarea datelor cu 128 Hz si cuantizate cu 16 bit Segmentarea in ferestre Hamming de 0.5 sec. Eliminarea EOG Eliminarea ferestrelor care contin alte artefacte Formarea de seturi de antrenare Formarea de seturi de test

16

Exemplul 1: Protocolul sesiunii de antrenament cu reactie

17

Exemplul 1: Extragerea caracteristicilor (1)


Analiza autoregresiva multivariabila (analiza linear-predictiva de ordin p pentru N variabile):

Unde: S(k) este un vector de dimensiune N, reprezentand esantionul k e(k) este vectorul eroare N-dimensional, la momentul k M(l) pentru l = 1p sunt matrici de dimensiune NXN ai caror coeficienti sunt numiti coeficienti de predictie multivariabili (MVAR). Ei se determina printr-o metoda de minimizare a erorii medii patratice
18

Exemplul 1: Extragerea caracteristicilor (2)


Analiza corelativa timp-frecventa-spatiu (TFSC) Pentru un semnal multivariabil
Sunt componentele spatiale ale semnalului

AS (,) este functia de ambiguitate a semnalului S(t). Cu ajutorul componenetelor Amn (,) si cu functiile Kernel arbitrare mn se pot determina functiile caracteristice MS

19

Exemplul 1: Rezultate experimentale


Conditii de experimentare: 3 AM (numarare mentala, miscarea indexului drept si a celui stang),
4 sesiuni de testare Clasificare cu retele neurale.

Rata erorii in experimentele efectuate

20

INTERFETE OM-MASINA 11 Interfete creier-calculator(2)


Tipuri de interfete invazive creier-calculator Protezare neurala
senzorice (vizuale, auditive) motorice cognitive

Interfete complexe creier-calculator


1

Tipuri de interfete creier-calculator


Interfete invazive (sunt implantate direct in creier si se aplica la protezare) Interfete partial invazive (sunt implantate in scalp) Interfete non-invazive (se bazeaza pe EEG si furnizeza semnale pentru imbunatatirea abilitatilor de miscare)

Protezarea neurala
Se face cu dispozitive implantabile cu scopul de a inlocui sau imbunatati functia unui anumit aspect al sistemului nervos central: proteze senzorice
proteze vizuale proteze auditive proteze pentru inhibarea durerii

proteze motorice
implant pentru controlul constient al miscarii implant pentru controlul vezicii urinare

proteze senzo-motorice (cu implant de electrozi direct in fibrele nervului median) proteze cognitive (permite restaurarea functiei cognitive prin inlocuirea printr-un chip a portiunilor din creier afectate de paralizie, traume sa boli prin protezarea partii din creier (hippocampus) responsabila cu formarea amintirilor.
3

Proteze vizuale (1)


Fluxul de date de la o camera video este procesat si imaginile rezulte sunt afisate pe o matrice LCD (montata pe ochelari de protectie). Ecranul LCD corespunzand aproximativ la 30 grade din campul vizual este iluminat cu lumina IR pulsatorie (0.5 ms durata) proiectand imaginile prin sistemul optic al ochiului pe retina. Imaginea in infrarosu este receptionata de pixelii fotovoltaici pe un chip subretinal implantat. Fiecare pixel este convertit intr-un curent electric care introduce informatia vizuala in tesutul retinal afectat. Chipul retinal are cca 3mm diametru si corespunde unui camp vizual de 10 30 grade.

Proteze vizuale (2)


O microcamera plasata pe ochelari preia imagini si le trimie la un procesor care le converteste in semnal electric. Retina artificiala bypasseaza fotoreceptorii afectati din retina si trimite semnalele electrice la celulele viabile din retina si apoi la nervul optic.

Proteze auditive
Partea externa are un microfon, un procesor de vorbire si un emitator Partea interna are un receptor si un stimulator plasate in osul aflat imediat sub piele (care converteste semnalele in impulsuri electrice si le transmite printr-un conductor intern la electrozi) si un camp de 22 electrozi situat langa cochlee care trimite impulsurile la nervii din scala tympani si apoi la creier prin nervul auditiv.

Proteze motorice

Proteza completa de brat cu posibilitate de miscare din cot si incheietura mainii. Proteza este comandate de semnalele cerebrale ale unei maimute

Proteze motorice

Exemplu de proteza de brat comandata de creierul uman (2008)

Proteze cognitive (hippocampus artificial)


Permite restaurarea functiei cognitive prin inlocuirea printr-un chip a portiunilor din creier afectate de paralizie, traume sa boli prin protezarea partii din creier (hippocampus) responsabila cu formarea amintirilor. Sarcina hippocampus-ului este sa codeze experientele asa incat ele sa poata fi memorate in creier ca amintiri pe termen lung. Alaturat se prezinta un chip care detecteaza de la distanta schimbarile chimice din creier, asociate comportarii si boli. (Univ. din Michigan, sept. 2008

Interfata complexa creier-calculator(1)

Interfata creier-masina de invatare semisupervizata

10

Interfata complexa creier calculator(2)


Evolutia tehnologiei campului de microelectrozi

Inregistrare de la un camp de electrozi flexibil si imaginea unui electrod

11

Interfata complexa creier calculator(3)

Electrod wireless implantabil. a) Platforma sistemului b) Ansamblul electrodului 12

Laborator de cercetare pentru interfete creier-calculator

Componentele ale statiei de lucru in timp real

13