Sunteți pe pagina 1din 14

Specificare cerinelor software

pentru

Aplicaie de recunoatere a vocii


Versiunea 1.0

Create de

Bosi Alexandru
Budeci Viorel
Domanciuc Ivan

4 septemebrie 2015

1. Introducere
1.1Scopul
Elaborare unei aplicaii de nregistrare, recunoa tere i translatare a vocii n format text. Analiza vocii n
dependen de tonalitatea vocii, starea emiiatorului i formatarea textului la depistarea gre elelor
gramaticale i logice, suportarea a mai multor limbi.
C1. Translatarea vocii ntr-un fiier text.
C2. Independent de platform.
C3. Depistarea, dup tonalitatea vocii, emitorul informa iei.
C4. Analiza erorilor gramticale i logice.
C5. Categorizarea contentului.
C6. Aplicaia se afl n stare de repaus, dac emitorul se afl n stare de incompente de a
vorbi.
C7. nlocuirea cuvintelor necenzurate cu un simbol.
C8. Interfa prietenoas.
C9. Suportul limbilor: Romn, Englez, Francez, Italian, German.

1.2Scopul Proiectului
Elaborare unei aplicaii de nregistrare, recunoa tere i translatare a vocii n format text. Analiza vocii n
dependen de tonalitatea vocii, starea emiiatorului i formatarea textului la depistarea gre elelor
gramaticale i logice. Suportarea limbilor: romn, englez, francez, italitan, german, chinez,
joaponez, rus.

2. Descriere general
2.1Prespectiva productului
Sistemul informational de recunoatere a vocii are ca prim scop translatarea vocii ntr-un fi ier text, cu
posibiliti analizei gramticale i logice. Scopul acestui sistem const n stocarea informa iei din
convorbirea unui orator, i prelucrarea acestuia ntr-o form uor de redactat. Necesitatea aparea atunci
cnd datele, convorbirele, seminarile trebuie s fie pstrate permanent ntr-un mod u or accesibil i simplu
de distribuit.
Utilizatorul sistemului este uor integrabil n funcionalul aplicaiei, cu cuno tin e tehnice minime i un
nivelul de educaie mediu. O constrngere acestui sistem const n abilitatea utilizatorului de a ine o
conversare adecvat, deoarece conform cerinei C6, aplica ia trebuie s se afle n starea de repaus n acest
caz.
Utilizatorii acestui sistem pot fi clasificai n urmtoarele categorii:
1.nvmnt (studeni, lectori, profesori, etc.)
2. Domeniu specializat (cursuri de antrenare a specialistului)
3. Jurnalismul
4. Politic

Figura 1. Domenii de utilizare

2.2Funciileproductului
2.2.1.

Recunoaterea vocii umane reprezint o tehnologie ce permite

utilizatorului (sau a unui alt subiect din mediul extern) s i foloseasc vocea ca
date de intrare avnd utilitatea n dictarea de text.
2.2.2.

Analiza erorilor sintactice i gramaticale. Const n procesarea i analiza

textului nregistrat i gsirea cuvintelor, propoziiilor i a altor structuri lexicale care


nu satisfac condiia de correctitudine.
2.2.3.

nlocuirea cuvintelor necenzurate const n procesarea textului i gsirea

unor cuvinte care satisfac condiia unor baze de cuvinte nedorite i nlocuirea
acestor cuvinte cu alternativa dorit.
2.2.4.

Selectarea limbii reprezint posibilitatea utilizatorului de a selecta limba

n care sistemul va prelucra datele i dicionarul folosit pentru ndeplinirea funciilor


precedente.

2.3 Clase de utilizator i caracteristici


Utilizatori acestui sistem pot fi categorizai dup urmtoarele clase:

Studeni include persoanele care folosesc acest sistem pentru nregistrarea unei informa ii
referitoare la o tem concret cu scopul de conspectare a acestei informa ii.

Lectori include persoanele care folosesc acest sistem pentru nregistrarea unei informa ii
refiritoare la o tem concret cu scopul de pregtire a unui material n form de text.

Jurnaliti include persoanele care folosesc acest sistem pentru nregistrarea unui interviu cu
scopul de prelucrare mai simpl a informaiei n format text.

Politicieni i oratori include persoanele ce particip la diferite adunri cu scopul de a nregistra


discursurile i prelucra mai trziu dintr-un format text.

2.4 Mediul de operare


Aplicaia se va executa n urmtoarele sisteme de operare:

Microsoft Windows 7

Mac OS X

iOS 6

GNU Linux 3.14

Microsoft Windows Phone

Android Jelly Bean 4.1

* versiunele acestor sisteme de operare este minimul necesar, ns aplica ia trebuie s fie compatibil cu
versiunele succesoare.

2.5 Design i constrngeri


Constrngeri asupra cerinelor hardware:

Procesor de performan nalt care suport tehnologii de prelucrare a datelor n paralel.

Procesorul trebuie s suporte setul de instruciuni MMX sau o alternativ (SIMD).

Se disting de o memorie operativ mai mare de 1 GB.

2.6 Dependen de platform


O dependen adugtoare const n suportul procesoarelor grafice NVIDIA pentru folosirea tehnologii
CUDA pentru calcule paralele a unor algoritmi pe procesoarele grafice de la NVIDIA ce suport aceast
tehnologie. Suportul acestei tehnologii trebuie s fie realizat att pentru dispozitivele desktop, ct i
pentru dispozitivele bazate pe ARM.
O alt dependen este procesoarele care folosesc seturile de instruc iuni de tip SIMD:

Intel MMX, SSEX, AVX.

AMD 3DNow!, 3DNow! Extended, MMX Extended

ARM NEON.

3. Caracteristicilesistemului
Sistemul informaional de recunoatere a vocii are mai multe funcionalitii cum este specificat
n capitolul 2. Aceste funcionalitii pot fi reprezentate ntr-un mod grafic la nivelul logic al
softului, vizualizai figura 2. Unele din ele sunt ca o completarea a funcionalului de baz, de
aceea ca caracteristicii de fundamentale a sistemului, vom analiza modul de nregistrare a vocii
i modul de indentificare a erorilor.

Figura 2. Funcionalul aplicaiei la nivel logic

3.1Recunoatereavocii
3.1.1

Descriereiprioriti

Recunoaterea vocal n informatic poate fi descris ca o modalitate de introducere a


datelor n calculator prin identificarea cuvintelor vorbite. Aceste operaii se pot realiza cu
ajutorul unui dispozitiv ce conine o component hardware de nregistrare a sunetului.
3.1.2Cerinedefuncionare
Recunoaterea vocal distribuit permite dispozitivelor mobile wireless, cu putere de
procesare mic, s expun utilizatorului o interfa vocal, pe lnga cea grafic. Semnalul

audio achizitionat de la dispozitivului mobil este transmis prin intermediul retelei wireless
ctre un server care conine aplicaia de recunoatere. Pentru optimizarea procesului de
transmitre, semnalul audio este compresat nainte de a fi transmis.

Tipuri de recunotere a vocii


Sistemele de recunoatere vocal pot fi mprite n cteva categorii, n functie de tipul
frazelor pe care le pot recunoate :
cuvinte izolate aplicaiile de recunoatere care sunt bazate pe acest sistem, necesit ca
un cuvnt sa fie precedat i urmat de pauza (lipsa de semnal audio)
cuvinte conectate pot procesa mai multe fraze, cu o pauz minim ntre ele.
vorbire continua permiterea utilizatorilor s vorbeasc aproape natural, n timp ce
aplicaia determin coninutul vorbit.
vorbire spontana permite comibnarea vocii, reuind s proceseze cuvinte vorbite cu
accent diferit, cu diferite interjectii ntre ele, si chiar cu mici blbieli.
verificarea vocii reprezint sistemele care sunt capabile s recunoasc diferii
utilizatori.
Cost costul unui dispozitiv de recunoatere a vocii nu este unul foarte scump din punct
de vedere hardware, ns un program care sa poat recunote mai multe categorii
de vorbire ar putea ajunge la un cost financiar destul de ridicat i tot odat ar putea
costa o perioad de timp mai ndelungat.
Risc dac s lum riscul acestui mecanism, atunci ar fi unul minim att timp ct avem un
dispozitiv de nregistrare a vocii (microfon).
Pentru buna funcionare a unui sistem de nregistrare a vocii avem nevoie de cteva cerine
de baz:
Cerina-1: Utilizarea unui dispozitiv de captare a vocii

Cerina-2: Softul creat de noi care utilizeaza tehnologia de recunotere a vocii


Cerina-3: Vocea propriu zis s fie transmis n unul din formatul specificat mai sus.

3.2Analizaerorilor
3.2.1

Descriereiprioriti

Analizarea erorilor gramaticale i logice pot fi corectate parial deoare limba de


comunicare este un sistem abstract i destul de complex. Pe lng faptul acesta oamenii au
diferite stiluri de comunicare i pronuni acestor poate duce la o analiz eronat.
3.1.2Cerinedefuncionare
Pentru a putea corecta eventualele erori sistemul trebuie s analizaze nregistrarea care sa
efectuat, s recunoasc sistemul de comunicare (limba de comunicare) i mai apoi sa
valideze semnalul sonor. n dependen de aceasta s foloseasc anumii algoritmi de
aranjare a cunvitelor n fraze, respectiv fraze n texte dup care s modifice logica dup
coninutul textului.
Cost costul de analizara a erorilor poate fi unul mare, deoarece trebuie s fie analizat
erorile gramaticale, logice i s corespund unui sistem de comunicare specific
(limba selectat de utilizator).
Risc riscul de asemenea este foarte mare, deoarece n dependen de limba selectat,
poate fi diferit de la o regiune la alta i nu poate reprezenta n totalitate sistemul
complex de comunicare ntre oameni.
Pentru buna filtrarea a erorilor sistemul de nregistrare a vocii are nevoie de cteva cerine
de baz:
Cerina-1: Utilizarea unui dispozitiv de captare a vocii
Cerina-2: Utilizara modalitii de vorbire conform uneia din categoriile prezentate mai
sus (cuvinte izolate, conectate, vorbire contunu, spontan)

Cerina-3: Convorbirea s fie clara i concise pentru a putea analiza semnalul vocal.

4. Caracteristiciexterne
4.1Interfaa utilizatorului
Interafaa softului trebuie s fie una foarte prietenoas, n sensul c fiecarea buton sau func ionalitate
trebuie s fie la ndemn i foarte intuitiv. O caracteristic importan a unei intefe e grafice este
imaginile din interior, iconiele care reprezint funcia dorit. Aceasta influen eaz foarte mult deoarece
un utilizator nu cunoate structura intern a programul dar cunoa te doar interfa a pe care o intercepteaz.
n continuare prezentm o interfa exemplu pentru un soft de nregistrare, figura 3.

Intefaa respectiv conine mai multe componente:


Aspect de ecran este un background a softului, se reprezint de o culoare n care uor s poat
diferenia alte componente
Butoanele trebuie s conin un design comun cu interfaa n ntregime, nu trebuie s fie
plasate prea multe butone deoarece poate confunda utilizatorul, dac este nevoie de mai multe
funcionaliti se poate de creat un meniu de tip pop up.

Pentru interaciunea cu interfaa grafic exist mai multe posibiliti :


Tastatur
Mouse
Touch pad
Touch screen
Stilou digital

Funciile tuturor componentelor sunt executate n ntregime i n caz de eroare trebuie s


proceseze un mesaj de eroare care conine titlul erorii, un indentificator la eroare proprizu zis
i/sau un link de ajutor pentru rezolvarea problemei.

4.2Interfaahardware
Softul are ca principiul de baz nregistrarea vocii. O alt utilzarea hardware este stocarea
informaiei pe un dispozitiv de stocare, optic sau magnetic. Una din cea mai important
componet hardware este un dispozitiv.
Sistemul informaional de nregistrare a vocii necesit urmtoarele componente hardware:
Dispozitiv electronic (telefon mobil, laptop, pc)
nregistrarea sunetului (microfon)
Stocarea informaiei (HDD/SSD/CD)
Programul de nregistrare a vocii trebuie s fie instalat pe un dispozitiv, indiferent de sistemul de
operare. Dispozitivul trebuie s aib integrat sau instalat dedicat un dispozitiv de nregistrare a

semanlului, spre exemplu microfon. Informaia nregistrat trebuie sa fie stocat pe un spaiul de
memorie n fromat text.
Interaciunea ntre partea hardware i software este executat la nivelul sistemului de operare,
ns pentru crearea funcionalitii se apeleaz la funcii prestabilite de sistem pentru lucrul cu
dispozitivele hardware. Cel mai esenial control este adresat microfonul pentru reglarea
sunetului, pornirea/oprirea nregistrarii, nlaturrii fundalului de sunet nedorit, etc.

4.3InterfaaSoftware
Aplicaia de recunoatere a vocii are scop principal translatarea vocii ntr-un fiier text sau
document. La necesitate fiierele sau coninutul poate fi pstrat ntr-o baz de date, creat special
pentru salvarea informaiei pe serverul aplicaiei.
Aplicaia nu este dependent de platform i poate rula pe orice sistem de operare, deci este
multiplatfrom i poate rula pe sisteme cum ar fi Windows, Linux, Mac sau Android.
Instrumentele care ajut la creare unei aplicaie este un IDE. Deci este un mediu de dezvoltare a
programelor care ne ajut ma uor s proiectm aplicaia noastr.

5. Altecerinenonfuncionale
5.1Cerinedeperforman
Design-ul aplicatiei nu va fi stabil, se va schimba conform fiecarei tari dupa sarbatoarea
nationala. Softul va fi disponibil pe dispozitive mobile incorporate si independente de platform
ca iOS, Windows phone , Android. Vizualizarea aplicatie se va realiza cu pe tablete si telefoane
mobile , pe web platforma asa si pe calculatoare ce au conecsiune la internet sau in caz de
conexiunea va disparea, seriile de inregestrare a audientei pot fi incarcate la aparitia internetului
cum si reinoirea datelor. La momentul vizualizarii seriei se propune translarea cuvintelor aparte
si a textului intreg, cit si sinonimele sau alte serii cu propozitii apropiate dupa idee.

5.2Cerine de siguran
In caz de disparitia internetului la utilizator, sincronizarea se stopeaza si in caz de accident a
dispozitivului datele se vor pierde. Un zgomot mai mare de 1000 Db(decibel) , poate defecta
seria inscrisa pentru aceea am inclus garnitura care fixseaza vibratie glandelor si se poarta peg
git. Initial la includerea noilor limbi de utilizare pot fi folosite traduceri ne fixe. Fiecare design
nou se va testa la probleme tehnice si fluxului de utilizatori.

5.3Cerine de securitate
Utilizatorul poate fi direct invezibil si confedintial, informatia depusa ramina vizulizata numai
catre sine personal . Serverul pe care va fi stocata toata informatia este vizualizat de o echipa
pofesionala de programatori care raspund de informatia stocata. Server are doua copii de rezerva
a informative , tot traficul este trecut prin server aparte care controleaza si filtreaza pachetele
primate pentru a asigura antiddos. Se verifica si useri la o unitate de timp prin checkcod , pentru
a limita lucru boturilor. Autentificarea se va realiza prin gmail si account se va inregestra direct
pe numarul de telefonul utilizatorului , in caz de pierdere a parolei , sms cu cod generat va veni
in timp de citeva minute, si va permite restabilirea contului. Codul sms-ului este limitat in termen
(de o ora). Aplicatia este desponibila pe platforma international hackerone unde programatori si
testeri din deferite tari pot ajuta in descoperirea problemelor sau a erorilor.

5.4Atributele calitative a produsului


Calitatea aplicatiei este la un nivel foarte inalt dupa standartele europene si universale. Aplicatia
are caracteristice rare intiltine impreuna ca : adaptarea performanta la toate devisurile
,accesibilitatea ,flexibilitatea,comod la reparatie deoarece este format din citeva sectiuni care
poate chimba chiar si un copil,portativ,siguranta, comod la folosire si usor la verificare. Si cel
mai tare punct este claritatea softului pentru orice virsta este usor citabila si adoptarea nu
necesita multa forta.

6. Alte cerine
Pe viitor in Aplicaie de recunoatere a vocii se planifica largirea spectrului de limbi de
acceptare a informatiei, atit si crearea unei baze de date accesibile pe o platform web, unde vor fi
inscrise si alte serii de audiente. La fiecare serie vor fi specificata tematica ei, dupa fiecare
tematica si fiecare limba vor fi sortate si declarate pe web. Un alt moment concometent se va
crea si support platform pentru fiecare limba, tot odata utilizatori vor putea nu numai sa
vizualizeze si alte audiente pe tematica lor dar si in caz de depistarea eroarei sau a unui moment
neconformabil pentru utilizare , va avea posibilitatea direct online sa primeasca ajutor cum in
utilizarea aplicatiei si platformei web atit si in celelalte. Ca o noua sectie si largirea
functionalului aplicatiei este la depistarea vocii emitatorului, in caz de aparitie a altei voci se va
propune de inscris mesaj ca dialog dintre doua sau mai multe persoane sau in caz ca este un
zgomot,galagie de la celelate persoane se va bloca automat.Pe viitor in ca promovarea acestei se
va legaliza in toate state ca program pentru studii de invatamint, inregestrarea conspectelor, si
aprecierea lor de catre elevi, studenti, tot atit si pentru invatatura la distanta. O noua sectie in
aplicatia C10: Distribuirea seriei pe retele de socializare.

AnexaA:Glosar
SIMD Single Instruction Multiple Data

MMX Multimedia extension


SSE Streaming SIMD Extensions
AVX Advanced Vector Extension
HDD/SSD Dispozitive de stocarea a datelor