Documente Academic
Documente Profesional
Documente Cultură
Recunoașterea vocală
Studenți
Mihai- Adrian COSTICĂ,
Mihai- Andrei DEACU
Prelucrarea digitală a semnalelor
Cuprins
Prezentare generală
Scurt Istoric
Până în începutul anilor 2010, recunoașterea vocală, numită și recunoașterea vocii, era clar
diferențiată de recunoașterea vorbitorului, iar independența de vorbitor era considerată o avansare
majoră. Până atunci, sistemele necesitau o perioadă de "antrenament". În 1987, o reclamă pentru
o păpușă avea sloganul "În sfârșit, păpușa care te înțelege" - în ciuda faptului că era descrisă ca
"pe care copiii o puteau antrena să răspundă la vocea lor".
În 2017, cercetătorii de la Microsoft au atins un moment istoric de paritate umană prin
transcrierea discursului telefonic conversațional în cadrul sarcinii larg recunoscute Switchboard.
Mai multe modele de învățare profundă au fost utilizate pentru optimizarea exactității recunoașterii
vocale. Rata de eroare a cuvintelor în recunoașterea vorbirii a fost raportată să fie la fel de scăzută
ca a patru transcrieri umane profesioniste care lucrau împreună pe aceeași sarcină de referință,
finanțată de echipa de vorbire IBM Watson pentru aceeași sarcină.
Mod de funcționare
Raspberry Pi
API-ul Google Web Speech este o interfata de programare a aplicațiilor (API) oferită de
Google, care permite dezvoltatorilor să integreze tehnologia de recunoaștere vocală în aplicațiile
și serviciile lor online. Acest API face parte din setul mai larg de servicii oferite de Google Cloud.
Prin intermediul Google Web Speech API, dezvoltatorii pot beneficia de capacitățile
avansate de recunoaștere vocală oferite de Google. API-ul permite transformarea vorbirii umane
în text și poate fi utilizat într-o varietate de aplicații, cum ar fi asistenții vocali, transcrierea
automată a discuțiilor sau alte servicii care implică interacțiunea vocală cu utilizatorii.
Cod Python
import speech_recognition as sr
recognizer = sr.Recognizer()
return response
microphone = sr.Microphone()
while True:
response = recognize_speech_from_mic(recognizer, microphone)
if response["transcription"]:
print("You said: {}".format(response["transcription"]))
#exemplu de cod pentru realizarea unei comenzi specifice utilizând recunoașterea vocală
if "lumină" in response["transcription"].lower():
print("Se aprind luminile.")
elif "închide" in response["transcription"].lower():
print("Se închid luminile.")
if response["error"]:
print("Error: {}".format(response["error"]))
Explicare cod
import speech_recognition as sr
recognizer = sr.Recognizer()
Aici se importă biblioteca SpeechRecognition sub aliasul sr și se creează o instanță a
obiectului Recognizer.
response = {
"success": True,
"error": None,
"transcription": None
}
try:
response["transcription"] = recognizer.recognize_google(audio, language="ro-RO")
except sr.RequestError:
response["success"] = False
response["error"] = "API indisponibil"
except sr.UnknownValueError:
response["error"] = "Nu s-a putut realiza recunoașterea.."
În acest bloc, încearcă să realizeze recunoașterea vocală folosind Google Speech API. Dacă
apar erori (de exemplu, API-ul este indisponibil sau nu se poate recunoaște nimic), acestea sunt
gestionate prin capturarea excepțiilor și actualizarea dicționarului response.
Prelucrarea digitală a semnalelor
return response
microphone = sr.Microphone()
while True:
response = recognize_speech_from_mic(recognizer, microphone)
if response["transcription"]:
print("Ai spus: {}".format(response["transcription"]))
if response["error"]:
print("Eroare: {}".format(response["error"]))
Bibliografie