Sunteți pe pagina 1din 15

UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE

Tabla de contenido

RESEA HISTRICA 2

ESTADO DEL ARTE 2

PRINCIPALES MTODOS PARA LA OBTENCIN DE LA SEAL BIOMTRICA 3

PROCESAMIENTO DEL PATRN BIOMTRICO 7

PRINCIPALES APLICACIONES 8

IDENTIFICACIN AUTOMATIZADA 8
DETERMINACIN DE LA IDENTIDAD 9
RECONOCIMIENTO DEL ESTADO EMOCIONAL 9
ANLISIS DEMOGRFICO 10

EQUIPOS COMERCIALES Y SUS CARACTERSTICAS 10

REFERENCIAS 12
INTRODUCCIN

Resea histrica

El reconocimiento de voz es la identificacin de una persona mediante el anlisis de las caractersticas


de su voz. La voz consta de ciertas caractersticas como el acento y el ritmo del habla de una persona
como tambin as la forma y el tamao de la boca y la garganta.

El concepto del anlisis de los factores estructurales de la voz data del siglo XXI. En 1867 el padre de
Alexander Graham Bell, Alexander Melville Bell, estableci las bases para la futura investigacin de la
voz. Invent un lenguaje conocido como habla visible, que es un alfabeto escrito que representa los
sonidos del habla humana. Se us para ensear a personas sordas a hablar cualquier idioma con un
acento estndar. [1]

El primer uso de esta tecnologa se dio en la segunda guerra mundial. Los soldados norteamericanos
usaban un equipo llamado espectrgrafo para interceptar transmisiones de radio. En 1976 Texas
Instruments dise el primer equipo biomtrico de voz capaz de registrar y determinar al usuario a la
que perteneca. [2]

Estado del Arte

Hoy en da el reconocimiento de voz es muy usado en sistemas de seguridad para identificar o


verificar al usuario. A pesar de no ser completamente confiable, al ser usada en conjunto con otras
formas de autorizacin y verificacin biomtricas se puede garantizar la seguridad del sistema. [1]

El reconocimiento de voz tiene numerosas ventajas. La implementacin de sistemas de


reconocimiento de voz es menos costosa pues simplemente se necesita un micrfono para captar la
voz del usuario. Tambin este tipo de medida biomtrica permite a los usuarios identificarse de
manera remota, puesto que se solo se necesita de un telfono para captar la voz del usuario. [1]
Aparte de estas aplicaciones, el reconocimiento de voz se ha vuelto una herramienta importante para
el cumplimiento de leyes, seguridad nacional y las ciencias forenses. [3]

Existen dos tipos de reconocimiento de la voz: dependiente e independiente. El reconocimiento


dependiente se basa en un nmero limitado de palabras que deben ser pronunciadas por el usuario
para su verificacin. Se trata de aprender las caractersticas nicas de la voz del usuario, entrenando
al software para que una computadora pueda analizar la manera de hablar este. Al contrario del
reconocimiento independiente, en este caso se realiza la verificacin suponiendo que se sabe a qu
usuario se va a identificar. [4]

En el reconocimiento independiente se usan algoritmos, modelos estadsticos y procesos estocsticos


para la identificacin de cualquier usuario. Este tipo de identificacin es usada principalmente para
identificar al usuario mientras habla sin estar limitada al uso de palabras especficas. [5]

En el sistema de reconocimiento de Bangla se utilizan cdigos predictivos y redes neuronales para


realizar el procesamiento de la seal para el idioma bengal. [6] Al igual que para el idioma ingls, el
uso de cdigos predictivos y redes neuronales como tcnicas para el reconocimiento de voz. [7]
DESARROLLO

PRINCIPALES MTODOS PARA LA OBTENCIN DE LA SEAL BIOMTRICA

Existen tres principales mtodos utilizados para el reconocimiento de la seal de voz.

1. Comparacin de patrones

La ventaja principal de este mtodo es que se fundamenta en un marco matemtico definido


estableciendo patrones de voz consistentes usados para comparaciones confiables. Estas
representaciones de patrones pueden ser plantillas o modelos estadsticos (HMM: Hidden
Markov Model) los cuales se aplican a un sonido, palabra o frase.

Este mtodo consiste de dos pasos:

El entrenamiento de patrones
La comparacin de patrones

La ilustracin I muestra el esquema general del proceso de reconocimiento de voz utilizado


por el mtodo mencionado.

Ilustracin 1. Esquema general del mtodo.

a) Etapa de entrenamiento de patrones: se crean patrones de referencia para cada


sonido o palabra a reconocer, mediante vectores caractersticos. Existen tres formas
de entrenamiento. El entrenamiento casual usa una nica muestra de sonido para
crear el patrn de referencia. El entrenamiento robusto usa varias muestras para
generar el patrn de referencia sin embargo estas muestras son del mismo locutor.
Entrenamiento por clustering utiliza varias muestras de sonido provenientes de varios
locutores.
b) Etapa de Comparacin de patrones: el proceso se realiza entre el vector caracterstico
de la seal de voz a reconocer y los patrones de voz creados en la etapa de
entrenamiento y dependiendo de una medida de similitud se decide a que patrn se
asemeja ms la seal de voz.
Clasificador de Mnima distancia: es un reconocedor utilizado en la etapa de
comparacin de patrones que utiliza la distancia entre vectores para hallar una similitud
entre la seal de voz y uno de los patrones de referencia.

Si se denota un conjunto de vectores representativos 1 , 2 , . de los patrones de


referencia 1,2, . respectivamente. Estos vectores se generan mediante: [17].


1
=

=1

Donde son los vectores de entrenamiento (vectores caractersticos correspondientes a


los patrones generados en la etapa de entrenamiento) para cada una de las M palabras del
vocabulario.

es el conjunto de datos de entrenamiento de la palabra del vocabulario
[17].

El clasificador calcula la distancia entre cada uno de los vectores y un vector


correspondiente a la seal a reconocer. Esta distancia es conocida como la distancia de
Mahalanobis utilizada para determinar la similitud entre dos variables aleatorias. Esta
distancia se define matemticamente por la siguiente frmula:

1

(, ) = ( ) ( )

La ilustracin 2 muestra grficamente el funcionamiento del clasificador de mnima distancia.

Ilustracin 2. Diagrama de bloques del clasificador de mnima distancia.

2. Modelos Ocultos de Markov (HMM)

Hidden Markov Models (HMM) este modelo presenta una aproximacin de cada patrn de
referencia como un modelo estocstico, en otras palabras se denominamos una seal de voz
como el modelo HMM realiza un reconocimiento de dicha seal calculando la probabilidad
(|) de que la palabra o frase corresponda a la seal de voz A [18]. Mediante la regla
se Bayes se escribe como:

()(|)
(|) =
()

Donde () es la probabilidad de la secuencia de palabras , (|) es la probabilidad


de la senal de voz dada una secuencia de palabras W [18].

La ilustracin 4 muestra un ejemplo de los estados en un modelo oculto de Markov.

Ilustracin 3. Estados de un modelo oculto de Markov.

La ilustracin 4 muestra el diagrama de bloques de un sistema de reconocimiento de voz


basado en los modelos ocultos de Markov. Donde cada uno de los estados ocultos
representaran una letra del abecedario. Antes de aplicar un HMM es necesario analizar la
informacin apriori del problema.
Ilustracin 4. Sistema de reconocimiento de voz basado en el modelo oculto de Markov.

3. Modelo de Redes Neuronales

Este modelo de reconocimiento de voz se compone de tres etapas:


Codificacin de entrada: en esta etapa los la seal de voz se graba y transforma en
un conjunto de datos digitales. Estos datos de senal se guardan en vectores fila cuyo
tamao va de 15 a 100 elementos.
Red Neuronal: con los patrones obtenidos en la etapa de codificacin se entrena la
red es decir se crean patrones de referencia.
Decodificador de salida: en esta etapa se pone a prueba la red neuronal mediante l
reconocimiento de nuevas seales de voz.

Este modelo nace del concepto de los perceptrones multicapa conocidos como redes
neuronales artificiales. Constan de una etapa de entrada, una de salida y una o varias capas
ocultas, cada capa est compuesta por clulas llamadas neuronas cada una de ellas
conectadas a cada una de las neuronas de la capa siguiente mediante enlaces llamados
sinapsis, que transmiten las seales de una capa hacia otra cuando esta supera un umbral
determinado. Los estmulos en este caso seales de voz se introducen en la capa de entrada
y la respuesta de la neurona a la seal de entrada se da por una funcin de activacin. La
ilustracin 5 muestra grficamente la composicin de estas redes neuronales [18].
Ilustracin 5. a) neurona. b) perceptrn multicapa

En la etapa de entrenamiento de la red neuronal el estmulo, propagado a travs de la red


hacia la etapa de salida, se compara con la respuesta deseada. Cuando se produce una seal
de error luego de dicha comparacin esta seal es enviada hacia las etapas anteriores con el
fin de ajustar los umbrales de excitacin de las sinapsis de cada neurona, repitiendo el
proceso hasta que la red alcanza un estado estable [18].

Para el reconocimiento del patrn en la etapa de salida se utiliza el criterio de la menor


distancia entre vectores caractersticos del patrn de referencia y la seal de voz
respectivamente, dicha distancia se conoce como la distancia de Hamming.

PROCESAMIENTO DEL PATRN BIOMTRICO

Anlisis de Voz y extraccin de caractersticas

Es la primera etapa en el procesamiento de voz, y se realiza mediante una representacin espectral


de las caractersticas de la seal de voz. De esta representacin espectral se describen parmetros
acsticos de la seal como son: presencia de resonancia nasal, ubicacin de los formantes
(frecuencias de las 3 primeras resonancias [17]), energa de la seal entre otras. Existen dos mtodos
comnmente utilizados entre ellos est el anlisis LPC (Linear Predictive Coding).

Anlisis LPC: este mtodo consiste en generar valores de una seal peridica (seal de voz ) a
partir de valores anteriores de un sistema lineal y mediante estos valores determinar la funcin de
transferencia del filtro (cavidad) donde se gener la seal, para su posterior codificacin. La
ilustracin 4 muestra el modelo fuente filtro del tracto vocal.
Ilustracin 6. Fuente y filtro del tracto vocal.

PRINCIPALES APLICACIONES

Los sistemas de reconocimiento de voz se emplean principalmente para:

Identificacin automatizada.
Determinacin de la identidad.
Reconocimiento del estado emocional.

Identificacin automatizada

El reconocimiento de voz acta como un factor de autenticacin y puede ser empleado en cualquier
sistema de seguridad. Actualmente, estos sistemas combinan dos o ms sistemas biomtricos para
garantizar un alto nivel de seguridad.

Este tipo se sistemas son empleados en cuentas bancarias, pagos mviles, acceso a reas restringidas,
desbloqueos de dispositivos, etc.
El sistema Secure VoIP, propuesto en la conferencia Internacional Computer and Applications
(ICCA), ofrece la encriptacin de datos de voz para luego trasmitir el mensaje, simultneamente
realiza una autentificacin en tiempo real del receptor y despus de esta ser validad, se desencripta
dicho mensaje para ser escuchado por el receptor [8].

Ilustracin 7 - Esquema del sistema seguro de VoIP propuesto

Adems, en el ao pasado, se patent el Reconocimiento de voz para realizar autenticacin y


completar transacciones en una interfaz de sistemas con sistemas heredados, los autores de este
sistema lograron la autentificacin de voz de acuerdo a la informacin proporcionada por el usuario,
la cual es redireccionada desde una interfaz a los sistemas heredados y al mismo tiempo prepara una
solicitud de usuario [9].

Determinacin de la identidad

Un sistema de reconocimiento de voz, al mismo tiempo, permite la determinacin de la identidad de


una persona con la comparacin basada particularmente en los rasgos biolgicos expresados a travs de
la voz y as establecer una coincidencia con una base de datos. Esta rea fue desarrollada principalmente
para resolver crmenes que cuentan con evidencias en audio.

Un ejemplo de esta rea de aplicacin, fue el desarrollo


de herramientas para investigaciones criminalsticas;
cuando Morpho (Safran) se asoci con la empresa
AGNITIO para incorporar la tecnologa de ID de voz en los
productos de identificacin criminal. Con esto se
consigui que en cuestin de segundos se encontrara
coincidencias en voces en vivo o grabadas con una
precisin de ms del 99%, Voice ID brinda nuevas
herramientas para acelerar las investigaciones forenses.
[10]

Ilustracin 8 Empresa proveedora en Amrica


Reconocimiento del estado emocional Latina

Despus de los estudios que determinan que los rasgos


vocales no verbales trasfieren suficiente informacin para permitir la identificacin ciertos estados de
nimo de las personas, se han desarrollado aplicaciones donde se emplean sistemas de
reconocimiento de voz para lograr conocer emocionalmente ms a una persona.
Un estudio publicado en el presente ao, en la revista IEEE Transactions on Affective Computing, por
Kunxia Wang, Ning An y Bing Nan Li, bajo el ttulo Reconocimiento de la emocin del habla usando
los parmetros de Fourier, indican que las seales de voz receptadas, son procesadas a travs de un
filtro pasa altos, para facilitar la compasin con una base de datos creada a partir de datos
recolectados de tres fuentes: un corpus emocional alemn (EMODB), una base de datos emocional
china (CASIA) y una base de datos de habla emocional de personas mayores de China (EESDB). [11]

Adems, en el ao 2014, se emple un sistema de reconocimiento de voz en telfonos inteligentes, el


cual, por cuestiones de privacidad no se aplic speech reconognition en las llamadas telefnicas, pero
se logr analizar el tono, la velocidad de conversacin, entre otros factores con voice reconognition.
El estudio detalla las caractersticas del sonido analizado y presenta los resultados que son favorables
en gran medida la vida de un paciente con trastornos bipolar y su tratamiento [12].

Anlisis demogrfico

A partir del recogimiento de caractersticas biolgicas o de comportamiento con instrumentacin


biomtrica, el anlisis demogrfico automatizado se ha introducido en varios mbitos, por
ejemplo, en el control de seguridad y monitoreo de vigilancia relacionadas con la estimacin de edad,
para evitar que los nios adquieran productos txicos (como tabaco de las mquinas expendedoras) o
bloquear el ingreso a lugares restringidos para menores de edad [13].

EQUIPOS COMERCIALES Y SUS CARACTERSTICAS

A continuacin, se ofrece una resea de las principales corporaciones de desarrollo de software en el


reconocimiento de voz (comercialmente conocido como Voice ID o VoicePrint), empresas as
reconocidas en la investigacin Global Voice Recognition Biometrics Market 2015-2019 por
Technavio (Londers) la cual es una empresa dedicada a la investigacin de mercado y anlisis de
industrias. Tambin se presentan caractersticas de software desarrollado por estos fabricantes.

AGNITIO ofrece soluciones tanto a nivel comercial (financiero,


telecomunicaciones y de negocios) como para uso

gubernamental (inteligencia, militar y policial). Dentro de sus Ilustracin 9 AGNITIO empresa


clientes se encuentran: Departamento de Defensa EEUU, el dedicada al desarrollo de software
Departamento de Justicia de EEUU, Guardia Civil de Espaa y comercial y gubernamental
Ministerio del Interior de Francia. [14]

o Kivox 360

Tabla 1 Caractersticas software Kivox 360 (AGNITIO) obtenidos en [15]

Tipo Comercial

Enfoque Identificacin de clientes mediante llamada telefnica


Idioma Independiente del idioma

Tasa de Identificacin 99.5%, identificacin en 200ms para frases de 3 segundos

o BATVOX

Tabla 2 Caractersticas software BATVOX (AGNITIO) obtenidos en [16]

Tipo Gubernamental - Forense

Enfoque Identificacin en criminologa para verificacin de


evidencia.

Idioma Independiente del idioma

Tasa de Identificacin 99.2% con una grabacin de 60 segundos

o ASIS

Tabla 3 Caractersticas software ASIS (AGNITIO) obtenidos en [17]

Tipo Gubernamental - Policial

Enfoque Herramienta para la creacin de una base de datos


Biometric Voice Print (BVP) para la identificacin de
sospechosos durante investigacin criminal.

Idioma Independiente del idioma

Tasa de Identificacin 99.02% con una grabacin de 60 segundos

NUANCE desarrolla software de reconocimiento de voz y lenguaje


enfocado al sector comercial, financiero y de negocios.
Dentro de reconocimiento biomtrico algunos de sus clientes son CitiBank,
Barclays Wealth, Banco Santander Mexico y ING Netherlands. [14]

o Nuance FreeSpeech authenticate Ilustracin 11 Naunce


Desarrollador de
software comercial y
financiero
Tabla 4 Caractersticas software FreeSpeech (NUANCE) obtenidos en [18]

Tipo Comercial

Enfoque Reconocimiento de clientes en call center (financiero,


negocios) sin interrumpir llamada

Idioma Cualquier idioma y acento

Tasa de Identificacin Dato no proporcionado por el desarrollador

VoiceTrust Empresa dedicada al reconocimiento


biomtrico y biometra multimodal para bancos,
compaas y call centers. Ilustracin 12 VoiceTrust - Empresa dedicada
Sus principales clientes son: Telefnica, al mercado de mbito comercial corporativo
Volkswagen Bank, DHL, IBM. [14]

o VoiceTrust Proof-of-Life

Tabla 5 Caractersticas software VoiceTrist Proof of Life (VoiceTrust) obtenidos en [19]

Tipo Comercial

Enfoque Comprueba la identidad y vitalidad de personas jubiladas


para evitar reclamos fraudulentos de pensiones.

Idioma Cualquier idioma y acento

Tasa de Identificacin Dato no proporcionado por el desarrollador

Referencias

[1] L. Myers, An Exploration of Voice Biometrics, SANS Institute Reading Room, 2004.

[2] Voicevault, vocievaul, 2 septiembre 2015. [En lnea]. Available: http://voicevault.com/a-


brief-history-of-voice-biometrics/. [ltimo acceso: 10 noviembre 2017].

[3] T. H. John Hansen, Speaker Recognition by Machines and Humans, IEEE SIGNAL
PROCESSING MAGAZINE, pp. 74-99, 2015.

[4] SpeechAngel, SpeechAngel, 4 mayo 2016. [En lnea]. Available:


https://speechangel.com/2016/05/04/difference-speaker-dependent-speaker-
independent-recognition-software/. [ltimo acceso: 10 noviembre 2017].

[5] P. Robinson, Implementation of an HMM-Based, Speaker-Independent Speech


Recognition System on the TMS320C2x and TMS320C5x, Texas Instruments
Incorporated, 1996.

[6] D. D. Paul anup, Bangla Speech Recognition System using LPC and ANN.

[7] A. A.-Q. K. Daqrouq, "Discrete Wavelet Transform & Linear Prediction Coding Based
Method for Speech Recognition via Neural Network", INTECH, 2011.

[8] E. M. Elshamy, H. M. Kelash y A. I. Hussein, Secure VoIP System Based on Biometric


Voice Authentication and Nested Digital Cryptosystem using Chaotic Baker's map and
Arnold's Cat Map Encryption, de Computer and Applications (ICCA), 2017 International
Conference, Doha, United Arab Emirates, United Arab Emirates, 2017.

[9] R. J. M. R. T. M. J. M. E. D. Steven G. Smith, Voice recognition for performing


authentication and completing transactions in a systems interface to legacy systems.
Patente US9264906 B2, 16 Febrero 2016.

[10] P. B. Counter, FINDBIOMETRICS, GLOBAL IDENTITY MANAGEMENT, 18 Mayo 2016. [En


lnea]. Available: https://findbiometrics.com/4-applications-voice-recognition-305180/.
[ltimo acceso: 03 Noviembre 2017].

[11] K. Wang, N. An y B. N. Li, Speech Emotion Recognition Using Fourier Parameters, IEEE
Transactions on Affective Computing, vol. 6, n 1, pp. 69-75, 2015.

[12] A. Grnerbl, A. Muaremi y V. Osmani, Smartphone-Based Recognition of States and


State Changes in Bipolar Disorder Patients, IEEE Journal of Biomedical and Health
Informatics , vol. 19, n 1, pp. 140-148, 2015.

[13] Y. Sun, M. Zhang y Z. Sun, Demographic Analysis from Biometric Data: Achievements,
Challenges, and New Frontiers, IEEE Transactions on Pattern Analysis and Machine
Intelligence, n 99, 2017.

[14] Global Voice Recognition Biometrics Market 2015-2019, TECHNAVIO, 2015. [En lnea].
Available: https://www.technavio.com/report/global-voice-recognition-biometrics-
market-2015-2019. [ltimo acceso: 3 11 2017].

[15] A. S.L., KIVOX 360 Product Data Sheet, AGNITIO S.L., Madrid, 2015.

[16] A. S.L., BATVOX Product Data Sheet, AGNITIO S.L., Madrid, 2015.

[17] A. S.L., ASIS Product Data Sheet, AGNITIO S.L., Madrid, 2015.

[18] S. Nuance Communications, Easy and secure biometric authentication Data Sheet,
Nuance Communications, S.A., Massachusetts, 2016.

[19] VoiceTrust, Proof-of-LifeTM Solution Data Sheet, VoiceTrust, Toronto, 2016.

S-ar putea să vă placă și