Sunteți pe pagina 1din 124

Universidad Austral de Chile

Facultad de Ciencias de la Ingeniera


Escuela de Ingeniera Civil Acstica
Profesor Patrocinante: Dr. Jorge Sommerhoff H. Instituto de Acstica. Universidad Austral de Chile.

DESCRIPCIN DE LOS MTODOS UTILIZADOS EN RECONOCIMIENTO FORENSE DE LOCUTORES Y SU IMPLEMENTACIN EN CHILE.

Tesis presentada como parte de los requisitos para optar al ttulo profesional de Ingeniero Civil Acstico

PABLO ALEJANDRO CELIS HERRERA Valdivia Chile 2009

Este trabajo de titilacin est dedicado a mi madre, Mara Alicia Herrera Astete

INDICE
RESUMEN.............................................................................................................................1 ABSTRACT ............................................................................................................................2 OBJETIVOS ..........................................................................................................................3 1. INTRODUCCIN..............................................................................................................4 2. ANTECEDENTES HISTRICOS VINCULADOS A LA VERIFICACIN E IDENTIFICACIN FORENSE DE LOCUTORES............................................................6
2.1 PRIMEROS ANTECEDENTES CONOCIDOS, RECONOCIMIENTO E IDENTIFICACIN AUDITIVA................................................................................................. 6
2.1.1 Primeros sistemas de anlisis cualitativo .................................................................................... 6

2.2

LAWRENCE KERSTA .................................................................................................. 8

2.3 EL SURGIMIENTO DE LA TCNICA DE IDENTIFICACIN Y VERIFICACIN DE LOCUTORES EN ESTADOS UNIDOS ............................................. 10 2.4 2.5
2.5.1 2.5.2

ANTECEDENTES CONOCIDOS FUERA DE ESTADOS UNIDOS..................... 13 EL ESTADO DE LA TCNICA EN LA ACTUALIDAD ......................................... 14


Estados Unidos.......................................................................................................................... 14 Antecedentes importantes en el resto del mundo ...................................................................... 15

2.6

FUTUROS TRABAJOS................................................................................................ 16

3. PRODUCCIN DEL HABLA ........................................................................................18


3.1
3.1.1

PRODUCCIN DE LA VOZ HUMANA, FONTICA ARTICULATORIA ........ 18


Fisiologa y funcionalidad del aparato fonador......................................................................... 18

3.2
3.2.1 3.2.2 3.2.3

ALGUNOS CONCEPTOS BSICOS DEL LENGUAJE ......................................... 22


Fonologa y fontica ................................................................................................................. 22 Clasificacin de los sonidos de la voz humana. ........................................................................ 23 El alfabeto fontico internacional (A.F.I.) ................................................................................ 27

4. PROBLEMTICA EXISTENTE PARA CREAR UN MTODO INFALIBLE PARA VERIFICAR E IDENTIFICAR PERSONAS POR SU VOZ ............................................29
4.1 4.2 INTRODUCCIN ......................................................................................................... 29 VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR.................................... 29

4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto emisor............................ 30 4.2.1.1 Variaciones no relacionadas con el plano expresivo .............................................................. 30 4.2.1.2 Variaciones relacionadas con el plano expresivo .................................................................. 32 4.2.2 Circunstancias ajenas a la naturaleza del habla y del sujeto emisor.......................................... 33

5. EXPRESIN DE RESULTADOS E INFERENCIAS BAYESIANAS.........................35


5.1 INFERENCIA BAYESIANA ....................................................................................... 35

5.1.1 5.1.2

Antecedentes histricos............................................................................................................. 35 La interpretacin de la metodologa bayesiana y las cortes ..................................................... 36

5.2
5.2.1 5.2.2 5.2.3

LA PROPORCIN DE VEROSIMILITUD (LR) ..................................................... 36


Combinacin de LRs................................................................................................................. 38 Escalas verbales para la proporcin de verosimilitud ............................................................... 39 Escala logartmica para la proporcin de verosimilitud ............................................................ 40

5.3 5.4

PROBABILIDAD A PRIORI ....................................................................................... 41 HIPTESIS DE DEFENSA.......................................................................................... 42

6. CARACTERSTICAS ACSTICAS IMPORTANTES DEL HABLA DESDE EL PUNTO DE VISTA FORENSE ..........................................................................................43
6.1
6.1.1 6.1.2

FUENTE Y FILTRO ACSTICO DEL TRACTO VOCAL .................................... 43


Fuente acstica en el tracto vocal.............................................................................................. 43 Filtro del tracto vocal ................................................................................................................ 45

6.2 CARACTERSTICAS DEL HABLA UTILIZADAS EN RECONOCIMIENTO FORENSE DE LOCUTORES................................................................................................... 49


6.2.1 Los formantes............................................................................................................................ 49 6.2.1.1 Determinando las frecuencias centrales de formantes para una schwa ................................... 50 6.2.1.2 Funcin de rea....................................................................................................................... 51 6.2.1.3 Comportamiento de los formantes de las vocales en el espaol ............................................ 51 6.2.1.4 Variacin intralocutor e interlocutor en formantes del espaol ............................................. 53 6.2.1.5 Visualizacin de una schwa ................................................................................................... 53 6.2.1.6 Significado forense para la longitud del tracto vocal y las frecuencias formantes ................ 54 6.2.2 Frecuencia fundamental ............................................................................................................ 55 6.2.2.1 Determinacin de la frecuencia fundamental segn masa y longitud de las cuerdas vocales. 56 6.2.2.2 Un ejemplo de la frecuencia fundamental en la palabra hija .................................................. 57 6.2.2.3 Significado forense de la frecuencia fundamental .................................................................. 58 6.2.3 Formantes de alta frecuencia..................................................................................................... 58 6.2.3.1 El significado forense de los formantes de alta frecuencia..................................................... 59 6.2.4 El espectro a largo plazo ........................................................................................................... 60 6.2.4.1 Significado forense del LTAS ................................................................................................ 61 6.2.5 El cepstrum ............................................................................................................................... 62 6.2.5.1 Anlisis tcnico del cepstrum ................................................................................................. 64 6.2.5.2 Coeficientes cepstrales de Mel (MFCC)................................................................................. 65 6.2.5.3 Parmetros derivados.............................................................................................................. 67 6.2.5.4 Importancia forense del cepstrum........................................................................................... 68 6.2.6 Distribuciones de la frecuencia fundamental a largo plazo....................................................... 69 6.2.6.1 Parmetros estadsticos importantes en distribuciones a largo plazo...................................... 71 6.2.6.2 La frecuencia fundamental y la salud ..................................................................................... 75 6.2.6.3 Las distribuciones de frecuencia fundamental y probabilidades............................................ 76 6.2.6.4 Modelando distribuciones de la frecuencia fundamental....................................................... 76

7. COLOCANDO EN PRCTICA LA METODOLOGA BAYESIANA..........................80


7.1 PRONUNCIACIN ILEGAL DE VOCALES EN EL JAPONS ........................... 80 7.2 CLCULO PARA LA PROPORCIN DE VEROSIMILITUD CON DATOS CONTINUOS .............................................................................................................................. 82
7.2.1 Semejanza ................................................................................................................................. 83

7.2.2 Tipicidad ................................................................................................................................... 84 7.2.3 Una frmula para la proporcin de verosimilitud ..................................................................... 86 7.2.4 Aplicando la frmula para la proporcin de verosimilitud........................................................ 87 7.2.4.1 Muestra de referencia ............................................................................................................ 87 7.2.4.2 Resultados, muestras dubitadas e indubitadas ....................................................................... 89

8. ALGORITMOS DE CLASIFICACIN UTILIZADOS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES EN SISTEMAS AUTOMTICOS ..............................................................................................................................................91
8.1
8.1.1 8.1.2

ALGORITMOS DE PLANTILLA .............................................................................. 91


Alineamiento temporal dinmico (DTW) ................................................................................. 91 Cuantizacin vectorial (VQ) ..................................................................................................... 92

8.2

MODELOS ESTOCSTICOS..................................................................................... 93

8.2.1 Modelo de mezclas gaussianas (GMM) .................................................................................... 93 8.2.1.1 Modelo Universal (UBM)....................................................................................................... 95 8.2.1.2 Adaptacin de un modelo al locutor mediante el algoritmo EM ............................................ 95 8.2.1.3 Ajuste de un modelo al locutor utilizando adaptacin bayesiana (MAP) .............................. 96 8.2.2 Modelos ocultos de Markov (HMM) ........................................................................................ 97

8.3 TCNICAS ALTERNATIVAS USADAS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES................................................................................................... 98


8.3.1 Redes neuronales artificiales..................................................................................................... 98

9. TRABAJOS REALIZADOS EN CHILE EN RECONOCIMIENTO DE LOCUTORES CON FINES FORENSES .................................................................................................100


9.1 LA EVIDENCIA DE LA PRUEBA DE VOZ DE CARA A LOS TRIBUNALES CHILENOS ............................................................................................................................... 100
9.1.1 9.1.2 Con respecto al perito ............................................................................................................. 101 Acerca del informe pericial..................................................................................................... 102

9.2

ALGUNOS GRUPOS TRABAJANDO EN CHILE................................................. 102

9.2.1 Seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile . 103 9.2.2 Miembros pertenecientes a la Universidad de Chile ............................................................... 107 9.2.2.1 Peritajes realizados por Luis Romero Romero ..................................................................... 107 9.2.2.2 Peritajes realizados por Carla Badani Schoneweg................................................................ 107 9.2.3 Trabajos realizados por docentes de la Universidad Austral de Chile .................................... 109 9.2.3.1 Peritajes ................................................................................................................................ 110 9.2.3.2 Investigacin en curso .......................................................................................................... 110 9.2.4 Trabajos realizados por personas particulares......................................................................... 110

10. CONCLUSIONES........................................................................................................111 BIBLIOGRAFA................................................................................................................114 ANEXOS ............................................................................................................................116

RESUMEN
En el presente trabajo se pretende caracterizar la prctica forense en Chile, asociada bsicamente al reconocimiento del hablante, desde el punto de vista de la Ingeniera Acstica. Para ello, en primer lugar, se examinarn conceptos generales, antecedentes histricos, conocimientos bsicos del lenguaje y caractersticas acsticas del habla entre otros elementos relacionados con el campo de estudio, necesarios para la comprensin de la problemtica central. En segundo lugar, se describir la teora bayesiana aplicada a los sistemas de reconocimiento de locutores, de cara a ser utilizada en trabajos prcticos. Finalmente, se darn a conocer aspectos desarrollados en Chile en los ltimos aos en el desarrollo de la metodologa acstica forense. Con ello se pretende brindar los conocimientos bsicos que permitan apoyar y mejorar la prctica forense en Chile.

ABSTRACT
In the present work it is seek to characterize the forensic practice in Chile, associate basically to the speaker recognition from point of view of the Acoustic Engineering. For it, in first place, general terms will be examined, historical antecedents, basic knowledge of the language characteristic acoustic of the speech among other elements related with the study field, necessary for the understanding of the central problem. In second place, the Bayesian theory will be described applied to the systems of speaker recognition, of face to be used in practical works. Finally, they will be given to know aspects developed in Chile in the last years in the development of the forensic acoustic methodology. With it is seek to offer it the basic knowledge that allow to support and to improve the forensic practice in our country.

OBJETIVOS
General:
Describir la metodologa acstica aplicada al reconocimiento de la voz en Chile.

Especficos:
Describir la metodologa bayesiana aplicada al reconocimiento de locutor en el mbito forense. Comparar las ventajas y desventajas de la metodologa bayesiana con otros mtodos utilizados, especialmente en Chile. Describir y analizar los diversos factores causantes de problemtica en las tcnicas, sus soluciones e influencia en los resultados.

1. INTRODUCCIN
A partir de la dcada de los cincuenta, comienza la gnesis de nuevos y diversos experimentos los cuales tienen como objetivo lograr mtodos con los cuales reconocer e identificar personas por su voz. Si bien es cierto, este es un problema al cual se comenz la bsqueda de una solucin a partir de la mitad del siglo recin pasado. Existen numerosos relatos, los cuales cuentan acontecimientos concernientes a la identificacin de una persona mediante su voz. Incluso en la Biblia existe un relato donde un padre ciego puede reconocer a un hijo mediante su voz. Para todos es familiar reconocer a una persona conocida mediante su voz, un ejemplo de esto es al contestar un telfono, a veces nos sucede que inmediatamente reconocemos al locutor que est al otro lado del telfono cuando este emite una o ms palabras. Sin embargo, el problema de reconocer personas por la voz se hace mayormente interesante cuando en la dcada de los setenta comienzan a gestarse crmenes en los cuales se contaba con grabaciones de los delincuentes involucrados en dicho crimen. Al respecto surgen diversas tcnicas de carcter cientfico; este es el caldo de cultivo para empezar a comprender que la invencin de una tcnica idnea concerniente a resolver el problema es una tarea sumamente complicada. La falta de comprensin en el ncleo del problema hizo que la tcnica fuera blanco de muchas crticas y ridiculizaciones en pocas pasadas, las cuales an en la actualidad tienen eco. Sin duda las barreras del pasado han sido superadas y un entendimiento a fondo del problema es lo que ha llevado a contar hoy con sistemas de identificacin de locutores con excelentes resultados. En la actualidad, las tcnicas utilizadas en reconocimiento de locutores con fines forenses aparecen ya consagradas en muchos pases, y en muchos de los cuales se siguen investigando y desarrollando aspectos que tienen el fin de mejorar el estado de la tcnica. Sin embargo, en Chile las tcnicas de identificacin y verificacin forense de locutores parecen an extraas y en gran manera desconocidas por muchas personas relacionadas con el campo de su aplicacin. En este trabajo se pretende dar a conocer el estado del arte y aspectos importantes vinculados a los mtodos utilizados en reconocimiento forense de locutores en la actualidad, desde un punto de vista de la Ingeniera Acstica, y conocer cules son los trabajos realizados y por realizar en Chile en esta rea. Adems, se procurar dar especial

nfasis a la metodologa bayesiana vinculada al reconocimiento de locutores con fines forenses. Conviene sealar la naturaleza multidisciplinar del campo de estudio tratado y la gran cantidad de datos que se desprenden en este entorno, lo cual hace de esta rea un tema muy complejo de estudiar. Es por esta razn que este trabajo pretende establecer pautas y directrices de futuros trabajos en este campo en la Universidad Austral de Chile, y especialmente en el Instituto de Acstica.

2. ANTECEDENTES HISTRICOS VINCULADOS A LA VERIFICACIN E IDENTIFICACIN FORENSE DE LOCUTORES


2.1 PRIMEROS ANTECEDENTES CONOCIDOS, RECONOCIMIENTO E IDENTIFICACIN AUDITIVA

Los simples reconocimientos a nivel perceptivo son la primera referencia que se posee acerca de la materia de inters, el reconocimiento forense de locutores como una prueba vlida tomada en cuenta por un tribunal de justicia. En 1660 un tribunal ingls estim vlido un testimonio de este tipo en el caso de un tal William Hullet. Existen adems algunos comentarios que dicen que en el perodo transcurrido entre 1774 y 1780, cuando John Fielding ocupaba el cargo de jefe de los Bow Street Runners 1 , siendo ciego, consigui identificar numerosos delincuentes por su voz. En 1881 un tribunal norteamericano consider admisible la identificacin de un perro por su ladrido. El argumento utilizado para la sentencia relataba, que si si una persona puede ser reconocida por su voz, un perro puede serlo a travs de su ladrido. Un caso ms cercano, en el tiempo en el cual se consider un reconocimiento perceptivo, es en el conocido secuestro Lindberg. En 1935 Charles Lindberg, famoso piloto estadounidense (por ser la primera persona en sobrevolar solo el Ocano Atlntico), sufri el secuestro y asesinato de su hijo. Bruno Hauptmann fue arrestado y acusado por tal accin. Durante el juicio, Lindberg reconoci la voz de Hauptmann como aquella del secuestrador que dos aos antes haba escuchado personalmente a travs del telfono. Esta identificacin, fue considerada vlida por el tribunal, y al parecer tuvo un gran peso en la sentencia final, la cual fue de muerte. La gran resonancia del caso y el cuestionamiento que en relacin a este tipo de reconocimiento perceptivo a largo plazo se formul, hicieron del asunto Lindberg una referencia popular aunque primitiva de la tcnica de identificacin de voz [11].

2.1.1 Primeros sistemas de anlisis cualitativo


El primer salto importante en este aspecto tiene antecedentes en los trabajos de Alexander Melville Bell, que en 1867 ide una forma de representacin grfica de las palabras en funcin de cmo eran pronunciadas. Este sistema fue bautizado como visible speech (habla visible), y fue utilizado tanto por su creador como por su hijo, el famoso
1

Los Bow Street Runners. As fue llamada la primera fuerza profesional de la polica de Londres. Fue fundada por Henry Fielding en 1749 y originalmente cont con ocho integrantes.

Alexander Graham Bell 2 para hacer ms funcional el aprendizaje del habla en las personas sordas. Los laboratorios Bell situados en Murray Hill, New Jersey, han sido una importantsima referencia en lo que respecta a la tcnica de identificacin de voz. Una larga serie de ingenieros que han pasado por estos laboratorios han contribuido de manera relevante en el desarrollo de la tcnica. Entre otros, pueden citarse a los seores Bell, Potter, Kopp, Green, Kersta, Atal, Rosenberg, Doddington, Presti, etc. En 1947 los doctores Potter, Kopp y Green publicaban un libro titulado Visible speech tomando prestado el nombre empleado por Alexander Melville Bell. En este libro se pretenda instruir sobre la interpretacin lingstica de los sonidos del habla representados en forma de espectrogramas o sonogramas. Lo que los diferenciaba del seor Bell era la utilizacin en sus trabajos de una mquina de reciente invencin: el espectrgrafo analgico de sonido o songrafo. Con ayuda de este instrumento codificaron el habla en formas grficas, representando el sonido en una referencia tridimensional (frecuencia, amplitud, tiempo) mediante la realizacin de sucesivos anlisis de Fourier a corto plazo en una muestra de voz. Ya a principios de siglo XX comienzan los primeros progresos con espectrgrafos de naturaleza mecnica, como fue el analizador de Heinrici. Durante la segunda guerra mundial se hicieron los avances ms significativos con respecto al songrafo. En 1941 los laboratorios Bell iniciaron su diseo en un proyecto dirigido por el doctor Ralph Potter. La finalidad prioritaria era el reconocimiento de operadores de radio alemanes para poder detectar la ubicacin y desplazamiento de las distintas unidades enemigas. En 1944, los doctores Gray y Koop se encontraban absolutamente confiados en la posibilidad de utilizacin de sonogramas con fines identificativos. Fue aqu cuando crearon el termino voiceprint (huella de voz), tratando de poner su mtodo en igualdad de condiciones con la identificacin forense mediante huellas dactilares o fingerprint, ya consolidada para entonces. El trmino utilizado traera mas adelante nefastas consecuencias. Dos circunstancias hicieron caer en el olvido el proyecto originado en los laboratorios Bell: el fin de la guerra y la imposibilidad de registrar en aquellos das grabaciones de voz. Como contrapunto favorable, puede citarse el hecho de que el estudio, en lo que respecta a identificacin de locutores, dej de ser un inters estrictamente militar, dando paso a la posibilidad de avanzar en el tema a otros cientficos y estudiosos del habla.
2

Cientfico e inventor britnico nacido en 1847, especializado en transmisin de ondas sonoras y en tecnologa area. Entre sus muchos inventos, sin duda, el telfono es el ms importante.

Como puede verse, el mayor nmero de antecedentes registrados respecto a la identificacin forense de locutores, proviene de Estados Unidos, pas que puede considerarse pionero en la tcnica. Se sabe de algunos trabajos realizados en la Unin Sovitica y en algunos de sus pases satlites despus de la segunda guerra mundial, aunque muy poco se conoce respecto a los logros de dichos trabajos [11].

2.2

LAWRENCE KERSTA

En torno al ao 1960 en Estados Unidos comienza a surgir una nueva moda delictiva, las amenazas telefnicas de bombas a compaas areas. Para aquellos das, las grabaciones magnetofnicas de sucesos sonoros eran tan viables como lo son en la actualidad, por lo tanto, lo que fue un impedimento hacia quince aos atrs, ya no exista. En estas circunstancias, la polica de Nueva York solicit ayuda a los laboratorios Bell para capturar a los individuos que realizaban estas llamadas. Un fsico que haba participado en los experimentos iniciales del songrafo fue elegido para cumplir esta tarea, su nombre era Lawrence Kersta. Kersta necesit dos aos para presentar un mtodo de identificacin de voz, el cual otorg una fiabilidad de 99.65%. El mtodo de Kersta, se basaba bsicamente en la comparacin de los patterns (figuras de representacin grfica de la frecuencia y la amplitud en el dominio del tiempo) que aparecen en los sonogramas; un proceso similar al usado para el anlisis de huellas dactilares, motivo por el cual probablemente Kersta volvi a utilizar el trmino voiceprint para el sonograma de voz. El convencimiento de Kersta acerca de la infalibilidad de su mtodo era tan grande que lleg a compararlo con el de huellas dactilares en su presentacin ante la Acoustical Society of America 3 en 1962. Entre los aos 1962 y 1966 Kersta colabor exitosamente con distintos departamentos de polica y agencias federales. En 1966, Kersta abandona los laboratorios Bell para formar su propia compaa Voiceprint Laboratories, Inc.. Esta nueva compaa, ofreca diversos servicios tales como: perito en identificacin de voz, procesado de seal, trascripcin sobre registros, e incluso produca songrafos con fines comerciales en competencia con la firma Kay Elemetrics Co.. En la introduccin del catlogo de presentacin de la compaa, Kersta deja clara su visin acerca de su tcnica de identificacin de voz: ...de la misma forma en que la identificacin dactilar se basa en las caractersticas individuales que aparecen en las impresiones de las huellas dactilares de las personas, la identificacin por voiceprint tiene su fundamento en las caractersticas individuales que se ponen de manifiesto en las impresiones espectrogrficas de las emisiones habladas de los sujetos.
3

La Acoustical Society of America (ASA) es una sociedad cientfica internacional fundada en el ao 1928, dedicada a incrementar y difundir el conocimiento de acstica y sus aplicaciones prcticas.

Otro servicio que ofreca la empresa de Kersta, era la de formacin de expertos. El primer curso de adiestramiento lo realiz en 1967. Asistieron a ste miembros de la polica cientfica del estado de Michigan y Oscar Tosi, como asesor de dicho departamento policial, en calidad de evaluador de los procedimientos utilizados por Kersta. Los cursos dictados tenan una duracin de dos semanas, que deba ser complementado con otro de dos aos, en el cual los estudiantes eran entrenados en la comparacin visual de espectrogramas, supervisado por el propio Kersta. Por todas las razones mencionadas, Kersta es considerado el primer perito que testific ante un tribunal como experto en identificacin de voz, aunque cometi errores, algunos muy perjudiciales para la tcnica. Kersta contino participando como perito ante los tribunales. En el caso People vs King en 1968 (sobre incendio y pillaje en un barrio de Los Angeles) durante una entrevista televisiva alguien que no mostraba su cara a la cmara se haca responsable de los hechos delictivos. Kersta, que actuaba para el fiscal, compar los registros de habla con muestras de un sospechoso al cual identific. Siete expertos utiliz la defensa (ingenieros y fonetistas), uno de ellos, el Doctor Peter Ladefoged de la Universidad de California, atac exitosamente la metodologa utilizada por Kersta, poniendo en evidencia las carencias de su mtodo, en el campo de las ciencias del habla. El acusado fue absuelto. Este hecho, represent para Kersta el fin de su carrera como perito y empresario en el mbito de identificacin de locutores, y desencaden la reinvencin de la tcnica, que otrora fuera dominada por los ingenieros y fsicos acsticos, y que en adelante tendra un carcter multidisciplinar, entrando a participar activamente expertos de las ciencias del habla, que casual, pero injustamente fueron ignorados en un principio. Kersta cometi tres errores fundamentales: Situ en el mismo plano de infalibilidad la identificacin dactilar y la identificacin de voz, cuando los objetos de estudio de cada una de estas ciencias forenses presenta una naturaleza opuesta. La huella dactilar es inmutable y perenne, mientras que las emisiones del habla presentan una naturaleza variable. Us el anlisis sonogrfico como mtodo exclusivo, dejando de lado el estudio a nivel fontico, como tambin el anlisis perceptivo/auditivo. Estaba convencido que cualquier miembro de las fuerzas de seguridad estaba capacitado para desarrollar la tcnica de identificacin de locutores, tras un entrenamiento en el nico criterio de comparacin de patterns sonogrficos.

En 1973 Voiceprint Laboratories Inc. fue a la quiebra, siendo sus derechos comprados por William Hughes, quien fund Voice Identification Inc. con el objetivo

principal de seguir con la produccin comercial de songrafos, aunque de forma ocasional se ofrecan servicios periciales de identificacin de voz, ya que parte del personal de la compaa de Kersta, haba sido absorbido por la nueva empresa. Voice Identification Inc. contina en la actualidad. Los errores cometidos por Kersta an se dejan sentir. Estos errores son especialmente utilizados por personas con poco conocimiento del tema y por algunos inescrupulosos que desean desprestigiar la tcnica para conseguir algn propsito. Sin embargo estos motivos no deben ser impedimento para el desarrollo de esta herramienta de indudable valor para el esclarecimiento de algunas actividades delictuales, y que ya en nuestros das ha sido objeto de muchos avances [11].

2.3

EL SURGIMIENTO DE LA TCNICA DE IDENTIFICACIN Y VERIFICACIN DE LOCUTORES EN ESTADOS UNIDOS

Los primeros testimonios frente a un tribunal por parte de expertos se produce en 1966, en los cuales particip Kersta, Sin embargo en 1967 fue la primera vez que se orden por parte de un tribunal verificar y regular la admisibilidad de la prueba de identificacin forense de locutores. Un juez incluye por primera vez una referencia de aceptacin cientfica conocida como Frye test o Frye rule, el cual fue el estndar de admisibilidad utilizado en el declive como experto de Kersta. La referencia Frye fue dictada en 1923 y seala que: ...cuando un nuevo principio o descubrimiento cientfico es utilizado ante los tribunales para demostrar alguna evidencia, ste, debe contar con la general aceptacin de la comunidad cientfica de su entorno. La insuficiente evaluacin respecto al mtodo espectrogrfico y la carencia de un marco de referencia meticuloso respecto a su admisibilidad fueron los factores que en los primeros aos de la tcnica opacaron su fiabilidad. En 1967 para hacer frente a estas circunstancias, el departamento de ciencias del habla y audiologa de la Universidad del Estado de Michigan (M.S.U), subvencionado por el Departamento de Justicia de los Estados Unidos, desarroll un experimento durante tres aos. El responsable del proyecto fue el doctor en ciencias fsicas Oscar Tosi. En este estudio se efectuaron 34.992 evaluaciones de identificacin y eliminacin espectrogrfica en las cuales fueron incluidas condiciones forenses (ruido, transmisin telefnica, no contemporaneidad de las muestras, etc). Durante este perodo la polica de Michigan, trabaj simultneamente en casos reales de identificacin de locutores con fines forenses bajo las directrices de Tosi, aunque dichos casos no fueron considerados como evidencia.

10

En 1970 concluyen los estudios realizados por la M.S.U, con resultados altamente favorables para el mtodo espectrogrfico de identificacin de locutores. Por este motivo, el Departamento de Polica del Estado de Michigan decide crear la primera unidad policial de investigacin en identificacin de voz (exceptuando el F.B.I.). Al frente de esta unidad es designado el teniente Ernest Nash, el cual fue la persona que trabaj con Tosi en coordinar el anlisis de casos forenses reales durante el perodo de experimentacin. Tras los resultados de los estudios de 1970, Oscar Tosi, que en un principio haba declarado en contra del mtodo espectrogrfico da a conocer un nuevo enfoque metodolgico, sta es la tcnica auditiva-espectrogrfica, y que fue utilizada ese mismo ao con xito en un caso en Minnesota, donde el tribunal supremo de este estado reconoci como fiable la prueba de identificacin de voz, incluso el Doctor Ladefoged que actuaba como perito de la defensa, reconoci la fiabilidad de la metodologa propuesta por Tosi, que junto a Nash actuaban como peritos de la fiscala (recordando que Ladefoged se mostr en contra del mtodo de Kersta). En 1971 con el objetivo de institucionalizar diversos aspectos y conceptos con respecto a la tcnica de identificacin forense de locutores, Kersta, Tosi y Nash, junto a un asesor legal fundan la I.A.V.I. (Asociacin Internacional de Identificacin de Voz), la cual se propone entre otros objetivos, la formacin y calificacin de expertos, fomentar la investigacin y establecer un cdigo de tica para la utilizacin de la tcnica. En 1980 la I.A.V.I. se integra al VIAAS (Voice Identification & Acoustic Analysis Subcommitee) de la International Association for Identification (I.A.I.) 4 . En 1978 Tosi y Greenwald realizaron un nuevo experimento, en el cual estaban contemplados la influencia de diversos factores en la tcnica auditiva-espectrogrfica como lapso temporal, sexo y entrenamiento del experto. Veintitrs estados federales norteamericanos, algunos canadienses, Italia e Israel, haban admitido en el ao 1978 la evidencia de identificacin de voz. Durante los ltimos aos de la dcada de los setenta, los detractores de la metodologa de Kersta fueron sistemticamente ampliando sus crticas a las metodologas ms desarrolladas, estas crticas en muchos casos correspondan a objetivos personales, llegando nuevamente a un punto muerto. La regla Frye exiga que la comunidad cientfica estuviera completamente de acuerdo al respecto, y obviamente utilizando este recurso muchas cortes decidieron desechar la evidencia de identificacin de voz, ya que no se tenia certeza que parte de la comunidad cientfica era la competente en este campo.

La International Association for Identification (I.A.I.) es la ms grande organizacin forense en el mundo. Fue fundada en octubre de 1915 con el nombre inicial de "International Association for Criminal Identification".

11

Mucho antes, en la dcada de los 50, el F.B.I ya haba comenzado sus investigaciones respecto al anlisis espectrogrfico de manera confidencial, utilizndolo de manera exitosa en algunos casos de investigacin interna. Debido al tira y afloja existente a nivel judicial, en 1976, solicitan a la National Academy of Sciences un dictamen aclaratorio respecto de la fiabilidad del mtodo espectrogrfico y su utilizacin en los tribunales de justicia. Este estudio fue llevado a cabo por la Academia Nacional de las Ciencias, desde el punto de vista de un equipo multidisciplinar, que entre sus miembros cont con Cooper, Green, Hamlet, Hogan, Mc Knight, Picket, Tosi y Underwood, al frente de este equipo estaba Douglas L.Hogan del Consejo Nacional de Investigacin. Este equipo estaba compuesto de expertos de diversas reas, abarcando tanto el mbito legal como cientfico (Derecho Penal, Leyes de la evidencia en general, Acstica, Electrnica, Ciencias del habla, Patologas, etc.); como chairman de dicha Comisin fue designado el Dr. R.H.Bolt. En 1979 esta comisin expres sus resultados en un informe titulado "On the Theory and Practice of Voice Identification", en el cual no se hacia alusin a favor o en contra del anlisis auditivo-espectrogrfico, pero que s se haca referencia en que la corte deba ser informada acerca de las limitaciones del mtodo, como tambin acerca de la calificacin de los expertos que realizaban las pericias. Tras conocer el informe entregado por la Comisin Nacional de las Ciencias el F.B.I continu utilizando el mtodo auditivo-espectrogrfico para fines de su propia investigacin, o como auxilio a cualquier otra fuerza de seguridad que lo necesitar. En 1986 el Federal Bureau of Investigation (F.B.I.) public un estudio que dio a conocer sus conclusiones acerca de su mtodo en casos reales, despus de quince aos de utilizacin, el cual arroj mrgenes de error inferiores al 1%. Despus de numerosos estudios, entre los que se pueden citar Kersta 1962; Young & Campbell 1967; Stevens et al., 1968; Tosi et al. 1972, 78 y 79; Bolt et al. 1970 y 1973; Hennessy 1970; Endrees et al. 1971; Hazen 1973; Black et al. 1973; Smrkovski 1975 y 1976; Hall 1975; Obrecht 1975; Hollien & Mc Glone 1976 y 77; Reich et al. 1976 y 1979; Rothman 1977; Houlihan, 1979; Greenwald 1978 y 1979, etc, que muestran la fiabilidad de la metodologa existente hasta entonces en identificacin de voz cabe hacerse la pregunta qu tanta razn tenan los detractores de la tcnica? A principios de los aos ochenta, ya con el avance realizado e inminente de la informtica, aparecen nuevos enfoques, basados en los mtodos anteriores, a vislumbrarse como viables. Es aqu donde comienza a hablarse de sistemas automticos y semiautomticos, en donde el Dr. Tosi adquiere relevancia con sus trabajos en la Universidad de Michigan [11].

12

2.4

ANTECEDENTES CONOCIDOS FUERA DE ESTADOS UNIDOS

Los primeros antecedentes conocidos fuera de Estados Unidos fueron investigaciones en la ex Unin Sovitica poco despus de la segunda guerra mundial. Sin embargo, no es hasta finales de los setenta cuando comienza a hacerse un uso en el plano prctico de sus tcnicas, en este sentido cabe mencionar entre los primeros interesados en el tema: J. Ramisvili en la U.R.S.S., S. Blasikievicz y Wojciech Majewski en Polonia, H. Habersbrunner en Alemania, Ion Anghelescu en Rumana y los doctores Masao Onisi y Seiki Miyoshi en Japn. En 1963 un nio de cuatro aos es secuestrado en Tokio, las conversaciones telefnicas de su secuestrador fueron grabadas y la polica japonesa solicit la ayuda de fonetistas, lingistas e ingenieros acsticos con el fin de identificar la voz del sospechoso. Esta es la primera vez que la identificacin forense de locutores es utilizada en Japn. Durante los siguientes aos fue utilizada en ayuda de los organismos policiales, y en 1977 es considerada admisible ante los tribunales de justicia. En Europa los antecedentes ms antiguos que se tienen provienen de la Unin Sovitica. En 1971 el Laboratorio de Fonoscopa del Centro de Criminalstica del Ministerio del Interior de la actual Rusia, comenz oficialmente sus trabajos de investigacin en el mbito de identificacin forense de locutores. Aunque muchos antecedentes no son conocidos por reticencias de tipo polticas, se sabe que a partir de los ochenta existan alrededor de cincuenta laboratorios pblicos, donde se realizaban trabajos de este tipo. Basndose en el mtodo auditivo-espectrogrfico, a principio de los aos setenta en Alemania comienzan los primeros trabajos. Posteriormente, el Dr. Ernest Bunge al servicio del Kriminaltechnisches Institut del Bundeskriminalamt o B.K.A. (Polica Federal de Alemania), supervis un proyecto cuyo fin era la obtencin de un mtodo automtico de identificacin de voz conocido como AUROS. Segn su creador, este sistema ofreca excelentes resultados, con un margen de error inferior al 0.5% en condiciones de laboratorio. El sistema fue desestimado, luego, al ser usado bajo condiciones reales, para dar paso a un sistema auditivo-lingstico. Bajo estas circunstancias, en 1981 es considerada admisible como prueba de cara a los tribunales de justicia alemanes. A principios de los aos setenta, comienza su trabajo en esta rea la polica Italiana. A partir de la dcada de los ochenta diversos laboratorios de varios pases comienzan su andadura en este campo, con un objetivo policial o de apoyo a la justicia. Entre estos pases se pueden citar: Holanda, Espaa y Austria. A partir de la dcada de los noventa pases

13

como: Francia, Blgica, Finlandia y Lituania, comienzan a realizar trabajos en esta rea [11].

2.5

EL ESTADO DE LA TCNICA EN LA ACTUALIDAD

2.5.1 Estados Unidos


Anteriormente se habl acerca de la importancia de los aportes que hara Tosi a principio de los aos ochenta. El Dr. Tosi por diversos motivos se desliga de la I.A.V.I., y comienza una nueva exploracin. Tosi visualiz la importancia de contar con mtodos que sustentaran ms firmemente el anlisis auditivo-espectrogrfico. En este sentido, incorpora tres importantes modificaciones a su metodologa. En primer lugar desarrolla e incorpora los sistemas automtico TOSI I y TOSI III. Basndose en resultados obtenidos en sus trabajos de experimentacin en la M.S.U., logra extrapolar mediante su curva P.S.S. (escala de probabilidad subjetiva) los valores de similitud y disimilitud a valores de probabilidad, esto tiene como fin hacer ms objetivos los resultados de sus anlisis. Y por ltimo, introduce reglas de decisin que reducen el margen de error en las evaluaciones. Lo realmente novedoso en estos cambios es la introduccin de distintas disciplinas en la tcnica. En 1992 Oscar Tosi incorpora en sus informes el anlisis fontico-lingista, despus de darse cuenta de la importancia de este anlisis, que le fue dado a conocer por miembros del Laboratorio de Acstica Forense de la Polica Cientfica Espaola, tras un curso de formacin dictado en la M.S.U por el Dr. Tosi. El Dr. Oscar Tosi fallece en el ao 1994, dejando un importante legado, y con la conciencia clara que quedaba mucho por hacer en el mbito de identificacin de voz. Durante los aos ochenta y noventa se registra gran actividad en esta rea en los Estados Unidos, principalmente en el rea de investigacin con fines de mejorar los sistemas automticos. El F.B.I sigue utilizando el mtodo espectrogrfico en sus anlisis, teniendo como poltica que ninguno de sus miembros puede acudir a testificar a los tribunales y utilizar el mtodo solo para requerimientos de sus casos o aquellos en los que son necesitados por otros organismos policiales o fuerzas de seguridad. Aunque se sabe de trabajos de ltima generacin que son confidenciales y que no se han dado a conocer detalles a la luz pblica. Un ejemplo que vale la pena mencionar es el caso de la captura del conocido traficante Pablo Escobar Gaviria, en el cual participaron agentes norteamericanos que contaban con un sistema automtico que poda captar todas las seales de telefona fija y mvil dentro de un radio que abarcaba la ciudad de Medelln, y que poda discriminar

14

muestras de habla hasta obtener la deseada y dar la ubicacin donde se encontraba el locutor. Sin duda este ejemplo nos muestra un desarrollo de la tcnica muy avanzado. En el mbito privado diversos expertos trabajan en el campo de identificacin de voz, estos se encuentran agrupados en el Subcomit de Anlisis Acsticos e Identificacin de Voz (VIAAS) de la International Association for Identification (I.A.I.). En el mbito legal se han incorporado importantes innovaciones con respecto a la admisibilidad de la evidencia. Hasta el ao 1993 fue utilizada la regla Frye que se coment anteriormente, la cual fue ampliamente criticada por no ser considerada el test adecuado para evaluar la evidencia de identificacin de voz. La regla Frye fue establecida para evaluar evidencia de naturaleza muy distinta y en ultimo caso no daba conocimiento acerca de que grupo cientfico era el mas competente. En 1993 la regla Frye para la admisibilidad de la evidencia es derogada por el Tribunal Supremo de los Estados Unidos y en su reemplazo entra a regir las Reglas Federales como estndar de admisibilidad, concretamente la Regla 702: " Para poder cualificar un conocimiento cientfico, cualquier conclusin o afirmacin emitidas deben deducirse de un mtodo cientfico. El testimonio referido debe sustentarse en la correspondiente validacin (por ejemplo una slida formacin en relacin con el rea de conocimiento sobre la que se opina). En definitiva, el requisito de que el testimonio de un experto pertenezca al conocimiento cientfico, establece por s mismo un estndar de fiabilidad evidenciaria." En la actualidad la mayora de los estados norteamericanos han admitido la prueba de identificacin de voz por el mtodo auditivo-espectrogrfico, aunque existen algunos casos donde se ha desestimado la evidencia [11].

2.5.2 Antecedentes importantes en el resto del mundo


La ms importante referencia fuera de los Estados Unidos, en cuanto a la identificacin forense de locutores, ocurre en Europa, donde la tcnica est plenamente consolidada, e incluso disfruta de una situacin de vanguardia. La investigacin y desarrollo de la tcnica est en su mayor parte a cargo de las policas de los diversos pases europeos, que han incorporado como evidencia la identificacin de voz, sin embargo, tambin existen antecedentes de actividad en ste tema en universidades, empresas privadas o expertos privados. En los ltimos aos la evolucin de la tcnica ha surgido de modo distinto en cada uno de estos pases, y a pesar de esta iniciacin distinta y en algunos casos autodidctica, puede decirse que existe una orientacin metodolgica comn, nos referimos a los llamados mtodos combinados.

15

Los mtodos combinados es la metodologa que ha dado mejores resultados hasta ahora, y responden a encontrar el mejor resultado posible, dada la naturaleza variable de nuestro objeto de estudio. En general, es bastante difcil conocer las metodologas ocupadas por los peritos de las diversas policas de cada pas, en algunos casos como en el de la polica chilena es conocido el sistema de anlisis automtico que poseen, aunque los algoritmos que encierran son parcialmente desconocidos. Si se compara el objeto de estudio, el reconocimiento forense de locutores, con otras ramas de las ciencias forenses, se encontrar una escasa divulgacin de estudios cientficos del tema, en este aspecto se pueden mencionar algunas asociaciones y laboratorios que han aportado conocimientos al respecto: la I.A.I. (Subcomit de VIAAS) y la I.A.F.P. (International Association of Forensic Phonetics) que aglutinan una buena cantidad de expertos, fuera de los Estados Unidos se tiene: el Instituto Nacional de Investigacin de Ciencia Policial de Japn, el laboratorio de anlisis y tratamiento de la seal de la Polica Tcnica y Cientfica de Francia y el laboratorio de Acstica Forense de la Comisara General de Polica Cientfica de Espaa, el laboratorio de anlisis acsticos del Instituto Tcnico Criminal del Bundeskriminalamt dirigido desde 1980 a 1999 por el Dr. Hermann J. Knzel, los laboratorios policiales del Centro de Criminalstica del M1 del Interior de Rusia, los ms antiguos de Europa, el Centro de Tecnologa del Habla de San Petersburgo, en el cual a partir del ao 1991 se realizan importantes estudios en esta rea. Existe conocimiento de trabajos realizados para el desarrollo de la tcnica en los cinco continentes. En Amrica Latina existen trabajos realizados por diversas policas, aunque sobre trabajos de investigacin poco se sabe, y slo se tiene conocimiento de algunas universidades que realizaron algn estudio al respecto, sin embargo, estos no fueron prolongados [11]. En el capitulo 9 se abordar el caso chileno, que es el punto de inters de este trabajo, con mayor detalle.

2.6

FUTUROS TRABAJOS

Anteriormente se hizo referencia hacia una orientacin metodolgica comn existente en los pases europeos, pues bien, este comportamiento se est generalizando en el seno de la Unin Europea. Se espera que en algunos aos se logre una estandarizacin de la metodologa y precisamente los trabajos actuales apuntan a ello. Otro punto importante de comentar es la existencia de sistemas automticos de identificacin forense de locutores, que entregan resultados con mrgenes de error muy pequeos, los cuales gracias al continuo avance de la informtica y a un desarrollo cada vez mayor de la tcnica, auguran un futuro prometedor en esta rea, incluso se habla de un menor requerimiento de expertos a futuro, por el desplazamiento del hombre por la

16

mquina. Sin embargo, no se debe exagerar acerca de sistemas infalibles como es comn encontrar hoy en el mercado, ya que no existe ningn sistema en la actualidad que disfrute de ese privilegio. Entonces, las dos principales directrices de trabajo que se deben trazar sern: trabajar en una solucin metodolgica de mayor idoneidad y elaborar estndares globales de referencia comn, que entreguen a la tcnica los mayores ndices de objetividad de cara a los tribunales de justicia. Existen en la actualidad numerosas referencias acerca de factores influyentes en el reconocimiento forense de locutores (acsticos, fonticos, etc.), en este sentido, los trabajos apuntan a entender con ms detalle estos factores, que en el caso acstico pueden ser: ruido, interferencia telefnica, etc. Como se puede ver, existen muchos factores para afirmar con certeza de que el futuro de la tcnica es prometedor y que se dar un cierre definitivo a un problema que desde los tiempos de Kersta hasta el presente ha sido motivo de debate [11].

17

3. PRODUCCIN DEL HABLA


3.1 PRODUCCIN DE LA VOZ HUMANA, FONTICA ARTICULATORIA

El anlisis de la lengua, entendindose sta como el sistema de signos que emplea una comunidad lingstica como instrumento de comunicacin, se realiza a tres niveles: Nivel Fonolgico: se estudia las unidades lingsticas mnimas (fonemas). El conjunto de fonemas se establecen por oposicin, es decir, si se cambia un sonido de una palabra y la palabra cambia de significado, al sonido se le considera fonema. En las palabras coco, loco y toco hemos cambiado un fonema y su significado es distinto. Nivel Morfosintctico: se estudian las palabras estableciendo su gnero, nmero, tiempo y las relaciones entre ellas. Nivel Semntico: se estudia el significado de las frases y su coherencia.

Se profundizar en el nivel fonolgico. Dentro de la fontica se encuentra la articulatoria y la acstica. La primera estudia el papel desempeado por los rganos fonadores para la formacin y emisin de los sonidos. La fontica acstica se preocupa de las caractersticas de la onda sonora y su percepcin. Antes de entrar de lleno en la fontica acstica, objetivo principal de este trabajo, se har una detencin en la fontica articulatoria por su importancia en los estudios tradicionales de la voz. [2].

3.1.1 Fisiologa y funcionalidad del aparato fonador.


El aparato fonador se puede dividir en tres grandes partes: las cavidades infraglticas, cavidad gltica y las cavidades supraglticas. Estas tres partes cumplen funciones distintas en la fonacin, pero todas ellas de gran importancia. En la figura (3.1) se presenta una descripcin.

18

Figura 3.1 Aparato fonador.

Cavidades Infraglticas Su funcin consiste en suministrar la corriente de aire espirada necesaria para producir el sonido. Estn compuestas por diafragma, pulmones, bronquios y trquea. El diafragma es un msculo en forma de cpula ubicado debajo de los pulmones. Su misin es controlar el despliegue e hinchado o su reduccin y vaciado junto con los msculos pectorales, y con ello la respiracin. Cuando se contrae el diafragma se ensancha la cavidad torxica, producindose la inspiracin de aire. Al relajarse se reduce la cavidad, producindose la espiracin del aire contenido en los pulmones. Los bronquios y la trquea son tubos cartilaginosos, cuya funcin consiste en conducir el aire entre los pulmones con la laringe, por lo tanto, en la fonacin son los canales de transmisin del flujo areo. Cavidad Gltica Est formada por la laringe. La caracterstica ms interesante desde el punto de vista de la fonacin, es que en sta se encuentran las cuerdas vocales, que son las responsables de la vibracin bsica para generar la voz. Las cuerdas vocales son dos marcados pliegues musculosos, que cuando sale el aire de los pulmones y pasa a travs de la cavidad gltica (la glotis es el espacio triangular existente entre las cuerdas vocales), hacindolas vibrar, la vibracin producida puede variar en frecuencia e intensidad segn vare la masa, longitud y tensin de las cuerdas vocales.

19

Figura 3.2 Corte transversal de la laringe. Movimiento del cartlago aritenoides y de los repliegues vocales (lneas continuas o discontinuas).

Cavidades Supraglticas Estn conformadas por cuatro cavidades ubicadas arriba de la laringe, stas son: farngea, nasal, bucal y labial. Inmediatamente sobre la laringe se encuentra la faringe, de donde arranca la raz de la lengua. Aparece el primer obstculo mvil: la vula, es el apndice final del paladar blando o velo del paladar. Cuando est unida a la pared farngea, la corriente de aire sale exclusivamente por la boca, producindose sonidos orales. Si el velo del paladar est cado, tambin se expulsar aire por la cavidad nasal. La cavidad nasal no posee elementos mviles, por lo tanto, juega un papel pasivo en la produccin del habla. La lengua es el rgano de mayor movilidad en la boca, registrando una actividad elevada durante el habla. Se divide en tres partes: raz, dorso y pice. Se ha demostrado recientemente que el perfil adoptado por la lengua en cada movimiento es causa de un resonado acstico y, por lo tanto, el timbre del sonido ser diferente segn la forma, sea sta cncava, convexa o plana, o que se site en la zona anterior, central o posterior. Dentro de la cavidad bucal tenemos los dientes y alvolos. Los dientes son rganos pasivos en la medida que estos se encuentran insertos en los maxilares; los inferiores son mviles, por estar insertos en la mandbula inferior, siendo sta activa en la articulacin. El paladar es una amplia zona que va desde los alvolos hasta la vula. En ella se distingue el paladar duro, situado sobre el hueso palatino y el paladar blando o velo del paladar que acaba en la vula. Finalmente, estn los labios, elementos de bastante movilidad y, que por lo tanto, permite modificar los sonidos.

20

Figura 3.3 Zonas bucales.

Se pueden entonces resumir los elementos para la produccin del habla en: Una fuente de energa, proporcionada por el aire a presin que se expulsa en la espiracin. Un rgano vibratorio: las cuerdas vocales. Una caja de resonancia: las fosas nasales, la cavidad bucal y la faringe. Un sistema de articulacin del sonido: lengua, labios, dientes y vula. El proceso para la produccin del habla comienza con la espiracin del aire en los pulmones, al pasar este a travs de las cuerdas vocales las hace vibrar a una frecuencia determinada que depende de la tensin de las mismas. A esta frecuencia se le conoce como frecuencia del fundamental. El tono se encuentra relacionado con la frecuencia del fundamental, si el tono es grave la frecuencia es baja y cuando es agudo la frecuencia es alta. Segn como se encuentren articulados los rganos se formar una caja de resonancia distinta, la cual potenciar un conjunto de frecuencias y atenuar el resto.

Segn esta disposicin aparecen caractersticas especiales de cada individuo, lo que conforma el timbre. Finalmente sale al exterior la voz [2].

21

3.2

ALGUNOS CONCEPTOS BSICOS DEL LENGUAJE

La lengua es un sistema de signos lingsticos, los cuales permiten la comunicacin dentro de una comunidad, es un cdigo de signos. Tiene una naturaleza social, ya que es comn a una sociedad. El habla es el acto de seleccionar dichos signos y organizarlos a travs de ciertas reglas. Tiene carcter individual, pues cambia de un individuo a otro. Los signos pueden corresponder al lenguaje escrito u oral. El lenguaje es un sistema articulado ya que los sonidos y otros componentes se integran entre s, ste est formado por signos lingsticos. El lenguaje tiene modalidades regionales llamadas dialectos. Un signo es algo que reemplaza a otra cosa para comunicarla en un mensaje. Los signos lingsticos estn clasificados en dos clases: significado y significante. El significado es la idea, el concepto mental o contenido a comunicar. El significante es la imagen, ya sea acstica o grfica que se le asigna. Las palabras son los elementos libres mnimos del lenguaje. La sintaxis es el conjunto de normas tendientes a organizar la coordinacin de las palabras en frases u oraciones. En su versin escrita las palabras estn formadas por grafemas o letras (unidades grficas mnimas), mientras en el caso oral, por fonemas. Los fonemas 5 son la unidad fnica ideal mnima del lenguaje, los cuales se encuentran materializados a travs de los sonidos, aunque de manera no unvoca. Las variantes de los fonemas se denominan alfonos. Los monemas son unidades mnimas con significado, que puede ser gramatical, dando origen a los morfemas, o lxico, representado por los lexemas. Los morfemas tienen relacin con gramtica, o la forma de organizar o dar estructura a las categoras bsicas del lenguaje (gnero, nmero, tiempo o persona, etc.), mientras que los lexemas se refieren a significados externos al lenguaje mismo [6].

3.2.1 Fonologa y fontica


La Fonologa estudia los fonemas, es decir el modelo fnico convencional e ideal del lenguaje. La fonologa es el estudio de la lengua en cuanto a su carcter simblico o de representacin mental. Procede detectando regularidades o recurrencias en los sonidos del lenguaje hablado y sus combinaciones, y haciendo abstraccin de las pequeas diferencias
5

Los fonemas son representados entre barras, por ejemplo, /b/. Su realizacin es un sonido.

22

debidas a la individualidad de cada hablante y de caractersticas suprasegmentales como la entonacin, el acento (tnico, es decir por aumento de la intensidad y aggico, por aumento de la duracin), etc. Cada uno de los sonidos abstractos as identificados es un fonema. Uno de los objetivos de la fonologa es acotar al mximo la cantidad de fonemas requeridos para representar cada idioma de una manera suficientemente precisa. La fontica estudia los sonidos del habla incluyendo su produccin, emisin (procesos fsicos y fisiolgicos) y articulacin involucrados. sta estudia experimentalmente los mecanismos de produccin y percepcin de los sonidos utilizados en el habla a travs del anlisis acstico, articulatorio y perceptivo. Se ocupa, por consiguiente, de las realizaciones de los fonemas [6].

3.2.2 Clasificacin de los sonidos de la voz humana


Los sonidos procedentes de la voz humana pueden clasificarse segn varios criterios, los cuales toman en cuentas diversos aspectos, estos son: a) b) c) d) e) f) g) Segn su carcter voclico o consonntico. Segn su oralidad o nasalidad. Segn su carcter tonal (sonoro) o no tonal (sordo). Segn el lugar de articulacin. Segn el modo de articulacin. Segn la posicin de los rganos articulatorios. Segn la duracin.

A continuacin se tratar cada una de estas clasificaciones por separado. 1-Segn su carcter voclico o consonntico Desde un punto de vista mecanoacstico, las vocales son los sonidos emitidos por la sola vibracin de las cuerdas vocales sin ningn obstculo o constriccin entre la laringe y las aberturas oral y nasal. Dicha vibracin se genera por el principio del oscilador de relajacin, donde interviene una fuente de energa constante en la forma de un flujo de aire proveniente de los pulmones. Son siempre sonidos de carcter tonal (cuasiperidicos), y por consiguiente de espectro discreto. Las consonantes, por el contrario, se emiten interponiendo algn obstculo formado por los elementos articulatorios. Los sonidos correspondientes a las consonantes pueden ser tonales o no dependiendo de si las cuerdas vocales estn vibrando o no. Funcionalmente, en el castellano las vocales pueden constituir palabras completas, no as las consonantes.

23

2- Segn su oralidad o nasalidad Los fonemas en los que el aire pasa por la cavidad nasal se denominan nasales, en tanto que aqullos en los que sale por la boca se denominan orales. La diferencia principal est en el tipo de resonador principal por encima de la laringe (cavidad nasal y oral, respectivamente). En castellano son nasales slo las consonantes m, n, . 3- Segn su carcter tonal (sonoro) o no tonal (sordo) Los fonemas en los que participa la vibracin de las cuerdas vocales se denominan tonales o, tambin, sonoros. La tonalidad lleva implcito un espectro cuasi peridico6 . Como se puntualiz anteriormente, todas las vocales son tonales, pero existen varias consonantes que tambin lo son: b, d, m, etc. Aquellos fonemas producidos sin vibraciones glotales se denominan sordos. Varios de ellos son el resultado de la turbulencia causada por el aire pasando a gran velocidad por un espacio reducido, como las consonantes s, z, j, f. 4- Segn el lugar y modo de articulacin (consonantes) La articulacin es el proceso mediante el cual alguna parte del aparato fonatorio interpone un obstculo para la circulacin del flujo de aire. Las caractersticas de la articulacin permitirn clasificar las consonantes. Los rganos articulatorios son los labios, los dientes, las diferentes partes del paladar (alvolo, paladar duro, paladar blando o velo), la lengua y la glotis. Salvo la glotis, que puede articular por s misma, el resto de los rganos articula por oposicin con otro. Segn el lugar o punto de articulacin se tienen fonemas: Bilabiales: Oposicin de ambos labios. Labiodentales: Oposicin de los dientes superiores con el labio inferior. Linguodentales: Oposicin de la punta de la lengua con los dientes superiores. Alveolares: Oposicin de la punta de la lengua con la regin alveolar. Palatales: Oposicin de la lengua con el paladar duro. Velares: Oposicin de la parte posterior de la lengua con el paladar blando. Glotales: Articulacin en la propia glotis. A su vez, para cada punto de articulacin sta puede efectuarse de diferentes modos, dando lugar a fonemas:

Las vocales tendrn una naturaleza cuasi peridica, slo si el locutor se esfuerza en emitir un sonido sin inflexiones. La entonacin implica una variacin de la frecuencia.

24

Oclusivos: La salida del aire se cierra momentneamente por completo. Fricativos: El aire sale atravesando un espacio estrecho. Africados: Oclusin seguida por fricacin. Laterales: La lengua obstruye el centro de la boca y el aire sale por los lados. Vibrantes: La lengua vibra cerrando el paso del aire intermitentemente. Aproximantes: La obstruccin muy estrecha que no llega a producir turbulencia. Los fonemas oclusivos (correspondientes a las consonantes b inicial o postnasal, c, k, d, g inicial, postnasal o postlateral, p, t) tambin se denominan a veces explosivos, debido a la liberacin repentina de la presin presente inmediatamente antes de su emisin. Pueden ser sordos o sonoros, al igual que los fricativos (b postvoclica, postlateral y postvibrante, g postvoclica y post vibrante, f, j, h aspirada, s, y, z). Slo existe un fonema africado en castellano, correspondiente a la ch. Los laterales (l, ll) a veces se denominan lquidos, y son siempre sonoros. Los dos fonemas vibrantes del castellano (consonantes r, rr) difieren en que en uno de ellos (r) se ejecuta una sola vibracin y es intervoclico, mientras que en el otro (rr) es una sucesin de dos o tres vibraciones de la lengua. Finalmente, los fonemas aproximantes (la i y la u cerradas que aparecen en algunos diptongos) son a veces denominados semivocales, pues en realidad suenan como vocales. Pero exhiben una diferencia muy importante: son de corta duracin y no son prolongables.
Tabla 3.1 Clasificacin de las consonantes de la lengua castellana segn el lugar y el modo de articulacin y la sonoridad. Modo de articulacin Lugar de Oral Oclusiva Sonora Fricativa Sonora Africada Lateral Sonora Vibrante Sonora Aproximante Sonora Sonora Sorda Sorda Sorda Nasal

articulacin

Bilabial Labiodental Linguodental Alveolar Palatal Velar Glotal

b, v f z

b, v

d y (y) ch (ch) l ll r, rr i n

j h

25

En la tabla (3.1) se indican las consonantes clasificadas segn el lugar y el modo de articulacin, la sonoridad y la oro-nasalidad. En algunos casos una misma consonante aparece en dos categoras diferentes, correspondiente a las diferencias observadas. 5- Segn la posicin de los rganos articulatorios (vocales) En el caso de las vocales, la articulacin consiste en la modificacin de la accin filtrante de los diversos resonadores, lo cual depende de las posiciones de la lengua (tanto en elevacin como en profundidad o avance), de la mandbula inferior, de los labios y del paladar blando. Estos rganos influyen sobre los formantes, permitiendo su control. Podemos clasificar las vocales segn la posicin de la lengua como muestra la tabla (3.2).
Tabla 3.2 Clasificacin de las vocales castellanas segn la posicin de la lengua.

Posicin Vertical Tipo de vocal Posicin horizontal (avance) vertical Anterior Central Posterior Alta Cerrada i u Media Media e o Baja Abierta a Otra cualidad controlable es la labializacin, es decir el hecho de que se haga participar activamente los labios. Las vocales labializadas, tambin definidas como redondeadas, son las que redondean los labios hacia adelante, incrementando la longitud efectiva del tracto vocal. La nica vocal labializada en el castellano es la u. En otros idiomas, como el francs, el portugus, el cataln y el polaco, as como en lenguas no europeas como el guaran o el hindi, existe tambin el matiz de oralidad o nasalidad. En las vocales orales el velo (paladar blando) sube, obturando la nasofaringe, lo cual impide que el aire fluya parcialmente por la cavidad nasal. En las vocales nasalizadas (u oronasales) el velo baja, liberando el paso del aire a travs de la nasofaringe. Se incorpora as la resonancia nasal. 6- Segn la duracin La duracin de los sonidos, especialmente de las vocales, no tiene importancia a nivel semntico en el castellano, pero s en el plano expresivo, a travs de la agogia, es decir el nfasis o acentuacin a travs de la duracin. En ingls, en cambio, la duracin de una vocal puede cambiar completamente el significado de la palabra que la contiene [6].

26

3.2.3 El alfabeto fontico internacional (A.F.I.)


El espaol es un idioma cuya escritura es eminentemente fontica, ya que salvo pocos casos, hay correspondencia entre grafema y fonema, aunque no es total. No todos los idiomas tienen esta caracterstica. El ingls es un caso quizs extremo, a tal punto que se han creado posibles ortografas alternativas para algunas palabras basndose en la forma en que sus fonemas aparecen escritos en otras palabras. Estas extraas ortografas y el anlisis correspondiente se muestran en la tabla (3.3).

Tabla 3.3. Ortografas alternativas de George Bernard Shaw para dos palabras inglesas. Palabra en la que se usa la ortografa alternativa enough women nation hiccough though pteranodon neighbour debt bureau

Palabra

Ortografa alternativa (segn Shaw) ghoti

Fonema GH O TI GH OUGH PT EIGH BT EAU

Escritura en el Alfabeto Fontico Internacional [Inf] [wImIn] [neIn] [hIcp] [] [trandon] [neIb] [det] [bjr]

fish

potato

ghoughpteighbtea u

Se ha compilado un extenso conjunto de smbolos fonticos conocido como el Alfabeto Fontico Internacional (International Phonetic Alphabet, IPA) que contiene una gran cantidad de fonemas de los diversos idiomas, y que permite representar de una manera inequvoca los fonemas independientemente del idioma. El subconjunto correspondiente al idioma castellano se indica en la tabla (3.4) [6].

27

Tabla 3.4 Los fonemas del alfabeto fontico internacional utilizados en la lengua castellana.

Fonemas castellanos Sonido [p] [b] [] [t] [d] [] [k] [g] [g] [f] Ejemplo paso base, vena labor, lavar tres, canto dama, andar cedro, verdad caso, disco gula, goma agua, negro fino, tifn Sonido [] [s] [x] [t ] [r] [rr] [l] [] [m] [n] Ejemplo zorzal, lpiz solo, cosa giro, jarabe hecho, Chubut arder, jarabe perro, rojo loable, fiel llanto, calle mam, mbar nene, joven [a] [e] [i] [o] [u] cama espera, ver vine, iris loro, pos burla, huracn Sonido [] [d3] [j] [w] Ejemplo maana, oo yo, Yapey bien, bilogo hueso, buitre

28

4. PROBLEMTICA EXISTENTE PARA CREAR UN MTODO INFALIBLE PARA VERIFICAR E IDENTIFICAR PERSONAS POR SU VOZ
4.1 INTRODUCCIN

En esta seccin se tratarn los factores ms importantes que influyen de manera adversa para crear un sistema infalible de reconocimiento e identificacin de locutores. En este contexto se entender por variabilidad interlocutor, aquellas diferencias existentes entre personas distintas, y se comprender por variabilidad intralocutor aquellas diferencias ocurridas en una muestra de habla que proviene de una misma persona.

4.2

VARIABILIDAD INTRALOCUTOR E INTERLOCUTOR

Los primeros trabajos en los que se trat poder identificar a una persona mediante su emisin de voz, dieron como resultado el voiceprint o huella de voz. Sus autores tuvieron la mala idea de poner en un mismo plano de estudio al voiceprint con el fingerprint o huella dactilar, con la errnea percepcin de que las emisiones de habla de un sujeto eran invariables y trascendentalmente distintas a las de otros sujetos. Como se coment en el capitulo 2, pronto el sector de la comunidad cientfica que prest atencin a este hecho comenz a cuestionarse la veracidad de los fundamentos en los que descansaba el voiceprint, lo que condujo a la tcnica a un tab y a la ruina de Kersta como experto. Los detractores del voiceprint pudieron darse cuenta de uno de los principales problemas con que ha tropezado la identificacin de voz, se trata de la variacin interlocutor e intralocutor. Existen factores fsicos de los cuales depende una emisin de voz, sin embargo, debe tenerse siempre presente que influyen enormemente en la emisin, las resonancias del tracto vocal. Se debe tener en cuenta, adems, que estas resonancias del tracto vocal se encuentran gobernadas por caractersticas psicofisiolgicas del locutor, lo que hace imposible producir dos emisiones idnticas. En ausencia de la variabilidad intralocutor e interlocutor, existe adems variabilidad a consecuencia de factores ajenos a las resonancias del tracto vocal, circunstancias producidas por emisin, transmisin y grabacin. Todas estas barreras son las que debe conocer el experto forense en su labor, y minimizar la distorsin que aporta a sus resultados.

29

Carlos Delgado [11] presenta una excelente referencia acerca de las causas fundamentales de la variabilidad en la seal de voz, las que pueden clasificarse en dos grandes grupos, stas se presentan a continuacin: Circunstancias que dependen de la naturaleza del habla y del sujeto emisor. Circunstancias no dependientes a la naturaleza del habla y al sujeto emisor.

4.2.1 Circunstancias que dependen de la naturaleza del habla y del sujeto emisor 4.2.1.1 Variaciones no relacionadas con el plano expresivo
Contemporaneidad o no contemporaneidad de las muestras Es apreciable al odo de cualquier persona el cambio que ocurre en la voz de un sujeto a medida que transcurre el tiempo, la voz de una persona que tiene 10 aos, es muy diferente cuando la misma tiene 16 aos y mas an cuando tiene 30 aos, o sea, esta variabilidad ser mayor, mientras mayor sea el tamao del intervalo temporal. El primer estudio del que se tiene referencia en este mbito es el realizado por la doctora McGehee (1937), en el cual experiment el reconocimiento perceptivo en memoria a largo plazo. Segn los resultados de la doctora McGehee, exista un deterioro en el reconocimiento exitoso de un 17% transcurrido un da despus de haber escuchado la voz, y un 87% pasado 5 meses de haber escuchado una voz. Otras experiencias vividas por Tosi y sus colaboradores (1972) encontraron que el decaimiento en un reconocimiento exitoso era de aproximadamente 10% despus de un mes de haber escuchado la voz, aunque reconocieron que esta correspondencia no se poda extrapolar linealmente. Otro experimento realizado por Endress, Bambach y Flosser (1971) arrojaron conclusiones sobre descensos en la frecuencia fundamental F0 (nmero de vibraciones por segundo de las cuerdas vocales) en individuos en lapsos de 29 aos. Posteriormente, algunos experimentos arrojaron resultados acerca del cambio de F0 en funcin de la edad y el sexo. Hoy en da existen muchos avances en el desarrollo del tema, y en las caractersticas que moldean la voz de una persona en el tiempo, pudiendo resumir estos conocimientos de la siguiente forma: la madurez de F0 se alcanza alrededor de los 15 aos; este parmetro parece estar relacionado con la muda definitiva, que en el caso de los varones se presenta

30

entre los 13 y 14 aos, mientras en las mujeres ocurre entre los 14 y 15 aos. En los varones se aprecia un descenso gradual del valor de dicho parmetro hasta la edad de 40 aos, volviendo ste a incrementarse entre los 60 y 80 aos. En el caso de las mujeres este decrecimiento ocurre en su mayora antes de los 15 aos, mientras un 43% ocurre despus de dicha edad. Algunos estudios puntualizan que los cambios ms relevantes respecto al tono fundamental en la mujer se encuentran determinados por el advenimiento de la menstruacin, as como tambin ocurren descensos en F0 despus de la menopausia. Al parecer, en la mujer la disminucin en la produccin de estrgenos produce un descontrol en el sistema fonatorio que trae consigo un inminente cambio en la frecuencia fundamental. En opinin de muchos expertos, estos cambios no son relevantes desde el punto de vista identificativo, ya que ocurren de manera paulatina y muy lentamente. Todos estos procesos experimentados tanto en hombres como mujeres no alteran en modo significativo los componentes fundamentales del habla, salvo el caso de ciertas parafonas (pubertad, vejez, etc.), y alcanzada la estabilidad de la voz (en torno a los 20 aos en el hombre y 18 en la mujer) estos parmetros no se alteran hasta edades muy avanzadas. Sin embargo, se tiene que tomar en cuenta un cambio gradual y paulatino en los componentes del habla en este intervalo. Cambios en los procesos y rganos de la fonacin Estos pueden agruparse en tres grupos: Anatmico: Cambios en la dentadura, dislalias protsicas, tumoraciones, etc. Fisiolgico: Catarros, irritaciones, etc. procesos inflamatorios, menstruacin, menopausia,

Psicolgico/Neurolgico: Temblor temporal, disfonas de origen psicognico, cambios emocionales, efecto Lombard, etc.

Cambios producidos por agentes qumicos exgenos Este tipo de cambio puede ser producido por el consumo de medicamentos, cigarrillos, alcohol, drogas, etc. Estas sustancias pueden influir de alguna de las formas vistas en el apartado anterior. Por ejemplo, podemos citar el consumo de anticonceptivos en las mujeres, produce un mayor volumen de progesterona en el cuerpo, lo cual causa un aumento en el tamao de los pliegues glotales. El resultado es un descenso hacia los graves [11].

31

4.2.1.2 Variaciones relacionadas con el plano expresivo


Modificaciones de rangos fonatorios y articulatorios estndar Relacionadas con variaciones sensibles de componentes fundamentales como el tono o la intensidad, grados de tensin y relajacin en la articulacin, grados de nasalizacin y oralidad, sonoridad y ensordecimiento, apertura y oclusin, velarizacin y palatalizacin, fricatizacin, bemolizacin, etc. Alteraciones elocutivas de elementos fonticos simples En donde estaran incluidas las mltiples realizaciones alofnicas de cada fonema o grupo fnico y sus efectos asociados de ataque, extincin, transicin y coarticulacin. Alteraciones elocutivas relativas al tiempo y carcter suprasegmental o meldicoexpresivo Researamos aqu todas aquellas variaciones relacionadas con la entonacin (ascendente, descendente, suspensiva), acentuacin, velocidad (ratios silbicos o articulatorios de las emisiones), fluidez, ritmo (normal, bradillico, taquillico), pausas (articulatorias, respiratorias, dubitativas, de seleccin de unidades lxicas, de configuracin sintctica, de exmen o preparacin de la informacin comunicativa, de cesin de turno conversacional, etc.). Variaciones de construccin lingstica y de cdigos de relacin comunicativa Construcciones a niveles morfo-sintctico, estilstica, recursos retricos, elementos paralingsticos o extralingsticos (chasquidos con la lengua, etc.), lxico, idiomas, dialectos, dialectos verticales o jergas, proxmica (estructuracin cultural por micro espacios de conducta comunicativa), variaciones diafsicas (alternancia de cdigos de expresin formal, por ejemplo la alternancia de plano coloquial y tcnico). Alteraciones transitorias de la cualidad de voz No relacionadas con las ya citadas sobre mrgenes fonatorios o articulatorios estndar o algn tipo de disfuncin. Estaran contempladas tanto las de carcter involuntario (voz quebrada, spera, ronca, cavernosa, faosa, etc.) como las de carcter voluntario: voz cuchicheada, imitada, fingida o disimulada, etc.

32

Variaciones de los componentes de construccin emocional o comunicativa del discurso Relativos a los niveles de excitacin, equilibrio, exclamacin, tristeza, temor, amenaza, ansiedad, furia, alegra, persuasin, etc [11].

4.2.2 Circunstancias ajenas a la naturaleza del habla y del sujeto emisor


En este punto se encuentran variabilidades que no dependen en lo absoluto de las caractersticas propias del habla ni del sujeto quien las emite. El mayor nmero de muestras de locuciones que se desea identificar en el mbito forense, provienen de interceptacin de canales telefnicos, y es por esta razn que deben agregarse una serie de factores de distorsin de la seal de voz. En esta etapa pueden variar enormemente la calidad de los dispositivos utilizados en la adquisicin de la voz, como los factores ambientales en donde se realizan estas adquisiciones. Variabilidad relacionada con los canales, procesos de transmisin y conversin En estos casos se producen variabilidades por distorsiones producidas por ruido de interferencias como: radiodifusin, inducciones electromagnticas (especialmente ruido de baja frecuencia derivado de la recurrencia de corriente alterna, 50 o 60 Hz), saturaciones o distorsiones de transductores microfnicos o de altavoces, etc. Otra causa que provoca distorsin en la seal de voz deriva de las distintas dinmicas, curvas de respuesta telefnica, microfnica, cajas acsticas, etc. Tambin existe una alteracin debida a los procesos de conversin, codificacin y comprensin anlogo/digital y digital/anlogo, aunque sta se considera muy pequea para originar alteraciones crticas en la seal fuente. Variaciones relacionadas con emulsiones y soportes magnetofnicos Las alteraciones en este mbito ocurren por diferencias de calidad o caractersticas de las emulsiones o registros magnetofnicos. Estas diferencias pueden ser: Propiedades fsicas (densidad, composicin, homogeneidad, etc.). Propiedades magnticas (magnetizacin, coercitividad, remanencia, etc.). Propiedades electroacsticas (respuesta en frecuencia, MOL, etc.). Propiedades mecnicas (resistencia a la rotura, o elongacin).

33

Tambin existen otras circunstancias que pueden acarrear distorsiones de la seal original, como las condiciones de almacenamiento o traccin de los soportes, que pueden ocasionar restricciones en el rango de frecuencias, ruido, distorsiones, dropouts, etc. Eventos sonoros simultneos a la seal de voz analizada Una locucin de voz puede estar acompaada por otros eventos sonoros dentro de un registro, produciendo un solapamiento de seales, estos sucesos sonoros pueden deformar la seal de voz original de forma considerable. Dentro de estos eventos pueden encontrarse ruidos de distinta naturaleza, tonos puros, registros musicales, multifrecuencia, etc. Estos sucesos dentro del punto de vista identificatorio no son factores que originen una distorsin severa. Existe un factor que puede alterar mucho la seal original, lo que se denomina efecto cocktailparty, el cual se refiere a una o varias locuciones ms, a parte de la que se desea identificar, estas seales al ser de la misma naturaleza se mezclan y deforman enormemente la seal que se desea analizar. Variabilidad proporcionada por los diversos diseos y ubicacin de las fuentes de registro Estas circunstancias pueden tener efectos importantes en parmetros como el timbre y la intensidad, siendo esto provocado por reverberaciones, absorcin acstica, etc. Como se puede ver, los factores que provocan la variabilidad en emisiones de voz son muchas. Es por esta razn que el experto debe tener una idea de la problemtica existente en identificacin forense de locutores a un nivel macro, y una calificacin certificada que acredite su competitividad en casos reales donde se requiera, teniendo en cuenta que un error por parte del perito puede traer graves consecuencias [11].

34

5. EXPRESIN DE RESULTADOS E INFERENCIAS BAYESIANAS


5.1 INFERENCIA BAYESIANA

Despus que el ingls, Thomas Bayes, ministro presbiteriano y matemtico, expresara la probabilidad de la evidencia dadas las hiptesis de defensa e hiptesis fiscal en el siglo XVIII, a esto se le denomin un enfoque bayesiano. La esencia de un enfoque bayesiano ser explicada en este capitulo. Esto permite actualizar la probabilidad de una hiptesis dada nueva evidencia o la probabilidad a priori. Si por ejemplo, existe la probabilidad de uno en cien que un acusado sea culpable antes de ser presentada la evidencia fontica-forense la cual presenta a la corte un LR = 10 , la nueva probabilidad, que el acusado sea culpable ser de (0.01 10 = 0.1) , o sea una probabilidad de uno en diez. Aqu se ver la importancia de este enfoque en este tema, la fontica-acstica y se apreciar la viabilidad para ponerlo en prctica, tanto como sus limitaciones [4].

5.1.1 Antecedentes histricos


Bayes fue uno de un grupo de estudiantes, llamados los probabilistas clsicos, quienes estuvieron interesados con el problema de trazar inferencias con evidencia de casos policiales. En 1763 Bayes prob el teorema inverso de Bernoulli, y de este modo proporcion la respuesta a la pregunta subyacente, el modelo del mtodo cientfico. El mtodo bayesiano, denominado as por basarse en el teorema de Bayes, permite, si se conoce la probabilidad de que ocurra un suceso, modificar su valor cuando se dispone de nueva informacin, pudiendo incorporar informacin externa al estudio que se est realizando. En la mitad del siglo XIX, comienzan a abordarse las estadsticas desde distintas perspectivas y los mtodos bayesianos son fuertemente criticados, esto es en parte por la complejidad que resultaba el llevarlos a la prctica. En orden a estos hechos, se opta en la mayor parte de los campos utilizar el mtodo frecuentista, el cual se basa en los conceptos de probabilidad y que se centra en el clculo de probabilidades y los contrastes de hiptesis. Sin embargo, a principios del siglo XX comienza lentamente la metodologa bayesiana a recobrar respeto, especialmente en aplicaciones legales. A comienzos de los aos noventa, bayesianos y frecuentistas se encuentran predominando distintos campos de aplicacin, en algunos casos complementndose. Los mtodos bayesianos gobiernan especialmente en casos legales y de modelacin de racionalidad humana, mientras los frecuentistas predominan en el campo experimental y las ciencias sociales [4]; [15].

35

5.1.2 La interpretacin de la metodologa bayesiana y las cortes


Aunque la interpretacin de la metodologa bayesiana provee una lgica y coherente estructura para el anlisis de evidencia, con una clara divisin de los roles de los expertos y la corte, esto ha sido aceptado en las cortes gradualmente. Algunas de las crticas en contra del uso de interpretacin bayesiana concierne el aspecto prctico para jurados al incorporar sta en su valoracin de un caso. El elemento de sentencia del experto en determinar algunos de los valores numricos para calcular la proporcin de verosimilitud ( LR ) puede estar oculto. Los jurados no evalan evidencia usando frmulas, pero con su conocimiento, sentido comn y juicios individuales pueden diferenciar en su estimacin de que probabilidades pueden ser ajustadas a cada pieza de evidencia, por lo tanto, el uso de una interpretacin bayesiana puede complicar la combinacin de estas estimaciones durante las deliberaciones. Tambin, la interpretacin bayesiana a sido blanco de crticas por ser complicada y requerir a los jurados se trasladen a esferas que no son de su competencia [5].

5.2

LA PROPORCIN DE VEROSIMILITUD (LR)


Para explicar este concepto se utilizar un ejemplo citado por Rose [4].

Se sabe que aproximadamente un 80% de los nios que han sido abusados sexualmente muerden sus uas. Si un nio es sospechoso de haber sido abusado sexualmente y este muerde sus uas, la corte desear saber la probabilidad de que este nio haya sufrido realmente un ataque sexual en orden a evaluar la evidencia de las uas mordidas. Sin embargo, en este punto cabe hacerse una pregunta Cul es el porcentaje de nios que muerden sus uas, sin stos haber sido abusados sexualmente? Si este porcentaje es pequeo comparado con los nios que muerden sus uas despus de haber sido abusados, entonces esta prueba ser un soporte para la hiptesis que sostiene que este nio fue abusado sexualmente. Si el porcentaje es grande entonces puede convertirse en una contraindicacin. En fontica- forense ocurre una situacin muy parecida, se sabe que el 80% de las muestras de habla que provienen de un mismo locutor son muy similares en una caracterstica x, el experto forense debe encontrar si existe tal similitud, la corte adems desea saber el porcentaje de muestras de habla provenientes de diferentes locutores en donde la caracterstica x es tambin similar. Estos dos puntos que deben ser especificados y cuantificados por el trabajo del experto forense darn una relacin entre las dos hiptesis que se manejan. La primera de ellas llamada a menudo como hiptesis inicial o fiscal ( H p ), es la que sostiene que dos muestras provienen de un mismo locutor y la hiptesis de defensa o alternativa ( H d ), la

36

cual puede tomar muchas formas, pero que generalmente mantiene la postura de que las dos muestras provienen de distintas personas. Como se dijo anteriormente, se sabe que una caracterstica x es muy similar en muestras que provienen de un mismo locutor en el 80% de los casos, esto puede ser la probabilidad de que ocurra la hiptesis fiscal dada una evidencia E , esto puede escribirse como: p ( E / H p ) es 80%, adems la corte desear saber la probabilidad que la caracterstica x parezca similar en muestras que provienen de distintos locutores. Suponiendo que esta probabilidad corresponde al 10% de los casos, entonces la posibilidad de que la hiptesis de defensa ocurra dada la evidencia ser en el orden del 10%, esto ser entonces: p( E / H d ) es 10%. La veracidad de la evidencia estar dada por la proporcin de las dos probabilidades: la probabilidad de que dada la evidencia, las dos muestras de locucin provienen de la misma persona y la probabilidad de que dada la evidencia, las dos muestras provengan de distintas personas. Esta proporcin es llamada la proporcin de verosimilitud o en ingls likelihood ratio ( LR ) y puede ser expresada como en (5.1): LR = p (E / H d ) p (E / H p ) (5.1)

Frmula para la proporcin de verosimilitud

En este caso hipottico entonces, se tendr un LR = 80% / 10% = 8 . En palabras, este resultado demuestra que la hiptesis inicial es 8 veces ms probable que la hiptesis de defensa. En la tabla 5.1 se muestra como trabaja la relacin de verosimilitud.
Tabla 5.1 Ilustracin de cmo trabaja la proporcin de verosimilitud.

p (E/mismo locutor) p (E/diferentes locutores) LR p (E/mismo locutor) p (E/diferentes locutores) LR

80% 10% 8 10% 80% 0.125

80% 20% 4 20% 80% 0.25

80% 40% 2 40% 80% 0.5

80% 60% 1.33 60% 80% 0.75

80% 80% 1 80% 80% 1

37

Que la proporcin de verosimilitud tenga un valor menor que 1 como en la parte inferior de la tabla, puede ser mejor entendido en trminos de su recproco, por ejemplo, para un LR = 0.125 , significa que la hiptesis de defensa es 1 / 0.125 = 8 veces ms probable que la hiptesis fiscal. Por lo que se puede apreciar, el valor terico que puede tomar la relacin de verosimilitud comprende de 0 a + [4].

5.2.1 Combinacin de LRs


Una importante propiedad de los LRs , es que stos permiten ser combinados y representados en una forma principal, tomando en cuenta los LRs por separados de diferentes caractersticas y de distintos aspectos de la misma investigacin. Dos muestras de habla pueden ser comparadas con respecto a muchas caractersticas fontico-forenses, para cada una de stas se puede obtener un respectivo LR , los cuales pueden agruparse en una nica relacin de verosimilitud la cual se simboliza ( OLR f p ). Una forma general para interpretar esta relacin es como se representa en (5.2).
OLR f p = f ( LR E f p 1, LR E f p 2,...., LR E f p N )

(5.2)

Combinacin de LRs obtenidos para diferentes caractersticas fontico-forenses para determinar una proporcin de verosimilitud global.

Siendo LR E f p N el LR obtenido con la caracterstica N . Esto muestra que el


OLR f p es una funcin que depende de la relacin de verosimilitud de cada una de las

piezas que son utilizadas dentro de la investigacin. Si las N caractersticas que se observan en una investigacin son independientes entre s, y para cada una de ellas es posible obtener un LR , entonces es muy sencillo conseguir un OLR f p representativo de stos. Esto queda claro en el siguiente ejemplo: si se desea comparar dos muestras de habla tomando en cuenta tres caractersticas de stas, las cuales son independientes entre s, y de cada una se obtienen respectivamente LR E f p 1 = 4.5 , LR E f p 2 = 5.2 y LR E f p 3 = 3.8 entonces se tiene que
OLR f p = 4.5 5.2 3.8 = 88.92 . Este resultado dice que la hiptesis inicial es 88.92 veces

ms probable que la hiptesis de defensa, la cual es una probabilidad mucho mayor, tomando en cuenta cada una de las relaciones de verosimilitud por separado. Este cambio en la probabilidad, en favor de la hiptesis inicial no siempre experimenta un aumento, como es de esperar, sino que tambin puede ocasionar una disminucin de la probabilidad en favor de la hiptesis inicial, por ejemplo si se tienen dos LRs de 45 y 0.0025

38

respectivamente, entonces se tiene OLR f p = 45 0.0025 = 0.1125 , lo que significa que la hiptesis de defensa es 1 / 0.1125 9 veces ms probable que la hiptesis fiscal. Cuando las caractersticas de dos muestras de habla son dependientes entre s, la tarea de obtener un OLR f p puede ser bastante ms compleja. Por ejemplo, si se tienen dos tems de evidencia E1 y E 2 , en donde E 2 depende de E1 . La combinacin de LRs ser entonces el producto de ambos LRs . Para el primer tem E1 el LR estar dado por p(E1 / A) / p(E1 / A) , en donde A ser la hiptesis que A es falsa. Ahora bien, para el segundo tem el LR estar dado por p(E 2 / E1 A) / p(E 2 / E1 A) . En este trabajo no se tratar este tipo de casos [4].

5.2.2 Escalas verbales para la proporcin de verosimilitud


Obviamente, la relacin de verosimilitud otorga un valor cuantificable a la veracidad de la evidencia. Sin embargo, este valor numrico puede no ser entendido de forma clara por una corte. Es por esta razn que se han implementado escalas verbales para una mejor interpretacin de la proporcin de verosimilitud. En la tabla (5.2) pueden apreciarse valores para la proporcin de verosimilitud y sus correspondientes equivalencias verbales.
Tabla 5.2 Valores de la proporcin de verosimilitud y sus respectivas correspondencias verbales.

Proporcin de Verosimilitud >10000 1000 a 10000 100 a 1000 10 a 100 1 a 10 1 a 0.1 0.1 a 0.01 0.01 a 0.001 0.001 a 0.0001 <0.0001

Propuesta Verbal Equivalente para la Hiptesis Fiscal Muy fuerte soporte para la evidencia Fuerte soporte para la evidencia Moderada fuerza para el soporte de la evidencia Moderado soporte para la evidencia Limitado soporte para la evidencia Limitada evidencia en contra Moderada evidencia en contra Moderadamente fuerte evidencia en contra Fuerte evidencia en contra Muy fuerte evidencia en contra

Existe algn grado de controversia al transformar los valores de la proporcin de verosimilitud a una equivalente escala verbal, para el entendimiento de estos datos por parte de la corte. Por un lado, al entregar resultados numricos existe el peligro de que la corte no sepa interpretar estos datos, por otro lado al entregar los resultados en una escala verbal

39

existe la posibilidad de que grupos interesados puedan manipular el significado de palabras, dentro de este grupo se pueden encontrar abogados, jurados, jueces, expertos, etc [4].

5.2.3 Escala logartmica para la proporcin de verosimilitud


La veracidad de la evidencia es a menudo construida metafricamente: se habla de peso de evidencia, de la escala de justicia. El peso es usualmente entendido como resultado de un proceso suma. Por esta razn, algunos autores, han recomendado el uso de logaritmos para combinar LRs de piezas independientes de evidencia. Otra razn es que los logaritmos ayudan a comprender la magnitud de nmeros grandes. Tomando el logaritmo comn de los LRs , los LRs pueden ser combinados con anterioridad, multiplicndolos antes de aplicarles el logaritmo. (El logaritmo comn es en base 10; entonces el logaritmo comn de 1000 es 3 porque 1000 es 10 10 10). Algunos logaritmos equivalentes de la proporcin de verosimilitud en la tabla (5.2) estn dados en la tabla (5.3).
Tabla 5.3 Escala logartmica para la proporcin de verosimilitud y su correspondencia verbal.

Proporcin de Verosimilitud > 10000 1000 a 10000 100 a 1000 10 a 100 1 a 10 1 a 0.1 0.1 a 0.01 0.01 a 0.001 0.01 a 0.0001 < 0.0001

Log equivalente >4 3a4 2a3 1a2 0a1 0 a -1 -1 a -2 -2 a -3 -3 a -4 >4

Posible equivalencia verbal Muy fuerte Fuerte Moderadamente fuerte Moderada Limitada Limitada Moderada Moderadamente fuerte Fuerte Muy fuerte

Soporte para la Hiptesis Fiscal

Soporte para la Hiptesis de Defensa

Otra razn por la cual la escala logartmica puede ser preferida, es por ejemplo cuando la proporcin de verosimilitud de 1 indica que la evidencia es intil. El logaritmo comn de 1 es 0, y esto puede ser mejor entendido como un nmero equivalente de inutilidad. Sin embargo, es tambin posible que el concepto de muy fuerte evidencia es mejor reflejada en un nmero como 10000, que 4. Aqu, nuevamente no existe consenso respecto al uso de escalas logartmicas [4].

40

5.3

PROBABILIDAD A PRIORI

El concepto de probabilidad a priori juega un papel muy importante en orden a evaluar la veracidad de la evidencia. Cuando se caracteriz la relacin de verosimilitud, esta fue evaluada tomando en cuenta la evidencia con que cuenta la investigacin, para el caso de la probabilidad a priori sta muestra el grado de credibilidad en una hiptesis, antes de que la evidencia de voz sea considerada. La probabilidad a priori puede ser formulada como en la ecuacin (5.3).

POAP =

p ( AP ) p ( AP )

(5.3)

Suponiendo el caso en que una conversacin telefnica en una casa es interceptada, y se sabe que en el momento en que la llamada es interceptada, en el lugar haban 5 individuos, incluido el sospechoso. En ausencia de la evidencia de voz, la probabilidad de que el sospechoso hubiese hecho el llamado telefnico es 1/5 o 0.2. Entonces la probabilidad a priori es p( AP ) /[1 p( AP )] = 0.2 /[1 0.2] = 0.2 / 0.8 = 1 / 4 , o 4 veces ms probable que el sospechoso no haya realizado el llamado. Ahora suponiendo que la voz del sospechoso est disponible para anlisis y comparacin, y se obtiene de sta un LR de 20 en base a la evidencia fontico-forense. Entones, la cantidad de soporte para la afirmacin de que ambas muestras provienen del mismo locutor ser el producto de la relacin de verosimilitud y la probabilidad a priori, o ( 20 1 / 4) = 5 . El valor de 5, estimado de la probabilidad a priori y la evidencia de voz, es llamada probabilidad a posteriori, dada las condiciones iniciales y la evidencia fonticoforense, sta puede ser formulada como en la ecuacin (5.4).

p( AP / E ) p( AP ) p( E / AP ) = p( AP / E ) p( AP ) p( E / AP )

(5.4)

El trmino antes de la igualdad es la probabilidad a posteriori, la probabilidad en favor de la afirmacin fiscal AP , que el mismo locutor esta envuelto para dos muestras de habla (dubitada 7 e indubitada 8 ), dada la evidencia E y la probabilidad a priori. El trmino inmediatamente despus de la igualdad corresponde a la probabilidad a priori, la probabilidad en favor de la afirmacin fiscal antes de ser presentada la evidencia E , y el trmino de la derecha es la relacin de verosimilitud LR para la evidencia [4].

7 8

Muestra de voz desconocida. Muestra de voz conocida, sospechosa de ser la voz registrada en la muestra dubitada.

41

5.4

HIPTESIS DE DEFENSA

Ya se sabe que el denominador de la proporcin de verosimilitud representa la probabilidad de la hiptesis alternativa o de defensa H d . Como fue expuesto anteriormente, H d puede tomar muchas formas, pero generalmente suele ser la versin de que las muestras provienen de distintos locutores. Existen puntos importantes que se deben tener presentes acerca de la hiptesis de defensa o alternativa, en primer lugar es importante comprender que la eleccin de la hiptesis alternativa puede modificar el valor de la proporcin de verosimilitud, y por lo tanto la veracidad de las pruebas. Como se dijo anteriormente, cada cambio en la hiptesis de defensa puede tener un considerable efecto sobre el LR . Por ejemplo, observar un alto grado de similitud entre dos muestras de habla equivale a tener una alta probabilidad en la hiptesis fiscal, la cual dice que ambas muestras provienen del mismo locutor. Sin embargo, al observar un alto grado de similitud puede tambin traer consigo una alta probabilidad para la hiptesis de defensa, que puede decir que las muestras provienen de dos locutores con voces similares. Ciertamente, desde este punto de vista la hiptesis de defensa posee un mayor grado de probabilidad que si fuera sta como se coment en un principio, que las dos muestras provienen de locutores distintos. De lo descrito anteriormente, se deduce que la formulacin de la hiptesis de defensa influye de manera significativa en los resultados finales, es por esta razn que las hiptesis que se manejan en la gran mayora de los casos son: que la muestra de voz proviene de un mismo locutor (hiptesis fiscal) y que la muestra de voz proviene de distintos locutores (hiptesis de defensa) [4].

42

6. CARACTERSTICAS ACSTICAS IMPORTANTES DEL HABLA DESDE EL PUNTO DE VISTA FORENSE


6.1 FUENTE Y FILTRO ACSTICO DEL TRACTO VOCAL

6.1.1 Fuente acstica en el tracto vocal


Considerando el caso de una vocal, la fuente de la energa acstica es la laringe, y consiste en un flujo de aire iniciado previamente por la actividad pulmonar, modulado por la actividad de las cuerdas vocales. Como el aire fluye a travs de la glotis, comienza la oscilacin de las cuerdas vocales. Las cuerdas estn juntas inicialmente, pero luego comienza la separacin de stas. El ciclo se repite tanto como duren las condiciones aerodinmicas y de tensin muscular necesarias para la fonacin. El resultado de esto es un flujo peridico de alta velocidad de aire siendo disparado en la parte superior de la laringe.
Figura 6.1 Dos perodos de una velocidad de volumen de una onda glotal idealizada con un F0 de 100 Hz.

Un tpico dibujo del volumen de aire fluyendo a travs de la glotis durante un lapso de tiempo, es llamado velocidad de volumen de la onda glotal, ste es mostrado en la figura (6.1). La velocidad de volumen es mostrada verticalmente y cuantificada en trminos de centmetros cbicos cm 3 de aire por segundo. El tiempo es mostrado en el eje horizontal. Puede verse en la figura (6.1) que la forma de la onda se repite dos veces en 20 milisegundos. Esto significa que la frecuencia fundamental es 100 Hz.

43

El perfil de la forma de onda en el tiempo en la figura (6.1) puede ser explicada como sigue. La porcin de flujo de aire es 0 de 0 a 4 milisegundos por ejemplo, el cual es el tiempo en que las cuerdas vocales estn cerradas, no permitiendo el paso de aire a travs de la glotis. Cuando las cuerdas comienzan a abrirse, el flujo de aire comienza a incrementarse, llega a un mximo y luego disminuye cuando las cuerdas se juntan otra vez. Usualmente el rango de decrecimiento es mayor que el de crecimiento, y ms rpido cambia el flujo de aire durante el cierre de las cuerdas (en la figura, esto puede ser apreciado desde los 9.5 a 19.5 milisegundos). El tiempo transcurrido para este flujo puede ser dividido en tres partes: una fase cerrada, una fase de apertura y una fase de cierre. La forma de onda del flujo de aire en la figura (6.1) es una representacin en el dominio del tiempo: se muestra como el flujo del aire cambia en funcin del tiempo. Sin embargo, la energa contenida en la onda en el dominio del tiempo puede ser entendida de mejor forma en su espectro, o transformacin en el dominio de la frecuencia. El espectro de la onda mostrada en la figura (6.1) es mostrada en la figura (6.2). Esta figura muestra la energa presente en la forma de onda de la velocidad de volumen: la energa dentro del sistema. En la figura (6.2) se muestra el conjunto de sinusoides o armnicos, especificados por frecuencia y amplitud. Cuando se suman con la apropiada relacin de fase, puede dar la forma de onda de la velocidad de volumen mostrada en la figura (6.1). La figura (6.2) muestra la energa presente en la forma de onda de la velocidad de volumen en varias frecuencias discretas. La energa presente en la fundamental de 100 Hz, pero tambin en mltiplos de sta: 200 Hz, 300 Hz, 400 Hz, etc. La fundamental, el segundo y cuarto armnico son mostrados en la figura.
Figura 6.2 Espectro idealizado (bajo 1.6 KHz) de la velocidad de volumen de la onda glotal mostrada en la figura 6.1. La fundamental ( F0 ), el segundo y cuarto armnico (H2, H4) son indicados.

44

Puede verse del espectro que la fuente glotal es muy rica en armnicos. Esto es porque mientras ms se desva la onda de una sinusoidal, ms sinusoides son requeridas para su aproximacin. Se aprecia, adems, en la figura, bruscas disminuciones de energa en cada armnico: el valor representativo aceptado para la fonacin modal de varones es -12 decibeles por octava. Esto significa que la amplitud de un armnico ser 12 dB menor que el armnico de la mitad de su frecuencia. La diferencia de amplitud entre la fundamental en 100 Hz y H2 en 200 Hz es 12 dB que coincide con la diferencia entre H2 en 200 Hz y H4 en 400 Hz. Esta propiedad del espectro es llamada la pendiente espectral: el espectro en la figura (6.2) tiene una pendiente espectral de -12 dB/octava. Suponiendo ahora que el locutor ha incrementado su frecuencia fundamental por aumentar la tasa de vibracin en las cuerdas vocales de 100 Hz a 200 Hz. El espectro de la fuente puede ahora tener energa presente en 200 Hz (la frecuencia fundamental) y en mltiplos enteros de sta: 400 Hz (el segundo armnico), 600 Hz (el tercer armnico), etc. Esto es mostrado en la figura (6.3), donde tambin puede verse la pendiente espectral de la fuente glotal, la cual preserva los -12 dB/octava. Si un locutor disminuyera la tasa de vibracin de las cuerdas vocales, entonces decrecera la frecuencia fundamental [4].

6.1.2 Filtro del tracto vocal


Como se precisa en las figuras (6.2) y (6.3), stas muestran la energa contenida en la velocidad de volumen de la onda en la glotis. Este espectro especifica la energa dentro del sistema. Esta energa es modificada al pasar a travs de la parte superior de la laringe en el tracto vocal. La contribucin de la zona supralarngea, es que sta acta como un filtro acstico que suprime la energa de ciertas frecuencias y que amplifica otras. Durante la produccin de una vocal, el aire en un principio est siendo expulsado a razn constante a travs del tracto vocal (esto es usualmente referido a un chorro de aire pulmonar, porque el movimiento de aire es iniciado por los pulmones, y la direccin del movimiento del aire es hacia fuera). Como se explic ms arriba, este flujo de aire es interrumpido por la accin vibratoria de las cuerdas vocales, produciendo una secuencia de flujos de aire de alta velocidad que son inyectados en la zona supralarngea del tracto vocal. El efecto de estos flujos de alta velocidad es causar que el aire presente en la zona supralarngea vibre. La manera en que vibra el aire, en particular las frecuencias en las cuales est vibrando y la amplitud de estas frecuencias, est determinada por la forma y condiciones de la zona supralarngea del tracto vocal.

45

Figura 6.3 Espectro idealizado de la fuente glotal (bajo 1.6 KHz) con F0 de 200 Hz.

El punto en el tiempo en el cual ocurre la principal respuesta del aire supralarngeo corresponde en el cambio ms rpido en la razn del flujo glotal descrito en la figura (6.1), que es, cuando las cuerdas estn cerradas. Este proceso puede ser comparado al golpe de una gota de agua cayendo en un balde lleno de agua. Cuando la gota golpea el agua, sta produce una onda que irradia hacia fuera. En el mismo tiempo hay una continua circulacin de agua hacia el lado del balde. Entonces, un espectro en el dominio del tiempo puede ser usado para hacer una representacin de este proceso, como la fuente de energa es modificada por el filtro, haciendo ms fcil su conceptualizacin. La manera en la cual el aire en la zona supralarngea vibrar, dada una particular forma de sta, puede ser convenientemente mostrada por un espectro de la amplitud de frecuencia, a menudo llamada una funcin de transferencia. La figura (6.4) muestra tal espectro. Este espectro, o funcin de transferencia, representa la respuesta acstica del aire en la zona supralarngea del tracto vocal para una schwa, un tpico fonema ingls, el cual suena como la vocal que aparece en la palabra inglesa heard, cuando est dicha por un locutor que posee un tracto vocal supralarngeo de 17.5 cms. de longitud (la longitud del tracto supralarngeo consiste en la distancia entre la glotis y los labios). Esta particular vocal, en esta especfica longitud de tracto supralarngeo, fue elegida porque representa, acsticamente y desde el punto de vista de produccin, el caso menos complejo. Cuando una schwa es producida, la forma del tracto vocal supralarngeo puede ser considerado aproximadamente a un tubo de rea de seccin transversal uniforme.

46

Figura 6.4 Funcin de transferencia para una schwa dicha con un tracto vocal de 17.5 cms. de longitud.

La longitud de 17.5 cms. simplemente resulta de valores acsticos que son fciles de recordar y no implica que todo locutor posea esta longitud de tracto vocal supralarngeo, ni eso quiere decir que un locutor posea una longitud del tracto vocal supralarngeo invariante [4].

6.1.3 Interaccin de fuente y filtro


El espectro sobre la figura (6.4) es abstracto, y muestra cmo el aire puede vibrar, dado un tracto vocal supralarngeo en la forma para una schwa (con rea de seccin transversal uniforme). Esta representacin abstracta es a menudo llamada filtro o funcin de transferencia. Recordando que la energa dentro del sistema, para vocales, es el espectro de la velocidad de volumen de la onda en la glotis. Se asumir que se tiene una fuente con una frecuencia fundamental de 100 Hz, como en la figura (6.2). Esto significa que las cuerdas vocales estn vibrando y permitiendo un chorro de alta velocidad de aire para ser inyectado en el tracto vocal supralarngeo 100 veces por segundo. Recordando tambin que el tracto vocal supralarngeo est en la forma para una schwa, con rea de seccin transversal uniforme. La figura (6.5) muestra qu ocurre cuando la fuente es combinada con el filtro. Visualmente, esto aparece como si la forma de la funcin de transferencia hubiese sido superpuesta sobre el espectro rico en armnicos de la fuente. Puede verse que la energa contribuida por la fuente est ahora presente en la fundamental y armnicos. Tambin se visualiza la cada en la forma general del espectro de la fuente, como ha sido modificado

47

por la respuesta del tracto vocal supralarngeo. Adems presenta los tres peaks de formantes dados por los mximos de la funcin de transferencia. Sin embargo, la amplitud de la fundamental ( F0 ) ha sido atenuada porque se encuentra ms distante del primer formante. Su amplitud es ahora aproximadamente de 10 dB, y se encuentra ms abajo comparado con el quinto armnico.
Figura 6.5 Espectro para una schwa con F0 de 100 Hz y tracto vocal de 17.5 cms. de longitud.

Es importante entender que la estructura armnica es independiente de la funcin de transferencia. Durante el habla, tanto la frecuencia fundamental como los armnicos estn cambiando, segn el locutor modifique su tono, con el cambio de la cantidad de vibracin de sus cuerdas vocales. La frecuencia central del formante se mueve hacia arriba y hacia abajo como el locutor cambia sus vocales por cambiar las condiciones de su tracto vocal supralarngeo. Un armnico, por lo tanto no tiene que coincidir con una frecuencia central de un formante. Sin embargo, si la funcin de transferencia en la figura (6.4) fuera excitada con la fuente de la figura (6.3) con F0 en 200 Hz, podra no haber energa bajo el primer formante dada la funcin de transferencia que posee el primer peak en 500 Hz, porque el segundo armnico ser en 400 Hz y el tercero en 600 Hz. El quinto armnico que anteriormente estaba en F1, se encontrar ahora en 1000 Hz y ser mximamente atenuado. Otra caracterstica de la fuente que aparece en la figura (6.5) es su pendiente general. Los peaks de formantes en la funcin de transferencia para una schwa en la figura (6.4) tienen todos igual amplitud, pero los armnicos bajo estos peaks en la figura (6.5) decrecen en amplitud. La pendiente espectral original de -12 dB/octava ha cambiado ha -6 dB/octava aproximadamente. Esto representa una complicacin que es a menudo encontrada en representaciones fuente-filtro. El efecto de radiacin del tracto vocal esta decreciendo alrededor de 6 dB/octava, adems las altas frecuencias son radiadas ms

48

fcilmente que las bajas frecuencias. Este efecto de radiacin es a menudo desarrollado en modelos espectrales fuente-filtro de produccin de habla [4].

6.2

CARACTERSTICAS DEL HABLA UTILIZADAS EN RECONOCIMIENTO FORENSE DE LOCUTORES

6.2.1 Los formantes


En el espectro de la figura (6.4), se muestra la excitacin del aire en un tracto vocal supralarngeo con un rea de seccin transversal uniforme, dado un aumento para una respuesta acstica por donde el aire vibra con mxima amplitud en las frecuencias de 500 Hz, 1500 Hz, y 2500 Hz. Matemticamente, esto se da para infinitas frecuencias, pero para propsitos prcticos, tanto fonticos y forenses, solamente unas pocas frecuencias iniciales son consideradas. Puede tambin ser visto que la energa mnima est en las frecuencias de 1000 Hz, 2000 Hz, etc. Las frecuencias en las cuales hay mxima energa son llamadas frecuencias de resonancia. El aire en el tracto vocal supralarngeo est vibrando con mxima amplitud en estas frecuencias. En fontica acstica, las resonancias del tracto vocal son usualmente llamadas formantes. Los formantes son muy usados en identificacin forense de locutores, tanto en casos experimentales como de aplicacin. El formante en la ms baja frecuencia es el primer formante, o F1. La ms importante dimensin de un formante en fontica acstica es la frecuencia en su punto de mxima respuesta, llamada frecuencia central. Entonces, en la figura (6.4), F1 tiene un centro en la frecuencia de 500 Hz, F2 tiene un centro en la frecuencia de 1500 Hz etc. En orden a especificar la forma general del espectro en la figura (6.4), son necesarias las dimensiones de formantes adicionales. Las otras dimensiones de un formante son su (peak) amplitud y ancho de banda. La amplitud de formante puede ser pensado como su altura: en la figura (6.4) la amplitud de todos los formantes es 30 dB. La amplitud es a menudo, medida relativamente, de un valor peak hacia abajo. Esto ha sido hecho en la figura (6.4), por lo tanto, la amplitud peak de todos los formantes en la figura (6.4) es 0 dB. El ancho de banda de formante, la cual es cuantificada en Hz, es una medida del ancho de un formante, y refleja la cantidad de absorcin de energa. Alta absorcin de energa, por ejemplo, de una pared del tracto vocal elstica, acsticamente absorbente, resultan formantes ms amplios. El ancho de banda para todos los formantes en la figura (6.4), en 15 dB es alrededor de 200 Hz, o 100 Hz para cualquier lado partiendo de la frecuencia central del formante [4].

49

6.2.1.1 Determinando las frecuencias centrales de formantes para una schwa


En la seccin previa, las primeras cuatro frecuencias centrales de formantes para una schwa fueron dadas como 500 Hz (F1), 1500 Hz (F2), 2500 Hz (F3) y 3500 Hz (F4). De dnde vienen estos nmeros? Para responder esta pregunta en trminos matemticos se introducirn algunas simplificaciones: el tracto vocal supralarngeo se asumir aproximadamente como un tubo uniforme y que est cerrado en uno de sus extremos al final de la laringe. Esto es una simplificacin porque, como ha sido indicado anteriormente, cuando las cuerdas vocales estn vibrando normalmente el tubo est efectivamente cerrado la mitad del tiempo aproximadamente. La frecuencia en la cual esta vibrando el aire con mxima amplitud en un tubo de rea de seccin transversal uniforme cerrado en un extremo (frecuencia de resonancia) est en funcin de la longitud del largo del tubo, y es fcil de calcular. La frmula esta dada en la ecuacin (6.1). Esta frmula dice que la frecuencia, en Hz, de cualquier resonancia en el tubo es dos veces el nmero de la resonancia, menos uno, veces la velocidad del sonido en centmetros por segundo dividida por cuatro veces la longitud del tubo en centmetros. Por ejemplo, asumiendo valores convencionales de 35000 cm/seg como la velocidad del sonido, y un promedio del largo del tracto vocal supralarngeo de 17.5 cm, la frecuencia de la primera resonancia ser [(2 1) 1] 35000 / (4 17.5) = 500 Hz.
Ecuacin 6.1 Frmula para las frecuencias de resonancia Fn en Hertz para un tubo con rea de seccin transversal uniforme y largo

l en cms, cerrado en un extremo. c = velocidad del sonido en cm/seg.


Fn = (2n 1) c 4l

( 6.1)

Por lo tanto la frecuencia ms baja en la cual el aire vibrar con mxima amplitud es 500 Hz, y sta es la frecuencia de resonancia, o primer formante F1. Substituyendo 2 por n en la frmula (6.1) dar 1500 Hz, o segunda frecuencia formante, y las frecuencias de F3 y F4 sern 2500 Hz y 3500 Hz, respectivamente. De la frmula (6.1) puede verse que la frecuencia de resonancia es inversamente proporcional al largo del tracto vocal supralarngeo, por lo tanto decrecer mientras mayor sea el largo y aumentar mientras menor sea ste. Una consecuencia directa de esta observacin es la diferencia existente entre hombres y mujeres. Las mujeres poseen en promedio un tracto vocal supralarngeo aproximadamente un 20% ms corto que el de los hombres, por lo tanto la frecuencia de resonancia es de alrededor de un 20% mayor que en los hombres. Sin embargo, pueden encontrarse diferencias de esta magnitud en la longitud del tracto vocal supralarngeo en personas del mismo sexo [4].

50

6.2.1.2 Funcin de rea


Como se pudo apreciar anteriormente la prediccin de las frecuencias formantes puede ser anticipada conociendo el tipo de tracto vocal y su funcin de transferencia. Adems, existe otra relacin importante, la cual ser tratada de forma cualitativa y slo para formar una idea. Si se conoce como vara la seccin transversal del tracto vocal en funcin de su largo, es posible predecir la funcin de transferencia, esto es conocido como su funcin de rea. Por ejemplo, puede darse, que una persona en la faringe posee un rea de seccin transversal de 10 cm 2 , mientras en la mitad del paladar duro ser de 0.7 cm 2 . Sin embargo, en situaciones prcticas esta relacin es despreciable, aunque es bueno tener en cuenta las caractersticas que producen diferencias en los resultados esperados [4].

6.2.1.3 Comportamiento de los formantes de las vocales en el espaol


En esta seccin se revisar cmo es el comportamiento de los formantes desde el punto de vista acstico para las vocales en el espaol, por tratarse de una de las principales caractersticas que es tomada en cuenta de cara a identificar y verificar la identidad de una persona dadas dos muestras de habla. La principal razn de la importancia desde el punto de vista forense de los formantes de las vocales, es su gran estabilidad a la variacin intralocutor, no as para su variabilidad interlocutor, ya que el tracto vocal individual presenta estabilidad, y porque estos rasgos son muy resistentes a la distorsin y a las interferencias. Los sonidos voclicos al contrario de los sonidos consonnticos tienen la caracterstica de poseer una importante apertura del tracto vocal (apertura que vara en cada vocal) en las que sale el aire libremente de la cavidad oral. Las cinco vocales del espaol pueden clasificarse segn dos criterios: grado de apertura de la cavidad bucal (abierta, medias y cerradas) y posicin de la lengua en su pronunciacin (anterior, central y posterior). Estas clasificaciones pueden verse en la tabla (6.1).
Tabla 6.1 Clasificacin de las vocales del espaol segn posicin y grado de abertura.

POSICION:

o /e/ e /i/, anteriores o /a/, central o /o/ y/u/, posteriores o /a/, Abierta o /e/ y /o/, Medias o /i/ y /u/, Cerradas

GRADO DE ABERTURA:

51

Colocando en ejes coordenados las dos variables descritas (apertura y lugar) se obtiene el llamado tringulo voclico del espaol (para el ingls es un cuadriltero), el cual se encuentra ntimamente relacionado con las frecuencias de los dos primeros formantes. Poco despus de la invencin del espectrgrafo de sonido en la dcada de los 40 del siglo XX, los investigadores pudieron observar que si se traza la curva de el primer formante de una vocal en funcin de la segunda frecuencia del formante, haciendo esto para todas las vocales de un locutor de habla inglesa, la configuracin resultante se asemeja a la posicin de las vocales puestas sobre ejes coordenados atendiendo a las variable de apertura y lugar. Por lo tanto, si se representa grficamente la frecuencia del primer formante (F1) en el eje de ordenadas y la frecuencia del segundo formante (F2) sobre el eje de abscisas, haciendo esto para todas las vocales, lo que se obtendr ser de nuevo el denominado tringulo voclico del espaol, el cual puede apreciarse en la figura (6.6).
Figura 6.6 Tringulo voclico del espaol, formado al graficar F1 en el eje de ordenadas y F2 en el eje de abscisas.

De esta forma puede verse que existe una relacin entre el grado de apertura y lugar, con los valores de las frecuencias formantes F1 y F2. Con ms detalle, puede decirse que el grado de apertura se relaciona directamente con F1 (a mayor apertura, mayor ser F1), mientras que el lugar de articulacin se relaciona con F2 (cuanto ms anterior, mayor ser F2) [1]; [16].

52

6.2.1.4 Variacin intralocutor e interlocutor en formantes del espaol


Son pocos los estudios fontico-acsticos que entregan pautas acerca de la naturaleza en la variabilidad intralocutor e interlocutor en el habla espaola, adems algunos de los existentes pertenecen a instituciones privadas. Sin embargo, se puede encontrar un buen referente en el proyecto espaol VILE (estudio acstico de la variacin interlocutor e intralocutor en el espaol), proyecto de investigacin bsica, financiado por el Ministerio de Ciencia y Tecnologa de Espaa. La primera parte de este proyecto hace un resumen bibliogrfico de diversos autores que han hecho investigacin en este tema, trabajando para saber que tan efectivas son sus conclusiones enfocadas para el habla espaola. Vale la pena mencionar que este estudio abarca aspectos muy especficos de este campo de estudio. Dos parmetros de los formantes resultan sumamente reveladores de la identidad de un locutor: las frecuencias centrales de los tres primeros formantes (F1, F2 y F3 especialmente si se estudian tres vocales [a, i, u] y la silaba [na]) y la distancia entre estos tres primeros formantes (F1/F2 y F2/F3), que no pueden ser alterados a voluntad. Otra caracterstica importante, si se considera el valor medio de los formantes de una amplia cantidad de vocales se obtiene un indicio de la longitud media del tracto vocal del locutor (si aumenta la longitud del tracto vocal disminuir la frecuencia de un formante). Un valor sumamente til puede ser F3, ya que presenta muy poca variacin de vocal a vocal. En el ancho de banda de los formantes, es interesante hacer una comparacin de los de la vocal [i] ya que presentan poca variacin intralocutor y clara variacin interlocutor. Dentro de los resultados del proyecto VILE se encontr variabilidad interlocutor que superaba los 200 Hz en F2 y los 100 Hz en F1 para las vocales. Adems se observ que un locutor con una elevada variabilidad de F2 y una reducida en los valores de F1, pudo ser identificado con un alto porcentaje de aciertos, mientras que un locutor con poca variabilidad de F2 y alta para F1 present serios problemas de identificacin [1]; [16].

6.2.1.5 Visualizacin de una schwa


Ahora es apropiado ilustrar la teora con datos ms reales. Para lograr este objetivo se ha tomado una schwa de la palabra speaker, en ella el locutor ha acentuado y alargado extraordinariamente la silaba ker. La figura (6.7) muestra su espectro, y el alisamiento de ste con el fin de dar una idea clara de sus caractersticas. La caracterstica irregular en su estructura armnica es clara, especialmente en las bajas frecuencias. Aunque es difcil ver exactamente la frecuencia de la fundamental por el

53

tipo de escala horizontal, su frecuencia puede ser fcilmente estimada usando el hecho de que los armnicos son mltiplos enteros de la fundamental.
Figura 6.7 Espectro armnico y de prediccin lineal para una schwa real. F1, F2, F3 = primer, segundo y tercer formante respectivamente; H5, H14 = quinto y decimocuarto armnico respectivamente.

Puede verse de la figura (6.7) que aparecen nueve armnicos y medio entre 0 y 1000 Hz. Como se dijo anteriormente las frecuencias armnicas estn en mltiplos enteros de la fundamental, esto significa que la frecuencia fundamental para esta schwa es 1000/9.5, o 105 Hz. Las cuerdas vocales estn vibrando aproximadamente 105 veces por segundo durante su produccin. El perfil del espectro para la prediccin lineal desarrollada, con los formantes (F1, F2, F3), es tambin claro y muy similar a la schwa idealizada mostrada en la figura (6.5). Los formantes estn en frecuencias ligeramente diferentes a los valores mostrados en la schwa idealizada. Por ejemplo, F1 aparece un poco ms alto que 500 Hz, de hecho est levemente ms arriba del quinto armnico (H5), el cual est en ( 5 105 ) = 525 Hz [4].

6.2.1.6 Significado forense para la longitud del tracto vocal y las frecuencias formantes
La relacin entre la longitud del tracto vocal supralarngeo y las frecuencias formantes en una schwa son el primer ejemplo de la relacin entre la anatoma del tracto vocal supralarngeo y las caractersticas acsticas que son proporcionados por la teora

54

fuente-filtro. Puede perecer prometedor establecer una funcin entre acstica y la anatoma del locutor. Sin embargo, por severas razones, esta relacin debe ser tratada con cautela. En primer lugar, el tracto supralarngeo humano es altamente deformable y su largo no es invariante para un locutor dado. Todo humano es capaz de alargar y acortar la longitud de su tracto vocal supralarngeo, y esto ocurre por supuesto durante el habla. Alterando la posicin vertical de la laringe, sobresaliendo los labios, o ambos, alterando la longitud en unos pocos centmetros. Aunque ciertamente todos los locutores difieren en la longitud de su tracto supralarngeo en condiciones de reposo, el rango de diferencia en la poblacin relevante de un pas no es grande. La plasticidad del tracto vocal supralarngeo del individuo y su angosto rango de variacin entre individuos puede resultar en bajos porcentajes de variacin interlocutor e intralocutor. Antes de condenar a un sospechoso con un largo tracto vocal supralarngeo de un crimen que fue cometido por una persona que presenta bajas frecuencias centrales de formantes, es importante tener claro que tampoco pudo haber sido cometido por alguien con una longitud de tracto vocal supralarngeo corriente, quien est acostumbrado a hablar con la laringe bajo su nivel normal. Entonces, de la unidireccionalidad de la relacin entre articulacin, funcin de rea y salida acstica, es posible especificar, al menos en teora, un rango de posibles configuraciones del tracto vocal supralarngeo que pueden ser posibles para una salida acstica dada. Para aplicar esto, es de gran ayuda contar con modelos representativos de la poblacin relevante [4].

6.2.2 Frecuencia fundamental


Es tiempo de comprender y analizar uno de los parmetros ms importantes en fontica forense, considerados por muchos expertos y autoridades del tema: la frecuencia fundamental. La frecuencia fundamental es abreviada F0 , y que puede leerse como efe subzero. Esta es la correlacin acstica de la frecuencia a la cual estn vibrando las cuerdas vocales, y es directamente proporcional a sta. Separadamente del objetivo lingstico envuelto, uno de los principales factores que determina la tasa a la cual vibran las cuerdas vocales, y obviamente la frecuencia fundamental, es el tipo de cuerdas (entendiendo esto por su masa y longitud de stas). Como anteriormente se hizo para el caso de los formantes, dando una frmula, la cual estaba estrechamente relacionada con la anatoma del tracto vocal. A continuacin se relacionar la masa y longitud de las cuerdas con la frecuencia fundamental [4].

55

6.2.2.1 Determinacin de la frecuencia fundamental segn masa y longitud de las cuerdas vocales
El comportamiento vibratorio de las cuerdas vocales es extremadamente complejo, y tiene ambos componentes, como cuerda y como resorte, stas vibran como cuerdas estiradas. La frecuencia fundamental de una cuerda vocal cuando sta acta como una cuerda, puede ser descrita mediante la frmula en (6.2), la cual es una versin para la F0 de una cuerda ideal. En esta frmula Lm (cuantificada en metros), representa el largo de la cuerda (membrana), c representa el stress longitudinal de la cuerda. El stress es la tensin existente en las cuerdas dividido por la seccin transversal de rea del tejido vibrante y es cuantificado en pascales ( Pa ); y es la densidad del tejido, que se puede asumir casi constante, normalmente alrededor de los 1040 Kg / m 3 .

F0 =

c 1 2 Lm

(6.2)

Esta frmula hace clara la relacin existente entre F0 y la longitud ( Lm ) de la cuerda vocal de cada locutor, adems es inversamente proporcional a sta. Si la longitud de la cuerda vocal es larga, la frecuencia fundamental ser baja. Por ejemplo, asumiendo una densidad de tejido de 1040 Kg / m 3 , una constante de stress longitudinal de 15000 Pa , una cuerda vocal de longitud 1.6 cms. (un valor promedio para hombres), F0 ser de 119 Hz. Ahora en el caso de mujeres asumiendo una longitud de cuerda vocal promedio de 1 cm., se tiene una correspondiente F0 de 190 Hz. La frecuencia fundamental de una cuerda vocal comportndose como un resorte, puede ser descrita con la frmula en (6.3), la cual es una versin para F0 de un resorte oscilando atado a una masa. En este caso m (en kilogramos) representa la masa vibrante efectiva de la cuerda vocal, y k representa su rigidez (en Newton por metro).

F0 =

1 k 2 m

(6.3)

Esta frmula deja clara la relacin entre F0 y la masa ( m ) de la cuerdas vocales, adems es proporcional a la raz cuadrada del cociente resultante entre la rigidez y la masa.

56

Es claro que a mayor masa menor ser F0 . En el caso de varones, por lo tanto, que poseen cuerdas mas macizas, su F0 ser menor [4].

6.2.2.2 Un ejemplo de la frecuencia fundamental en la palabra hija


Recordando que F0 es el nmero de veces que la onda compleja peridica se repite por segundo, y se cuantifica en hertzios (Hz), en la figura (6.8) se muestra una porcin de, aproximadamente cuarenta y nueve milsimas de segundo, de forma de onda de la letra [a] en la palabra hija dicha por una locutora chilena. La forma de onda de la palabra completa de la cual una porcin pequea fue aumentada, se muestra en el recuadro de la figura (6.9).
Figura 6.8 Frecuencia fundamental extrada de la letra [a] de la palabra hija.

En el modelo de la onda compuesta aumentada en la figura (6.8), puede verse la condicin pseudo-peridica de la forma de onda, vista sta en el orden de milisegundos, adems se observa un ciclo aproximado de 6 mseg (la duracin de un ciclo puede verse en la parte inferior de la franja rosa). Entonces, se tiene un valor de F0 = 1 / 0.006 = 167 Hz aproximadamente. Este resultado es muy cercano a los 168.13 Hz mostrado en el lado derecho del cuadro de la figura (6.8).

57

Figura 6.9 Forma de onda completa de la palabra hija.

6.2.2.3 Significado forense de la frecuencia fundamental


Existen varias razones por las cuales la frecuencia fundamental es considerada uno de los parmetros ms importantes en reconocimiento forense de locutores. Adems de haber demostrado indudable xito en mediciones asociadas dentro del conjunto de parmetros analizados, F0 es robusta y puede ser extrada con relativa facilidad desde registros de pobre calidad, por ejemplo, no es afectada adversamente por transmisin telefnica, al contrario de los formantes y altos formantes. Y est disponible en la mayora de los sonidos del habla. Es importante destacar que lo anterior no implica que F0 sea totalmente invariante. Existen numerosos factores que pueden provocar variaciones intralocutor para la frecuencia fundamental. Estos son explicados en algunos papers y publicaciones y se dividen en tcnicos, fisiolgicos y sicolgicos. Dentro de los tcnicos pueden mencionarse tamao de muestra y velocidad de cinta. Ejemplo de fisiolgicos son entre otros raza, edad, humo, intoxicacin. Como ejemplo de factores sicolgicos estn, estado emocional y nivel de ruido de fondo en conversaciones telefnicas [4].

6.2.3 Formantes de alta frecuencia


Aunque los formantes de alta frecuencia son poco utilizados en reconocimiento forense de locutores (se habla de formantes de alta frecuencia aquellos iguales o superiores

58

a F3), existe bastantes investigaciones que indican a stos como un buen parmetro en orden a evaluar la identidad de un locutor. Por ejemplo, Stevens (1971: 216), dice que F3 es un buen indicador acerca de la longitud del tracto vocal, mientras que Ladefoged (1993: 195, 211), menciona a F4 y F5 como indicadores del timbre de voz del locutor y, por otra parte, Rose y Clermont (2001) mostraron que F4 se desempea mejor que F2 en la discriminacin forense de un mismo emisor y de diferente emisor en pares de la palabra hello. Dentro de las razones para afirmar que los formantes de alta frecuencia entregan buena informacin acerca de la identidad de un locutor se tienen: se asume que los formantes superiores a menudo reflejan, las resonancias fijas de las cavidades ms pequeas en el tracto vocal, por ejemplo, el tubo de la laringe, el cual se asume sea casi inalterado por los cambios en la totalidad de la configuracin del tracto vocal involucrados en la produccin de vocales diferentes, lo que disminuye notablemente la variabilidad intralocutor. Tambin, se supone que la variacin en formantes de baja frecuencia es comprimida por la funcin adicional de sealar las diferencias lingsticas en la cualidad vocal, y por lo tanto, no reflejan con tanta exactitud la anatoma individual. En muchos casos, la proporcin entre la variabilidad intralocutor e interlocutor tiende a ser ms grande en las esferas de altos formantes, y por consiguiente la identificacin de un locutor tiene mayor xito [4].

6.2.3.1 El significado forense de los formantes de alta frecuencia


En la seccin anterior se mencionaron muchas cualidades que hacen suponer que los formantes de alta frecuencia pueden ser de mucha utilidad en la tarea de identificacin forense de locutores. Sin embargo, en las regiones de frecuencias altas los formantes son bastante inaccesibles en condiciones reales, estos formantes resultan muy perjudicados por transmisiones telefnicas o por grabaciones de calidad pobre. Incluso en grabaciones de buena calidad, muchas veces, los formantes de altas frecuencias no son perceptibles. Otro factor que se debe tener en cuenta, se relaciona con la suposicin en el punto anterior que los formantes de alta frecuencia reflejaban las resonancias de las cavidades ms pequeas del tracto vocal, las cuales se mantenan fijas, debe tenerse en cuenta que esto no puede ser cierto del todo, siempre existir algn grado de deformacin en los rganos de la fonacin cuando se emite una palabra. La dificultad de extraer los formantes de alta frecuencia, dadas las condiciones tpicas encontradas en identificacin forense de locutores, como se indic al principio de este punto, es la principal razn por la cual estos formantes son obviados en muchos peritajes o sistemas automticos, sin embargo, si estos formantes estn disponibles pueden ser muy valiosos en el resultado final del peritaje [4].

59

6.2.4 El espectro a largo plazo


Hasta el momento se ha centrado el anlisis de parmetros a corto plazo, es decir, la exploracin de caractersticas en pequeos intervalos de tiempo. Ya se ver en el caso de la frecuencia fundamental el concepto de parmetro acstico a largo plazo. Ahora se centrar la atencin en otro tipo de medicin a largo plazo muy utilizada en reconocimiento e identificacin de locutores, el cual puede entregar resultados con excelentes niveles de exactitud: el espectro a largo plazo, o en ingls long-term spectrum (LTS) o long-term average spectrum (LTAS). Si se toma el espectro de una seal de voz sobre un intervalo de tiempo grande (la teora dice sobre 20 segundos), se tiene un espectro a largo plazo. El LTAS puede brindar la distribucin promedio de energa acstica a largo plazo en la voz del emisor: las caractersticas acsticas debidas a los sonidos del habla son desestimados, dejando el perfil de energa global del emisor en el momento en que ellos estn hablando. El LTAS proporciona una caracterizacin del locutor que no toma en cuenta aspectos lingsticos. El perfil que entrega reflejar la combinacin de caractersticas espectrales promedio de origen filtro supralarngeo y larngeo, junto a cualquier efecto producido por la energa subglotal, adems de pequeas contribuciones de otras fuentes no vinculadas con la laringe. En la figura (6.10) puede verse en la parte (a) la muestra de una mujer adulta chilena sobre 64 segundos de habla. El cuadro (b) muestra el espectro de largo plazo promedio de la emisora. Los ejes son igual que para el espectro de corto plazo: la frecuencia en el eje de las abscisas, en Hz y la amplitud en el eje de ordenadas, en dB. Este es el promedio de varios espectros armnicos tomados a lo largo del pasaje hablado [4].
Figura 6.10 a) Forma de onda de 64 segundos de habla de una mujer chilena adulta. b) LTAS sobre la muestra de 64 segundos de habla de la mujer, obtenida con el software Praat 4.4.28.

60

6.2.4.1 Significado forense del LTAS


El LTAS es un parmetro robusto a considerar en la identificacin forense de locutores, sin embargo, tambin posee algunas limitaciones. Dentro de las virtudes que posee este parmetro se encuentran: 9 En la gran mayora de los casos reales los emisores difieren mucho en su LTAS. 9 Es muy resistente a la tensin del emisor. 9 Est demostrado que el LTAS no cambia demasiado para diferentes configuraciones del tracto vocal supralarngeo. 9 Se mantiene estable en cortos perodos de tiempo (de 2 a 21 das). Dentro de las limitaciones a considerar se tienen: 9 9 9 9 9 An no es clara la variacin intralocutor que puede darse para este parmetro. No es resistente al encubrimiento de la voz por parte de los emisores. Es afectado por diferentes configuraciones de la laringe. Puede ser afectado por diferencias en la transmisin de canal. Puede tener cambios significativos en largos perodos de tiempo.

Para minimizar el efecto de diferencia en la transmisin de canal, existen varias tcnicas de normalizacin de canales que han estado mucho tiempo disponibles en el reconocimiento automtico de locutores. Existe otra situacin que tambin pudiera ser considerada una limitacin, los expertos an no se han puesto de acuerdo acerca de como evaluar las diferencias inevitables en el LTAS de muestras de locutores distintos.

61

Todas estas ventajas y desventajas deben ser consideradas por el experto forense de cara a realizar una correcta evaluacin de muestras [4].

6.2.5 El cepstrum
Uno de los parmetros acsticos que ha tenido mayor xito en identificacin de locutores, sobre todo en el desarrollo de sistemas automticos de ltima generacin es el cepstrum (que deriva su nombre de la palabrea inglesa spectrum) o coeficiente cepstral. El cepstrum tiene su origen en la dcada de los aos sesenta, dcada muy prolifera para tcnicas de procesamiento de seales, y fue utilizado en un primer momento para extraer la frecuencia fundamental de muestras de habla y desacoplar partes de la onda de habla atribuidas a excitacin glotal, debido a la respuesta del tracto vocal supralarngeo. Ms tarde, en la dcada de los aos setenta y principio de los ochenta fue demostrada su superioridad en orden a reconocer individuos por medio de su voz, ya no como un estimador de la frecuencia fundamental sino principalmente en su funcin como un parmetro espectral. Al igual que una prediccin lineal (LP) puede aplanar el espectro de una muestra de habla, el cepstrum tambin lo hace, pero mas an. Para ejemplificar esto se puede observar la figura (6.11), donde puede verse como acta el cepstrum frente a una prediccin lineal. La cubierta espectral otorgada por la prediccin lineal aparece en lnea punteada azul, mientras la del cepstrum aparece en lnea punteada roja, la figura muestra el espectro producido por una vocal inglesa donde pueden verse los formantes F1, F2, F3 y F4.
Figura 6.11 Cubiertas espectrales proporcionadas por una prediccin lineal y el cepstrum de una vocal inglesa.

62

El cepstrum se compone de coeficientes cepstrales, cada uno de ellos representa una onda senoidal, las cuales al ser sumadas formaran la cubierta espectral del cepstrum. En la figura (6.11) el cepstrum aparece constituido por 14 coeficientes cepstrales (C1 , C 2 ,..., C14 ) , los aportes entregados por estos coeficientes pueden ser vistos en la figura (6.12). Desde el cuadro (a) hasta el (d) pueden verse las sumas de diferentes subconjuntos de coeficientes cepstrales. Claramente a mayor nmero de coeficientes cepstrales sumados, mayor es el ajuste a la cubierta espectral del cepstrum [4].

Figura 6.12 Aporte entregado por distintos nmeros de coeficientes cepstrales los cuales en conjunto forman la cubierta del cepstrum mostrado en la figura 6.11.

63

6.2.5.1 Anlisis tcnico del cepstrum


En la seccin previa, se hizo un anlisis conceptual del cepstrum, ahora se centrar la atencin en aspectos tcnicos de este parmetro. Uno de los aspectos ms importantes del cepstrum es su facilidad de manejo por sistemas automticos de reconocimiento de locutor. La seal de voz en su forma natural estar compuesta por dos componentes convolucionadas. El primer componente estar proporcionado por la frecuencia fundamental y sus armnicos, mientras que la segunda ser aportada por los formantes. El cepstrum tiene la ventaja de deconvolucionar dichos componentes. A continuacin se ver como se logra esto. del mdulo espectral X ( ) . En trminos matemticos puede verse en la ecuacin (6.4). El cepstrum C ( ) , se define como la transformada inversa de Fourier del logaritmo

C ( ) = IDFT [log X ( ) ]
La variable independiente en el dominio cepstral se denomina quefrencia.

(6.4)

Si X ( ) es la seal de voz en el dominio frecuencial derivada de la convolucin de G( ) , la cual es la seal de excitacin y H ( ) , que es la respuesta impulsiva del tracto vocal, se tendr la seal de voz representada mediante la ecuacin (6.5).

X ( ) = G ( ) H ( )
Aplicando logaritmos a ambos lados de la ecuacin (6.5) se obtiene la ecuacin (6.6).

(6.5)

log X ( ) = log G ( ) + log H ( )

(6.6)

64

Finalmente calculando la transformada inversa de Fourier (IDFT) se tendr la deconvolucin de las componentes. Esto queda expresado matemticamente en la ecuacin (6.7).

C ( ) = IDFT [log X ( ) ] = IDFT [log G( ) ] + IDFT [log H ( ) ]

(6.7)

Si se observan los trminos que en la ecuacin (6.5) aparecen convolucionados, en la ecuacin (6.7) aparecen como sumandos. Desde el punto de vista de procesamiento digital de seales sta es una gran ventaja, ya que utilizando un buen sistema de filtros digitales se puede procesar por separado ambas seales. Al transportar una seal de voz al dominio cepstral el aporte hecho por la frecuencia fundamental y sus armnicos podr verse en altas quefrencias, mientras que el de los formantes se encontrar en bajas quefrencias. Es por esta razn que los primeros coeficientes cepstrales representan a los formantes del tracto vocal [1].

6.2.5.2 Coeficientes cepstrales de Mel (MFCC)


Pudo verse la ventaja de la utilizacin de los coeficientes cepstrales en orden de separar las componentes de la seal de voz, sin embargo, esto an no permite disminuir la cantidad de datos disponibles para un desempeo ptimo en el anlisis discreto de la seal, ya que su comportamiento es anlogo al dominio temporal o frecuencial. Con el fin de traspasar esta barrera se han estudiado diversas metodologas, las cuales buscan reducir la cantidad de datos sin perder informacin importante. Una de estas metodologas (que es la ms usada) consiste en tratar de imitar los mecanismos del sistema auditivo humano. Una de las particulares caractersticas del sistema auditivo humano consiste en que las personas no perciben (subjetivamente) de forma lineal una excitacin tonal. Diversos estudios demuestran que no existe una relacin lineal entre la frecuencia real (medida en hertzios) y la frecuencia percibida (medida en mels), y la relacin existente de stas ha sido modelada matemticamente en forma grfica y analtica. En la figura (6.13) puede verse esta equivalencia grficamente. Una prctica frecuente en tratamiento de voz es aproximar esta correspondencia como lineal hasta los 1000 Hz y logartmica por encima de este valor.

65

Figura 6.13 Relacin grfica existente entre la escala en hertzios y la escala mel.

Existen diversas aproximaciones analticas, de la curva en la figura (6.13), las cuales pueden obtenerse fcilmente utilizando tcnicas y mtodos numricos, una de las ms conocidas es la aproximacin de Fant, mostrada en la ecuacin (6.8). Fmel = F F 1000 log 1 + Hz = 1000 log 2 1 + Hz log 2 1000 1000 (6.8)

De todos los antecedentes se puede desprender que la escala Mel, es una escala que representa de cierta forma el comportamiento del sistema auditivo humano. Otra caracterstica particular del sistema auditivo humano, explotada en procesamiento de la seal de voz, es conocida como bandas crticas. Una banda crtica es aquella banda frecuencial, dentro de la cual, algunas sensaciones subjetivas como la sonoridad de un sonido no cambia, mientras no se salga de dicha banda. El espectro audible para el ser humano puede ser dividido en 25 bandas crticas, en las cuales el ancho de banda ser una funcin de la frecuencia central de la banda (a mayor frecuencia central, mayor ancho de banda), el rango tonal subjetivo es aproximadamente constante en 150 mels. La figura (6.14) muestra la relacin existente entre frecuencias centrales y ancho de banda de bandas crticas.

66

Figura 6.14 Equivalencia entre frecuencia central y ancho de banda de bandas crticas.

Para extraer los coeficientes cepstrales de Mel (MFCC) existen dos mecanismos: Se aplica una DFT a la seal enventanada para obtener muchos puntos en el dominio de la frecuencia (entre 1024 y 2048), luego se eligen los 25 puntos ms cercanos a las frecuencias centrales de las bandas crticas, poniendo los dems componentes del vector en cero, luego al espectro resultante se le aplica la transformacin cepstral. La segunda opcin y la ms utilizada, es aplicar sobre cada banda crtica la idea de energa total logartmica, y al vector resultante aplicar la transformacin cepstral, considerando cada valor de la energa total logartmica como las entradas de la IDFT correspondientes.

Al obtener una parametrizacin de esta forma, se recogen coeficientes que adems de tener las ventajas del comportamiento del cepstrum, poseen de alguna manera informacin correspondiente al mecanismo del sistema auditivo humano [1].

6.2.5.3 Parmetros derivados


Los llamados parmetros derivados o parmetros diferenciados permiten ampliar la informacin extrada de los coeficientes cepstrales de Mel. Existen dos clases de parmetros derivados, los de primer orden, los cuales entregan informacin relativa de la

67

velocidad del habla, y los de segundo orden, los cuales entregan informacin relativa a la aceleracin del habla. Sin embargo, se ha demostrado en la prctica que los resultados no experimentan un mejoramiento realmente perceptible incorporando a los sistemas los parmetros derivados de segundo orden. Para encontrar los parmetros derivados de primer orden, se debe considerar la derivada parcial respecto al tiempo del modulo espectral logartmico, el cual aparece en la ecuacin aproximada en (6.9).
L C m (t ) = C m (t ) k C m (t + k ) t k = L

(6.9)

Donde es una constante de normalizacin y (2 L + 1) es el nmero de ventanas donde se realiza la sumatoria, en general se tiene valores tpicos de 2 y 3 para L [1].

6.2.5.4 Importancia forense del cepstrum


El cepstrum es un parmetro que ha demostrado ser muy potente en identificacin forense de locutores, adems de ser fcil de extraer y manipular por sistemas automticos. Furui y Matsui (1994: 1466), por ejemplo, dan a conocer que una tasa de verificacin de un 98.9% fue lograda para un grupo de emisores compuesto por 20 varones y 10 mujeres, usando las vocales individuales en los experimentos de comprobacin automtica. Rose y Clermont (2001), demostraron que el cepstrum se desempea mejor que los formantes en la palabra hello en orden a identificar locutores. El cepstrum es un parmetro acstico an en amplio desarrollo, y que todava no se ha explotado en todo su potencial. Existen algunos estudios que relacionaran algn coeficiente o grupo de stos a ciertas caractersticas lingsticas del habla, sin embargo estas relaciones aparecen poco confiables an. Esto desde el punto de vista fontico-forense aparece algo restrictivo. Por ejemplo, suponiendo que dos muestras de conversaciones tenan vocales audiblemente con calidad fontica muy similar, es muy difcil saber que coeficientes cepstrales o grupo de ellos evaluar para cuantificar esta similitud. Otro aspecto de importancia del cual se hizo alguna mencin en el punto anteriormente tratado, es la incorporacin a los sistemas de los parmetros derivados de segundo orden, los cuales no muestran mejoras significativas de los resultados pero s los de primer orden. Siguiendo esta tendencia los sistemas varan tambin en la cantidad de coeficientes con los que trabajan, algunos lo hacen con los 16 19 primeros coeficientes cepstrales de los 25 esperados en el espectro audible del ser humano. Esto obedece a las investigaciones realizadas por los grupos que desarrollan estos sistemas de cara a la optimizacin de stos y mejoramiento en la entrega de resultados [4].

68

6.2.6 Distribuciones de la frecuencia fundamental a largo plazo


Anteriormente se encontr la frecuencia fundamental de una pequea muestra de voz. En la fontica forense, sin embargo, una persona puede estar ms interesada en la distribucin de largo plazo del F0 , en lugar de su estructura temporal (como sta cambia con el tiempo), puesto que los parmetros estadsticos asociados con F0 sobre una extensin prolongada del habla (long-term fundamental frequency LTF0) son reconocidos como ms representativos de la voz del emisor. La nocin de una distribucin de largo plazo es un asunto importante, no slo para F0 , sino que para cualquier parmetro fonticoacstico continuo, y puede aproximarse convenientemente por la va del F0 en un ejemplo de la palabra hello. Ya que F0 puede estimarse en intervalos cortos y ser trazado en funcin del tiempo, pueden ser recogidas observaciones individuales y trazadas como en la figura (6.15). La figura (6.15) es un histograma de los datos de F0 de la palabra inglesa hello dicha por un locutor australiano. Este histograma muestra el nmero de veces que un valor particular de F0 se presenta en los datos: la frecuencia de ocurrencia del F0 . F0 se traza a lo largo de las abscisas y el nmero de ocurrencias (cmputo) en el eje de las ordenadas.

Figura 6.15 Distribucin de la frecuencia fundamental en la palabra hello.

Puede verse por ejemplo que este hello contuvo una ocurrencia de un valor de F0 de 94 Hz (esto corresponde a la seal del punto de F0 ms baja de la observacin en la figura

69

6.15) y una ocurrencia de un valor de F0 de 139 Hz (esto corresponde a la observacin mxima de F0 ) como valores extremos en la muestra. El valor de F0 de 97 Hz ocurri cuatro veces, como tambin lo hicieron los valores de 99 Hz, y 108 Hz. No Haba ninguna ocurrencia de valores de F0 de entre 121 Hz y 126 Hz. Tomado el modelo en la figura (6.15) que constituye la distribucin del F0 en esta muestra particular de la palabra hello. La distribucin puede caracterizarse por varias propiedades estadsticas importantes que pueden ser tiles a modo forense, esto es, que tenga proporciones de F0 relativamente grandes. Sin embargo, antes de esto se discuti que es mejor presentar una distribucin ms prctica basada en muchas ms observaciones de F0 que las presentadas en la palabra hello en la figura (6.15). Esto es as porque los valores en la figura (6.15) todava refleja algo lingstico, es decir que el F0 da cuenta de la entonacin de la palabra hello. (Dicha con otra entonacin habran dado valores ligeramente diferentes de F0 ). Una distribucin de F0 de largo plazo necesita ser incrementada en una extensin de tiempo de habla lo bastante prolongada, para asegurar que todas las variables lingsticas locales responsables con respecto a su forma se neutralicen para que el perfil restante, y sus propiedades estadsticas, caracterice al emisor en lugar de reflejar el contenido lingstico. sta es la idea detrs del trmino de distribuciones de largo plazo. Debe recalcarse, claro, que la caracterizacin de largo plazo, es de como los emisores hablan en esa ocasin particular, y no es necesariamente vlido para todas las ocasiones: ningn rasgo acstico es invariante. Una pregunta obvia es cunto tiempo de conversacin se necesita? La cantidad de expresiones requeridas para obtener una caracterizacin de un emisor depende de la unidad de medida usada, pero hay sustentacin experimental de que por lo menos un valor de 60 segundos de conversacin, producen mediciones significativas de F0 de largo plazo. Hay tambin evidencia de que el valor puede variar en idiomas especficos. Rose (1991: 241), por ejemplo, encontr que valores de F0 de largo plazo para siete emisores de dialectos chinos se establecan mucho ms temprano que en 60 segundos. La figura (6.16) muestra una distribucin de F0 de largo plazo. Esta, representa el F0 de largo plazo de uno de dos participantes varones en una conversacin telefnica en cantones, y est basada en 1591 valores muestreados de F0 . Despus F0 se muestreo cada dos centsimas de segundos, en donde alrededor de un 40% de sonidos cantoneses son expresados, la distribucin en la figura (6.16) representa aproximadamente 80 segundos de conversacin. En contraste con el perfil de la distribucin en la figura (6.15), puede verse

70

que la distribucin de LTF0 en la figura (6.16) es bastante voluminosa. La distribucin es monomodal, esto quiere decir que tiene un punto mximo principal, y este punto mximo se centra alrededor de 145 Hz. La mayora de la distribucin yace entre 100 Hz y 190 Hz aproximadamente. Cuando esta persona hablaba en esta ocasin, la mayora del tiempo sus cuerdas vocales vibraban en proporciones de entre 100 y 190 veces por segundo. En las secciones abajo, se vern algunas de las formas importantes en que una distribucin puede ser descrita y cuantificada [4].

6.2.6.1 Parmetros estadsticos importantes en distribuciones a largo plazo


Media y desviacin estndar Las propiedades estadsticas ms importantes de una distribucin tal como en la figura (6.16) son aqullas que especifican su valor promedio y la distribucin de los valores alrededor de este valor promedio. Estos valores se denominan media (o media aritmtica) de F0 y la desviacin estndar de F0 respectivamente.
Figura 6.16 Distribucin de la frecuencia fundamental a largo plazo para un locutor hombre cantons en una conversacin telefnica.

Se ha afirmado que las mediciones basadas en ellas estn entre las medidas de largo plazo ms exitosas en el reconocimiento del emisor. La media y la desviacin estndar adems sern cruciales en la demostracin del uso de la relacin de probabilidad en el captulo 7.

71

Muy comn es que la media F0 se cite en el caso del trabajo forense. Esta, es la suma de las observaciones de F0 dividida por el nmero de observaciones. La media a menudo se simboliza por x ( x barra) o en algunos casos F0 ( F sub-zero barra) y puede formularse segn la ecuacin (6.10).

x=

x
i =1

(6.10)

En esta frmula xi es el valor de F0 en la en la i -sima observacin y n es el nmero total de observaciones. En la figura (6.16) x = 147 Hz o F0 = 147 Hz. Otro parmetro de largo plazo usado comnmente es la desviacin estndar abreviada comnmente por s o SD , y se le denomina tambin el segundo momento alrededor de la media o desviacin tpica. La desviacin estndar es, como ya se mencion, una medida de la distribucin de valores alrededor de la media, y su frmula se da en (6.11).

s=

(x
i =1

x)

n 1

(6.11)

Es calculada de una manera prctica encontrando la distancia promedio de cada observacin de la media. La distancia de cada observacin tiene que ser elevada al cuadrado, porque de lo contrario las desviaciones positivas de la media se anularan por los valores negativos. sta es la parte que es representada por el trmino de la ecuacin ( x i x )2 . La desviacin estndar de los datos en la figura (6.16) es de 27 Hz. Ha sido propuesto que una medida del rango de F0 de un emisor individual, o comps, es dos veces la desviacin estndar sobre y debajo de su media. Entonces los rangos de F0 de un emisor

cantones en la figura (6.16), seran de (147 2 27) = 93 Hz a (147 + 2 27) = 201 Hz que es un rango de 108 Hz. Se conoce de la teora estadstica que, bajo ciertas circunstancias bien definidas (cuando la distribucin es simtrica o cercana a esta caracterstica), un rango de dos desviaciones estndares alrededor de la media incluir aproximadamente un 96% de todas las observaciones en una distribucin. Como puede verse en la figura (6.16), este rango es de 93 Hz a 201 Hz, que de hecho incluye la mayora de las observaciones del emisor [4].

72

El sesgo o asimetra Arriba se mencion que la distribucin de F0 en la figura (6.16) pareca mostrar un nmero ligeramente mayor de valores F0 ms altos (dgase ms de 200 Hz) que bajos (dgase bajo los 100 Hz). Se les llama sesgo a este tipo de asimetras. Los valores ms altos que bajos se llaman asimetra positiva. La asimetra positiva es bastante tpica en las distribuciones de F0 , y es probablemente debido a la relacin exponencial entre la extensin y tensin del msculo de la persona en las cuerdas vocales (Rose 1991: 239). Si la distribucin contiene valores ms bajos que altos, se habla de asimetra negativa. La figura (6.17) muestra una distribucin de F0 de largo plazo con el sesgo positivo muy claro. El sujeto es una mujer joven de Shanghai que registr un pasaje en prosa en el dialecto de Shanghai.
Figura 6.17 Una asimetra positiva de una distribucin de la frecuencia fundamental a largo plazo.

La distribucin est basada en aproximadamente 24 segundos de conversacin expresada, que representa aproximadamente 40 segundos de conversacin en conjunto. Puede verse que la parte superior de la distribucin se ha abierto notablemente, y la distribucin es muy asimtrica.

Sesgo =

(x
i =1

x)

(n 1)s 3

(6.12)

73

La medida estadstica de sesgo se cuantifica elevando al cubo, en lugar de al cuadrado, las desviaciones de la media, y dividiendo el promedio de la distancia al cubo por la desviacin estndar al cubo. Una frmula para el sesgo se da en (6.12). El sesgo tambin es conocido como el tercer momento alrededor de la media. Una distribucin simtrica tiene un valor de sesgo de cero. Los valores mayores que ceros indican sesgo positivo, y ms pequeo que cero sesgos negativos. El valor del sesgo para la distribucin sumamente asimtrica en la figura (6.17) es 0.718. Esto puede compararse de manera visual con el sesgo mucho ms pequeo para la distribucin de F0 en la figura (6.16) que es 0.153 [4]. La curtosis Una tercera medida para la desviacin de una distribucin alejada de una distribucin normal es su grado de angostura. Esto se llama curtosis, o cuarto momento alrededor de la media, con las distribuciones que son ms angostas que lo normal se les llama leptocrticas y en caso contrario platicrticas. Una frmula para la curtosis, se da en (6.13), donde puede verse que es igual que para la de sesgo, a excepcin de que las distancias con respecto a la media se elevan a la cuarta potencia, y la distancia promedio es dividida por la desviacin estndar elevada a la cuarta. Un valor de 3 indica cero curtosis; mayor que 3 indican una curva leptocrtica; menos de 3 indica una curva platicrtica [4].

Curtosis = Moda de F0

(x
i =1

x)

(n 1)s 4

(6.13)

En muchas distribuciones hay un nico valor de F0 que se encuentra de modo muy frecuente con respecto a todos los valores. Este valor se llama moda. En distribuciones de F0 con un sesgo relativamente neutral, es comn observar que se encuentra cercana a la media. En las distribuciones con el sesgo positivo se encuentra bajo la media y en las distribuciones sesgadas negativamente se encuentra por sobre la media. No obstante as, se contempla que la moda en la distribucin en figura (6.16) est entre los 130 y 135 Hz, pero sta es una peculiaridad de la forma en que las observaciones de F0 se han agrupado en las casillas de frecuencia. El sesgo en la figura (6.16) es bastante pequeo, y la moda de hecho est muy cercano al valor de la media de 147 Hz, en 159 Hz. Es claro, que es posible para una distribucin de F0 falte un valor modal. La distribucin en la figura (6.15) es un caso en particular donde puede verse que hay valores de tres frecuencias (97 Hz, 99 Hz, 107 Hz) y cada uno se encuentra cuatro veces en la muestra, y que no hay valor de F0 que se encuentre de modo ms frecuente.

74

Los emisores pueden diferenciarse en sus distribuciones de F0 de largo plazo de todas las maneras ilustradas anteriormente: en la media y la desviacin estndar F0 ; en el sesgo y curtosis; y en la moda. Pero por supuesto, de igual forma puede el mismo emisor y la proporcin de entre y dentro de la variacin del emisor en F0 diferenciarse, por lo que debe ser considerada siempre [4].

6.2.6.2 La frecuencia fundamental y la salud


En esta seccin se ver como puede cambiar la distribucin a largo plazo de F0 , en un locutor, es decir, como se produce una variabilidad intralocutor como funcin del factor salud. Cualquier cambio en la salud que afecte el tamao, forma o estado orgnico del tracto vocal, o su control motor, alterar su produccin acstica. El recuadro (a) de la figura (6.18) muestra la distribucin de F0 de largo plazo de un locutor, obtenida al leer un pasaje en buen estado de salud; el recuadro (b) muestra la distribucin de F0 del locutor para el mismo pasaje ledo con un resfro; y el recuadro (c) muestra la distribucin para el pasaje ledo cuando el locutor tena una laringitis severa. La misma escala en el eje horizontal se usa para facilitar la comparacin. Puede verse en la figura (6.18) que esa laringitis aparece en correlacin con las diferencias extremas en la distribucin de F0 . El valor de la media de F0 es 32 Hz ms bajo que en la condicin normal; y la moda es 40 Hz ms baja. Para alguien con una desviacin estndar normal de aproximadamente 15 Hz, stas son diferencias muy grandes. Hay tambin diferencias grandes en el sesgo de las dos distribuciones, curtosis y desviacin estndar. La distribucin de F0 asociada con el resfro no muestra un cambio drstico de valores bajo del normal, ms bien la media y la moda son ligeramente ms alto que el normal [4].
Figura 6.18 Distribuciones de la frecuencia fundamental de un mismo locutor, con tres estados de salud distintos.

75

6.2.6.3 Las distribuciones de frecuencia fundamental y probabilidades


Las distribuciones de frecuencia fundamental no slo entregan la informacin acerca de la frecuencia de ocurrencia, sino que tambin entregan informacin acerca de la probabilidad de encontrar cierto valor de F0 en la muestra. Si se tiene la distribucin de 53 valores de F0 obtenida de la palabra hello en la figura (6.15), puede verse que el valor de 137 Hz aparece 2 veces, y por consiguiente tiene una frecuencia relativa de 2 / 53 = 0.0377, por lo tanto, al tomar un dato al azar de la muestra se tiene un 3.7% de probabilidad de que el valor de ese dato sea 137 Hz [4].

6.2.6.4 Modelando distribuciones de la frecuencia fundamental


Existen muchas formas de trazar una distribucin de algn parmetro estadstico, sin embargo, se introducir la forma de hacerlo por medio de una funcin matemtica. La forma ms conocida de una distribucin, es la curva en forma de campana llamada gaussiana, campana de Gauss o distribucin normal. Aqu se mostrar la forma de obtener esta curva.

76

Observando la figura (6.19) se puede apreciar a que se hace referencia en concreto. En esta figura puede verse una distribucin de F0 y la gaussiana correspondiente, inscrita en el grfico como una curva en forma de campana. Esta curva entrega buenas aproximaciones de los datos entregados, sin embargo, se recalca que son aproximaciones ya que puede verse claramente que la curva tiende a subestimar los valores del extremo derecho y a la vez sobrestima los datos del extremo izquierdo.
Figura 6.19 Distribucin de frecuencia fundamental con su gaussiana asociada.

Existen casos en los que pequeos grados de distorsin pueden ser arreglados mediante tcnicas estadsticas, como tambin hay casos en los que resulta muy complicado ajustar una curva gaussiana a ciertas distribuciones. Si las distribuciones son muy complicadas, pueden utilizarse mtodos especiales. Uno de los mtodos es usar una combinacin de curvas gaussianas, este mtodo de estimacin es llamado funcin de densidad de kernel. Otro trmino es modelo de mezclas gaussianas (GMM) o enfoque usando formas de GMM. Siguiendo con el anlisis de una distribucin de F0 , o cualquier distribucin de un parmetro continuo, el cual es posible modelar por una, o una mezcla de gaussianas, se puede encontrar a travs de esta curva de ajuste la probabilidad de encontrar cierto valor o un rango de valores de una muestra tomada al azar por el rea bajo la curva entre los lmites de los valores para los cuales la probabilidad es requerida. El rea bajo la curva entre 220 Hz y 250 Hz se muestra sombreada en la figura (6.19). Es preciso para obtener el valor del

77

rea bajo la curva conocer la longitud de la base y la altura. Encontrar el valor de la base es fcil, y puede ser entendida como el valor absoluto de la diferencia de los lmites del intervalo, en la regin sombreada de la figura (6.19) ser entonces 250 220 = 30 . Encontrar la altura de la curva, la cual puede variar drsticamente, en varios puntos puede ser un poco ms complicado, y requiere mtodos de clculo que no sern demostrados ac. La altura de la curva en varios puntos es llamada densidad de probabilidad, cuya frmula se da en (6.14) Densidad de probabilidad (x ) = n 1 2 exp ( x x ) / 2 s 2 s 2

(6.14)

La frmula en (6.14) permite calcular la densidad de probabilidad de la curva en algn punto x situado en el eje de las abscisas, sta entregar el valor de la altura situado sobre el valor x . Se puede apreciar que el valor de la densidad de probabilidad depende de tres valores los cuales son: n (el nmero de muestras en la distribucin), s (la desviacin estndar) y x (la media). Utilizando la frmula en (6.14) y los datos de la figura (6.19), se puede encontrar la densidad de probabilidad centrada en los 220 Hz, utilizando n = 2304 mediciones, una media x = 181.5 Hz y una desviacin estndar s = 25.6 Hz, se tiene: Densidad de probabilidad (220 ) =
2 2 2304 0.399 2.718 (185.5 220 ) /( 225.6 ) = 11.6 25.6

Tomando en cuenta la densidad de probabilidad de 11.6 en el valor de 220 Hz, y el nmero de observaciones de frecuencia en el intervalo donde se encuentran los 220 Hz, es decir, entre 218.0 Hz y 227.4 Hz, lo cual dar 227.4 218 = 9.4, se tendr 9.4 11.6 = 109.04 observaciones dentro de este intervalo, por lo tanto, la probabilidad de encontrar un valor en este intervalo, sacando una muestra al azar, ser de 109.04 / 2304 = 0.047 , equivalente al aproximadamente 4.7% de la distribucin. Las 109.04 observaciones es una buena aproximacin, ya que si se ve el intervalo centrado en 122.7 Hz se tienen 100 observaciones. Se puede encontrar una mejor aproximacin utilizando tcnicas de clculo, el rea bajo la curva estar dada por la integral de la funcin gaussiana evaluada en el intervalo deseado. Esta frmula se da en (6.15).

n 1 2 exp ( x x ) / 2 s 2 s 2 a
b

n 1 2 exp ( x x ) / 2 s 2 = s 2 a
b

(6.15)

78

Donde a y b son los lmites del intervalo. Esta ecuacin puede ser bastante difcil de resolver por mtodos analticos, sin embargo, en la actualidad se cuenta con muchos softwares que pueden facilitar esta tarea [4].

79

7. COLOCANDO EN PRCTICA LA METODOLOGA BAYESIANA


A continuacin se mostrar cmo puede ser calculada la proporcin de verosimilitud a partir de muestras de habla. Se citarn ejemplos descritos por Rose, tomando y evaluando dos parmetros, uno fontico y otro acstico, extrados de muestras de habla.

7.1

PRONUNCIACIN ILEGAL DE VOCALES EN EL JAPONS

El primer ejemplo que se analizar concierne al llamado pronunciacin ilegal de vocales (illegal high vowel devoicing) en el japons estndar. Es bien conocido en el japons que la frontal y trasera vocal /i/ y /w/ pueden regularmente desaparecer bajo ciertas circunstancias bien definidas, por ejemplo, cuando estn en slabas que no poseen acento tnico y cuando estn rodeadas de consonantes mudas, por ejemplo, la palabra japonesa para persona es /hito /. Esta contiene la vocal alta frontal /i/ rodeada por las consonantes mudas /h/ y /t/, y adems la segunda slaba tiene el acento tnico (este viene a ser ), la slaba donde aparece la /i/ es inacentuada. Si se pronuncia cuidadosamente persona es [ito], con una [i], pero en el japons normal, la [i] desaparece: [to]. Esto es conocido como vowel devoicing. Esta es una caracterstica normal del japons estndar. Sin embargo, existen locutores que ocupan pronunciacin ilegal de vocales en circunstancias errneas, por ejemplo, la palabra Tokushima puede ser dicha como [tokw Eima] con una [w], aunque algunos locutores dicen [tokEima], sin [w]. La /w/ no ser pronunciada porque, aunque ocurre entre dos consonantes mudas, [k] y [E], ocurre tambin en una slaba con acento tnico. Suponiendo que se tienen dos muestras de habla japonesas en las que se desea hacer una comparacin forense basada en la cantidad de pronunciacin en palabras como Tokushima y doobutuen. Quizs todas las palabras de ambas muestra contienen pronunciacin ilegal, o slo el 50%, o ninguna. Cmo puede ser evaluada la similaridad? Kinoshita (2001: 13343) anot y calcul la incidencia de pronunciacin ilegal en dos palabras japonesas Tokushima y doobutuen para 11 hombres japoneses a travs de dos sesiones de grabacin. Esta es mostrada en la tabla (7.1). Las dos sesiones de grabacin fueron hechas separadamente en alrededor de quince das, y en cada sesin se registraron dos veces cada palabra pronunciadas de forma natural. Por ejemplo, 0% significa que ninguna palabra dentro de la sesiones present pronunciacin en /w/; 25% significa que una de las cuatro palabras present mala pronunciacin; 100% significa que las cuatro palabras en la muestra contenan pronunciacin en /w/.

80

Tabla 7.1 Muestra de los resultados de las dos grabaciones.

Locutores AA HA JN KA KF KH KO MN TN TS TY

Sesin de grabacin 1 25 100 100 100 50 0 50 0 75 100 75

Sesin de grabacin 2 25 100 75 75 75 0 50 0 75 75 75

Puede verse de la tabla (7.1) que existen entre los distintos locutores diferencias en la pronunciacin, como tambin existe una cierta cantidad de consistencia dentro del mismo locutor. Este cuadro, junto a la frmula para la proporcin de verosimilitud, puede ser usada para indicar la respuesta a la pregunta fontica-forense expuesta anteriormente: Cmo se evala un caso en que ambas muestras poseen igual cantidad de pronunciacin ilegal? Usando la frmula para la proporcin de verosimilitud, se tiene: LR = (probabilidad de observar la misma cantidad de pronunciacin ilegal en ambas muestras de habla asumiendo que ellas provienen de un mismo locutor) / (probabilidad de observar concordancia en pronunciacin ilegal asumiendo que las muestras provienen de distintos locutores). La tabla (7.1) muestra que 7 de los 11 locutores muestran consistencia en la cantidad de pronunciacin ilegal, lo cual entrega una probabilidad para el numerador de 64%. Con 11 locutores y dos sesiones hay 220 parejas de locutores distintos; 34 de stos, o alrededor del 15%, concuerdan en la cantidad de pronunciacin ilegal. Por lo tanto, la probabilidad de encontrar concordancia en pronunciacin ilegal asumiendo diferentes locutores ser alrededor de un 15%. La proporcin de verosimilitud de los datos ser de 64% / 15% = 4.3. Esto significa que es 4.3 veces ms probable encontrar similitud en pronunciacin ilegal si ambas muestras vienen del mismo locutor que si estas provienen de distintos locutores. El LR para observar una diferencia en la cantidad de pronunciacin entre muestras puede ser estimado de la misma forma. La probabilidad de observar discordancia en pronunciacin ilegal asumiendo un mismo locutor es 4 / 11 = 36%; la probabilidad de encontrar discordancia asumiendo distintos locutores es 186 / 220 = 85%. El LR para dos muestras mostrando diferentes grados de pronunciacin ilegal es 36% / 85% = 0.42.

81

Entonces se tendr, 1 / 0.42 = alrededor de 2.4 veces ms probable observar discordancia en pronunciacin ilegal si ambas muestras vienen de distintos locutores que si ellas vienen del mismo locutor. De acuerdo a estos datos, tomando en cuenta la concordancia en pronunciacin ilegal entre dos muestras, se encuentra el limitado soporte a la hiptesis fiscal de 4.3. Mientras que observando discordancia en pronunciacin ilegal, sta ofrece un limitado soporte para la defensa de 0.4 [4].

7.2

CLCULO PARA LA PROPORCIN DE VEROSIMILITUD CON DATOS CONTINUOS

Antes de entrar de lleno en el clculo de una proporcin de verosimilitud de datos continuos se deben tener claros algunos conceptos. Se debe entender que en la evaluacin de dos muestras, una indubitada y otra dubitada, frente a una caracterstica fontico-lingstica, o un parmetro acstico, no slo ser necesaria el tamao de la diferencia para buenos resultados de la evaluacin, sino que se necesita saber qu tan semejantes y qu tan tpicas son las muestras dentro de la poblacin de referencia. Si se tiene una muestra dubitada y otra indubitada que son comparadas en alguna caracterstica fontico-lingstica o acstica y la diferencia entre stas es cuantificada, en orden a evaluar las muestras en trminos de LRs , es necesario conocer dos cosas: una es la medida de la semejanza, que tan grande es la diferencia entre las muestras, lo otro ser una medicin de lo caracterstico de las muestras, qu tan tpico son los valores de esta caracterstica frente a una referencia del grupo de locutores. Ambos tipos de informacin pueden ser vistos segn un ejemplo empleado por Rose [4] de la siguiente forma: Suponiendo que las muestras dubitada e indubitada de un hombre australiano han sido medidas para un parmetro acstico, por ejemplo, la media de la distribucin a largo plazo de F0 , y en las cuales se ha encontrado una diferencia de 5 Hz, adems se conoce el promedio de la media de 120 Hz para un tipo australiano tpico, y que los valores de LTF0 estn normalmente distribuidos con una desviacin estndar de 20 Hz. Estos datos pueden haber sido obtenidos midiendo la media LTF0 de una larga lista de locutores australianos. A estos datos representativos de una poblacin se llamar la muestra de referencia, ya que es con la referencia de ellos que la diferencia entre las muestras dubitada e indubitada sern evaluadas. Una desviacin estndar sobre y debajo de la media de la distribucin normal de la poblacin es esperada con alrededor del 68% de los locutores, entonces alrededor del 68% de los locutores de la muestra de referencia tendr valores de LTF0 entre 100 Hz y 140 Hz, un 13% tendr valores menores a la media entre 80 Hz y 100 Hz, y otro 13% tendr valores

82

sobre la media entre 140 Hz y 160 Hz. Muy pocos se pueden esperar con valores menores a 80 Hz o superiores a 160 Hz. En trminos de rango de valores la diferencia de 5 Hz puede aparecer muy pequea, si se toman dos desviaciones estndar arriba y abajo de la media como un indicador de rango, la diferencia de 5 Hz aparecer como 5 / 80 = 0.0625, o sea alrededor del 6% del rango total de la muestra. La muestra dubitada e indubitada pueden ser muy similares en trminos de su LTF0, sin embargo, si la muestra indubitada fue de 120 Hz y la dubitada es de 125 Hz, su valor promedio aproximado puede ser de 123 Hz, que desde el punto de vista de la muestra de referencia es un valor muy tpico. Claramente las muestras dubitada e indubitada son muy similares, adems su tipicidad hace que la veracidad de la evidencia sea dbil en contra del sospechoso. Suponiendo ahora que los valores de la media para las muestras indubitada y dubitada son 80 Hz y 85 Hz respectivamente, dada la muestra de referencia con una media de 120 Hz y una desviacin estndar de 20 Hz, es obvio que las muestras dubitada e indubitada se encuentran en el extremo inferior de la distribucin. En trminos de probabilidad, ser altamente improbable para los dos valores ser encontrados al azar dentro de la poblacin. La evidencia en contra del sospechoso es ahora ms contundente. De los dos ejemplos anteriores, en los cuales se tena la misma diferencia entre las medias, se puede desprender que no tan slo debe ser conocida esta diferencia, sino que adems se debe contar con una medida de la tipicidad con respecto a una muestra de referencia. Estas ideas de semejanza y tipicidad sern abordadas desde un punto de vista cuantitativo, adems se explicar con mayor detalle el concepto de muestra de referencia [4].

7.2.1 Semejanza
Suponiendo que la voz de un delincuente, la cual presenta un ingls con acento australiano, ha sido registrada y medida con respecto a una caracterstica acstica particular, se tendr de estas mediciones una media y una desviacin estndar, tomando en cuenta que la voz del sospechoso tambin ha sido registrada y medida respecto a esta caracterstica acstica, adems se cuenta con la muestra de referencia de dicha poblacin. En primer lugar, es importante la diferencia entre las medias de las dos muestras. La estadstica bsica dice que: la valoracin de la semejanza tambin implica tomar en cuenta la distribucin de las muestras, adems dos muestras que estn separadas por una cantidad dada y tienen una gran coincidencia en su distribucin son ms similares que dos muestras separadas por la misma cantidad que no coinciden en su distribucin. Esta situacin es mostrada en la figura (7.1) (a) y (b), donde se muestran las distribuciones de dos pares de muestras dubitada e indubitada, cada distribucin es marcada

83

con una lnea curva C para la muestra indubitada y S para la dubitada y la media de cada una es denotada por C y S , respectivamente.
Figura 7.1 a) y b) muestran dos distribuciones con iguales diferencias de medias, sin embargo con distintas coincidencias en sus distribuciones.

La separacin de las medias de cada muestra es igual en ambas figuras, por lo tanto (C S )par ( a) = (C S )par (b) . Otra observacin de las figuras, es que las muestras en (b) tienen una gran coincidencia en su distribucin, la cual es mucho mayor al del par (a). Una interpretacin del alto grado de coincidencia en el par (b), es porque ambas muestras vienen del mismo grupo subyacente o poblacin, entonces el par (b) es ms similar que el par (a). El parmetro estadstico que cuantifica la diferencia de una distribucin es su desviacin estndar. Entonces, en trminos de evaluar la semejanza entre las muestras han sido tomadas en cuenta tanto la diferencia entre las muestras y la desviacin estndar, pudiendo entonces decir que las muestras mostradas en el par (b) son ms similares que las mostradas en el par (a). Dada la variacin intralocutor, es importante mencionar que a mayor cantidad de tems, se tendrn resultados ms confiables de la media y la desviacin estndar. Por ejemplo, si se tienen diez valores LTF0 de las conversaciones registradas del delincuente y diez de las registradas para el sospechoso es mejor que trabajar slo con un valor [4].

7.2.2 Tipicidad
Un factor muy importante para obtener un LR , es conocer qu tan tpicas son las medias de las muestras dubitadas e indubitadas, desde el punto de vista de la muestra de referencia. Es muy probable que estas medias sean cercanas a la media de la muestra de referencia, sin embargo, puede darse el caso en que ambas estn muy alejadas de esta media, lo que significa que las muestras no son tpicas, para dar una idea de esto pueden

84

ayudar las figura (7.2) (a) y (b). Estas figuras muestran ambas la misma distribucin normal (sealadas con las lneas curvas) de un parmetro acstico en particular.
Figura 7.2 Ilustracin del criterio de tipicidad para el clculo de la proporcin de verosimilitud. a) Menos tpico y b) ms tpico.

En estas figuras, representa la media de la muestra de referencia, y 2 indican el punto 1 y 2 de la desviacin estndar respectivamente arriba y abajo de la media de la muestra de referencia. La media de la muestra cuestionada y sospechosa, con respecto a la muestra de referencia son indicadas por C y S respectivamente, en ambos casos la diferencia entre las medias C y S son iguales, sin embargo su ubicacin dentro de la distribucin son distintas. En el caso (a) se tiene que las medias indubitada y dubitada se encuentran entre el punto 1 y 2 de las desviaciones estndar inferiores a la media de la muestra de referencia, mientras que en (b) se encuentran entre la media y el punto 1 de la desviacin estndar de la muestra de referencia. Un valor es mostrado entre la media indubitada y dubitada, y la distancia entre y la media de la muestra de referencia ( ) es una medicin de la tipicidad de las medias C y S . Un pequeo valor para indica ms tipicidad, al contrario si el valor de es grande, esto significa una menor tipicidad. Entonces en las figuras (7.2) se tiene una menor tipicidad en el caso (a) que en el caso (b) [4].

85

7.2.3 Una frmula para la proporcin de verosimilitud


En esta seccin es introducida una frmula para la proporcin de verosimilitud de datos continuos, sta es mostrada en la ecuacin (7.1), ejemplos de este tipo de datos, pueden citarse la frecuencia fundamental o los formantes. Esta frmula es usada en el libro de Aitken del ao 1995 llamado Statistics and the Evaluation of Evidence for Forensic Scientists, para demostrar el clculo de un LR que compara ndices refractivos de fragmentos de vidrio de una ventana rota por un delincuente, con los fragmentos encontrados sobre un sospechoso.
( x y )2 (w )2 ( z )2 exp exp + LR = 2 2 a 2 2 2 2a
Trmino de semejanza Trmino de tipicidad

(7.1)

x = Media de la muestra indubitada. y = Media de la muestra dubitada. = Media de la muestra de referencia. = Desviacin estndar promedio de la muestra dubitada e indubitada. = Desviacin estndar de la muestra de referencia. z = (x + y ) / 2 . w = (mx + ny ) / (m + n ) . m = Nmero de tems en la muestra indubitada. n = Nmero de tems en la muestra dubitada. a = 1/ m + 1/ n .

La frmula mostrada en (7.1) es bastante confusa y no se profundizar en su demostracin, sin embargo, es necesario conocer como est constituida esta frmula, adems de conocer que partes de ella contribuyen en la semejanza y tipicidad. Analizando la ecuacin (7.1), puede apreciarse que el LR est constituido por el producto de tres cantidades, las dos ltimas son los trminos que entregan la cuantificacin de la semejanza y la tipicidad respectivamente. Aqu (x y ) en el trmino de semejanza, representa la diferencia en las medias de las muestras dubitada e indubitada, y las partes que representan la distancia entre las medias de las muestras dubitada e indubitada con la media general. En el trmino de tipicidad estn dados por (w ) y (z ) , donde z es la media promedio entre la muestra cuestionada y sospechosa y es la media de la muestra de referencia. El primer trmino en la ecuacin (7.1), muestra la cantidad de variacin entre la desviacin estndar de la muestra de referencia ( ) y la desviacin estndar de la indubitada y dubitada muestra ( ), expresada en la razn / . La a en el denominador a es un trmino de ajuste por el nmero de tems en la muestra dubitada e indubitada [4].

86

7.2.4 Aplicando la frmula para la proporcin de verosimilitud


En el punto anterior se dio una frmula para el LR , a continuacin se mostrar un ejemplo para la aplicacin de la ecuacin (7.1). Es necesario destacar que para este fin se ha tomado en cuenta una precaria muestra de referencia la cual no es representativa de la poblacin chilena, sin embargo, ser de gran utilidad en orden a clarificar varios puntos de este trabajo.

7.2.4.1 Muestra de referencia


La muestra de referencia fue hecha con 37 mujeres chilenas adultas, cuyas edades fluctuaban entre 25 y 45 aos. Este rango de edad fue elegido por simplicidad y por la estabilidad alcanzada en parmetros fonticos en estas edades segn Carlos Delgado [11]. El parmetro elegido fue F2 en dos fonemas del espaol chileno. Los fonemas son /o/ y /a/ extrados de la palabra hola. Las sesiones de grabaciones se realizaron con ayuda del software Cool Edit Pro 2.0, el anlisis de dichas muestras con el software Pratt 4.4.28 y el anlisis estadstico mediante SPSS 10.0. En la figura (7.3) puede apreciarse el histograma para F2 del fonema /o/ de la palabra hola en la poblacin de referencia. Este histograma muestra adems su gaussiana asociada, as como tambin su media y desviacin estndar, las cuales muestran valores de 1505.2 Hz y 142.61 Hz respectivamente. En la figura (7.4) se tiene el histograma para F2 del fonema /a/ de la palabra hola en la poblacin de referencia. Puede verse en la figura, un histograma muy asimtrico, esto en gran parte puede deberse a que se requiere un mayor nmero de muestras para lograr una caracterizacin adecuada para esta muestra de referencia. Sin embargo, para este ejemplo slo se centrar la atencin en la media y desviacin estndar, cuyos valores son 2140.1 Hz y 233.92 Hz respectivamente. Una tabla que muestra con mayor detalle los valores obtenidos de cada fonema y de cada mujer, en la muestra de referencia, puede encontrarse en el anexo 1.

87

Figura 7.3 Histograma para F2 del fonema /o/ de la palabra hola, dicho por 37 mujeres de entre 25 y 45 aos.

Figura 7.4 Histograma para F2 del fonema /a/ de la palabra hola, dicho por 37 mujeres de entre 25 y 45 aos.

88

7.2.4.2 Resultados, muestras dubitadas e indubitadas


Es tiempo de comprobar la utilidad de la ecuacin (7.1), para ello es necesario contar con una muestra de voz dubitada, la cual se denominar VD. Adems, se requiere por lo menos una muestra indubitada. Para este ejemplo, se utilizaron dos muestras indubitadas las cuales sern llamadas JX y PC. Para las tres muestras (VD, JX y PC) fueron tomados 7 palabras (hola), de las cuales se obtuvieron los valores de F2 para los fonemas /o/ y /a/. En la tabla (7.2) pueden verse los valores obtenidos para la media y desviacin estndar de cada muestra.

Tabla 7.2 Muestra de los resultados para la media y desviacin estndar de F2, obtenidos para las muestras VD, JX y PC.

Locutores
VD JX PC

Media F2 /o/ 1543,9 1693,4 1568,3

Desviacin estndar F2 /o/ 231,14 157,34 146,41

Media F2 /a/ 2015,7 2007,3 1947,6

Desviacin estndar F2 /a/ 199,17 290,64 225,31

La obtencin de estos valores pueden ser vistos y analizados con mayor detalle consultando el anexo 2. La muestra JX y PC fueron comparadas con la muestra dubitada VD, evaluadas mediante la formula para un LR (ecuacin (7.1)), con los datos de media y desviacin estndar de las muestras indubitadas de la tabla (7.2), con la media y desviacin estndar de la muestra de referencia y con 7 = nmero de muestras, los resultados de esta comparacin pueden ser apreciados en la tabla (7.3).
Tabla 7.3 Muestra de los resultados de la comparacin de las muestras JX y PC con respecto a la muestra dubitada VD. Los valores de media y desviacin estndar de F2 /o/ de la muestra de referencia son 1505.2 Hz y 142.61 Hz respectivamente, mientras que para F2 /a/ son 2140.1 Hz y 233.92 Hz.

Locutor JX PC

Parmetro F2 /o/ F2 /a/ F2 /o/ F2 /a/

LR

0.67 2.07 1.46 2.17

Combinacin de LRs 1.39 3.17

89

De la tabla (7.3) pueden extraerse algunas conclusiones: si bien es cierto PC presenta una mayor probabilidad de ser la voz en la muestra dubitada, esta probabilidad no es concluyente. Debe recordarse que las muestras fueron evaluadas frente a un solo parmetro. Adems, puede verse que JX presenta una mayor probabilidad para el F2 /a/, casi igualando a PC en el LR . Sin embargo, como se coment mas arriba, este parmetro presenta una gran asimetra en el histograma de la poblacin de referencia, por lo que es probable encontrar mrgenes de error mayores. Finalmente, observando la combinacin de LRs , PC tiene una probabilidad 3.17 veces mayor de ser la voz registrada en VD, a que no lo sea, mientras JX tiene una probabilidad de 1.39 veces mayor de ser la voz registrada en VD, a que no sea. En este ejemplo, la voz registrada en PC, era la voz registrada en la muestra dubitada VD.

90

8. ALGORITMOS DE CLASIFICACIN UTILIZADOS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES EN SISTEMAS AUTOMTICOS


Los algoritmos utilizados en reconocimiento forense pueden ser clasificados segn la forma en que los patrones calculados son representados. En este sentido Campbell [1997] define dos tipos: algoritmos de plantilla y modelos estocsticos. A continuacin, se describe la lgica de como funcionan algunos de stos.

8.1

ALGORITMOS DE PLANTILLA

Los modelos de plantilla funcionan sobre la base de que un vector de prueba es una rplica de una plantilla, para calcular la puntuacin (match), que equivale a la similaridad entre el vector a evaluar y la plantilla, se mide la distancia entre stos. Entre los modelos ms importantes de este tipo se encuentra el Alineamiento Temporal Dinmico (DTW) y la Cuantizacin Vectorial (VQ) [5].

8.1.1 Alineamiento temporal dinmico (DTW)


El alineamiento temporal dinmico o en ingls dynamic time warping (DTW) es un modelo de plantilla utilizado en algunos sistemas automticos de identificacin forense de locutores dependientes de texto. Bsicamente, compara el vector generado de una secuencia T (t1 , t 2 ,..., t N ) con el vector generado por la secuencia R(r1 , r2 ,..., rM ) , calculando la distancia acumulada de las dos secuencias. Se debe tener en cuenta que aunque los dos vectores corresponden a un mismo texto ninguna seal hablada es igual a otra, por lo tanto, la longitud del vector T es distinta a la longitud del vector R . Lo que har entonces el sistema es deformar el eje del tiempo de una o ambas seales alinendolas y minimizando la distancia entre ellas, de aqu el nombre de alineamiento temporal dinmico. Este procedimiento obviamente afecta la proporcin de variabilidad del locutor. Si las dos seales son idnticas, entonces la trayectoria entre ellas es diagonal. La distancia medida es la desviacin acumulada de la diagonal. Para lograr una alineacin de las seales se procede de la siguiente forma: se necesita una funcin que relacione las N muestras de la seal de entrada con las M de la plantilla, minimizando la distorsin entre ambas. La funcin ser m = W (n ) , que debe cumplir con las siguientes condiciones:

91

W (1) = 1 W (N ) = M

Dadas las dos secuencias de entrada, W (n ) es el camino de alineamiento ptimo entre las dos seales y se obtiene resolviendo la ecuacin (8.1): N D = min d [Tn , RW (n ) ] n =1 (8.1)

entre el instante n de la secuencia de entrada y el instante W (n ) de la plantilla. D es la distancia acumulada entre el camino optimo W (n ) entre T y R , y es la base para la puntuacin resultante.

Donde d [Tn , RW (n ) ] es la distancia (en general esta se trata de la distancia euclidea)

Esta metodologa es bastante limitada en aplicaciones reales de reconocimiento forense de locutores, ya que en la mayora de los casos se cuenta con registros a comparar independientes de texto [5]; [12].

8.1.2 Cuantizacin vectorial (VQ)


La cuantizacin vectorial es una forma de algoritmo de plantilla que usa varias plantillas en orden a representar diferentes marcos de anlisis de la seal de habla. Basados en aprendizaje no supervisado, un algoritmo agrupa las muestras de habla en un vector code-book, que es usado para representar al locutor, para luego ser enviado al sistema de verificacin. Entre los algoritmos ms conocidos para agrupar los vectores de caractersticas se encuentran Linde-Buzo-Gray (LBG) y learning vector quantization (LVQ). Algunos de los primeros trabajos en reconocimiento de locutores, usando la tcnica de cuantizacin vectorial, fueron hechos por Soong (1985) quien observ que un conjunto de muestras de voz de corta duracin pueden ser usadas para caracterizar acstica, fonolgica y sicolgicamente un locutor, si el conjunto de entrenamiento incluye suficiente variacin. Los sistemas basados en la cuantizacin vectorial dividen los vectores de caractersticas de cada individuo en un conjunto de regiones convexas mutuamente exclusivas, todos los vectores dentro de la particin son representados por el centroide de cada vector. La generacin del code-book se har entonces al encontrar la particin que provoque una distorsin mnima. El conjunto de centroides es llamado el vector code-book, el cual representar al locutor. Estos code-book son considerablemente menores en

92

dimensin que la seal que est siendo modelada. La cuantizacin vectorial resulta particularmente til, en situaciones donde se cuenta con poca memoria, ya que las dimensiones del code-book son pequeas. Se ha observado que el tamao del code-book, que puede ser arbitrario segn se requiera, influye en la exactitud del algoritmo. Incrementando el tamao de ste, se observa un decrecimiento del margen de error del sistema. Como con otros patrones de reconocimiento, incrementar el nmero de parmetros requiere modelar los datos, esto puede traer como consecuencia el aprendizaje de los datos por el sistema, y no estar extrayendo una caracterstica general del locutor. En reconocimiento de locutores en general, se trabaja con code-book que poseen entre 32 y 64 centroides. Finalmente, se tiene la etapa de decisin, aqu el sistema comparar el vector de caractersticas de una voz desconocida, midiendo la distancia de sta a cada uno de los code-book. La puntuacin ser la distancia acumulada mnima. Para un code-book (C ) , de N marcos de habla (x1 ,..., x N ) est dado por la ecuacin (8.2).
z = min (d ( xi , xc )) .
i =1 xc C N

(8.2)

La distancia medir la similaridad entre el sonido de prueba y el modelo del locutor inscrito [5].

8.2

MODELOS ESTOCSTICOS

Los modelos estocsticos utilizan patrones estadsticos para entregar las puntuaciones finales calculadas o match, adems, trabajan sobre la suposicin de que el vector de prueba con los datos del entrenamiento provienen del mismo proceso. Los ms importantes de este tipo son: modelo de mezclas gaussianas (GMM) y los modelos ocultos de Markov (HMM) [5].

8.2.1 Modelo de mezclas gaussianas (GMM)


Suponiendo que se cuenta con una muestra de habla la cual se denominar segmento de voz X , y se tiene un posible locutor S . Se desea saber si S gener la locucin X . Una respuesta afirmativa o negativa desde el plano de estudio tratado es imposible establecer, por lo tanto se debe llevar la investigacin al plano de la probabilidad, formulando las siguientes dos hiptesis: H 0 : X fue generada por el locutor S .

H 1 : X no fue generada por el locutor S .


Segn el criterio de la proporcin de verosimilitud se tendr:

93

LR =

p( X / H 0 ) . p( X / H 1 )

En un sistema automtico se debe declarar un umbral, para el cual un LR mayor a ste acepte la hiptesis H 0 y de lo contrario acepte la hiptesis H 1 , por lo tanto es

sumamente importante la forma de encontrar las probabilidades p( X / H 0 ) y p( X / H 1 ) . Para llevar a cabo esta tarea existe una diferencia entre los sistemas dependientes e independientes de texto. Para los primeros se suelen utilizar modelos ocultos de Markov (HMMs), ya que se tiene informacin a priori de lo que se dijo, esta informacin puede ser incluida mediante este mtodo. Para sistemas independientes de texto, la eleccin ms acertada es la utilizacin de modelos de mezclas gaussianas (GMMs), dada la no existencia de informacin a priori. El uso de GMMs en identificacin forense de locutores fue descrito por primera vez por Reynolds y Rose en una serie de artculos en el ao 1990, desde este ao hasta la fecha se ha librado una competencia en publicaciones, congresos y aplicaciones en sistemas automticos utilizando GMMs. Los sistemas automticos basados en GMMs, asumen que la probabilidad de una hiptesis estar dada por una mezcla de distribuciones gaussianas, por lo tanto, para un vector de caractersticas x y de dimensin D , la densidad mezcla de gaussianas como funcin de verosimilitud, estar dada por (8.3):
p (x / ) = wi pi ( x )
i =1 M

(8.3)

Observando la frmula, se tiene una suma ponderada de las M densidades componentes, siendo wi el peso de cada de una de ellas. Cada gaussiana est dada por (8.4):

pi (x ) =

(2 )

D/2

1/ 2

1 T 1 exp ( x i ) ( i ) (x i ) . 2

(8.4)

Donde i es el vector de medias de dimensin D 1 y i es la matriz D D de covarianzas. De este modo, cada locutor ser representado por un modelo de mezclas de gaussianas que se denotar = {wi , i , i } con i = 1,2,..., M .

94

En algunos casos en los que se prefiere trabajar con verosimilitud logartmica, para un vector de N caractersticas X = ( x1 ,..., x N ) con respecto a un modelo la probabilidad condicionada estar dada por (8.5):

log p( x / ) =

1 N

log p(x
N j =1

/ )

(8.5)

Este procedimiento es independiente de la duracin de la muestra de habla, por lo tanto lo hace ideal para sistemas independientes de texto [5]; [12].

8.2.1.1 Modelo Universal (UBM)


Para lograr construir un sistema independiente de texto es necesario construir un modelo, independiente de locutor, para un clculo de puntuaciones en el que basarse al hacer una evaluacin de una hiptesis. El procedimiento ms extendido para lograr este objetivo es reunir locuciones de sujetos que caractericen una poblacin de locutores a los cuales se desea reconocer, y entrenar con todas stas un modelo. A este modelo se le denomina modelo universal o universal background model (UBM). No existe informacin exacta con respecto a las horas de grabacin de un usuario o con respecto al nmero de stos, con los que se debe entrenar el modelo. Sin embargo, resultados estadsticos demuestran no existir ningn empeoramiento al hacer un entrenamiento del modelo con 1 hora de grabacin con respecto a 6 horas. Tomados los datos, existen varios caminos por los cuales se puede llegar al modelo final, en este trabajo se har referencia a dos: el algoritmo EM estimacin-maximizacin (Expectation-Maximization) y mediante el mtodo de adaptacin mxima a posteriori (Maximum a posteriori adaptation) (MAP) [5]; [12].

8.2.1.2 Adaptacin de un modelo al locutor mediante el algoritmo EM


Este es el mtodo tradicional de adaptar un modelo a un locutor mediante estimaciones de mxima verosimilitud (Maximum Likelihood), el algoritmo correspondiente para llevar a cabo esta tarea se denomina EM estimacin-maximizacin (Expectation Maximization). En este algoritmo se busca ir mejorando iterativamente los parmetros del GMM para que aumente la probabilidad de generar el vector de caractersticas X dado el modelo, entonces se tiene que para las iteraciones k y k + 1 se cumple: p X / (k +1) p X / (k )

) (

95

8.2.1.3 Ajuste de un modelo al locutor utilizando adaptacin bayesiana (MAP)


Los sistemas basados en GMMs pueden ser entrenados utilizando el mtodo descrito anteriormente, para esto se requiere contar con suficiente cantidad de datos para crear el modelo. Existe otra manera de crear un modelo estadstico, esto es sumamente til cuando estn disponibles pocos datos de la etapa de entrenamiento. Para superar este problema se recurre a la adaptacin mxima a posteriori o tambin llamada adaptacin bayesiana o adaptacin MAP (Maximum a Posteriori). Este mtodo tiene la capacidad de adaptar un UBM entrenado con locutores, los cuales no son representativos de la poblacin que se desea evaluar. Este UBM es un largo modelo de mezclas gaussianas, que est entrenado con una gran cantidad de datos, los cuales tienen la capacidad de compensar los distintos tipos de habla que pueden ser encontrados por el sistema durante el entrenamiento. Esto se refiere a distintos tipos de habla a factores como: diferentes condiciones de canal, composicin de locutores, condiciones acsticas, etc. El orden de estas GMMs suele encontrarse entre 512 y 2048. Las operaciones que realiza este mtodo son descritas a continuacin. Para cada mezcla i del UBM, Pr (i / xt ) es calculada mediante la ecuacin (8.6).
Pr (i / xt ) = wi pi ( xt ) M j =1 w j p j ( x t )

(8.6)

y pi (x ) = 1 e
1 1 t ( x i ) ( i ) ( x i ) 2

(2 )D / 2 i 1 / 2

(8.7)

Usando Pr (i / xt ) , pueden obtenerse suficientes parmetros estadsticos, necesarios para calcular el peso, la media y la varianza.
ni = Pr (i / xt )
t =1 T

(8.8)

E i ( x) =

1 ni 1 ni

Pr(i / x )x
t =1 t T t

(8.9)

Ei x 2 =

( )

Pr(i / x )x
t =1

2 t

(8.10)

96

Estos nuevos parmetros estadsticos calculados de los datos de entrenamiento sern i ) , medias ( i ) y varianzas ( i2 ) estarn usados para adaptar el UBM, los nuevos pesos ( dados por: i = [ i ni / T + (1 i ) i ] i = i Ei ( x) + (1 i ) i
i2 = i E i ( x 2 ) + (1 i )( i2 + i2 ) i2

(8.11) (8.12) (8.13)

Los coeficientes de adaptacin i controlan el balance de los parmetros estimados entre el antiguo y nuevo modelo. Un factor de escala es usado, para asegurar que la suma de pesos de las nuevas mezclas tiendan a 1.

i =

ni ni + r

(8.14)

Donde r es un factor de relacin fijo, el cual determina la extensin de los parmetros estimados viejos y nuevos [5]; [12].

8.2.2 Modelos ocultos de Markov (HMM)


Los modelos ocultos de Markov (HMM) son una forma de modelo estocstico que han sido utilizados con xito en reconocimiento de locutores dependientes de texto. La teora bsica de los modelos ocultos de Markov fue introducida por primera vez por Baum y sus colaboradores en una serie de artculos entre los aos 1966 y 1972. La base de esta metodologa consiste en que cada palabra de una muestra de habla es generada por un modelo de Markov, el que consiste en una serie finita de estados interconectados por probabilidades de transicin. Cada vector de caractersticas tiene cierta probabilidad de mantenerse en el estado actual o avanzar al siguiente. Por otro lado, cada estado tiene su propia probabilidad o densidad de probabilidad de observar un vector de caractersticas. En la fase de entrenamiento es generado el modelo que caracteriza a cada locutor, maximizando la probabilidad de la observacin dado el modelo. Entonces, el modelo generado puede ser descrito mediante (8.15).

j = ( A, B, )

(8.15)

97

Donde A = {aij } es la matriz de probabilidades de transicin, B = b j (k ) es la matriz de probabilidades de la observacin y es la probabilidad que cada estado sea el primero. El clculo de las matrices A , B y se realiza a travs del algoritmo Baum-Welch o mtodos de gradiente, pero no se obtendr el ptimo, sino mximos locales. Para encontrar la similitud entre una muestra de habla conocida y otra desconocida, se proceder mediante la distancia entre una observacin y un modelo de hablante conocido. La observacin corresponde a un vector de caractersticas basado en coeficientes cepstrales y el modelo de locutor conocido es el modelo oculto de Markov. La distancia corresponde a una densidad de probabilidad, la que es dada en (8.16).
P ( S i = S j / O, j )

(8.16)

Donde S i es el hablante desconocido, S j el hablante conocido, O es el vector de observaciones, siendo cada una de ellas una serie de coeficientes cepstrales y es el modelo del hablante conocido [8].

8.3

TCNICAS ALTERNATIVAS USADAS PARA EL RECONOCIMIENTO FORENSE DE LOCUTORES

8.3.1 Redes neuronales artificiales


Las redes neuronales son clasificadores insupervisados, usados para aprender complejas correspondencias entre entradas y salidas, y que han sido usadas frecuentemente en reconocimiento de locutores. El perceptrn multicapa (MLP) es una popular red neuronal que esta constituida por una capa de entrada, una o mas capas ocultas y una capa de salida. El entrenamiento de un MLP se realiza usualmente usando un algoritmo de gradiente iterativo conocido como back-propagation. El MLP puede ser entrenado para encontrar la posterior probabilidad de diferentes clases, esta probabilidad ser P(q k / x n ) para un vector de prueba x n perteneciente a la clase q k . Para un grupo de N locutores, un sistema basado en MLP proceder de la siguiente forma. La entrada ser el vector de caractersticas correspondiente al locutor i , y la salida (target) ser un vector de longitud N , y cuyo componente i ser un 1, mientras los restantes N 1 elementos sern ceros. Una de las principales dificultades de entrenar un MLP con una gran cantidad de locutores, es que se tendr una gran cantidad de vectores con elementos 0, y muy pocos componentes 1, esto har que el sistema est ms predispuesto a entregar 0 para los vectores de prueba. Una red neuronal puede aprender correspondencias no lineales entre las caractersticas de un locutor y la identidad del locutor (representado en el vector target), y cuando un vector de prueba es dado como entrada, el sistema arrojar el vector target que

98

posea la mayor probabilidad. Adems la red neuronal entregar la probabilidad posterior P(q k / x n ) , entonces se puede encontrar la probabilidad P( x n / q k ) conociendo la probabilidad a priori P(x n ) y P(q k ) . Una de las dificultades del uso de una red neuronal es que la probabilidad posterior no puede ser usada directamente para una interpretacin bayesiana. En casos forenses reales se desea evaluar P( x n / q k ) , entonces el uso de una red neuronal no servir si no se conoce tanto P(x n ) como P(q k ) [5].

99

9. TRABAJOS REALIZADOS EN CHILE EN RECONOCIMIENTO DE LOCUTORES CON FINES FORENSES


9.1 LA EVIDENCIA DE LA PRUEBA DE VOZ DE CARA A LOS TRIBUNALES CHILENOS

A partir del ao 2000 comienza una serie de cambios en el proceso penal chileno conforme a lo que ser la reforma procesal penal. Entre las nuevas caractersticas de este sistema pueden encontrarse: desconcentracin de funciones (imparcialidad del juzgador), oralidad, inmediacin, contradiccin y publicidad. El nuevo modelo pretende encontrar una verdad formal, en reemplazo del antiguo modelo donde se buscaba una verdad material. Esta verdad se alcanza mediante los medios de prueba ya sean estos instrumentos o testigos. En Chile opera el sistema de libertad probatoria, en respuesta al sistema acusatorio que se tiene. Los artculos que entregan una idea de lo que se quiere decir con libertad probatoria son: el Artculo 295 CPP y el Artculo 323, los cuales sealan: Artculo 295 CPP: todos los hechos y circunstancias pertinentes para la adecuada solucin del caso... Podrn ser probados por cualquier medio producido e incorporado en conformidad a la Ley... Artculo 323 podrn admitirse como pruebas pelculas cinematogrficas, fotografas, video, grabaciones y otros sistemas de reproduccin de la imagen y del sonido... Y, en general, cualquier medio apto para producir fe Con respecto a la admisibilidad de la evidencia de voz por parte de los tribunales chilenos, podemos encontrar una referencia en el Artculo 297 el cual dice: Artculo 297: los tribunales apreciarn la prueba con libertad, pero no podrn contradecir los principios de la lgica, las mximas de la experiencia y los conocimientos cientficamente afianzados. En conformidad a la libertad hacia los jueces reflejada en el Artculo 297, de decidir acerca de la admisibilidad de la evidencia de voz, stos deben incluir en su sentencia una reproduccin de los razonamientos que le permitieron lograr sus conclusiones jurdicas contenidas en ella.

100

De lo visto en esta seccin, se puede extraer para la admisibilidad de la evidencia de voz una cierta correspondencia con Las Leyes Federales Norteamericanas citadas en el captulo 2, las cuales entregan la libertad a los jueces de decidir respecto a la evidencia cientfica presentada, siempre que el responsable de las pericias acredite su competencia en la materia [7]; [10].

9.1.1 Con respecto al perito


Los tribunales chilenos considerarn perito a aquellas personas que: cuentan con una experticia especial en un rea del conocimiento derivada de sus estudios o especializacin profesional, del desempeo de ciertas artes o del ejercicio de un determinado oficio. La tarea del perito ser entonces, aportar conocimientos ms all de los que posee el juzgador en un determinado caso. Los artculos que regulan la funcin del perito se encuentran entre los artculos 314 al 322 del CPP. En particular el artculo 314 establece: Artculo 314 CPP: procede informe de peritos en los casos sealados por la ley y siempre que para apreciar algn hecho o circunstancia relevante para la causa fueren necesario o convenientes.... En estos informes y pericias, el juez de garanta puede limitar el nmero de peritos que pueden participar de los procesos, con el fin de que la cantidad de peritos no sea excesivo o entorpezca el curso del proceso. Los honorarios del perito y gastos derivados de su actividad, sern de responsabilidad de la parte que decide presentar dicho perito. Sin embargo, el juez puede decidir el apoyo econmico hacia alguna parte excepcionalmente cuando ste considere que dicha parte no cuenta con los medios necesarios para solventar los gastos de un peritaje. Adems, el juez puede limitar el pago de honorarios a un perito segn el valor del mercado. La incapacidad de ser perito queda expresada en el artculo 317 del CPP, el cual dice: Artculo 317: No podrn desempear las funciones de peritos las personas a quienes la ley reconociere la facultad de abstenerse de prestar declaracin testimonial. Otro aspecto importante es la posible situacin de inhabilidad de un perito, la cual segn el artculo 318 no puede darse. No obstante, las partes pueden llamar a declarar al perito, si lo estiman conveniente, durante el juicio oral y dirigir preguntas respecto a su proceder, en aspectos tcnicos y cientficos de sus conclusiones, e incluso con respecto a los honorarios por los servicios prestados, en orden a establecer su imparcialidad [7]; [10].

101

9.1.2 Acerca del informe pericial


Desde el punto de vista legal podrn presentar informes de peritos todas las partes involucradas en un caso, en donde sean necesarios o convenientes conocimientos especiales de una ciencia, arte u oficio. Adems el tribunal puede requerir la presentacin de la persona quien realiz el peritaje segn estime conveniente. El contenido de estos informes queda resumido a continuacin: a) La descripcin de la persona o cosa que fuere objeto de l, del estado y modo en que se hallare; b) La relacin circunstanciada de todas las operaciones practicadas y su resultado, y c) Las conclusiones que, en vista de tales datos, formularen los peritos conforme a los principios de su ciencia o reglas de su arte u oficio. Esta descripcin de los antecedentes que debe poseer un informe pericial son bastante generales y estn plasmadas en el artculo 315 del CPP [7]; [10].

9.2

ALGUNOS GRUPOS TRABAJANDO EN CHILE

Sin duda, los antecedentes respecto a personas o instituciones que han realizado algn trabajo o investigacin en reconocimiento forense de locutores en Chile, son muy escasos, pudiendo identificar solamente cuatro focos donde de alguna manera se ha abordado en algn aspecto esta materia, los cuales son: a) Miembros de la seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile. b) Miembros pertenecientes a la Universidad de Chile. c) Miembros pertenecientes a la Universidad Austral de Chile. d) Peritos particulares. De los cuatro grupos anteriormente nombrados, se puede decir, con certeza que el trabajo ms intenso en el campo de estudio tratado, es el abordado por los profesionales pertenecientes a la seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile. A continuacin se describir en parte el trabajo realizado por estos grupos.

102

9.2.1 Seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile


La seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile tiene su origen el 13 de Agosto del ao 2003, creada por Orden General N1971. Esta seccin tiene su ubicacin inicial en el Laboratorio de Criminalstica central de Santiago, ubicado en General Mackenna N 1314 Santiago, Chile, y su dotacin inicial estaba compuesta de cuatro profesionales. En junio del ao 2005 es agregada audiovisual, la cual viene a complementar las tareas hechas por esta seccin, agregando nuevos elementos probatorios y mtodos de identificacin. La funcin de esta seccin es apoyar a los tribunales, al Ministerio Pblico y a las diversas ramas de la polica en todo lo que le compete, pudindose identificar tres principales directrices de trabajo que son: el anlisis de voz, el anlisis de grabaciones y la mejora de calidad de registros sonoros. El trabajo de los peritos que componen esta seccin en el mbito de anlisis de voz, comprende en realizar las pericias de verificacin e identificacin de locutores en muestras de habla aportadas por los tribunales, Ministerio Pblico o unidades o brigadas especializadas de la polica. Adems, deben acudir a los juicios orales cuando se les solicite, con el fin de explicar los antecedentes de la pericia que se ha realizado. Un factor muy importante en el trabajo de esta seccin, es la incorporacin a sus herramientas de trabajo de sistemas automticos para realizar las pruebas de verificacin e identificacin de voz, en este sentido, puede decirse que esta seccin posee la categora de pionera en Chile al respecto. Durante la existencia de la seccin sonido han sido utilizados dos sistemas automticos. El primero de ellos, es el sistema ALIZE del proyecto Mistral, el cual fue puesto en funcionamiento durante el ao 2004. En el ao 2006 el sistema Batvox de la firma Agnitio reemplaz al antiguo sistema ALIZE y al alero de este ltimo sistema continan trabajando en la actualidad. A continuacin se volcar la atencin hacia algunas caractersticas de estos sistemas automticos [7]; [13]. El sistema ALIZE ALIZE es un software plataforma, desarrollado para aplicaciones de habla en el campo de reconocimiento de locutores. ALIZE es desarrollado en el Laboratoire d'Informatique d'Avignon (LIA) por Frdric Wils bajo la direccin de Jean Franois Bonastre desde febrero 2003, al alero del proyecto Mistral.

103

Mistral es un proyecto fundado por la Agencia Nacional de Investigacin Francesa, cuyo principal objetivo es facilitar el acceso de tecnologa biomtrica (gentica, huellas dactilares, iris, voz, etc.) para usos acadmicos (centros de educacin o investigacin) e industriales. Para lograr este objetivo, Mistral proporciona una plataforma maestra capaz de manejar diversas perspectivas biomtricas en distintos ambientes, adems esta plataforma se encuentra disponible para diferentes sistemas operativos: Linux , Windows, Mac OSX [14]. El Sistema Batvox A partir del ao 2006 la Polica de Investigaciones de Chile incorpora a sus tecnologas el sistema Batvox, el cual es un sistema automtico de reconocimiento de locutor basado en paradigmas biomtricos. Batvox es un sistema independiente de texto e idioma desarrollado por Agnitio, empresa especializada en la creacin de productos para la gestin y verificacin de identidades usando tecnologa de biometra de voz. Agnitio es fundada en el ao 1994 por Joaqun Gonzlez Rodrguez y Javier Ortega Garca, quienes comienzan a desarrollar tecnologa biomtrica de voz en la Universidad Politcnica de Madrid en estrecha colaboracin con organizaciones de seguridad espaolas. Entre los productos que esta compaa ofrece en la actualidad se encuentran: Batvox, Kivox, ASIS y BS3. Muchos organismos de seguridad se encuentran hoy utilizando el sistema Batvox y otros productos de la compaa Agnitio, cabe destacar: Polica Nacional de Espaa, Guardia Civil de Espaa, Ministerio de defensa de Espaa, Polica de Investigaciones de Chile, Polica Nacional de Francia, Instituto Forense de Holanda, Polica de Colombia, entre otros. Adems, tiene vnculos de cooperacin con varias entidades comerciales, algunas de renombre internacional [9]. Aspectos tcnicos de Batvox Batvox es un sistema biomtrico utilizado en reconocimiento forense de locutores, basado en modelos de mezclas gaussianas, con parametrizacin en base de coeficientes cepstrales de Mel. Los resultados proporcionados por el sistema son establecidos por proporciones de verosimilitud. En orden a entregar una proporcin de verosimilitud dadas dos muestras de habla, dubitada e indubitada, Batvox se basa en una comparacin de parmetros extrados de ambas muestras y entregando resultados en base a una metodologa bayesiana. El funcionamiento de Batvox puede resumirse en cuatro etapas, las cuales pueden observarse en el esquema mostrado en la figura (9.1).

104

Figura 9.1 Esquema de trabajo de Batvox.

Seal de voz

Parametrizacin

Clculo de similitudes

Entrega de resultados

A continuacin se explicarn brevemente cada una de estas etapas. La primera etapa se refiere a la entrada de muestras de voz, en un formato digital, las cuales deben ser editadas de manera que no se escuchen silencios en la muestra, adems el sistema requiere que la seal de voz en la muestra presente una diferencia de al menos 20 dB con el ruido de fondo. La parametrizacin de la seal se lleva a cabo de la siguiente forma: Primero se basa en la idea de reduccin de informacin necesaria, adems esta informacin debe ser tomada de dominios donde sea robusta e independiente, por lo tanto, el anlisis se reduce a pequeos tramos de la muestra. En este sentido la ciencia del procesamiento digital de seales brinda la alternativa llamada enventanado de la seal. Existen varias alternativas de enventanado siendo entre las ms conocidas la ventana rectangular y la de tipo ventana Hamming (ver anexo 3). Es esta segunda opcin la que utiliza el sistema Batvox. Una vez enventanada la seal, sta se encuentra lista para ser analizada tanto en el dominio temporal como en el dominio frecuencial. El sistema Batvox centra su atencin en el dominio frecuencial de la seal de voz. Para caracterizar la seal de voz, Batvox procede a extraer los coeficientes cepstrales de Mel, aplicando sobre cada banda crtica la idea de energa total logartmica y transformando estos datos al dominio cepstral. Este procedimiento fue descrito en el captulo 6. El sistema Batvox opera con 19 MFCCs. Sumados a estos se incorporan 19 coeficientes proporcionados por los parmetros derivados de primer orden, con los cuales se obtienen un vector de 38 coeficientes por trama analizada. La cantidad de tramas depender de la duracin de la locucin de entrada. Ya obtenidos los vectores de parmetros es necesario modelizar estos datos. Este procedimiento Batvox lo hace utilizando un modelo de mezclas gaussianas (GMM) como el descrito en el captulo 6 y 8. Con cada uno de los coeficientes (38 por vector) Batvox formar un histograma en base a una suma de gaussianas, estos histogramas tienen la finalidad de conocer el rango en que se mueven dichos coeficientes. Por lo tanto, por cada coeficiente (38 en el caso de Batvox) se tendr un histograma conformado por 1024 gaussianas. Luego, cada modelo puede ser

105

descrito por sus matrices de media y covarianza, as cada locutor es representado por un modelo GMM, el cual puede ser denominado . Entonces, para se tiene:

= ( pm , m , m )

con m = 1,..., M

(7.1)

Donde p m es el peso de las mezclas, m es el vector de medias, m es la matriz de covarianzas y M es el nmero de mezclas gaussianas componentes. En esta etapa el sistema dispone de patrones o referencias de los distintos locutores conocidos (usuarios), obtenidos en la fase de entrenamiento (adaptacin MAP). Ya obtenidos los vectores de caractersticas correspondientes a la seal de entrada y a disponibilidad los modelos o patrones de los distintos locutores conocidos por el sistema, calcular el parecido o similitud entre la seal de entrada y cualquiera de los modelos conocidos. El mdulo final estar encargado a partir de los valores de similitud obtenidos, en asignar una identidad al locutor del cual proviene la seal de entrada. En este mbito el sistema Batvox entrega resultados basados en relaciones de verosimilitud ( LR ) (ver captulo 5), adems, estos resultados no son slo entregados de forma numrica sino tambin grfica como en la figura (9.2).
Figura 9.2 Grfica de un LR en Batvox.

106

Para determinar el LR , el sistema procede en primer lugar a calcular dos distribuciones de probabilidad: la primera marcada en la figura (9.2) en rojo, llamada la distribucin de intervariabilidad y la segunda marcada en azul denominada distribucin de intravariabilidad. La curva en rojo entonces, es obtenida a partir de las puntuaciones conseguidas entre el test de entrada, comparado con cada uno de los locutores de la poblacin de referencia. Para encontrar la curva de intravariabilidad, la cual seala como suele puntuar el sospechoso contra s mismo, el sistema utiliza un mecanismo denominado Lead One Out, el cual consiste en tomar el audio del cual se ha modelizado el sospechoso y dividirlo en cuatro partes, realizando un modelo con cada una de ellas y utilizando para el entrenamiento slo tres de ellas en todas sus combinaciones posibles. Luego, se compara cada modelo obtenido con el trozo de audio que no se ha utilizado. La media obtenida de las puntuaciones corresponder al mximo en la curva de intravariabilidad. Con este dato y tcnicas estadsticas experimentales se obtiene la curva de intravariabilidad mostrada en azul en la figura (9.2). Si la puntuacin del test frente al modelo de sospechoso completo cae dentro de la curva roja, entonces, lo ms probable es que no pertenezca a la misma persona, si ocurre lo contrario, si cae dentro de la curva azul, lo ms probable es que pertenezca a la misma persona. Adems, teniendo ambas distribuciones de probabilidad se puede obtener cuanto ms probable es una cosa que la otra, haciendo el cociente entre las alturas de la curva en el punto donde haya punteado el test. Este cociente ser la proporcin de verosimilitud ( LR ). En la figura (9.2) se tiene un LR = 1027, lo que indica que es 1027 veces ms probable que sea la misma persona a que no lo sea [1].

9.2.2 Miembros pertenecientes a la Universidad de Chile


Dentro de los docentes actualmente activos de la Universidad de Chile, se encuentran dos personas que han participado en peritajes en el rea de verificacin e identificacin forense de locutores. Ellos son el Fonoaudilogo Luis Romero Romero y la Ingeniero Acstico Carla Badani Schoneweg, ambos docentes activos de la Universidad de Chile.

9.2.2.1 Peritajes realizados por Luis Romero Romero


Romero L. 2002. Informe pericial Fiscala Penal Pblica Traigun. Romero L. 2003. Informe pericial Fiscala Penal Pblica Temuco. Romero L. 2003. Informe pericial Fiscala Penal Pblica Temuco.

9.2.2.2 Peritajes realizados por Carla Badani Schoneweg


Se puede asegurar que Carla Badani es una de las personas que ha realizado el mayor nmero de peritajes de voz. En la mayora de los casos, se trata de casos relacionados con trfico de drogas. Algunos por amenazas y los menos por suplantacin de personas. A continuacin se nombran los peritajes que ha ejecutado esta perito:

107

1. S. J. L. de Puente Alto Rol N 73909-M Rol N 73557-F 2. S.J. L. 2 del Crimen de Santiago Rol N 74482-5 Rol N 29205-5 3. S. J. L. Del Crimen de Colina Rol N 17983 PL Rol N 27074-5 4. S. J. L. 1 Del Crimen de Talcahuano Rol N 31952-SB 5. S. J. L. 3 Del Crimen de Santiago Rol N 217774-1 6. S. J. L. 6 Del Crimen de Santiago Rol N 45518-1 Rol N 45815-1 Rol N 47641-1 Rol N 45815-1 (2) Rol N 45815-1 (3) 7. S. J. L. 14 Del Crimen de Santiago Rol N 5621-04 (1) Rol N 5621-04 (2) Rol N 5870-04 Rol N 2465-04 Rol N 3674-03 Rol N 1289-05 Rol N 3924-03 Rol N 659-04 Rol N 4115-3 preinforme Rol N 3365-05 Rol N 2819-05 Rol N 4774-04-CH Rol N 3543-05-CH Rol N 3701-04 Rol N 5270-02-SG

108

8. S. J. L. 15 Del Crimen de Santiago Rol N 3159-04 Rol N 2802-H Rol N 1200-01-D Rol N 2617-2003-D 9. S. J. L. 27 Del Crimen de La Florida Rol N 49154-1 10. S. J. L. 9 Del Crimen de San Miguel Rol N 44257-6 11. S. J. L. 36 Del Crimen de Santiago Rol N 10767-2000 PL Rol N 427-03-2 Rol N 8279-2000-2 12. S. J. L. 3 Del Crimen de Iquique Rol N 74482-5 Rol N 27074-5 transferencia de causa 13. Defensora Penal Pblica de Victoria, representada por el Defensor Solicitante Sr. Fernando Saenz Taladriz, solicit realizar peritaje sonoro en causa Rol N 24339. 14. Anlisis de voz Caso Jambiado, particular. 15. Corte de Apelaciones de Santiago Rol N 421-2002

9.2.3 Trabajos realizados por docentes de la Universidad Austral de Chile


Puede encontrarse dos personas las cuales han efectuado trabajos en la Universidad Austral de Chile, ellos son Jorge Sommerhoff y Claudia Rosas, quienes han efectuado dos tipos de trabajo: peritajes de voz y un trabajo de investigacin en curso. Sus trabajos de realizacin de peritajes e investigacin en curso son resumidos a continuacin:

109

9.2.3.1 Peritajes
Sommerhoff J., C. Rosas. 2003. Informe pericial Defensora Penal Pblica de Caldera y Chaaral. Sommerhoff J., C. Rosas. 2003. Informe pericial Defensora Penal Pblica La Serena. Sommerhoff J., C. Rosas. 2004. Informe pericial Defensora Penal Pblica La Serena. Sommerhoff J., C. Rosas. 2004. Informe pericial Defensora Penal Pblica Coronel Lota.

9.2.3.2 Investigacin en curso


Pautas para el anlisis pericial de voces presentadas en los juicios, es el trabajo de investigacin que realizan los docentes Jorge Sommerhoff y Claudia Rosas de la Universidad Austral de Chile, subvencionado por la Comisin Nacional de Investigacin en Ciencia y Tecnologa, Gobierno de Chile (CONICYT) (Rosas y Sommerhoff 2008: 25) que pretende caracterizar la variabilidad intra-locutor producida por factores expresivos y ambientales en el espaol de Chile. La relevancia de esta investigacin se relaciona con la falta de estudios que sealen rangos referenciales de variabilidad del espaol en general y de Chile, en particular, para interpretar de manera correcta y segura los resultados.

9.2.4 Trabajos realizados por personas particulares


Existen algunos registros de personas particulares, que han realizado alguna vez un peritaje de voz, los cuales poseen en su formacin profesional conocimientos tanto de fontica como de acstica. Sin embargo, en la casi totalidad de los casos se puede afirmar cierta informalidad en las metodologas utilizadas. Adems, se afirma en muchos de los casos dentro de este grupo, haber realizado muy pocos peritajes y que en la actualidad ya no efectan este tipo de trabajo. En este sentido, vale la pena sealar el trabajo efectuado por el tecnlogo en sonido Ricardo Pastene, quien ha diseado su propia metodologa de trabajo y contina en la actualidad realizando pericias de voz, sin embargo, el autor de este trabajo no posee conocimientos acerca de la cantidad de trabajos realizados por este perito, ni por las dems personas que pertenecen a este grupo. El mtodo de trabajo de Ricardo Pastene consiste en una metodologa hbrida, basada en un test auditivo y la comparacin de parmetros fontico-acsticos: los cuales son: La frecuencia fundamental ( F0 ), el espectro promediado a largo plazo (LTAS), ubicacin de las frecuencias centrales de los formantes (F1, F2 y F3) y sus respectivos anchos de banda. Todos ellos son comparados segn los datos entregados por el proyecto VILE.

110

10. CONCLUSIONES
En este apartado se exponen las conclusiones finales del trabajo relacionadas con: el acceso a la informacin proporcionada, los datos mismos y su interpretacin, y las tareas pendientes que se pueden derivar a partir de esta investigacin. En primer lugar el autor de este trabajo puede concluir que: en la actualidad no existe ningn vestigio de peritajes en verificacin e identificacin forense de locutores en Chile, en el cual sea utilizada la metodologa bayesiana, exceptuando los trabajos en este mbito realizado por los peritos de la seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile, los cuales han adoptado esta forma de entregar los resultados de sus peritajes dados los sistemas automticos que utilizan, los cuales adjuntan esta metodologa en su estructura interna. En segundo lugar, en cuanto a los datos recopilados, se pudo constatar que: no existen bases de datos que describan la realidad fontica-acstica de la poblacin de referencia (espaol de Chile) de uso pblico. En este sentido, tampoco existen los parmetros estadsticos necesarios para llevar a cabo un peritaje de manera tradicional en base a una metodologa bayesiana y slo es posible un trabajo de este tipo utilizando sistemas automticos, los cuales resultan bastante inaccesibles y que en la actualidad slo son utilizados por el personal de la seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile. Fuera de los miembros de la seccin sonido del Laboratorio de Criminalstica de la Polica de investigaciones de Chile, el nmero de especialistas que han colaborado con el peritaje de voz es reducido. Las nicas personas que actualmente continan realizando peritajes con una relativa frecuencia, de los cuales el autor de este trabajo tiene antecedentes, son Ricardo Pastene, Carla Badani, Jorge Sommerhoff y Claudia Rosas. Por otra parte, conviene destacar que an es ms exiguo el nmero de personas que han realizado investigacin en este campo. Con respecto a la bsqueda de casos y sentencias relacionadas con la voz conviene sealar que, pese a ser de uso pblico, el acceso a informacin en la prctica es muy complicado, ya que se debe seguir un protocolo con el que se pretende mantener cierta confidencialidad, sin contar las dificultades propias referidas a la bsqueda de archivos que deben realizar los encargados de su administracin, como tarea adicional, que deben compartir con otras demandas diarias. En cuanto a la metodologa utilizada, no fue posible realizar un anlisis detallado en ningn caso, dados los trminos de confidencialidad mencionados. Sin embargo, por conversaciones establecidas con los autores de dichos trabajos, se puede afirmar que fuera de los peritajes realizados por el personal de la seccin sonido del Laboratorio

111

de Criminalstica de la Polica de Investigaciones de Chile, en ningn caso se utiliz una metodologa bayesiana para la entrega de resultados. Exceptuando los peritajes realizados por miembros de la seccin sonido del Laboratorio de Criminalstica de la Polica de Investigaciones de Chile, se puede afirmar que las metodologas en orden a verificacin e identificacin de locutores han sido desarrolladas por cada una de las personas que han realizado los peritajes. Por ejemplo, Ricardo Pastene utiliza una estrategia metodolgica combinada para realizar sus peritajes de voz, elaborada por el mismo, en donde aborda dos directrices de anlisis: un test auditivo y un anlisis de parmetros de caracterizacin de la voz, los cuales son la frecuencia fundamental ( F0 ), el espectro promediado a largo plazo (LTAS), ubicacin de las frecuencias centrales de los formantes (F1, F2 y F3) y sus respectivos anchos de banda, mientras Carla Badani agrega a sus peritajes el anlisis de caractersticas lingsticas, ms parmetros fontico-acsticos. En ninguno de los casos anteriormente sealados existe una evaluacin de las metodologas de cara a entregar el grado de certeza o margen de error en sus resultados como las limitaciones que poseen. La prctica del reconocimiento forense de locutores, ha demostrado ser, a nivel mundial, una poderosa herramienta a la hora de aclarar una actividad delictual, sin embargo su aplicacin en tribunales chilenos aparece an extraa y escasa, prueba de ello es el desconocimiento parcial o total por parte de personas vinculadas estrechamente a la administracin de justicia como es el caso de abogados, jueces fiscales etc., pudiendo constatar, el autor de ste trabajo, el desconocimiento total del tema an en profesionales del campo de las ciencias jurdicas, los cuales haban cursados estudios de postgrado en reforma procesal penal. Uno de los principales objetivos de este trabajo de tesis es vislumbrar una gua para futuras directrices de trabajo por parte de miembros pertenecientes a la Universidad Austral de Chile. Cabe sealar, que los mbitos de desarrollo e investigacin que se podran realizar por parte del Instituto de Acstica son sumamente grandes en la materia. En primer lugar, se puede mencionar que la carrera de Ingeniera Civil Acstica de la Universidad Austral de Chile no contempla ningn ramo en su malla curricular vinculado a la fontica-acstica, slo se ve un pequeo extracto de este tema en la asignatura de Mediciones Acsticas, dictada por el profesor Victor Poblete Ramirez, en la cual se contempla la realizacin de un laboratorio en donde se dan algunas pautas de parmetros fontico-acsticos vinculados al reconocimiento de locutores. Por esta razn, se puede afirmar que los alumnos egresados de esta carrera poseen una pobre preparacin frente a la realizacin de un peritaje de voz. En contraste, la carrera de Ingeniera Civil en Sonido y Acstica perteneciente a INACAP, contiene dentro de su plan de estudios asignaturas

112

vinculadas al rea de estudio de este trabajo, adems la carrera de Ingeniera en Sonido de la Universidad de las Amricas contempla a futuros trabajos al respecto. Con respecto a las tareas que surgen luego de este trabajo se pueden mencionar: 9 La constitucin de una base de datos con fines forenses, en la que se caractericen los locutores chilenos, tomando en cuenta caractersticas lingsticas como parmetros fontico-acsticos. En este punto, se puede dirigir el trabajo hacia la confeccin de una base de datos necesaria para la aplicacin de la metodologa bayesiana. 9 Desarrollo y evaluacin de diversas metodologas empleadas en reconocimiento forense de locutores, con el fin de obtener una visin clara de cules son las ms idneas. 9 Desarrollo e investigacin en el tratamiento digital de la seal de voz. Cabe mencionar en este punto, el enorme abanico de posibilidades que se tienen: parametrizacin de la seal de voz, puesta en prctica de los diversos algoritmos de clasificacin, evaluacin de los diversos mecanismos de trabajo de sistemas automticos, etc.

113

BIBLIOGRAFA
Revistas:
[1] Gonzlez, B.S., Batvox: Sistema automtico de reconocimiento de locutor, Estudios de fontica experimental, 301-317 (2008).

Libros:
[2] Bernal, J.B., Bobadilla, J.S., Gmez, P.V., Reconocimiento de voz y fontica acstica, Hollien Harry, The acustics of crime, Plenum Press, New York (1990). Rose Philip, (2002) Forensic speaker identification. London: Tailor & Francis.

[3] [4]

Tesis:
[5] Anil Alexander., Forensic automatic speaker recognition using bayesian interpretation and statistical compensation for mismatched conditions, Tesis de Doctorado, Facult Sciences et Techniques de L'Ingnieur ,cole Polytechnique Fdrale de Lausanne, (2005). Labrn S.M., Montero M.V., Activacin de dispositivos mediante reconocimiento de palabras aisladas utilizando redes neuronales y herramientas de MATLAB, Facultad de Ingeniera, Universidad de la Frontera, (2005).

[6]

Reportes tcnicos:
[7] Ochoa F.E., (2004), Desafos de la acstica aplicada a la criminalstica en la Polica de Investigaciones de Chile. Ochoa F., San Martin C., Carrillo R., Identificacin biomtrica de locutores para el mbito forense: Estado del arte, (2008).

[8]

Sitios Web:
[9] Agmitio, (2009), Pagina oficial, Extrado el 08 de enero del 2009 de la World Wide Web: http://www.agnitio.es/espanol/index.php

114

[10]

Biblioteca del Congreso Nacional, Cdigo Procesal Penal, Extrado el 08 de enero del 2009 de la World Wide Web: http://www.bcn.cl/leyes/176595 Delgado C.R., (2001), La identificacin de locutores en el mbito forense, Extrado el 06 de octubre del 2007 de la World Wide Web: http://www.ucm.es/BUCM/tesis/inf/ucm-t25153.pdf Esteve C.E., (2007), Reconocimiento de locutor dependiente de texto mediante adaptacin de modelos ocultos de Markov fonticos, Extrado el 06 de octubre del 2007 de la World Wide Web: http://arantxa.ii.uam.es/~jms/pfcsteleco/lecturas/20070720CristinaEsteve.pdf Laboratorio de Criminalstica, (2009), Pagina oficial, Extrado el 12 de enero del 2009 de la World Wide Web: http://www.lacrim.cl/secciones.html Mistral, (2009), Pagina oficial, Extrado el 08 de enero del 2009 de la World Wide Web: http://mistral.univ-avignon.fr Molinero L.M., (2002), El mtodo bayesiano en la investigacin mdica, Extrado el 08 de julio del 2008 de la World Wide Web: http://www.seh-lelha.org/bayes1.htm Universitat Autnoma de Barcelona, (2004), vile: Estudio acstico y perceptivo de la variacin inter e intralocutor en espaol, Extrado el 08 de Agosto del 2008 de la World Wide Web: http://liceu.uab.es/~carme/VILE_CLG04.pdf

[11]

[12]

[13]

[14]

[15]

[16]

115

ANEXOS
ANEXO 1
La siguiente tabla muestra los valores obtenidos para los segundos formantes F2 de los fonemas /o/ y /a/ de la palabra hola, para 37 mujeres chilenas, cuyas edades fluctan entre los 25 y 45 aos. En la parte inferior de la tabla aparecen los valores para la media y desviacin estndar (SD). Los resultados de estas mediciones son utilizados en el ejemplo desarrollado en el apartado 7.2.4.1 y 7.2.4.2.

Mujeres evaluadas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

F2 /o/ 1475 1304 1499 1572 1499 1499 1621 1450 1572 1426 1524 1256 1426 1183 1524 1597 1524 1402 1378 1621 1597 1499 1426 1426

F2 /a/ 1596 2059 2011 2205 2303 2205 1572 2108 2108 1938 1962 1351 2351 2278 2205 1962 2011 2278 2278 2181 2132 2132 2132 2084

116

25 26 27 28 29 30 31 32 33 34 35 36 37 Media SD

1816 1329 1670 1378 1791 1524 1621 1670 1572 1743 1572 1280 1426 1505,2 142,61

2254 2473 2497 2254 2278 2181 2084 2376 2303 2327 2205 2278 2230 2140,1 233,92

ANEXO 2
En este anexo se presentan las tablas a), b) y c), que muestran los valores obtenidos para las muestras VD, JX y PC. Estas muestras son citadas en el ejemplo dado en el punto 7.2.4.2. En este punto fueron dados los valores de media y desviacin estndar de las muestras analizadas, sin embargo, ac son dados los detalles de las muestras analizadas.
Tabla a) Siete valores encontrados para la muestra dubitada VD, para F2 de los fonemas /o/ y /a/ de la palabra hola. En la parte inferior de la tabla se muestran los valores de media y desviacin estndar.

Muestra dubitada VD

Media SD

F2 /o/ 1463 1743 1792 1767 1372 1183 1487 1543,9 231,14

F2 /a/ 2151 2108 2116 1889 1670 1922 2254 2015,7 199,17

117

Tabla b) Siete valores encontrados para la muestra indubitada JX, para F2 de los fonemas /o/ y /a/ de la palabra hola. En la parte inferior de la tabla se muestran los valores de media y desviacin estndar.

Muestra indubitada JX

Media SD

F2 /o/ 1384 1707 1694 1755 1706 1694 1914 1693,4 157,34

F2 /a/ 2156 2230 1816 1792 2157 1548 2352 2007,3 290,64

Tabla c) Siete valores encontrados para la muestra indubitada JX, para F2 de los fonemas /o/ y /a/ de la palabra hola. En la parte inferior de la tabla se muestran los valores de media y desviacin estndar.

Muestra indubitada PC

Media SD

F2 /o/ 1463 1524 1682 1481 1755 1366 1707 1568,3 146,41

F2 /a/ 2035 1913 2072 1901 1556 1865 2291 1947,6 225,31

ANEXO 3
Con el fin de lograr la parametrizacin de la seal de voz (extraccin de parmetros), es necesario reducir la cantidad de datos presentes en sta. Ya se ha visto el comportamiento pseudo-estacionario de la seal de voz, en fragmentos del orden de decenas de milisegundos y lo que da origen al denominado anlisis localizado de la seal. El mecanismo utilizado para lograr este anlisis localizado a partir de tramas continuas es denominado enventanado de la seal de voz.

118

Para lograr el objetivo de enventanado es necesario multiplicar la seal de voz original por una funcin limitada en el tiempo. Esto puede ser expresado matemticamente en la siguiente ecuacin:

x(m ) = s(n ) w(m n )


Donde s(n ) es la seal original de voz, w(n ) la ventana temporal aplicada y x(n ) ser la seal enventanada, con valores nulos para valores fuera del intervalo n [m N + 1, m] , siendo N la duracin en muestras de la ventana aplicada. Entonces es preciso encontrar la funcin w(n ) necesaria para el enventanado. En procesamiento digital de la seal de voz destacan dos tipos de ventanas: La ventana rectangular y la ventana de tipo Hamming. Una ventana rectangular valdr 1 dentro del intervalo que se desea enventanar y 0 fuera de este, entonces para w(n ) se tiene:

w(n ) =

1, 0,

0 n N 1 para el resto

Una ventana de tipo Hamming posee la siguiente estructura temporal (ponderacin de coseno alzado):

w(n ) =

0.54 0.46 cos(2n / ( N 1)), 0,

0 n N 1 para el resto

119

S-ar putea să vă placă și