Sunteți pe pagina 1din 20

Medidas de Confianza

Rubén San Segundo Hernández


(5 Febrero 2004)
Medidas de Confianza

Introducción
COMPRENSIÓN
RECONOCIMIENTO DE LENGUAJE
DE HABLA NATURAL
Medidas de Confianza
• Análisis de medidas de confianza
MEDIDAS DE al nivel deGESTOR
palabra,
DE
CONFIANZA DIÁLOGO
concepto y frase en el sistema CU Communicator
•Aplicación de medidas de confianza para la mejora
GENERACIÓN
de la tasa deCONVERSIÓN
reconocimiento DE RESPUESTA
TEXTO A VOZ INTELIGENTE

Diagrama de un Servidor Vocal Interactivo (SVI)

Introducción
Medidas de Confianza

Medidas de Confianza (I)


Tipos de parámetros para Estima de Confianza:
4 Parámetros de Decodificación (Chase,1997a; Wessel,1999; Moreau,
1999;Jouvet,1999a; Gunawardana,1999; Kamppari,2000; Dasmahapatra,2000;
Moreau,2000; Macías-Guarasa,2000b; Wessel,2001; Charlet,2001)

4 Parámetros exclusivos del Modelo de Lenguaje (Uhrik,1997; San-


Segundo,2000b)

4 Parámetros de Comprensión (Bouwman, 1999; Souvignier,2000; Hazen,


2000a; Hazen, 2000b; San-Segundo, 2001a; Zhang, 2001)

4 Parámetros del Gestor de Diálogo (Carpenter et al, 2001)

Introducción
Medidas de Confianza

Medidas de Confianza (II)


Resolución de las Medidas de Confianza:
4 Nivel de Palabra (Chase,1997a; Wessel,1999; Moreau, 1999; Jouvet,1999a;
Gunawardana,1999; Kamppari,2000; Dasmahapatra,2000; Moreau,2000; Macías-
Guarasa,2000b; Wessel,2001; Charlet,2001)

4 Nivel de Concepto Semántico (Bouwman, 1999; Souvignier, 2000; Hazen,


2000a; Hazen, 2000b; San-Segundo, 2001a; Zhang, 2001)

4 Nivel de Frase (Uhrik y Ward, 1997; Pao, 1998; San-Segundo et al, 2000b,
San-Segundo, 2001a)

4 Nivel de Interacción (Carpenter et al, 2001)

Introducción
Medidas de Confianza

Análisis de medidas de
confianza

Análisis de Medidas de Confianza


Medidas de Confianza

Sistemas analizados

CU Communicator
• Detección de errores al nivel de palabra, concepto y frase
• Parámetros acústicos, lingüísticos y semánticos
• Aplicación de medidas de confianza para la recuperación
de errores al nivel de palabra y de concepto

Análisis de Medidas de Confianza


Medidas de Confianza

Etiquetación de Ejemplos (I)


Necesidad de etiquetar los ejemplos como “A Rechazar”
(errores o OOV) o “A Aceptar” (aciertos)
Nivel de Palabra: comparando hipótesis y referencia (ins, borr,
subs y aciertos). Para los borrados no se estima confianza.
Nivel de Concepto: comparando las secuencias de conceptos de
la hipótesis y de la frase de referencia.
REFERENCIA
I wanna go from Denver to Chicago late night today
[Departing City] [Arrival City] [Departing Time] [Date]
DENVER CHICAGO LATE NIGHT TODAY

CORRECTO CORRECTO SUBSTITUCIÓN BORRADO

DENVER CHICAGO NINE PM


[Departing City] [Arrival City] [Departing Time]
I wanna go from Denver to Chicago ++UH++ at nine pm
AnálisisHIPÓTESIS
de Medidas de Confianza
Medidas de Confianza

Etiquetación de Ejemplos (II)


Nivel de Frase: podríamos considerar varios criterios:
1.- Detección de frases Fuera del Dominio.Etiquetación manual.

2.- (Pao, 1998): Análisis Semántico de las N mejores hipótesis:


Rechazamos la frase si el análisis semántico de alguna de las N
mejores hipótesis no coincide con la frase de referencia

3.- (Hazen, 2000b): Tasa de reconocimiento: Rechazamos la


frase si alguna de las 3 primeras hipótesis no coincide con la frase
de referencia y la tasa de la primera hipótesis es menor de 70%.
4.- (San-Segundo, 2001a): Análisis Semántico: Rechazamos la
frase si todos los conceptos semánticos son erróneos en
comparación con la frase de referencia

Análisis de Medidas de Confianza


Medidas de Confianza

Nivel de Palabra: parámetros (I)


Del Proceso de Decodificación
• Verosimilitud normalizada: logaritmo de la verosimilitud
acumulada a lo largo de la palabra bajo análisis.
• Homogeneidad de la palabra en las 100 mejores hipótesis:
porcentaje de veces que una misma palabra aparece en posición
análoga (mismo segmento de voz) en las 100 mejores hipótesis.
• Densidad del grafo palabras: número de enlaces en el lattice
desde cualquier palabra a la palabra considerada.
• Perplejidad de fonemas: número medio de modelos de
alófono activos (sobreviven al Beam Search) a lo largo de las
tramas en las que permanece activa la palabra bajo estudio.

Análisis de Medidas de Confianza


Medidas de Confianza

Nivel de Palabra: parámetros (II)


Del Modelo del Lenguaje
• Comportamiento Back-off del modelo de lenguaje
Valor de
Comportamiento
Confianza
1.0 P(Wj) como sucesión trigram: P(Wj,Wj-1,Wj-2)
0.8 P(Wj) como sucesión bigram-bigram: P(Wj,Wj-1) y P(Wj-1,Wj-2)
0.6 P(Wj) como sucesión bigram: P(Wj,Wj-1)
0.4 P(Wj) como sucesión unigram-bigram: P(Wj) y P(Wj-1,Wj-2)
0.3 P(Wj) como sucesión unigram-unigram: P(Wj) y P(Wj-1)
0.2 P(Wj) como unigram: P(Wj)
0.1 Palabra desconocida. Nunca se da en la salida del reconocedor.

• Probabilidad de la palabra en la secuencia P(Wi), obtenida


del modelo de lenguaje
Análisis de Medidas de Confianza
Medidas de Confianza

Nivel de Concepto: parámetros (I)


Proceso de Decodificación y del Modelo del Lenguaje
• Confianza Media de las palabras pertenecientes a la Regla
utilizada en la obtención del Concepto.
• Confianza Media de las palabras pertenecientes al Valor del
concepto.
REGLA: prepos.(“to”) + nom. ciudad(“Denver”)
VALOR: Ciudad Destino (“Denver”)

Analizador semántico
• Número de palabras contenidas en la Regla utilizada para la
obtención del Concepto.
• Número de palabras que forman el Valor del Concepto.

Análisis de Medidas de Confianza


Medidas de Confianza

Nivel de Concepto: parámetros (II)


• Homogeneidad del concepto en las 100 mejores hipótesis. Se
analizan semánticamente todas las hipótesis
• Homogeneidad del concepto y su valor en las 100 mejores
hipótesis. Repeticiones del concepto con el mismo VALOR.

Modelo de Lenguaje Conceptual


• Comportamiento Back-Off del modelo de lenguaje conceptual.
• Probabilidad del concepto en la secuencia P(Cj), obtenida del
modelo de lenguaje.

El modelo de lenguaje conceptual se obtiene con las


secuencias de conceptos obtenidas de las frases referencia
(el valor del concepto no se considera)
Análisis de Medidas de Confianza
Medidas de Confianza

Nivel de Frase: parámetros


Medidas al nivel de palabra o concepto extendidas a toda la frase
• Confianza media de las Palabras que forman la frase
• Confianza media de los Conceptos que forman la frase
• Porcentaje de palabras que pertenecen a la tarea: palabras
que forman parte de algún concepto o de alguna regla que se
aplica para obtener un concepto.
• Relación entre el número de conceptos y el número de
palabras de la frase.
• Porcentaje de hipótesis (de entre las 100 mejores) que
permite obtener algún concepto.
La combinación de los parámetros a todos los niveles se ha
realizado mediante una Red Neuronal (Perceptrón Multi-Capa)

Análisis de Medidas de Confianza


Medidas de Confianza

Evaluación
Ejemplo de distribuciones según el valor de
Parámetros confianza
2000

Número de ejemplos
Red 1500
RI 5%
Neuronal Ejemplos a Aceptar
1000
Ejemplos a Rechazar
Confianza Confianza
Baja (0........1) Alta 500

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1


Valor de confianza

• Rechazo Correcto (RC): % de casos de error detectados


• Rechazo Incorrecto (RI): % de casos de acierto rechazados por error
• Error de Clasificación (EC): % de casos mal clasificados
• Error de Referencia (ER): distribución inicial de ejemplos

Análisis de Medidas de Confianza


Medidas de Confianza

Resultados al nivel de Palabra


Rechazo Correcto / Rechazo Incorrecto
100
Rechazo Correcto 90
80
70
60 PD + ML
53,2% 50 ML
42,0% 40 PD
30
28,5%
20
10
0
0 10 20 30 40 50 60 70 80 90 100
5% Rechazo Incorrecto

• PD: Parámetros del Proceso de Decodificación


• ML: Parámetros del Modelo de Lenguaje
Análisis de Medidas de Confianza
Medidas de Confianza

Resultados al nivel de Concepto


Rechazo Correcto / Rechazo Incorrecto
100
90
80
Rechazo Correcto
70
60
50,1%
50 TODOS
47,1% 40
CMRC+CMVC
40,1% 30
20 NPR+NPV+HC+HCV+CML+PML

10
0
0 10 20 30 40 50 60 70 80 90 100

5% Rechazo Incorrecto

• CMRC y CMVC: Confianza Media en la Regla y el Valor del Concepto.


• NPR, NPV, HC, HCV, CML y PML: Parámetros exclusivos del
analizador semántico.
Análisis de Medidas de Confianza
Medidas de Confianza

Resultados al nivel de Frase


Rechazo Correcto / Rechazo Incorrecto
(frases fuera del dominio y frases sin conceptos
correctos)
100
90
76,1% Rechazo Correcto 80
68,7% 70
60 TODOS
53,2% 50 CMC+PPAS+PPT+PC+PMC
40 CMP
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
5% Rechazo Incorrecto

• CMC, PPAS, PPT, PC y PMC: Parámetros exclusivos del


analizador semántico.
• CMP: Confianza Media de las Palabras de la frase.
Análisis de Medidas de Confianza
Medidas de Confianza

Aplicación: recuperación de errores


Combinación de varias hipótesis de reconocimiento mediante
Medidas de Confianza:
• FLCR (Flat List Confidence Rescoring): selección de la mejor
hipótesis según la mayor confianza media por palabra.

• WGCR (Word Graph Confidence Rescoring): construcción de un grafo


de palabras y selección del camino en el grafo con mayor confianza media. IDEA:
generar una nueva hipótesis con las partes de mayor confianza de cada hipótesis.
METODOS:
ê Alineamiento Temporal: se definen nodos de unión entre palabras de
diferentes hipótesis cuyos inicios o finales temporales sean iguales. Método más
preciso
ê Alineamiento de Texto: se alinean las hipótesis con un algoritmo de
programación dinámica.

Análisis de Medidas de Confianza


Medidas de Confianza

Ejemplo de construcción de un grafo


REFERENCIA: I WANNA GO FROM AUSTIN TO CHICAGO LATE MORNING
HIPÓTESIS
I WANT TO GO FROM BOSTON TO CHICAGO LATE MORNING
[0-10] [10-43] [43-57] [57-74] [74-122] [122-150] [150-175] [175-204] [204-224] [224-254]
0.52 0.80 0.71 0.93 0.96 0.95 0.98 0.95 0.93 0.96

I’M GONNA GO FROM AUSTIN TO CHICAGO LATE MORNING


[0-10] [10-57] [57-74] [74-122] [122-150] [150-175] [175-204] [204-224] [224-254]
0.52 0.73 0.93 0.96 0.98 0.97 0.95 0.93 0.96

I WANNA GO FROM BOSTON TO CHICAGO MORNING


[0-10] [10-57] [57-74] [74-122] [122-150] [150-175] [175-224] [224-254]
0.90 0.93 0.92 0.95 0.93 0.98 0.90 0.85

WANT (0.80)
WANT BOSTON FROMCHICAGO
CHICAGO
TO LATE
LATE(0.93)
I (0.52) (0.80) AUSTIN
(0.96) (0.96)(0.95)
(0.95)
GO(0.93)
(0.71) TO (0.98) (0.93) MORNING
TO (0.71) (0.98) LATE(0.93) (0.96)
CHICAGO
(0.73) GO(0.93) FROM
I’M (0.52) GONNA WANNA AUSTIN
FROM (0.98) TO(0.97)
(0.95) MORNING
I GO (0.96) TO CHICAGO MORNING
(0.96)
(0.90) (0.93) (0.93) (0.96) (0.98) (0.90) (0.96)
I (0.90) WANNA (0.93) GO (0.92) FROM BOSTON TO (0.98) CHICAGO
(0.90) MORNING
(0.95) (0.93) (0.85)
I WANNA GO FROM AUSTIN TO CHICAGO LATE MORNING

Análisis de Medidas de Confianza


Medidas de Confianza

Resultados de Combinación de Hipótesis


N Hipótesis del mismo Reconocedor
Número de Hipótesis FLCR WGCR
1 27,2% 27,2%
2 29,2% 29,2% Empeora
4 30,8% 31,2%
8 32,2% 32,6%
16 33,5% 33,6%

1 hipótesis de varios Reconocedores (H/M) N Hipótesis de varios Reconocedores (H/M)


Método Utilizado Tasa de Error Número de Hipótesis FLCR WGCR
Referencia 27,2% 1 24,2% 23,4%

26,2% 2 23,3% 22,9%


Verosimilitud Acumulada
4 29,4% 26,4%
Confianza: FLCR 24,2%
8 30,5% 28,0%
Confianza: WGCR 23,4% 16 31,4% 28,7%

Análisis de Medidas de Confianza

S-ar putea să vă placă și