Documente Academic
Documente Profesional
Documente Cultură
7 Conclusiones 9. Bibliografía
Se ha descrito tanto el corpus desarrollado en Guadalupe Aguado de Cea, Inmaculada
el marco del proyecto Buscamedia como un Álvarez de Mon y Rego, Antonio Pareja-
conjunto de consultas suficientemente Lora: OntoTag: Modelo de anotación
representativas que permiten validar el sistema híbrida para la web semántica. Revista
y contrastar los beneficios de la combinación Iberoamericana de Inteligencia Artificial
de anotaciones multimedia, desde el punto de 7(18): 37-50 (2003)
vista del usuario. Una definición completa de
Benavent X., Benavent J., de Ves E., Granados
juicios de relevancia permitirá más adelante la
R., García-Serrano, A., “Experiences at
evaluación del sistema con la metodología
ImageCLEF2010 using CBIR and TBIR
TREC.
mixing information approaches”,
La principal dificultad durante el desarrollo
September, Padua Italia
del corpus Deportes20 fue el pre-
www.imageclef.org/2010.
procesamiento textual de los documentos
multimedia y la unificación de las diferentes García-Serrano, A., X. Benavent, R. Granados,
configuraciones de los metadatos de cada J. M. Goñi-Menoyo. 2008. Some results
fuente de información (varios programas de using different approaches to merge visual
televisión, 16 periódicos digitales, o páginas and text-based features in CLEF’08 photo
web). Se finalizó acordando el formato XML collection. LNCS 5706, Evaluating Systems
del denominado documento único para las for Multilingual and Multimodal
anotaciones provenientes de cada tipo de Information Access. Pp. 568-571. ISSN:
recurso o documento (video, imagen, noticia, 0302-9743.
texto o página web); lo que favorece el acceso Joost Geurts, Jacco Van Ossenbruggen, Lynda
a toda esta información con el sistema de Hardman “Requirements for practical
búsqueda desarrollado. multimedia annotation”, In: Workshop on
Se ha incluido una breve descripción de dos Multimedia and the Semantic Web. 2005
prototipos (desplegados como servicios web)
desarrollados en el marco del proyecto: el ISO/IEC. Overview of the MPEG-7 Standard
anotador textual (en un marco multimedia) y el (version 8). ISO/IEC JTC1/ SC29/ WG11/
buscador sobre la colección de Deportes20, N4980, Klagenfurt, July 2002
para mostrar con más detalle la contribución Antonio Pareja-Lora and Guadalupe Aguado
realizada. de Cea, “Ontology-based Interoperation of
En la sección 5 se encuentran algunos
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Influencia de las entidades nombradas en la traducción de preguntas
Studying the influence of named entities in question translation
Abstract: In recent years, there has been a growing research and development in building systems
and algorithms in the task of Question Answering (QA). Some of the most significant challenges
facing this process are searching for information and / or analysis of queries in several languages.
In order to address these problems arise multilingual Questions Answering Systems (QAS). In the
studies published by the scientific community interested in the subject, it reflects the negative
influence of different translation errors for the proper functioning of multilingual QAS, for that
reason, we present a study that examined the presence of errors translation using the services of 3
translators. It also includes the analysis of the influence of the Named Entity (NE) in the
translation of questions using a translation method of substitution entities reflecting good results.
Keywords: Machine Translation, Named Entity recognition, Question Answering.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 43
además, idealmente se quiere como respuesta que 7 de un total de 8 grupos utilizan esta
solo una que responda a la pregunta formulada. aproximación [5][6][7][8][9][10][11].
Los SBR multilingües se diseñan con el Los errores más comunes provocados por el
objetivo de encontrar respuestas concisas dentro empleo de servicios de traducción son [4]:
de documentos escritos en lenguas diferentes a Error de elección de sentido en la TA de
aquella con la que se formula la pregunta. Esta la pregunta (Se).
visión, amplía el campo de búsqueda, Error de estructura sintáctica en la TA
permitiendo localizar respuestas en documentos de la pregunta (ES).
que, operando de forma monolingüe, no serían Error al traducir la partícula
procesados. En una perspectiva general, un interrogativa de la pregunta (PI).
sistema multilingüe debe ser capaz de: Error en la categoría morfo-sintáctica de
Comprender las preguntas formuladas la traducción (MS).
en varias lenguas. Error al traducir las EN de la pregunta
Extraer la información en colecciones (En).
de documentos escritas en lenguas Todos estos errores conllevan a bajos
diferentes. rendimientos en los sistemas que utilizan
Presentar las respuestas en la lengua que técnicas de TA como parte de su flujo de
el usuario hizo la pregunta. trabajo.
En la mayoría de los trabajos descritos en la En particular los SBR son sensibles entre
literatura que abordan el desarrollo de los SBR otros al problema de la incorrecta traducción de
multilingües, se ilustra el uso de Traductores las EN, puesto que es un aspecto esencial en las
Automáticos TA y/o la combinación de los tareas posteriores de Clasificación de las
mismos [1] [2]. Preguntas (CP), Recuperación de la Información
Los sistemas de TA (MT, del inglés Machine (RI) y Extracción de la Respuesta (ER).
Translation) son muy apreciados en las áreas de Una muestra de la afectación que provoca la
Procesamiento del Lenguaje Natural (PLN) por aparición de errores en el proceso se refleja en la
la posibilidad que brindan para el tratamiento de Tabla 1. En la misma se aprecia que la precisión
distintos idiomas [3]. Por un lado estos sistemas disminuye considerablemente en todas las
están en constante evolución y ejecuciones bilingües de los sistemas
perfeccionamiento, pero por otro lado, no hay ejemplificados [4].
disponibilidad de los mismos para todos los
idiomas y además, la calidad de traducción varía Sistema Ejecución Precisión Decremento
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 44
Processing) RANLP 2007 [4]. Se detectaron y de entrada y luego llevar a cabo un proceso de
clasificaron manualmente las EN de las traducción para ambos casos (Figura 1):
preguntas del CLEF con el objetivo de saber La pregunta sustituyendo las EN por
cuántas de estas preguntas tienen EN y de qué una marca (combinación de letras sin
tipo son. En la Tabla 2 se revelan los resultados traducción).
obtenidos de la cuantificación manual efectuada, Las EN detectadas en la pregunta.
distinguiendo los siguientes tipos: PER
(persona), LOC (localización), ORG
(organización) y MISC (miscelánea).
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 45
Las EN detectadas, excluyendo las fechas, Por tanto, se puede observar como con el
números y siglas, se sustituyen por una marca método propuesto se mejora la traducción de la
neutral (NP, escogida luego del análisis de otras EN y la traducción de la pregunta de forma
marcas) y se procede a la tarea de traducción. general, aunque persisten dificultades.
Para la traducción se recibe, por separado
cada una de las EN detectadas en la fase 3 Experimentos realizados
anterior, así como la pregunta con las EN En la fase de experimentación y evaluación, se
sustituidas. Como traductores empleamos los realizaron dos estudios: el análisis de la
servicios disponibles en Internet de Google influencia de las EN en el proceso de traducción
translate, Babelfish y FreeTranslator. Se y, los errores cometidos por cada uno de los
conforma la consulta a enviar al servicio de traductores empleados.
traducción escogido y se traducen las EN y la Para la evaluación, utilizamos el CORPUS
pregunta. de preguntas presentado en la competición del
Por último, se sustituyen las EN traducidas, CLEF del 2006 en la tarea bilingüe inglés-
en la marca correspondiente en la pregunta y se español, con un total de 193 preguntas y 215 EN
conforma la salida de la traducción. para el total de las encuestas. Para cada pregunta
en inglés se dispone de su equivalente en
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 46
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 47
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Spanish JavaSimLib: una herramienta para el cálculo de la
similitud semántica entre palabras en castellano
Spanish JavaSimLib: a tool to compute the semantic similarity between
words in Spanish
Isaac Lozano, Alexandre Trilla, Francesc Alı́as
GTM – Grup de Recerca en Tecnologies Mèdia
LA SALLE – UNIVERSITAT RAMON LLULL
Quatre Camins 2, 08022 Barcelona (Spain)
st18187@salle.url.edu, atrilla@salle.url.edu, falias@salle.url.edu
iomas que más domina los ámbitos económi- mite determinar la similitud semántica en-
cos, cientı́ficos y tecnológicos, dejando a otros tre palabras en inglés. El resultado de esta
idiomas, como el castellano, en un segun- adaptación se puede incorporar al módulo de
do plano. En este contexto, las herramientas desambiguación semántica de cualquier her-
lingüı́sticas de análisis y procesamiento de los ramienta de las anteriormente enumeradas.
idiomas se suelen desarrollar primero para el En (Seco, Veale, y Hayes, 2004) se describe
inglés y luego para los otros idiomas. una herramienta, denominada JavaSimLib1 ,
En la literatura se pueden encontrar dis- capaz de valorar la similitud semántica entre
tintos trabajos de investigación orientados pares de palabras con resultados satisfacto-
al desarrollo y adaptación de herramientas rios usando WordNet en inglés y el motor de
lingüı́sticas en inglés para conseguir presta- búsqueda Lucene2 . Para adaptar dicha her-
ciones similares para el castellano. Por ejemp- ramienta al castellano, aquı́ nombrada Span-
lo, se pueden destacar herramientas del cam- ish JavaSimLib, es necesario contemplar cier-
po del Procesamiento del Lenguaje Natural tos detalles especı́ficos de este idioma ası́ co-
como Freeling (Padró et al., 2010), del campo mo considerar el WordNet en castellano.
del Análisis del Sentimiento como EmoTag La organización de este trabajo se describe
(Francisco y Hervás, 2007) y EmoLib (Garcı́a a continuación. En la Sección 2 se muestra
y Alı́as, 2008; Trilla y Alı́as, 2009), y del el proceso seguido en el desarrollo de la her-
campo de la Traducción Automática como el ramienta para el castellano, detallando todos
Apertium (Vié et al., 2011), para nombrar al- los pasos realizados para incorporar WordNet
gunos. Estas herramientas están tı́picamente
constituidas por distintos módulos elemen- 1
eden.dei.uc.pt/∼nseco/javasimlib.tar.gz
2
tales (tokenizador, POS taggers, stemmers, http://lucene.apache.org/
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 49
en castellano al proceso de cálculo de la simil- definición del concepto que describen cada
itud semántica. En la Sección 3 se describe uno de ellos. Un synset es un grupo de pal-
la evaluación de la herramienta y se valo- abras que tienen el mismo significado. En la
ra si su efectividad es equivalente a la her- tabla variant aparecen todas las palabras del
ramienta original desarrollada para el inglés. WordNet, cada una de ellas asociada con el
En las Secciones 4 y 5 se discuten los resulta- synset al que pertenece y la acepción que de-
dos obtenidos y se detallan las conclusiones fine. Por último, en la tabla relation se mues-
obtenidas y el trabajo futuro. tran diferentes relaciones semánticas entre
synsets, tales como hiponimia, meronimia,
2. Adaptación de JavaSimLib al antonimia, etc. En el Cuadro 1 se muestra un
castellano ejemplo sobre la estructura y los campos más
En este apartado se describe el proce- importantes de estas tablas, considerando el
so realizado para disponer de la Spanish synset que contiene la palabra “chico” y sus
JavaSimLib, que permite evaluar la similitud sinónimos referentes a la acepción que define
semántica entre dos palabras en castellano. una persona joven de genero masculino.
En primer lugar, se describe el formato de En el Cuadro 1(a) se puede observar co-
los datos originales a partir de los cuales se mo están estructurados los synsets. El campo
realiza un proceso de adaptación para utilizar pos muestra la función de la palabra defini-
el motor de búsqueda Lucene. A continuación da por el synset, el valor offset es el iden-
se realiza la adaptación y la ampliación de los tificador del concepto dentro del WordNet,
datos con el objetivo de encontrar todos los el número de hipónimos del synset viene de-
parámetros necesarios en el desarrollo de la terminado por el campo sons y por último
herramienta. Después de este proceso, se lle- se muestra la definición del concepto descrito
va a cabo la conversión del formato de datos en el campo gloss. El Cuadro 1(b) muestra
para poder trabajar en un entorno basado en la tabla variant, la cual comparte los cam-
el motor de búsqueda Lucene. Finalmente, se pos pos y offset, que informan de los mis-
muestra el formato de los datos generados con mos parámetros que en la tabla de synsets.
el objetivo de comprobar su estructura. Los otros parámetros de interés son el campo
word, el cual muestra la palabra definida por
2.1. Datos originales de WordNet el synset y el campo sense el cual muestra la
en castellano acepción de dicha palabra. Por último, se en-
Los datos iniciales proceden de la versión cuentra la tabla relation en el Cuadro 1(c).
En esta tabla se muestra la relación semánti-
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 50
synset
pos offset sons gloss
n 07389783 12 Persona joven de sexo masculino
(a) Tabla synset
variant
pos offset word sense
n 07389783 garzón 1
n 07389783 muchacho 1
n 07389783 mozo 1
n 07389783 chaval 2
n 07389783 chico 1
n 07389783 niño 2
(b) Tabla variant
relation
relation sourcePos sourceSynset targetPos targetSynset
near-antonym n 07389783 n 07260273
has-hyponym n 07389783 n 07071609
(c) Tabla relation
Cuadro 1: Estructura original del WordNet en castellano para la palabra “chico” usada como
ejemplo.
cuentemente suelen ser conceptos muy glob- Consecuentemente, el valor de maxwn varia
ales y muy poco especı́ficos de una temática de la forma siguiente:
concreta. En el caso propuesto en este artı́cu-
lo se trabaja con un WordNet. Por lo tanto, es Nombres: maxwn = 71410
interesante valorar el contenido de informa- Verbos: maxwn = 12342
ción de una palabra en base a un criterio dis-
tinto al cálculo de probabilidades. En (Seco, Adjetivos: maxwn = 18189
Veale, y Hayes, 2004) se propone la siguiente
expresión para calcular el contenido de infor- De esta forma, se realizarán tres estruc-
mación en un entorno basado en WordNets: turas diferentes según la función de palabra
ya que las jerarquı́as en el WordNet son inde-
log(hypo(c) + 1) pendientes. El cálculo del contenido de infor-
icwn (c) = 1 − (2) mación de cada synset se realiza con la ayu-
log(maxwn )
da del campo sons de la tabla synset exis-
En la expresión 2, hypo(c) es el número de tente en los datos originales. Como se ha co-
hipónimos de un synset concreto del WordNet mentado anteriormente, este campo especifi-
y maxwn es el número total de conceptos ca el número de hipónimos de cada synset.
que hay en el WordNet. Esta expresión indica Por lo tanto se puede aplicar la expresión 2,
la dependencia del contenido de información utilizando hypo(c) = sons para cada uno de
con el número de hipónimos de un synset con- los synsets.
creto. Si un synset tiene un gran número de Para acabar de calcular la similitud en-
hipónimos, indica que se está ante un con- tre dos conceptos, es necesario conocer el
cepto muy global y por ello su contenido de Most Specific Common Abstraction (MSCA)
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 51
de los conceptos a valorar. El MSCA indica la hiperónimo del hiperónimo, hasta llegar al
información compartida entre dos conceptos synset con menor contenido de información.
cualquiera. Por norma general, es interesante Comparando las cadenas de hiperónimos de
calcular el concepto perteneciente al MSCA dos conceptos, se puede encontrar el synset
con el contenido de información más alto. perteneciente al MSCA de los dos conceptos.
Originalmente, este valor se define según la Para ello ha sido necesario corregir dos incon-
similitud de Resnik (1995): gruencias de la tabla relation:
de Jiang y Conrath utilizada en (Seco, Veale, capacidad de extraer información de una base
y Hayes, 2004), donde se calcula la similitud de datos con comandos propios de un entorno
de Resnik a partir del MSCA en un WordNet: SQL. De esta forma se pueden organizar los
campos de los ı́ndices Lucene con sentencias
idénticas a las utilizadas en la selección de in-
(icres (c1 ) + icres (c2 ))
simjcn (c1 , c2 ) = 1 − − formación en una base de datos MySQL. Los
2 ı́ndices Lucene resultantes deben contener los
2 · simres0 (c1 , c2 ) siguientes campos en la herramienta Spanish
− (5)
2 JavaSimLib:
En un WordNet, el synset perteneciente al
MSCA de dos conceptos es el synset hiperóni- hypernym: Árbol de hiperónimos de un
mo común entre ellos que posee el mayor con- synset concreto. Necesario para poder
tenido de información. El synset que cumple calcular el MSCA entre dos synsets, y
esta condición siempre es el synset intersec- por consiguiente, la similitud entre dos
ción entre los dos conceptos de los cuales conceptos.
se estudia la similitud. Para poder calcular ic: Contenido de información de un
el MSCA de dos conceptos, y por lo tanto synset concreto. Interviene de forma ac-
su similitud, se ha implementado un algorit- tiva en el cálculo de la similitud entre
mo que retorna todos los identificadores de dos conceptos.
synsets hiperónimos de cada concepto exis-
tente en el WordNet con la ayuda de la tabla synset: Identificador de synset.
relation, véase Cuadro 1(c). Es decir, se cal- 3
http://lab.cisti-icist.nrc-
cula el hiperónimo del concepto original, el cnrc.gc.ca/cistilabswiki/index.php/LuSql
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 52
word: Cadena de caracteres formada por similitud o sinonimia total). En (Seco, Veale,
todas las palabras pertenecientes a un y Hayes, 2004) se muestra el coeficiente de
synset concreto, juntamente con el iden- correlación de Pearson de estas puntuaciones
tificador de acepción. Aunque en la base con la similitud calculada usando la ecuación
de datos original no se encuentra esta 5, obteniendo una correlación de 0,84. Para
estructura, la capacidad del conversor evaluar las prestaciones de la adaptación de
LuSQL permite el uso de sentencias de JavaSimLib al castellano, se calcula la cor-
concatenación para generar este campo. relación de los pares de palabras traducidos al
castellano usando la similitud semántica cal-
A pesar de que algunos campos están for- culada a partir de los ı́ndices de similitud que
mados por cadenas de caracteres, Lucene se obtienen mediante la herramienta Spanish
puede extraer información individualizada de JavaSimLib.
estas estructuras debido a la opción de orga- En la traducción y el cálculo de similitud
nizar los datos en tokens. De esta forma, se semántica ha sido necesario descartar 6 pares
puede extraer información individual de los de palabras del experimento original por dis-
campos hypernym y word. Con la generación tintas circunstancias. En los pares de pal-
de los ı́ndices Lucene, ya se tienen los datos abras “caldera-estufa” y “gema-joya” se han
en un formato adecuado para la adaptación encontrado inconsistencias en el MSCA y en
de la herramienta capaz de valorar la simili- la estructura del WordNet en castellano. En
tud semántica entre palabras en castellano. el caso inglés de “caldera-estufa” (furnace-
2.4. Visualización de los ı́ndices stove), también aparecen inconsistencias, tal
y como se comenta en (Jiang y Conrath,
Para revisar el formato de los ı́ndices de-
1998). En la Figura 2 se pueden ver las difer-
sarrollados, se puede optar por visualizarlos
encias entre el WordNet inglés y el castel-
con el visor de ı́ndices Lucene Luke4 . Luke es
lano para los pares de palabras “gem-jewel”
una herramienta que permite observar datos
y “gema-joya”. En ella, sólo aparecen las
basados en el motor de búsqueda Lucene.
acepciones más caracterı́sticas de cada synset
También permite la edición de los ı́ndices en
con el objetivo de facilitar la comprensión de
el caso que sea necesaria alguna modificación.
las estructuras. En el caso de los pares de
Pero aunque se disponga de esta funcionali-
palabras en inglés “midday-noon” y “noon-
dad, en el caso de trabajar con un gran vol-
string” no se ha encontrado una traducción
umen de datos como es el caso que se de-
razonable para el término noon, ya que este
scribe en este artı́culo, es preferible realizar la
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 53
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 54
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 55
CORRELACIÓN 1 0,77
(a) Pares de palabras seleccionados
Pares en inglés Pares en castellano EH SS Motivo del descarte
gem jewel gema joya 3,84 0,21 Inconsistencia del WordNet
midday noon mediodı́a – 3,42 – Traducción inexistente para noon
furnace stove caldera estufa 3,11 0,27 Inconsistencia del WordNet
bird crane pájaro grulla/grúa 2,97 – Doble traducción de la palabra crane
crane implement grulla/grúa instrumento 1,68 – Doble traducción de la palabra crane
noon string – cuerda 0,08 – Traducción inexistente para noon
(b) Pares de palabras descartados
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Three-class Sentiment Analysis adapted to short texts
Análisis del sentimiento en tres clases adaptado a textos cortos
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 57
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 58
In this regard, bigrams (i.e., the ordered co- weights each term according to its promi-
occurrence of two unigrams) may also be con- nence within the sentence, and the Relevance
sidered in the amount of features (Pang, Lee, Factor (RF) (Lan et al., 2009), which weights
y Vaithyanathan, 2002). Bigrams are re- the relevance of a term regarding its distribu-
ported to be of help to grasp stylistic traits tion among the categories.
and structural information (i.e., syntactic)
in the text (Alı́as et al., 2008; Pang y Lee, 2.2 Text Classification
2008). This is regarded to be an alterna- This section describes some of the most rep-
tive way to incorporate context (Pang, Lee, resentative TC methods for SA, focusing on
y Vaithyanathan, 2002), and with the inclu- the discovery of knowledge that each method
sion of POS tags, the analysis is added some can provide from the input features. Given
grammatical and syntactical value (Pang y the short text conditions tackled in this work,
Lee, 2008). Nevertheless, higher order n- the choice of classifier probably has an impor-
grams are generally discarded as they do not tant effect on the effectiveness of the system
appear to contribute much to the identifica- (Manning, Raghavan, y Schütze, 2008).
tion of affect in the text (Pang y Lee, 2008). Originally the classification step was per-
In addition, the stems of the words may also formed with a set of heuristic rules on the
be considered for enhanced indexing purposes circumplex (Garcı́a y Alı́as, 2008), but recent
(Sebastiani, 2002), and a semantic expansion improvements have shown that automatically
procedure may also be conducted through the learning the term-feature space is a more
inclusion of word synonyms (Garcı́a y Alı́as, effective solution (Trilla, Alı́as, y Lozano,
2008). Finally, non-linguistic traits may also 2010). Hence, to capture the generality and
be considered as a means of domain indepen- scope of the problem space, both genera-
dent features. In this regard, the emotional tive and discriminative learning approaches
dimensions of valence, activation and control are considered in this work (see Figure 1).
are usually considered (Garcı́a y Alı́as, 2008; Generative models explain the data, and if
Trilla y Alı́as, 2009). the model is correct, they should yield the
2.1.1 Term Weighting best possible classification effectiveness rates
In TC, the relative importance of features is (Mitchell, 2005). Nevertheless, since the form
of great relevance (Sebastiani, 2002; Man- of the actual model is unknown and the train-
ning, Raghavan, y Schütze, 2008). But us- ing sample does not generally cover the whole
ing all the features together directly often feature space, instead of proposing an end-
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
increases the the size of the feature space less amount of possible approximate models,
without providing much satisfactory power task-centric approaches based on discrimi-
(sparseness problem) (Manning, Raghavan, nating the sentiment categories are evaluated
y Schütze, 2008). Hence, weighting the rel- (Manning, Raghavan, y Schütze, 2008).
evance of the features increases the separa- In the end, the inductive construction of
bility properties of the data improving the ML methods for solving TC and SA is essen-
classification effectiveness (Sebastiani, 2002; tially the same. Within the polynomial mod-
Manning, Raghavan, y Schütze, 2008; Dang, els, linear models are proposed in this work
Zhang, y Chen, 2010). for their simplicity over their (more complex)
An everlasting question regarding the nonlinear counterparts. Note that because
weighting of terms is their representation of the bias-variance tradeoff in the classifica-
of presence versus frequency (Pang, Lee, y tion effectiveness rates, complex models are
Vaithyanathan, 2002; Pang y Lee, 2008; not systematically better than linear mod-
Manning, Raghavan, y Schütze, 2008). Al- els (Manning, Raghavan, y Schütze, 2008).
though the frequency of terms seems to be Nonlinear models have more parameters to
more useful as it naturally encodes the pres- fit on a limited amount of training data and
ence of terms, the use of binary weights de- they are more prone to make mistakes for
noting term presence/absence has compara- small datasets (see (Alı́as et al., 2008) for an
tively performed better in SA (Pang y Lee, empirical evidence of this phenomenon). In-
2008). In this work, binary weights are stead, linear models might be preferable to
evaluated, as well as a couple of enhanced separate the bulk of the data, i.e., to ob-
frequency-based weights: the Inverse Term tain a better generalisation of classification
Frequency (ITF) (Alı́as et al., 2008), which (Manning, Raghavan, y Schütze, 2008). And
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 59
with the high dimensional spaces that are affect classification (Bellegarda, 2011) as well
typically encountered in text processing ap- as in TC and SA (Sebastiani, 2002; Strappa-
plications, the likelihood of linear separabil- rava y Mihalcea, 2007).
ity increases rapidly (Manning, Raghavan, y 2.2.4 Maximum Entropy (MaxEnt)
Schütze, 2008). What follows is the descrip-
It is a probabilistic discriminative approach
tion of some typical learning environments in
that fits a set of exponential functions via
TC and SA to evaluate.
the Maximum A Posteriori estimation (Car-
2.2.1 Multinomial Naive Bayes penter, 2008). MaxEnt obeys the maximum
(MNB) entropy principle, therefore it does not make
MNB is a probabilistic generative approach any further assumption beyond what is di-
that builds a language model assuming con- rectly observed in the training data. More-
ditional independence among the features. In over, it makes no assumptions about the re-
reality, this assumption does not hold for text lationships among the features, and so might
data (Pang, Lee, y Vaithyanathan, 2002), potentially be more effective when condi-
but even though the probability estimates are tional independence assumptions are not met
of low quality because of this oversimplified (Pang, Lee, y Vaithyanathan, 2002). MaxEnt
model, its classification decisions are surpris- has been used for SA and TC environments
ingly good (Manning, Raghavan, y Schütze, (Trilla, Alı́as, y Lozano, 2010; Pang, Lee, y
2008). The MNB combines efficiency (it has Vaithyanathan, 2002; Pang y Lee, 2008)
an optimal time performance) with good ac-
2.2.5 Support Vector Machine
curacy, hence it is often used as a baseline in
(SVM)
TC and SA research (Sebastiani, 2002; Man-
ning, Raghavan, y Schütze, 2008). It is a maximum-margin discriminative ap-
proach that searches the hyperplane (decision
2.2.2 Associative Relational Network surface in the feature space) that is maxi-
- Reduced (ARN-R) mally distant from the class-wise data points.
It is a word co-occurrence network-based ap- Since the SVM is a dichotomous classifier, a
proach that constructs a VSM with a term se- multicategorisation strategy has to be consid-
lection method “on the fly” based on the ob- ered to deal with the three sentiment classes.
servation of test features (Alı́as et al., 2008). SVM has shown to be superior with respect
This inherent term selection refinement is to other methods in situations with few train-
reported to improve the classical VSM for ing data (Pang y Lee, 2008), in TC scenarios
modest-size sentence-based data (Alı́as et al.,
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 60
filtered out (0.32%). This fact shows that dif- tion flags, and 2) the sole consideration of
ferentiating between the presence/frequency weighted unigrams as only the essential traits
representation of the features seems to be of of sentiment in text. On the other hand, the
little relevance for this data: in either case, specific implementation of the TC methods
the information is almost the same (this is to be evaluated are described hereunder:
strictly true for the 99.68% of the sentences
• MNB uses Manning’s TC definition for
in this corpus).
discrete features (binary weights) (Man-
It is also important to note the richness
ning, Raghavan, y Schütze, 2008) and
of the vocabulary extracted from the data.
the Weka’s general-purpose NaiveBayes-
Half the total number of unigrams yields the
Multinomial with continuous weighted
size of the whole unigram set, and in the case
features (Witten y Frank, 2005).
of bigrams, these counts are almost equal.
Hence, on average, each term only appears • ARN-R is implemented following (Alı́as
twice at most in the whole corpus. This lack et al., 2008).
of frequent features puts an extra difficulty
for the identification of sentiment and there- • LSA uses the SVD implementation pro-
fore supports the proposal of Feature Engi- vided by LingPipe1 to construct a latent
neering on the most relevant ones. semantic space (Deerwester et al., 1990).
In order to gain intuition of the data • MaxEnt uses the Stochastic Gradient
character, Table 2 shows the relative bal- Descent optimisation procedure pro-
ance of some word counts among the senti- vided by LingPipe (Carpenter, 2008).
ment classes. As the orientation of the words
1
changes from “good” to “bad”, the mass of http://alias-i.com/lingpipe/
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 61
entails evaluating the effectiveness of the sys- the MNB, MaxEnt and SVM. Specifically,
tem with a train-test scenario (Strapparava y the MNB with binary-weighted unigrams and
Mihalcea, 2007), where a single F1 measure the MaxEnt with RF yield the best improve-
is provided given that only one experiment is ment margin, which is of 7%. In this lighter
performed (training with the trial subset of but essential feature setting, which involves
the corpus that consists of 250 headlines, and much less parameters, the classifiers perform
testing with the remaining 1000 headlines). more effectively, a fact that is attributed to
The effectiveness of the classifiers with the minimising the overfitting of the data (Sebas-
whole set of features (weighted unigrams, bi- tiani, 2002; Manning, Raghavan, y Schütze,
grams, POS tags, stems, emotional dimen- 2008). Hence, they yield a good adaptation
sions and negation flags) is shown in Table of the general SA methods to the problem
3. It can be observed that most of them at hand. In (Pang, Lee, y Vaithyanathan,
yield similar effectiveness rates around 39%, 2002), a similar outcome was obtained with
so none of them improves the aforementioned respect to the importance of unigrams alone
baseline result in the literature. In addition, for long texts labelled with two categories of
MaxEnt could not predict the class with the sentiment.
least generality, which denotes the especial In the end, the most successful SA strate-
requirement of a minimum amount of exam- gies evaluated for the problem at hand,
ples for this classifier. Regarding that the fea- namely with MNB and MaxEnt, converge to
ture dimensionality is very large in this sce- a similar effectiveness around 49%, thus im-
nario (considering all unigrams and bigrams proving the effectiveness rates reported in the
together amount up to more than 10000 pa- state of the art by almost 7% (Strapparava y
rameters), it is possible that the classifiers Mihalcea, 2007).
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 62
bastiani, 2002). This work shows how consid- y Richard Harshman. 1990. Indexing by
ering unigrams alone (with adequate weight- Latent Semantic Analysis. J. Am. Soc.
ing methods) results in better classification Inform, Sci., 41(6):391–407.
effectiveness compared to using additional
features such as bigrams, POS tags, etc. Pre- Garcı́a, David y Francesc Alı́as. 2008. Emo-
vious works operating in other environments, tion identification from text using seman-
namely longer texts and two classes of senti- tic disambiguation. En Procesamiento del
ment, reached a similar conclusion with re- Lenguaje Natural, numero 40, páginas 75–
gard to the importance of unigrams (Pang, 82 (in Spanish), Mar.
Lee, y Vaithyanathan, 2002). These results Kouloumpis, Efthymios, Theresa Wilson, y
allow us to suggest that for SA problems, Johanna Moore. 2011. Twitter Senti-
using only the essential information that de- ment Analysis: The Good the Bad and
notes the sentiment in text by means of the the OMG! Jul.
unigrams alone, the problem becomes more
tractable for the generally successful classi- Lan, Man, Chew Lim Tan, Jian Su, y Yue Lu.
fiers, and therefore they performs most effec- 2009. Supervised and Traditional Term
tively. Weighting Methods for Automatic Text
Categorization. IEEE T. Pattern. Anal.,
Bibliografı́a 31(4):721–735, Apr.
Alı́as, Francesc, Xavier Sevillano, Manning, Christopher D., Prabhakar Ragha-
Joan Claudi Socoró, y Xavier Gon- van, y Hinrich Schütze. 2008. Introduc-
zalvo. 2008. Towards High-Quality tion to Information Retrieval. Cambridge
Next-Generation Text-to-Speech Syn- University Press, Cambridge, MA, USA.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 63
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
A Question Classification study based on machine learning
Un Estudio sobre Clasificación de Preguntas basado en Aprendizaje
Automático
tems. In this paper we present a detailed study on several learning algorithms for
automatic question classification, with the aim of showing the classification per-
formance avoiding to use linguistic tools and resources. The selected features for
the experiments are the following: bag-of-words and bag-of-ngrams. The learning
algorithms employed in the experiments are: Decision Trees, Naı̈ve Bayes, Nearest
Neighbors and Support Vector Machines. We use several semantic categories sub-
divided into finegrained classes in order to classify the target questions, this will
allow the question answering system select different processing strategies for each
category. Finally we show and discuss the obtained results for the classification of
questions from QA4MRE dataset of CLEF2011.
Keywords: Question Classification, Question Answering, text classification, machi-
ne learning, supervised learning
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 65
tion Answering and Reading Comprehension with the question dataset of the QA4MRE
Test. The task focuses on the reading of single task of CLEF2011. This double test of the
documents and the identification of the ans- QC on two very different set of questions is
wers to a set of questions about information made to validate the results of the experi-
that is stated or implied in the text. ments and to avoid over fitting in the classi-
A previous conference that support a fiers.
competitive research on question answering, The remaining of this paper is organized
was the Text Retrieval Conference, TREC as follows: Section 2 presents related works
(http://trec.nist.gov/), with the QA track, in the field; Section 3 is an introduction to
from 1999 to 2007. The focus of the TREC the question classification problem; Section 4
QA track was to build a fully automatic open- presents several machine learning approaches
domain question answering system, which to question classification; Section 5 describes
can answer factual questions based on very our experimental study and the obtained re-
large document sets. sults; Finally, Section 6 concludes the paper.
The components of a QA system may vary
from one system to another, but it is clear 2. Related work
that a large number of automatic classifiers There exists several papers tackling the
will be used at different levels of the process question classification problem using heuris-
supporting a variety of functions, from know- tic rules (Voorhees, 2001; Hermjakob, 2001)
ledge acquisition to decision making(Roth et with some inconveniences however, such as
al., 2001). One of these components is the the difficulty of formulating the patterns
Question Classification module(QC), which that capture the class of the questions, the
refers to the process of analyzing the ques- lack of flexibility, and the domain depen-
tion and put it into a semantic category, to dency(Tomás et al., 2005). There are, several
allow the system select different processing ways to express the same question, for ins-
strategies and filter out a wide candidate of tance, Why is Annie Lennox famous?,
answers(Li and Roth, 2002)(Zhang and Lee, or What event make Annie Lennox fa-
2003). Furthermore, the QC has been high- mous? or How did Annie Lennox beca-
lighted as a task itself within the world of na- me famous?, there are tree ways to express
tural language processing and QA, since the the same question, therefore it will imply dif-
accuracy of the question classification is very ferent patterns formulation.
important to the overall performance of the Recent systems use diverse machine lear-
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 66
Coarse Fine
chine translators and other NLP English re- ABBREVIATION abbreviation, expansion
ENTITY definition, description, manner,
sources. Finally there are other works (like reason
(Tomás et al., 2005), (Tomás, 2010)), presen- DESCRIPTION animal, body, color, creation,
currency, disease-medical,
ting a QC system, flexible and easy to adapt event, food, instrument,
language, letter, other,
to new languages due to the use of langua- plant, product, religion,
sport, substance, symbol,
ge independent learning features, furthermo- technique, term, vehicle, word
re comparing its performance in a parallel HUMAN description, group, individual,
title
English-Spanish corpus of questions. LOCATION city, country, mountain,
other, state
NUMERIC code, count, date, distance,
money, order, other,
percent, period, speed,
temperature, size, weight
3. Question Classification
Question Classification is the task of as- Table 1: Question Hierarchy. Coarse classes
signing a class within a predefined hierarchy and their fine class refinements.
to a given question, thus providing a seman-
tic restriction on the subsequent search of the 4. Machine Learning
answer. The possible restrictions imposed by Machine learning methods have many ad-
the system, allows to delimit the selection of vantages over manual methods (Li and Roth,
candidate answers and helps to select diffe- 2002). In this paper we have tested 4 ma-
rent strategies for the answer search process, chine learning algorithms widely used in text
for instance, the question: What is Nelson categorization (Yang and Liu, 1999) (Sebas-
Mandela’s country of origin?, allows to tiani, 2002) (Joachims, 1998): Nearest Neigh-
identify that the target of this question is bors (NN), Naı̈ve Bayes (NB), Decision Tree
an entity, therefor strategies that are specific (DT) and Support Vector Machine (SVM).
for entity (e.g., using predefined templates) In order to train any learning algorithm we
may be useful. Furthermore the same ques- need to extract a list of features from each
tion could be classified in a finer class within question. Every classification task based on
entity, such as country. supervised automatic learning needs two cor-
Most QA systems can only perform a coar- pus, one for training the model and the other
se classification for a limited number of clas- to test it. In this work each instance of the
ses (20 or less). Existing approaches, as in training corpus is made up of several attri-
(Singhal et al., 2000), have adopted a small butes and it correspondig class. The aim of
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
set of simple answer entity types, which con- these methods is to obtain a model capable
sisted of the classes: Person, Location, Orga- of predicting the class for instances of a dif-
nization, Date, Quantity, Duration, Linear, ferent corpus, from which only the attributes
Measure, and they use simple rules for the are known.
classification. Although these kind of rules 4.1. Decision Trees
have reasonable accuracy, they are not suf-
ficient to support fine-grained classification. The Decision Tree (DT) algorithm (Mit-
chell, 1997) is a method for approximating
For this study we aim to classify the discrete valued target function, in which the
question data set given in the past task of learned function is represented by a tree
QA4MRE of CLEF2011. The given questions (of arbitrary degree) that classifies instan-
are classified into 5 categories: factoid, cau- ces. The C4.5 (Quinlan, 1993) algorithm is a
sal, method, purpose, which is true. However widely used implementation of the DT algo-
those categories do not seem to be helpful to rithm, in this paper we use the WEKA (Wit-
define further search strategies; instead we ten and Frank, 2000) implementation of this
consider a semantical classification of ques- method.
tions as in (Li and Roth, 2002) (Zhang and
Lee, 2003), where they propose a two-layered 4.2. Naı̈ve Bayes
question taxonomy which contains a 6 coarse The Naı̈ve Bayes (NB) algorithm (Mit-
grained categories, and 50 fine grained cate- chell, 1997) is commonly studied in machi-
gories, (as shown in Table 1). Each coarse ne learning. It is regarded as one of the top
grained category contains a non-overlapping performing methods for document classifica-
set of fine grained categories. tion (Yang and Liu, 1999). Its basic idea is
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 67
NUmber of instances
1200
generative model for instances, then it finds 1000
800
the most probable class for a given instan- 600
400
ce using the Bayes Theorem and the Naı̈ve 200
assumption that the features occur indepen- 0
ABBR ENTY DESC HUM LOC NUM
dently of each other inside a class. 5500 86 1250 1162 1223 835 896
4000 62 937 857 884 616 644
3000 45 710 655 655 457 478
4.3. k-Nearest Neighbor 2000 30 486 419 442 312 311
1000 18 244 211 220 156 151
This algorithm has been successfully ap-
plied in document classification (Yang and
Liu, 1999). It assumes that all the instan- Figure 1: Coarse Classes Distribution on the
ces correspond to points in the n-dimensional training data set provided by UIUC
space <n . The nearest neighbors of an instan-
ce are defined in terms of the standard Eucli-
dean distance, where an instance is described
are presented the results with the default pa-
by a feature vector(Mitchell, 1997).
rameters of each algorithm. The training is
4.4. Support Vector Machines made on 5 different size training data sets
Support Vector Machines (SVM) is a met- (like in (Zhang and Lee, 2003)). Two diffe-
hod that attempts to find an optimal hyper- rent test sets are used for the evaluation of
plane (border) that is capable of separating the classifiers. In order to compare the results
a set of binary samples. In order to do this with other works, the reported performance
the samples are drawn closest to the border, of the classification is measured by accuracy,
a set of elements that are known as support i.e., the proportion of the correctly classified
vectors. The optimal hyperplane is the one questions among all test questions.
that maximizes the margin or distance bet- 5.1. Data sets
ween the border and those support vectors.
Formally, given a training corpus of pairs For the training step we use the publicly
(xi , yi ), where i = 1...m with m the number available data set provided by UIUC (Li and
of samples, xi is the feature vector (xi <n ) Roth, 2002), in which all the instances ha-
and yi the label that shows if the sample xi ve been manually label by the UIUC (Li
belongs or not to the class (yi {1, −1}m ), the and Roth, 2002) according to the taxonomy
SVM (Boser, Guyon, and Vapnik, 1992)(Cor- shown in Table 1.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
tes and Vapnik, 1995) obtains the solution to The data sets consist of 5,000 labeled
the following optimization problem: questions randomly divided into 4 training
data sets of sizes 2,000, 3,000, 4,000 and
5,500; the class distribution if this set is sown
m
M IN 1 X in Figure 1, there we can observe an homo-
||w||2 + C ξi (1) geneous distribution of the classes which en-
w, b, ξ 2
i=1
courages us to use this set for training the
with yi (wT xi + b) ≥ 1 − ξi QC and, thereafter, test it with a different
(2) question set.
ξi ≥ 0
For the further evaluation of the QC by
where the function wT xi + b represent the machine learning algorithms, we use as test
searched hyperplane, C is a parameter that dataset the set of questions of the QA4MRE
controls the amount of training errors allo- task of CLEF2011, which consists of 120 ins-
wed, the εi variables are introduced to deal tances, manually labeled according to the sa-
with cases where there may be no separating me taxonomy shown in Table 1. We also con-
hyperplane. sider important to test the QC with the data-
set of the TREC10 QA track, which contains
5. Experimental Study 500 labeled questions (as did in (Zhang and
All the learning algorithms tested in this Lee, 2003)), to compare accurately our ob-
work are WEKA implementations. Although tained results with the obtained in previous
we have tested the algorithms with different works. Figure 2 presents the distribution of
parameters we have achieved better results the coarse classes on the TREC and CLEF
with the default ones, and thats why here datasets. Although the TREC dataset is lar-
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 68
123
CLEF TREC
138
113 74
94
81 55
47
65 38
54
15 16 16 18
23 19 6 6 6 6 7 7 8 9 10 10
12 12 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5 5
9
0
exp
dist
abb
manner
body
dismed
lang
plant
money
date
product
title
country
veh
count
desc
substance
ind
weight
temp
reason
currency
gr
sports
event
mount
perc
food
speed
termq
other
def
instru
state
color
animal
city
techmeth
period
ABBR ENTY DESC HUM LOC NUM
Figure 2: Comparison of the Coarse Classes Figure 4: Fine Classes Distribution on the
Distribution on the CLEF and TREC data TREC data set
set
techm…
word
date
manner
gr
count
ind
desc
city
title
country
def
reason
state
event
other
termeq
period
cremat
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 69
Table 2: The QC accuracy comparison with different machine learning algorithms, using the
bag-of-words features, under the coarse grained category definition.
ristic that we can observe in all tables is that 75.83 % of accuracy with the DT method. Ho-
the classifiers trained on larger training da- wever this feature does not seems to affect the
tasets usually get better performance. TREC dataset, in which the accuracy have
In Table 2, we can observe that the SVM not decreased that much, obtaining a 86.40 %
method obtains the best results, reaching with the SVM method. In (Zhang and Lee,
97.6 % of accuracy, when the test was with 2003) the best accuracy reported was 80.2 %
the TREC dataset and training with 3,000 for the fine grained classification using the
instances of the UIUC dataset.The DT al- bag-of-word features.
gorithm outperforms the others reaching a The last experiment results are shown in
96.66 % of accuracy with all training data- Table 5. There we can observe that SVM ob-
sets, when the test was with the CLEF data- tains the best performance, with a 82.60 % of
set. In (Zhang and Lee, 2003) the best accu- accuracy for the TREC dataset; but again,
racy achieved was 87.4 %. These results allow the bag-of-word features outperforms these
us to affirm that even if this training data- results. For the CLEF dataset the results are
set was not built for the task of QA4MRE not encouraging, achieving only 72.5 % of ac-
of CLEF, we can successfully use it for this curacy with the SVM method.
task, due to the excellent results obtained so Another interesting feature observed is
far. that if we use bag-of-words for the classifi-
In Table 3, we can observe that the cation, the obtained accuracy is better when
SVM method outperform the others in al- training with a small amount of instances,
most every trial, followed by the DT met- unlike the bag-of-ngram, which obtains bet-
hod. We also observe that the bag-of-ngrams ter results when training with a large data
features are not much better than the bag- set.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 70
Table 3: The QC accuracy comparison with different machine learning algorithms, using the
bag-of-ngrams features, under the coarse grained category definition
Dataset 2000 3000 4000 5500
Algorithm CLEF TREC CLEF TREC CLEF TREC CLEF TREC
KNN 35.00 67.80 48.33 70.20 48.33 72.00 49.16 74.00
NB 56.66 75.60 59.16 76.80 64.16 77.60 63.33 79.60
SVM 65.83 83.40 70.83 83.40 72.50 82.40 75.00 86.40
DT 75.83 80.60 70.00 82.60 67.50 80.60 68.33 83.60
Table 4: The QC accuracy comparison with different machine learning algorithms, using the
bag-of-words features, under the fine grained category definition.
Dataset 2000 3000 4000 5500
Algorithm CLEF TREC CLEF TREC CLEF TREC CLEF TREC
KNN 44.16 67.20 46.66 69.60 44.16 71.00 45.00 71.40
NB 57.50 69.40 57.50 70.80 53.33 72.60 51.66 73.40
SVM 63.33 80.40 69.16 81.60 70.83 82.60 72.50 82.60
DT 66.66 80.40 69.16 80.80 70.00 81.80 68.33 81.80
Table 5: The QC accuracy comparison with different machine learning algorithms, using the
bag-of-ngrams features, under the fine grained category definition
factual questions and more causal or purpose dimir Vapnik. 1992. A training algorithm
questions decrease the precision of the tested for optimal margin classifiers. In David
classifiers. There could be several solutions to Haussler, editor, COLT, pages 144–152.
this problem and one of which is to develop ACM.
a new training set for this task. We intend to
Cortes, Corinna and Vladimir Vapnik. 1995.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 71
USA. Association for Computational Lin- Voorhees, Ellen M. 2001. Overview of the
guistics. trec-9 question answering track. In In
Joachims, Thorsten. 1998. Text categoriza- Proceedings of the Ninth Text REtrieval
tion with support vector machines: Lear- Conference (TREC-9, pages 71–80.
ning with many relevant features. Witten, Ian H. and Eibe Frank. 2000. Data
Li, Xin and Dan Roth. 2002. Learning ques- Mining: Practical Machine Learning Tools
tion classifiers. In Proceedings of the 19th and Techniques with Java Implementa-
international conference on Computatio- tions. Morgan Kaufmann, San Francisco.
nal linguistics - Volume 1, COLING ’02, Yang, Yiming and Xin Liu. 1999. A re-
pages 1–7, Stroudsburg, PA, USA. Asso- examination of text categorization met-
ciation for Computational Linguistics. hods. In Proceedings of the 22nd annual
Manning, Christopher D., Prabhakar Ragha- international ACM SIGIR conference on
van, and Hinrich Schtze. 2008. Introduc- Research and development in information
tion to Information Retrieval. Cambridge retrieval, SIGIR ’99, pages 42–49, New
University Press, New York, NY, USA. York, NY, USA. ACM.
Manning, Christopher D. and Hinrich Zhang, Dell and Wee Sun Lee. 2003. Ques-
Schütze. 1999. Foundations of statistical tion classification using support vector
natural language processing. MIT Press, machines. In Proceedings of the 26th an-
Cambridge, MA, USA. nual international ACM SIGIR conferen-
Mitchell, Tom M. 1997. Machine Learning. ce on Research and development in infor-
McGraw-Hill, New York, 2 edition. maion retrieval, SIGIR ’03, pages 26–32,
New York, NY, USA. ACM.
Poon, Hoifung and Pedro Domingos. 2010.
Machine reading: A ”killer app ”for sta-
tistical relational ai.
Quinlan, J. Ross. 1993. C4.5: programs for
machine learning. Morgan Kaufmann Pu-
blishers Inc., San Francisco, CA, USA.
Roth, D., G. Kao, X Li, R. Nagarajan,
V. Punyakanok, N. Rizzolo, W. Yih,
C. Alm, and L. G. Moran. 2001. Lear-
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Una propuesta de análisis comparativo
de traducciones humanas y automáticas de textos especializados:
implicaciones para la evaluación
Resumen: El objetivo de este artículo es ofrecer una metodología para el análisis comparativo
de traducciones automáticas (TAs) y traducciones humanas (THs). Para ello conformamos un
corpus paralelo inglés-español de textos especializados del ámbito médico, comparamos la
distribución de ciertas unidades lingüísticas (unidades terminológicas, n-gramas de etiquetas
POS y relaciones discursivas) en THs y TAs, e identificamos las condiciones en las que se
producen las diferencias. Los resultados del estudio muestran que la metodología propuesta
resulta útil para detectar las diferencias entre THs y TAs relevantes para la evaluación u
optimización de sistemas de TA.
Palabras clave: traducción automática, evaluación, comparación, textos especializados
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
Abstract: The goal of this study is to offer a methodology for the comparative analysis of
machine translations (MTs) and human translations (HTs). We build an English-Spanish
parallel corpus of specialized texts from the medical domain, compare the distribution of certain
linguistic units (terminological units, POS n-grams and discourse relations) in HTs and MTs,
and identify the conditions in which these differences take place. The results of the study show
that the methodology is useful to detect differences between HTs and MTs that could be
relevant when evaluating or developing MT systems.
Keywords: Machine Translation, Evaluation, Comparison, Specialized Texts
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 73
similitud TA-TH en términos de coocurrencia para distinguir entre THs y TAs. La calidad de
de n-gramas (para una revisión detallada, véase una traducción se define en función de la
Giménez, 2008) no proporcionan información probabilidad de su pertenencia a la clase de
sobre los rasgos distintivos de la TA. Al THs o TAs. La clasificación con SVM da muy
realizar una comparación directa partiendo de buenos resultados, pero no ofrece información
una representación superficial, estas métricas sobre la naturaleza de los rasgos lingüísticos
penalizan de la misma manera cualquier pertinentes para la comparación de las
diferencia entre la TA y la TH de referencia, versiones traducidas.
sin hacer una distinción entre la variación Al investigar las diferencias entre la TA y
aceptable y las divergencias que realmente la TH se deben tomar en cuenta tanto la
afectan la calidad de la traducción. naturaleza de los textos producidos por
Las diferencias TA-TH pueden estar sistemas de TA, como los rasgos prototípicos
relacionadas tanto con las particularidades de de la TH. Estos han sido estudiados en el
la TA, como con las decisiones del traductor marco de los estudios de traducción basados en
humano, condicionadas no solamente por las corpus (Baker, 1995), que han demostrado que
diferencias sistémicas entre las lenguas, sino los textos traducidos (TTs) presentan una
también por el propio proceso de traducción distribución de unidades (léxicas, sintácticas o
(Baker, 1995) y por las restricciones discursivas) sistemática y significativamente
provenientes de las convenciones de uso de los distinta con respecto a los textos escritos
recursos de la lengua meta en un contexto de originalmente en la lengua de llegada (en este
situación determinado. sentido se reconoce la existencia del "lenguaje
El objetivo de este trabajo es ofrecer una de traducción" o translationese).
metodología para el análisis comparativo de la Al describir las propiedades de los TTs, es
la TA y la TH, teniendo en cuenta diversos necesario determinar cuáles son las posturas
niveles lingüísticos (léxico-terminológico, regularmente adoptadas por los traductores en
sintáctico y discursivo). Para ello un contexto determinado y qué factores
conformamos un corpus paralelo inglés- condicionan sus decisiones (Toury, 2004). Una
español de textos especializados del ámbito manera de abordar esta tarea es por medio de
médico, y comparamos la distribución de la noción de tranlsation shifts 2 (“desviaciones
ciertas unidades lingüísticas (unidades del texto original [TO] en la traducción”). El
terminológicas, n-gramas de etiquetas POS y interés por este fenómeno se debe a la
relaciones discursivas) en las TAs y en las THs contradicción entre la expectativa prototípica
realizadas por dos sistemas basados en de la similitud máxima entre el TT y el TO, y
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 74
en las THs y las diferencias vinculadas a los modificaciones tomando como base los
errores de la TA no tienen el mismo impacto trabajos de Catford (1965), Leuven-Zwart
en la calidad de la traducción. (1989) y Cyrus (2006), la cual se resume en la
Tabla 1.
3 Metodología
Especificación (la unidad del léxico en la TH
En relación con el estudio de las diferencias tiene un significado más específico en
TA-TH en el contexto de la evaluación, Nivel relación con la unidad correspondiente del
léxico TO)
partimos de las siguientes consideraciones
generales. En primer lugar, siguiendo a Toury Generalización (la unidad del léxico en la TH
(2004), consideramos que, para identificar las tiene un significado más general en relación
con la unidad correspondiente del TO)
regularidades en el comportamiento de los
traductores humanos, los TTs objeto de estudio Modificación (las unidades del léxico de los
TOs y las THs tienen una relación diferente a
deben compartir un contexto de situación las que se indican arriba)
específico; por tanto, para llegar a
conclusiones válidas sobre las características Cambios relacionados con la función y
propiedades de la cláusula (voz, modo,
de las traducciones debe partirse de un corpus Nivel cláusulas con verbos conjugados frente a
homogéneo en términos de género y tipo sintáctico cláusulas infinitivas, etc.)
textual. En segundo lugar, el punto de partida Cambios relacionados con la función y la
para el estudio de los rasgos distintivos del posición de los constituyentes (adverbial vs.
lenguaje de la traducción son los TTs, con lo predicativo, traducción de una cláusula con
una frase preposicional, etc.)
cual se identifica primero un patrón lingüístico
(distribución específica de unidades o Nivel Explicitación (la relación discursiva no está
discursivo marcada en el TO, pero sí en el TT)
fenómenos lingüísticos) en la lengua meta y, a
continuación, se investiga con qué tipo de Implicitación (la relación discursiva está
contextos de los TOs se relaciona de manera marcada en el TO, pero no el TT)
sistemática. En tercer lugar, la calidad de la Modificación (la relación discursiva que
traducción como objeto de evaluación tiene existe en el TO no se preserva en el TT)
varios aspectos relacionados con los niveles de
la lengua, y no existe una manera trivial de Tabla 1: Clasificación de translation shifts
ponderar dichos aspectos en términos de su Aplicamos este procedimiento general para
efecto en la calidad global de los TTs. Por analizar un corpus de textos especializados del
tanto, en un primer acercamiento al análisis ámbito médico, concretamente del género
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 75
traducciones de estos sistemas, ya que una de tratamiento de la terminología por parte de los
las preguntas que nos interesa discutir de cara traductores y los sistemas de TA.
a la comparación de las TAs con las THs es Ej. TO TH Google Lucy
qué tipo de modificaciones realizadas por el (CD) (CD) (CD)
humano son capaces de modelar los sistemas 1 disorder patología trastorno desorden
(0.7) (0.2) (-1)
de TA basados en estrategias diferentes. 2 breed progenie raza raza
(1) (0) (0)
4 Análisis y resultados 3 patient organismo paciente paciente
(0.8) (0.1) (0.1)
4 eating deglución comer comiendo
4.1 Nivel léxico-terminológico (0.5) (N/A) (N/A)
5 treating tratamiento tratamiento tratar
En el nivel léxico nos centramos en el (1) (1) (N/A)
tratamiento de la terminología por parte de los 6 motor coordina- coordina- coordina-
traductores humanos y sistemas de TA, ya que coordina- ción motora ción motora ción de
tion (0.5) (0.5) motor
en textos de especialidad son los términos (N/A)
quienes vehiculan el conocimiento 7 stroke accidente carrera golpe
especializado (Cabré, 1999). Para extraer cerebro- (0) (0)
vascular
automáticamente las unidades terminológicas, (0.6)
empleamos la herramienta propuesta por 8 stroke accidente derrame golpe
cerebro- cerebral (0)
Vivaldi y Rodríguez (2010). Este extractor vascular (0.6)
obtiene términos de un dominio de (0.6)
especialidad utilizando las estructuras de 9 stroke accidente accidente golpe
cerebro- cerebro- (0)
páginas y categorías de la Wikipedia, y vascular vascular
proporciona para cada candidato a término un (0.6) (0.6)
coeficiente de dominio [CD] (de 0 a 1) que
Tabla 2: Ejemplos de diferencias en el
indica su grado de pertenencia al ámbito de
tratamiento de la terminología en THs y TAs
especialidad (en nuestro caso "Biología" y
"Medicina"). Nos limitamos a analizar los En los ejemplos 1, 2, 3 y 4, observamos que
candidatos a términos con un CD mayor a 0.5. los traductores humanos tienden a utilizar
Al realizar la extracción, calculamos el número unidades terminológicas con un CD más alto y,
total de candidatos a términos y el número de por tanto, con una pertenencia al ámbito de
candidatos a términos con CDs altos (de 0.8 a especialidad mayor que en las TAs. Esta
1) en cada grupo de TTs. Esta información nos tendencia entra en contradicción con las
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 76
pasar de las construcciones clausales a frases software estadístico R Project identificamos las
nominales. Al igual que en el caso anterior, diferencias estadísticamente significativas (p-
observamos una tendencia de la TH a exagerar valor < 0.05) en la frecuencia de aparición de
los rasgos propios del dominio de especialidad. n-gramas de etiquetas POS en las THs y las
En el ejemplo 5, Google realiza la misma TAs. Extraemos del corpus una muestra
selección que el traductor humano debido a aleatoria de contextos de aparición (a nivel de
que dicha selección es la más frecuente en este oración) de los n-gramas que presentan
contexto. diferencias significativas en su distribución en
En los casos en los que la diferencia TA- las TAs y las THs, e identificamos los
TH se relaciona con los errores de TA, fragmentos correspondientes en los TOs. A
detectamos diversas tendencias. Como se ve en partir de estos datos, detectamos las
el ejemplo 6, los errores de Lucy se producen regularidades en el comportamiento de los
en un contexto de ambigüedad sintáctica o traductores y los sistemas de TA al enfrentarse
semántica de los TOs, problema que Google es con una construcción sintáctica del original
capaz de resolver en la mayoría de los casos. determinada. Finalmente, clasificamos las
En este ejemplo la relación semántica entre las diferencias siguiendo las categorías
unidades que conforman el término poliléxico presentadas en la Tabla 1.
no tiene ninguna marca explícita en inglés, lo En las TAs de Google un 23% de n-gramas
cual lleva a un error en la traducción están sobre-/sub-representados con respecto a
proporcionada por el sistema basado en reglas. las THs. En las traducciones de Lucy, esto
Las traducciones de Google se acercan más a ocurre en un 37% de los casos.
la selección léxica de las THs, pero presentan p-valor
n- Frec. Frec. Frec. p-valor
una desventaja importante en comparación con gramas TH Goo.
TH-
Lucy TH - Lucy
Google
la traducción del sistema basado en reglas, a
pp30 594 486 9.34*10-3 451 1.29*10-6
saber: una falta de continuidad en el -3
pd00 67 26 7.28*10 33 6.10*10-4
tratamiento de la terminología. En los ejemplos
7, 8 y 9 observamos que Lucy, aun realizando nc sp nc 579 710 0.06 1160 2.2*10-16
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 77
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 78
partir de esta alineación, identificamos las cumplir todos los criterios para el
diferencias sistemáticas entre las THs y las trastorno,]NÚCLEO [pero todavía
TAs a nivel discursivo y las clasificamos de tienen algunos de sus síntomas.]
acuerdo con la Tabla 1. SATÉLITE_ANTÍTESIS
En cuanto a la segmentación discursiva las Lucy: [Los familiares de gente con el
TAs de Google presentan un 23% de autismo pueden fracasar en encontrar
diferencias; en cuanto a las relaciones todos los criterios para el
discursivas, un 47%. En las TAs de Lucy el desorden]NÚCLEO [pero todavía tener
número de diferencias en la segmentación es algunos de sus síntomas.]
mayor (27%), pero el número de diferencias en SATÉLITE_ANTÍTESIS
las relaciones discursivas es menor (40%).
Las diferencias que se originan en las 5 Conclusiones
traducciones de Lucy se dan en un contexto de
En este artículo hemos presentado una
ambigüedad léxica o sintáctica del TO. En
metodología que permite comparar las
cuanto a las diferencias relacionadas con las
diferencias lingüísticas existentes entre TAs y
TAs de Google, se deben a las
THs, en tres niveles de la lengua (léxico-
omisiones/adiciones que realiza este sistema
terminológico, sintáctico y discursivo), usando
al seleccionar la opción más probable. El
un corpus paralelo inglés-español de textos
ejemplo (1) ilustra esta última observación:
especializados del ámbito médico.
(1) TH: [La biología consistía ahora en el En términos de rasgos lingüísticos
estudio de la información almacenada cuantitativos a nivel léxico y sintáctico
en ADN - ristras de cuatro letras, A, T, (frecuencia de unidades léxicas o n-gramas de
G y C, símbolos de las bases adenina, etiquetas POS), las TAs del sistema estadístico
timina, guanina y citosina - y de las tienen más similitud con las THs que las
transformaciones que esa información traducciones del sistema basado en reglas,
experimenta en el interior de la debido a que Google realiza la tarea mediante
célula.]NÚCLEO [¡Aquí había modelos de lengua y de traducción tomando en
matemáticas!]SATÉLITE_INTERPRETA- cuenta el factor de frecuencia y haciendo
CIÓN generalización a partir de datos reales. Sin
Google: [Biología era ahora el estudio embargo, a nivel discursivo el número de
de la información almacenada en las diferencias entre la TA de Google y la TH es
cadenas de ADN de cuatro letras: A, T, mayor, ya que, aun cuando las TAs de Google
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
G y C para las bases denine, timina, muestran una aparente naturalidad del discurso
guanina y citosina - y de las a nivel del sintagma u oración, presentan
transformaciones que sufre la graves errores que afectan la estructura
información en la celda.] NÚCLEO [No discursiva y la coherencia global del TT.
era la matemática aquí!]? El objetivo último de la TA es lograr
Las diferencias que se originan en las THs resultados comparables a la TH en términos de
son un reflejo de la interpretación del original calidad. Precisamente, para identificar los
por parte del traductor. A nivel discursivo, este aspectos más problemáticos que deben
proceso afecta el orden de las EDUs y la optimizarse, consideramos que es necesario
selección de marcadores del discurso y caracterizar las TAs en oposición a las THs,
conlleva modificaciones en la estructura mediante un análisis lingüístico, y tener en
discursiva del original en el TT. El ejemplo (2) cuenta que no todas las diferencias entre la TH
ilustra esta situación: y la TA reflejan la calidad global de esta
(2) TH: [Los parientes de autistas pueden última de la misma manera. Además, dada la
presentar algunos síntomas,]NÚCLEO naturaleza literal de la TA, la comparación
[aunque no el cuadro completo que TA-TH permite observar con más claridad las
justifique el diagnóstico de la diferencias entre las lenguas y las decisiones
enfermedad.]SATÉLITE_CONCESIÓN del traductor. En cuanto al desarrollo de
Google: [Los familiares de las sistemas de la TA, el análisis de las estrategias
personas con autismo pueden no de TH da luz sobre los aspectos de esta que
podemos/debemos modelar en la TA.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 79
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Comparación de dos enfoques para la extracción de hipónimos
relevantes derivados de hiperónimos
Comparison of two perspectives for extracting relevant hyponyms derived to
hyponyms
Resumen: En este trabajo proponemos una serie de heurísticas lingüísticas, que contribuyen a
lograr un equilibrio en Precision & Recall en la extracción de hipónimos derivados de un
hiperónimo más un rasgo semántico, representado este último por adjetivos. Tomando en cuenta
un principio de composicionalidad en la constitución de frases nominales del tipo nombre +
adjetivo, donde el nombre es un hiperónimo y el adjetivo es un rasgo semántico que ayuda a
establecer buenas relaciones de hiponimia/hiperonimia dentro de un dominio de conocimiento
específico, aplicamos las heurísticas mencionadas para explorar tal relación, con el objetivo de
mejorar la extracción de hipónimos en documentos de medicina. Nuestros resultados muestran un
equilibrio importante entre Precision y Recall, que complementa sustancialmente los que se han
obtenido empleando únicamente métodos y medidas probabilísticas en esta tarea, en concreto
índices de información mutua puntual (PMI).
Abstract: In this work we proposed a set of linguistic heuristics, in order to achieve a trade-off
between Precision & Recall on the extraction of hyponyms from hypernyms plus a semantic
feature represented by adjectives. Taking into account a compositionality principle on the
construction of noun phrases with the pattern noun + adjective, where noun is a hypernym, and
adjective is a semantic feature useful for establishing good hyponymy/hypernymy relations in
specific domains. We applied our heuristics in order to explore this relation, and improving the
extraction of hyponyms from medical texts. Our results show an important balance between
Precision & Recall which substantially complements other approaches using only probabilistic
methods and measures for solving this task, specifically Pointwise Mutual information (PMI).
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.