XVIII Congreso de La Asociación Española para El P... - (PG 42 - 81) PDF

XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 41
7 Conclusiones 9. Bibliografía
Se ha descrito tanto el corpus desarrollado en Guadalupe Aguado de Cea, Inmaculada
el marco del proyecto Buscamedia como un Álvarez de Mon y Rego, Antonio Pareja-
conjunto de consultas suficientemente Lora: OntoTag: Modelo de anotación
representativas que permiten validar el sistema híbrida para la web semántica. Revista
y contrastar los beneficios de la combinación Iberoamericana de Inteligencia Artificial
de anotaciones multimedia, desde el punto de 7(18): 37-50 (2003)
vista del usuario. Una definición completa de
Benavent X., Benavent J., de Ves E., Granados
juicios de relevancia permitirá más adelante la
R., García-Serrano, A., “Experiences at
evaluación del sistema con la metodología
ImageCLEF2010 using CBIR and TBIR
TREC.
mixing information approaches”,
La principal dificultad durante el desarrollo
September, Padua Italia
del corpus Deportes20 fue el pre-
www.imageclef.org/2010.
procesamiento textual de los documentos
multimedia y la unificación de las diferentes García-Serrano, A., X. Benavent, R. Granados,
configuraciones de los metadatos de cada J. M. Goñi-Menoyo. 2008. Some results
fuente de información (varios programas de using different approaches to merge visual
televisión, 16 periódicos digitales, o páginas and text-based features in CLEF’08 photo
web). Se finalizó acordando el formato XML collection. LNCS 5706, Evaluating Systems
del denominado documento único para las for Multilingual and Multimodal
anotaciones provenientes de cada tipo de Information Access. Pp. 568-571. ISSN:
recurso o documento (video, imagen, noticia, 0302-9743.
texto o página web); lo que favorece el acceso Joost Geurts, Jacco Van Ossenbruggen, Lynda
a toda esta información con el sistema de Hardman “Requirements for practical
búsqueda desarrollado. multimedia annotation”, In: Workshop on
Se ha incluido una breve descripción de dos Multimedia and the Semantic Web. 2005
prototipos (desplegados como servicios web)
desarrollados en el marco del proyecto: el ISO/IEC. Overview of the MPEG-7 Standard
anotador textual (en un marco multimedia) y el (version 8). ISO/IEC JTC1/ SC29/ WG11/
buscador sobre la colección de Deportes20, N4980, Klagenfurt, July 2002
para mostrar con más detalle la contribución Antonio Pareja-Lora and Guadalupe Aguado
realizada. de Cea, “Ontology-based Interoperation of
En la sección 5 se encuentran algunos
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
Linguistic Tools for an Improved Lemma

ejemplos de la prueba de concepto realizada, Annotation in Spanish”, LREC 2010.
que muestran el alcance de la aproximación. A
partir de este trabajo se va a proceder a la S. E. Robertson and S. Walker. Some simple
segunda etapa de análisis de usabilidad con un effective approximations to the 2-Poisson
conjunto de usuarios reales suficientemente model for probabilistic weighted retrieval.
representativo para el estudio. In Proceedings of the SIGIR '94, W. Bruce
Croft and C. J. van Rijsbergen (Eds.).
8 Agradecimientos Springer-Verlag. NY, USA, 232-241.
(1994)
Este trabajo se ha financiado con los
proyectos competitivos: BUSCAMEDIA Giorgos Stamou, Jacco van Ossenbruggen, Jeff
(CEN-20091026), financiado por el Ministerio Z. Pan, Guus Schreiber, "Multimedia
de Industria. Annotations on the Semantic Web," IEEE
Agradecemos muy especialmente la Multimedia, vol. 13, no. 1, pp. 86-90, Jan.-
colaboración de los investigadores de todos los March 2006, doi:10.1109/MMUL.2006.15
miembros del consorcio, pero muy en Verdejo, F. y García Serrano, A. (eds.), Acceso
particular por las actividades de la tarea que se y visibilidad de la información multilingüe
presenta a los de Tecnalia, UC3M, ISID, en la red: el rol de la semántica, Madrid,
Bilbomática, TVC, y por supuesto a Daedalus UNED, 2008. Edición en CD-ROM. ISBN:
y ATOS, de los que somos OPI. 978-84-362-5609-3.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:34:38.
Influencia de las entidades nombradas en la traducción de preguntas
Studying the influence of named entities in question translation
Lic. Daniel Castro Lic. Daylín González

Centro de Reconocimiento de Patrones y Centro de Reconocimiento de Patrones y
Minería de Datos (CERPAMID) Minería de Datos (CERPAMID)
daniel.castro@cerpamid.co.cu daylin.gonzalez@cerpamid.co.cu
Lic. María Peláez Mst. Yunior Ramírez

Diseño de Aplicaciones, Tecnología y Sistemas Centro de Reconocimiento de Patrones y
(Datys-sc) Minería de Datos (CERPAMID)
maria.pelaez@datys.cu yunior@cerpamid.co.cu
Resumen: En los últimos años, se ha manifestado un creciente desarrollo en la investigación y

construcción de sistemas y algoritmos en la tarea de Búsqueda de Respuestas (BR). Algunos de
los retos más significativos que enfrenta este proceso son la búsqueda de información y/o el
análisis de consultas en varios idiomas. Con el propósito de enfrentar estas problemáticas surgen
los Sistemas de Búsqueda de Respuestas (SBR) multilingües. En los trabajos publicados por la
comunidad científica, se refleja la influencia negativa de diferentes errores de traducción para el
correcto funcionamiento de los SBR multilingües, por tal motivo, presentamos un estudio en el
que se analiza la presencia de los errores de traducción utilizando los servicios de 3 traductores.
Además, se incluye el análisis de la influencia de las Entidades Nombradas (EN) en la traducción
de preguntas empleando un método de traducción por sustitución de entidades que refleja buenos
resultados.
Palabras Clave: Traductores automáticos, Reconocimiento de entidades, Búsqueda de
Respuestas.
Abstract: In recent years, there has been a growing research and development in building systems
and algorithms in the task of Question Answering (QA). Some of the most significant challenges
facing this process are searching for information and / or analysis of queries in several languages.
In order to address these problems arise multilingual Questions Answering Systems (QAS). In the
studies published by the scientific community interested in the subject, it reflects the negative
influence of different translation errors for the proper functioning of multilingual QAS, for that
reason, we present a study that examined the presence of errors translation using the services of 3
translators. It also includes the analysis of the influence of the Named Entity (NE) in the
translation of questions using a translation method of substitution entities reflecting good results.
Keywords: Machine Translation, Named Entity recognition, Question Answering.
diferentes retos para su correcto funcionamiento

1 Introducción y la satisfacción con la respuesta obtenida.
Podemos mencionar que entre estos retos se
Los SBR se construyen con el objetivo de
destaca que la pregunta formulada se escribe en
encontrar una respuesta exacta ante la solicitud
Lenguaje Natural y no solo por palabras claves,
realizada por un usuario. Esta tarea involucra
además, idealmente se quiere como respuesta que 7 de un total de 8 grupos utilizan esta
solo una que responda a la pregunta formulada. aproximación [5][6][7][8][9][10][11].
Los SBR multilingües se diseñan con el Los errores más comunes provocados por el
objetivo de encontrar respuestas concisas dentro empleo de servicios de traducción son [4]:
de documentos escritos en lenguas diferentes a  Error de elección de sentido en la TA de
aquella con la que se formula la pregunta. Esta la pregunta (Se).
visión, amplía el campo de búsqueda,  Error de estructura sintáctica en la TA
permitiendo localizar respuestas en documentos de la pregunta (ES).
que, operando de forma monolingüe, no serían  Error al traducir la partícula
procesados. En una perspectiva general, un interrogativa de la pregunta (PI).
sistema multilingüe debe ser capaz de:  Error en la categoría morfo-sintáctica de
 Comprender las preguntas formuladas la traducción (MS).
en varias lenguas.  Error al traducir las EN de la pregunta
 Extraer la información en colecciones (En).
de documentos escritas en lenguas Todos estos errores conllevan a bajos
diferentes. rendimientos en los sistemas que utilizan
 Presentar las respuestas en la lengua que técnicas de TA como parte de su flujo de
el usuario hizo la pregunta. trabajo.
En la mayoría de los trabajos descritos en la En particular los SBR son sensibles entre
literatura que abordan el desarrollo de los SBR otros al problema de la incorrecta traducción de
multilingües, se ilustra el uso de Traductores las EN, puesto que es un aspecto esencial en las
Automáticos TA y/o la combinación de los tareas posteriores de Clasificación de las
mismos [1] [2]. Preguntas (CP), Recuperación de la Información
Los sistemas de TA (MT, del inglés Machine (RI) y Extracción de la Respuesta (ER).
Translation) son muy apreciados en las áreas de Una muestra de la afectación que provoca la
Procesamiento del Lenguaje Natural (PLN) por aparición de errores en el proceso se refleja en la
la posibilidad que brindan para el tratamiento de Tabla 1. En la misma se aprecia que la precisión
distintos idiomas [3]. Por un lado estos sistemas disminuye considerablemente en todas las
están en constante evolución y ejecuciones bilingües de los sistemas
perfeccionamiento, pero por otro lado, no hay ejemplificados [4].
disponibilidad de los mismos para todos los
idiomas y además, la calidad de traducción varía Sistema Ejecución Precisión Decremento
mucho según el par de idiomas utilizado. Bouma et Holandés- 25.5% ---

Una de las ideas más comunes es la al., 2007 Holandés
traducción de la pregunta de entrada al idioma Inglés- 13.5% -47.05%
en el que están escritos los documentos, por Holandés
Sacaleanu Alemán- 30% ---
medio de un servicio de traducción sin ningún et al., Alemán
tipo de procesamiento adicional. Ésta técnica es 2007 Inglés- 18.5% -38.33%
la más sencilla y a su vez, la más utilizada entre Alemán
los sistemas participantes en ediciones del Tomás et Español- 29.47% ---
certamen Cross Language Evaluation Forum al., 2006 Español
(CLEF). De manera general se convierten los Español- 20% -32.13%
Inglés
sistemas monolingües en sistemas capaces de Whittaker Español- 13.5% ---
resolver tareas multilingües con la simple et al., Español
utilización de servicios comerciales de TA, 2006 Inglés- 6% -55.5%
manifestándose una serie de errores de Español
traducción [4]. Tabla 1: Comparación de ejecuciones monolingüe-
Entre los grupos participantes de la edición bilingüe de sistemas participantes en el CLEF.
del CLEF 2007, la técnica predominante para
afrontar la tarea bilingüe en la Búsqueda de Las estadísticas que se muestran a
Respuesta (BR), fue también la traducción de la continuación, fueron presentadas en el congreso
pregunta por medio de servicios de TA, dado (Recent Advances in Natural Languages
Processing) RANLP 2007 [4]. Se detectaron y de entrada y luego llevar a cabo un proceso de
clasificaron manualmente las EN de las traducción para ambos casos (Figura 1):
preguntas del CLEF con el objetivo de saber  La pregunta sustituyendo las EN por
cuántas de estas preguntas tienen EN y de qué una marca (combinación de letras sin
tipo son. En la Tabla 2 se revelan los resultados traducción).
obtenidos de la cuantificación manual efectuada,  Las EN detectadas en la pregunta.
distinguiendo los siguientes tipos: PER
(persona), LOC (localización), ORG
(organización) y MISC (miscelánea).
Preguntas de la edición CLEF 2004

Total PER LOC ORG MISC
81% 23.50% 28% 15% 20.50%
93% 34% 25.50% 24% 13.50%
89% 31% 24.50% 22.50% 24% Figura 1: Flujo del método de traducción
Media propuesto.
87.70% 29.50% 26% 20.50% 19.30% La idea perseguida con esta técnica surge
Tabla 2: Porcentajes de aparición de EN dentro de bajo la suposición de que al enviar a un
las preguntas del CLEF traductor solamente la EN extraída de la
pregunta, éste pueda dar mejores resultados que
Como se observa, la gran mayoría de las al traducir dicha EN inmersa en la pregunta, lo
preguntas estudiadas contienen EN (el 87,7% de que podría introducir ruido para la traducción ya
la media) y, en muchos de los casos, una misma que contaría con más texto.
pregunta puede contener varias EN. Asumiendo lo anterior, se esperaría que al
De lo anterior se deriva que los objetivos de tomar la pregunta con las EN sustituidas por una
este trabajo sean estudiar la influencia de las EN marca neutral, se obtendría una traducción de la
en la traducción de preguntas, y evaluar la pregunta libre de los errores causados por la

presencia de los 5 errores de traducción ya dependencia a dicha EN, aun cuando se
descritos. Para esto evaluamos las traducciones mantengan los errores propios de la traducción
realizadas sobre un CORPUS de preguntas automática. De forma que, si la EN en la
utilizando 3 traductores de servicio online: el pregunta fue traducida incorrectamente y generó
servicio de traducción de Google, Babelfish y una alteración en el resto de la pregunta, el
FreeTranslation. hecho de haberla extraído previamente y
colocado una marca en su lugar, nos liberaría de
2 Descripción del método estas situaciones, y se obtendría alguna mejoría
Para el estudio de la influencia de las EN en la en el sentido de la pregunta, el orden de sus
traducción de preguntas, utilizamos como términos o en la partícula interrogativa.
método la sustitución de las EN detectadas en la Finalmente, la nueva traducción de la EN sería
pregunta de entrada por una marca neutral o intercambiada por las marcas, integrándose así a
Entidad general. Ejemplo, para la pregunta la pregunta traducida sin las EN, para obtener la
¿Who is Daniel?, con la sustitución nos quedaría traducción final según nuestro método.
¿Who is NP?, siendo NP la marca. La detección de las EN se realiza en el
La propuesta consiste en detectar idioma origen de la pregunta. En la Figura 2 se
inicialmente las EN en el idioma de la pregunta muestra el análisis realizado a la pregunta:
When did the official coronation of Elizabeth
the Second take place?
 La pregunta: ¿Cuándo fue la

coronación oficial de NP llevará a
cabo?
En este caso, la traducción final, insertando

la traducción de la EN, viene dada por: ¿Cuándo
fue la coronación oficial de Isabel II llevará a
cabo?
La pregunta traducida por un especialista, es:
¿Cuándo fue la coronación oficial de Isabel II?
La traducción realizada a la pregunta original
por el traductor Google sería:
Figura 2: Etiquetado de una oración empleando ¿Cuándo fue la coronación de Isabel oficial II
la herramienta FreeLing1. el lugar?
Las EN detectadas, excluyendo las fechas, Por tanto, se puede observar como con el
números y siglas, se sustituyen por una marca método propuesto se mejora la traducción de la
neutral (NP, escogida luego del análisis de otras EN y la traducción de la pregunta de forma
marcas) y se procede a la tarea de traducción. general, aunque persisten dificultades.
Para la traducción se recibe, por separado
cada una de las EN detectadas en la fase 3 Experimentos realizados
anterior, así como la pregunta con las EN En la fase de experimentación y evaluación, se
sustituidas. Como traductores empleamos los realizaron dos estudios: el análisis de la
servicios disponibles en Internet de Google influencia de las EN en el proceso de traducción
translate, Babelfish y FreeTranslator. Se y, los errores cometidos por cada uno de los
conforma la consulta a enviar al servicio de traductores empleados.
traducción escogido y se traducen las EN y la Para la evaluación, utilizamos el CORPUS
pregunta. de preguntas presentado en la competición del
Por último, se sustituyen las EN traducidas, CLEF del 2006 en la tarea bilingüe inglés-
en la marca correspondiente en la pregunta y se español, con un total de 193 preguntas y 215 EN
conforma la salida de la traducción. para el total de las encuestas. Para cada pregunta
en inglés se dispone de su equivalente en
Un ejemplo utilizando el método sería: español.

Se procedió a valorar la presencia de los
Tomando como entrada la pregunta: errores de traducción descritos anteriormente
When did the official coronation of Elizabeth the para los estudios siguientes:
Second take place? (pregunta tomada del  La traducción que se obtiene empleando
conjunto de preguntas del CLEF 2006) el método de sustitución de la EN.
Al extraer de la pregunta de entrada las EN,  La traducción a la pregunta original
obtendríamos: realizada con cada traductor.
Elizabeth The Second
La pregunta con la EN sustituida sería la Se tomó como sistema de evaluación, una
siguiente: categorización similar a la empleada por el
When did the official coronation of NP take CLEF para la evaluación, donde las preguntas
place? son clasificadas manualmente en dos casos:
A lo que el traductor daría la siguiente  Correcta: cuando el especialista valora
traducción: que los términos importantes de la
 La EN: Isabel II. pregunta son localizables en un corpus
1
de documentos, de forma que en caso de
Suite de uso libre para el Procesamiento de Lenguaje existir respuesta se pueda adquirir con
Natural, que incluye entre otras herramientas para el dichos términos.
reconocimiento de EN y un etiquetador.
 Incorrecta: al transformar el orden de la FreeTranslation

oración de forma que pueda perder el Original NP
sentido o que se pudieran alcanzar Errores Correcta Incorrecta Correcta Incorrecta
resultados erróneos en la búsqueda.
Se 129 64 159 34
ES 127 66 135 58
Para evaluar la traducción de las EN se PI 160 33 26
167
emplearon las dos categorías anteriores en los
MS 123 70 135 58
siguientes casos: En 171 44 170 45
 Correcta: cuando la traducción coincide Tabla 4: Análisis de la traducción de preguntas
con la traducción del especialista, aun utilizando el traductor FreeTransLation.
en caso de que presente artículos,
preposiciones y demás stopwords al Babelfish
inicio de la EN. Original NP
 Incorrecta: cuando la traducción es
Errores Correcta Incorrecta Correcta Incorrecta
errónea de acuerdo a la opinión del
especialista, por ejemplo, si las EN no Se 107 86 119 74
se debían traducir a otro idioma, si se ES 127 66 120 73
debían traducir y no ocurrió, si tradujo o PI 142 51 141 52
no partes de las EN, si se expanden o se MS 131 62 132 61
cambian siglas de manera incorrecta, En 176 39 179 36
etcétera. Tabla 5: Análisis de la traducción de preguntas
utilizando el traductor de Yahoo, Babelfish.
En las siguientes tablas se exponen los
resultados y las comparaciones realizadas, en las Para la traducción con el empleo del
dos primeras columnas de cada tabla se muestra traductor de Google se comprueba que se
el análisis de los errores de traducción cuando cometen un poco más de errores al traducir las
las preguntas originales fueron traducidas por el EN cuando estas se traducen en el contexto de la
traductor correspondiente sin realizar sustitución pregunta y que la sustitución de las EN no
de las EN, y en las dos últimas la traducción con mejora la calidad de la traducción.
la sustitución de la EN. En cada fila se valora la Analizando los resultados del empleo del
presencia de uno de los errores de traducción. traductor FreeTranslation se observa la
Las pruebas corroboran en primer lugar las disminución de los errores cuando se utiliza la
sustitución de la EN por lo que se puede
deficiencias mostradas por los diferentes

sistemas de traducción, destacando la mejor concluir que la presencia de EN en la pregunta
calidad de los resultados mostrados por la dificulta la tarea. Empleando el traductor
herramienta de traducción de Google. Babelfish, se aprecian menos errores de
Elección de Sentido cuando se sustituyen las EN
Google pero para el resto de los tipos de errores, los
Original NP resultados son similares empleando o no la
Errores Correcta Incorrecta Correcta Incorrecta sustitución.
Se 140 53 138 55
ES 116 77 107 86 4 Conclusiones
PI 163 30 156 37
A partir delos objetivos propuestos, de estudiar
MS 117 76 108 85
En 202 13 210 5 la influencia de las EN en la traducción de
Tabla 3: Análisis de la traducción de preguntas preguntas, así como evaluar la presencia de los 5
utilizando el traductor de Google. errores de traducción expuestos en otros
artículos de la bibliografía, se realizó un
conjunto de experimentos utilizando los
servicios de traducción disponibles de los
traductores Google, Babelfish y FreeTranslation
y tomando como preguntas de muestra el
CORPUS presentado en el CLEF del 2006. 4. Ferrández. S (2008). Arquitectura

Además, establecimos un método para detectar multilingüe de sistemas de búsqueda de
y sustituir las EN presentes en las preguntas por respuestas basada en ILI y Wikipedia.
una marca común, para poder traducir por Tesis Doctoral. Universidad de
separado las EN y la pregunta, lo que nos Alicante.
permitió comprobar en el resultado de la
5. Bouma, G., Kloosterman, G., Mur, J.,
traducción, la presencia de los diferentes errores
van Noord, G., van der Plas, L., &
manifestados en la literatura. Las respuestas de
Tiedemann, J. 2007. Question
los experimentos arrojan resultados diferentes
Answering with Joost at CLEF 2007. In:
para cada traductor y se aprecia efectivamente la
Working Notes for the CLEF 2007
influencia que las EN ejercen en la traducción
Workshop.
de la pregunta y viceversa.
6. Haddad, C., & Desai, B.C. 2007. Cross
5 Trabajo futuro Lingual Question Answering using
CINDI QA for QA@CLEF 2007. In:
A partir del estudio realizado, se observa que Working Notes for the CLEF 2007
persisten diferentes errores de traducción.
Workshop.
Además, consideramos que utilizando la
sustitución de las EN en las preguntas por una 7. van Zaanen, Menno, & Mollá, Diego.
marca supuestamente neutral, no se elimina la 2007. AnswerFinder at QA@CLEF
influencia que esta marca puede tener en el 2007. In: Working Notes for the CLEF
momento de realizar la traducción, 2007 Workshop.
fundamentalmente cuando se emplea el 8. Bowden, M., Olteanu, M.,
traductor de Google. Por estas razones nos Suriyentrakorn, P., d’Silva, T., &
proponemos continuar el estudio realizado, por Moldovan,D.2007. Multilingual
lo que tenemos previsto realizar el proceso de Question Answering through
sustitución pero no empleando una marca como Intermediate Translation: LCC’s
sigla, sino utilizando elementos del idioma de la PowerAnswer at QA@CLEF 2007. In:
pregunta que representen el tipo de EN que se Working Notes for the CLEF 2007
detectó. Además, para disminuir el error al Workshop.
traducir las EN, pretendemos emplear el recurso
Wikipedia, debido a que en este se relacionan 9. Sacaleanu, B., Neumann, G., & Spurk,
los conceptos presentes para cada idioma C. 2007. DFKI-LT at QA@CLEF 2007.
involucrado. In: Working Notes for the CLEF 2007

Workshop.
Bibliografía 10. Laurent,D.,Séguéla,P.,&Négre,S.2007.
1. Vicedo, J. L. (2003). La búsqueda de Cross Lingual Question Answering
respuestas: Estado actual y using QRISTAL for CLEF 2007. In:
perspectivas de futuro. Inteligencia Working Notes for the CLEF 2007
Artificial, Revista Iberoamericana de Workshop.
Inteligencia Artificial. 11. Adiwibowo, Septian, & Adriani, Mirna.
2. Paşca, M. (2003). Open-Domain 2007. Finding Answers Using
Question Answering from Large Text Resources in the Internet. In: Working
Collections. Studies in Computational Notes for the CLEF 2007 Workshop.
Linguistics. Center for the Study of
Language and Information.
3. Hutchins, W. J. y Somers, H. L. (1992).
An Introduction to Machine
Translation. AcademicPress.
Spanish JavaSimLib: una herramienta para el cálculo de la
similitud semántica entre palabras en castellano
Spanish JavaSimLib: a tool to compute the semantic similarity between
words in Spanish
Isaac Lozano, Alexandre Trilla, Francesc Alı́as
GTM – Grup de Recerca en Tecnologies Mèdia
LA SALLE – UNIVERSITAT RAMON LLULL
Quatre Camins 2, 08022 Barcelona (Spain)
st18187@salle.url.edu, atrilla@salle.url.edu, falias@salle.url.edu
Resumen: En este artı́culo se adapta JavaSimLib al castellano, una herramienta

capaz de calcular la similitud semántica entre palabras basándose en el contenido
de información de cada uno de los términos. Para ello se adecua el WordNet en
castellano al motor de búsqueda Lucene, permitiendo una distribución efectiva de
toda la información necesaria. El proceso planteado logra replicar al castellano las
prestaciones originales de JavaSimLib en inglés.
Palabras clave: Similitud semántica, WordNet, contenido de información, castel-
lano
Abstract: This article adapts JavaSimLib to Spanish, which is a tool to compute
the semantic similarity between words according to their information content. To
this end, the Spanish WordNet is rearranged into the Lucene search engine, allowing
an effective distribution of all the necessary information. The Spanish adaptation
procedure that is shown attains the same performance as the original implementation
of JavaSimLib in English.
Keywords: Semantic similarity, WordNet, information content, Spanish
1. Introducción desambiguación semántica, etc.). Este traba-

jo se centra en adaptar al castellano el tra-
En la actualidad, el inglés es uno de los id- bajo de (Seco, Veale, y Hayes, 2004) que per-
iomas que más domina los ámbitos económi- mite determinar la similitud semántica en-
cos, cientı́ficos y tecnológicos, dejando a otros tre palabras en inglés. El resultado de esta
idiomas, como el castellano, en un segun- adaptación se puede incorporar al módulo de
do plano. En este contexto, las herramientas desambiguación semántica de cualquier her-
lingüı́sticas de análisis y procesamiento de los ramienta de las anteriormente enumeradas.
idiomas se suelen desarrollar primero para el En (Seco, Veale, y Hayes, 2004) se describe
inglés y luego para los otros idiomas. una herramienta, denominada JavaSimLib1 ,
En la literatura se pueden encontrar dis- capaz de valorar la similitud semántica entre
tintos trabajos de investigación orientados pares de palabras con resultados satisfacto-
al desarrollo y adaptación de herramientas rios usando WordNet en inglés y el motor de
lingüı́sticas en inglés para conseguir presta- búsqueda Lucene2 . Para adaptar dicha her-
ciones similares para el castellano. Por ejemp- ramienta al castellano, aquı́ nombrada Span-
lo, se pueden destacar herramientas del cam- ish JavaSimLib, es necesario contemplar cier-
po del Procesamiento del Lenguaje Natural tos detalles especı́ficos de este idioma ası́ co-
como Freeling (Padró et al., 2010), del campo mo considerar el WordNet en castellano.
del Análisis del Sentimiento como EmoTag La organización de este trabajo se describe
(Francisco y Hervás, 2007) y EmoLib (Garcı́a a continuación. En la Sección 2 se muestra
y Alı́as, 2008; Trilla y Alı́as, 2009), y del el proceso seguido en el desarrollo de la her-
campo de la Traducción Automática como el ramienta para el castellano, detallando todos
Apertium (Vié et al., 2011), para nombrar al- los pasos realizados para incorporar WordNet
gunos. Estas herramientas están tı́picamente
constituidas por distintos módulos elemen- 1
eden.dei.uc.pt/∼nseco/javasimlib.tar.gz
2
tales (tokenizador, POS taggers, stemmers, http://lucene.apache.org/
en castellano al proceso de cálculo de la simil- definición del concepto que describen cada
itud semántica. En la Sección 3 se describe uno de ellos. Un synset es un grupo de pal-
la evaluación de la herramienta y se valo- abras que tienen el mismo significado. En la
ra si su efectividad es equivalente a la her- tabla variant aparecen todas las palabras del
ramienta original desarrollada para el inglés. WordNet, cada una de ellas asociada con el
En las Secciones 4 y 5 se discuten los resulta- synset al que pertenece y la acepción que de-
dos obtenidos y se detallan las conclusiones fine. Por último, en la tabla relation se mues-
obtenidas y el trabajo futuro. tran diferentes relaciones semánticas entre
synsets, tales como hiponimia, meronimia,
2. Adaptación de JavaSimLib al antonimia, etc. En el Cuadro 1 se muestra un
castellano ejemplo sobre la estructura y los campos más
En este apartado se describe el proce- importantes de estas tablas, considerando el
so realizado para disponer de la Spanish synset que contiene la palabra “chico” y sus
JavaSimLib, que permite evaluar la similitud sinónimos referentes a la acepción que define
semántica entre dos palabras en castellano. una persona joven de genero masculino.
En primer lugar, se describe el formato de En el Cuadro 1(a) se puede observar co-
los datos originales a partir de los cuales se mo están estructurados los synsets. El campo
realiza un proceso de adaptación para utilizar pos muestra la función de la palabra defini-
el motor de búsqueda Lucene. A continuación da por el synset, el valor offset es el iden-
se realiza la adaptación y la ampliación de los tificador del concepto dentro del WordNet,
datos con el objetivo de encontrar todos los el número de hipónimos del synset viene de-
parámetros necesarios en el desarrollo de la terminado por el campo sons y por último
herramienta. Después de este proceso, se lle- se muestra la definición del concepto descrito
va a cabo la conversión del formato de datos en el campo gloss. El Cuadro 1(b) muestra
para poder trabajar en un entorno basado en la tabla variant, la cual comparte los cam-
el motor de búsqueda Lucene. Finalmente, se pos pos y offset, que informan de los mis-
muestra el formato de los datos generados con mos parámetros que en la tabla de synsets.
el objetivo de comprobar su estructura. Los otros parámetros de interés son el campo
word, el cual muestra la palabra definida por
2.1. Datos originales de WordNet el synset y el campo sense el cual muestra la
en castellano acepción de dicha palabra. Por último, se en-
Los datos iniciales proceden de la versión cuentra la tabla relation en el Cuadro 1(c).
En esta tabla se muestra la relación semánti-
de noviembre de 2006 de WordNet en castel-

lano, creado por el LSI group de la Univer- ca entre dos synsets según las especificaciones
sitat Politècnica de Catalunya (UPC), el CL de (Vossen, 2002). Las funciones de palabra y
group de la Universitat de Barcelona (UB) los identificadores de synset que satisfacen es-
y el NLP group de la Universidad Nacional ta relación se muestran en los campos source-
de Educación a Distancia (UNED). Este Pos, targetPos, sourceSynset y targetSynset.
WordNet está enmarcado dentro del proyec- 2.2. Adaptación y ampliación de
to EuroWordNet (Vossen, 2002), el cual au-
na WordNets de diferentes idiomas tomando
los datos en función del
como referencia el WordNet original en in- contenido de información
glés (Miller, 1995). Concretamente, toma co- Una vez analizado el formato inicial de
mo referencia la versión 1.6 de este WordNet. los datos, es necesaria una ampliación y una
Los datos iniciales y su formato están con- adaptación de estos para poder desarrollar la
tenidos en un script SQL y, por lo tanto, son herramienta planteada en el artı́culo. Para el-
fácilmente importables a una base de datos. lo, es necesario dotar a los datos de los cam-
En este trabajo, se ha elegido MySQL por su pos básicos para poder calcular la similitud
facilidad de acceso. entre dos conceptos.
Una vez dispuestos los datos, se procede El primer dato necesario que se requiere
a analizar su formato con más detenimiento. de cada uno de los synsets que componen
El WordNet en castellano contiene tres tablas el WordNet es su contenido de información.
principales: synset, variant y relation. En la Este valor da una idea de la concreción de
tabla synset se encuentran todos los synsets cada concepto. Originalmente, en (Resnik,
pertenecientes al WordNet juntamente con la 1995) se propone la siguiente expresión para
synset
pos offset sons gloss
n 07389783 12 Persona joven de sexo masculino
(a) Tabla synset
variant
pos offset word sense
n 07389783 garzón 1
n 07389783 muchacho 1
n 07389783 mozo 1
n 07389783 chaval 2
n 07389783 chico 1
n 07389783 niño 2
(b) Tabla variant
relation
relation sourcePos sourceSynset targetPos targetSynset
near-antonym n 07389783 n 07260273
has-hyponym n 07389783 n 07071609
(c) Tabla relation
Cuadro 1: Estructura original del WordNet en castellano para la palabra “chico” usada como
ejemplo.
calcularlo: información es bajo. En el caso contrario, un

synset con pocos hipónimos señala un con-
icres = −logp(c) (1) cepto muy concreto, y por ello su contenido
En la expresión 1 se valora la probabilidad de información es alto. En el caso que nos
que tiene un concepto ‘c’ del WordNet en un ocupa, al trabajar con palabras con distintas
texto. Si una palabra tiene pocas probabili- funciones (nombres, verbos y adjetivos), se
dades de aparecer, probablemente se deba a calcula el contenido de información de cada
que describa un concepto muy concreto. Por synset en función del número total de synsets
el contrario, las palabras que aparecen fre- que existen para cada una de estas funciones.
cuentemente suelen ser conceptos muy glob- Consecuentemente, el valor de maxwn varia
ales y muy poco especı́ficos de una temática de la forma siguiente:
concreta. En el caso propuesto en este artı́cu-
lo se trabaja con un WordNet. Por lo tanto, es Nombres: maxwn = 71410
interesante valorar el contenido de informa- Verbos: maxwn = 12342
ción de una palabra en base a un criterio dis-
tinto al cálculo de probabilidades. En (Seco, Adjetivos: maxwn = 18189
Veale, y Hayes, 2004) se propone la siguiente
expresión para calcular el contenido de infor- De esta forma, se realizarán tres estruc-
mación en un entorno basado en WordNets: turas diferentes según la función de palabra
ya que las jerarquı́as en el WordNet son inde-
log(hypo(c) + 1) pendientes. El cálculo del contenido de infor-
icwn (c) = 1 − (2) mación de cada synset se realiza con la ayu-
log(maxwn )
da del campo sons de la tabla synset exis-
En la expresión 2, hypo(c) es el número de tente en los datos originales. Como se ha co-
hipónimos de un synset concreto del WordNet mentado anteriormente, este campo especifi-
y maxwn es el número total de conceptos ca el número de hipónimos de cada synset.
que hay en el WordNet. Esta expresión indica Por lo tanto se puede aplicar la expresión 2,
la dependencia del contenido de información utilizando hypo(c) = sons para cada uno de
con el número de hipónimos de un synset con- los synsets.
creto. Si un synset tiene un gran número de Para acabar de calcular la similitud en-
hipónimos, indica que se está ante un con- tre dos conceptos, es necesario conocer el
cepto muy global y por ello su contenido de Most Specific Common Abstraction (MSCA)
de los conceptos a valorar. El MSCA indica la hiperónimo del hiperónimo, hasta llegar al
información compartida entre dos conceptos synset con menor contenido de información.
cualquiera. Por norma general, es interesante Comparando las cadenas de hiperónimos de
calcular el concepto perteneciente al MSCA dos conceptos, se puede encontrar el synset
con el contenido de información más alto. perteneciente al MSCA de los dos conceptos.
Originalmente, este valor se define según la Para ello ha sido necesario corregir dos incon-
similitud de Resnik (1995): gruencias de la tabla relation:
El synset 1702479 aparece como hipóni-

simres (c1 , c2 ) = maxc∈S(c1 ,c2 ) icres (c) (3) mo de él mismo.
En la expresión 3, S(c1 , c2 ) representa el El synset 1022027 aparece como hipóni-
conjunto de información que comparten los mo del synset 1021384 al mismo tiem-
conceptos c1 y c2 . La expresión 3 propone el po que el synset 1021384 aparece como
cálculo del contenido de información más al- hipónimo del synset 1022027.
to de todos los conceptos compartidos por c1
y c2 . A partir de esta base, en la literatura Si no se eliminan estas relaciones se gen-
se muestran formas más complejas de calcu- eran bucles infinitos en la ejecución del al-
lar la similitud entre dos conceptos. Una de goritmo necesario para obtener las diferentes
ellas es la siguiente expresión propuesta en cadenas de hiperónimos.
(Jiang y Conrath, 1998), donde se calcula la 2.3. Conversión de datos
similitud entre dos conceptos a partir de su
SQL-Lucene
información y de la similitud de Resnik, y
por lo tanto, a partir del MSCA entre los dos La herramienta desarrollada se apoya en el
conceptos: motor de búsqueda Lucene. En este entorno,
los datos están estructurados en documentos.
Para realizar el proceso de conversión se
distjcn (c1 , c2 ) = (icres (c1 ) + icres (c2 )) − ha utilizado el conversor LuSQL3 (Newton,
−2 · simres (c1 , c2 ) (4) 2008). Esta herramienta permite transformar
un conjunto de datos en un formato de ı́ndices
En el entorno en el que se trabaja para Lucene, los cuales son aptos para el desarrollo
el desarrollo de la herramienta planteada, se de la herramienta adaptada en este artı́culo.
utiliza la siguiente adaptación de la fórmula La utilidad del conversor LuSQL está en su
de Jiang y Conrath utilizada en (Seco, Veale, capacidad de extraer información de una base
y Hayes, 2004), donde se calcula la similitud de datos con comandos propios de un entorno
de Resnik a partir del MSCA en un WordNet: SQL. De esta forma se pueden organizar los
campos de los ı́ndices Lucene con sentencias
idénticas a las utilizadas en la selección de in-
(icres (c1 ) + icres (c2 ))
simjcn (c1 , c2 ) = 1 − − formación en una base de datos MySQL. Los
2 ı́ndices Lucene resultantes deben contener los
2 · simres0 (c1 , c2 ) siguientes campos en la herramienta Spanish
− (5)
2 JavaSimLib:
En un WordNet, el synset perteneciente al
MSCA de dos conceptos es el synset hiperóni- hypernym: Árbol de hiperónimos de un
mo común entre ellos que posee el mayor con- synset concreto. Necesario para poder
tenido de información. El synset que cumple calcular el MSCA entre dos synsets, y
esta condición siempre es el synset intersec- por consiguiente, la similitud entre dos
ción entre los dos conceptos de los cuales conceptos.
se estudia la similitud. Para poder calcular ic: Contenido de información de un
el MSCA de dos conceptos, y por lo tanto synset concreto. Interviene de forma ac-
su similitud, se ha implementado un algorit- tiva en el cálculo de la similitud entre
mo que retorna todos los identificadores de dos conceptos.
synsets hiperónimos de cada concepto exis-
tente en el WordNet con la ayuda de la tabla synset: Identificador de synset.
relation, véase Cuadro 1(c). Es decir, se cal- 3
http://lab.cisti-icist.nrc-
cula el hiperónimo del concepto original, el cnrc.gc.ca/cistilabswiki/index.php/LuSql
word: Cadena de caracteres formada por similitud o sinonimia total). En (Seco, Veale,
todas las palabras pertenecientes a un y Hayes, 2004) se muestra el coeficiente de
synset concreto, juntamente con el iden- correlación de Pearson de estas puntuaciones
tificador de acepción. Aunque en la base con la similitud calculada usando la ecuación
de datos original no se encuentra esta 5, obteniendo una correlación de 0,84. Para
estructura, la capacidad del conversor evaluar las prestaciones de la adaptación de
LuSQL permite el uso de sentencias de JavaSimLib al castellano, se calcula la cor-
concatenación para generar este campo. relación de los pares de palabras traducidos al
castellano usando la similitud semántica cal-
A pesar de que algunos campos están for- culada a partir de los ı́ndices de similitud que
mados por cadenas de caracteres, Lucene se obtienen mediante la herramienta Spanish
puede extraer información individualizada de JavaSimLib.
estas estructuras debido a la opción de orga- En la traducción y el cálculo de similitud
nizar los datos en tokens. De esta forma, se semántica ha sido necesario descartar 6 pares
puede extraer información individual de los de palabras del experimento original por dis-
campos hypernym y word. Con la generación tintas circunstancias. En los pares de pal-
de los ı́ndices Lucene, ya se tienen los datos abras “caldera-estufa” y “gema-joya” se han
en un formato adecuado para la adaptación encontrado inconsistencias en el MSCA y en
de la herramienta capaz de valorar la simili- la estructura del WordNet en castellano. En
tud semántica entre palabras en castellano. el caso inglés de “caldera-estufa” (furnace-
2.4. Visualización de los ı́ndices stove), también aparecen inconsistencias, tal
y como se comenta en (Jiang y Conrath,
Para revisar el formato de los ı́ndices de-
1998). En la Figura 2 se pueden ver las difer-
sarrollados, se puede optar por visualizarlos
encias entre el WordNet inglés y el castel-
con el visor de ı́ndices Lucene Luke4 . Luke es
lano para los pares de palabras “gem-jewel”
una herramienta que permite observar datos
y “gema-joya”. En ella, sólo aparecen las
basados en el motor de búsqueda Lucene.
acepciones más caracterı́sticas de cada synset
También permite la edición de los ı́ndices en
con el objetivo de facilitar la comprensión de
el caso que sea necesaria alguna modificación.
las estructuras. En el caso de los pares de
Pero aunque se disponga de esta funcionali-
palabras en inglés “midday-noon” y “noon-
dad, en el caso de trabajar con un gran vol-
string” no se ha encontrado una traducción
umen de datos como es el caso que se de-
razonable para el término noon, ya que este
scribe en este artı́culo, es preferible realizar la
describe una hora concreta del dı́a (las 12 del

elaboración de los ı́ndices con una herramien-
mediodı́a). En este caso el problema detecta-
ta como el conversor LuSQL ya que permite
do es debido a la mayor riqueza léxica del in-
obtener un grado de automatización que el
glés, el cual contiene términos que describen
visor Luke no es capaz de conseguir. En la
conceptos de los cuales no existen traduc-
Figura 1 se pueden ver los diferentes campos
ciones directas (una sola palabra) al castel-
que componen el synset correspondiente a la
lano. Por último, también se han descartado
palabra “chico” y los sinónimos correspondi-
los pares de palabras en inglés “bird-crane”
entes a la acepción referida a una persona
y “crane-implement” ya que el término crane
joven de género masculino.
puede tener dos traducciones distintas (grulla
3. Evaluación y grúa), las cuales modifican el escenario del
experimento considerablemente. Además, la
Con el fin de evaluar la herramienta de- palabra “grulla” no aparece en el WordNet en
sarrollada utilizando el mismo procedimien- castellano, haciendo inviable el uso del par de
to descrito en (Seco, Veale, y Hayes, 2004), palabras antes mencionado en la evaluación
resulta necesario traducir los 30 pares de de la herramienta.
palabras en inglés seleccionados en (Miller
y Charles, 1991). En este estudio, la simil- Con los 24 pares de palabras selecciona-
itud de estos pares de palabras fue evalu- dos, se obtiene un valor de correlación
ada por 38 estudiantes universitarios, pun- de Pearson de 0,774. Este resultado per-
tuando cada par con una nota comprendi- mite validar el funcionamiento de Span-
da entre 0 (mı́nima similitud) y 4 (máxima ish JavaSimLib, si se compara con las val-
oraciones individuales entre los diferentes
4
http://code.google.com/p/luke/ pares de palabras vistos en (Seco, Veale, y
Figura 1: Documento y correspondientes campos del synset correspondiente a la palabra “chico”.
Hayes, 2004) para el inglés. En el Cuadro 2 entity.1 entidad.1

se muestra en detalle los pares de palabras
utilizados y descartados en el proceso de eval-
object.1 objeto.3
uación.

4. Discusión de los resultados unit.6 K
artefacto.1
KKK
t
Como se ha podido ver anteriormente, en ttttt KKK
tz t K%
el experimento realizado para comprobar el artefact.1 creación.5 adorno.1
funcionamiento de Spanish JavaSimLib se ha
obtenido un valor de correlación de Pearson
ornament.1 arte.1 ornamento.2
de 0,774, mientras que para el inglés este val-
or era de 0,84 (Seco, Veale, y Hayes, 2004).

Se ha obtenido un resultado inferior al inglés adornment.1 joya.2 joyerı́a.1
debido a diferentes circunstancias. El primer
aspecto reseñable es el hecho de que no se ha
podido realizar exactamente el mismo exper- jewellery.1 gema.1
imento debido a que ha sido necesario descar-

tar algunos pares de palabras por los proble-
jewel.1 gem.5
mas de transferencia de idioma, impidiendo
traducir ciertas palabras. También se han lo- Figura 2: Estructura del WordNet para los
calizado algunas limitaciones del WordNet en pares de palabras “gem-jewel” (izquierda) y
castellano, como la omisión de algún término “gema-joya” (derecha).
ası́ como la existencia de algunas inconsis-
tencias. Es lógico que aparezcan este tipo de
dificultades al tratarse del único WordNet en datos para poder replicar esta herramienta en
castellano estable disponible hasta el momen- castellano. La evaluación ha demostrado que

to, el cual además está basado en una versión la adaptación ha logrado unas prestaciones
desactualizada del WordNet en inglés. Es- equiparables a la versión original en inglés.
tas circunstancias provocan que el proceso de Asimismo, el proceso descrito en este trabajo
evaluación se haya realizado con menos datos, permite la integración de futuras versiones de
lo que conlleva diferencias con el experimen- WordNet en castellano (o en otros idiomas).
to original realizado en inglés. Sin embargo, En un futuro, se pretende completar este
se puede afirmar que el resultado obtenido en trabajo mediante la evaluación de la simili-
los pares de palabras traducidos demuestran tud semántica entre palabras según nativos
un buen funcionamiento de la herramienta en españoles para que los resultados no se vean
castellano. afectados por contextos sociolingüı́sticos dis-
tintos.
5. Conclusiones
Bibliografı́a
En este artı́culo se ha mostrado el pro-
Francisco, V. y R. Hervás. 2007. EmoTag:
ceso y las herramientas necesarias para
Automated Mark Up of Affective Infor-
poder adaptar al castellano la herramien-
mation in Texts. EUROLAN 2007 Sum-
ta JavaSimLib (Seco, Veale, y Hayes, 2004),
mer School Doctoral Consortium, páginas
desde ahora nombrada Spanish JavaSimLib,
5–12.
para calcular la similitud semántica entre
pares de palabras en castellano. Para ello, Garcı́a, D. y F. Alı́as. 2008. Emotion iden-
ha sido necesario realizar distintos procesos tification from text using semantic disam-
de revisión manual y de tratamiento de los biguation. En Procesamiento del Lengua-
je Natural, numero 40, páginas 75–82 (in

Spanish), Mar.
Jiang, J. y D. Conrath. 1998. Semantic
similarity based on corpus statistics and
lexical taxonomy. En Proceedings of the
International Conference on Research in
Computational Linguistics.
Miller, G. 1995. WordNet: A Lexical
Database for English. Communications of
the ACM, 38(11):39–41.
Miller, G. y W.G. Charles. 1991. Contextu-
al correlates of semantic similarity. Lan-
guage and Cognitive Processes, 6:1–28.
Newton, G. 2008. Lusql v0.9 user man-
ual. Informe técnico, Canada Insti-
tute for Scientific and Technical Informa-
tion (CISTI). National Research Council
Canada.
Padró, L., M. Collado, S. Reese, M. Lloberes,
y I. Castellón. 2010. FreeLing 2.1: Five
Years of Open-Source Language Process-
ing Tools. En Proceedings of 7th Lan-
guage Resources and Evaluation Confer-
ence (LREC 2010), La Valetta, Malta.
Resnik, P. 1995. Using information content
to evaluate semantic similarity in a taxon-
omy. En Proceedings of the 14th Interna-
tional Joint Conference on Artificial In-
telligence, páginas 448–453.
Seco, N., T. Veale, y J. Hayes. 2004. An

Intrinsic Information Content Metric for
Semantic Similarity in WordNet. En Pro-
ceedings of ECAI-04, páginas 1089–1090.
Trilla, A. y F. Alı́as. 2009. Sentiment classi-
fication in English from sentence-level an-
notations of emotions regarding models of
affect. En Proceedings of InterSpeech2009,
páginas 516–519, Brighton (UK).
Vié, A., L. Villarejo, M. Farrús, y J. O’Regan.
2011. Apertium advanced web interface:
a first step towards interactivity and lan-
guage tools convergence. En F. Sánchez-
Martı́nez y J.A. Pérez-Ortiz, editores,
Proceedings of the Second Internation-
al Workshop on Free/Open-Source Rule-
Based Machine Translation, páginas 45–
51, Barcelona, Spain.
Vossen, P. 2002. EuroWordNet General Doc-
ument. University of Amsterdam.
Pares en inglés Pares en castellano EH SS

car automobile coche automóvil 3,92 1
journey voyage trayecto viaje 3,84 0,88
boy lad chico chaval 3,76 1
coast shore costa orilla 3,70 0,96
asylum madhouse asilo manicomio 3,61 0,42
magician wizard mago hechicero 3,50 1
food fruit comida fruta 3,08 0,76
bird cock pájaro gallo 3,05 0,72
tool implement herramienta instrumento 2,95 1
brother monk hermano monje 2,82 0,38
lad brother chaval hermano 1,66 0,44
journey car trayecto coche 1,16 0
monk oracle monje oráculo 1,10 0,13
cemetery woodland cementerio arboleda 0,95 0,55
food rooster comida gallo 0,89 0,44
coast hill costa colina 0,87 0,68
forest graveyard bisque cementerio 0,84 0,25
shore woodland orilla arboleda 0,63 0,28
monk slave monje esclavo 0,55 0,36
coast forest costa bosque 0,42 0,25
lad wizard chaval hechicero 0,42 0,47
chord smile acorde sonrisa 0,13 0,37
glass magician cristal mayo 0,11 0,37
rooster voyage gallo viaje 0,08 0
CORRELACIÓN 1 0,77
(a) Pares de palabras seleccionados
Pares en inglés Pares en castellano EH SS Motivo del descarte
gem jewel gema joya 3,84 0,21 Inconsistencia del WordNet
midday noon mediodı́a – 3,42 – Traducción inexistente para noon
furnace stove caldera estufa 3,11 0,27 Inconsistencia del WordNet
bird crane pájaro grulla/grúa 2,97 – Doble traducción de la palabra crane
crane implement grulla/grúa instrumento 1,68 – Doble traducción de la palabra crane
noon string – cuerda 0,08 – Traducción inexistente para noon
(b) Pares de palabras descartados
Cuadro 2: Palabras consideradas en la experimentación. Correlación obtenida entre la similitud

semántica de referencia (Seco, Veale, y Hayes, 2004) y la obtenida con Spanish JavaSimLib.
EH muestra la evaluación supervisada mostrada en (Miller y Charles, 1991) y SS muestra la
similitud semántica más alta posible de cada par de palabras utilizando la expresión 5.
Three-class Sentiment Analysis adapted to short texts
Análisis del sentimiento en tres clases adaptado a textos cortos
Alexandre Trilla, Francesc Alı́as

GTM – Grup de Recerca en Tecnologies Mèdia
LA SALLE – UNIVERSITAT RAMON LLULL
Quatre Camins 2, 08022 Barcelona (Spain)
atrilla@salle.url.edu, falias@salle.url.edu
Resumen: La demanda de información sobre opiniones y sentimiento se ha in-

crementado los últimos años. Este artı́culo adapta un sistema general de análisis
del sentimiento para textos cortos y tres clases de sentimiento. Se identifica el sen-
timiento positivo, negativo y neutro de forma automática con técnicas de Ingenierı́a
de atributos y Clasificación de Texto. Para evaluar la efectividad de este esquema
se utiliza el conjunto de datos Semeval 2007, con el que se alcanza una tasa máxima
del 49%, mejorando un 7% los resultados presentados en el estado del arte siguiendo
las mismas condiciones de evaluación.
Palabras clave: Análisis del Sentimiento, Aprendizaje Computacional, Ingenierı́a
de atributos, Clasificación de Texto
Abstract: The demand for information on opinions and sentiment has seen an
increase in recent years. This article adapts a general Sentiment Analysis scheme to
deal with short texts and three classes of sentiment. It addresses positive, negative
and neutral sentiments automatically using Feature Engineering and Text Classifi-
cation techniques. The effectiveness of this scheme is evaluated using the Semeval
2007 dataset and it achieves maximum rate of 49%, improving by 7% the results
reported in the state of the art following the same evaluation conditions.
Keywords: Sentiment Analysis, Machine Learning, Feature Engineering, Text
Classification
1 Introduction tion of text in a weighted vector space (essen-

tially unigrams and bigrams), and sometimes

In the recent years the field of Sentiment they are represented along with their Part-
Analysis (SA) has experienced a substan- Of-Speech (POS) tags, stems, etc. (Pang
tial raise in response to the surge of inter- y Lee, 2008; Dang, Zhang, y Chen, 2010).
est in affective computing for inferring knowl- Then, the features extracted from the text
edge and understanding from people’s opin- are operated with diverse classifiers such
ions, e.g., in social networks, marketing 2.0, as Multinomial Naive Bayes, Maximum En-
etc. The detection of sentiment in text can tropy and Support Vector Machine (Pang,
be conceived as an expert heuristic process Lee, y Vaithyanathan, 2002; Pang y Lee,
where the specific knowledge is hard-coded 2008). Moreover, these conventional SA so-
into the system via a set of rules, or else as lutions are usually set to work with big com-
an automatic induction process based on Ma- pilations of long texts labelled with two op-
chine Learning (ML) that discovers it from posite sentiment categories, e.g., full product
available user data (Strapparava y Mihalcea, reviews of positive and negative opinions that
2007; Pang y Lee, 2008). With regard to may amount up to about 55000 sentences, for
the latter data-driven approach, the goal is example (Pang, Lee, y Vaithyanathan, 2002).
to maximise the classification effectiveness However, there are other potential applica-
through delving into the linguistic parame- tions that operate in different settings (e.g.,
ters and the language models that can be with short texts and/or three classes of sen-
extracted from the text of analysis (Pang timent), thus requiring an adapted version
y Lee, 2008; Strapparava y Mihalcea, 2007; of this general design. For instance, see the
Dang, Zhang, y Chen, 2010). The features works on social media mining with Twitter
of use often exploit the n-gram representa-
(Kouloumpis, Wilson, y Moore, 2011), fairy Adapted Sentiment Analysis

tales (Alm, Roth, y Sproat, 2005) and Text- Feature Engineering Text Classification
Output text (tagged)

Input text (plain)
To-Speech synthesis (Alı́as et al., 2008).
Following (Strapparava y Mihalcea, 2007), Linguistic Generative
the present work focuses on the latter kind of
applications, specifically, the positive, nega- Emotional
Discriminative
tive and neutral sentiment categorisation of dimensions
short texts. In this setting, the granularity

of the text under analysis is usually deter- Effectiveness criteria
mined to be the sentence, as sentences are
sensibly short textual representations with a
rich affective content, allowing natural ex- Figure 1: Block diagram of the proposed Sen-
pressive variations between them within the timent Analysis approach, considering both
same paragraph (Alm, Roth, y Sproat, 2005; the diversity in the nature of the features ex-
Alı́as et al., 2008). To train and evaluate the tracted from the text and the diversity in the
effectiveness of the SA schemes adapted to learning principles of the classifiers.
this scenario, the Semeval 2007 dataset is of
use (Strapparava y Mihalcea, 2007). The mo- a full set of linguistic and affective features
tivation for considering these data is two-fold: (Pang, Lee, y Vaithyanathan, 2002; Dang,
1) the corpus provides the three-class sen- Zhang, y Chen, 2010), i.e., the Feature Engi-
timent labelling produced and validated by neering, and the adequate Text Classification
human evaluators, and 2) the affective fea- (TC) strategies, which may infer a generative
tures (if present) are guaranteed to appear model of fit a discriminating function (Pang,
in these short sentences (i.e., news headlines) Lee, y Vaithyanathan, 2002), see Figure 1.
(Strapparava y Mihalcea, 2007), in contrast
to long texts where a single label corresponds 2.1 Feature Engineering
to the overall sentiment wash (Strapparava A front-end task to the actual classification of
y Mihalcea, 2007). This work performs a sentiment is the modelling and uniform rep-
SA process along the lines of (Pang, Lee, y resentation of the features. To that end, the
Vaithyanathan, 2002; Pang y Lee, 2008) but Vector Space Model (VSM) representation is
in a different scenario: short texts and three used, which shapes the input text as a vector
sentiment classes. Its main purpose is to ad- with one real-valued component for each fea-
dress the SA problem at the sentence level
ture (Sebastiani, 2002; Manning, Raghavan,

with techniques that are usually effective at y Schütze, 2008).
the document level. It focuses on determin-
In general, it is the semantics which pro-
ing the relevant features of use and evalu-
vide a great deal of information with respect
ates the adaptation of several classifiers to
to the affect in text (Pang y Lee, 2008). This
the problem at hand. Finally, it compares
essentially leads to modelling words, which
the obtained results with the state of the
are plausibly conceived to be the smallest
art (Strapparava y Mihalcea, 2007) to deter-
meaningful units of affect (Batliner et al.,
mine the strategy that most effectively fits
2009). Words alone, which are modelled as
the problem.
unigrams, are obtained from the lexical in-
The paper is organised as follows. Section stances of the tokens. Their consideration in
2 presents the learning details of the ML clas- isolation constitutes a simple Bag-Of-Words
sification approaches that are typically used (BOW) model, which does not account for
in SA. Section 3 describes the experiments the order of words appearing in a text (Se-
and analyses the obtained results. Section 4 bastiani, 2002). In certain contexts, this
discusses the resulting effectiveness rates and BOW model is regarded to be the most ade-
draws the conclusions of this work. quate model (Pang, Lee, y Vaithyanathan,
2002). In other contexts, it simply lacks
2 Adaptation of Sentiment
useful information (Alı́as et al., 2008). For
Analysis to three classes and the latter cases, it is often useful to in-
short texts crease the number of features by consider-
This section focuses on the relevant features ing patterns that are particularly discrimina-
of use, whether they be unigrams alone or tive (Manning, Raghavan, y Schütze, 2008).
In this regard, bigrams (i.e., the ordered co- weights each term according to its promi-
occurrence of two unigrams) may also be con- nence within the sentence, and the Relevance
sidered in the amount of features (Pang, Lee, Factor (RF) (Lan et al., 2009), which weights
y Vaithyanathan, 2002). Bigrams are re- the relevance of a term regarding its distribu-
ported to be of help to grasp stylistic traits tion among the categories.
and structural information (i.e., syntactic)
in the text (Alı́as et al., 2008; Pang y Lee, 2.2 Text Classification
2008). This is regarded to be an alterna- This section describes some of the most rep-
tive way to incorporate context (Pang, Lee, resentative TC methods for SA, focusing on
y Vaithyanathan, 2002), and with the inclu- the discovery of knowledge that each method
sion of POS tags, the analysis is added some can provide from the input features. Given
grammatical and syntactical value (Pang y the short text conditions tackled in this work,
Lee, 2008). Nevertheless, higher order n- the choice of classifier probably has an impor-
grams are generally discarded as they do not tant effect on the effectiveness of the system
appear to contribute much to the identifica- (Manning, Raghavan, y Schütze, 2008).
tion of affect in the text (Pang y Lee, 2008). Originally the classification step was per-
In addition, the stems of the words may also formed with a set of heuristic rules on the
be considered for enhanced indexing purposes circumplex (Garcı́a y Alı́as, 2008), but recent
(Sebastiani, 2002), and a semantic expansion improvements have shown that automatically
procedure may also be conducted through the learning the term-feature space is a more
inclusion of word synonyms (Garcı́a y Alı́as, effective solution (Trilla, Alı́as, y Lozano,
2008). Finally, non-linguistic traits may also 2010). Hence, to capture the generality and
be considered as a means of domain indepen- scope of the problem space, both genera-
dent features. In this regard, the emotional tive and discriminative learning approaches
dimensions of valence, activation and control are considered in this work (see Figure 1).
are usually considered (Garcı́a y Alı́as, 2008; Generative models explain the data, and if
Trilla y Alı́as, 2009). the model is correct, they should yield the
2.1.1 Term Weighting best possible classification effectiveness rates
In TC, the relative importance of features is (Mitchell, 2005). Nevertheless, since the form
of great relevance (Sebastiani, 2002; Man- of the actual model is unknown and the train-
ning, Raghavan, y Schütze, 2008). But using sample does not generally cover the whole
ing all the features together directly often feature space, instead of proposing an end-
increases the the size of the feature space less amount of possible approximate models,
without providing much satisfactory power task-centric approaches based on discrimi-
(sparseness problem) (Manning, Raghavan, nating the sentiment categories are evaluated
y Schütze, 2008). Hence, weighting the rel- (Manning, Raghavan, y Schütze, 2008).
evance of the features increases the separa- In the end, the inductive construction of
bility properties of the data improving the ML methods for solving TC and SA is essen-
classification effectiveness (Sebastiani, 2002; tially the same. Within the polynomial mod-
Manning, Raghavan, y Schütze, 2008; Dang, els, linear models are proposed in this work
Zhang, y Chen, 2010). for their simplicity over their (more complex)
An everlasting question regarding the nonlinear counterparts. Note that because
weighting of terms is their representation of the bias-variance tradeoff in the classifica-
of presence versus frequency (Pang, Lee, y tion effectiveness rates, complex models are
Vaithyanathan, 2002; Pang y Lee, 2008; not systematically better than linear mod-
Manning, Raghavan, y Schütze, 2008). Al- els (Manning, Raghavan, y Schütze, 2008).
though the frequency of terms seems to be Nonlinear models have more parameters to
more useful as it naturally encodes the pres- fit on a limited amount of training data and
ence of terms, the use of binary weights de- they are more prone to make mistakes for
noting term presence/absence has compara- small datasets (see (Alı́as et al., 2008) for an
tively performed better in SA (Pang y Lee, empirical evidence of this phenomenon). In-
2008). In this work, binary weights are stead, linear models might be preferable to
evaluated, as well as a couple of enhanced separate the bulk of the data, i.e., to ob-
frequency-based weights: the Inverse Term tain a better generalisation of classification
Frequency (ITF) (Alı́as et al., 2008), which (Manning, Raghavan, y Schütze, 2008). And
with the high dimensional spaces that are affect classification (Bellegarda, 2011) as well
typically encountered in text processing ap- as in TC and SA (Sebastiani, 2002; Strappa-
plications, the likelihood of linear separabil- rava y Mihalcea, 2007).
ity increases rapidly (Manning, Raghavan, y 2.2.4 Maximum Entropy (MaxEnt)
Schütze, 2008). What follows is the descrip-
It is a probabilistic discriminative approach
tion of some typical learning environments in
that fits a set of exponential functions via
TC and SA to evaluate.
the Maximum A Posteriori estimation (Car-
2.2.1 Multinomial Naive Bayes penter, 2008). MaxEnt obeys the maximum
(MNB) entropy principle, therefore it does not make
MNB is a probabilistic generative approach any further assumption beyond what is di-
that builds a language model assuming con- rectly observed in the training data. More-
ditional independence among the features. In over, it makes no assumptions about the re-
reality, this assumption does not hold for text lationships among the features, and so might
data (Pang, Lee, y Vaithyanathan, 2002), potentially be more effective when condi-
but even though the probability estimates are tional independence assumptions are not met
of low quality because of this oversimplified (Pang, Lee, y Vaithyanathan, 2002). MaxEnt
model, its classification decisions are surpris- has been used for SA and TC environments
ingly good (Manning, Raghavan, y Schütze, (Trilla, Alı́as, y Lozano, 2010; Pang, Lee, y
2008). The MNB combines efficiency (it has Vaithyanathan, 2002; Pang y Lee, 2008)
an optimal time performance) with good ac-
2.2.5 Support Vector Machine
curacy, hence it is often used as a baseline in
(SVM)
TC and SA research (Sebastiani, 2002; Man-
ning, Raghavan, y Schütze, 2008). It is a maximum-margin discriminative ap-
proach that searches the hyperplane (decision
2.2.2 Associative Relational Network surface in the feature space) that is maxi-
- Reduced (ARN-R) mally distant from the class-wise data points.
It is a word co-occurrence network-based ap- Since the SVM is a dichotomous classifier, a
proach that constructs a VSM with a term se- multicategorisation strategy has to be consid-
lection method “on the fly” based on the ob- ered to deal with the three sentiment classes.
servation of test features (Alı́as et al., 2008). SVM has shown to be superior with respect
This inherent term selection refinement is to other methods in situations with few train-
reported to improve the classical VSM for ing data (Pang y Lee, 2008), in TC scenarios
modest-size sentence-based data (Alı́as et al.,
(Sebastiani, 2002; Lan et al., 2009) as well

2008). Dense vectors representing the input as in SA (Pang, Lee, y Vaithyanathan, 2002;
text and the class are retrieved (no learning Pang y Lee, 2008).
process is involved) and evaluated by the co-
sine similarity measure. The basic hypoth- 3 Empirical evaluation
esis in using the ARN-R for classification is
To evaluate and determine the SA strategy
the contiguity hypothesis, where terms in the
that yields the best effectiveness in identi-
same class form a contiguous region, and re-
fying the sentiment in short texts for the
gions of different classes do not overlap (Man-
problem at hand, the dataset of use in this
ning, Raghavan, y Schütze, 2008).
work is the Semeval 2007 (Strapparava y Mi-
2.2.3 Latent Semantic Analysis halcea, 2007), for its convenience to address
(LSA) the three-category sentiment analysis at sen-
LSA is similar to the VSM, but builds a la- tence level (Strapparava y Mihalcea, 2007).
tent semantic space by computing the Singu- It consists of a compilation of news headlines
lar Value Decomposition (SVD) of the term- (taken for short sentences with less than 8
class matrix obtained from the VSM (i.e., words on average) drawn from major news-
constructing a low-rank approximation with papers. Its design criteria highlight its typi-
its principal eigenvectors) (Manning, Ragha- cally high load of affective content written in
van, y Schütze, 2008). The cosine similarity a style meant to attract the attention of the
between the class vectors and the query text readers (Strapparava y Mihalcea, 2007). In
vectors (obtained by adding the observed addition, its short-text form is adequate as
term vectors) is used to make decisions in the a single label represents the whole sentence
reduced latent space. LSA has been used for (Alı́as et al., 2008), whereas in long texts, the
Instance properties Counts Orient. Word Pos. Neu. Neg.

Total (sentences) 1250 sweet 2 0 0
Good
Positive 174 record 10 1 0
Neutral 764 good 5 6 0
Fine
Negative 312 help 4 7 1
With repeated words 46 talk 3 10 1
Fair
Idem without stop words 4 say 3 23 9
Average length 7.53 fail 0 2 2
Mean
Feature properties Unig. Big. crash 0 3 7
Total (n-grams) 8115 6865 fear 0 1 4
Bad
Vocabulary 4085 6251 dead 0 3 12
Frequent (≥5) 226 14
Table 2: Balance of word counts among the
Table 1: Properties of the Semeval 2007 sentiment classes with respect to an orien-
dataset in terms of instance and feature tation grading from “good” to “bad”. The
counts. strength of cell shading denotes the mass of
word counts.
labelling may hide a sentiment wash (Pang,
Lee, y Vaithyanathan, 2002). This corpus is the word counts shifts from the positive sen-
distributed in two sets: one for trial (contain- timent to the negative sentiment. This fact
ing 250 headlines) and the other for testing reveals the relevance of certain words as sen-
(containing 1000 headlines). timent indicators and shows what the classi-
fiers may eventually learn from the data.
3.1 Preliminary analysis of the
corpus 3.2 Experimental results
An overall description of the properties of the The SA approaches under evaluation are de-
entire dataset is shown in Table 1. Note that scribed as follows. On the one hand, the fea-
the amount of sentences (i.e., instances) in tures of use contrast two approaches (Pang
the corpus with words appearing more than y Lee, 2008): 1) the sensible agglomeration
once in a single sentence is small (46 sen- of traits that are reported to be useful for
tences out of 1250 yield a rate of 3.68%), and SA, i.e., weighted unigrams, bigrams, POS
this figure even drops more if stop words are tags, stems, emotional dimensions and nega-
filtered out (0.32%). This fact shows that dif- tion flags, and 2) the sole consideration of
ferentiating between the presence/frequency weighted unigrams as only the essential traits
representation of the features seems to be of of sentiment in text. On the other hand, the
little relevance for this data: in either case, specific implementation of the TC methods
the information is almost the same (this is to be evaluated are described hereunder:
strictly true for the 99.68% of the sentences
• MNB uses Manning’s TC definition for
in this corpus).
discrete features (binary weights) (Man-
It is also important to note the richness
ning, Raghavan, y Schütze, 2008) and
of the vocabulary extracted from the data.
the Weka’s general-purpose NaiveBayes-
Half the total number of unigrams yields the
Multinomial with continuous weighted
size of the whole unigram set, and in the case
features (Witten y Frank, 2005).
of bigrams, these counts are almost equal.
Hence, on average, each term only appears • ARN-R is implemented following (Alı́as
twice at most in the whole corpus. This lack et al., 2008).
of frequent features puts an extra difficulty
for the identification of sentiment and there- • LSA uses the SVD implementation pro-
fore supports the proposal of Feature Engi- vided by LingPipe1 to construct a latent
neering on the most relevant ones. semantic space (Deerwester et al., 1990).
In order to gain intuition of the data • MaxEnt uses the Stochastic Gradient
character, Table 2 shows the relative bal- Descent optimisation procedure pro-
ance of some word counts among the senti- vided by LingPipe (Carpenter, 2008).
ment classes. As the orientation of the words
1
changes from “good” to “bad”, the mass of http://alias-i.com/lingpipe/
• SVM uses the Weka’s Sequential Min- Whole set of features

imum Optimisation with a linear ker- Term Weighting
Classifier
nel and pairwise classification (Witten y Binary ITF RF
Frank, 2005). MNB 40.26 42.20 N/A
ARN-R 37.38 33.40 39.36
In (Strapparava y Mihalcea, 2007), one LSA 33.44 34.81 30.26
of the effectiveness rates used for the eval- MaxEnt N/A N/A N/A
uation of the classification strategies was the SVM 39.27 37.76 38.94
macroaveraged F1 measure, which is also cus-
tomary to use in TC (Sebastiani, 2002; Man- Table 3: F1 results with the whole set of
ning, Raghavan, y Schütze, 2008). This un- features: weighted unigrams, bigrams, POS
weighted effectiveness measure is needed to tags, stems, emotional dimensions and nega-
even the importance of each class regardless tion flags. N/A stands for Not Available due
of the corpus instance imbalances, see Table to not predicting the class with the least gen-
1. Note that the size of the neutral class is erality.
more than four times bigger that the size of
the positive class, i.e., the class with the least overfit the training data, therefore not per-
generality, which makes it more difficult to forming properly. Overfitting generally oc-
effectively model the latter smaller class. curs when a model is excessively complex,
As far as we know, the best F1 result pub- such as having too many parameters relative
lished in the state of the art for sentiment to the number of training instances (Sebas-
classification with the Semeval 2007 corpus tiani, 2002; Manning, Raghavan, y Schütze,
is set at 42.43% (Strapparava y Mihalcea, 2008).
2007). This effectiveness rate was obtained In this regard, this work also experiments
with a Naive Bayes classifier, predicting a va- with weighted unigrams alone, thus grasping
lence score for the sentiment, and overtrained only the essence of the sentiment in this short
with additional data that was manually anno- text. The results with unigrams alone are
tated with positive and negative sentiments. shown in Table 4. The reduced feature set-
This section studies if the methodology pro- ting enables the classifiers to generalise bet-
posed in this work provides a more effective ter (Manning, Raghavan, y Schütze, 2008),
system for the problem at hand. The com- and this reveals three classifiers that improve
parison with respect to the state of the art the baseline effectiveness rate at least by 2%:
entails evaluating the effectiveness of the sys- the MNB, MaxEnt and SVM. Specifically,
tem with a train-test scenario (Strapparava y the MNB with binary-weighted unigrams and
Mihalcea, 2007), where a single F1 measure the MaxEnt with RF yield the best improve-
is provided given that only one experiment is ment margin, which is of 7%. In this lighter
performed (training with the trial subset of but essential feature setting, which involves
the corpus that consists of 250 headlines, and much less parameters, the classifiers perform
testing with the remaining 1000 headlines). more effectively, a fact that is attributed to
The effectiveness of the classifiers with the minimising the overfitting of the data (Sebas-
whole set of features (weighted unigrams, bi- tiani, 2002; Manning, Raghavan, y Schütze,
grams, POS tags, stems, emotional dimen- 2008). Hence, they yield a good adaptation
sions and negation flags) is shown in Table of the general SA methods to the problem
3. It can be observed that most of them at hand. In (Pang, Lee, y Vaithyanathan,
yield similar effectiveness rates around 39%, 2002), a similar outcome was obtained with
so none of them improves the aforementioned respect to the importance of unigrams alone
baseline result in the literature. In addition, for long texts labelled with two categories of
MaxEnt could not predict the class with the sentiment.
least generality, which denotes the especial In the end, the most successful SA strate-
requirement of a minimum amount of exam- gies evaluated for the problem at hand,
ples for this classifier. Regarding that the fea- namely with MNB and MaxEnt, converge to
ture dimensionality is very large in this sce- a similar effectiveness around 49%, thus im-
nario (considering all unigrams and bigrams proving the effectiveness rates reported in the
together amount up to more than 10000 pa- state of the art by almost 7% (Strapparava y
rameters), it is possible that the classifiers Mihalcea, 2007).
Unigram features thesis: A Multidomain Approach by

Term Weighting Automatic Domain Classification. IEEE
Classifier
Binary ITF RF Trans. Audio, Speech, Lang. Process.,
MNB 48.89 45.41 N/A 16(7):1340–1354, Sep.
ARN-R 37.26 32.32 42.25
Alm, Cecilia Ovesdotter, Dan Roth, y
LSA 37.71 37.63 31.96
Richard Sproat. 2005. Emotions from
MaxEnt N/A N/A 49.26
text: machine learning for text-based
SVM 45.30 36.83 N/A
emotion prediction. páginas 579–586.
Table 4: F1 results with plain unigram fea- Batliner, Anton, Dino Seppi, Stefan Steidl, y
tures. N/A stands for Not Available due to Björn Schuller. 2009. Segmenting into ad-
not predicting the class with the least gener- equate units for automatic recognition of
ality. emotion-related episodes: a speech-based
approach. Advances in Human Computer
4 Discussion and Conclusions Interaction (AHCI).
The identification of affect in text is a com- Bellegarda, J.R. 2011. A Data-Driven Af-
plex problem that has many facets to con- fective Analysis Framework Toward Nat-
sider. In this work, we have intended to per- urally Expressive Speech Synthesis. IEEE
form an exhaustive and comprehensive study Trans. Audio, Speech, Lang. Process.,
to tackle a particular three-class sentiment 19(5):1113–1122, Jul.
analysis problem at the sentence level framed
Carpenter, Bob. 2008. Lazy Sparse
by a small dataset, which is the Semeval 2007
Stochastic Gradient Descent for Regular-
dataset (Strapparava y Mihalcea, 2007). Our
ized Multinomial Logistic Regression. In-
experiments indicate that under such prob-
forme técnico, Alias-i, Inc.
lem settings, the success of a good classifier
such as MNB or MaxEnt depends on the rep- Dang, Yan, Yulei Zhang, y Hsinchun Chen.
resentation of the features, which helps the 2010. A Lexicon-Enhanced Method for
classifier to not overfit the data (Manning, Sentiment Classification: An Experiment
Raghavan, y Schütze, 2008). In fact, overfit- on Online Product Reviews. IEEE Intell.
ting may be reduced if the number of training Syst., 25(4):46–53, Jul.-Aug.
examples is roughly proportional to the num- Deerwester, Scott, Susan T. Dumais,
ber of features used to represent the data (Se- George W. Furnas, Thomas K. Landauer,
bastiani, 2002). This work shows how consid- y Richard Harshman. 1990. Indexing by
ering unigrams alone (with adequate weight- Latent Semantic Analysis. J. Am. Soc.
ing methods) results in better classification Inform, Sci., 41(6):391–407.
effectiveness compared to using additional
features such as bigrams, POS tags, etc. Pre- Garcı́a, David y Francesc Alı́as. 2008. Emo-
vious works operating in other environments, tion identification from text using seman-
namely longer texts and two classes of senti- tic disambiguation. En Procesamiento del
ment, reached a similar conclusion with re- Lenguaje Natural, numero 40, páginas 75–
gard to the importance of unigrams (Pang, 82 (in Spanish), Mar.
Lee, y Vaithyanathan, 2002). These results Kouloumpis, Efthymios, Theresa Wilson, y
allow us to suggest that for SA problems, Johanna Moore. 2011. Twitter Senti-
using only the essential information that de- ment Analysis: The Good the Bad and
notes the sentiment in text by means of the the OMG! Jul.
unigrams alone, the problem becomes more
tractable for the generally successful classi- Lan, Man, Chew Lim Tan, Jian Su, y Yue Lu.
fiers, and therefore they performs most effec- 2009. Supervised and Traditional Term
tively. Weighting Methods for Automatic Text
Categorization. IEEE T. Pattern. Anal.,
Bibliografı́a 31(4):721–735, Apr.
Alı́as, Francesc, Xavier Sevillano, Manning, Christopher D., Prabhakar Ragha-
Joan Claudi Socoró, y Xavier Gon- van, y Hinrich Schütze. 2008. Introduc-
zalvo. 2008. Towards High-Quality tion to Information Retrieval. Cambridge
Next-Generation Text-to-Speech Syn- University Press, Cambridge, MA, USA.
Mitchell, Tom M. 2005. Generative and Dis-

criminative Classifiers: Naive Bayes and
Logistic Regression. Online draft, 755:1–
17.
Pang, Bo y Lillian Lee. 2008. Opinion min-
ing and sentiment analysis. Foundations
and Trends in Information Retrieval, 2(1-
2):1–135.
Pang, Bo, Lillian Lee, y Shivakumar
Vaithyanathan. 2002. Thumbs up? sen-
timent classification using machine learn-
ing techniques. En Proc. of EMNLP’02,
páginas 79–86, Philadelphia, PA, USA,
Jul.
Sebastiani, Fabrizio. 2002. Machine learning
in automated text categorization. ACM
Comput. Surv., 34:1–47.
Strapparava, Carlo y Rada Mihalcea. 2007.
SemEval-2007 Task 14: Affective Text.
Jun.
Trilla, Alexandre y Francesc Alı́as. 2009.
Sentiment classification in English from
sentence-level annotations of emotions re-
garding models of affect. páginas 516–519,
Sep.
Trilla, Alexandre, Francesc Alı́as, y Isaac
Lozano. 2010. Text classification
of domain-styled text and sentiment-
styled text for expressive speech synthesis.
páginas 75–78, Nov.
Witten, Ian H. y Eibe Frank. 2005.

Data Mining: Practical Machine Learn-
ing Tools and Techniques. Morgan Kauf-
mann, San Francisco, CA, USA.
A Question Classification study based on machine learning
Un Estudio sobre Clasificación de Preguntas basado en Aprendizaje
Automático
Helena Gómez Adorno y David Pinto y Yuridiana Alemán y Nahun Loya

Faculty of Computer Science
Benemérita Universidad Autónoma de Puebla
Av. San Claudio y 14 Sur,C.P. 72570, Puebla, Mexico
{helena.adorno}@gmail.com
{dpinto}@cs.buap.mx
{yuridiana.aleman,nahun.loya}@gmail.com
http://www.cs.buap.mx/
Resumen: La clasificación preguntas es un componente clave en los sistemas de

búsqueda de respuestas. En este trabajo se presenta un estudio detallado de varios
algoritmos de aprendizaje para la clasificación automática de las preguntas, con el
objetivo de mostrar la precisión de la clasificación evitando el uso de herramientas y
recursos lingüı́sticos. Las caracterı́sticas seleccionadas para los experimentos son los
siguientes: bolsa-de-palabras y la bolsa-de-ngrams. Los algoritmos de aprendizaje
utilizados en los experimentos son: árboles de decisión., Naı̈ve Bayes, vecinos más
próximos y Máquinas de Soporte de Vectores, usamos diferentes categorı́as semánti-
cas subdivididas en clases de grano fino con el fin de clasificar las preguntas, esto
permitirá a los sistemas de Búsqueda de respuestas seleccionar diferentes estrate-
gias de procesamiento para cada categorı́a. Finalmente, mostramos y discutimos
los resultados obtenidos de clasificación de las preguntas de conjunto de datos de
QA4MRE CLEF2011.
Palabras clave: Clasificación de Preguntas, Sistemas de Búsqueda de Respuestas,
Clasificación de Textos, Aprendizaje Automático, Aprendizaje Supervisado
Abstract: Question Classification is a key component in Question Answering Sys-
tems. In this paper we present a detailed study on several learning algorithms for
automatic question classification, with the aim of showing the classification per-
formance avoiding to use linguistic tools and resources. The selected features for
the experiments are the following: bag-of-words and bag-of-ngrams. The learning
algorithms employed in the experiments are: Decision Trees, Naı̈ve Bayes, Nearest
Neighbors and Support Vector Machines. We use several semantic categories sub-
divided into finegrained classes in order to classify the target questions, this will
allow the question answering system select different processing strategies for each
category. Finally we show and discuss the obtained results for the classification of
questions from QA4MRE dataset of CLEF2011.
Keywords: Question Classification, Question Answering, text classification, machi-
ne learning, supervised learning
1. Introduction guage questions in a large collection of docu-

Machine reading systems has been a tra- ments(Li and Roth, 2002).
ditional goal in Artificial Intelligence, that is The Conference and Labs of the
to build a system that can read unrestricted Evaluation Forum, CLEF
natural language texts and extract knowled- (http://clef2012.org//), has launched a QA
ge from it(Barker et al., 2007)(Poon and Do- track with the aim of supporting the
mingos, 2010). In order to measure the abi- competitive research on question answering
lity of systems to automatically understand (QA4MRE). The main objective of this exer-
texts, Question Answering systems (QA) are cise is to develop a methodology for evalua-
designed to find exact answers to natural lan- ting Machine Reading systems through Ques-
tion Answering and Reading Comprehension with the question dataset of the QA4MRE
Test. The task focuses on the reading of single task of CLEF2011. This double test of the
documents and the identification of the ans- QC on two very different set of questions is
wers to a set of questions about information made to validate the results of the experi-
that is stated or implied in the text. ments and to avoid over fitting in the classi-
A previous conference that support a fiers.
competitive research on question answering, The remaining of this paper is organized
was the Text Retrieval Conference, TREC as follows: Section 2 presents related works
(http://trec.nist.gov/), with the QA track, in the field; Section 3 is an introduction to
from 1999 to 2007. The focus of the TREC the question classification problem; Section 4
QA track was to build a fully automatic open- presents several machine learning approaches
domain question answering system, which to question classification; Section 5 describes
can answer factual questions based on very our experimental study and the obtained re-
large document sets. sults; Finally, Section 6 concludes the paper.
The components of a QA system may vary
from one system to another, but it is clear 2. Related work
that a large number of automatic classifiers There exists several papers tackling the
will be used at different levels of the process question classification problem using heuris-
supporting a variety of functions, from know- tic rules (Voorhees, 2001; Hermjakob, 2001)
ledge acquisition to decision making(Roth et with some inconveniences however, such as
al., 2001). One of these components is the the difficulty of formulating the patterns
Question Classification module(QC), which that capture the class of the questions, the
refers to the process of analyzing the ques- lack of flexibility, and the domain depen-
tion and put it into a semantic category, to dency(Tomás et al., 2005). There are, several
allow the system select different processing ways to express the same question, for ins-
strategies and filter out a wide candidate of tance, Why is Annie Lennox famous?,
answers(Li and Roth, 2002)(Zhang and Lee, or What event make Annie Lennox fa-
2003). Furthermore, the QC has been high- mous? or How did Annie Lennox beca-
lighted as a task itself within the world of na- me famous?, there are tree ways to express
tural language processing and QA, since the the same question, therefore it will imply dif-
accuracy of the question classification is very ferent patterns formulation.
important to the overall performance of the Recent systems use diverse machine lear-
QA system. ning methods, like (Zhang and Lee, 2003)

We have found in the literature that docu- in wich they propose a QC system based
ment classification has been intensively stu- on SVM; they compare their approach with
died, while question classification is still a other methods, such as Nearest Neighbors,
new research issue (Tomás, 2010). Many of Naı̈ve Bayes, Decision Tree and Sparse Net-
the classification systems use heuristics rules work of Winnows (SNoW). In (Li and Roth,
and manually defined patterns to develop this 2002) it is proposed a QC system based on
task(Hermjakob, 2001)(Voorhees, 2001). The the SNoW learning architecture, developing
main problems with these approaches are the a hierarchical classifier that is guided by a
lack of flexibility and the domain dependency. layered semantic hierarchy of answers types,
In this work we present a detailed study and using it to classify questions into fine-
for QC based on several learning algorithms grained classes, based on a syntactic and se-
such as Decision Trees(DT), Naı̈ve Bayes mantic analysis for the features extraction,
(NB), K-Nearest Neighbors (KNN) and Sup- which lead to create a dependency on the
port Vector Machines (SVM), in order to de- language (Tomás et al., 2005). The reported
monstrate that an accurate classification can accuracy of their system is 95 %, for the fine
be made without the use of linguistic tools grain classification and 98 % for the coarse
or resources. In order to carry out this study grain classification.
we considered the experiments conducted in In (Cumbreras Garcı́a et al., 2005) it is
(Zhang and Lee, 2003), using the same data- presented a study about the robustness of se-
sets and there after we evaluated the perfor- veral models based on machine learning for a
mance of the classification systems whe using Spanish question classification system, that
this dataset for training a classifier tested uses English collections, different online ma-
Coarse Fine
chine translators and other NLP English re- ABBREVIATION abbreviation, expansion
ENTITY definition, description, manner,
sources. Finally there are other works (like reason
(Tomás et al., 2005), (Tomás, 2010)), presen- DESCRIPTION animal, body, color, creation,
currency, disease-medical,
ting a QC system, flexible and easy to adapt event, food, instrument,
language, letter, other,
to new languages due to the use of langua- plant, product, religion,
sport, substance, symbol,
ge independent learning features, furthermo- technique, term, vehicle, word
re comparing its performance in a parallel HUMAN description, group, individual,
title
English-Spanish corpus of questions. LOCATION city, country, mountain,
other, state
NUMERIC code, count, date, distance,
money, order, other,
percent, period, speed,
temperature, size, weight
3. Question Classification
Question Classification is the task of as- Table 1: Question Hierarchy. Coarse classes
signing a class within a predefined hierarchy and their fine class refinements.
to a given question, thus providing a seman-
tic restriction on the subsequent search of the 4. Machine Learning
answer. The possible restrictions imposed by Machine learning methods have many ad-
the system, allows to delimit the selection of vantages over manual methods (Li and Roth,
candidate answers and helps to select diffe- 2002). In this paper we have tested 4 ma-
rent strategies for the answer search process, chine learning algorithms widely used in text
for instance, the question: What is Nelson categorization (Yang and Liu, 1999) (Sebas-
Mandela’s country of origin?, allows to tiani, 2002) (Joachims, 1998): Nearest Neigh-
identify that the target of this question is bors (NN), Naı̈ve Bayes (NB), Decision Tree
an entity, therefor strategies that are specific (DT) and Support Vector Machine (SVM).
for entity (e.g., using predefined templates) In order to train any learning algorithm we
may be useful. Furthermore the same ques- need to extract a list of features from each
tion could be classified in a finer class within question. Every classification task based on
entity, such as country. supervised automatic learning needs two cor-
Most QA systems can only perform a coar- pus, one for training the model and the other
se classification for a limited number of clas- to test it. In this work each instance of the
ses (20 or less). Existing approaches, as in training corpus is made up of several attri-
(Singhal et al., 2000), have adopted a small butes and it correspondig class. The aim of
set of simple answer entity types, which con- these methods is to obtain a model capable
sisted of the classes: Person, Location, Orga- of predicting the class for instances of a dif-
nization, Date, Quantity, Duration, Linear, ferent corpus, from which only the attributes
Measure, and they use simple rules for the are known.
classification. Although these kind of rules 4.1. Decision Trees
have reasonable accuracy, they are not suf-
ficient to support fine-grained classification. The Decision Tree (DT) algorithm (Mit-
chell, 1997) is a method for approximating
For this study we aim to classify the discrete valued target function, in which the
question data set given in the past task of learned function is represented by a tree
QA4MRE of CLEF2011. The given questions (of arbitrary degree) that classifies instan-
are classified into 5 categories: factoid, cau- ces. The C4.5 (Quinlan, 1993) algorithm is a
sal, method, purpose, which is true. However widely used implementation of the DT algo-
those categories do not seem to be helpful to rithm, in this paper we use the WEKA (Wit-
define further search strategies; instead we ten and Frank, 2000) implementation of this
consider a semantical classification of ques- method.
tions as in (Li and Roth, 2002) (Zhang and
Lee, 2003), where they propose a two-layered 4.2. Naı̈ve Bayes
question taxonomy which contains a 6 coarse The Naı̈ve Bayes (NB) algorithm (Mit-
grained categories, and 50 fine grained cate- chell, 1997) is commonly studied in machi-
gories, (as shown in Table 1). Each coarse ne learning. It is regarded as one of the top
grained category contains a non-overlapping performing methods for document classifica-
set of fine grained categories. tion (Yang and Liu, 1999). Its basic idea is
to estimate the parameters of a multinomial 1400
NUmber of instances
1200
generative model for instances, then it finds 1000
800
the most probable class for a given instan- 600
400
ce using the Bayes Theorem and the Naı̈ve 200
assumption that the features occur indepen- 0
ABBR ENTY DESC HUM LOC NUM
dently of each other inside a class. 5500 86 1250 1162 1223 835 896
4000 62 937 857 884 616 644
3000 45 710 655 655 457 478
4.3. k-Nearest Neighbor 2000 30 486 419 442 312 311
1000 18 244 211 220 156 151
This algorithm has been successfully ap-
plied in document classification (Yang and
Liu, 1999). It assumes that all the instan- Figure 1: Coarse Classes Distribution on the
ces correspond to points in the n-dimensional training data set provided by UIUC
space <n . The nearest neighbors of an instan-
ce are defined in terms of the standard Eucli-
dean distance, where an instance is described
are presented the results with the default pa-
by a feature vector(Mitchell, 1997).
rameters of each algorithm. The training is
4.4. Support Vector Machines made on 5 different size training data sets
Support Vector Machines (SVM) is a met- (like in (Zhang and Lee, 2003)). Two diffe-
hod that attempts to find an optimal hyper- rent test sets are used for the evaluation of
plane (border) that is capable of separating the classifiers. In order to compare the results
a set of binary samples. In order to do this with other works, the reported performance
the samples are drawn closest to the border, of the classification is measured by accuracy,
a set of elements that are known as support i.e., the proportion of the correctly classified
vectors. The optimal hyperplane is the one questions among all test questions.
that maximizes the margin or distance bet- 5.1. Data sets
ween the border and those support vectors.
Formally, given a training corpus of pairs For the training step we use the publicly
(xi , yi ), where i = 1...m with m the number available data set provided by UIUC (Li and
of samples, xi is the feature vector (xi <n ) Roth, 2002), in which all the instances ha-
and yi the label that shows if the sample xi ve been manually label by the UIUC (Li
belongs or not to the class (yi {1, −1}m ), the and Roth, 2002) according to the taxonomy
SVM (Boser, Guyon, and Vapnik, 1992)(Cor- shown in Table 1.
tes and Vapnik, 1995) obtains the solution to The data sets consist of 5,000 labeled
the following optimization problem: questions randomly divided into 4 training
data sets of sizes 2,000, 3,000, 4,000 and
5,500; the class distribution if this set is sown
m
M IN 1 X in Figure 1, there we can observe an homo-
||w||2 + C ξi (1) geneous distribution of the classes which en-
w, b, ξ 2
i=1
courages us to use this set for training the
with yi (wT xi + b) ≥ 1 − ξi QC and, thereafter, test it with a different
(2) question set.
ξi ≥ 0
For the further evaluation of the QC by
where the function wT xi + b represent the machine learning algorithms, we use as test
searched hyperplane, C is a parameter that dataset the set of questions of the QA4MRE
controls the amount of training errors allo- task of CLEF2011, which consists of 120 ins-
wed, the εi variables are introduced to deal tances, manually labeled according to the sa-
with cases where there may be no separating me taxonomy shown in Table 1. We also con-
hyperplane. sider important to test the QC with the data-
set of the TREC10 QA track, which contains
5. Experimental Study 500 labeled questions (as did in (Zhang and
All the learning algorithms tested in this Lee, 2003)), to compare accurately our ob-
work are WEKA implementations. Although tained results with the obtained in previous
we have tested the algorithms with different works. Figure 2 presents the distribution of
parameters we have achieved better results the coarse classes on the TREC and CLEF
with the default ones, and thats why here datasets. Although the TREC dataset is lar-
123
CLEF TREC
138
113 74
94
81 55
47
65 38
54
15 16 16 18
23 19 6 6 6 6 7 7 8 9 10 10
12 12 1 1 1 1 1 2 2 2 2 2 3 3 3 3 4 4 4 4 5 5
9
0
exp
dist
abb
manner
body
dismed
lang
plant
money
date
product
title
country
veh
count
desc
substance
ind
weight
temp
reason
currency
gr
sports
event
mount
perc
food
speed
termq
other
def
instru
state
color
animal
city
techmeth
period
ABBR ENTY DESC HUM LOC NUM
Figure 2: Comparison of the Coarse Classes Figure 4: Fine Classes Distribution on the
Distribution on the CLEF and TREC data TREC data set
set
features: bag-of-words and bag-of-ngrams (all

25
continuous word sequences in the question).
17
The bag-of-word feature helps us to capture
15 the latent topic information and the bag-of-
ngram capture the speaking style and linguis-
8 8
7 tic elements from the training data. These
6 6
5
4 4
3
1 1 1 1
2 2 2 2 features are widely used in information re-
trieval, natural language processing and ma-
subst…
techm…
word
date
manner
gr
count
ind
desc
city
title
country
def
reason
state
event
other
termeq
period
cremat
chine learning algorithms to learn from string

data (Manning and Schütze, 1999)(Manning,
Raghavan, and Schtze, 2008).
Figure 3: Fine Classes Distribution on the
CLEF data set We use the WEKA tool in order to pre-
process the training and test question data
sets, for this purpose was applied an unsu-
pervised filter called StringToWordVector to
ger, we can see that the proportion of instan- both, training and test data sets, to ensu-
ces in each class on both data sets are similar. re the word dictionary will not change (word
Another reason to make us think that the re- occurrences will usually differ in training and
sults of the classification could be as good as
test set). It creates word vector representa-

the presented in (Zhang and Lee, 2003) and tions of text documents in the vector space
(Li and Roth, 2002). model. In the vector space model, a docu-
In Figure 3, it is shown the fine clas- ment is represented by a vector that deno-
ses distribution of the CLEF data set. There tes the relevance of a given set of terms for
we can observe that the class containing the this document. Once the process is finished,
majority of instances is reason, followed by the output file contains the question features
desc. We do not consider this to be a pro- along with its categories ready to be classified
blem, because in the training set there are a by the learning algorithm. Every question is
good amount of instances in those classes. represented as binary feature vectors becau-
Finally in Figure 4, we show the fine clas- se the term frequency (tf) of each word or
ses distribution of the TREC data set. There ngram in a question usually is 0 or 1. We re-
we can observe that the class containing the peat this process for each of the 4 training
majority of instances is def, followed by ot- data set along with the test data set respec-
her. tively.
5.2. Methodology and Feature 5.3. Results
Selection Tables 2 and 3, present the results of
We preferred to use textual surface featu- the classification carried out using the coarse
res with the intention of limiting the use of grain classes, with the bag-of-words features
tools or linguistic resources and thus achieve and the bag-of-ngram features respectively.
a system easily adaptable to new domains. In all tables the best results are in bold face
For each question we extract two kinds of to emphasize them. An interesting characte-
Dataset 2000 3000 4000 5500

Algorithm CLEF TREC CLEF TREC CLEF TREC CLEF TREC
KNN 66.66 77.20 68.33 83.60 70.00 85.60 77.50 86.60
NB 85.00 86.80 84.16 87.80 85.83 88.80 86.66 90.00
SVM 95.83 96.60 96.66 97.60 95.00 97.40 95.00 97.00
DT 96.66 94.60 96.66 95.60 96.66 96.40 96.66 96.20
Table 2: The QC accuracy comparison with different machine learning algorithms, using the
bag-of-words features, under the coarse grained category definition.
ristic that we can observe in all tables is that 75.83 % of accuracy with the DT method. Ho-
the classifiers trained on larger training da- wever this feature does not seems to affect the
tasets usually get better performance. TREC dataset, in which the accuracy have
In Table 2, we can observe that the SVM not decreased that much, obtaining a 86.40 %
method obtains the best results, reaching with the SVM method. In (Zhang and Lee,
97.6 % of accuracy, when the test was with 2003) the best accuracy reported was 80.2 %
the TREC dataset and training with 3,000 for the fine grained classification using the
instances of the UIUC dataset.The DT al- bag-of-word features.
gorithm outperforms the others reaching a The last experiment results are shown in
96.66 % of accuracy with all training data- Table 5. There we can observe that SVM ob-
sets, when the test was with the CLEF data- tains the best performance, with a 82.60 % of
set. In (Zhang and Lee, 2003) the best accu- accuracy for the TREC dataset; but again,
racy achieved was 87.4 %. These results allow the bag-of-word features outperforms these
us to affirm that even if this training data- results. For the CLEF dataset the results are
set was not built for the task of QA4MRE not encouraging, achieving only 72.5 % of ac-
of CLEF, we can successfully use it for this curacy with the SVM method.
task, due to the excellent results obtained so Another interesting feature observed is
far. that if we use bag-of-words for the classifi-
In Table 3, we can observe that the cation, the obtained accuracy is better when
SVM method outperform the others in al- training with a small amount of instances,
most every trial, followed by the DT met- unlike the bag-of-ngram, which obtains bet-
hod. We also observe that the bag-of-ngrams ter results when training with a large data
features are not much better than the bag- set.
of-words features. In these tests we achieved

a 98.33 % of accuracy with the SVM method 6. Conclusions and Future work
for the CLEF dataset; while for the TREC This paper presents a detailed study
dataset we got a 97.40 % of accuracy, which on automatic question classification through
becomes to be another encouraging result. machine learning approaches.
Tables 4 and 5, present the results of We show that without the use of linguis-
the classification made using the fine grain tic tools or resources and with only surface
classes, with the bag-of-words and the bag- text features, the SVM and in some cases the
of-ngram features, respectively. In these ex- DT classifier outperform the two other ma-
periments we have expected that the number chine learning methods (kNN, NB) for ques-
of fine grained class labels, negatively affect tion classification. Furthermore they are com-
the performance of the classifiers, due to the parable with the methods proposed in (Zhang
important role that it plays in the performan- and Lee, 2003) where the maximum accuracy
ce of multi-class learners. Typically, the lar- achieve was 90.00 % and with those presented
ger the confusion set, the lower the average in (Li and Roth, 2002) that use linguistic par-
prediction accuracy (Even-Zohar and Roth, sers, plus automatic classification, achieving
2000)(The set of all possible class labels for 98.80 % of accuracy for the coarse grain clas-
a given question is called a confusion set) sification and 95 % of accuracy for the fine
In Table 4, we observe that, for the grain classification.
CLEF dataset, the number of classes affects It was proven that the training set pro-
drastically the performance of the NB and vided by UIUC, is scalable to the QA4MRE
kNN classifiers, achieving in the best case a task of CLEF2011, but the fact of having less
Dataset 2000 3000 4000 5500

KNN 62.50 80.00 65.83 82.40 65.83 85.80 65.00 84.60
NB 79.16 86.20 80.00 86.80 80.83 88.40 82.50 88.60
SVM 98.33 96.80 97.50 97.20 95.00 96.80 94.16 97.40
DT 94.16 97.20 96.66 96.80 96.66 96.00 95.83 96.20
bag-of-ngrams features, under the coarse grained category definition
Dataset 2000 3000 4000 5500
KNN 35.00 67.80 48.33 70.20 48.33 72.00 49.16 74.00
NB 56.66 75.60 59.16 76.80 64.16 77.60 63.33 79.60
SVM 65.83 83.40 70.83 83.40 72.50 82.40 75.00 86.40
DT 75.83 80.60 70.00 82.60 67.50 80.60 68.33 83.60
bag-of-words features, under the fine grained category definition.
Dataset 2000 3000 4000 5500
KNN 44.16 67.20 46.66 69.60 44.16 71.00 45.00 71.40
NB 57.50 69.40 57.50 70.80 53.33 72.60 51.66 73.40
SVM 63.33 80.40 69.16 81.60 70.83 82.60 72.50 82.60
DT 66.66 80.40 69.16 80.80 70.00 81.80 68.33 81.80
bag-of-ngrams features, under the fine grained category definition
factual questions and more causal or purpose dimir Vapnik. 1992. A training algorithm
questions decrease the precision of the tested for optimal margin classifiers. In David
classifiers. There could be several solutions to Haussler, editor, COLT, pages 144–152.
this problem and one of which is to develop ACM.
a new training set for this task. We intend to
Cortes, Corinna and Vladimir Vapnik. 1995.
extend this research along this line of work.

Support-vector networks. In Machine
As further work, we plan to investigate ot-
Learning, pages 273–297.
her types of machine learning algorithms that
may help to solve this problem. It will be also Cumbreras Garcı́a, Miguel Ángel, Luis Alfon-
interesting to extend this study using hierar- so Ureña, Fernando Martı́nez, and Artu-
chical classifiers, rather than flat classifiers. ro Montejo. 2005. Búsqueda de respues-
This kind of classifier may be helpful to re- tas multilinge clasificación de preguntas en
duce the number of fine grain classes, once español basada en aprendizaje. Procesa-
the coarse class has been classified. miento de Lenguaje Natural, 34(0).
Even-Zohar, Yair and Dan Roth. 2000. A
References
classification approach to word prediction.
Barker, Ken, Ra Agashe, Shaw-yi Chaw, In Proceedings of the 1st North Ameri-
James Fan, Noah Friedl, Michael Glass, can chapter of the Association for Compu-
Jerry Hobbs, Eduard Hovy, David Israel, tational Linguistics conference, NAACL
Doo-Soon Kim, Rutu Mulkar-mehta, Sou- 2000, pages 124–131, Stroudsburg, PA,
rabh Patwardhan, Bruce Porter, Dan Te- USA. Association for Computational Lin-
cuci, and Peter Yeh. 2007. Learning by guistics.
reading: A prototype system, performan-
ce baseline and lessons learned. In In Pro- Hermjakob, Ulf. 2001. Parsing and ques-
ceedings of TwentySecond National Confe- tion classification for question answering.
rence on Artificial Intelligence. In Proceedings of the workshop on Open-
domain question answering - Volume 12,
Boser, Bernhard E., Isabelle Guyon, and Vla- ODQA ’01, pages 1–6, Stroudsburg, PA,
USA. Association for Computational Lin- Voorhees, Ellen M. 2001. Overview of the
guistics. trec-9 question answering track. In In
Joachims, Thorsten. 1998. Text categoriza- Proceedings of the Ninth Text REtrieval
tion with support vector machines: Lear- Conference (TREC-9, pages 71–80.
ning with many relevant features. Witten, Ian H. and Eibe Frank. 2000. Data
Li, Xin and Dan Roth. 2002. Learning ques- Mining: Practical Machine Learning Tools
tion classifiers. In Proceedings of the 19th and Techniques with Java Implementa-
international conference on Computatio- tions. Morgan Kaufmann, San Francisco.
nal linguistics - Volume 1, COLING ’02, Yang, Yiming and Xin Liu. 1999. A re-
pages 1–7, Stroudsburg, PA, USA. Asso- examination of text categorization met-
ciation for Computational Linguistics. hods. In Proceedings of the 22nd annual
Manning, Christopher D., Prabhakar Ragha- international ACM SIGIR conference on
van, and Hinrich Schtze. 2008. Introduc- Research and development in information
tion to Information Retrieval. Cambridge retrieval, SIGIR ’99, pages 42–49, New
University Press, New York, NY, USA. York, NY, USA. ACM.
Manning, Christopher D. and Hinrich Zhang, Dell and Wee Sun Lee. 2003. Ques-
Schütze. 1999. Foundations of statistical tion classification using support vector
natural language processing. MIT Press, machines. In Proceedings of the 26th an-
Cambridge, MA, USA. nual international ACM SIGIR conferen-
Mitchell, Tom M. 1997. Machine Learning. ce on Research and development in infor-
McGraw-Hill, New York, 2 edition. maion retrieval, SIGIR ’03, pages 26–32,
New York, NY, USA. ACM.
Poon, Hoifung and Pedro Domingos. 2010.
Machine reading: A ”killer app ”for sta-
tistical relational ai.
Quinlan, J. Ross. 1993. C4.5: programs for
machine learning. Morgan Kaufmann Pu-
blishers Inc., San Francisco, CA, USA.
Roth, D., G. Kao, X Li, R. Nagarajan,
V. Punyakanok, N. Rizzolo, W. Yih,
C. Alm, and L. G. Moran. 2001. Lear-
ning components for a question answering

system. In TREC, pages 539–548.
Sebastiani, Fabrizio. 2002. Machine learning
in automated text categorization. ACM
Comput. Surv., 34(1):1–47, March.
Singhal, Amit, Steve Abney, Michiel Bac-
chiani, Michael Collins, Donald Hindle,
and Fernando Pereira. 2000. At&t at
trec-8. In IN PROCEEDINGS OF THE
EIGHTH TEXT RETRIEVAL CONFE-
RENCE (TREC-8, pages 317–330. press.
Tomás, David, Empar Bisbal, José L Vice-
do, Lidia Moreno, and Armando Suárez.
2005. Una aproximación multilingüe a
la clasificación de preguntas basada en
aprendizaje automático. Procesamiento
del lenguaje natural, 35:391–398.
Tomás, D. 2010. Sistemas de clasificación
de preguntas basados en corpus para la
búsqueda de respuestas. Procesamiento
de Lenguaje Natural, 44(1):76–84.
Una propuesta de análisis comparativo
de traducciones humanas y automáticas de textos especializados:
implicaciones para la evaluación
A Proposal of Comparative Analysis of Human and Automatic Translations of

Specialized Texts: Implications for Evaluation
Marina Fomicheva Iria da Cunha
Universidad Nacional Autónoma de México Universitat Pompeu Fabra
Centro de Enseñanza de Lenguas Extranjeras Institut Universitari de Lingüística Aplicada
Ciudad Universitaria, 04510, México D.F. C/ Roc Boronat 138, 08018, Barcelona
mari.fomicheva@gmail.com iria.dacunha@upf.edu
Gerardo Sierra
Universidad Nacional Autónoma de México
Instituto de Ingeniería, Torre de Ingeniería, basamento,
Ciudad Universitaria, 04510, México D.F.
GSierraM@iingen.unam.mx
Resumen: El objetivo de este artículo es ofrecer una metodología para el análisis comparativo
de traducciones automáticas (TAs) y traducciones humanas (THs). Para ello conformamos un
corpus paralelo inglés-español de textos especializados del ámbito médico, comparamos la
distribución de ciertas unidades lingüísticas (unidades terminológicas, n-gramas de etiquetas
POS y relaciones discursivas) en THs y TAs, e identificamos las condiciones en las que se
producen las diferencias. Los resultados del estudio muestran que la metodología propuesta
resulta útil para detectar las diferencias entre THs y TAs relevantes para la evaluación u
optimización de sistemas de TA.
Palabras clave: traducción automática, evaluación, comparación, textos especializados
Abstract: The goal of this study is to offer a methodology for the comparative analysis of
machine translations (MTs) and human translations (HTs). We build an English-Spanish
parallel corpus of specialized texts from the medical domain, compare the distribution of certain
linguistic units (terminological units, POS n-grams and discourse relations) in HTs and MTs,
and identify the conditions in which these differences take place. The results of the study show
that the methodology is useful to detect differences between HTs and MTs that could be
relevant when evaluating or developing MT systems.
Keywords: Machine Translation, Evaluation, Comparison, Specialized Texts
calidad. En este contexto la evaluación tiene

1 Introducción 1
un papel estratégico, ya que permite detectar
La Traducción Automática (TA) difiere mucho carencias, establecer prioridades y guiar el
de la Traducción Humana (TH) en términos de desarrollo de sistemas de TA. El supuesto de
base de la evaluación automática es que
1
“machine translation might be considered a
Este trabajo ha sido parcialmente financiado por solved problem should it ever become
los proyectos RICOTERM (FFI2010-21365-C03-
impossible to distinguish automated output
01) y APLE (FFI2009-12188-C05-01), por un
contrato Juan de la Cierva del Ministerio de Ciencia from human translation” (Corston-Oliver et al.,
e Innovación de España (JCI-2011-09665) y por 2001: 140). Sin embargo, las métricas más
una beca de maestría del CONACYT de México. utilizadas en la actualidad que calculan la
similitud TA-TH en términos de coocurrencia para distinguir entre THs y TAs. La calidad de
de n-gramas (para una revisión detallada, véase una traducción se define en función de la
Giménez, 2008) no proporcionan información probabilidad de su pertenencia a la clase de
sobre los rasgos distintivos de la TA. Al THs o TAs. La clasificación con SVM da muy
realizar una comparación directa partiendo de buenos resultados, pero no ofrece información
una representación superficial, estas métricas sobre la naturaleza de los rasgos lingüísticos
penalizan de la misma manera cualquier pertinentes para la comparación de las
diferencia entre la TA y la TH de referencia, versiones traducidas.
sin hacer una distinción entre la variación Al investigar las diferencias entre la TA y
aceptable y las divergencias que realmente la TH se deben tomar en cuenta tanto la
afectan la calidad de la traducción. naturaleza de los textos producidos por
Las diferencias TA-TH pueden estar sistemas de TA, como los rasgos prototípicos
relacionadas tanto con las particularidades de de la TH. Estos han sido estudiados en el
la TA, como con las decisiones del traductor marco de los estudios de traducción basados en
humano, condicionadas no solamente por las corpus (Baker, 1995), que han demostrado que
diferencias sistémicas entre las lenguas, sino los textos traducidos (TTs) presentan una
también por el propio proceso de traducción distribución de unidades (léxicas, sintácticas o
(Baker, 1995) y por las restricciones discursivas) sistemática y significativamente
provenientes de las convenciones de uso de los distinta con respecto a los textos escritos
recursos de la lengua meta en un contexto de originalmente en la lengua de llegada (en este
situación determinado. sentido se reconoce la existencia del "lenguaje
El objetivo de este trabajo es ofrecer una de traducción" o translationese).
metodología para el análisis comparativo de la Al describir las propiedades de los TTs, es
la TA y la TH, teniendo en cuenta diversos necesario determinar cuáles son las posturas
niveles lingüísticos (léxico-terminológico, regularmente adoptadas por los traductores en
sintáctico y discursivo). Para ello un contexto determinado y qué factores
conformamos un corpus paralelo inglés- condicionan sus decisiones (Toury, 2004). Una
español de textos especializados del ámbito manera de abordar esta tarea es por medio de
médico, y comparamos la distribución de la noción de tranlsation shifts 2 (“desviaciones
ciertas unidades lingüísticas (unidades del texto original [TO] en la traducción”). El
terminológicas, n-gramas de etiquetas POS y interés por este fenómeno se debe a la
relaciones discursivas) en las TAs y en las THs contradicción entre la expectativa prototípica
realizadas por dos sistemas basados en de la similitud máxima entre el TT y el TO, y
estrategias diferentes. la expectativa de la “naturalidad” del TT

(Szymańska, 2011). De acuerdo con Fernández
2 Trabajo relacionado Polo (1999), para describir y explicar las
Uno de los problemas fundamentales de las características de los TTs deben “identificarse
métricas basadas en n-gramas es la falta de las ‘desviaciones’ manifestadas en la
poder descriptivo, debido a que la comparación traducción con respecto a un ideal de
se realiza a un nivel concreto y superficial. ‘adecuación’ determinado por el propio texto
Para solucionar este problema, Amigó et al. original (TO), que actúa como ‘invariante de
(2006) proponen calcular la similitud entre la comparación’. Descubiertos los lugares en los
TA y la TH de referencia a partir de un análisis que la traducción se desvía del original, podrá
más fino combinando varias métricas comprobarse que algunas de estas desviaciones
relacionadas con distintos niveles de la lengua son obligatorias, motivadas por las diferencias
en un marco integrador que proporcione una sistémicas entre las dos lenguas, mientras que
evaluación fundamentada lingüísticamente. otras son opcionales, resultado de la elección
Otra propuesta enfocada a los rasgos consciente o inconsciente del traductor”
distintivos de las TAs se basa en la extracción (Fernández Polo, 1999: 43-44). Las diferencias
de patrones lingüísticos a partir de un corpus TA-TH relacionadas con los tranlsation shifts
grande de TAs y THs. Gamon et al. (2005)
utilizan el algoritmo de clasificación textual 2
Utilizamos el término en inglés, ya que no existe
Support Vector Machines (SVM) entrenado un consenso sobre su equivalente en español.
en las THs y las diferencias vinculadas a los modificaciones tomando como base los
errores de la TA no tienen el mismo impacto trabajos de Catford (1965), Leuven-Zwart
en la calidad de la traducción. (1989) y Cyrus (2006), la cual se resume en la
Tabla 1.
3 Metodología
Especificación (la unidad del léxico en la TH
En relación con el estudio de las diferencias tiene un significado más específico en
TA-TH en el contexto de la evaluación, Nivel relación con la unidad correspondiente del
léxico TO)
partimos de las siguientes consideraciones
generales. En primer lugar, siguiendo a Toury Generalización (la unidad del léxico en la TH
(2004), consideramos que, para identificar las tiene un significado más general en relación
con la unidad correspondiente del TO)
regularidades en el comportamiento de los
traductores humanos, los TTs objeto de estudio Modificación (las unidades del léxico de los
TOs y las THs tienen una relación diferente a
deben compartir un contexto de situación las que se indican arriba)
específico; por tanto, para llegar a
conclusiones válidas sobre las características Cambios relacionados con la función y
propiedades de la cláusula (voz, modo,
de las traducciones debe partirse de un corpus Nivel cláusulas con verbos conjugados frente a
homogéneo en términos de género y tipo sintáctico cláusulas infinitivas, etc.)
textual. En segundo lugar, el punto de partida Cambios relacionados con la función y la
para el estudio de los rasgos distintivos del posición de los constituyentes (adverbial vs.
lenguaje de la traducción son los TTs, con lo predicativo, traducción de una cláusula con
una frase preposicional, etc.)
cual se identifica primero un patrón lingüístico
(distribución específica de unidades o Nivel Explicitación (la relación discursiva no está
discursivo marcada en el TO, pero sí en el TT)
fenómenos lingüísticos) en la lengua meta y, a
continuación, se investiga con qué tipo de Implicitación (la relación discursiva está
contextos de los TOs se relaciona de manera marcada en el TO, pero no el TT)
sistemática. En tercer lugar, la calidad de la Modificación (la relación discursiva que
traducción como objeto de evaluación tiene existe en el TO no se preserva en el TT)
varios aspectos relacionados con los niveles de
la lengua, y no existe una manera trivial de Tabla 1: Clasificación de translation shifts
ponderar dichos aspectos en términos de su Aplicamos este procedimiento general para
efecto en la calidad global de los TTs. Por analizar un corpus de textos especializados del
tanto, en un primer acercamiento al análisis ámbito médico, concretamente del género
cualitativo de las diferencias TA-TH, conviene artículo de divulgación científica. El corpus se

considerar dichas diferencias con detalle en compone de 40 textos: 10 artículos publicados
cada nivel por separado. en inglés en la revista Scientific American
La metodología consta de tres fases. entre los años 1994 y 2000 (24.053 palabras),
Primero, se identifican y se cuantifican las 10 traducciones de estos textos al español
diferencias sistemáticas entre las THs y las publicadas en la versión española de dicha
TAs. Segundo, se detectan los contextos de los revista (Investigación y Ciencia) 3 (25.305
TOs con los que se relacionan dichas palabras), 10 TAs inglés-español realizadas
diferencias. Tercero, las diferencias observadas por el sistema estadístico Google Translator
se clasifican de acuerdo con su origen. Las [Google] (27.547 palabras), y 10 TAs inglés-
diferencias que se relacionan con la TA indican español realizadas por el sistema basado en
una selección equivocada de unidades del reglas Lucy Translator [Lucy] (26.206
léxico o estructuras sintácticas por parte de los palabras). Para este experimento tomamos las
sistemas, la cual en algunos casos (que
documentamos en el análisis en el nivel
discursivo) afecta la coherencia global de del 3
La revista no aporta información sobre el número
TT. Las diferencias relacionadas con la TH de traductores, pero sabemos que "Los traductores
indican modificaciones opcionales realizadas no forman parte, pues, del personal de la propia
por los traductores con respecto a la forma y el revista, sino que están adscritos a un centro de
contenido del original. Elaboramos una enseñanza o de investigación y son invitados a
propuesta de clasificación de dichas colaborar esporádicamente con Investigación y
Ciencia" (Fernández Polo, 1999: 99).
traducciones de estos sistemas, ya que una de tratamiento de la terminología por parte de los
las preguntas que nos interesa discutir de cara traductores y los sistemas de TA.
a la comparación de las TAs con las THs es Ej. TO TH Google Lucy
qué tipo de modificaciones realizadas por el (CD) (CD) (CD)
humano son capaces de modelar los sistemas 1 disorder patología trastorno desorden
(0.7) (0.2) (-1)
de TA basados en estrategias diferentes. 2 breed progenie raza raza
(1) (0) (0)
4 Análisis y resultados 3 patient organismo paciente paciente
(0.8) (0.1) (0.1)
4 eating deglución comer comiendo
4.1 Nivel léxico-terminológico (0.5) (N/A) (N/A)
5 treating tratamiento tratamiento tratar
En el nivel léxico nos centramos en el (1) (1) (N/A)
tratamiento de la terminología por parte de los 6 motor coordina- coordina- coordina-
traductores humanos y sistemas de TA, ya que coordina- ción motora ción motora ción de
tion (0.5) (0.5) motor
en textos de especialidad son los términos (N/A)
quienes vehiculan el conocimiento 7 stroke accidente carrera golpe
especializado (Cabré, 1999). Para extraer cerebro- (0) (0)
vascular
automáticamente las unidades terminológicas, (0.6)
empleamos la herramienta propuesta por 8 stroke accidente derrame golpe
cerebro- cerebral (0)
Vivaldi y Rodríguez (2010). Este extractor vascular (0.6)
obtiene términos de un dominio de (0.6)
especialidad utilizando las estructuras de 9 stroke accidente accidente golpe
cerebro- cerebro- (0)
páginas y categorías de la Wikipedia, y vascular vascular
proporciona para cada candidato a término un (0.6) (0.6)
coeficiente de dominio [CD] (de 0 a 1) que
Tabla 2: Ejemplos de diferencias en el
indica su grado de pertenencia al ámbito de
tratamiento de la terminología en THs y TAs
especialidad (en nuestro caso "Biología" y
"Medicina"). Nos limitamos a analizar los En los ejemplos 1, 2, 3 y 4, observamos que
candidatos a términos con un CD mayor a 0.5. los traductores humanos tienden a utilizar
Al realizar la extracción, calculamos el número unidades terminológicas con un CD más alto y,
total de candidatos a términos y el número de por tanto, con una pertenencia al ámbito de
candidatos a términos con CDs altos (de 0.8 a especialidad mayor que en las TAs. Esta
1) en cada grupo de TTs. Esta información nos tendencia entra en contradicción con las
proporciona una caracterización general del propiedades del discurso de divulgación

tratamiento de la terminología en la TH y la científica, el cual se caracteriza por una
TA. A continuación, detectamos las unidades reducción del vocabulario de especialidad y
léxicas correspondientes en los TOs. A partir una simplificación a nivel léxico-
de estos datos, detectamos los patrones que terminológico. Suponemos que ello se explica
reflejan el tratamiento de la terminología en los por una tendencia propia de la traducción en
TTs (por ejemplo, sustitución de una unidad general (Baker, 1995) a exagerar los rasgos
que no pertenece al dominio de especialidad en prototípicos del tipo de textos a traducir (en
el TO por una unidad terminológica en el TT). este caso, textos especializados).
Finalmente, clasificamos las diferencias Otra razón por la cual el número de los
sistemáticas TA-TH de acuerdo con la candidatos a términos es mayor en las THs es
tipología incluida en la Tabla 1. que el extractor de Vivaldi y Rodríguez (2010)
Obtenemos los siguientes resultados sólo detecta las unidades nominales con
cuantitativos generales. El número total de función referencial y no asigna ningún
candidatos a términos extraídos en las THs es coeficiente a los verbos ("N/A" en la Tabla 2),
567, en las TAs de Google 532 y en las TAs de de manera que el número elevado de
Lucy 434. En las traducciones de Google se nominalizaciones en las THs tiene un impacto
observa un 24% de diferencias, mientras que en los resultados (ejemplos 4 y 5). El uso de
en las traducciones de Lucy el porcentaje es nominalizaciones en el discurso especializado
mayor, un 46%. En la Tabla 2 ejemplificamos conlleva una mayor densidad léxica y una
las tendencias que se presentan en el implicitación de las relaciones semánticas al
pasar de las construcciones clausales a frases software estadístico R Project identificamos las
nominales. Al igual que en el caso anterior, diferencias estadísticamente significativas (p-
observamos una tendencia de la TH a exagerar valor < 0.05) en la frecuencia de aparición de
los rasgos propios del dominio de especialidad. n-gramas de etiquetas POS en las THs y las
En el ejemplo 5, Google realiza la misma TAs. Extraemos del corpus una muestra
selección que el traductor humano debido a aleatoria de contextos de aparición (a nivel de
que dicha selección es la más frecuente en este oración) de los n-gramas que presentan
contexto. diferencias significativas en su distribución en
En los casos en los que la diferencia TA- las TAs y las THs, e identificamos los
TH se relaciona con los errores de TA, fragmentos correspondientes en los TOs. A
detectamos diversas tendencias. Como se ve en partir de estos datos, detectamos las
el ejemplo 6, los errores de Lucy se producen regularidades en el comportamiento de los
en un contexto de ambigüedad sintáctica o traductores y los sistemas de TA al enfrentarse
semántica de los TOs, problema que Google es con una construcción sintáctica del original
capaz de resolver en la mayoría de los casos. determinada. Finalmente, clasificamos las
En este ejemplo la relación semántica entre las diferencias siguiendo las categorías
unidades que conforman el término poliléxico presentadas en la Tabla 1.
no tiene ninguna marca explícita en inglés, lo En las TAs de Google un 23% de n-gramas
cual lleva a un error en la traducción están sobre-/sub-representados con respecto a
proporcionada por el sistema basado en reglas. las THs. En las traducciones de Lucy, esto
Las traducciones de Google se acercan más a ocurre en un 37% de los casos.
la selección léxica de las THs, pero presentan p-valor
n- Frec. Frec. Frec. p-valor
una desventaja importante en comparación con gramas TH Goo.
TH-
Lucy TH - Lucy
Google
la traducción del sistema basado en reglas, a
pp30 594 486 9.34*10-3 451 1.29*10-6
saber: una falta de continuidad en el -3
pd00 67 26 7.28*10 33 6.10*10-4
tratamiento de la terminología. En los ejemplos
7, 8 y 9 observamos que Lucy, aun realizando nc sp nc 579 710 0.06 1160 2.2*10-16
una selección poco apropiada, al ofrecer pr vs aq 17 61 9.48*10-6 36 0.01

"golpe" como equivalente de stroke, lo hace vmii 216 52 2.20*10 -16
374 5.624*10-10
siempre de la misma manera. En cambio,
vmis 138 178 0.11 1 2.2*10-16
Google realiza la traducción en función del
contexto lingüístico inmediato, y ofrece varias vs vm 12 92 2.56*10-10 83 2.665*10-12
opciones para el mismo término ("derrame

Tabla 3 4. Ejemplo de identificación de

cerebral", "accidente cerebrovascular",
diferencias estadísticamente significativas TA-
"carrera"), con lo cual el TT pierde la
TH a nivel sintáctico
coherencia a nivel del léxico.
4.2 Nivel sintáctico En la Tabla 3 presentamos algunos de los
unigramas, bigramas y trigramas de etiquetas
Para realizar el análisis a nivel sintáctico, POS que presentan diferencias significativas
anotamos los TTs con el pos-tagging de en sus frecuencias de aparición en las THs y
Freeling-2.2 (Carreras et al., 2004). A las TAs. Organizamos todas las diferencias
continuación, calculamos las frecuencias de identificadas en términos de funciones
aparición de unigramas, bigramas y trigramas discursivas básicas: referencia, modificación y
de etiquetas POS en las THs y TAs. Utilizamos predicación (Croft, 1991). En cuanto a los
una representación más o menos detallada en recursos que se utilizan en la TH en relación
función del tipo de n-gramas. Así, calculamos con la función referencial, observamos, por
la frecuencia de aparición de unigramas
tomando en cuenta la categoría y algunas de 4
aq: adjetivo calificativo; nc: nombre común; pr:
las subcategorías que proporciona el POS- pronombre relativo; pd00: pronombre
tagging de Freeling-2.2, y, para los bigramas y demostrativo; pp30: pronombre personal, 3ª
trigramas, sólo tomamos en cuenta la categoría persona; sp: preposición; vs: verbo semiauxiliar;
y la primera subcategoría de las etiquetas POS. vm: verbo principal; vmii: verbo principal,
Por medio del test de proporciones del indicativo, imperfecto; vmis: verbo principal,
indicativo, pasado.
ejemplo, la preferencia por la referencia TAs de Lucy también se observan diferencias

anafórica frente a la referencia nominal en los en la traducción de la morfología verbal, pero
casos en que esta última conlleva la repetición debido sobre todo a la necesidad de explicitar
léxica. Ello se manifiesta en la frecuencia de los rasgos gramaticales que no se marcan en
aparición de los pronombres personales y inglés de la misma manera que en español. Un
demostrativos, la cual es significativamente ejemplo es la sobre-representación de los
más baja en las TAs. En este caso, en la TH se verbos en imperfecto y la sub-representación
observa un translation shift a nivel sintáctico de los verbos en pretérito indefinido al tratar
condicionado tanto por la adecuación a la las formas verbales del pasado simple del
lengua meta (diferencia entre el inglés y el inglés. En las TAs de Google se detecta la
español en el uso de mecanismos de cohesión: tendencia contraria, que, suponemos, se debe a
referencia anafórica frente a repetición léxica), la frecuencia de estas formas en su corpus de
como por una tendencia universal de la entrenamiento. Otra diferencia en cuanto a las
traducción: evitar la repetición. construcciones con función predicativa es la
En relación con la modificación, en las TAs sobre-representación de los n-gramas que
de Lucy el recurso más frecuente es la frase corresponden a la construcción pasiva analítica
preposicional, mientras que en las THs y las en las TAs, frente al uso de las construcciones
TAs de Google el uso de esta construcción es medias o activas en las THs. En este caso no se
menos frecuente. Estas diferencias se dan en el trata de un error gramatical, sino del aspecto
contexto de la traducción de los sintagmas pragmático-funcional de estas construcciones,
nominales complejos del inglés, que se así como de los factores de frecuencia de uso
traducen de diversas maneras por los (la construcción media es más frecuente en
traductores humanos y por el sistema español que la pasiva analítica).
estadístico. En cambio, el sistema basado en
reglas las traduce siempre por medio de una
4.3 Nivel discursivo
frase preposicional, lo cual en algunos casos A nivel discursivo anotamos los TTs con las
conlleva una falta de naturalidad en el discurso relaciones discursivas de la Rhetorical
o una anomalía semántica. Structure Theory (Mann y Thompson, 1988)
Otro ejemplo de diferencia a nivel con la herramienta RSTTool (O’Donnell,
sintáctico es la sobre-representación en las 2000) siguiendo la metodología desarrollada en
TAs del n-grama que corresponde a las da Cunha e Iruskieta (2010). La anotación se
subordinadas de relativo con predicación divide en tres fases: segmentación discursiva,
atributiva. Al realizar el análisis cualitativo de detección de relaciones discursivas (por
una muestra de los contextos de aparición de ejemplo, relaciones de tipo Núcleo-Satélite

este n-grama, observamos que dicha diferencia como CAUSA, ANTÍTESIS o RESULTADO, y
se produce al traducir esta misma construcción Multinucleares como LISTA, SECUENCIA o
del inglés, en cuyo caso los traductores CONTRASTE) y construcción de árboles
humanos muestran una preferencia por la retóricos. En los casos en los que es imposible
modificación adjetival debido a que esta tiene interpretar una relación discursiva debido a la
un mayor grado de concisión, mientras que los falta de coherencia en las TAs, introducimos la
sistemas de TA ofrecen una traducción literal. marca "?", que indica que la unidad discursiva
En cuanto a los mecanismos de mínima (EDU) en cuestión no se relaciona con
predicación, dado que inglés es una lengua con ninguna otra EDU del texto. Para obtener
una morfología verbal pobre en comparación resultados cuantitativos generales, calculamos
con el español, ambos sistemas de TA el número de EDUs en cada grupo de textos.
presentan problemas en su tratamiento. En el Asimismo, calculamos la frecuencia de
caso de los verbos, las formas en futuro, aparición de los diferentes tipos de relaciones
subjuntivo e imperfecto están subrepresentadas con el fin de obtener una descripción general
en las TAs de Google, lo cual concuerda con la de la organización del discurso en la TA y la
observación confirmada en numerosos estudios TH. Realizamos la alineación de TOs, THs y
sobre los problemas que presentan los sistemas TAs a nivel de EDU y registramos el estatus de
estadísticos al traducir a una lengua con cada EDU en términos de su relación
morfología flexiva rica (Lee, 2004). En las discursiva con otro segmento del texto. A
partir de esta alineación, identificamos las cumplir todos los criterios para el
diferencias sistemáticas entre las THs y las trastorno,]NÚCLEO [pero todavía
TAs a nivel discursivo y las clasificamos de tienen algunos de sus síntomas.]
acuerdo con la Tabla 1. SATÉLITE_ANTÍTESIS
En cuanto a la segmentación discursiva las Lucy: [Los familiares de gente con el
TAs de Google presentan un 23% de autismo pueden fracasar en encontrar
diferencias; en cuanto a las relaciones todos los criterios para el
discursivas, un 47%. En las TAs de Lucy el desorden]NÚCLEO [pero todavía tener
número de diferencias en la segmentación es algunos de sus síntomas.]
mayor (27%), pero el número de diferencias en SATÉLITE_ANTÍTESIS
las relaciones discursivas es menor (40%).
Las diferencias que se originan en las 5 Conclusiones
traducciones de Lucy se dan en un contexto de
En este artículo hemos presentado una
ambigüedad léxica o sintáctica del TO. En
metodología que permite comparar las
cuanto a las diferencias relacionadas con las
diferencias lingüísticas existentes entre TAs y
TAs de Google, se deben a las
THs, en tres niveles de la lengua (léxico-
omisiones/adiciones que realiza este sistema
terminológico, sintáctico y discursivo), usando
al seleccionar la opción más probable. El
un corpus paralelo inglés-español de textos
ejemplo (1) ilustra esta última observación:
especializados del ámbito médico.
(1) TH: [La biología consistía ahora en el En términos de rasgos lingüísticos
estudio de la información almacenada cuantitativos a nivel léxico y sintáctico
en ADN - ristras de cuatro letras, A, T, (frecuencia de unidades léxicas o n-gramas de
G y C, símbolos de las bases adenina, etiquetas POS), las TAs del sistema estadístico
timina, guanina y citosina - y de las tienen más similitud con las THs que las
transformaciones que esa información traducciones del sistema basado en reglas,
experimenta en el interior de la debido a que Google realiza la tarea mediante
célula.]NÚCLEO [¡Aquí había modelos de lengua y de traducción tomando en
matemáticas!]SATÉLITE_INTERPRETA- cuenta el factor de frecuencia y haciendo
CIÓN generalización a partir de datos reales. Sin
Google: [Biología era ahora el estudio embargo, a nivel discursivo el número de
de la información almacenada en las diferencias entre la TA de Google y la TH es
cadenas de ADN de cuatro letras: A, T, mayor, ya que, aun cuando las TAs de Google
G y C para las bases denine, timina, muestran una aparente naturalidad del discurso
guanina y citosina - y de las a nivel del sintagma u oración, presentan
transformaciones que sufre la graves errores que afectan la estructura
información en la celda.] NÚCLEO [No discursiva y la coherencia global del TT.
era la matemática aquí!]? El objetivo último de la TA es lograr
Las diferencias que se originan en las THs resultados comparables a la TH en términos de
son un reflejo de la interpretación del original calidad. Precisamente, para identificar los
por parte del traductor. A nivel discursivo, este aspectos más problemáticos que deben
proceso afecta el orden de las EDUs y la optimizarse, consideramos que es necesario
selección de marcadores del discurso y caracterizar las TAs en oposición a las THs,
conlleva modificaciones en la estructura mediante un análisis lingüístico, y tener en
discursiva del original en el TT. El ejemplo (2) cuenta que no todas las diferencias entre la TH
ilustra esta situación: y la TA reflejan la calidad global de esta
(2) TH: [Los parientes de autistas pueden última de la misma manera. Además, dada la
presentar algunos síntomas,]NÚCLEO naturaleza literal de la TA, la comparación
[aunque no el cuadro completo que TA-TH permite observar con más claridad las
justifique el diagnóstico de la diferencias entre las lenguas y las decisiones
enfermedad.]SATÉLITE_CONCESIÓN del traductor. En cuanto al desarrollo de
Google: [Los familiares de las sistemas de la TA, el análisis de las estrategias
personas con autismo pueden no de TH da luz sobre los aspectos de esta que
podemos/debemos modelar en la TA.
Somos conscientes de que el presente The influence of translation strategies.

trabajo tiene varias limitaciones. En primer Discourse Studies, 12(5):563-598.
lugar, utilizamos sistemas de TA generales, no
Fernández Polo, F.J. (1999). Traducción y
adaptados a la tarea de traducción de textos
retórica contrastiva: A propósito de la
especializados del ámbito médico. En segundo
traducción de textos de divulgación
lugar, no realizamos la comparación de las
científica del inglés al español.
THs con los textos originalmente escritos en
Universidad de Santiago de Compostela,
español, que aportaría datos interesantes sobre
Santiago de Compostela.
las características distintivas de los TTs. Nos
planteamos como trabajo futuro solventar estas Gamon, M., A. Aue, y M. Smets. 2005.
carencias, así como aplicar la metodología a Sentence-Level MT evaluation without
otro tipo de textos. Además, trataremos de reference translations: beyond language
automatizar la metodología el máximo posible. modeling. En EAMT 2005 Conference
Proceedings, páginas 103-111.
Bibliografía Giménez, J. 2008. Empirical Machine
Amigó, E., J. Giménez, J. Gonzalo, y Ll. Translation and its Evaluation. Universitat
Márquez. 2006. MT Evaluation: Human- Politécnica de Cataluña, Barcelona. [Tesis
Like vs. Human Acceptable. En doctoral]
Proceedings of the 44th Annual Meeting of Lee, Y.-S. 2004. Morphological analysis for
COLINGACL, páginas 17-24. statistical machine translation. En
Baker, M. 1995. Corpora in Translation Proceedings of HLT-NAACL.
Studies: An Overview and Some Leuven-Zwart, K.M. van. 1989. Translation
Suggestions for Future Research. Target, and original: Similarities and
7(2):223-243. dissimilarities. Target, 1(2):151-181.
Cabré, M.T. 1999. La Terminología. Mann, W.C. y S.A. Thompson. 1988.
Representación y comunicación. IULA- Rhetorical Structure Theory: Towards a
UPF, Barcelona. functional theory of text organization. Text,
Carreras, X., I. Chao, L. Padró, y M. Padró. 8(3):243-281.
2004. Freeling: An open-source suite of O'Donnell, M. 2000. RSTTOOL 2.4 - A
language analyzers. En Proceedings of the markup tool for rhetorical structure theory.
4th International Conference LREC´04.
En Proceedings of the Natural Language

Catford, J.C. 1965. A Linguistic Theory of Generation Conference, páginas 253-256.
Translation: an Essay on Applied Szymańska, I. 2011. Mosaics. A Construction-
Linguistics. Oxford Univer. Press, London. Grammar-Based Approach to Translation.
Corston-Oliver, S., M. Gamon, y C. Brockett. Semper, Warszawa.
2001. A Machine Learning Approach to the Toury, G. 2004. Probabilistic Explanations in
Automatic Evaluation of Machine Translation Studies: Welcome as they are,
Translation. En Proceedings of the 39th would they Qualify as Universals? En
ACL, páginas 140-147. Mauranen, A. y P. Kujamäki (eds),
Croft, W. 1991. Syntactic categories and Translation Universals. Do they Exist?
grammatical relations: The cognitive Benjamins, Amsterdam, páginas 15-32.
organization of information. Chicago Vivaldi, J. y H. Rodríguez. 2010. Using
University Press, Chicago. Wikipedia for term extraction in the
Cyrus, L. (2006). Building a resource for biomedical domain: first experiences.
studying translation shifts. En Proceedings Procesamiento del lenguaje natural,
of the 5th LREC, páginas 1240-1245. 45:251-254
da Cunha, I. y M. Iruskieta. 2010. Comparing
rhetorical structures of different languages:
Comparación de dos enfoques para la extracción de hipónimos
relevantes derivados de hiperónimos
Comparison of two perspectives for extracting relevant hyponyms derived to
hyponyms
Olga Acosta César Aguilar Gerardo Sierra

Posgrado en Ciencias Facultad de Letras Pontificia Instituto de Ingeniería, UNAM,
Computacionales, UNAM, Universidad Católica de Chile, México DF
México DF Santiago de Chile giserram@iingen.unam.mx
olga@uxmcc2.iimas.unam.mx cesar.aguilar72@gmail.com
Resumen: En este trabajo proponemos una serie de heurísticas lingüísticas, que contribuyen a
lograr un equilibrio en Precision & Recall en la extracción de hipónimos derivados de un
hiperónimo más un rasgo semántico, representado este último por adjetivos. Tomando en cuenta
un principio de composicionalidad en la constitución de frases nominales del tipo nombre +
adjetivo, donde el nombre es un hiperónimo y el adjetivo es un rasgo semántico que ayuda a
establecer buenas relaciones de hiponimia/hiperonimia dentro de un dominio de conocimiento
específico, aplicamos las heurísticas mencionadas para explorar tal relación, con el objetivo de
mejorar la extracción de hipónimos en documentos de medicina. Nuestros resultados muestran un
equilibrio importante entre Precision y Recall, que complementa sustancialmente los que se han
obtenido empleando únicamente métodos y medidas probabilísticas en esta tarea, en concreto
índices de información mutua puntual (PMI).
Abstract: In this work we proposed a set of linguistic heuristics, in order to achieve a trade-off
between Precision & Recall on the extraction of hyponyms from hypernyms plus a semantic
feature represented by adjectives. Taking into account a compositionality principle on the
construction of noun phrases with the pattern noun + adjective, where noun is a hypernym, and
adjective is a semantic feature useful for establishing good hyponymy/hypernymy relations in
specific domains. We applied our heuristics in order to explore this relation, and improving the
extraction of hyponyms from medical texts. Our results show an important balance between
Precision & Recall which substantially complements other approaches using only probabilistic
methods and measures for solving this task, specifically Pointwise Mutual information (PMI).
Palabras clave: Extracción de información, relaciones léxicas, PMI, relaciones de

hiponimia/hiperonimia.
Keywords: Information Extraction, Lexical Relations, PMI, Hyponymy /Hypernymy Relations.
en inglés, considerando enfoques lingüísticos,

1 Introducción estadísticos o híbridos de los dos anteriores. En
español, Ortega, Villaseñor y Montes (2007);
Una de las líneas de investigación más
Acosta, Aguilar y Sierra (2010); Ortega et al.
explorada dentro del campo de la lingüística
(2011); así como Acosta, Sierra y Aguilar
computacional es el reconocimiento automático
(2011) han reportado buenos resultados en la
de relaciones léxicas, particularmente las de
detección de relaciones de
hiponimia/hiperonimia (Hearts, 1992; Ryu y
hiponimia/hiperonimia, reconociéndolas tanto
Choy, 2005; Pantel y Pennacchiotti, 2006;
en corpus de lengua general como
Snow, Jurafsky y Ng, 2006; Ritter, Soderland y
especializados circunscritos al área de
Etzioni, 2009), así como las de meronimia
medicina.
(Berland y Charniak, 1999; Girju, Badulescu y
Tomando en cuenta los avances logrados por
Moldovan, 2006).
las investigaciones mencionadas, en este trabajo
Los trabajos antes mencionados han
abordamos un problema que se puede plantear
detectado estas relaciones en corpus de textos
en los siguientes términos: si bien se han

XVIII Congreso de La Asociación Española para El P... - (PG 42 - 81) PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

XVIII Congreso de La Asociación Española para El P... - (PG 42 - 81) PDF

Încărcat de

Drepturi de autor:

Formate disponibile

XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 41

Linguistic Tools for an Improved Lemma

Lic. Daniel Castro Lic. Daylín González

Lic. María Peláez Mst. Yunior Ramírez

Resumen: En los últimos años, se ha manifestado un creciente desarrollo en la investigación y

diferentes retos para su correcto funcionamiento

mucho según el par de idiomas utilizado. Bouma et Holandés- 25.5% ---

Preguntas de la edición CLEF 2004

en la traducción de preguntas, y evaluar la pregunta libre de los errores causados por la

 La pregunta: ¿Cuándo fue la

En este caso, la traducción final, insertando

Un ejemplo utilizando el método sería: español.

 Incorrecta: al transformar el orden de la FreeTranslation

deficiencias mostradas por los diferentes

CORPUS presentado en el CLEF del 2006. 4. Ferrández. S (2008). Arquitectura

involucrado. In: Working Notes for the CLEF 2007

Resumen: En este artı́culo se adapta JavaSimLib al castellano, una herramienta

1. Introducción desambiguación semántica, etc.). Este traba-

de noviembre de 2006 de WordNet en castel-

calcularlo: información es bajo. En el caso contrario, un

El synset 1702479 aparece como hipóni-

describe una hora concreta del dı́a (las 12 del

Figura 1: Documento y correspondientes campos del synset correspondiente a la palabra “chico”.

Hayes, 2004) para el inglés. En el Cuadro 2 entity.1 entidad.1

imento debido a que ha sido necesario descar-

castellano estable disponible hasta el momen- castellano. La evaluación ha demostrado que

je Natural, numero 40, páginas 75–82 (in

Seco, N., T. Veale, y J. Hayes. 2004. An

Pares en inglés Pares en castellano EH SS

Cuadro 2: Palabras consideradas en la experimentación. Correlación obtenida entre la similitud

Alexandre Trilla, Francesc Alı́as

Resumen: La demanda de información sobre opiniones y sentimiento se ha in-

1 Introduction tion of text in a weighted vector space (essen-

tially unigrams and bigrams), and sometimes

(Kouloumpis, Wilson, y Moore, 2011), fairy Adapted Sentiment Analysis

Output text (tagged)

short texts. In this setting, the granularity

ture (Sebastiani, 2002; Manning, Raghavan,

(Sebastiani, 2002; Lan et al., 2009) as well

Instance properties Counts Orient. Word Pos. Neu. Neg.

• SVM uses the Weka’s Sequential Min- Whole set of features

Unigram features thesis: A Multidomain Approach by

Mitchell, Tom M. 2005. Generative and Dis-

Witten, Ian H. y Eibe Frank. 2005.

Helena Gómez Adorno y David Pinto y Yuridiana Alemán y Nahun Loya

Resumen: La clasificación preguntas es un componente clave en los sistemas de

1. Introduction guage questions in a large collection of docu-

QA system. ning methods, like (Zhang and Lee, 2003)

to estimate the parameters of a multinomial 1400

features: bag-of-words and bag-of-ngrams (all

chine learning algorithms to learn from string

test set). It creates word vector representa-

Dataset 2000 3000 4000 5500

of-words features. In these tests we achieved

Dataset 2000 3000 4000 5500

extend this research along this line of work.

ning components for a question answering

A Proposal of Comparative Analysis of Human and Automatic Translations of

calidad. En este contexto la evaluación tiene

estrategias diferentes. la expectativa de la “naturalidad” del TT

cualitativo de las diferencias TA-TH, conviene artículo de divulgación científica. El corpus se

proporciona una caracterización general del propiedades del discurso de divulgación

una selección poco apropiada, al ofrecer pr vs aq 17 61 9.48*10-6 36 0.01