Sunteți pe pagina 1din 76

Etiquetado de textos y su aplicación

a la traducción
José Ignacio Perea Sardón
Procesos de traducción e interpretación:
Período de Investigación Tutelada
Granada 2005

1. Introducción ...........................................................................................................................................1
1.1. Algunas definiciones previas...................................................................................................1
1.2. Etiquetadores morfosintácticos ...............................................................................................1
1.3. Aplicaciones de los etiquetadores morfosintácticos .............................................................3
1.4. Conjuntos de etiquetas..............................................................................................................4
1.5. Algoritmos de etiquetado.........................................................................................................4
1.5.1. Métodos estadísticos........................................................................................................5
1.5.2. Métodos basados en el aprendizaje de la máquina.....................................................6
1.5.3. Métodos lingüísticos........................................................................................................7
1.5.4. Métodos híbridos .............................................................................................................7
1.6. Ambigüedades en el español ...................................................................................................8
1.7. Etiquetadores desarrollados para el español .......................................................................10
2. Aplicación de los etiquetadores a la traducción..............................................................................13
3. Desarrollo de un etiquetador: PETRA Tag I ....................................................................................14
3.1. Extracción de los elementos del texto ...................................................................................14
3.2. Etiquetado de las palabras .....................................................................................................17
3.3. Aplicación de un modelo de objetos a PETRA Tag I ..........................................................28
3.3.1. Propiedades ....................................................................................................................30
3.3.2. Métodos...........................................................................................................................31
3.4. Ampliación del diccionario ....................................................................................................33
3.5. Evaluación de los resultados..................................................................................................35
3.5.1. Palabras no etiquetadas ................................................................................................38
3.5.2. Palabras etiquetadas incorrectamente.........................................................................39
3.5.3. Mejora de los resultados ...............................................................................................40
3.6. Utilidad de ejemplo.................................................................................................................42
3.7. Otras aplicaciones....................................................................................................................43
3.7.1. Búsqueda de secuencias................................................................................................43
3.7.2. Comprobación de concordancias.................................................................................43
4. Conclusiones ........................................................................................................................................45
5. Bibliografía ...........................................................................................................................................48
Apéndices .................................................................................................................................................50
Apéndice A: Oraciones para la evaluación del etiquetador .....................................................51
Apéndice B: Fragmento de ejemplo (comparación)...................................................................53
Apéndice C: Lista de palabras no etiquetadas............................................................................69
Apéndice D: Etiquetado correcto de las palabras desconocidas..............................................70
Apéndice E: Guía de etiquetado...................................................................................................71
1. Introducción

1.1. Algunas definiciones previas


Para facilitar la lectura de este estudio, a continuación se precisan cinco
definiciones operativas de términos frecuentes, todas ellas tomadas de una
misma fuente, la Facultad de Informática de la Universidad Politécnica de
Valencia (UPV).

Palabra Secuencia de caracteres contiguos sin signos de puntuación


rodeada de espacio en blanco.
Token Signo de puntuación o una palabra.
Corpus Secuencia de tokens.
n-grama (relativo a un corpus C) Secuencia de n tokens consecutivos de C.
espacio en blanco Secuencia de espacios, tabuladores u otros caracteres no
visualizables (los saltos de línea, retornos de carro, etc., se consideran
no visualizables).

1.2. Etiquetadores morfosintácticos


Etiquetar un texto consiste en incorporarle información, normalmente acerca de
los elementos que lo componen. Esta información puede referirse tanto al texto
como conjunto –autor del texto, fecha de publicación, tipología textual– como a
los distintos elementos del mismo (por ejemplo, diferenciación de los elementos
de un texto: título, resumen, cuerpo, etc.). El proceso de etiquetado puede
considerarse un proceso de anotación.
Un etiquetador es una herramienta informática –un «programa»– que
permiten automatizar esta tarea y, a partir de un texto de entrada, generar un
texto de salida con determinada información adicional. Los etiquetadores que
han alcanzado un mayor desarrollo hasta hoy son los morfosintácticos y, en
menor medida, los lematizadores. Los etiquetadores morfosintácticos asignan a
cada palabra su categoría morfosintáctica, mientras los lematizadores asignan a
cada palabra el lema o forma canónica, es decir, la forma base de la que se
derivan por flexión el resto de las formas, y que suele corresponder con la

1
entrada en un diccionario. Los motivos del desarrollo de estos etiquetadores
son básicamente dos:

• La tarea de etiquetado está muy bien definida, por lo que resulta fácil de
automatizar, ya que el conjunto de conocimientos necesarios para realizarla es
relativamente fácil de introducir y programar en un ordenador.
• La asignación de las categorías gramaticales y los lemas de un texto es la base un
gran número de aplicaciones más complejas como, por ejemplo, el análisis
sintáctico de una oración que, a su vez, resulta extremadamente útil para otros
sistemas, como los de traducción automática, entre otros (véase § 1.3).

Para que resulte útil y aceptable a la comunidad científica, Leech (1993)


propuso esta serie de normas (traducción de Pérez 2002):

• Debe ser posible eliminar las etiquetas añadidas a un texto anotado y recuperar el
texto original sin que éste sufra modificación alguna.
• Debería ser posible también extraer las anotaciones de los textos y almacenarlas de
forma independiente, por ejemplo en una base de datos relacional o en líneas
paralelas al texto original.
• El sistema de anotación usado debe estar basado en unas directrices
documentadas y accesibles al usuario final del corpus, de modo que pueda
acceder tanto a un listado completo de las etiquetas como a las decisiones
tomadas en el proceso de etiquetación.
• Debe ser posible incluir información sobre la autoría de la codificación del texto,
de forma que sea posible saber si se ha realizado a mano (y por quién) o si se ha
realizado de forma automática con o sin revisión posterior de un lingüista.
• Se debe hacer al usuario final consciente de que las anotaciones añadidas al corpus
no son infalibles, sino que simplemente constituyen una herramienta de ayuda
para el análisis.
• Los sistemas de anotación han de estar basados, en la medida de lo posible, en
principios teóricamente neutrales y sobre los que exista un acuerdo amplio en el
seno de la comunidad científica.
• Ningún sistema de anotación posee, a priori, el derecho de ser considerado
estándar. Los estándares, cuando existen, se desarrollan por el consenso de los
usuarios.

2
1.3. Aplicaciones de los etiquetadores morfosintácticos
Los etiquetadores son la base de un gran número de aproximaciones al
procesamiento del lenguaje natural, entre los que cabe citar los cinco siguientes:

a) Análisis sintáctico.
b) Lingüística de corpus.
c) Extracción automática de terminología.
d) Traducción automática y asistida; como ejemplo, el etiquetador descrito en
Farwell et al. (1995) es un componente del sistema de traducción asistida
Pangloss.
e) Extracción y recuperación de información (por ejemplo, clasificación de
documentos en buscadores de Internet).

Como los sistemas complejos se apoyan en etiquetadores morfosintácticos, la


precisión de estos últimos es especialmente importante, ya que los errores se
propagan a todo proceso posterior en que se utilicen estos resultados. Márquez
(1998) señala que muchos etiquetadores estadísticos alcanzan un 97% de
precisión con facilidad. Aunque este porcentaje puede parecer satisfactorio, deja
un margen de error del 3% que, aplicado a una oración media de unas 30
palabras, implica estadísticamente que cada oración incluye una palabra mal
etiquetada. Resulta fundamental, por tanto, alcanzar la máxima precisión o,
cuando no haya otra posibilidad, acotar debidamente las repercusiones de los
posibles errores.
La mayoría de los estudios sobre etiquetadores calcula la precisión respecto
al total del texto analizado, que suele ser bastante grande. Este parámetro
resulta muy interesante pero, dado que los etiquetadores prácticamente nunca
superan el umbral de la oración para calcular las etiquetas, tal vez sería más
interesante calcular la precisión en un determinado número de oraciones y no
sólo el valor medio de la precisión, sino también la desviación típica. Este nuevo
parámetro nos daría una cierta idea de la uniformidad con la que el etiquetador
alcanza la precisión, es decir, si los errores se concentran en unas cuantas
oraciones que presentan especiales problemas de etiquetado o si estos errores se
reparten uniformemente entre todas las oraciones.

3
1.4. Conjuntos de etiquetas
Los etiquetadores creados hasta el momento utilizan distintos repertorios de
etiquetas. Entre ellos podemos citar C5 tagset, C6 tagset, C7 tagset y CLAWS1,
CLAWS2, CLAWS5 y CLAWS7. El proyecto EAGLES establece una serie de
criterios para codificar la información morfosintáctica. Esta codificación
pretende ser un estándar para todas las lenguas europeas, por lo que recoge
todos los posibles accidentes gramaticales existentes. En consecuencia, hay
valores de ciertos atributos en blanco para algunas lenguas porque solo son
relevantes en otras. No obstante, un sistema común de etiquetas permite
comparar lenguas. Destacan los esfuerzos de la Text Encoding Initiative (TEI),
un proyecto internacional dedicado al desarrollo de directrices para la
codificación de textos en formato electrónico destinados a la investigación (web
oficial, http://www.tei-c.org/) .
Una nota respecto al formato de representación. Se suele elegir XML para
almacenar las anotaciones. Hay varios corpus etiquetados con el EAGLES XML
Corpus Encoding Standard (XCES), una aplicación XML diseñada
específicamente para corpus lingüísticos y sus anotaciones (Ide 2004). Las
anotaciones, en este caso, se guardan en documentos aparte de los datos
originales pero vinculados a ellos, lo que facilita no sólo realizar diferentes tipos
de anotaciones solapadas, sino también comparar resultados de diferentes
sistemas o esquemas.

1.5. Algoritmos de etiquetado


El problema fundamental delos etiquetadores es que, en cuanto el conjunto de
etiquetas diseñadas es mínimamente extenso, aparece un buen número de
palabras que pueden etiquetarse de varias maneras. Consideremos la oración:

Sin tu ayuda no hubiera podido salir de este apuro.

A primera vista, podemos observar que hay varias palabras que, consideradas
aisladamente, pueden pertenecer a varias categorías morfosintácticas. Por
ejemplo, ayuda puede ser un sustantivo femenino singular o bien un verbo, en
cuyo caso, además, podría corresponder a varios tiempos y personas verbales:

4
imperativo, presente, etc. No basta, por tanto, con disponer de un almacén con
todas las palabras y sus correspondientes etiquetas, para después limitarse a
extraer la información correspondiente a cada etiqueta. En muchas ocasiones, es
necesario escoger la etiqueta adecuada. La mayoría de los programas palían el
problema basándose en una noción bastante intuitiva: basta tener en cuenta las
palabras que rodean la que deseamos etiquetar para determinar la etiqueta más
adecuada con mayor fiabilidad. Por ejemplo, en el caso anterior, la palabra
ayuda aparece precedida por un determinante posesivo y ello nos inclina a
pensar, aun cuando fuésemos incapaces de conocer nada más acerca del
contexto, que es mucho más probable que sea un sustantivo que un verbo. Con
todos los métodos que se verán a continuación se han conseguido resultados
bastante satisfactorios, sobre todo en el caso del inglés, cuyo etiquetado se ha
estudiado más.
Voutilainen (1995) afirma que la mayoría de etiquetadores estadísticos
tiende a alcanzar una precisión del 95-97%. Curiosamente, no suelen superar
esta barrera, que apenas se ha movido desde que aparecieron en 1983
(Tapanainen 1994:52). Los sistemas híbridos logran una mayor precisión, hasta
el 98,5%. No obstante, métodos lingüísticos son los más precisos, pues alcanzan
el 99,5%, a costa, eso sí, de un alto coste de desarrollo y de dejar cierto
porcentaje de palabras sin etiqueta.

1.5.1. Métodos estadísticos


Consisten en el análisis de una cierta cantidad de texto, etiquetado por un
especialista, para extraer información estadística respecto a las etiquetas que
corresponden a cada palabra. Posteriormente se utiliza dicha información para
analizar cualquier volumen de texto. Según Tapanainen (1994: 48), una
característica importante de los etiquetadores estadísticos es que necesitan un
conjunto compacto de etiquetas que no haga demasiadas distinciones entre
palabras similares. La estrategia consiste en crear un modelo estadístico del
lenguaje, que se utiliza para desambiguar una secuencia de palabras. El
etiquetado resultante lo puede comprobar un especialista, para detectar los

5
errores, alimentar al sistema con estos datos y, así, conseguir una mayor
precisión.
Estos sistemas requieren un mínimo esfuerzo humano. Muchos reducen el
modelo a secuencias de uno, dos o tres elementos (unigramas, bigramas y
trigramas, respectivamente) o bien a una combinación de los mismos. También
se han utilizado con frecuencia modelos ocultos de Markov, que abordan la
desambigüación como un problema de maximización en el que, partiendo de
un conjunto de categorías léxicas y un vocabulario de la aplicación, se intenta
hallar para una oración de entrada la secuencia de categorías léxicas de máxima
probabilidad en el modelo. Entre estos sistemas podemos citar el CLAWS
(Garside et al. 1987), que es la versión probabilística del etiquetador TAGIT.
Church (1988), DeRose (1988) y Cutting et al. (1992) presentan otros ejemplos de
etiquetadores estadísticos.
También se puede ubicar en esta categoría la optimización de funciones de
energía mediante redes neuronales (Schmid 1994) y la aplicación de técnicas de
entropía máxima (Ratnaparkhi 1997). Las redes neuronales distribuyen los
patrones de activación –aprendidos a partir de un texto previamente
etiquetado– a través de los enlaces existentes entre las unidades de una red
mediante un algoritmo de aprendizaje. Estas últimas utilizan el formulismo de
entropía máxima, en el que el objetivo es maximizar la entropía de una
distribución sujeta a determinadas restricciones. Para ello, se estudian
determinados rasgos de un texto previamente etiquetado (por ejemplo, si la
palabra empieza por mayúscula, si contiene números, la etiqueta anterior a la
presente, etc.) y al etiquetar el texto se fuerza a que los rasgos del etiquetado
obtenido se correspondan con los hallados anteriormente.

1.5.2. Métodos basados en el aprendizaje de la máquina


Se incluyen aquí todos los sistemas que incorporan información más sofisticada
que un modelo de n-gramas. Entre estos sistemas podemos citar el de Brill
(1992, 1995), que aprende automáticamente un conjunto de reglas de
transformación que reparan los errores cometidos por un etiquetador que

6
asigna la etiqueta más probable. Otros sistemas adquieren reglas de
restricciones gramaticales a partir de corpus etiquetados. Por último, en los
sistemas que utilizan árboles de decisión, el problema de etiquetado se plantea
como problema de clasificación, de acuerdo con un modelo de lenguaje
constituido por un conjunto de árboles de decisión estadísticos que se
corresponden con ciertas clases de ambigüedad. Teniendo en cuenta estas
clases, las probabilidades léxicas a priori de las palabras se recalculan
dependiendo del camino seguido en el árbol (Márquez 1998).

1.5.3. Métodos lingüísticos


Los métodos lingüísticos consisten en crear un diccionario en el que se indica
para cada palabra la información que se desea añadir con el etiquetado, bien de
manera directa o bien mediante reglas. Posteriormente, este diccionario se
utiliza para analizar cualquier volumen de texto. Al igual que ocurría con el
método anterior, conviene examinar los resultados para detectar los errores y
modificar o ampliar la información del diccionario para aumentar la precisión.
La mayoría de estos sistemas codifican el conocimiento en un conjunto de reglas
o restricciones escritas por lingüistas, normalmente en torno a las mil. El grupo
TOSCA (Oostdijk 1991) ha trabajado en esta dirección y Karlsson et al. (1995)
han desarrollado gramáticas de restricciones. Los sistemas basados en reglas,
según Brill (1992), presentan las siguientes ventajas:

• Importante reducción de la necesidad de información almacenada.


• Claridad de un pequeño conjunto de reglas comprensibles.
• Facilidad de búsqueda y aplicación de mejoras al etiquetador.
• Mayor portabilidad de un juego de etiquetas, género de corpus o idioma a otro.

1.5.4. Métodos híbridos


Son producto de la combinación de varios de los métodos anteriores. Por
ejemplo, Padró (1998) aplica técnicas de relajación –algoritmos iterativos que
optimizan una función apoyándose en información local– a un conjunto de
restricciones que incluyen información estadística, lingüística y de aprendizaje

7
de máquina. Otra posibilidad, como la señalada por Tapanainen (1994:47),
consiste en introducir un etiquetador lingüístico tras uno estadístico, que
resuelve las ambigüedades dejadas por el primer etiquetador.

1.6. Ambigüedades en el español


Pla (2001) estima que el 39,8% de las palabras de un texto son ambiguas, con
una ambigüedad media de 2,6 categorías para palabras ambiguas y 1,6
categorías por el total de palabras. Estos datos dependen del conjunto de
etiquetas escogido y una restricción del etiquetador del texto a un campo
específico puede disminuir drásticamente los porcentajes de ambigüedad. Civit
(2001) distingue entre ambigüedad intercategorial y ambigüedad intracategorial.
La ambigüedad intercategorial corresponde a palabras que puede tener
etiquetas correspondientes a dos categorías distintas como, por ejemplo, fuerte,
muestra o los, mientras la ambigüedad intracategorial corresponde a palabras
que, en el seno de la misma categoría, pueden tener varias etiquetas, como es el
caso de orden, que como nombre común puede ser masculino o femenino. Entre
verbos y sustantivos, en la ambigüedad intracategorial se distingue entre los
homónimos –como ocurre con hablaría que, etiquetada como verbo, puede
corresponder a diferentes personas– y los que no especifican rasgos
morfológicos, para los que se utiliza una única etiqueta con género ambiguo,
como ocurre con joven, que puede aplicarse a una palabra masculina o
femenina.
La ambigüedad en el etiquetado no es un fenómeno homogéneo: aunque a
muchas palabras les pueden corresponder varias etiquetas morfosintácticas, en
general una de estas etiquetas aparece en los textos con mucha más frecuencia
que las demás. Por ejemplo, los puede corresponder tanto a un determinante
como a un pronombre pero, tras realizar un rápido análisis de frecuencias,
podemos comprobar que es determinante con mucha mayor frecuencia que
pronombre. El gráfico 1 ilustra la importancia de este fenómeno: Las
coordenadas –eje x– representan el número de palabras de los textos. Las
abscisas, el eje y, representan el número de palabras ambiguas de dos maneras.

8
La línea «Total» representa el total de palabras que presentan ambigüedad en el
etiquetado. La línea llamada «1 etiqueta» representa este mismo número de
palabras, restándo el número de palabras que cuentan con una etiqueta mucho
más frecuente. En otras palabras, el área representa el total de palabras
ambiguas que hay en un texto y el área naranja corresponde al error que
cometería un etiquetador básico que sólo tuviera una etiqueta (la más frecuente)
para cada palabra. Los resultados son bastante interesantes, pues los
porcentajes de palabras etiquetadas aumentan rápidamente y se acercan a los
propuestos en la literatura, pero el porcentaje de errores del etiquetador
encargado de asignar una única etiqueta no sólo es muy reducido, sino que
además crece muy lentamente al aumentar el número de palabras. Este gráfico
es importante especialmente como línea base para valorar los resultados de
datos de etiquetadores ya que, si los textos son suficientemente uniformes,
resulta fácil alcanzar buenos resultados con la sencilla aproximación de incluir
la etiqueta más frecuente. Esta aproximación implicaría que no hay palabras
desconocidas para el error y que todas las locuciones se reconocen
correctamente. En resumen, este gráfico muestra que basta con disponer de un
diccionario exhaustivo y con una asignación de etiquetas de fundamento
estadístico para lograr unos resultados aceptables.

35

30

25 Total: porcentaje de palabras de


presentan ambigüedad en el
20 etiquetado

1 etiqueta: palabras etiquetadas


15 incorrectamente tras asignar una única
etiqueta (la más frecuente) a cada
10 palabra

0
218

3852

8768

14476

17363

19266

21797

31572

38374

45715

51228

Gráfico 1. Porcentaje de palabras ambiguas

9
1.7. Etiquetadores desarrollados para el español
A continuación, se especifican las características más importantes de los
etiquetadores automáticos desarrollados para el español.

SMORPH
El sistema SMORPH (Aït-Mokhtar, 1995) es uno de los primeros sistemas de
etiquetado morfosintáctico de textos en español. SMORPH cuenta con un
diccionario fuente, a partir del cual un programa compilador genera un
diccionario compilado binario. Un analizador-generador usa el diccionario
compilado binario para, junto con los textos que se aportan, generar los textos
segmentados y etiquetados. Para el diccionario utiliza tres tipos de datos:
terminaciones, modelos de flexiones y entradas léxicas. Entre las
particularidades de este sistema hay que destacar la inclusión de prefijos y
sufijos y la incorporación de un cierto tratamiento de las palabras desconocidas
(en este caso, a partir de la terminación morfológica) que utiliza para describir
la categoría de la palabra desconocida. En otros aspectos, el sistema resulta
excesivamente rudimentario, pues no aplica ningún tipo de normalización en la
elección de las etiquetas, lo que dificulta su comparación con otros sistemas.
También resulta difícil integrarlo en las aplicaciones desarrolladas, y, lo que es
más grave, plantea el problema de la ambigüedad de las etiquetas pero no lo
resuelve de ninguna manera.

Sistema SMORPH
Plataforma C sobre UNIX en estación SPARC 2
Normalización de etiquetas Inexistente
Sistema de resolución de ambigüedades Inexistente
Velocidad 1000 palabras/segundo
Equipo desarrollador Salah Aït-Mokhtar
José Lázaro Rodrigo Mateos
(Groupe de Rechereche dans les Industries
de la Langue)

SPOST
El sistema SPOST (Farwell, 1995) es otro sistema pionero, ya un poco más
avanzado. SPOST intenta resolver los problemas de ambigüedad que no afronta

10
el sistema anterior mediante una serie de reglas, escritas por un equipo de
lingüistas. Curiosamente, también menciona los métodos estadísticos, pero no
para resolver directamente el problema del etiquetado, sino como herramienta
para determinar las reglas utilizadas, lo cual es un enfoque interesante: en lugar
de confiar directamente en los datos estadísticos, los toma como punto de
partida para extraer conclusiones. También resulta interesante la aplicación a la
que está destinado el programa, en principio, un componente de un sistema de
traducción automática basado en el conocimiento. Además se usa también en
un sistema de extracción de terminología. Otro de los aspectos más acertados de
este etiquetador es su análisis de errores de etiquetado, que muestra claramente
las categorías gramaticales más propensas a generar errores de ambigüedad.

Sistema SPOST
Plataforma Quintus Prolog en estación de trabajo SUN
Normalización de etiquetas Inexistente
Sistema de resolución de ambigüedades Reglas establecidas por lingüistas
Velocidad Desconocida
Equipo desarrollador David Farwell
Stephen Helmreich
Mark Casper
(Computing Research Laboratory)

Etiquetador de XEROX
El etiquetador de XEROX no se diseñó específicamente para el español, sino que
se adaptó al español (León, 1995) para etiquetar la versión española del corpus
de la Unión Internacional de Telecomunicaciones (ITU). Se trata de un
etiquetador mixto, que combina un método estadístico con determinadas reglas
sobre sufijos introducidas por lingüistas. Entre los puntos más interesantes de
este trabajo destaca la explicación sobre el modo en que las características de
diferentes lenguas determinan el método óptimo de etiquetado. Concretamente,
en el caso del español, resulta muy importante su característica de lengua
flexiva, que este sistema utiliza para asignar la etiqueta más probable a las
palabras desconocidas. También destaca por tratar con cierta profundidad su
conjunto de etiquetas. Ya se mencionan las recomendaciones de EAGLES y las

11
directrices de la TEI. A partir de estas normas se desarrolló un etiquetario
completo (479 etiquetas) y otro reducido (174).

Sistema Etiquetador de Xerox


Plataforma Common Lisp en SunOS 4.x y 5.x, Macintosh
Normalización de etiquetas Tiene en cuenta recomendaciones de
EAGLES y directrices de TEI
Sistema de resolución de ambigüedades Mixto: estadístico y normas establecidas por
lingüistas
Velocidad Desconocida
Equipo desarrollador Fernando Sánchez León
(Adaptación al español)
Universidad Autónoma de Madrid
Proyecto CRATER
(Corpus Resources And Terminology
ExtRaction)

TreeTagger + Relax
El etiquetador TreeTagger + Relax (Márquez 1999) es, probablemente, el más
sofisticado que se ha desarrollado para el español. Permite utilizar varias
maneras de resolver las ambigüedades: árboles de decisión estadísticos, con la
posibilidad de utilizar información de n-gramas, restricciones de contexto
aprendidas automáticamente, restricciones lingüísticas confeccionadas por
especialistas, etc.

Sistema TreeTagger + Relax


Plataforma Desconocida
Normalización de etiquetas Desconocida
Sistema de resolución de ambigüedades Mixto: árboles de decisión estadísticos, con la
posibilidad de utilizar información de n-
gramas, restricciones de contexto aprendidas
automáticamente, restricciones lingüísticas
confeccionadas por especialistas, etc.
Velocidad Desconocido
Equipo desarrollador Lluís Màrquez, Lluís Padró y Horacio
Rodríguez
Departamento de Lenguajes y Sistemas
Informáticos
(Universidad Politécnica de Cataluña)

12
SVMTool
El etiquetador SVMTool (Giménez 2004) realiza el etiquetado morfosintáctico
mediante Support Vector Machines, definido en Giménez (2003) como un
algoritmo de aprendizaje automático de clasificación binaria. Se ha aplicado a
varios problemas de procesamiento del lenguaje natural.

Sistema SVMTool
Plataforma Perl
Normalización de etiquetas Desconocido
Sistema de resolución de ambigüedades Aprendizaje automático
Velocidad 1500 palabras/segundo
Equipo desarrollador Jesús Giménez y Lluís Màrquez
Centro de investigación TALP
(Universidad Politécnica de Cataluña)

2. Aplicación de los etiquetadores a la traducción

En la actualidad, las aplicaciones de los etiquetadores morfosintácticos al


campo de la traducción se limitan, prácticamente, a los sistemas de traducción
automática. No obstante, hay otras posibles aplicaciones que serían de gran
utilidad en la práctica profesional de la traducción:

• Detección de errores. La incorporación de un etiquetado morfosintáctico permite


detectar errores fuera del alcance de los correctores ortográficos habituales, que
sólo disponen de la información léxica almacenada en un diccionario. Por
ejemplo, es posible comprobar las concordancias entre determinantes y
sustantivos.
• Corrección de estilo. La información morfosintáctica permite realizar búsquedas
con las que se puede corregir el estilo de un texto. Por ejemplo, es posible buscar
todos los verbos en segunda persona de un texto que deba estar escrito en un
estilo formal.
• Extracción automática de terminología. La mayoría de las técnicas de
reconocimiento automático de términos se basa en la búsqueda de determinadas
secuencias obtenidas estadísticamente y que suelen corresponder a términos. Por
ejemplo, es posible buscar todas las secuencias «Sustantivo + Preposición +
Sustantivo» que aparecen en un texto.
• Traducción asistida y automática. A través del etiquetado de textos se puede
estudiar las secuencias sintácticas que aparecen en un texto y relacionar esta
información con las correspondientes estructuras del texto original, para ver si es
posible establecer relaciones más frecuentes.

13
3. Desarrollo de un etiquetador: PETRA Tag I

Al realizar el etiquetado de un texto, los factores principales son los siguientes:

• Exhaustividad. El etiquetador debe de ser capaz de enfrentarse al mayor número


de elementos posibles y proporcionar una posible etiqueta para ellos
• Precisión. Hay un determinado grado de error prácticamente inevitable. A veces,
tratar de evitarlo puede dañar gravemente la funcionalidad del programa. Por
ejemplo, en principio no tiene excesivo interés preocuparse por los casos en los
que la funciona como sustantivo o en los que sin embargo no es una locución
adverbial, ya que la modificación de reglas de gran alcance para satisfacer estos
casos raros podría reducir considerablemente la precisión del etiquetador.
• Velocidad. La velocidad del programa es un factor clave, sobre todo, si se
pretende integrar el programa como procedimiento dentro de otros programas.
Aunque se procure que la velocidad no afecte a otros factores, como la
exhaustividad o la precisión, hay que intentar diseñar el sistema de etiquetado de
manera que la operación se realice con la mayor rapidez posible.
• Robustez. Cutting et al. (1992:133) señalan que en los textos puede haber
construcciones no gramaticales, oraciones aisladas –como títulos– y datos no
lingüísticos (como tablas). También es frecuente que los textos contengan
palabras desconocidas para el etiquetador, que debe comportarse
adecuadamente en todas estas situaciones.

Teniendo en cuenta estos factores básicos, el etiquetado de un texto se puede


dividir en dos fases fundamentales:

1. Extracción de los elementos del texto. Hay que tener en cuenta que
habitualmente un texto no se compone únicamente de palabras, sino que
también incluye otros elementos como números, marcas de formato, etc.
2. Etiquetado de las palabras. Una vez extraídas las palabras es preciso
identificar determinadas características léxicas de las mismas.

3.1. Extracción de los elementos del texto


El primer paso para etiquetar el texto consiste en extraer las palabras del
mismo. Junto con estas palabras, hay otros elementos que es necesario
identificar para llevar a cabo correctamente el proceso de etiquetado y evitar
que estos elementos se identifiquen erróneamente como palabras desconocidas.
Podemos clasificar estos elementos de la siguiente manera: 1) palabras; 2)
números; 3) puntuación y 4) formato.

14
El procedimiento que extrae las palabras lee uno por uno los caracteres de
un texto y, en función de los caracteres, decide si un elemento es de un tipo u
otro. Esta decisión no puede considerarse universal, ya que no es posible
establecer parámetros válidos para todos los textos. Por ejemplo, en algunos
textos es preferible que el carácter de guión bajo «_» no separe las palabras,
mientras que en otros es mejor considerarlo un signo de puntuación o, incluso,
un espacio. La tabla 1 muestra los caracteres que reconoce PETRA Tag I y cómo
se interpretan:

0 Carácter separador de palabras.


1 Letra o separador de letras de una palabra.
2 Dígito o separador de los dígitos de una cifra.

Muchos textos incluyen formato mediante marcado. Aunque sería aconsejable


incluir opciones para reconocer diferentes tipos de marcado, se ha introducido
una configuración inicial del programa adaptada a los casos más frecuentes. De
ese modo, el usuario puede utilizar el programa sin un conocimiento
exhaustivo de los sistemas de marcado. Con todos estos datos, antes de
proceder al etiquetado del texto, PETRA Tag I distingue los siguientes tipos de
secuencias de caracteres:

• Marcado. Cualquier secuencia de caracteres que comience por el símbolo «<» y


termine con el símbolo «>», ya que así se definen las marcas SGML, XML y
HTML1 –actualmente, los formatos más extendidos de documentación
electrónica- con un número constantemente creciente de aplicaciones que los
utilizan. Por tanto, para no confundir al etiquetador, si se desea incluir uno de
estos símbolos con un uso distinto al de identificar una marca de formato, es
necesario recurrir a las entidades que los representan en los lenguajes
mencionados: &lt; para «<» y &gt; para «>». Ejemplos: <bold>, </bold>, <br>, etc.

1
Inspiradas en la codificación del hoy extinto procesador de textos WordPerfect.

15
Carácter

Carácter

Carácter

Carácter

Carácter

Carácter

Carácter

Carácter
Código

Código

Código

Código

Código

Código

Código

Código
ASCII

ASCII

ASCII

ASCII

ASCII

ASCII

ASCII

ASCII
Tab 9 0 s 115 2 Ç 199 2 ; 59 0 143 0 ã 227 2 W 87 2 « 171 0
" 34 0 v 118 2 Ê 202 2 > 62 0 ' 146 0 æ 230 2 Z 90 2 (r) 174 0
% 37 0 y 121 2 Í 205 2 A 65 2 • 149 0 é 233 2 ] 93 0 ± 177 0
( 40 0 | 124 0 Ð 208 2 D 68 2 ˜ 152 0 ì 236 2 ` 96 0 ´ 180 0
+ 43 0 127 0 Ó 211 2 G 71 2 › 155 0 ï 239 2 c 99 2 · 183 0
. 46 0 ‚ 130 0 Ö 214 2 J 74 2 ž 158 0 ò 242 2 f 102 2 º 186 0
1 49 1 ... 133 0 Ù 217 2 M 77 2 ¡ 161 0 õ 245 2 i 105 2 1/2 189 0
4 52 1 ˆ 136 0 Ü 220 2 P 80 2 ¤ 164 0 ø 248 0 l 108 2 À 192 2
7 55 1 ‹ 139 0 ß 223 2 S 83 2 § 167 0 û 251 2 o 111 2 Ã 195 2
: 58 0 Ž 142 0 â 226 2 V 86 2 ª 170 0 þ 254 0 r 114 2 Æ 198 2
= 61 0 ' 145 0 å 229 2 Y 89 2 - 173 0 ! 33 0 u 117 2 É 201 2
@ 64 0 " 148 0 è 232 2 \ 92 0 ° 176 0 $ 36 0 x 120 2 Ì 204 2
C 67 2 - 151 0 ë 235 2 _ 95 0 ³ 179 0 ' 39 0 { 123 0 Ï 207 2
F 70 2 š 154 0 î 238 2 b 98 2 ¶ 182 0 * 42 0 ~ 126 0 Ò 210 2
I 73 2 157 0 ñ 241 2 e 101 2 ¹ 185 0 - 45 2 129 0 Õ 213 2
L 76 2 160 0 ô 244 2 h 104 2 1/4 188 0 0 48 1 „ 132 0 Ø 216 0
O 79 2 £ 163 0 ÷ 247 0 k 107 2 ¿ 191 0 3 51 1 ‡ 135 0 Û 219 2
R 82 2 ¦ 166 0 ú 250 2 n 110 2 Â 194 2 6 54 1 Š 138 0 Þ 222 2
U 85 2 (c) 169 0 ý 253 0 q 113 2 Å 197 2 9 57 1 141 0 á 225 2
X 88 2 ¬ 172 0 32 0 t 116 2 È 200 2 < 60 0 144 0 ä 228 2
[ 91 0 ¯ 175 0 # 35 0 w 119 2 Ë 203 2 ? 63 0 " 147 0 ç 231 2
^ 94 0 ² 178 0 & 38 0 z 122 2 Î 206 2 B 66 2 - 150 0 ê 234 2
a 97 2 µ 181 0 ) 41 0 } 125 0 Ñ 209 2 E 69 2 (tm) 153 0 í 237 2
d 100 2 ¸ 184 0 , 44 0 € 128 0 Ô 212 2 H 72 2 œ 156 0 ð 240 2
g 103 2 » 187 0 / 47 0 ƒ 131 0 × 215 0 K 75 2 Ÿ 159 0 ó 243 2
j 106 2 3/4 190 0 2 50 1 † 134 0 Ú 218 2 N 78 2 ¢ 162 0 ö 246 2
m 109 2 Á 193 2 5 53 1 ‰ 137 0 Ý 221 2 Q 81 2 ¥ 165 0 ù 249 2
p 112 2 Ä 196 2 8 56 1 Œ 140 0 à 224 2 T 84 2 ¨ 168 0 ü 252 2
ÿ 255 0
Tabla 1. Caracteres reconocidos por el etiquetador y su interpretación.

16
• Números. Cualquier secuencia de caracteres que contiene dígitos. A diferencia de
lo que ocurre con las palabras propiamente dichas, el punto y la coma actúan
como separadores de decimales y de millares y, por tanto, se consideran parte del
número. No se incluyen en esta clase los números escritos en letra como, por
ejemplo, veintinueve, mil, diez, etc. Ejemplos: 0,98, 300, 200, etc.
• Puntuación. Cualquier símbolo o secuencia de símbolos que no sean ni dígitos ni
letras.
• Palabras. Secuencia de letras cuyo inicio y fin viene delimitado por el principio o el
fin del texto, o bien por caracteres que no sean letras.

El marcado, los números y la puntuación reciben directamente las etiquetas


correspondientes, mientras que los caracteres intersticiales como, por ejemplo,
los espacios, no reciben ninguna etiqueta. Las palabras se someten a un proceso
de etiquetado mediante el diccionario que se describe en el siguiente apartado.
Mientras algunos etiquetadores optan por realizar también en esta fase la
agrupación de palabras que pueden recibir una única etiqueta –como ocurre,
por ejemplo, con las locuciones– otros no realizan esta agrupación en ningún
punto del etiquetado, como subraya Tapanainen (1994:49). PETRA Tag I realiza
esta agrupación de palabras más adelante, durante la fase de desambiguación,
ya que, durante la extracción de los elementos del texto, todavía no dispone de
información morfosintáctica sobre el texto útil para determinar estas
agrupaciones.

3.2. Etiquetado de las palabras


Para etiquetar las palabras es fundamental no sólo utilizar toda la información
disponible, sino también aplicarla en el orden correcto. Una vez extraída una
palabra, se realiza una serie de comparaciones con las entradas del diccionario
del programa. Este diccionario contiene una serie de palabras ya etiquetadas
con la categoría morfosintáctica y el lema. Si la cadena extraída coincide con
una palabra del diccionario, se considera que la categoría morfosintáctica y el
lema de la palabra corresponden también a la palabra extraída y ambos datos se
añaden a la palabra extraída del texto durante el proceso de generación del
etiquetado.

17
Para agilizar el etiquetado del texto –un importante indicador de
rendimiento del programa– interesa comprobar, primero, si la palabra en
cuestión es una palabra forma. Son palabras forma los determinantes, las
preposiciones, las conjunciones y algunas formas verbales (categorías, todas
ellas, «cerradas»). Las pakabras forma son estadísticamente más frecuentes en
los textos y, por lo general, aportan escasa información sobre un texto, ya que
aparecen con similar frecuencia en todos ellos. La lista de palabras forma
incluida en PETRA Tag I es la siguiente: a, al, como, con, de, del, desde, el, en, es, la,
las, lo, los, más, muy, no, para, pero, por, que, se, sobre, su, un, una, unas, uno, unos, y.
Con esta lista de treinta palabras es posible etiquetar aproximadamente el 40%
de un texto medio. La mayoría de estas palabras tiene, además, la ventaja de
contar con un grado de ambigüedad bastante bajo, de tal modo que, si se
identifica una palabra como perteneciente a este grupo, es bastante probable
que sea correcta. Cuando se comprueba que la palabra no pertenece a este
grupo, se realiza el resto de búsquedas. Entre los elementos del diccionario con
los que se realizan el resto de comparaciones hay dos tipos básicos:

• Elementos no flexionables. Por ejemplo, preposiciones y conjunciones.


También se incluye nombres, adjetivos y verbos que no se pueden flexionar o
que tienen una flexión poco habitual.
• Elementos flexionables. Son elementos de los que el diccionario sólo incluye
una forma, la denominada forma canónica, a partir de la cual el programa
puede generar automáticamente otras formas. Las flexiones más habituales
son las siguientes:
Nombres. Número.
Adjetivos. Género y número. A partir de la forma femenina singular,
también se puede formar el correspondiente adverbio.
Verbos. Tiempo, modo, número y persona.

Al incluir las flexiones de palabras, una consideración básica de diseño. Tan


importante como incluir las formas correctas de las palabras es excluir las
formas incorrectas de las mismas. Por ejemplo, si se define el verbo ser y el
programa lo conjuga automáticamente como verbo regular de la segunda
conjugación, se puede llegar a reconocer cómo válidas palabras como so, ses o
semos que, evidentemente, aun en el caso de ser válidas, no corresponderían a la

18
etiqueta que les asignaría el programa. Incorporar estas reglas de flexión
permite reducir el tamaño del diccionario, eliminando información redundante.
Las versiones iniciales de PETRA Tag I incorporaban, mediante programación,
las formas flexionadas más habituales del español. Así, tras leer del archivo de
diccionario las palabras introducidas en el sistema, determinaba, por ejemplo si
se trataba de un sustantivo terminado en -o o en -a, al que bastaba únicamente
con añadirle la -s final para formar el plural, o bien un adjetivo o un verbo, que
se flexionaban de la manera correspondiente. Este método facilitaba
enormemente la introducción de datos, ya que el usuario sólo tenía que
introducir la forma canónica de la palabra y especificar su categoría
fundamental, lo que hacía que el proceso fuera más rápido y menos propenso a
errores. No obstante, este procedimiento presentaba dos problemas:

• Dificultad de modificación de las reglas. Por perfectas que sean las reglas de
flexión, si se descubre cualquier mínimo fallo en ellas o es necesario realizar una
ampliación hay que acceder al código fuente, modificarlo adecuadamente y
volver a compilarlo. Además de la dificultad que entraña para cualquier usuario
no experto, si al modificar un código se introduce por accidente cualquier cambio
indebido, el sistema podría dejar de funcionar completamente.
• Vinculación con un idioma concreto. Las reglas de flexión son muy diferentes de
un idioma a otro. Por tanto, es muy difícil para el programa etiquetar un texto
escrito en otro idioma, sin llevar a cabo un buen número de modificaciones,
proceso que, como se ha explicado en el punto anterior, puede presentar graves
problemas. Por supuesto, aun en el peor de los casos, el programa siempre deja la
puerta abierta para introducir las palabras necesarias una o por una, sin
aprovechar las reglas de flexión, a costa de una posible lentitud tanto en la
introducción del diccionario como en el posterior etiquetado de textos.

La vinculación con un idioma concreto es un efecto del que resulta imposible


escapar completamente. Por ejemplo, habría que hacer ciertas precisiones
relativas al reconocimiento de palabras, para tener en cuenta que, en algunos
idiomas, determinados caracteres como el guión «-» o la comilla simple «'»
pueden considerarse parte de una palabra (y, por tanto, no deberían tratarse
como separadores de palabras) o no considerarse parte de una palabra.
Igualmente, habría que tener cuidado de no considerar separadoras de palabras
las letras que no existen en español, como ç, à, â, etc. Estos problemas se pueden
resolver modificando los elementos de la tabla 1. La flexión de las palabras es

19
muy diferente, ya que las reglas de flexión cambian radicalmente de un idioma
a otro. Como veremos un poco más adelante, el sistema adoptado en PETRA
Tag I se basa en aplicar sufijos a raíces. Tal esquema resulta muy útil para el
español y también para idiomas tipológicamente próximos. No obstante, para
idiomas que utilicen habitualmente prefijos o infijos para la creación de
palabras, este esquema no resultaría tan útil y volverían a surgir los problemas
mencionados. Nunca es, pues, posible diseñar un sistema cuya interpretación
de las palabras del diccionario esté completamente libre de las características
del idioma, aunque sí es posible relajar y flexibilizar esta interpretación, de
manera que el sistema resulte suficientemente óptimo para un cierto número de
lenguas.
Como se ha adelantado, PETRA Tag I se basa en la aplicación de sufijos en
su versión actual. Un buen número de palabras, precisamente las más
habituales, vienen codificadas sin utilizar reglas de flexión, bien porque no son
aplicables, como en el caso de las preposiciones, bien porque usar reglas de
flexión deceleraría el proceso de etiquetado. Esto puede ocurrir con palabras tan
habituales como las (que puede obtenerse por flexión de la), ya que aplicar la
flexión a una raíz es un proceso relativamente lento respecto a comparar
directamente la palabra que se desea obtener con una palabra del diccionario.
La tabla 2 incluye palabras en las que la etiqueta se indica directamente. Las
palabras que aceptan flexión se marcan con una etiqueta que consiste en una x
seguida de un número, como se aprecia en la tabla 3.

20
Consideremos el primer ejemplo, la raíz clar-. La etiqueta indica que se trata
de un elemento flexivo, al aparecer una x como primer carácter de la etiqueta. El
número que aparece a continuación indica la serie de terminaciones que se debe
utilizar. La tabla 5 contiene las terminaciones y su etiqueta asociada.
Combinando estas terminaciones con la raíz, obtenemos por fin las palabras
flexionadas y sus correspondientes etiquetas.

Palabra del diccionario Etiqueta


a sps00 Palabra del diccionario Etiqueta
y cc00 clar x11
cada di0cs0 castellan x11
un di0ms0 catalán x14
... ... catastrófic x11
Tabla 2. Palabras con etiqueta Tabla 3. Etiquetado de palabras
directa en PETRA Tag I. flexivas en PETRA Tag I.

Palabra Etiqueta
Terminación Etiqueta claro aq0ms0
o aq0ms0 claros aq0mp0
os aq0mp0 clara aq0fs0
a aq0fs0 claras aq0fp0
as aq0fp0 claramente =rg
amente =rg Tabla 5. Etiquetado de las
Tabla 4. Articulación de la palabras derivadas en
flexión En PETRA Tag I. PETRA Tag I.

PETRA Tag I no sólo pretende asignar una etiqueta, sino también un lema. Este
lema corresponde a la forma canónica de la palabra que, en el caso de los
adjetivos, suele ser la masculina o neutra singular («caso no marcado»). En
nuestro ejemplo, las cuatro primeras palabras tendrían como lema claro. PETRA
Tag I también crea el adverbio correspondiente a partir del adjetivo, a fin de
aumentar la velocidad de búsqueda al reducir el número de entradas en el
diccionario y la cantidad de memoria necesaria. El único problema potencial en
este caso es que el lema del adverbio coincida con la forma canónica del
adjetivo. Para evitarlo, se ha incluido el símbolo «=» delante de la etiqueta,
como marcador que indica que el lema de esa forma flexionada es ella misma,

21
es decir, que el lema de claramente es «claramente». Veamos ahora otro ejemplo
(tabla 6), para ilustrar otras posibilidades del sistema de flexión. Las
terminaciones de la serie 21 corresponden a los verbos regulares terminados en
-ar, como ilustra la tabla 7.

Terminación Etiqueta
ar vmn0000
ando vmn0000
Palabra del diccionario Etiqueta ... ...
acept x21 ar *19
ándo *19
Tabla 6. Ejemplo de articulación
ár *18
de la flexión en PETRA Tag I.
Tabla 7. Ejemplo de serie
de flexiones en PETRA
Tag I.

En lo que se refiere al funcionamiento de esta serie, la diferencia estriba en las


tres últimas filas, en las que se puede comprobar que, en lugar de una etiqueta,
hay un asterisco seguido de un número. Se trata de un sistema que permite ir
añadiendo terminaciones tras terminaciones. Es decir, las formas verbales canto,
cantas, canta, etc., se basan en la adición de un único sufijo a la raíz. Para crear
otras formas verbales es necesario añadir más de una terminación, como en el
caso de cantarme, cantarlo o cantarle. Por supuesto, se puede definir directamente
-arme, -arlo, -arle, etc., como posibles terminaciones de verbo, considerando una
única terminación la suma de dos terminaciones más simples, la flexión verbal
+ el pronombre enclítico. Aún sería posible dar una vuelta de tuerca más a este
sistema, añadiendo no sólo una terminación sino dos, para obtener cantármelo,
cantártela, cantárselos. El sistema «*» permite solucionarlo por recursividad. Es
decir, desde la tabla de las primeras terminaciones se llama bien directamente a
una segunda tabla en la que figura la etiqueta final (la 19, por ejemplo, que
contiene -lo, -la, -los, etc.) o a una segunda tabla que enlaza con una tercera (la
18, por ejemplo, contiene -me, -te, -se, etc. y enlaza con la 17, que contiene -lo, -la,
-los, etc.). El funcionamiento de este sistema es muy directo y permite reducir
notablemente el tamaño del archivo de terminaciones, ampliando mucho su
capacidad para reconocer formas verbales válidas, pero poco habituales.

22
Además, facilita la introducción de nuevos verbos irregulares, para los que es
necesario especificar todas las formas verbales.
La existencia de estas reglas de flexión hace que el diccionario contenga
implícitamente varias etiquetas posibles para determinadas palabras. Por
ejemplo, el programa puede reconocer cortes por haberse incluido el sustantivo
corte, a partir del cual genera el plural. No obstante, si en el diccionario aparece
el verbo cortar y se indica que puede tratarse como un verbo regular de la
primera conjugación, también podrá flexionar cortes como segunda persona
singular del subjuntivo. También se podría considerar su funcionamiento como
adjetivo, ya que en español es frecuente acentuar erróneamente y podría, así,
corresponder a cortés. No obstante, debido a que una de las posibles
aplicaciones del etiquetador es la corrección de textos, se ha optado por no
realizar ninguna corrección previa de los posibles errores del texto. Si después
la cadena de etiquetas morfosintácticas asignadas plantea algún problema, el
usuario puede localizar y corregir personalmente cada caso. Consideremos, por
ejemplo, la siguiente oración:

El modulo de un número complejo es la distancia


que hay desde el origen de coordenadas hasta su afijo.

La palabra modulo sería etiquetada como verbo en lugar de como nombre, ya


que no incluye tilde, a pesar de que la combinación el + verbo en forma
personal es muy poco frecuente. Con toda probabilidad, si se aplica algún tipo
de comprobación automática al etiquetado resultante, este fallo se detectaría.
Sin contar con un cotexto, no es posible determinar cuál es la forma correcta.
De hecho, esta labor es igualmente imposible para un humano que no dispone
de la oración en la que aparece la palabra problemática. No existe una solución
absoluta de diseño que resuelva todos los casos sin recurrir a técnicas de
inteligencia artificial que, hasta el momento, no han logrado que un sistema
informático represente la información semántica de palabras y oraciones. Si se
parte de que la precisión del sistema no es absoluta, es posible mejorar bastante

23
la aproximación inicial, que consistiría en etiquetar estas palabras siempre de la
misma manera. Para ello, en vez de utilizar únicamente la información léxica de
la palabra, podemos examinar la información sintáctica y, partiendo de la
misma, por consideraciones estadísticas, deducir cuál es la etiqueta más
probable de una determinada palabra. Por ejemplo, la palabra embargo puede
etiquetarse de tres maneras: como sustantivo singular masculino, como verbo
en primera persona singular de indicativo y como parte de la locución adverbial
sin embargo. Un sencillo examen de las ocurrencias de esta palabra permite
llegar a las siguientes conclusiones:

• Cuando aparece precedida de la preposición sin, casi siempre se trata de una


locución adverbial.
• En el resto de casos suele tratarse de un sustantivo masculino.

Estas conclusiones son puramente estadísticas. No resulta difícil encontrar


oraciones en las que embargo aparece precedida de la preposición sin y es un
sustantivo como, por ejemplo, El juez decretó la detención sin embargo de los bienes.
Por ello, es imprescindible revisar con cierta regularidad los etiquetados, para
detectar errores sistemáticos y corregirlos de base.
Una puntualización adicional acerca del orden del diccionario. Resulta más
rápido leer el diccionario si éste sigue cierto orden alfabético (aunque no es
necesario que esté perfectamente ordenado alfabéticamente, sí conviene que
todas las palabras que empiezan por la misma letra estén agrupadas). Por
supuesto, se podría obligar al usuario o al diseñador a introducir las palabras
según este orden, pero sería poco práctico y deceleraría su introducción. PETRA
Tag I incluye una opción para generar un archivo correctamente ordenado a
partir de un diccionario cuyas entradas se pueden introducir en cualquier
orden. En el etiquetado se usa el archivo con la lista ordenada.
El orden resulta también de vital importancia para los resultados, ya que el
etiquetador elige una única etiqueta (en principio) para cada palabra tras
buscarla en el diccionario. Además, para acelerar el funcionamiento del
programa, la exploración se abandona en cuanto se encuentra en el diccionario
la palabra buscada y se da la etiqueta por buena. Antes se ha señalado que, para

24
un buen número de palabras, hay varias etiquetas en el diccionario,
dependiendo de la raíz que se flexione, como en el ejemplo cortes, que puede
obtenerse flexionando cort- como sustantivo (corte, cortes) o como verbo (corto,
cortas, corta, etc.). Para que el etiquetado sea preciso, este orden debe definirse
de manera estable y, además, debe ser posible modificarlo cuando sea
necesario, para dar prioridad a unas flexiones sobre otras.
Tras examinar los primeros etiquetados se pudo comprobar que, en
principio, la norma que lograba los resultados más exactos era que cuanto
mayor la capacidad de producir palabras de una raíz, tanto menor debía ser su
prioridad. No obstante, esta norma tiene numerosas excepciones, por lo que se
decidió establecer un carácter, el signo de la suma «+», que otorga directamente
la máxima prioridad a la palabra que lo incluye. Por ejemplo, la palabra activa
puede etiquetarse de acuerdo con las siguientes dos entradas del diccionario del
programa:

ocult x21
oculta +vmip3s0/ocultar/0/+1<E1(d)>&vmip3s0/ocultar/0/-
1<P(se)>&vmip3s0/ocultar/0/-
1<E1(n)>&vmip3s0/ocultar/0/+1<E1(n)>&vmip3s0/ocultar/0/+1<P(que)>&aq0fs0
oculto

No obstante, PETRA Tag I escoge la segunda opción, porque incluye el signo


más "+" al principio de la etiqueta. En este caso, más que una etiqueta es una
regla, aunque a efectos prácticos equivale a una etiqueta.
Teniendo en cuenta todo lo anterior, el orden que se sigue para elegir la
raíz a partir de la que se obtiene la etiqueta correspondiente a una palabra es el
que muestra la tabla 8:

Reglas sintácticas precisas


Formas sin flexión

Nombres (2 formas)
Mayor prioridad
Adjetivos (5 formas)
Verbos (aprox. 64 formas)
Tabla 8. Prelación en la aplicación de reglas en
PETRA Tag I.

25
Consultando únicamente un diccionario incluido en PETRA Tag I, el porcentaje
de palabras que se puede estudiar es bastante grande, pero prácticamente en
todos los textos hay un número considerable de palabras que el programa no
puede reconocer. Lo que es más importante, ni siquiera tiene sentido que el
diccionario las incluya, ya que son específicas de un texto concreto.
Si el texto que estamos etiquetando es una traducción, podemos comprobar
si la palabra que estamos intentando etiquetar aparece también tal cual en el
texto original. De ser así, podemos etiquetarla con un código especial que
indique que probablemente se trata de un nombre propio o una marca de
formato. Para facilitar el trabajo con estos elementos, resulta conveniente
agrupar los que aparezcan consecutivos. Por ejemplo, si en un texto aparece
Microsoft Windows, podríamos etiquetarlo como dos elementos Microsoft y
Windows o bien como uno solo, Microsoft Windows, que es la opción elegida por
PETRA Tag I.
Si de ninguna todas estas maneras se puede asignar una etiqueta al texto,
queda la posibilidad de que se trate de un nombre propio. Para ello, en español
basta comprobar si la primera letra de la palabra que se pretende etiquetar es
una mayúscula (las excepciones, como los días de la semana o los meses, son
escasas). De ser así, podemos considerar que la palabra corresponde a un
nombre propio. Al igual que ocurría con los elementos que aparecen
exactamente iguales en el original y en la traducción, resulta interesante
agrupar este tipo de elementos. Por ejemplo, si en un texto aparece García Lorca,
tiene más sentido etiquetarlo así que como García, por una parte, y Lorca, por
otra. Hay que señalar que este modo de detectar los nombres propios es tanto
más preciso cuanto mayor es el diccionario, ya que, si no es muy amplio, las
palabras que aparecen al principio de una oración se etiquetan incorrectamente
como nombres propios, cuando en realidad se trata de otro tipo de elementos.
Por último, si la palabra no se ha podido etiquetar, recibe una etiqueta que
indica precisamente que se desconoce la etiqueta morfosintáctica y el lema. Esta
lista de palabras es muy útil, tanto para detectar posibles errores ortográficos

26
(una de las razones por la que es posible que la palabra no se haya reconocido)
como para seguir aumentando el diccionario del programa.
Si alguna palabra admite varias posibilidades, se marca con una etiqueta
que es, en realidad, una regla que determina la etiqueta más correcta para la
palabra, en función de varias condiciones. Por ejemplo, para la palabra algunos
no se especifican directamente las etiquetas, di0mp0 (determinante) y pi0mp000
(pronombre), sino que se especifica la siguiente regla:

algunos +di0mp0/alguno/0/+1<E1(n)>&pi0mp000

En breve, esta regla le indica a PETRA Tag I que etiquete la palabra como
determinante (di0mp0) si va seguida de un nombre, o como pronombre
(pi0mp000) en caso contrario. La sintaxis general del sistema de reglas es así:

posibilidad1&posibilidad2&etiqueta por defecto

Esta sintaxis funciona de la siguiente manera. Se realiza la comprobación de la


secuencia de condiciones n. Si el resultado de esta comprobación es positivo, a
continuación se eliminan las palabras indicadas por la condición y; después, se
las marca con la etiqueta y el lema apropiado. La posibilidad de eliminar
palabras resulta útil para anotar locuciones que, al ser grupos de palabras que
funcionan como unidad, se anotan con una sola etiqueta y un único lema. A
continuación se incluyen como ejemplo las reglas utilizadas para la palabra la y
la locución sin embargo.

embargo +rg/sin embargo/-1/-1<P(sin)>&ncms000

la +pp3fsa00/él/0/+1<E1(v)>&da0fs0 el

Normalmente, lo que se persigue es lograr la máxima precisión y, en


consecuencia, lo habitual es asignar la etiqueta y el lema que aparecen con
mayor frecuencia. Hay otras situaciones posibles. Por ejemplo, si deseamos
integrar el anotador en un sistema de detección de errores, la opción más segura
podría localizar un mayor número de errores.

27
Por último, las palabras desconocidas son las que no figuran en el
diccionario. PETRA Tag I las marca con la etiqueta «?» y el lema «?», lo que
permite buscarlas y localizarlas con gran rapidez mediante la función de
búsqueda del programa. Esta función no sólo indica todas las palabras que no
aparecen en el diccionario sino que, además, indica el número de veces que
aparece cada una de ellas. Normalmente, si no se desea que el nivel de
exhaustividad sea muy alto, basta con ordenar las palabras por número de
ocurrencias, para añadir al diccionario únicamente las palabras más frecuentes,
con lo que se obtiene una notable mejora con un esfuerzo reducido.
Algunos sistemas no asignan ninguna etiqueta especial que indique que la
palabra no está en el diccionario como, por ejemplo, Márquez (1998) que
supone que el conjunto de posibles etiquetas tiene una distribución uniforme
que se utiliza durante el etiquetado para asignarle la etiqueta más probable a la
palabra desconocida. Aunque estos sistemas permiten aumentar
espectacularmente la exhaustividad con una precisión aceptable, también
plantean inconvenientes. Por ejemplo, al asignar una etiqueta se parte del
supuesto de que el texto está escrito correctamente. No es, pues, la mejor
estrategia si, por ejemplo, deseamos anotar el texto precisamente para detectar
errores de redacción. Si asignamos una etiqueta gramatical correcta a una
palabra desconocida podemos impedir localizar los errores. Por tanto, esta
posibilidad es interesante pero también debe ser posible desactivarla cuando se
desea un mayor control sobre el proceso de anotación.

3.3. Aplicación de un modelo de objetos a PETRA Tag I


Como se ha indicado anteriormente, los etiquetadores no suelen constituir
aplicaciones completas sino, más bien, bases sobre las que se construyen
sistemas más complejos. Al decidir el diseño definitivo de un etiquetador
resulta fundamental optar por un modelo de programación que ofrezca la
máxima flexibilidad. También hay que tener en cuenta que una posible
aplicación es la interacción con otras aplicaciones. La mayoría de los sistemas
de etiquetado desarrollados hasta la fecha se ejecutan en ordenadores

28
especialmente potentes y con sistemas operativos Unix. En algunos casos, existe
un sitio web en el que se puede etiquetar un texto, aunque muy corto (podemos
encontrar el del CLiC en http://clic.fil.ub.es/ eligiendo Demos ► Morfología
► Etiquetador); además, la transferencia de información a través de la red es
insegura y lenta. Por tanto, los sistemas al uso no son de aplicación directa en el
ámbito profesional de la traducción, donde habitualmente se trabaja con
ordenadores de potencia media o reducida y con el sistema operativo Windows,
que sirve de base a las aplicaciones de traducción más populares, como Trados,
Sdlx, Dejà Vu, etc.
Por todos estos motivos, se ha elegido generar la aplicación en el entorno de
desarrollo integrado Visual Studio .NET, con el lenguaje de programación
Visual Basic .NET, apto la programación orientada a objetos. El resultado es una
«clase» que contiene una serie de definiciones básicas, a partir de la cual es
posible crear «objetos» con una serie de características (denominadas
propiedades) y con los que se pueden realizar una serie de acciones
(denominadas métodos).
Gracias a esta estrategia, un programador interesado en crear una aplicación
que incluya PETRA Tag I sólo tendría que incorporar la definición de la clase al
entorno de programación en el que vaya a desarrollar su proyecto –un sencillo
paso que puede realizarse en apenas un minuto– y copiar los archivos del
programa, que ocupan menos de un megabyte, en la ubicación adecuada. A
continuación se expone un ejemplo de cómo se trabaja con este modelo. Para
empezar, la siguiente línea crea una variable «MiOración» con la definición
deseada.

Dim MiOración As New Etiquetador.Oración()

Este objeto (variable, en la terminología tradicional de información) estaría, en


principio, vacío. Si deseamos introducir en este objeto el etiquetado
correspondiente a la oración Esto es un ejemplo, tenemos que aplicar un método
a este objeto. Para ello, basta con escribir el nombre del objeto con el que
queremos trabajar, seguido de un punto y, a continuación, el nombre del

29
método encargado de realizar la acción y los parámetros correspondientes que,
en este caso, serían una cadena vacía (ya que la oración no es la traducción de
otra) y lo que queremos etiquetar Esto es un ejemplo. La siguiente línea de código
hace precisamente esto.

MiOración.EtiquetarOración("", "Esto es un ejemplo.")

Como resultado, las propiedades del objeto (sus características) se verían


modificadas. Por ejemplo, hay una propiedad que indica el número de
elementos de la oración etiquetada. Antes de ejecutar la línea anterior, el valor
de esta propiedad era 0 y después tendrá el valor 5. El siguiente código nos
muestra un ejemplo cómo utilizar este valor:

For n = 1 To MiOración.NúmeroElementos

...

Next

Lo más importante es que el etiquetador funciona de modo totalmente


automático. El desarrollador no necesita conocer detalle alguno del proceso de
etiquetado, sino sólo saber cuáles son las propiedades y los métodos con los que
puede trabajar. Los siguientes apartados detallan estas propiedades y estos
métodos.

3.3.1. Propiedades
Las propiedades son las siguientes:

Palabra Matriz que contiene las palabras de una determinada oración.


Etiqueta Matriz que contiene las etiquetas de una determinada oración.
Lema Matriz que contiene los lemas de una determinada oración.
NúmeroElementos Variable numérica que indica el número de palabras que
contiene la oración en cuestión.

Las matrices Palabra, Etiqueta y Lema admiten hasta 1.024 elementos. Como la
variable NúmeroElementos indica precisamente el número de elementos que hay
en estas matrices para una oración concreta, no debe superar este valor pues
produce un error y el etiquetado no se realiza correctamente. Este número de

30
elementos permite etiquetar oraciones sin problema alguno, pero no textos
completos, que deben dividirse en unidades más pequeñas.

3.3.2. Métodos
La interacción con el sistema se realiza a través de una serie de métodos:
Inicialización
Iniciar
Etiquetado
EtiquetarOración
Conversión
ConvertirDeXML
Comprobación
ComprobarSerieCondiciones
Estos métodos se describen a renglón seguido, junto con sus parámetros,
clasificados según su función.

Inicialización: método Iniciar(Idioma)


Antes de realizar cualquier etiquetado, es necesario llamar a este método, cuya
función es cargar en memoria el diccionario, las terminaciones y la definición de
los caracteres que son letras, números o símbolos. Este método utiliza como
único parámetro el idioma cuyos datos se van a cargar.

Etiquetado: método EtiquetarOración(Cadena1, Cadena2)


El parámetro más importante de este método es Cadena2, que contiene el texto
de la oración que deseamos etiquetar. Si se dispone de la traducción de esta
cadena a otro idioma, se puede especificar mediante Cadena1. Si esta traducción
no existe o no está disponible, se puede dejar Cadena1 vacía. A partir de Cadena2
se crean las matrices Palabra, Etiqueta y Lema, así como la variable
NúmeroElementos, que indica el número de elementos de cada matriz. A modo
de ilustración, y continuando con el ejemplo anterior, si Cadena2 contiene Esto es
un ejemplo, obtenemos como resultado que NúmeroElementos=5 (cuatro palabras
más un signo de puntuación) y las siguientes matrices.

31
Palabra={Esto, es, un, ejemplo,.}
Etiqueta={pd0ns000, vsip3s0, di0ms0, ncms000, Fp}
Lema={esto, ser, un, ejemplo, .}

Conversión: método ConvertirDeXML(LíneaArchivo)


Este método utiliza una cadena (LíneaArchivo), con la siguiente codificación:

<PL M="Etiqueta1" L="Lema1">Palabra1</PL>... <PL M="Etiquetan"


L="Leman">Palabran</PL>

A partir de esta cadena crea las matrices Palabra, Etiqueta y Lema, así como la
variable NúmeroElementos, igual que hacia la rutina anterior. Esta rutina resulta
útil para leer los datos de etiquetado guardados en un archivo. Al tratarse de
una serie de datos generados con antelación, no es necesario volver a etiquetar
la oración, lo que acelera notablemente el proceso.

Comprobación: método ComprobarSerieCondiciones(Comprobación,


CondiciónCumplida, Posición)
La información incorporada por el proceso de etiquetado no resulta útil si no se
dispone de un acceso cómodo y potente a la misma. Al añadir dos nuevas
dimensiones a cada palabra –categoría morfosintáctica y lema– se multiplican
las posibilidades de trabajar con ellas. La función de búsqueda de secuencias
permite realizar búsquedas complejas en un texto. Para ello, se utiliza la
siguiente sintaxis:

N1<A1M1(B1)>N2<A2M2(B2)>N3<A3M3(B3)>...

En la expresión anterior, N1 indica la distancia (en tokens) entre la palabra a y la


palabra b que se está comprobando. Por ejemplo, 0 indica que queremos
examinar exactamente dicha palabra; +1, la palabra siguiente; –1, la palabra
anterior. También es posible especificar las opciones x, a o p en lugar de un
número. La letra x indica que basta con que la comprobación se cumpla en
cualquiera de los tokens de la secuencia. La letra a especifica que la
comprobación debe cumplirse en alguno de los tokens anteriores al elemento
estudiado y, por último, la letra p indica que la comprobación deben cumplirse

32
en alguno de los tokens posteriores al elemento estudiado. En la misma
expresión, A1 indica el elemento que se comprueba:

P sobre la palabra
E sobre la etiqueta
L sobre el lema
M comprueba si la primera letra de la palabra está en mayúsculas

M1 es un número que, por ahora, sólo se aplica cuando se desea estudiar una
parte concreta de la etiqueta, por ejemplo, la conjugación de un verbo, la
categoría gramatical, la persona, etc. B1 es el valor que debe tener dicho
elemento. Si va precedido del asterisco * indica que la comprobación se
cumplirá con cualquier valor excepto con el señalado.
Estas expresiones pueden ser tan largas como se desee, añadiendo todas las
comprobaciones necesarias con la misma sintaxis. La cadena Comprobación del
método descrito corresponde a esta expresión. Es el único valor que es
necesario indicarle a este método. La cadena CondiciónCumplida devuelve un 1
si se cumple la condición en el objeto buscado. Posición especifica el número
índice de la cadena en el que se están realizando las comprobaciones.

3.4. Ampliación del diccionario


Aunque el diccionario de PETRA Tag I contiene palabras correspondientes a
varios tipos de textos, en su desarrollo se ha puesto el énfasis en textos técnicos
informáticos y médicos. En otros ámbitos temáticos el diccionario resulta
bastante menos exhaustivo y puede ser necesario ampliarlo para obtener mayor
precisión. Para ampliar las 8.258 entradas iniciales se ha diseñado la pantalla
Editar diccionario, que se muestra en la figura 1.

33
Figura 1. Pantalla Editar diccionario

El elemento más importante de esta pantalla es la lista que muestra todas las
palabras que contiene el diccionario, junto con su código de flexión y el lema,
cuando es diferente del predeterminado. Como en algunos casos puede ser
difícil recordar a qué flexión corresponde cada código, en la parte superior se
muestran las primeras palabras de cada flexión y otras palabras que comparten
la misma flexión. En la figura 1, vemos que la raíz abani- junto con el código de
flexión «x92» nos genera las palabras abanicar, abanicando, abanicado, abanicados,
abanicada, por ejemplo, y que esta flexión es la misma en los casos de las
palabras sacar, secar y tocar. Si se desea introducir en el diccionario una nueva
entrada, basta con escribir en los tres cuadros de texto que hay inmediatamente
debajo de la lista la raíz correspondiente, el código de flexión y el lema.

34
3.5. Evaluación de los resultados
Diseñado el programa, resulta imprescindible comprobar su precisión. Si los
resultados no son suficientemente precisos, las aplicaciones que incluyan este
módulo pueden presentar un número excesivo de errores. Los resultados
expuestos a continuación son puramente orientativos y no pretenden establecer
ninguna estimación estadísticamente exacta de la precisión. El etiquetado
morfosintáctico de un texto depende en gran medida de la información
introducida en el diccionario y de las características concretas del texto. Por
tanto, para cada caso se recomienda realizar un estudio previo de los resultados
para comprobar si se estiman aceptables.
La mayoría de estudios sobre etiquetadores automáticos utilizan el
siguiente enfoque para analizar la precisión: se toma un corpus y se divide en
dos partes, una dedicada al ajuste del sistema y la otra para usarla después para
medir la precisión del modelo. Evidentemente, si el corpus del que se parte es
homogéneo, como ocurre cuando todos los textos incluidos tratan un mismo
tema, los resultados sólo son aplicables a otros textos de las mismas
características, lo que resulta poco acertado si se desea que el etiquetador que
logre una buena precisión en textos diversos.
La mayoría de los estudios comentados suelen evaluar globalmente el
rendimiento del etiquetador con dos parámetros: el porcentaje de palabras
anotadas correctamente y, en ocasiones, la velocidad de etiquetado. Para
evaluar los resultados de PETRA Tag I se ha utilizado un enfoque más
estadístico, que permite obtener datos más fiables y, sobre todo, se puede
aplicar a otros tipos de textos, de manera que, para realizar un nuevo estudio de
la precisión, basta con seguir la metodología que se expone a renglón seguido.
Al ser necesaria cierta parte del corpus para el desarrollo, se va a seguir la
estrategia habitual de destinar la mitad del corpus a primer entrenamiento y la
otra mitad a evaluación. Al ser el corpus de PETRA Tag I particularmente
heterogéneo, podemos suponer que los resultados obtenidos podrían ser
parejos en una gran variedad de textos.

35
Como ejemplo de prueba de PETRA Tag I, vamos a estimar la precisión y la
exhaustividad con la que se etiquetan oraciones extraídas del corpus CLiC-
TALP, descrito en Civit (2002:7) y que proviene de dos fuentes. Por una parte,
recoge una muestra representativa de un corpus de prensa de siete millones de
palabras cedido por el periódico La Vanguardia. Por otra, recoge una muestra
del corpus LexEsp (léxico informatizado del español), de cinco millones de
palabras, recogido entre los años 1978 y 1995. Este corpus se considera
representativo del español estándar escrito en el sentido de que presenta varios
estilos narrativos, varias procedencias (literatura, prensa, etc.) e incluye también
muestras tanto del español peninsular como del de América. LexEsp recoge un
número reducido de palabras por obra y no más de tres obras por autor. La
tabla 9 muestra el origen de cada uno de los textos recogidos en el apéndice A.

a articulistas
e ensayo
d prensa deportiva
dc divulgación científica
c suplementos de ciencia
ed editoriales
n noticias
r semanarios
t narrativa
Tabla 9. Contenido de los
archivos del corpus CLiC TALP

Los datos de este corpus acerca de los lemas y las etiquetas pueden considerarse
de gran calidad porque, tras lematizarlo y etiquetarlo de modo automático, se
los han corregido especialistas. Para estudiar la ambigüedad, PETRA Tag I 1.0
establece el límite de la oración como unidad superior. Así, vamos a considerar
el texto de manera separada, por oraciones, en lugar de estudiarlo como
conjunto. Para que la muestra resulte estadísticamente representativa, se
tomaron al azar 30 oraciones de la parte del corpus dedicada a los textos y se
analizó la precisión en cada una de estas oraciones, lo que permite obtener no
sólo una media estadística, sino también una desviación típica. El apéndice A
recoge las oraciones estudiadas y su procedencia, incluido el significado de

36
cada identificador, según aparece en Civit (2002:8). El apéndice B muestra tanto
la versión de PETRA Tag I sin ningún tipo de corrección como la corregida por
especialistas. La tabla 10 se ha alineado para facilitar la lectura y comparación
inmediatas de los resultados, que son los siguientes:
Errores de alineación

Errores de alineación
Etiquetas correctas

Etiquetas correctas
Palabras etiquetadas

Palabras etiquetadas
LEMAS CORRECTOS

LEMAS CORRECTOS
Palabras totales

Palabras totales
Oración

Oración
%

%
1 38 1 32 29 90 29 90 16 13 0 13 13 100 13 100
2 14 1 13 11 84 10 76 17 31 0 29 27 93 26 89
3 20 0 19 18 94 18 94 18 18 1 16 13 81 15 93
4 16 0 14 11 78 13 92 19 16 0 14 13 92 13 92
5 13 0 11 10 90 11 100 20 42 1 42 39 92 40 95
6 24 0 20 19 95 20 100 21 19 0 18 17 94 18 100
7 18 0 17 17 100 17 100 22 41 0 37 35 94 35 94
8 25 0 23 22 95 23 100 23 11 0 9 8 88 8 88
9 54 2 47 41 83 46 93 24 19 0 18 17 94 16 88
10 47 1 46 42 91 41 89 25 25 0 23 22 95 23 100
11 14 2 12 10 83 9 75 26 47 0 44 42 95 40 90
12 7 0 7 7 100 6 85 27 20 0 20 16 80 19 95
13 10 0 10 8 80 9 90 28 42 3 38 33 86 33 86
14 36 0 36 36 100 36 100 29 32 0 31 30 96 29 93
15 10 0 10 9 90 9 90 30 62 0 58 57 98 55 94
Promedio 91 92
Tabla 10. Precisión y exhaustividad de PETRA Tag I sobre 30 oraciones del corpus
CLiC-TALP.

En principio, los resultados no parecen muy positivos, pues el porcentaje de


palabras etiquetadas correctamente no alcanza el 95% mínimo que prometen la
mayoría de los etiquetadores estadísticos. Determinados factores explican esta
desviación:

• El juego de etiquetas que utiliza la aplicación es bastante más extenso que el de los
sistemas que consiguen precisiones más elevadas y, al intentar determinar una
mayor cantidad de datos, es más fácil que cometa errores.

37
• El etiquetador no se ha sometido a ningún tipo de entrenamiento con textos de este
tipo, lo que podría aumentar notablemente la precisión.

A continuación, veremos por separado las palabras que ha etiquetado


erróneamente el sistema y hasta qué punto es posible corregir los resultados.

3.5.1. Palabras no etiquetadas


En el apéndice C aparece una lista de las palabras que el sistema no ha logrado
etiquetar. Son un total de 55, que se distribuyen en 52 formas, lo que indica que
cada forma no incluida en el diccionario aparece una media de 1,06 veces.
Cuanto mayor este índice, tanto más rápido alimentar el sistema con nuevas
palabras; por el contrario, cuanto más se aproxima el valor a uno, tanto menor
es la ganancia en exhaustividad al introducir una nueva palabra en el
diccionario. En este texto, este valor es muy bajo, lo que indica que, para
aumentar la exhaustividad, sería necesario introducir un número relativamente
grande de palabras. Por ejemplo, para reducir el porcentaje de palabras
desconocidas a la mitad, habría que introducir en el diccionario las entradas
correspondientes a 24 palabras, aproximadamente. Tras introducirlas en el
diccionario, se etiquetarían y lematizarían correctamente 27 palabras más. En
general, a menos que se tenga interés en conseguir una precisión muy grande,
se aconseja introducir las palabras que aparecen más de dos veces. Estos valores
no son los que aparecen habitualmente cuando se utiliza PETRA Tag I 1.0 con
un nuevo conjunto de textos, en cuyo caso aparecerían unas cuantas palabras
desconocidas con una frecuencia muy alta, lo que permitiría aumentar
notablemente la exhaustividad y la precisión con un pequeño esfuerzo
adicional. Por el contrario, los valores obtenidos con los textos utilizados para la
evaluación reflejan que son de naturaleza muy diferente y, por tanto, apenas
hay palabras que aparezcan en varios de ellos.
Otro punto muy interesante de las palabras no etiquetadas es su
ambigüedad. El apéndice D muestra las etiquetas correctas de las palabras
desconocidas. El interés de esta lista es que estas palabras tienen un grado de
ambigüedad muy bajo, lo que permite aumentar el número de etiquetas
correctas, sin mezclar estas palabras con otros tipos de ambigüedad, como las

38
de las categorías cerradas que, en algunos casos, pueden tener mayor o menor
importancia.

3.5.2. Palabras etiquetadas incorrectamente


La tabla 11 muestra la distribución por categorías morfológicas de las palabras
etiquetadas incorrectamente por el programa.

palabras
Etiqueta correcta número %
Nombre común 42 37
Verbo 18 16
Adjetivo 17 15
Pronombre 10 9
Locución 9 8
Adverbio 4 3
Puntuación 4 3
Conjunción 3 2
Determinante 2 1
Número 2 1
Preposiciones 0 0
Total 111
Tabla 11. Categoría morfológicas de las
palabras etiquetadas incorrectamente
por PETRA Tag I.

En la tabla 10 se puede comprobar que las tres primeras categorías gramaticales


concentran el 68% de las ambigüedades. Las locuciones (el 8% del total)
corresponden a un etiquetado muy completo y, por tanto, resulta prácticamente
inevitable que las definan expertos. Lo importante, en este caso, es que es
posible mejorar estos resultados aumentando las entradas del diccionario. La
categoría cerrada que agrupa al mayor número de errores son los pronombres,
lo que sugiere que las reglas de desambiguación de estas palabras necesitarían
de un mayor estudio que permita un mayor porcentaje de aciertos. Por último,
también hay que señalar que la mayoría (12, el 66%) de los 18 casos de los
verbos –la segunda categoría más importante– corresponde a palabras que no
figuran en el diccionario. Además, de los 6 (34%) casos restantes, en 4 (66%) se
ha detectado correctamente que se trata de un verbo, pero no se ha determinado

39
correctamente alguno de los atributos –persona, tiempo, modo, etc.– y sólo en
los otros 2 (34%) no se ha detectado que se trataba de un verbo.
La tabla 12 presenta las palabras etiquetadas no desde el punto de vista de
las palabras propiamente dichas y no de sus categorías gramaticales. A
continuación, ordenada por número de ocurrencias, la lista de palabras que no
figuraban en el diccionario. Para no alargarla innecesariamente, se consignan
tan sólo las que cuentan con al menos dos ocurrencias:

Palabra Ocurrencias Palabra Ocurrencias


se 8 a 3
que 6 - 2
era 3 partir 2
cuidado 3
de 3 [...] <2
Tabla 12. Palabras más frecuentes etiquetadas
erróneamente por PETRA Tag I.

Como se había apuntado, destaca que las dos palabras en las que se ha
cometido un mayor número de errores pertenecen a categorías cerradas, lo que
indica que es necesario aumentar la precisión de las reglas que controlan esta
categoría gramatical.

3.5.3. Mejora de los resultados


Como se comentaba en § 3.4, PETRA Tag I incluye una pantalla que permite
introducir palabras que no figuran todavía en el diccionario y aumentar así la
precisión. Antes se han expuesto los resultados al etiquetar texto desconocido
para el etiquetador. Ahora se examinan las modificaciones que habría que
realizar al diccionario para mejorar estos resultados y la mejora obtenida. La
tabla 13 muestra la codificación de las palabras nuevas. También se puede
ampliar la lista de locuciones reconocidas. En el caso de las locuciones, la lista
que se puede añadir es bastante más corta, como muestra la tabla 14. Al

40
introducir estos datos, la precisión global del etiquetado aumenta hasta el
93,35%.

Raíz Código de Raíz Código de


flexión flexión
aislante x13 implacable x13
ambient x21 imprevisible x13
aislante x13 incumpl x23
ambient x21 infeliz aq0cs0
carrillo x1 infelices aq0cp0
conductor x14 lenitivo x1
contraluz ncms000 magazine x1
cos x22 m x45
crudeza x2 mirilla x2
cubismo x1 míster ncms000
decrépit x11 ocultable x13
desahog x21 ovni x1
descomposici x6 papá x1
desgua x51 parafina x2
desilusi x6 payaso x1
detest x21 pen x21
dudos x11 planch x21
empeor x21 pliegue x1
expresionismo x1 popular x31
franceses aq0mp0 psicológic x11
frescura x2 rep x43
galaxia x2 retículo x1
garante x1 sobrante x13
gast x21 tocador x3
gravitacional x12 toucher ncms000
halitosis ncfn000 tremend x11
homenaje x1
Tabla 13. Nuevas palabras.

Locución Etiqueta
reyes_magos np00000
don_juan np00000
en_vez_de sps00
a_partir_de sps00
Tabla 14. Nuevas locuciones.

41
3.6. Utilidad de ejemplo

PETRA Tag I 1.0 se ha diseñado para ser un componente de otros sistemas, por
lo que, en principio, no puede utilizarse sin programación. Para evaluarlo y
realizar pruebas con él, se ha diseñado una aplicación sencilla cuya función
básica es cargar un texto en formato .txt, etiquetarlo y mostrar el etiquetado
obtenido o guardarlo en un archivo para su recuperación posterior. Esta
utilidad incorpora las siguientes opciones, accesibles tanto a través de la barra
de menús como de los iconos de la barra de herramientas:

• Cargar. Carga el archivo de texto para su etiquetado. También permite


cargar archivos separados por tabuladores, en los que la primera columna
corresponde al inglés y la segunda columna a su traducción al español.
• Guardar. Almacena el texto etiquetado en la ubicación escogida.
• Etiquetar. Etiqueta las palabras del texto. Es un proceso bastante laborioso y
el etiquetado de textos largos puede llevar cierto tiempo.
• Búsqueda sencilla. Realiza búsquedas simples en el texto. Los resultados se
presentan por línea.
• Búsqueda avanzada. Realiza búsquedas en las que es posible combinar el
texto propiamente dicho junto con categorías morfosintácticas o lemas. La
sintaxis que utiliza esta búsqueda es la comentada en §3.3.2.

Figura 2. Aspecto de la interfaz de usuario del programa

42
3.7. Otras aplicaciones

3.7.1. Búsqueda de secuencias


Esta aplicación utiliza el método de búsqueda descrito al tratar los métodos de la
biblioteca de clases en § 3.3.2. La búsqueda de secuencias se simplifica, pues
basta introducir los datos necesarios. Con esta función se pueden realizar tareas
variadas, aunque de entre ellas cabe destacar las siguientes:

A. Búsqueda de errores. Se puede codificar secuencias que correspondan a usos


incorrectos del idioma. Por ejemplo, esta cadena de comprobación busca los
casos en los que aparece una forma cualquiera del verbo ser, seguida de la
palabra posible, la conjunción que y, a continuación, un verbo en indicativo, lo
cual corresponde a un error.

0<L(ser)>1<P(posible)>2<P(que)>3<E3(i)>

B. Revisión de estilo. Con esta función es posible controlar rápidamente la


aparición de determinados elementos. Por ejemplo, esta cadena de
comprobación busca todos los verbos que están conjugados en segunda
persona:

0<E1(v)>0<E5(2)>

C. Estudio de rasgos gramaticales. Si se desea que el texto que se está


analizando se asemeje al máximo a otros textos traducidos previamente,
podemos utilizar esta función para buscar determinados rasgos. Por ejemplo,
esta cadena de comprobación busca todos los casos en los que el verbo asociar
viene seguido de una preposición, con el objeto de estudiar el régimen
preposicional de dicho verbo que se utiliza con mayor frecuencia.

0<L(asociar)>0<E1(rg)>

3.7.2. Comprobación de concordancias

El etiquetado del texto incluye información sobre el género y número de


determinantes, sustantivos y adjetivos, que permite establecer ciertas reglas de
manera que el programa avise cuando no se cumplen. No obstante, algunas
reglas pueden generar tantas falsas alarmas que puede ser preferible no
introducirlas. Por ejemplo, parece lógico establecer entre palabras contiguas la
siguiente condición:

43
género sustantivo = género adjetivo
número sustantivo = número adjetivo

Sin embargo, esta regla genera un número excesivo de errores. Por ejemplo, el
generador de protones desactivado supone una infracción pero gramaticalmente
correcta. Para reducir los errores se ha encontrado bastante productiva la
siguiente regla:

género determinante = género sustantivo


número determinante = número sustantivo

Por supuesto, las reglas tratadas hasta el momento suponen la comparación de


solo dos elementos, por lo que queda abierta la posibilidad de buscar secuencias
morfosintácticas de mayor tamaño (por ejemplo, en el caso anterior, tenemos la
secuencia «sustantivo + preposición + sustantivo + adjetivo», que podría ser
interesante estudiar para encontrar otras reglas útiles.

44
4. Conclusiones

El etiquetado del texto es un proceso que puede llevarse a cabo con unos
recursos razonables –un ordenador de capacidad normal y un programa como
el descrito– con los que es posible obtener resultados de una calidad aceptable,
como es el caso de PETRA Tag I 1.0. Por supuesto, el sistema admite mejoras. La
más obvia y fácil de introducir es la ampliación del vocabulario incorporado
que, en este momento, es bastante reducido. También es posible refinar las
reglas de resolución de ambigüedades, aunque en este caso introducir reglas
nuevas para resolver determinados tipos de ambigüedades no debe afectar a los
resultados anteriores del programa. Por ejemplo, introducir reglas que
determinen cuándo la se refiere a la nota musical y no al determinante ni al
pronombre –bastante útil en textos en los que abunden las referencias
musicales– podría ser desastroso en otros textos.
Conviene determinar el grado de precisión que alcanza el programa con
mayor exactitud. La mayoría de las aplicaciones desarrolladas hasta el
momento suelen esgrimir porcentajes bastantes altos pero, en muchos casos, la
metodología para obtener estos llamativos resultados no resulta clara. Tampoco
es fácil comparar resultados de diferentes programas entre sí. No obstante, la
utilidad más inmediata de los etiquetadores es abordar fenómenos que hasta
ahora caían fuera del alcance de los ordenadores sin asistencia humana. La
introducción de información morfológica permite aumentar el grado de control
del texto y automatizar procesos como la detección de errores, la corrección de
estilo y el estudio sistemático de determinados rasgos semánticos de un texto.
Más allá de las particularidades del etiquetado morfosintáctico de un texto,
los ordenadores pueden realizar tareas que hasta hace poco necesitaban del
concurso humano con una precisión aceptable. Para ello no es necesario
disponer de ordenadores con capacidades excepcionales ni largos y
complicados períodos de formación.
Al traducir y revisar un texto, los traductores a menudo toman decisiones
basadas en la categoría morfosintáctica de una palabra. PETRA Tag I 1.0 abre

45
una puerta para automatizar parte de esta tarea, lo que permite que el traductor
aplique sus decisiones de una manera tan exhaustiva como desee. Aun más,
disponer ya de una herramienta que resuelve las categorías gramaticales
permite construir aplicaciones más complejas que resuelvan problemas que
antes resultaban inabordables.
Ahora desearía centrarme en uno de los retos a los que se enfrentan muchos
traductores profesionales durante su trabajo diario: el uso de los materiales de
referencia respecto a los que en muchas ocasiones se valora su trabajo. Con
frecuencia, los proyectos están muy segmentados, tanto en el tiempo (muchas
veces constan de numerosos lotes que se van recibiendo incluso durante varios
años) como en el equipo implicado, ya que muchas veces un proyecto grande
involucra a varios traductores y revisores. El largo desarrollo de estos proyectos
hace que no siempre pueda ocuparse el mismo equipo del mismo proyecto,
como sería deseable y muchos clientes solicitan con frecuencia. Por tanto, se
acumula un gran volumen de información pertinente, la incluida con el propio
proyecto (en forma de guías de estilo, glosarios, plantillas de dudas ya
respondidas, etc.), la referencia externa que suele ser común a un gran número
de proyectos (principalmente diccionarios monolingües y bilingües, gramáticas,
etc.) y la que no suele tenerse en cuenta, los conocimientos que el equipo de
traducción ha adquirido durante su trabajo. Tal cantidad de información ha de
aplicarse en la práctica en unos plazos muy ajustados sobre lotes con
dimensiones muy variables, a fin de obtener un producto de suficiente calidad.
Los sistemas informáticos ofrecen nuevas posibilidades de almacenar todos
estos conocimientos y hace posible transmitir y reutilizar la información con
mucha mayor eficacia de la que se conseguiría con los métodos tradicionales.
Precisamente sobre este almacenamiento de la información y las herramientas
que facilitarían el trabajo del traductor y del revisor, liberándolo de muchas de
las tareas más mecánicas y pesadas, pretendo centrar los posteriores trabajos
para los que creo que será indispensable disponer de un etiquetador
suficientemente preciso, que puede llegar a ser una piedra angular al almacenar

46
y conectar todos los conocimientos y habilidades necesarios para lograr una
traducción de máxima calidad en un tiempo mínimo.

47
5. Bibliografía

BRILL, Eric (1992): A simple rule-based part of speech tagger. Proceedings of the 3rd Conference on
Applied Natural Language Processing (ANLP-92), Trento, Italy.
—. (1995): Unsupervised Learning of Disambiguation Rules for Part-of-Speech Tagging. Proceedings
of 3rd Workshop on Very Large Corpor, Massachussetts.
CHURCH, Kenneth Ward. (1988): A Stochastic Parts Program and Noun Phrase Parser for
Unrestricted Text. In proc. of 2nd Conference on Applied Natural Language Processing.
CIVIT, Montserrat, Irene CASTELLÓN y María Antonia MARTÍ. (2001): Joven periodista triste busca
casa frente al mar o la ambigüedad en la anotación de corpus. Congreso Internacional sobre
nuevas tendencias de la lingüística, noviembre, Granada, 2001.
CUTTING, Doug, Julian KUPIEC, Jan PEDERSEN, and Penelope SIBUN. (1992): A Practical Part-of-
Speech Tagger. In proc. of 3rd Conference on Applied Natural Language Processing.
DEROSE, Steven J. (1988): Grammatical Category Disambiguation by Stadistical Optimization.
Computational Linguistics 14(1), pp 31-39.
FARWELL, David, Stephen HELMREICH y Mark CASPER. (1995): SPOST: a Spanish Part-of-Speech
Tagger. Procesamiento del lenguaje natural, boletín nº17. Septiembre.
GARSIDE, Roger, Geoffrey Leech, and Geoffrey Sampson. (1987): The Computational Analysis of
English. London and New York: Longman.
GIMÉNEZ, Jesús y Lluís Màrquez. (2003): Fast and Accurate Part-of-Speech Tagging: The SVM
Approach Revisited. Proceedings of RANLP'03. September, 10-12, 2003. Borovets, Bulgaria.
—. (2004): SVMTool: A general POS tagger generator based on Support Vector Machines. 4th
International Conference On Language Resources And Evaluation, Lisboa.
IDE, Nancy. (2004): Preparation and analysis of linguistic corpora. A Companion to Digital
Humanities. Schreibman, S., Siemens, R, Unsworth, J, Eds, Blackwell.
KARLSSON, F, A. Voutilainen, J. Heikkilä, and A. Anttila. (1995): Constraint Grammar: A Language-
Independent System for Parsing Unrestricted Text. Mouton de Gruyter. Berlin, New York.
MÀRQUEZ, Lluís y Horacio RODRÍGUEZ. (1998): Part-of-Speech-Tagging Using Decision Trees.
Lecture Notes in Artificial Intelligence 1398. C. Nédellec & C. Rouveirol (Eds.). Machine
Learning: ECML-98.Proceedings of the 10th European Conference on Machine Learning.
Chemnitz, Germany. April 1998.
MÀRQUEZ, Lluís, Lluís PADRÓ y Horacio RODRÍGUEZ. (1999): A Machine Learning Approach for
POS Tagging. Machine Learning Journal.
OOSTDIJK, Nelleke. (1991): Corpus Linguistic and the Automatic Analysis of English. Rodopi,
Amsterdam.
PADRÓ, Lluís. (1998): A Hybrid Environment for Syntax -Semantic Tagging. PhD Thesis. Dep.
Llengautges i Sistemes Inofrmàtics. Universitat Politecnica de Catalunya.
PÉREZ, Chantal (2002): Explotación de los córpora textuales informatizados para la creación de bases de
datos terminológicas basadas en el conocimiento. Tesis doctoral. Universidad de Málaga.
PLA, Ferran, Antonio MOLINA y Natividad PRIETO. (2001): Evaluación de un etiquetador
morfosintáctico basado en bigramas especializados para el castellano. Revista de la Sociedad
Española para el Procesamiento del Lenguaje Natural No. 27, pp 215-221.
RATNAPARKHI, Adwait. (1997): A Maximum Entropy Model for Part-Of-Speech Tagging.
Proceedings of the 5th ANLP Conference.
SCHMID, Helmut. (1994): Part-of-Speech Tagging with Neural Networks. Proceedings of 15th
International Conference on Computational Linguistics, COLING '94.
TAPANAINEN, Pasi y Atro Voutilainen. (1994): Tagging accurately - Don't guess if you know.
Proceedings of Fourth ACL Conference on Applied Natural Language Processing.
Association for Computational Linguistics. Stuttgart.
UPV. Página del concurso de algoritmos de la asignatura Estructuras de Datos y Algoritmos
(EDA) de la Facultad de Informática de la Universidad Politécnica de Valencia.
http://www.dsic.upv.es/asignaturas/facultad/eda/concurso/concuWeb0405/concurso0
405web/node3.html. Consultada el 26 de abril de 2005.

48
VOUTILAINEN, Atro. (1995): A syntax-based part-of-speeh analyser. Proceedings of the Seventh
Conference of the European Chapter of the Association for Computational Linguistics,
Dublin.

49
Apéndices

50
Apéndice A: Oraciones para la evaluación del etiquetador

Id Archivo Oración
1 t1.tag.nou Malgastaban las horas sobrantes cosiendo en la ropa del muerto los botones que nunca habían tenido tiempo de reponer, planchaban y volvían a planchar sus camisas de puños y
cuellos de parafina para que siempre estuvieran perfectas.
2 t1.tag.nou Pero Sara Noriega no se lo permitió hasta que no acabó de desahogarse contra Fermina Daza.
3 dc10.tag.nou El campo gravitacional de estas lunas se encarga de retener en órbita las pequeñas partículas que forman el anillo.
4 t5.tag.nou Verle le veía lo que se dice mal, porque la mirilla era muy turbia.
5 t4.tag.nou Los franceses usan la palabra "toucher" para "cobrar".
6 a25.tag.nou Y el tremendo atasco, aunque ensayado previamente en múltiples ocasiones, solamente ahora se mostraba en su implacable crudeza y duración imprevisible.
7 e1.tag.nou Y es que el humor es una de las mercancías literarias que más difícilmente conservan su frescura.
8 t5.tag.nou Apartó con sumo cuidado el juego de tocador, un regalo de su abuela cuya función no había pasado nunca de la dudosamente decorativa.
9 a25.tag.nou En vez de los tres dones del hada, un seguro contra la desilusión, las promesas incumplidas, el descubrimiento del dolor - que siempre se produce demasiado pronto -, el hecho de
que los Reyes Magos son los papás, la inesperada halitosis del primer amor y también las películas con finales infelices.
10 dc10.tag.nou Gregorio Marañón explica en su ensayo sobre Don Juan que la reacción psicológica específica del varón es el culto del honor, de la honra llevado hasta el máximo sacrificio; si es
necesario hasta la venganza y el crimen, que el honor se justifica siempre.
11 a15.tag.nou ¿Hay vida en alguna galaxia? Y ovnis en Barbastro.
12 t5.tag.nou –Son tan raros, los hombres.
13 dc3.tag.nou Son moléculas capaces de transferencia electrónica por sí mismas.
14 a11.tag.nou Esto pasa en las familias donde el padre lo gana, o donde padre y madre trabajan; pero cada vez hay más familias donde el abuelo es el único que tiene un trabajo fijo.
15 dc10.tag.nou En 1903 fundó su primera compañía con doce socios.
16 a15.tag.nou Y en la mayor parte de la prensa española, ni aparece.
17 a15.tag.nou El investigador que nunca descubre nada que no se populariza gracias a algún descubrimiento suficientemente espectacular que lo haga aparecer en algún magazine televisivo, va
perdiendo las fuentes de financiación.
18 r2.tag.nou Los nacionalistas, que son los garantes de este decrépito Ejecutivo, esperan los resultados del día 12.
19 a26.tag.nou Miré alrededor, y los invitados, con los carrillos llenos, seguían gastándose bromas.
20 a11.tag.nou Finalmente, el autor da a entender que la pareja se dedicaba a hacer siempre el mismo número: "Entendí al fin que en aquel asunto yo no había sido un elemento pasivo, un
eslabón más en una cadena".
21 a26.tag.nou Su vibración desguaza sin cuidado la estabilidad de lo dulce y la sincera determinación de lo amargo.
22 a28.tag.nou Prefiere los decorados que contribuyen a dar sensación de realidad a la escena, y si se trata de ambientar una obra moderna, detesta las composiciones con planos geométricos (se
refiere al auge del expresionismo y el cubismo).
23 a26.tag.nou Cada pliegue es una herida definitiva sin remedio o lenitivo.
24 t5.tag.nou Antonia colocó la mano a contraluz y observó cómo la carne se ponía roja y un poco transparente.
25 t5.tag.nou Apartó con sumo cuidado el juego de tocador, un regalo de su abuela cuya función no había pasado nunca de la dudosamente decorativa.
26 a28.tag.nou Agudísima observación de míster Chaplin, que sabe que, pese a todos los reconocimientos, los homenajes, los aplausos dedicados al payaso, el hombre serio o el que sonríe a la
muchedumbre solamente para promocionarse es siempre más respetado que el que hace reír.
27 a26.tag.nou Ya me imaginaba yo que era gente humilde, pero, conociendo la vivienda, era peor que eso.
28 a23.tag.nou Y es que el progreso de nuestra descomposición es la menos ocultable de las incidencias de nuestra vida: todos empeoramos a ojos vistas a partir de cierta edad muy temprana, o
quizá, si Freud no miente, a partir de nuestra fecha de nacimiento.

51
29 a23.tag.nou Lo malo de la mayoría de nuestras más caras ilusiones es que comienzan como proyectos, luego se convierten en deberes y terminan siendo tareas obligatorias cuyo descuido está
legalmente penado.
30 dc3.tag.nou De otro lado, las propiedades conductoras de los materiales moleculares se ven muy afectadas por las interacciones entre los sistemas electrónicos y las vibraciones del retículo
cristalino, llegando en el caso extremo a producirse a bajas temperaturas (próximas al cero absoluto) una distorsión del retículo (transición de Peierls) acompañada de una
transición del comportamiento metálico a aislante.

Rojo: palabras etiquetadas con ambos, etiqueta y lema, incorrectos


Amarillo: palabras etiquetadas con etiqueta incorrecta pero lema correcto
Verde: palabras etiquetadas con etiqueta correcta pero lema incorrecto
Negro: palabras etiquetadas correctamente

52
Apéndice B: Fragmento de ejemplo (comparación)

Palabra Etiqueta Lema Etiqueta asignada Lema asignado por


corregida corregido por PETRA tag 1 PETRA tag 1
Oración 1
Malgastaban malgastar vmii3p0 Malgastaban np00000
las El da0fp0 el da0fp0
horas hora ncfp000 hora ncfp000
sobrantes sobrante aq0cp0 - ?
cosiendo coser vmg0000 - ?
en en sps00 en sps00
la el da0fs0 el da0fs0
ropa ropa ncfs000 ropa ncfs000
del del spcms del spcms
muerto muerto ncms000 muerto aq0msp
los el da0mp0 el da0mp0
botones botón ncmp000 botón ncmp000
que que pr0cn000 que pr0cn000
nunca nunca rg nunca rg
habían haber vaii3p0 haber vaii3p0
tenido tener vmp00sm tener vmp00sm
tiempo tiempo ncms000 tiempo ncms000
de de sps00 de sps00
reponer reponer vmn0000 - ?
, , fc , Fc
planchaban planchar vmii3p0 - ?
y y cc y cc
volvían volver vmii3p0 volver vmii3p0
a a sps00 a sps00
planchar planchar vmn0000 - ?
sus su dp3cp0 su dp3cp0
camisas camisa ncfp000 camisa ncfp000
de de sps00 de sps00
puños puño ncmp000 puño ncmp000
y y cc y cc
cuellos cuello ncmp000 cuello ncmp000
de de sps00 de sps00
parafina parafina ncfs000 - ?
para_que para_que cs * *
siempre siempre rg siempre rg
estuvieran estar vmsi3p0 estar vmsi3p0
perfectas perfecto aq0fp0 perfecto aq0fp0
. . fp . Fp
Oración 2
Pero pero cc pero cc
Sara_Noriega sara_noriega np00000 Sara_Noriega np00000
no no rn no rn
se él pp3cn000 él p0300000
lo él pp3msa00 él pp3msa00
permitió permitir vmis3s0 permitir vmis3s0
hasta_que hasta_que cs * *
no no rn no rn

53
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
acabó acabar vmis3s0 acabar vmis3s0
de de sps00 de sps00
desahogarse desahogar vmn0000 - ?
contra contra sps00 contra sps00
Fermina_Daza fermina_daza np00000 Fermina_Daza np00000
. . fp . Fp
Oración 3
El el da0ms0 el da0ms0
campo campo ncms000 campo ncms000
gravitacional gravitacional aq0cs0 - ?
de de sps00 de sps00
estas este dd0fp0 este dd0fp0
lunas luna ncfp000 luna ncfp000
se se p0000000 él p0300000
encarga encargar vmip3s0 encargar vmip3s0
de de sps00 de sps00
retener retener vmn0000 retener vmn0000
en en sps00 en sps00
órbita órbita ncfs000 órbita ncfs000
las el da0fp0 el da0fp0
pequeñas pequeño aq0fp0 pequeño aq0fp0
partículas partícula ncfp000 partícula ncfp000
que que pr0cn000 que pr0cn000
forman formar vmip3p0 formar vmip3p0
el el da0ms0 el da0ms0
anillo anillo ncms000 anillo ncms000
. . fp . Fp
Oración 4
Verle ver vmn0000 ver vmn0000
le él pp3csd00 él pp3csd00
veía ver vmii3s0 ver vmii3s0
lo el da0ns0 el da0ns0
que que pr0cn000 que pr0cn000
se se p0000000 él p0300000
dice decir vmip3s0 decir vmip3s0
mal mal rg mal ncms000
, , fc , Fc
porque porque cs porque cs
la el da0fs0 el da0fs0
mirilla mirilla ncfs000 - ?
era ser vsii3s0 ser vsii1s0
muy mucho rg mucho rg
turbia turbio aq0fs0 - ?
. . fp . Fp
Oración 5
Los el da0mp0 el da0mp0
franceses francés ncmp000 - ?
usan usar vmip3p0 usar vmip3p0
la el da0fs0 el da0fs0
palabra palabra ncfs000 palabra ncfs000
fe Fe
toucher toucher nc00000 - ?

54
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
fe Fe
para para sps00 para sps00
fe Fe
cobrar cobrar nc00000 cobrar vmn0000
fe Fe
. . fp . Fp
Oración 6
Y y cc y cc
el el da0ms0 el da0ms0
tremendo tremendo aq0ms0 - ?
atasco atasco ncms000 atasco ncms000
, , fc , Fc
aunque aunque cs aunque cs
ensayado ensayado aq0msp ensayado aq0msp
previamente previamente rg previamente rg
en en sps00 en sps00
múltiples múltiple aq0cp0 múltiple aq0cp0
ocasiones ocasión ncfp000 ocasión ncfp000
, , fc , Fc
solamente solamente rg solamente rg
ahora ahora rg ahora rg
se él pp3cn000 él p0300000
mostraba mostrar vmii3s0 mostrar vmii3s0
en en sps00 en sps00
su su dp3cs0 su dp3cs0
implacable implacable aq0cs0 - ?
crudeza crudeza ncfs000 - ?
y y cc y cc
duración duración ncfs000 duración ncfs000
imprevisible imprevisible aq0cs0 - ?
. . fp . Fp
Oración 7
Y y cc y cc
es ser vsip3s0 ser vsip3s0
que que cs que cs
el el da0ms0 el da0ms0
humor humor ncms000 humor ncms000
es ser vsip3s0 ser vsip3s0
una uno di0fs0 uno di0fs0
de de sps00 de sps00
las el da0fp0 el da0fp0
mercancías mercancía ncfp000 mercancía ncfp000
literarias literario aq0fp0 literario aq0fp0
que que pr0cn000 que pr0cn000
más más rg más rg
difícilmente difícilmente rg difícilmente rg
conservan conservar vmip3p0 conservar vmip3p0
su su dp3cs0 su dp3cs0
frescura frescura ncfs000 - ?
. . fp . Fp
Oración 8
Apartó apartar vmis3s0 apartar vmis3s0

55
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
con con sps00 con sps00
sumo sumo aq0ms0 sumo aq0ms0
cuidado cuidado ncms000 cuidado aq0msp
el el da0ms0 el da0ms0
juego juego ncms000 juego ncms000
de de sps00 de sps00
tocador tocador ncms000 - ?
, , fc , Fc
un uno di0ms0 uno di0ms0
regalo regalo ncms000 regalo ncms000
de de sps00 de sps00
su su dp3cs0 su dp3cs0
abuela abuela ncfs000 abuela ncfs000
cuya cuyo pr0fs000 cuyo pr0fs000
función función ncfs000 función ncfs000
no no rn no rn
había haber vaii3s0 haber vaii3s0
pasado pasar vmp00sm pasar vmp00sm
nunca nunca rg nunca rg
de de sps00 de sps00
la el da0fs0 el da0fs0
dudosamente dudosamente rg - ?
decorativa decorativo aq0fs0 decorativo aq0fs0
. . fp . Fp
Oración 9
En_vez_de en_vez_de sps00 * *
los el da0mp0 el da0mp0
tres tres dn0cp0 tres dn0cp0
dones don ncmp000 don ncmp000
del del spcms del spcms
hada hada ncfs000 hada ncfs000
, , fc , Fc
un uno di0ms0 uno di0ms0
seguro seguro ncms000 seguro aq0ms0
contra contra sps00 contra sps00
la el da0fs0 el da0fs0
desilusión desilusión ncfs000 - ?
, , fc , Fc
las el da0fp0 el da0fp0
promesas promesa ncfp000 promesa ncfp000
incumplidas incumplido aq0fpp - ?
, , fc , Fc
el el da0ms0 el da0ms0
descubrimiento descubrimiento ncms000 descubrimiento ncms000
del del spcms del spcms
dolor dolor ncms000 dolor ncms000
- - fg - np00000
que que pr0cn000 que pr0cn000
siempre siempre rg siempre rg
se se p0000000 él p0300000
produce producir vmip3s0 producir vmip3s0
demasiado demasiado rg demasiado di0ms0

56
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
pronto pronto rg pronto rg
- - fg - np00000
, , fc , Fc
el el da0ms0 el da0ms0
hecho hecho ncms000 hecho ncms000
de de sps00 de sps00
que que cs que cs
los el da0mp0 el da0mp0
Reyes_Magos reyes_magos np00000 * *
son ser vsip3p0 ser vsip3p0
los el da0mp0 el da0mp0
papás papá ncmp000 - ?
, , fc , Fc
la el da0fs0 el da0fs0
inesperada inesperado aq0fs0 inesperado aq0fs0
halitosis halitosis ncfn000 - ?
del del spcms del spcms
primer primero ao0ms0 primero ao0ms0
amor amor ncms000 amor ncms000
y y cc y cc
también también rg también rg
las el da0fp0 el da0fp0
películas película ncfp000 película ncfp000
con con sps00 con sps00
finales final ncfp000 final aq0cp0
infelices infeliz aq0cp0 - ?
. . fp . Fp
Oración 10
Gregorio_Marañón gregorio_marañón np00000 Gregorio_Marañón np00000
explica explicar vmip3s0 explicar vmip3s0
en en sps00 en sps00
su su dp3cs0 su dp3cs0
ensayo ensayo ncms000 ensayo ncms000
sobre sobre sps00 sobre sps00
Don_Juan don_juan np00000 * *
que que cs que cs
la el da0fs0 el da0fs0
reacción reacción ncfs000 reacción ncfs000
psicológica psicológico aq0fs0 - ?
específica específico aq0fs0 específico aq0fs0
del del spcms del spcms
varón varón ncms000 varón ncms000
es ser vsip3s0 ser vsip3s0
el el da0ms0 el da0ms0
culto culto ncms000 culto ncms000
del del spcms del spcms
honor honor ncms000 honor ncms000
, , fc , Fc
de de sps00 de sps00
la el da0fs0 él pp3fsa00
honra honra ncfs000 honrar vmip3s0
llevado llevado aq0msp llevado aq0msp

57
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
hasta hasta sps00 hasta sps00
el el da0ms0 el da0ms0
máximo máximo aq0ms0 máximo aq0ms0
sacrificio sacrificio ncms000 sacrificio ncms000
; ; fx ; Fx
si si cs si cs
es ser vsip3s0 ser vsip3s0
necesario necesario aq0ms0 necesario aq0ms0
hasta hasta sps00 hasta sps00
la el da0fs0 el da0fs0
venganza venganza ncfs000 venganza ncfs000
y y cc y cc
el el da0ms0 el da0ms0
crimen crimen ncms000 crimen ncms000
, , fc , Fc
que que cs que cs
el el da0ms0 el da0ms0
honor honor ncms000 honor ncms000
se se p0000000 él p0300000
justifica justificar vmip3s0 justificar vmip3s0
siempre siempre rg siempre rg
fe Fe
. . fp . Fp
Oración 11
¿ ¿ fia ¿ Fia
Hay haber vaip3s0 haber vaip3s0
vida vida ncfs000 vida ncfs000
en en sps00 en sps00
alguna alguno di0fs0 alguno di0fs0
galaxia galaxia ncfs000 - ?
? ? fit ? Fit
Y y cc y cc
ovnis ovni ncmp000 - ?
en en sps00 en sps00
Barbastro barbastro np00000 Barbastro np00000
. . fp . Fp
- - fg * *
- - fg * *
Oración 12
Son ser vsip3p0 ser vsip3p0
tan tanto rg tan rg
raros raro aq0mp0 raro aq0mp0
, , fc , Fc
los el da0mp0 el da0mp0
hombres hombre ncmp000 hombre ncmp000
. . fp . Fp
Oración 13
Son ser vsip3p0 ser vsip3p0
moléculas molécula ncfp000 molécula ncfp000
capaces capaz aq0cp0 capaces aq0cp0
de de sps00 de sps00
transferencia transferencia ncfs000 transferencia ncfs000

58
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
electrónica electrónico aq0fs0 electrónico aq0fs0
por por sps00 por sps00
sí él pp3cno00 él pp3cnO00
mismas mismo di0fp0 mismo pi0fp000
. . fp . Fp
Oración 14
Esto este pd0ns000 este pd0ns000
pasa pasar vmip3s0 pasar vmip3s0
en en sps00 en sps00
las el da0fp0 el da0fp0
familias familia ncfp000 familia ncfp000
donde donde pr000000 donde pr000000
el el da0ms0 el da0ms0
padre padre ncms000 padre ncms000
lo él pp3msa00 él pp3msa00
gana ganar vmip3s0 ganar vmip3s0
, , fc , Fc
o o cc o cc
donde donde pr000000 donde pr000000
padre padre ncms000 padre ncms000
y y cc y cc
madre madre ncfs000 madre ncfs000
trabajan trabajar vmip3p0 trabajar vmip3p0
; ; fx ; Fx
pero pero cc pero cc
cada cada di0cs0 cada di0cs0
vez vez ncfs000 vez ncfs000
hay haber vaip3s0 haber vaip3s0
más más rg más rg
familias familia ncfp000 familia ncfp000
donde donde pr000000 donde pr000000
el el da0ms0 el da0ms0
abuelo abuelo ncms000 abuelo ncms000
es ser vsip3s0 ser vsip3s0
el el da0ms0 el da0ms0
único único aq0ms0 único aq0ms0
que que pr0cn000 que pr0cn000
tiene tener vmip3s0 tener vmip3s0
un uno di0ms0 uno di0ms0
trabajo trabajo ncms000 trabajo ncms000
fijo fijo aq0ms0 fijo aq0ms0
. . fp . Fp
Oración 15
En en sps00 en sps00
1903 [??:??/??/1903:??.?? w en z
]
fundó fundar vmis3s0 fundar vmis3s0
su su dp3cs0 su dp3cs0
primera primero ao0fs0 primero ao0fs0
compañía compañía ncfs000 compañía ncfs000
con con sps00 con sps00
doce doce dn0cp0 doce dn0cp0

59
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
socios socio ncmp000 socio ncmp000
. . fp . Fp
Oración 16
Y y cc y cc
en en sps00 en sps00
la el da0fs0 el da0fs0
mayor mayor aq0cs0 mayor aq0cs0
parte parte ncfs000 parte ncfs000
de de sps00 de sps00
la el da0fs0 el da0fs0
prensa prensa ncfs000 prensa ncfs000
española español aq0fs0 español aq0fs0
, , fc , Fc
ni ni cc ni cc
aparece aparecer vmip3s0 aparecer vmip3s0
. . fp . Fp
Oración 17
El el da0ms0 el da0ms0
investigador investigador ncms000 investigador ncms000
que que pr0cn000 que pr0cn000
nunca nunca rg nunca rg
descubre descubrir vmip3s0 descubrir vmip3s0
nada nada pi0cs000 nada pi0cs000
que que pr0cn000 que pr0cn000
no no rn no rn
se se p0000000 él p0300000
populariza popularizar vmip3s0 - ?
gracias_a gracias_a sps00 gracias_a sps00
algún alguno di0ms0 algún di0ms0
descubrimiento descubrimiento ncms000 descubrimiento ncms000
suficientemente suficientemente rg suficientemente rg
espectacular espectacular aq0cs0 espectacular aq0cs0
que que pr0cn000 que cs
lo él pp3msa00 él pp3msa00
haga hacer vmsp3s0 hacer vmsp3s0
aparecer aparecer vmn0000 aparecer vmn0000
en en sps00 en sps00
algún alguno di0ms0 algún di0ms0
magazine magazine ncms000 - ?
televisivo televisivo aq0ms0 televisivo aq0ms0
, , fc , Fc
va ir vmip3s0 ir vmip3s0
perdiendo perder vmg0000 perder vmg0000
las el da0fp0 el da0fp0
fuentes fuente ncfp000 fuente ncfp000
de de sps00 de sps00
financiación financiación ncfs000 financiación ncfs000
. . fp . Fp
Oración 18
Los el da0mp0 el da0mp0
nacionalistas nacionalista nccp000 nacionalista aq0cp0
, , fc , Fc

60
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
que que pr0cn000 que pr0cn000
son ser vsip3p0 ser vsip3p0
los el da0mp0 el da0mp0
garantes garante nccp000 - ?
de de sps00 de sps00
este este dd0ms0 este dd0ms0
decrépito decrépito aq0ms0 - ?
Ejecutivo ejecutivo np00000 ejecutivo aq0ms0
, , fc , Fc
esperan esperar vmip3p0 esperar vmip3p0
los el da0mp0 el da0mp0
resultados resultado ncmp000 resultado ncmp000
del del spcms del spcms
día_12 [??:12/??/??:??.??] w * *
. . fp . Fp
Oración 19
Miré mirar vmis1s0 mirar vmis1s0
alrededor alrededor rg alrededor rg
, , fc , Fc
y y cc y cc
los el da0mp0 el da0mp0
invitados invitado ncmp000 invitar aq0mpp
, , fc , Fc
con con sps00 con sps00
los el da0mp0 el da0mp0
carrillos carrillo ncmp000 - ?
llenos lleno aq0mp0 lleno aq0mp0
, , fc , Fc
seguían seguir vmii3p0 seguir vmii3p0
gastándose gastar vmg0000 - ?
bromas broma ncfp000 broma ncfp000
. . fp . Fp
Oración 20
Finalmente Finalmente rg finalmente rg
, , fc , Fc
el el da0ms0 el da0ms0
autor autor ncms000 autor ncms000
da dar vmip3s0 dar vmip3s0
a a sps00 a sps00
entender entender vmn0000 entender vmn0000
que que cs que cs
la el da0fs0 el da0fs0
pareja pareja ncfs000 pareja ncfs000
se él p0300000 él p0300000
dedicaba dedicar vmii3s0 dedicar vmii3s0
a a sps00 a sps00
hacer hacer vmn0000 hacer vmn0000
siempre siempre rg siempre rg
el el da0ms0 el da0ms0
mismo mismo di0ms0 mismo di0ms0
número número ncms000 número ncms000
: : fd : Fd

61
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
fe Fe
Entendí entender vmis1s0 entender vmis1s0
al_fin al_fin rg * *
que que cs que pr0cn000
en en sps00 en sps00
aquel aquel dd0ms0 aquel dd0ms0
asunto asunto ncms000 asunto ncms000
yo yo pp1csn00 yo pp1csn00
no no rn no rn
había haber vaii1s0 haber vaii3s0
sido ser vsp00sm ser vsp00sm
un uno di0ms0 uno di0ms0
elemento elemento ncms000 elemento ncms000
pasivo pasivo aq0ms0 pasivo aq0ms0
, , fc , Fc
un uno di0ms0 uno di0ms0
eslabón eslabón ncms000 eslabón ncms000
más más rg más rg
en en sps00 en sps00
una uno di0fs0 uno di0fs0
cadena cadena ncfs000 cadena ncfs000
fe Fe
. . fp . Fp
Oración 21
Su su dp3cs0 su dp3cs0
vibración vibración ncfs000 vibración ncfs000
desguaza desguazar vmip3s0 - ?
sin sin sps00 sin sps00
cuidado cuidado ncms000 cuidado aq0msp
la el da0fs0 el da0fs0
estabilidad estabilidad ncfs000 estabilidad ncfs000
de de sps00 de sps00
lo el da0ns0 el da0ns0
dulce dulce aq0cs0 dulce aq0cs0
y y cc y cc
la el da0fs0 el da0fs0
sincera sincero aq0fs0 sincero aq0fs0
determinación determinación ncfs000 determinación ncfs000
de de sps00 de sps00
lo el da0ns0 el da0ns0
amargo amargo aq0ms0 amargo aq0ms0
. . fp . Fp
Oración 22
Prefiere preferir vmip3s0 preferir vmip3s0
los el da0mp0 el da0mp0
decorados decorado ncmp000 decorar aq0mpp
que que pr0cn000 que pr0cn000
contribuyen contribuir vmip3p0 contribuir vmip3p0
a a sps00 a sps00
dar dar vmn0000 dar vmn0000
sensación sensación ncfs000 sensación ncfs000
de de sps00 de sps00

62
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
realidad realidad ncfs000 realidad ncfs000
a a sps00 a sps00
la el da0fs0 el da0fs0
escena escena ncfs000 escena ncfs000
, , fc , Fc
y y cc y cc
si si cs si cs
se se p0000000 él p0300000
trata tratar vmip3s0 tratar vmip3s0
de de sps00 de sps00
ambientar ambientar vmn0000 - ?
una uno di0fs0 uno di0fs0
obra obra ncfs000 obra ncfs000
moderna moderno aq0fs0 moderno aq0fs0
, , fc , Fc
detesta detestar vmip3s0 - ?
las el da0fp0 el da0fp0
composiciones composición ncfp000 composición ncfp000
con con sps00 con sps00
planos plano ncmp000 plano ncmp000
geométricos geométrico aq0mp0 geométrico aq0mp0
( ( fpa ( Fpa
se él p0300000 él p0300000
refiere referir vmip3s0 referir vmip3s0
al al spcms al spcms
auge auge ncms000 auge ncms000
del del spcms del spcms
expresionismo expresionismo ncms000 - ?
y y cc y cc
el el da0ms0 el da0ms0
cubismo cubismo ncms000 - ?
) ) fpt ) Fpt
. . fp . Fp
Oración 23
Cada cada di0cs0 cada di0cs0
pliegue pliegue ncms000 - ?
es ser vsip3s0 ser vsip3s0
una uno di0fs0 uno di0fs0
herida herida ncfs000 herir aq0fsp
definitiva definitivo aq0fs0 definitivo aq0fs0
sin sin sps00 sin sps00
remedio remedio ncms000 remedio ncms000
o o cc o cc
lenitivo lenitivo ncms000 - ?
. . fp . Fp
Oración 24
Antonia antonia np00000 Antonia np00000
colocó colocar vmis3s0 colocar vmis3s0
la el da0fs0 el da0fs0
mano mano ncfs000 mano ncfs000
a a sps00 a sps00
contraluz contraluz nccs000 - ?

63
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
y y cc y cc
observó observar vmis3s0 observar vmis3s0
cómo cómo pt000000 cómo pt000000
la el da0fs0 el da0fs0
carne carne ncfs000 carne ncfs000
se él p0300000 él p0300000
ponía poner vmii3s0 poner vmii3s0
roja rojo aq0fs0 roja ncfs000
y y cc y cc
un uno di0ms0 uno di0ms0
poco poco pi0ms000 poco pi0ms000
transparente transparente aq0cs0 transparente aq0cs0
. . fp . Fp
Oración 25
Apartó apartar vmis3s0 apartar vmis3s0
con con sps00 con sps00
sumo sumo aq0ms0 sumo aq0ms0
cuidado cuidado ncms000 cuidado aq0msp
el el da0ms0 el da0ms0
juego juego ncms000 juego ncms000
de de sps00 de sps00
tocador tocador ncms000 - ?
, , fc , Fc
un uno di0ms0 uno di0ms0
regalo regalo ncms000 regalo ncms000
de de sps00 de sps00
su su dp3cs0 su dp3cs0
abuela abuela ncfs000 abuela ncfs000
cuya cuyo pr0fs000 cuyo pr0fs000
función función ncfs000 función ncfs000
no no rn no rn
había haber vaii3s0 haber vaii3s0
pasado pasar vmp00sm pasar vmp00sm
nunca nunca rg nunca rg
de de sps00 de sps00
la el da0fs0 el da0fs0
dudosamente dudosamente rg - ?
decorativa decorativo aq0fs0 decorativo aq0fs0
. . fp . Fp
Oración 26
Agudísima agudísimo aq0fs0 Agudísima np00000
observación observación ncfs000 observación ncfs000
de de sps00 de sps00
míster míster ncms000 - ?
Chaplin chaplin np00000 Chaplin np00000
, , fc , Fc
que que pr0cn000 que pr0cn000
sabe saber vmip3s0 saber vmip3s0
que que cs que cs
, , fc , Fc
pese_a pese_a sps00 pese_a sps00
todos todo di0mp0 todo di0mp0

64
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
los el da0mp0 el da0mp0
reconocimientos reconocimiento ncmp000 reconocimiento ncmp000
, , fc , Fc
los el da0mp0 el da0mp0
homenajes homenaje ncmp000 - ?
, , fc , Fc
los el da0mp0 el da0mp0
aplausos aplauso ncmp000 aplauso ncmp000
dedicados dedicado aq0mpp dedicar aq0mpp
al al spcms al spcms
payaso payaso ncms000 - ?
, , fc , Fc
el el da0ms0 el da0ms0
hombre hombre ncms000 hombre ncms000
serio serio aq0ms0 serio aq0ms0
o o cc o cc
el el da0ms0 el da0ms0
que que pr0cn000 que pr0cn000
sonríe sonreír vmip3s0 sonreír vmip3s0
a a sps00 a sps00
la el da0fs0 el da0fs0
muchedumbre muchedumbre ncfs000 muchedumbre ncfs000
solamente solamente rg solamente rg
para para sps00 para sps00
promocionarse promocionar vmn0000 promocionar vmn0000
es ser vsip3s0 ser vsip3s0
siempre siempre rg siempre rg
más más rg más rg
respetado respetar vmp00sm respetado aq0msp
que que cs que cs
el el da0ms0 el da0ms0
que que pr0cn000 que pr0cn000
hace hacer vmip3s0 hacer vmip3s0
reír reír vmn0000 reír vmn0000
. . fp . Fp
Oración 27
Ya ya rg ya rg
me yo pp1cs000 me pp1cs000
imaginaba imaginar vmii3s0 imaginar vmii3s0
yo yo pp1csn00 yo pp1csn00
que que cs que pr0cn000
era ser vsii3s0 ser vsii1s0
gente gente ncfs000 gente ncfs000
humilde humilde aq0cs0 humilde aq0cs0
, , fc , Fc
pero pero cc pero cc
, , fc , Fc
conociendo conocer vmg0000 conocer vmg0000
la el da0fs0 el da0fs0
vivienda vivienda ncfs000 vivienda ncfs000
, , fc , Fc
era ser vsii3s0 ser vsii1s0

65
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
peor peor aq0cs0 peor aq0cs0
que que cs que pr0cn000
eso ese pd0ns000 ese pd0ns000
. . fp . Fp
Oración 28
Y y cc y cc
es ser vsip3s0 ser vsip3s0
que que cs que cs
el el da0ms0 el da0ms0
progreso progreso ncms000 progreso ncms000
de de sps00 de sps00
nuestra nuestro dp1fsp nuestro dp1fsp
descomposición descomposición ncfs000 - ?
es ser vsip3s0 ser vsip3s0
la el da0fs0 el da0fs0
menos menos rg menos rg
ocultable ocultable aq0cs0 - ?
de de sps00 de sps00
las el da0fp0 el da0fp0
incidencias incidencia ncfp000 incidencia ncfp000
de de sps00 de sps00
nuestra nuestro dp1fsp nuestro dp1fsp
vida vida ncfs000 vida ncfs000
: : fd : Fd
todos todo pi0mp000 todo di0mp0
empeoramos empeorar vmip1p0 - ?
a_ojos_vistas a_ojos_vistas rg * *
a_partir_de a_partir_de sps00 * *
cierta cierto aq0fs0 cierta di0fs0
edad edad ncfs000 edad ncfs000
muy mucho rg mucho rg
temprana temprano aq0fs0 temprano aq0fs0
, , fc , Fc
o o cc o cc
quizá quizá rg quizá rg
, , fc , Fc
si si cs si cs
Freud freud np00000 Freud np00000
no no rn no rn
miente mentir vmip3s0 - ?
, , fc , Fc
a_partir_de a_partir_de sps00 * *
nuestra nuestro dp1fsp nuestro dp1fsp
fecha fecha ncfs000 fecha ncfs000
de de sps00 de sps00
nacimiento nacimiento ncms000 nacimiento ncms000
. . fp . Fp
Oración 29
Lo el da0ns0 el da0ns0
malo malo aq0ms0 malo aq0ms0
de de sps00 de sps00
la el da0fs0 el da0fs0

66
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
mayoría mayoría ncfs000 mayoría ncfs000
de de sps00 de sps00
nuestras nuestro dp1fpp nuestro dp1fpp
más más rg más rg
caras caro aq0fp0 caro aq0fp0
ilusiones ilusión ncfp000 ilusión ncfp000
es ser vsip3s0 ser vsip3s0
que que cs que cs
comienzan comenzar vmip3p0 comenzar vmip3p0
como como cs como cs
proyectos proyecto ncmp000 proyecto ncmp000
, , fc , Fc
luego luego rg luego rg
se él p0300000 él p0300000
convierten convertir vmip3p0 convertir vmip3p0
en en sps00 en sps00
deberes deber ncmp000 deberes ncmp000
y y cc y cc
terminan terminar vmip3p0 terminar vmip3p0
siendo ser vsg0000 ser vsg0000
tareas tarea ncfp000 tarea ncfp000
obligatorias obligatorio aq0fp0 obligatorio aq0fp0
cuyo cuyo pr0ms000 cuyo pr0ms000
descuido descuido ncms000 descuidar vmip1s0
está estar vmip3s0 estar vmip3s0
legalmente legalmente rg legalmente rg
penado penado aq0msp - ?
. . fp . Fp
Oración 30
De_otro_lado de_otro_lado rg de_otro_lado rg
, , fc , Fc
las el da0fp0 el da0fp0
propiedades propiedad ncfp000 propiedad ncfp000
conductoras conductor aq0fp0 - ?
de de sps00 de sps00
los el da0mp0 el da0mp0
materiales material ncmp000 material ncmp000
moleculares molecular aq0cp0 molecular aq0cp0
se él p0300000 él p0300000
ven ver vmip3p0 ver vmip3p0
muy mucho rg mucho rg
afectadas afectado aq0fpp afectar aq0fpp
por por sps00 por sps00
las el da0fp0 el da0fp0
interacciones interacción ncfp000 interacción ncfp000
entre entre sps00 entre sps00
los el da0mp0 el da0mp0
sistemas sistema ncmp000 sistema ncmp000
electrónicos electrónico aq0mp0 electrónico aq0mp0
y y cc y cc
las el da0fp0 el da0fp0
vibraciones vibración ncfp000 vibración ncfp000

67
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
del del spcms del spcms
retículo retículo ncms000 - ?
cristalino cristalino aq0ms0 cristalino aq0ms0
, , fc , Fc
llegando llegar vmg0000 llegar vmg0000
en en sps00 en sps00
el el da0ms0 el da0ms0
caso caso ncms000 caso ncms000
extremo extremo aq0ms0 extremo aq0ms0
a a sps00 a sps00
producirse producir vmn0000 producir vmn0000
a a sps00 a sps00
bajas bajo aq0fp0 bajo aq0fp0
temperaturas temperatura ncfp000 temperatura ncfp000
( ( fpa ( Fpa
próximas próximo aq0fp0 próximo aq0fp0
al al spcms al spcms
cero cero ncms000 cero dn0cp0
absoluto absoluto aq0ms0 absoluto aq0ms0
) ) fpt ) Fpt
una uno di0fs0 uno di0fs0
distorsión distorsión ncfs000 distorsión ncfs000
del del spcms del spcms
retículo retículo ncms000 - ?
( ( fpa ( Fpa
transición transición ncfs000 transición ncfs000
de de sps00 de sps00
Peierls peierls np00000 Peierls np00000
) ) fpt ) Fpt
acompañada acompañado aq0fsp acompañar aq0fsp
de de sps00 de sps00
una uno di0fs0 uno di0fs0
transición transición ncfs000 transición ncfs000
del del spcms del spcms
comportamiento comportamiento ncms000 comportamiento ncms000
metálico metálico aq0ms0 metálico aq0ms0
a a sps00 a sps00
aislante aislante aq0cs0 - ?
. . fp . Fp

68
Apéndice C: Lista de palabras no etiquetadas
Palabra Frecuencia Palabra Frecuencia
tocador 2 populariza 1
dudosamente 2 magazine 1
retículo 2 garantes 1
planchaban 1 decrépito 1
planchar 1 carrillos 1
parafina 1 gastándose 1
desahogarse 1 desguaza 1
gravitacional 1 ambientar 1
mirilla 1 detesta 1
turbia 1 expresionismo 1
franceses 1 cubismo 1
toucher 1 pliegue 1
tremendo 1 lenitivo 1
implacable 1 contraluz 1
crudeza 1 míster 1
imprevisible 1 homenajes 1
frescura 1 payaso 1
sobrantes 1 descomposición 1
cosiendo 1 ocultable 1
desilusión 1 empeoramos 1
incumplidas 1 miente 1
papás 1 penado 1
halitosis 1 conductoras 1
infelices 1 reponer 1
psicológica 1 Aislante 1
galaxia 1
ovnis 1

69
Apéndice D: Etiquetado correcto de las palabras desconocidas

Palabra Lema Etiqueta Palabra Lema Etiqueta


desconocida correcto correcta desconocida correcto correcta
sobrantes sobrante aq0cp0 garantes garante nccp000
cosiendo coser vmg0000 decrépito decrépito aq0ms0
reponer reponer vmn0000 carrillos carrillo ncmp000
planchaban planchar vmii3p0 gastándose gastar vmg0000
planchar planchar vmn0000 desguaza desguazar vmip3s0
parafina parafina ncfs000 ambientar ambientar vmn0000
desahogarse desahogar vmn0000 detesta detestar vmip3s0
gravitacional gravitacional aq0cs0 expresionismo expresionismo ncms000
mirilla mirilla ncfs000 cubismo cubismo ncms000
turbia turbio aq0fs0 pliegue pliegue ncms000
franceses francés ncmp000 lenitivo lenitivo ncms000
toucher toucher nc00000 contraluz contraluz nccs000
tremendo tremendo aq0ms0 tocador tocador ncms000
implacable implacable aq0cs0 dudosamente dudosamente rg
crudeza crudeza ncfs000 míster míster ncms000
imprevisible imprevisible aq0cs0 homenajes homenaje ncmp000
frescura frescura ncfs000 payaso payaso ncms000
tocador tocador ncms000 descomposición descomposición ncfs000
dudosamente dudosamente rg ocultable ocultable aq0cs0
desilusión desilusión ncfs000 empeoramos empeorar vmip1p0
incumplidas incumplido aq0fpp miente mentir vmip3s0
papás papá ncmp000 penado penado aq0msp
halitosis halitosis ncfn000 conductoras conductor aq0fp0
infelices infeliz aq0cp0 retículo retículo ncms000
psicológica psicológico aq0fs0 retículo retículo ncms000
galaxia galaxia ncfs000 aislante aislante aq0cs0
ovnis ovni ncmp000
populariza popularizar vmip3s0
magazine magazine ncms000

70
Apéndice E: Guía de etiquetado

1. Adjetivos
Adjetivos
Pos. Atributo Valor Código
1 Categoría Adjetivo A
2 Tipo Calificativo Q
3 Grado Apreciativo A
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso - 0
7 Función Participio P
2. Adverbios
Adverbios
Pos. Atributo Valor Código
1 Categoría Adverbio R
2 Tipo General G
3 - - 0
4 - - 0
5 - - 0
3. Artículos
Artículos
Pos. Atributo Valor Código
1 Categoría Artículo T
2 Tipo Definido D
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
5 Caso - 0

71
4. Determinantes
Determinantes
Pos. Atributo Valor Código
1 Categoría Determinante D
2 Tipo Demostrativo D
Posesivo P
Interrogativo T
Exclamativo E
Indefinido I
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso - 0
7 Poseedor 1ª persona-sg 1
2ª persona-sg 2
3ª persona 0
1ª persona-pl 4
2ª persona-pl 5
5. Nombres
Nombres
Pos. Atributo Valor Código
1 Categoría Nombre N
2 Tipo Común C
Propio P
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N
5 Caso - 0
6 Género semántico - 0
7 Grado Apreciativo A

72
6. Verbos
Verbos
Pos. Atributo Valor Código
1 Categoría Verbo V
2 Tipo Principal M
Auxiliar A
3 Modo Indicativo I
Subjuntivo S
Imperativo M
Condicional C

Infinitivo N
Gerundio G
Participio P
4 Tiempo Presente P
Imperfecto I
Futuro F
Pasado S
5 Persona Primera 1
Segunda 2
Tercera 3
6 Número Singular S
Plural P
7 Género Masculino M
Femenino F

73
7. Pronombres
Pronombres
Pos. Atributo Valor Código
1 Categoría Pronombre P
2 Tipo Personal P
Demostrativo D
Posesivo X
Indefinido I
Interrogativo T
Relativo R
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso Nominativo N
Acusativo A
Dativo D
Oblicuo O
7 Poseedor 1ª persona-sg 1
2ª persona-sg 2
3ª persona 0
1ª persona-pl 4
2ª persona-pl 5
8 Politeness Polite P
8. Conjunciones
Conjunciones
Pos. Atributo Valor Código
1 Categoría Conjunción C
2 Tipo Coordinada C
Subordinada S
3 - - 0
4 - - 0

74
9. Numerales
Numerales
Pos. Atributo Valor Código
1 Categoría Numeral M
2 Tipo Cardinal C
Ordinal O
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
5 Caso - 0
6 Función Pronominal P
Determinante D
Adjetivo A
10. Interjecciones
Interjecciones
Pos. Atributo Valor Código
1 Categoría Interjección I
11. Abreviaturas
Abreviaturas
Pos. Atributo Valor Código
1 Categoría Abreviatura Y
12. Preposiciones
Preposiciones
Pos. Atributo Valor Código
1 Categoría Adposición S
2 Tipo Preposición P
3 Forma Simple S
Contraída C
3 Género Masculino M
4 Número Singular S
13. Signos de puntuación
Signos de puntuación
Pos. Atributo Valor Código
1 Categoría Puntuación F

75

S-ar putea să vă placă și