Documente Academic
Documente Profesional
Documente Cultură
a la traducción
José Ignacio Perea Sardón
Procesos de traducción e interpretación:
Período de Investigación Tutelada
Granada 2005
1. Introducción ...........................................................................................................................................1
1.1. Algunas definiciones previas...................................................................................................1
1.2. Etiquetadores morfosintácticos ...............................................................................................1
1.3. Aplicaciones de los etiquetadores morfosintácticos .............................................................3
1.4. Conjuntos de etiquetas..............................................................................................................4
1.5. Algoritmos de etiquetado.........................................................................................................4
1.5.1. Métodos estadísticos........................................................................................................5
1.5.2. Métodos basados en el aprendizaje de la máquina.....................................................6
1.5.3. Métodos lingüísticos........................................................................................................7
1.5.4. Métodos híbridos .............................................................................................................7
1.6. Ambigüedades en el español ...................................................................................................8
1.7. Etiquetadores desarrollados para el español .......................................................................10
2. Aplicación de los etiquetadores a la traducción..............................................................................13
3. Desarrollo de un etiquetador: PETRA Tag I ....................................................................................14
3.1. Extracción de los elementos del texto ...................................................................................14
3.2. Etiquetado de las palabras .....................................................................................................17
3.3. Aplicación de un modelo de objetos a PETRA Tag I ..........................................................28
3.3.1. Propiedades ....................................................................................................................30
3.3.2. Métodos...........................................................................................................................31
3.4. Ampliación del diccionario ....................................................................................................33
3.5. Evaluación de los resultados..................................................................................................35
3.5.1. Palabras no etiquetadas ................................................................................................38
3.5.2. Palabras etiquetadas incorrectamente.........................................................................39
3.5.3. Mejora de los resultados ...............................................................................................40
3.6. Utilidad de ejemplo.................................................................................................................42
3.7. Otras aplicaciones....................................................................................................................43
3.7.1. Búsqueda de secuencias................................................................................................43
3.7.2. Comprobación de concordancias.................................................................................43
4. Conclusiones ........................................................................................................................................45
5. Bibliografía ...........................................................................................................................................48
Apéndices .................................................................................................................................................50
Apéndice A: Oraciones para la evaluación del etiquetador .....................................................51
Apéndice B: Fragmento de ejemplo (comparación)...................................................................53
Apéndice C: Lista de palabras no etiquetadas............................................................................69
Apéndice D: Etiquetado correcto de las palabras desconocidas..............................................70
Apéndice E: Guía de etiquetado...................................................................................................71
1. Introducción
1
entrada en un diccionario. Los motivos del desarrollo de estos etiquetadores
son básicamente dos:
• La tarea de etiquetado está muy bien definida, por lo que resulta fácil de
automatizar, ya que el conjunto de conocimientos necesarios para realizarla es
relativamente fácil de introducir y programar en un ordenador.
• La asignación de las categorías gramaticales y los lemas de un texto es la base un
gran número de aplicaciones más complejas como, por ejemplo, el análisis
sintáctico de una oración que, a su vez, resulta extremadamente útil para otros
sistemas, como los de traducción automática, entre otros (véase § 1.3).
• Debe ser posible eliminar las etiquetas añadidas a un texto anotado y recuperar el
texto original sin que éste sufra modificación alguna.
• Debería ser posible también extraer las anotaciones de los textos y almacenarlas de
forma independiente, por ejemplo en una base de datos relacional o en líneas
paralelas al texto original.
• El sistema de anotación usado debe estar basado en unas directrices
documentadas y accesibles al usuario final del corpus, de modo que pueda
acceder tanto a un listado completo de las etiquetas como a las decisiones
tomadas en el proceso de etiquetación.
• Debe ser posible incluir información sobre la autoría de la codificación del texto,
de forma que sea posible saber si se ha realizado a mano (y por quién) o si se ha
realizado de forma automática con o sin revisión posterior de un lingüista.
• Se debe hacer al usuario final consciente de que las anotaciones añadidas al corpus
no son infalibles, sino que simplemente constituyen una herramienta de ayuda
para el análisis.
• Los sistemas de anotación han de estar basados, en la medida de lo posible, en
principios teóricamente neutrales y sobre los que exista un acuerdo amplio en el
seno de la comunidad científica.
• Ningún sistema de anotación posee, a priori, el derecho de ser considerado
estándar. Los estándares, cuando existen, se desarrollan por el consenso de los
usuarios.
2
1.3. Aplicaciones de los etiquetadores morfosintácticos
Los etiquetadores son la base de un gran número de aproximaciones al
procesamiento del lenguaje natural, entre los que cabe citar los cinco siguientes:
a) Análisis sintáctico.
b) Lingüística de corpus.
c) Extracción automática de terminología.
d) Traducción automática y asistida; como ejemplo, el etiquetador descrito en
Farwell et al. (1995) es un componente del sistema de traducción asistida
Pangloss.
e) Extracción y recuperación de información (por ejemplo, clasificación de
documentos en buscadores de Internet).
3
1.4. Conjuntos de etiquetas
Los etiquetadores creados hasta el momento utilizan distintos repertorios de
etiquetas. Entre ellos podemos citar C5 tagset, C6 tagset, C7 tagset y CLAWS1,
CLAWS2, CLAWS5 y CLAWS7. El proyecto EAGLES establece una serie de
criterios para codificar la información morfosintáctica. Esta codificación
pretende ser un estándar para todas las lenguas europeas, por lo que recoge
todos los posibles accidentes gramaticales existentes. En consecuencia, hay
valores de ciertos atributos en blanco para algunas lenguas porque solo son
relevantes en otras. No obstante, un sistema común de etiquetas permite
comparar lenguas. Destacan los esfuerzos de la Text Encoding Initiative (TEI),
un proyecto internacional dedicado al desarrollo de directrices para la
codificación de textos en formato electrónico destinados a la investigación (web
oficial, http://www.tei-c.org/) .
Una nota respecto al formato de representación. Se suele elegir XML para
almacenar las anotaciones. Hay varios corpus etiquetados con el EAGLES XML
Corpus Encoding Standard (XCES), una aplicación XML diseñada
específicamente para corpus lingüísticos y sus anotaciones (Ide 2004). Las
anotaciones, en este caso, se guardan en documentos aparte de los datos
originales pero vinculados a ellos, lo que facilita no sólo realizar diferentes tipos
de anotaciones solapadas, sino también comparar resultados de diferentes
sistemas o esquemas.
A primera vista, podemos observar que hay varias palabras que, consideradas
aisladamente, pueden pertenecer a varias categorías morfosintácticas. Por
ejemplo, ayuda puede ser un sustantivo femenino singular o bien un verbo, en
cuyo caso, además, podría corresponder a varios tiempos y personas verbales:
4
imperativo, presente, etc. No basta, por tanto, con disponer de un almacén con
todas las palabras y sus correspondientes etiquetas, para después limitarse a
extraer la información correspondiente a cada etiqueta. En muchas ocasiones, es
necesario escoger la etiqueta adecuada. La mayoría de los programas palían el
problema basándose en una noción bastante intuitiva: basta tener en cuenta las
palabras que rodean la que deseamos etiquetar para determinar la etiqueta más
adecuada con mayor fiabilidad. Por ejemplo, en el caso anterior, la palabra
ayuda aparece precedida por un determinante posesivo y ello nos inclina a
pensar, aun cuando fuésemos incapaces de conocer nada más acerca del
contexto, que es mucho más probable que sea un sustantivo que un verbo. Con
todos los métodos que se verán a continuación se han conseguido resultados
bastante satisfactorios, sobre todo en el caso del inglés, cuyo etiquetado se ha
estudiado más.
Voutilainen (1995) afirma que la mayoría de etiquetadores estadísticos
tiende a alcanzar una precisión del 95-97%. Curiosamente, no suelen superar
esta barrera, que apenas se ha movido desde que aparecieron en 1983
(Tapanainen 1994:52). Los sistemas híbridos logran una mayor precisión, hasta
el 98,5%. No obstante, métodos lingüísticos son los más precisos, pues alcanzan
el 99,5%, a costa, eso sí, de un alto coste de desarrollo y de dejar cierto
porcentaje de palabras sin etiqueta.
5
errores, alimentar al sistema con estos datos y, así, conseguir una mayor
precisión.
Estos sistemas requieren un mínimo esfuerzo humano. Muchos reducen el
modelo a secuencias de uno, dos o tres elementos (unigramas, bigramas y
trigramas, respectivamente) o bien a una combinación de los mismos. También
se han utilizado con frecuencia modelos ocultos de Markov, que abordan la
desambigüación como un problema de maximización en el que, partiendo de
un conjunto de categorías léxicas y un vocabulario de la aplicación, se intenta
hallar para una oración de entrada la secuencia de categorías léxicas de máxima
probabilidad en el modelo. Entre estos sistemas podemos citar el CLAWS
(Garside et al. 1987), que es la versión probabilística del etiquetador TAGIT.
Church (1988), DeRose (1988) y Cutting et al. (1992) presentan otros ejemplos de
etiquetadores estadísticos.
También se puede ubicar en esta categoría la optimización de funciones de
energía mediante redes neuronales (Schmid 1994) y la aplicación de técnicas de
entropía máxima (Ratnaparkhi 1997). Las redes neuronales distribuyen los
patrones de activación –aprendidos a partir de un texto previamente
etiquetado– a través de los enlaces existentes entre las unidades de una red
mediante un algoritmo de aprendizaje. Estas últimas utilizan el formulismo de
entropía máxima, en el que el objetivo es maximizar la entropía de una
distribución sujeta a determinadas restricciones. Para ello, se estudian
determinados rasgos de un texto previamente etiquetado (por ejemplo, si la
palabra empieza por mayúscula, si contiene números, la etiqueta anterior a la
presente, etc.) y al etiquetar el texto se fuerza a que los rasgos del etiquetado
obtenido se correspondan con los hallados anteriormente.
6
asigna la etiqueta más probable. Otros sistemas adquieren reglas de
restricciones gramaticales a partir de corpus etiquetados. Por último, en los
sistemas que utilizan árboles de decisión, el problema de etiquetado se plantea
como problema de clasificación, de acuerdo con un modelo de lenguaje
constituido por un conjunto de árboles de decisión estadísticos que se
corresponden con ciertas clases de ambigüedad. Teniendo en cuenta estas
clases, las probabilidades léxicas a priori de las palabras se recalculan
dependiendo del camino seguido en el árbol (Márquez 1998).
7
de máquina. Otra posibilidad, como la señalada por Tapanainen (1994:47),
consiste en introducir un etiquetador lingüístico tras uno estadístico, que
resuelve las ambigüedades dejadas por el primer etiquetador.
8
La línea «Total» representa el total de palabras que presentan ambigüedad en el
etiquetado. La línea llamada «1 etiqueta» representa este mismo número de
palabras, restándo el número de palabras que cuentan con una etiqueta mucho
más frecuente. En otras palabras, el área representa el total de palabras
ambiguas que hay en un texto y el área naranja corresponde al error que
cometería un etiquetador básico que sólo tuviera una etiqueta (la más frecuente)
para cada palabra. Los resultados son bastante interesantes, pues los
porcentajes de palabras etiquetadas aumentan rápidamente y se acercan a los
propuestos en la literatura, pero el porcentaje de errores del etiquetador
encargado de asignar una única etiqueta no sólo es muy reducido, sino que
además crece muy lentamente al aumentar el número de palabras. Este gráfico
es importante especialmente como línea base para valorar los resultados de
datos de etiquetadores ya que, si los textos son suficientemente uniformes,
resulta fácil alcanzar buenos resultados con la sencilla aproximación de incluir
la etiqueta más frecuente. Esta aproximación implicaría que no hay palabras
desconocidas para el error y que todas las locuciones se reconocen
correctamente. En resumen, este gráfico muestra que basta con disponer de un
diccionario exhaustivo y con una asignación de etiquetas de fundamento
estadístico para lograr unos resultados aceptables.
35
30
0
218
3852
8768
14476
17363
19266
21797
31572
38374
45715
51228
9
1.7. Etiquetadores desarrollados para el español
A continuación, se especifican las características más importantes de los
etiquetadores automáticos desarrollados para el español.
SMORPH
El sistema SMORPH (Aït-Mokhtar, 1995) es uno de los primeros sistemas de
etiquetado morfosintáctico de textos en español. SMORPH cuenta con un
diccionario fuente, a partir del cual un programa compilador genera un
diccionario compilado binario. Un analizador-generador usa el diccionario
compilado binario para, junto con los textos que se aportan, generar los textos
segmentados y etiquetados. Para el diccionario utiliza tres tipos de datos:
terminaciones, modelos de flexiones y entradas léxicas. Entre las
particularidades de este sistema hay que destacar la inclusión de prefijos y
sufijos y la incorporación de un cierto tratamiento de las palabras desconocidas
(en este caso, a partir de la terminación morfológica) que utiliza para describir
la categoría de la palabra desconocida. En otros aspectos, el sistema resulta
excesivamente rudimentario, pues no aplica ningún tipo de normalización en la
elección de las etiquetas, lo que dificulta su comparación con otros sistemas.
También resulta difícil integrarlo en las aplicaciones desarrolladas, y, lo que es
más grave, plantea el problema de la ambigüedad de las etiquetas pero no lo
resuelve de ninguna manera.
Sistema SMORPH
Plataforma C sobre UNIX en estación SPARC 2
Normalización de etiquetas Inexistente
Sistema de resolución de ambigüedades Inexistente
Velocidad 1000 palabras/segundo
Equipo desarrollador Salah Aït-Mokhtar
José Lázaro Rodrigo Mateos
(Groupe de Rechereche dans les Industries
de la Langue)
SPOST
El sistema SPOST (Farwell, 1995) es otro sistema pionero, ya un poco más
avanzado. SPOST intenta resolver los problemas de ambigüedad que no afronta
10
el sistema anterior mediante una serie de reglas, escritas por un equipo de
lingüistas. Curiosamente, también menciona los métodos estadísticos, pero no
para resolver directamente el problema del etiquetado, sino como herramienta
para determinar las reglas utilizadas, lo cual es un enfoque interesante: en lugar
de confiar directamente en los datos estadísticos, los toma como punto de
partida para extraer conclusiones. También resulta interesante la aplicación a la
que está destinado el programa, en principio, un componente de un sistema de
traducción automática basado en el conocimiento. Además se usa también en
un sistema de extracción de terminología. Otro de los aspectos más acertados de
este etiquetador es su análisis de errores de etiquetado, que muestra claramente
las categorías gramaticales más propensas a generar errores de ambigüedad.
Sistema SPOST
Plataforma Quintus Prolog en estación de trabajo SUN
Normalización de etiquetas Inexistente
Sistema de resolución de ambigüedades Reglas establecidas por lingüistas
Velocidad Desconocida
Equipo desarrollador David Farwell
Stephen Helmreich
Mark Casper
(Computing Research Laboratory)
Etiquetador de XEROX
El etiquetador de XEROX no se diseñó específicamente para el español, sino que
se adaptó al español (León, 1995) para etiquetar la versión española del corpus
de la Unión Internacional de Telecomunicaciones (ITU). Se trata de un
etiquetador mixto, que combina un método estadístico con determinadas reglas
sobre sufijos introducidas por lingüistas. Entre los puntos más interesantes de
este trabajo destaca la explicación sobre el modo en que las características de
diferentes lenguas determinan el método óptimo de etiquetado. Concretamente,
en el caso del español, resulta muy importante su característica de lengua
flexiva, que este sistema utiliza para asignar la etiqueta más probable a las
palabras desconocidas. También destaca por tratar con cierta profundidad su
conjunto de etiquetas. Ya se mencionan las recomendaciones de EAGLES y las
11
directrices de la TEI. A partir de estas normas se desarrolló un etiquetario
completo (479 etiquetas) y otro reducido (174).
TreeTagger + Relax
El etiquetador TreeTagger + Relax (Márquez 1999) es, probablemente, el más
sofisticado que se ha desarrollado para el español. Permite utilizar varias
maneras de resolver las ambigüedades: árboles de decisión estadísticos, con la
posibilidad de utilizar información de n-gramas, restricciones de contexto
aprendidas automáticamente, restricciones lingüísticas confeccionadas por
especialistas, etc.
12
SVMTool
El etiquetador SVMTool (Giménez 2004) realiza el etiquetado morfosintáctico
mediante Support Vector Machines, definido en Giménez (2003) como un
algoritmo de aprendizaje automático de clasificación binaria. Se ha aplicado a
varios problemas de procesamiento del lenguaje natural.
Sistema SVMTool
Plataforma Perl
Normalización de etiquetas Desconocido
Sistema de resolución de ambigüedades Aprendizaje automático
Velocidad 1500 palabras/segundo
Equipo desarrollador Jesús Giménez y Lluís Màrquez
Centro de investigación TALP
(Universidad Politécnica de Cataluña)
13
3. Desarrollo de un etiquetador: PETRA Tag I
1. Extracción de los elementos del texto. Hay que tener en cuenta que
habitualmente un texto no se compone únicamente de palabras, sino que
también incluye otros elementos como números, marcas de formato, etc.
2. Etiquetado de las palabras. Una vez extraídas las palabras es preciso
identificar determinadas características léxicas de las mismas.
14
El procedimiento que extrae las palabras lee uno por uno los caracteres de
un texto y, en función de los caracteres, decide si un elemento es de un tipo u
otro. Esta decisión no puede considerarse universal, ya que no es posible
establecer parámetros válidos para todos los textos. Por ejemplo, en algunos
textos es preferible que el carácter de guión bajo «_» no separe las palabras,
mientras que en otros es mejor considerarlo un signo de puntuación o, incluso,
un espacio. La tabla 1 muestra los caracteres que reconoce PETRA Tag I y cómo
se interpretan:
1
Inspiradas en la codificación del hoy extinto procesador de textos WordPerfect.
15
Carácter
Carácter
Carácter
Carácter
Carácter
Carácter
Carácter
Carácter
Código
Código
Código
Código
Código
Código
Código
Código
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
Tab 9 0 s 115 2 Ç 199 2 ; 59 0 143 0 ã 227 2 W 87 2 « 171 0
" 34 0 v 118 2 Ê 202 2 > 62 0 ' 146 0 æ 230 2 Z 90 2 (r) 174 0
% 37 0 y 121 2 Í 205 2 A 65 2 • 149 0 é 233 2 ] 93 0 ± 177 0
( 40 0 | 124 0 Ð 208 2 D 68 2 ˜ 152 0 ì 236 2 ` 96 0 ´ 180 0
+ 43 0 127 0 Ó 211 2 G 71 2 › 155 0 ï 239 2 c 99 2 · 183 0
. 46 0 ‚ 130 0 Ö 214 2 J 74 2 ž 158 0 ò 242 2 f 102 2 º 186 0
1 49 1 ... 133 0 Ù 217 2 M 77 2 ¡ 161 0 õ 245 2 i 105 2 1/2 189 0
4 52 1 ˆ 136 0 Ü 220 2 P 80 2 ¤ 164 0 ø 248 0 l 108 2 À 192 2
7 55 1 ‹ 139 0 ß 223 2 S 83 2 § 167 0 û 251 2 o 111 2 Ã 195 2
: 58 0 Ž 142 0 â 226 2 V 86 2 ª 170 0 þ 254 0 r 114 2 Æ 198 2
= 61 0 ' 145 0 å 229 2 Y 89 2 - 173 0 ! 33 0 u 117 2 É 201 2
@ 64 0 " 148 0 è 232 2 \ 92 0 ° 176 0 $ 36 0 x 120 2 Ì 204 2
C 67 2 - 151 0 ë 235 2 _ 95 0 ³ 179 0 ' 39 0 { 123 0 Ï 207 2
F 70 2 š 154 0 î 238 2 b 98 2 ¶ 182 0 * 42 0 ~ 126 0 Ò 210 2
I 73 2 157 0 ñ 241 2 e 101 2 ¹ 185 0 - 45 2 129 0 Õ 213 2
L 76 2 160 0 ô 244 2 h 104 2 1/4 188 0 0 48 1 „ 132 0 Ø 216 0
O 79 2 £ 163 0 ÷ 247 0 k 107 2 ¿ 191 0 3 51 1 ‡ 135 0 Û 219 2
R 82 2 ¦ 166 0 ú 250 2 n 110 2 Â 194 2 6 54 1 Š 138 0 Þ 222 2
U 85 2 (c) 169 0 ý 253 0 q 113 2 Å 197 2 9 57 1 141 0 á 225 2
X 88 2 ¬ 172 0 32 0 t 116 2 È 200 2 < 60 0 144 0 ä 228 2
[ 91 0 ¯ 175 0 # 35 0 w 119 2 Ë 203 2 ? 63 0 " 147 0 ç 231 2
^ 94 0 ² 178 0 & 38 0 z 122 2 Î 206 2 B 66 2 - 150 0 ê 234 2
a 97 2 µ 181 0 ) 41 0 } 125 0 Ñ 209 2 E 69 2 (tm) 153 0 í 237 2
d 100 2 ¸ 184 0 , 44 0 € 128 0 Ô 212 2 H 72 2 œ 156 0 ð 240 2
g 103 2 » 187 0 / 47 0 ƒ 131 0 × 215 0 K 75 2 Ÿ 159 0 ó 243 2
j 106 2 3/4 190 0 2 50 1 † 134 0 Ú 218 2 N 78 2 ¢ 162 0 ö 246 2
m 109 2 Á 193 2 5 53 1 ‰ 137 0 Ý 221 2 Q 81 2 ¥ 165 0 ù 249 2
p 112 2 Ä 196 2 8 56 1 Œ 140 0 à 224 2 T 84 2 ¨ 168 0 ü 252 2
ÿ 255 0
Tabla 1. Caracteres reconocidos por el etiquetador y su interpretación.
16
• Números. Cualquier secuencia de caracteres que contiene dígitos. A diferencia de
lo que ocurre con las palabras propiamente dichas, el punto y la coma actúan
como separadores de decimales y de millares y, por tanto, se consideran parte del
número. No se incluyen en esta clase los números escritos en letra como, por
ejemplo, veintinueve, mil, diez, etc. Ejemplos: 0,98, 300, 200, etc.
• Puntuación. Cualquier símbolo o secuencia de símbolos que no sean ni dígitos ni
letras.
• Palabras. Secuencia de letras cuyo inicio y fin viene delimitado por el principio o el
fin del texto, o bien por caracteres que no sean letras.
17
Para agilizar el etiquetado del texto –un importante indicador de
rendimiento del programa– interesa comprobar, primero, si la palabra en
cuestión es una palabra forma. Son palabras forma los determinantes, las
preposiciones, las conjunciones y algunas formas verbales (categorías, todas
ellas, «cerradas»). Las pakabras forma son estadísticamente más frecuentes en
los textos y, por lo general, aportan escasa información sobre un texto, ya que
aparecen con similar frecuencia en todos ellos. La lista de palabras forma
incluida en PETRA Tag I es la siguiente: a, al, como, con, de, del, desde, el, en, es, la,
las, lo, los, más, muy, no, para, pero, por, que, se, sobre, su, un, una, unas, uno, unos, y.
Con esta lista de treinta palabras es posible etiquetar aproximadamente el 40%
de un texto medio. La mayoría de estas palabras tiene, además, la ventaja de
contar con un grado de ambigüedad bastante bajo, de tal modo que, si se
identifica una palabra como perteneciente a este grupo, es bastante probable
que sea correcta. Cuando se comprueba que la palabra no pertenece a este
grupo, se realiza el resto de búsquedas. Entre los elementos del diccionario con
los que se realizan el resto de comparaciones hay dos tipos básicos:
18
etiqueta que les asignaría el programa. Incorporar estas reglas de flexión
permite reducir el tamaño del diccionario, eliminando información redundante.
Las versiones iniciales de PETRA Tag I incorporaban, mediante programación,
las formas flexionadas más habituales del español. Así, tras leer del archivo de
diccionario las palabras introducidas en el sistema, determinaba, por ejemplo si
se trataba de un sustantivo terminado en -o o en -a, al que bastaba únicamente
con añadirle la -s final para formar el plural, o bien un adjetivo o un verbo, que
se flexionaban de la manera correspondiente. Este método facilitaba
enormemente la introducción de datos, ya que el usuario sólo tenía que
introducir la forma canónica de la palabra y especificar su categoría
fundamental, lo que hacía que el proceso fuera más rápido y menos propenso a
errores. No obstante, este procedimiento presentaba dos problemas:
• Dificultad de modificación de las reglas. Por perfectas que sean las reglas de
flexión, si se descubre cualquier mínimo fallo en ellas o es necesario realizar una
ampliación hay que acceder al código fuente, modificarlo adecuadamente y
volver a compilarlo. Además de la dificultad que entraña para cualquier usuario
no experto, si al modificar un código se introduce por accidente cualquier cambio
indebido, el sistema podría dejar de funcionar completamente.
• Vinculación con un idioma concreto. Las reglas de flexión son muy diferentes de
un idioma a otro. Por tanto, es muy difícil para el programa etiquetar un texto
escrito en otro idioma, sin llevar a cabo un buen número de modificaciones,
proceso que, como se ha explicado en el punto anterior, puede presentar graves
problemas. Por supuesto, aun en el peor de los casos, el programa siempre deja la
puerta abierta para introducir las palabras necesarias una o por una, sin
aprovechar las reglas de flexión, a costa de una posible lentitud tanto en la
introducción del diccionario como en el posterior etiquetado de textos.
19
muy diferente, ya que las reglas de flexión cambian radicalmente de un idioma
a otro. Como veremos un poco más adelante, el sistema adoptado en PETRA
Tag I se basa en aplicar sufijos a raíces. Tal esquema resulta muy útil para el
español y también para idiomas tipológicamente próximos. No obstante, para
idiomas que utilicen habitualmente prefijos o infijos para la creación de
palabras, este esquema no resultaría tan útil y volverían a surgir los problemas
mencionados. Nunca es, pues, posible diseñar un sistema cuya interpretación
de las palabras del diccionario esté completamente libre de las características
del idioma, aunque sí es posible relajar y flexibilizar esta interpretación, de
manera que el sistema resulte suficientemente óptimo para un cierto número de
lenguas.
Como se ha adelantado, PETRA Tag I se basa en la aplicación de sufijos en
su versión actual. Un buen número de palabras, precisamente las más
habituales, vienen codificadas sin utilizar reglas de flexión, bien porque no son
aplicables, como en el caso de las preposiciones, bien porque usar reglas de
flexión deceleraría el proceso de etiquetado. Esto puede ocurrir con palabras tan
habituales como las (que puede obtenerse por flexión de la), ya que aplicar la
flexión a una raíz es un proceso relativamente lento respecto a comparar
directamente la palabra que se desea obtener con una palabra del diccionario.
La tabla 2 incluye palabras en las que la etiqueta se indica directamente. Las
palabras que aceptan flexión se marcan con una etiqueta que consiste en una x
seguida de un número, como se aprecia en la tabla 3.
20
Consideremos el primer ejemplo, la raíz clar-. La etiqueta indica que se trata
de un elemento flexivo, al aparecer una x como primer carácter de la etiqueta. El
número que aparece a continuación indica la serie de terminaciones que se debe
utilizar. La tabla 5 contiene las terminaciones y su etiqueta asociada.
Combinando estas terminaciones con la raíz, obtenemos por fin las palabras
flexionadas y sus correspondientes etiquetas.
Palabra Etiqueta
Terminación Etiqueta claro aq0ms0
o aq0ms0 claros aq0mp0
os aq0mp0 clara aq0fs0
a aq0fs0 claras aq0fp0
as aq0fp0 claramente =rg
amente =rg Tabla 5. Etiquetado de las
Tabla 4. Articulación de la palabras derivadas en
flexión En PETRA Tag I. PETRA Tag I.
PETRA Tag I no sólo pretende asignar una etiqueta, sino también un lema. Este
lema corresponde a la forma canónica de la palabra que, en el caso de los
adjetivos, suele ser la masculina o neutra singular («caso no marcado»). En
nuestro ejemplo, las cuatro primeras palabras tendrían como lema claro. PETRA
Tag I también crea el adverbio correspondiente a partir del adjetivo, a fin de
aumentar la velocidad de búsqueda al reducir el número de entradas en el
diccionario y la cantidad de memoria necesaria. El único problema potencial en
este caso es que el lema del adverbio coincida con la forma canónica del
adjetivo. Para evitarlo, se ha incluido el símbolo «=» delante de la etiqueta,
como marcador que indica que el lema de esa forma flexionada es ella misma,
21
es decir, que el lema de claramente es «claramente». Veamos ahora otro ejemplo
(tabla 6), para ilustrar otras posibilidades del sistema de flexión. Las
terminaciones de la serie 21 corresponden a los verbos regulares terminados en
-ar, como ilustra la tabla 7.
Terminación Etiqueta
ar vmn0000
ando vmn0000
Palabra del diccionario Etiqueta ... ...
acept x21 ar *19
ándo *19
Tabla 6. Ejemplo de articulación
ár *18
de la flexión en PETRA Tag I.
Tabla 7. Ejemplo de serie
de flexiones en PETRA
Tag I.
22
Además, facilita la introducción de nuevos verbos irregulares, para los que es
necesario especificar todas las formas verbales.
La existencia de estas reglas de flexión hace que el diccionario contenga
implícitamente varias etiquetas posibles para determinadas palabras. Por
ejemplo, el programa puede reconocer cortes por haberse incluido el sustantivo
corte, a partir del cual genera el plural. No obstante, si en el diccionario aparece
el verbo cortar y se indica que puede tratarse como un verbo regular de la
primera conjugación, también podrá flexionar cortes como segunda persona
singular del subjuntivo. También se podría considerar su funcionamiento como
adjetivo, ya que en español es frecuente acentuar erróneamente y podría, así,
corresponder a cortés. No obstante, debido a que una de las posibles
aplicaciones del etiquetador es la corrección de textos, se ha optado por no
realizar ninguna corrección previa de los posibles errores del texto. Si después
la cadena de etiquetas morfosintácticas asignadas plantea algún problema, el
usuario puede localizar y corregir personalmente cada caso. Consideremos, por
ejemplo, la siguiente oración:
23
la aproximación inicial, que consistiría en etiquetar estas palabras siempre de la
misma manera. Para ello, en vez de utilizar únicamente la información léxica de
la palabra, podemos examinar la información sintáctica y, partiendo de la
misma, por consideraciones estadísticas, deducir cuál es la etiqueta más
probable de una determinada palabra. Por ejemplo, la palabra embargo puede
etiquetarse de tres maneras: como sustantivo singular masculino, como verbo
en primera persona singular de indicativo y como parte de la locución adverbial
sin embargo. Un sencillo examen de las ocurrencias de esta palabra permite
llegar a las siguientes conclusiones:
24
un buen número de palabras, hay varias etiquetas en el diccionario,
dependiendo de la raíz que se flexione, como en el ejemplo cortes, que puede
obtenerse flexionando cort- como sustantivo (corte, cortes) o como verbo (corto,
cortas, corta, etc.). Para que el etiquetado sea preciso, este orden debe definirse
de manera estable y, además, debe ser posible modificarlo cuando sea
necesario, para dar prioridad a unas flexiones sobre otras.
Tras examinar los primeros etiquetados se pudo comprobar que, en
principio, la norma que lograba los resultados más exactos era que cuanto
mayor la capacidad de producir palabras de una raíz, tanto menor debía ser su
prioridad. No obstante, esta norma tiene numerosas excepciones, por lo que se
decidió establecer un carácter, el signo de la suma «+», que otorga directamente
la máxima prioridad a la palabra que lo incluye. Por ejemplo, la palabra activa
puede etiquetarse de acuerdo con las siguientes dos entradas del diccionario del
programa:
ocult x21
oculta +vmip3s0/ocultar/0/+1<E1(d)>&vmip3s0/ocultar/0/-
1<P(se)>&vmip3s0/ocultar/0/-
1<E1(n)>&vmip3s0/ocultar/0/+1<E1(n)>&vmip3s0/ocultar/0/+1<P(que)>&aq0fs0
oculto
25
Consultando únicamente un diccionario incluido en PETRA Tag I, el porcentaje
de palabras que se puede estudiar es bastante grande, pero prácticamente en
todos los textos hay un número considerable de palabras que el programa no
puede reconocer. Lo que es más importante, ni siquiera tiene sentido que el
diccionario las incluya, ya que son específicas de un texto concreto.
Si el texto que estamos etiquetando es una traducción, podemos comprobar
si la palabra que estamos intentando etiquetar aparece también tal cual en el
texto original. De ser así, podemos etiquetarla con un código especial que
indique que probablemente se trata de un nombre propio o una marca de
formato. Para facilitar el trabajo con estos elementos, resulta conveniente
agrupar los que aparezcan consecutivos. Por ejemplo, si en un texto aparece
Microsoft Windows, podríamos etiquetarlo como dos elementos Microsoft y
Windows o bien como uno solo, Microsoft Windows, que es la opción elegida por
PETRA Tag I.
Si de ninguna todas estas maneras se puede asignar una etiqueta al texto,
queda la posibilidad de que se trate de un nombre propio. Para ello, en español
basta comprobar si la primera letra de la palabra que se pretende etiquetar es
una mayúscula (las excepciones, como los días de la semana o los meses, son
escasas). De ser así, podemos considerar que la palabra corresponde a un
nombre propio. Al igual que ocurría con los elementos que aparecen
exactamente iguales en el original y en la traducción, resulta interesante
agrupar este tipo de elementos. Por ejemplo, si en un texto aparece García Lorca,
tiene más sentido etiquetarlo así que como García, por una parte, y Lorca, por
otra. Hay que señalar que este modo de detectar los nombres propios es tanto
más preciso cuanto mayor es el diccionario, ya que, si no es muy amplio, las
palabras que aparecen al principio de una oración se etiquetan incorrectamente
como nombres propios, cuando en realidad se trata de otro tipo de elementos.
Por último, si la palabra no se ha podido etiquetar, recibe una etiqueta que
indica precisamente que se desconoce la etiqueta morfosintáctica y el lema. Esta
lista de palabras es muy útil, tanto para detectar posibles errores ortográficos
26
(una de las razones por la que es posible que la palabra no se haya reconocido)
como para seguir aumentando el diccionario del programa.
Si alguna palabra admite varias posibilidades, se marca con una etiqueta
que es, en realidad, una regla que determina la etiqueta más correcta para la
palabra, en función de varias condiciones. Por ejemplo, para la palabra algunos
no se especifican directamente las etiquetas, di0mp0 (determinante) y pi0mp000
(pronombre), sino que se especifica la siguiente regla:
algunos +di0mp0/alguno/0/+1<E1(n)>&pi0mp000
En breve, esta regla le indica a PETRA Tag I que etiquete la palabra como
determinante (di0mp0) si va seguida de un nombre, o como pronombre
(pi0mp000) en caso contrario. La sintaxis general del sistema de reglas es así:
la +pp3fsa00/él/0/+1<E1(v)>&da0fs0 el
27
Por último, las palabras desconocidas son las que no figuran en el
diccionario. PETRA Tag I las marca con la etiqueta «?» y el lema «?», lo que
permite buscarlas y localizarlas con gran rapidez mediante la función de
búsqueda del programa. Esta función no sólo indica todas las palabras que no
aparecen en el diccionario sino que, además, indica el número de veces que
aparece cada una de ellas. Normalmente, si no se desea que el nivel de
exhaustividad sea muy alto, basta con ordenar las palabras por número de
ocurrencias, para añadir al diccionario únicamente las palabras más frecuentes,
con lo que se obtiene una notable mejora con un esfuerzo reducido.
Algunos sistemas no asignan ninguna etiqueta especial que indique que la
palabra no está en el diccionario como, por ejemplo, Márquez (1998) que
supone que el conjunto de posibles etiquetas tiene una distribución uniforme
que se utiliza durante el etiquetado para asignarle la etiqueta más probable a la
palabra desconocida. Aunque estos sistemas permiten aumentar
espectacularmente la exhaustividad con una precisión aceptable, también
plantean inconvenientes. Por ejemplo, al asignar una etiqueta se parte del
supuesto de que el texto está escrito correctamente. No es, pues, la mejor
estrategia si, por ejemplo, deseamos anotar el texto precisamente para detectar
errores de redacción. Si asignamos una etiqueta gramatical correcta a una
palabra desconocida podemos impedir localizar los errores. Por tanto, esta
posibilidad es interesante pero también debe ser posible desactivarla cuando se
desea un mayor control sobre el proceso de anotación.
28
especialmente potentes y con sistemas operativos Unix. En algunos casos, existe
un sitio web en el que se puede etiquetar un texto, aunque muy corto (podemos
encontrar el del CLiC en http://clic.fil.ub.es/ eligiendo Demos ► Morfología
► Etiquetador); además, la transferencia de información a través de la red es
insegura y lenta. Por tanto, los sistemas al uso no son de aplicación directa en el
ámbito profesional de la traducción, donde habitualmente se trabaja con
ordenadores de potencia media o reducida y con el sistema operativo Windows,
que sirve de base a las aplicaciones de traducción más populares, como Trados,
Sdlx, Dejà Vu, etc.
Por todos estos motivos, se ha elegido generar la aplicación en el entorno de
desarrollo integrado Visual Studio .NET, con el lenguaje de programación
Visual Basic .NET, apto la programación orientada a objetos. El resultado es una
«clase» que contiene una serie de definiciones básicas, a partir de la cual es
posible crear «objetos» con una serie de características (denominadas
propiedades) y con los que se pueden realizar una serie de acciones
(denominadas métodos).
Gracias a esta estrategia, un programador interesado en crear una aplicación
que incluya PETRA Tag I sólo tendría que incorporar la definición de la clase al
entorno de programación en el que vaya a desarrollar su proyecto –un sencillo
paso que puede realizarse en apenas un minuto– y copiar los archivos del
programa, que ocupan menos de un megabyte, en la ubicación adecuada. A
continuación se expone un ejemplo de cómo se trabaja con este modelo. Para
empezar, la siguiente línea crea una variable «MiOración» con la definición
deseada.
29
método encargado de realizar la acción y los parámetros correspondientes que,
en este caso, serían una cadena vacía (ya que la oración no es la traducción de
otra) y lo que queremos etiquetar Esto es un ejemplo. La siguiente línea de código
hace precisamente esto.
For n = 1 To MiOración.NúmeroElementos
...
Next
3.3.1. Propiedades
Las propiedades son las siguientes:
Las matrices Palabra, Etiqueta y Lema admiten hasta 1.024 elementos. Como la
variable NúmeroElementos indica precisamente el número de elementos que hay
en estas matrices para una oración concreta, no debe superar este valor pues
produce un error y el etiquetado no se realiza correctamente. Este número de
30
elementos permite etiquetar oraciones sin problema alguno, pero no textos
completos, que deben dividirse en unidades más pequeñas.
3.3.2. Métodos
La interacción con el sistema se realiza a través de una serie de métodos:
Inicialización
Iniciar
Etiquetado
EtiquetarOración
Conversión
ConvertirDeXML
Comprobación
ComprobarSerieCondiciones
Estos métodos se describen a renglón seguido, junto con sus parámetros,
clasificados según su función.
31
Palabra={Esto, es, un, ejemplo,.}
Etiqueta={pd0ns000, vsip3s0, di0ms0, ncms000, Fp}
Lema={esto, ser, un, ejemplo, .}
A partir de esta cadena crea las matrices Palabra, Etiqueta y Lema, así como la
variable NúmeroElementos, igual que hacia la rutina anterior. Esta rutina resulta
útil para leer los datos de etiquetado guardados en un archivo. Al tratarse de
una serie de datos generados con antelación, no es necesario volver a etiquetar
la oración, lo que acelera notablemente el proceso.
N1<A1M1(B1)>N2<A2M2(B2)>N3<A3M3(B3)>...
32
en alguno de los tokens posteriores al elemento estudiado. En la misma
expresión, A1 indica el elemento que se comprueba:
P sobre la palabra
E sobre la etiqueta
L sobre el lema
M comprueba si la primera letra de la palabra está en mayúsculas
M1 es un número que, por ahora, sólo se aplica cuando se desea estudiar una
parte concreta de la etiqueta, por ejemplo, la conjugación de un verbo, la
categoría gramatical, la persona, etc. B1 es el valor que debe tener dicho
elemento. Si va precedido del asterisco * indica que la comprobación se
cumplirá con cualquier valor excepto con el señalado.
Estas expresiones pueden ser tan largas como se desee, añadiendo todas las
comprobaciones necesarias con la misma sintaxis. La cadena Comprobación del
método descrito corresponde a esta expresión. Es el único valor que es
necesario indicarle a este método. La cadena CondiciónCumplida devuelve un 1
si se cumple la condición en el objeto buscado. Posición especifica el número
índice de la cadena en el que se están realizando las comprobaciones.
33
Figura 1. Pantalla Editar diccionario
El elemento más importante de esta pantalla es la lista que muestra todas las
palabras que contiene el diccionario, junto con su código de flexión y el lema,
cuando es diferente del predeterminado. Como en algunos casos puede ser
difícil recordar a qué flexión corresponde cada código, en la parte superior se
muestran las primeras palabras de cada flexión y otras palabras que comparten
la misma flexión. En la figura 1, vemos que la raíz abani- junto con el código de
flexión «x92» nos genera las palabras abanicar, abanicando, abanicado, abanicados,
abanicada, por ejemplo, y que esta flexión es la misma en los casos de las
palabras sacar, secar y tocar. Si se desea introducir en el diccionario una nueva
entrada, basta con escribir en los tres cuadros de texto que hay inmediatamente
debajo de la lista la raíz correspondiente, el código de flexión y el lema.
34
3.5. Evaluación de los resultados
Diseñado el programa, resulta imprescindible comprobar su precisión. Si los
resultados no son suficientemente precisos, las aplicaciones que incluyan este
módulo pueden presentar un número excesivo de errores. Los resultados
expuestos a continuación son puramente orientativos y no pretenden establecer
ninguna estimación estadísticamente exacta de la precisión. El etiquetado
morfosintáctico de un texto depende en gran medida de la información
introducida en el diccionario y de las características concretas del texto. Por
tanto, para cada caso se recomienda realizar un estudio previo de los resultados
para comprobar si se estiman aceptables.
La mayoría de estudios sobre etiquetadores automáticos utilizan el
siguiente enfoque para analizar la precisión: se toma un corpus y se divide en
dos partes, una dedicada al ajuste del sistema y la otra para usarla después para
medir la precisión del modelo. Evidentemente, si el corpus del que se parte es
homogéneo, como ocurre cuando todos los textos incluidos tratan un mismo
tema, los resultados sólo son aplicables a otros textos de las mismas
características, lo que resulta poco acertado si se desea que el etiquetador que
logre una buena precisión en textos diversos.
La mayoría de los estudios comentados suelen evaluar globalmente el
rendimiento del etiquetador con dos parámetros: el porcentaje de palabras
anotadas correctamente y, en ocasiones, la velocidad de etiquetado. Para
evaluar los resultados de PETRA Tag I se ha utilizado un enfoque más
estadístico, que permite obtener datos más fiables y, sobre todo, se puede
aplicar a otros tipos de textos, de manera que, para realizar un nuevo estudio de
la precisión, basta con seguir la metodología que se expone a renglón seguido.
Al ser necesaria cierta parte del corpus para el desarrollo, se va a seguir la
estrategia habitual de destinar la mitad del corpus a primer entrenamiento y la
otra mitad a evaluación. Al ser el corpus de PETRA Tag I particularmente
heterogéneo, podemos suponer que los resultados obtenidos podrían ser
parejos en una gran variedad de textos.
35
Como ejemplo de prueba de PETRA Tag I, vamos a estimar la precisión y la
exhaustividad con la que se etiquetan oraciones extraídas del corpus CLiC-
TALP, descrito en Civit (2002:7) y que proviene de dos fuentes. Por una parte,
recoge una muestra representativa de un corpus de prensa de siete millones de
palabras cedido por el periódico La Vanguardia. Por otra, recoge una muestra
del corpus LexEsp (léxico informatizado del español), de cinco millones de
palabras, recogido entre los años 1978 y 1995. Este corpus se considera
representativo del español estándar escrito en el sentido de que presenta varios
estilos narrativos, varias procedencias (literatura, prensa, etc.) e incluye también
muestras tanto del español peninsular como del de América. LexEsp recoge un
número reducido de palabras por obra y no más de tres obras por autor. La
tabla 9 muestra el origen de cada uno de los textos recogidos en el apéndice A.
a articulistas
e ensayo
d prensa deportiva
dc divulgación científica
c suplementos de ciencia
ed editoriales
n noticias
r semanarios
t narrativa
Tabla 9. Contenido de los
archivos del corpus CLiC TALP
Los datos de este corpus acerca de los lemas y las etiquetas pueden considerarse
de gran calidad porque, tras lematizarlo y etiquetarlo de modo automático, se
los han corregido especialistas. Para estudiar la ambigüedad, PETRA Tag I 1.0
establece el límite de la oración como unidad superior. Así, vamos a considerar
el texto de manera separada, por oraciones, en lugar de estudiarlo como
conjunto. Para que la muestra resulte estadísticamente representativa, se
tomaron al azar 30 oraciones de la parte del corpus dedicada a los textos y se
analizó la precisión en cada una de estas oraciones, lo que permite obtener no
sólo una media estadística, sino también una desviación típica. El apéndice A
recoge las oraciones estudiadas y su procedencia, incluido el significado de
36
cada identificador, según aparece en Civit (2002:8). El apéndice B muestra tanto
la versión de PETRA Tag I sin ningún tipo de corrección como la corregida por
especialistas. La tabla 10 se ha alineado para facilitar la lectura y comparación
inmediatas de los resultados, que son los siguientes:
Errores de alineación
Errores de alineación
Etiquetas correctas
Etiquetas correctas
Palabras etiquetadas
Palabras etiquetadas
LEMAS CORRECTOS
LEMAS CORRECTOS
Palabras totales
Palabras totales
Oración
Oración
%
%
1 38 1 32 29 90 29 90 16 13 0 13 13 100 13 100
2 14 1 13 11 84 10 76 17 31 0 29 27 93 26 89
3 20 0 19 18 94 18 94 18 18 1 16 13 81 15 93
4 16 0 14 11 78 13 92 19 16 0 14 13 92 13 92
5 13 0 11 10 90 11 100 20 42 1 42 39 92 40 95
6 24 0 20 19 95 20 100 21 19 0 18 17 94 18 100
7 18 0 17 17 100 17 100 22 41 0 37 35 94 35 94
8 25 0 23 22 95 23 100 23 11 0 9 8 88 8 88
9 54 2 47 41 83 46 93 24 19 0 18 17 94 16 88
10 47 1 46 42 91 41 89 25 25 0 23 22 95 23 100
11 14 2 12 10 83 9 75 26 47 0 44 42 95 40 90
12 7 0 7 7 100 6 85 27 20 0 20 16 80 19 95
13 10 0 10 8 80 9 90 28 42 3 38 33 86 33 86
14 36 0 36 36 100 36 100 29 32 0 31 30 96 29 93
15 10 0 10 9 90 9 90 30 62 0 58 57 98 55 94
Promedio 91 92
Tabla 10. Precisión y exhaustividad de PETRA Tag I sobre 30 oraciones del corpus
CLiC-TALP.
• El juego de etiquetas que utiliza la aplicación es bastante más extenso que el de los
sistemas que consiguen precisiones más elevadas y, al intentar determinar una
mayor cantidad de datos, es más fácil que cometa errores.
37
• El etiquetador no se ha sometido a ningún tipo de entrenamiento con textos de este
tipo, lo que podría aumentar notablemente la precisión.
38
de las categorías cerradas que, en algunos casos, pueden tener mayor o menor
importancia.
palabras
Etiqueta correcta número %
Nombre común 42 37
Verbo 18 16
Adjetivo 17 15
Pronombre 10 9
Locución 9 8
Adverbio 4 3
Puntuación 4 3
Conjunción 3 2
Determinante 2 1
Número 2 1
Preposiciones 0 0
Total 111
Tabla 11. Categoría morfológicas de las
palabras etiquetadas incorrectamente
por PETRA Tag I.
39
correctamente alguno de los atributos –persona, tiempo, modo, etc.– y sólo en
los otros 2 (34%) no se ha detectado que se trataba de un verbo.
La tabla 12 presenta las palabras etiquetadas no desde el punto de vista de
las palabras propiamente dichas y no de sus categorías gramaticales. A
continuación, ordenada por número de ocurrencias, la lista de palabras que no
figuraban en el diccionario. Para no alargarla innecesariamente, se consignan
tan sólo las que cuentan con al menos dos ocurrencias:
Como se había apuntado, destaca que las dos palabras en las que se ha
cometido un mayor número de errores pertenecen a categorías cerradas, lo que
indica que es necesario aumentar la precisión de las reglas que controlan esta
categoría gramatical.
40
introducir estos datos, la precisión global del etiquetado aumenta hasta el
93,35%.
Locución Etiqueta
reyes_magos np00000
don_juan np00000
en_vez_de sps00
a_partir_de sps00
Tabla 14. Nuevas locuciones.
41
3.6. Utilidad de ejemplo
PETRA Tag I 1.0 se ha diseñado para ser un componente de otros sistemas, por
lo que, en principio, no puede utilizarse sin programación. Para evaluarlo y
realizar pruebas con él, se ha diseñado una aplicación sencilla cuya función
básica es cargar un texto en formato .txt, etiquetarlo y mostrar el etiquetado
obtenido o guardarlo en un archivo para su recuperación posterior. Esta
utilidad incorpora las siguientes opciones, accesibles tanto a través de la barra
de menús como de los iconos de la barra de herramientas:
42
3.7. Otras aplicaciones
0<L(ser)>1<P(posible)>2<P(que)>3<E3(i)>
0<E1(v)>0<E5(2)>
0<L(asociar)>0<E1(rg)>
43
género sustantivo = género adjetivo
número sustantivo = número adjetivo
Sin embargo, esta regla genera un número excesivo de errores. Por ejemplo, el
generador de protones desactivado supone una infracción pero gramaticalmente
correcta. Para reducir los errores se ha encontrado bastante productiva la
siguiente regla:
44
4. Conclusiones
El etiquetado del texto es un proceso que puede llevarse a cabo con unos
recursos razonables –un ordenador de capacidad normal y un programa como
el descrito– con los que es posible obtener resultados de una calidad aceptable,
como es el caso de PETRA Tag I 1.0. Por supuesto, el sistema admite mejoras. La
más obvia y fácil de introducir es la ampliación del vocabulario incorporado
que, en este momento, es bastante reducido. También es posible refinar las
reglas de resolución de ambigüedades, aunque en este caso introducir reglas
nuevas para resolver determinados tipos de ambigüedades no debe afectar a los
resultados anteriores del programa. Por ejemplo, introducir reglas que
determinen cuándo la se refiere a la nota musical y no al determinante ni al
pronombre –bastante útil en textos en los que abunden las referencias
musicales– podría ser desastroso en otros textos.
Conviene determinar el grado de precisión que alcanza el programa con
mayor exactitud. La mayoría de las aplicaciones desarrolladas hasta el
momento suelen esgrimir porcentajes bastantes altos pero, en muchos casos, la
metodología para obtener estos llamativos resultados no resulta clara. Tampoco
es fácil comparar resultados de diferentes programas entre sí. No obstante, la
utilidad más inmediata de los etiquetadores es abordar fenómenos que hasta
ahora caían fuera del alcance de los ordenadores sin asistencia humana. La
introducción de información morfológica permite aumentar el grado de control
del texto y automatizar procesos como la detección de errores, la corrección de
estilo y el estudio sistemático de determinados rasgos semánticos de un texto.
Más allá de las particularidades del etiquetado morfosintáctico de un texto,
los ordenadores pueden realizar tareas que hasta hace poco necesitaban del
concurso humano con una precisión aceptable. Para ello no es necesario
disponer de ordenadores con capacidades excepcionales ni largos y
complicados períodos de formación.
Al traducir y revisar un texto, los traductores a menudo toman decisiones
basadas en la categoría morfosintáctica de una palabra. PETRA Tag I 1.0 abre
45
una puerta para automatizar parte de esta tarea, lo que permite que el traductor
aplique sus decisiones de una manera tan exhaustiva como desee. Aun más,
disponer ya de una herramienta que resuelve las categorías gramaticales
permite construir aplicaciones más complejas que resuelvan problemas que
antes resultaban inabordables.
Ahora desearía centrarme en uno de los retos a los que se enfrentan muchos
traductores profesionales durante su trabajo diario: el uso de los materiales de
referencia respecto a los que en muchas ocasiones se valora su trabajo. Con
frecuencia, los proyectos están muy segmentados, tanto en el tiempo (muchas
veces constan de numerosos lotes que se van recibiendo incluso durante varios
años) como en el equipo implicado, ya que muchas veces un proyecto grande
involucra a varios traductores y revisores. El largo desarrollo de estos proyectos
hace que no siempre pueda ocuparse el mismo equipo del mismo proyecto,
como sería deseable y muchos clientes solicitan con frecuencia. Por tanto, se
acumula un gran volumen de información pertinente, la incluida con el propio
proyecto (en forma de guías de estilo, glosarios, plantillas de dudas ya
respondidas, etc.), la referencia externa que suele ser común a un gran número
de proyectos (principalmente diccionarios monolingües y bilingües, gramáticas,
etc.) y la que no suele tenerse en cuenta, los conocimientos que el equipo de
traducción ha adquirido durante su trabajo. Tal cantidad de información ha de
aplicarse en la práctica en unos plazos muy ajustados sobre lotes con
dimensiones muy variables, a fin de obtener un producto de suficiente calidad.
Los sistemas informáticos ofrecen nuevas posibilidades de almacenar todos
estos conocimientos y hace posible transmitir y reutilizar la información con
mucha mayor eficacia de la que se conseguiría con los métodos tradicionales.
Precisamente sobre este almacenamiento de la información y las herramientas
que facilitarían el trabajo del traductor y del revisor, liberándolo de muchas de
las tareas más mecánicas y pesadas, pretendo centrar los posteriores trabajos
para los que creo que será indispensable disponer de un etiquetador
suficientemente preciso, que puede llegar a ser una piedra angular al almacenar
46
y conectar todos los conocimientos y habilidades necesarios para lograr una
traducción de máxima calidad en un tiempo mínimo.
47
5. Bibliografía
BRILL, Eric (1992): A simple rule-based part of speech tagger. Proceedings of the 3rd Conference on
Applied Natural Language Processing (ANLP-92), Trento, Italy.
—. (1995): Unsupervised Learning of Disambiguation Rules for Part-of-Speech Tagging. Proceedings
of 3rd Workshop on Very Large Corpor, Massachussetts.
CHURCH, Kenneth Ward. (1988): A Stochastic Parts Program and Noun Phrase Parser for
Unrestricted Text. In proc. of 2nd Conference on Applied Natural Language Processing.
CIVIT, Montserrat, Irene CASTELLÓN y María Antonia MARTÍ. (2001): Joven periodista triste busca
casa frente al mar o la ambigüedad en la anotación de corpus. Congreso Internacional sobre
nuevas tendencias de la lingüística, noviembre, Granada, 2001.
CUTTING, Doug, Julian KUPIEC, Jan PEDERSEN, and Penelope SIBUN. (1992): A Practical Part-of-
Speech Tagger. In proc. of 3rd Conference on Applied Natural Language Processing.
DEROSE, Steven J. (1988): Grammatical Category Disambiguation by Stadistical Optimization.
Computational Linguistics 14(1), pp 31-39.
FARWELL, David, Stephen HELMREICH y Mark CASPER. (1995): SPOST: a Spanish Part-of-Speech
Tagger. Procesamiento del lenguaje natural, boletín nº17. Septiembre.
GARSIDE, Roger, Geoffrey Leech, and Geoffrey Sampson. (1987): The Computational Analysis of
English. London and New York: Longman.
GIMÉNEZ, Jesús y Lluís Màrquez. (2003): Fast and Accurate Part-of-Speech Tagging: The SVM
Approach Revisited. Proceedings of RANLP'03. September, 10-12, 2003. Borovets, Bulgaria.
—. (2004): SVMTool: A general POS tagger generator based on Support Vector Machines. 4th
International Conference On Language Resources And Evaluation, Lisboa.
IDE, Nancy. (2004): Preparation and analysis of linguistic corpora. A Companion to Digital
Humanities. Schreibman, S., Siemens, R, Unsworth, J, Eds, Blackwell.
KARLSSON, F, A. Voutilainen, J. Heikkilä, and A. Anttila. (1995): Constraint Grammar: A Language-
Independent System for Parsing Unrestricted Text. Mouton de Gruyter. Berlin, New York.
MÀRQUEZ, Lluís y Horacio RODRÍGUEZ. (1998): Part-of-Speech-Tagging Using Decision Trees.
Lecture Notes in Artificial Intelligence 1398. C. Nédellec & C. Rouveirol (Eds.). Machine
Learning: ECML-98.Proceedings of the 10th European Conference on Machine Learning.
Chemnitz, Germany. April 1998.
MÀRQUEZ, Lluís, Lluís PADRÓ y Horacio RODRÍGUEZ. (1999): A Machine Learning Approach for
POS Tagging. Machine Learning Journal.
OOSTDIJK, Nelleke. (1991): Corpus Linguistic and the Automatic Analysis of English. Rodopi,
Amsterdam.
PADRÓ, Lluís. (1998): A Hybrid Environment for Syntax -Semantic Tagging. PhD Thesis. Dep.
Llengautges i Sistemes Inofrmàtics. Universitat Politecnica de Catalunya.
PÉREZ, Chantal (2002): Explotación de los córpora textuales informatizados para la creación de bases de
datos terminológicas basadas en el conocimiento. Tesis doctoral. Universidad de Málaga.
PLA, Ferran, Antonio MOLINA y Natividad PRIETO. (2001): Evaluación de un etiquetador
morfosintáctico basado en bigramas especializados para el castellano. Revista de la Sociedad
Española para el Procesamiento del Lenguaje Natural No. 27, pp 215-221.
RATNAPARKHI, Adwait. (1997): A Maximum Entropy Model for Part-Of-Speech Tagging.
Proceedings of the 5th ANLP Conference.
SCHMID, Helmut. (1994): Part-of-Speech Tagging with Neural Networks. Proceedings of 15th
International Conference on Computational Linguistics, COLING '94.
TAPANAINEN, Pasi y Atro Voutilainen. (1994): Tagging accurately - Don't guess if you know.
Proceedings of Fourth ACL Conference on Applied Natural Language Processing.
Association for Computational Linguistics. Stuttgart.
UPV. Página del concurso de algoritmos de la asignatura Estructuras de Datos y Algoritmos
(EDA) de la Facultad de Informática de la Universidad Politécnica de Valencia.
http://www.dsic.upv.es/asignaturas/facultad/eda/concurso/concuWeb0405/concurso0
405web/node3.html. Consultada el 26 de abril de 2005.
48
VOUTILAINEN, Atro. (1995): A syntax-based part-of-speeh analyser. Proceedings of the Seventh
Conference of the European Chapter of the Association for Computational Linguistics,
Dublin.
49
Apéndices
50
Apéndice A: Oraciones para la evaluación del etiquetador
Id Archivo Oración
1 t1.tag.nou Malgastaban las horas sobrantes cosiendo en la ropa del muerto los botones que nunca habían tenido tiempo de reponer, planchaban y volvían a planchar sus camisas de puños y
cuellos de parafina para que siempre estuvieran perfectas.
2 t1.tag.nou Pero Sara Noriega no se lo permitió hasta que no acabó de desahogarse contra Fermina Daza.
3 dc10.tag.nou El campo gravitacional de estas lunas se encarga de retener en órbita las pequeñas partículas que forman el anillo.
4 t5.tag.nou Verle le veía lo que se dice mal, porque la mirilla era muy turbia.
5 t4.tag.nou Los franceses usan la palabra "toucher" para "cobrar".
6 a25.tag.nou Y el tremendo atasco, aunque ensayado previamente en múltiples ocasiones, solamente ahora se mostraba en su implacable crudeza y duración imprevisible.
7 e1.tag.nou Y es que el humor es una de las mercancías literarias que más difícilmente conservan su frescura.
8 t5.tag.nou Apartó con sumo cuidado el juego de tocador, un regalo de su abuela cuya función no había pasado nunca de la dudosamente decorativa.
9 a25.tag.nou En vez de los tres dones del hada, un seguro contra la desilusión, las promesas incumplidas, el descubrimiento del dolor - que siempre se produce demasiado pronto -, el hecho de
que los Reyes Magos son los papás, la inesperada halitosis del primer amor y también las películas con finales infelices.
10 dc10.tag.nou Gregorio Marañón explica en su ensayo sobre Don Juan que la reacción psicológica específica del varón es el culto del honor, de la honra llevado hasta el máximo sacrificio; si es
necesario hasta la venganza y el crimen, que el honor se justifica siempre.
11 a15.tag.nou ¿Hay vida en alguna galaxia? Y ovnis en Barbastro.
12 t5.tag.nou –Son tan raros, los hombres.
13 dc3.tag.nou Son moléculas capaces de transferencia electrónica por sí mismas.
14 a11.tag.nou Esto pasa en las familias donde el padre lo gana, o donde padre y madre trabajan; pero cada vez hay más familias donde el abuelo es el único que tiene un trabajo fijo.
15 dc10.tag.nou En 1903 fundó su primera compañía con doce socios.
16 a15.tag.nou Y en la mayor parte de la prensa española, ni aparece.
17 a15.tag.nou El investigador que nunca descubre nada que no se populariza gracias a algún descubrimiento suficientemente espectacular que lo haga aparecer en algún magazine televisivo, va
perdiendo las fuentes de financiación.
18 r2.tag.nou Los nacionalistas, que son los garantes de este decrépito Ejecutivo, esperan los resultados del día 12.
19 a26.tag.nou Miré alrededor, y los invitados, con los carrillos llenos, seguían gastándose bromas.
20 a11.tag.nou Finalmente, el autor da a entender que la pareja se dedicaba a hacer siempre el mismo número: "Entendí al fin que en aquel asunto yo no había sido un elemento pasivo, un
eslabón más en una cadena".
21 a26.tag.nou Su vibración desguaza sin cuidado la estabilidad de lo dulce y la sincera determinación de lo amargo.
22 a28.tag.nou Prefiere los decorados que contribuyen a dar sensación de realidad a la escena, y si se trata de ambientar una obra moderna, detesta las composiciones con planos geométricos (se
refiere al auge del expresionismo y el cubismo).
23 a26.tag.nou Cada pliegue es una herida definitiva sin remedio o lenitivo.
24 t5.tag.nou Antonia colocó la mano a contraluz y observó cómo la carne se ponía roja y un poco transparente.
25 t5.tag.nou Apartó con sumo cuidado el juego de tocador, un regalo de su abuela cuya función no había pasado nunca de la dudosamente decorativa.
26 a28.tag.nou Agudísima observación de míster Chaplin, que sabe que, pese a todos los reconocimientos, los homenajes, los aplausos dedicados al payaso, el hombre serio o el que sonríe a la
muchedumbre solamente para promocionarse es siempre más respetado que el que hace reír.
27 a26.tag.nou Ya me imaginaba yo que era gente humilde, pero, conociendo la vivienda, era peor que eso.
28 a23.tag.nou Y es que el progreso de nuestra descomposición es la menos ocultable de las incidencias de nuestra vida: todos empeoramos a ojos vistas a partir de cierta edad muy temprana, o
quizá, si Freud no miente, a partir de nuestra fecha de nacimiento.
51
29 a23.tag.nou Lo malo de la mayoría de nuestras más caras ilusiones es que comienzan como proyectos, luego se convierten en deberes y terminan siendo tareas obligatorias cuyo descuido está
legalmente penado.
30 dc3.tag.nou De otro lado, las propiedades conductoras de los materiales moleculares se ven muy afectadas por las interacciones entre los sistemas electrónicos y las vibraciones del retículo
cristalino, llegando en el caso extremo a producirse a bajas temperaturas (próximas al cero absoluto) una distorsión del retículo (transición de Peierls) acompañada de una
transición del comportamiento metálico a aislante.
52
Apéndice B: Fragmento de ejemplo (comparación)
53
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
acabó acabar vmis3s0 acabar vmis3s0
de de sps00 de sps00
desahogarse desahogar vmn0000 - ?
contra contra sps00 contra sps00
Fermina_Daza fermina_daza np00000 Fermina_Daza np00000
. . fp . Fp
Oración 3
El el da0ms0 el da0ms0
campo campo ncms000 campo ncms000
gravitacional gravitacional aq0cs0 - ?
de de sps00 de sps00
estas este dd0fp0 este dd0fp0
lunas luna ncfp000 luna ncfp000
se se p0000000 él p0300000
encarga encargar vmip3s0 encargar vmip3s0
de de sps00 de sps00
retener retener vmn0000 retener vmn0000
en en sps00 en sps00
órbita órbita ncfs000 órbita ncfs000
las el da0fp0 el da0fp0
pequeñas pequeño aq0fp0 pequeño aq0fp0
partículas partícula ncfp000 partícula ncfp000
que que pr0cn000 que pr0cn000
forman formar vmip3p0 formar vmip3p0
el el da0ms0 el da0ms0
anillo anillo ncms000 anillo ncms000
. . fp . Fp
Oración 4
Verle ver vmn0000 ver vmn0000
le él pp3csd00 él pp3csd00
veía ver vmii3s0 ver vmii3s0
lo el da0ns0 el da0ns0
que que pr0cn000 que pr0cn000
se se p0000000 él p0300000
dice decir vmip3s0 decir vmip3s0
mal mal rg mal ncms000
, , fc , Fc
porque porque cs porque cs
la el da0fs0 el da0fs0
mirilla mirilla ncfs000 - ?
era ser vsii3s0 ser vsii1s0
muy mucho rg mucho rg
turbia turbio aq0fs0 - ?
. . fp . Fp
Oración 5
Los el da0mp0 el da0mp0
franceses francés ncmp000 - ?
usan usar vmip3p0 usar vmip3p0
la el da0fs0 el da0fs0
palabra palabra ncfs000 palabra ncfs000
fe Fe
toucher toucher nc00000 - ?
54
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
fe Fe
para para sps00 para sps00
fe Fe
cobrar cobrar nc00000 cobrar vmn0000
fe Fe
. . fp . Fp
Oración 6
Y y cc y cc
el el da0ms0 el da0ms0
tremendo tremendo aq0ms0 - ?
atasco atasco ncms000 atasco ncms000
, , fc , Fc
aunque aunque cs aunque cs
ensayado ensayado aq0msp ensayado aq0msp
previamente previamente rg previamente rg
en en sps00 en sps00
múltiples múltiple aq0cp0 múltiple aq0cp0
ocasiones ocasión ncfp000 ocasión ncfp000
, , fc , Fc
solamente solamente rg solamente rg
ahora ahora rg ahora rg
se él pp3cn000 él p0300000
mostraba mostrar vmii3s0 mostrar vmii3s0
en en sps00 en sps00
su su dp3cs0 su dp3cs0
implacable implacable aq0cs0 - ?
crudeza crudeza ncfs000 - ?
y y cc y cc
duración duración ncfs000 duración ncfs000
imprevisible imprevisible aq0cs0 - ?
. . fp . Fp
Oración 7
Y y cc y cc
es ser vsip3s0 ser vsip3s0
que que cs que cs
el el da0ms0 el da0ms0
humor humor ncms000 humor ncms000
es ser vsip3s0 ser vsip3s0
una uno di0fs0 uno di0fs0
de de sps00 de sps00
las el da0fp0 el da0fp0
mercancías mercancía ncfp000 mercancía ncfp000
literarias literario aq0fp0 literario aq0fp0
que que pr0cn000 que pr0cn000
más más rg más rg
difícilmente difícilmente rg difícilmente rg
conservan conservar vmip3p0 conservar vmip3p0
su su dp3cs0 su dp3cs0
frescura frescura ncfs000 - ?
. . fp . Fp
Oración 8
Apartó apartar vmis3s0 apartar vmis3s0
55
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
con con sps00 con sps00
sumo sumo aq0ms0 sumo aq0ms0
cuidado cuidado ncms000 cuidado aq0msp
el el da0ms0 el da0ms0
juego juego ncms000 juego ncms000
de de sps00 de sps00
tocador tocador ncms000 - ?
, , fc , Fc
un uno di0ms0 uno di0ms0
regalo regalo ncms000 regalo ncms000
de de sps00 de sps00
su su dp3cs0 su dp3cs0
abuela abuela ncfs000 abuela ncfs000
cuya cuyo pr0fs000 cuyo pr0fs000
función función ncfs000 función ncfs000
no no rn no rn
había haber vaii3s0 haber vaii3s0
pasado pasar vmp00sm pasar vmp00sm
nunca nunca rg nunca rg
de de sps00 de sps00
la el da0fs0 el da0fs0
dudosamente dudosamente rg - ?
decorativa decorativo aq0fs0 decorativo aq0fs0
. . fp . Fp
Oración 9
En_vez_de en_vez_de sps00 * *
los el da0mp0 el da0mp0
tres tres dn0cp0 tres dn0cp0
dones don ncmp000 don ncmp000
del del spcms del spcms
hada hada ncfs000 hada ncfs000
, , fc , Fc
un uno di0ms0 uno di0ms0
seguro seguro ncms000 seguro aq0ms0
contra contra sps00 contra sps00
la el da0fs0 el da0fs0
desilusión desilusión ncfs000 - ?
, , fc , Fc
las el da0fp0 el da0fp0
promesas promesa ncfp000 promesa ncfp000
incumplidas incumplido aq0fpp - ?
, , fc , Fc
el el da0ms0 el da0ms0
descubrimiento descubrimiento ncms000 descubrimiento ncms000
del del spcms del spcms
dolor dolor ncms000 dolor ncms000
- - fg - np00000
que que pr0cn000 que pr0cn000
siempre siempre rg siempre rg
se se p0000000 él p0300000
produce producir vmip3s0 producir vmip3s0
demasiado demasiado rg demasiado di0ms0
56
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
pronto pronto rg pronto rg
- - fg - np00000
, , fc , Fc
el el da0ms0 el da0ms0
hecho hecho ncms000 hecho ncms000
de de sps00 de sps00
que que cs que cs
los el da0mp0 el da0mp0
Reyes_Magos reyes_magos np00000 * *
son ser vsip3p0 ser vsip3p0
los el da0mp0 el da0mp0
papás papá ncmp000 - ?
, , fc , Fc
la el da0fs0 el da0fs0
inesperada inesperado aq0fs0 inesperado aq0fs0
halitosis halitosis ncfn000 - ?
del del spcms del spcms
primer primero ao0ms0 primero ao0ms0
amor amor ncms000 amor ncms000
y y cc y cc
también también rg también rg
las el da0fp0 el da0fp0
películas película ncfp000 película ncfp000
con con sps00 con sps00
finales final ncfp000 final aq0cp0
infelices infeliz aq0cp0 - ?
. . fp . Fp
Oración 10
Gregorio_Marañón gregorio_marañón np00000 Gregorio_Marañón np00000
explica explicar vmip3s0 explicar vmip3s0
en en sps00 en sps00
su su dp3cs0 su dp3cs0
ensayo ensayo ncms000 ensayo ncms000
sobre sobre sps00 sobre sps00
Don_Juan don_juan np00000 * *
que que cs que cs
la el da0fs0 el da0fs0
reacción reacción ncfs000 reacción ncfs000
psicológica psicológico aq0fs0 - ?
específica específico aq0fs0 específico aq0fs0
del del spcms del spcms
varón varón ncms000 varón ncms000
es ser vsip3s0 ser vsip3s0
el el da0ms0 el da0ms0
culto culto ncms000 culto ncms000
del del spcms del spcms
honor honor ncms000 honor ncms000
, , fc , Fc
de de sps00 de sps00
la el da0fs0 él pp3fsa00
honra honra ncfs000 honrar vmip3s0
llevado llevado aq0msp llevado aq0msp
57
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
hasta hasta sps00 hasta sps00
el el da0ms0 el da0ms0
máximo máximo aq0ms0 máximo aq0ms0
sacrificio sacrificio ncms000 sacrificio ncms000
; ; fx ; Fx
si si cs si cs
es ser vsip3s0 ser vsip3s0
necesario necesario aq0ms0 necesario aq0ms0
hasta hasta sps00 hasta sps00
la el da0fs0 el da0fs0
venganza venganza ncfs000 venganza ncfs000
y y cc y cc
el el da0ms0 el da0ms0
crimen crimen ncms000 crimen ncms000
, , fc , Fc
que que cs que cs
el el da0ms0 el da0ms0
honor honor ncms000 honor ncms000
se se p0000000 él p0300000
justifica justificar vmip3s0 justificar vmip3s0
siempre siempre rg siempre rg
fe Fe
. . fp . Fp
Oración 11
¿ ¿ fia ¿ Fia
Hay haber vaip3s0 haber vaip3s0
vida vida ncfs000 vida ncfs000
en en sps00 en sps00
alguna alguno di0fs0 alguno di0fs0
galaxia galaxia ncfs000 - ?
? ? fit ? Fit
Y y cc y cc
ovnis ovni ncmp000 - ?
en en sps00 en sps00
Barbastro barbastro np00000 Barbastro np00000
. . fp . Fp
- - fg * *
- - fg * *
Oración 12
Son ser vsip3p0 ser vsip3p0
tan tanto rg tan rg
raros raro aq0mp0 raro aq0mp0
, , fc , Fc
los el da0mp0 el da0mp0
hombres hombre ncmp000 hombre ncmp000
. . fp . Fp
Oración 13
Son ser vsip3p0 ser vsip3p0
moléculas molécula ncfp000 molécula ncfp000
capaces capaz aq0cp0 capaces aq0cp0
de de sps00 de sps00
transferencia transferencia ncfs000 transferencia ncfs000
58
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
electrónica electrónico aq0fs0 electrónico aq0fs0
por por sps00 por sps00
sí él pp3cno00 él pp3cnO00
mismas mismo di0fp0 mismo pi0fp000
. . fp . Fp
Oración 14
Esto este pd0ns000 este pd0ns000
pasa pasar vmip3s0 pasar vmip3s0
en en sps00 en sps00
las el da0fp0 el da0fp0
familias familia ncfp000 familia ncfp000
donde donde pr000000 donde pr000000
el el da0ms0 el da0ms0
padre padre ncms000 padre ncms000
lo él pp3msa00 él pp3msa00
gana ganar vmip3s0 ganar vmip3s0
, , fc , Fc
o o cc o cc
donde donde pr000000 donde pr000000
padre padre ncms000 padre ncms000
y y cc y cc
madre madre ncfs000 madre ncfs000
trabajan trabajar vmip3p0 trabajar vmip3p0
; ; fx ; Fx
pero pero cc pero cc
cada cada di0cs0 cada di0cs0
vez vez ncfs000 vez ncfs000
hay haber vaip3s0 haber vaip3s0
más más rg más rg
familias familia ncfp000 familia ncfp000
donde donde pr000000 donde pr000000
el el da0ms0 el da0ms0
abuelo abuelo ncms000 abuelo ncms000
es ser vsip3s0 ser vsip3s0
el el da0ms0 el da0ms0
único único aq0ms0 único aq0ms0
que que pr0cn000 que pr0cn000
tiene tener vmip3s0 tener vmip3s0
un uno di0ms0 uno di0ms0
trabajo trabajo ncms000 trabajo ncms000
fijo fijo aq0ms0 fijo aq0ms0
. . fp . Fp
Oración 15
En en sps00 en sps00
1903 [??:??/??/1903:??.?? w en z
]
fundó fundar vmis3s0 fundar vmis3s0
su su dp3cs0 su dp3cs0
primera primero ao0fs0 primero ao0fs0
compañía compañía ncfs000 compañía ncfs000
con con sps00 con sps00
doce doce dn0cp0 doce dn0cp0
59
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
socios socio ncmp000 socio ncmp000
. . fp . Fp
Oración 16
Y y cc y cc
en en sps00 en sps00
la el da0fs0 el da0fs0
mayor mayor aq0cs0 mayor aq0cs0
parte parte ncfs000 parte ncfs000
de de sps00 de sps00
la el da0fs0 el da0fs0
prensa prensa ncfs000 prensa ncfs000
española español aq0fs0 español aq0fs0
, , fc , Fc
ni ni cc ni cc
aparece aparecer vmip3s0 aparecer vmip3s0
. . fp . Fp
Oración 17
El el da0ms0 el da0ms0
investigador investigador ncms000 investigador ncms000
que que pr0cn000 que pr0cn000
nunca nunca rg nunca rg
descubre descubrir vmip3s0 descubrir vmip3s0
nada nada pi0cs000 nada pi0cs000
que que pr0cn000 que pr0cn000
no no rn no rn
se se p0000000 él p0300000
populariza popularizar vmip3s0 - ?
gracias_a gracias_a sps00 gracias_a sps00
algún alguno di0ms0 algún di0ms0
descubrimiento descubrimiento ncms000 descubrimiento ncms000
suficientemente suficientemente rg suficientemente rg
espectacular espectacular aq0cs0 espectacular aq0cs0
que que pr0cn000 que cs
lo él pp3msa00 él pp3msa00
haga hacer vmsp3s0 hacer vmsp3s0
aparecer aparecer vmn0000 aparecer vmn0000
en en sps00 en sps00
algún alguno di0ms0 algún di0ms0
magazine magazine ncms000 - ?
televisivo televisivo aq0ms0 televisivo aq0ms0
, , fc , Fc
va ir vmip3s0 ir vmip3s0
perdiendo perder vmg0000 perder vmg0000
las el da0fp0 el da0fp0
fuentes fuente ncfp000 fuente ncfp000
de de sps00 de sps00
financiación financiación ncfs000 financiación ncfs000
. . fp . Fp
Oración 18
Los el da0mp0 el da0mp0
nacionalistas nacionalista nccp000 nacionalista aq0cp0
, , fc , Fc
60
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
que que pr0cn000 que pr0cn000
son ser vsip3p0 ser vsip3p0
los el da0mp0 el da0mp0
garantes garante nccp000 - ?
de de sps00 de sps00
este este dd0ms0 este dd0ms0
decrépito decrépito aq0ms0 - ?
Ejecutivo ejecutivo np00000 ejecutivo aq0ms0
, , fc , Fc
esperan esperar vmip3p0 esperar vmip3p0
los el da0mp0 el da0mp0
resultados resultado ncmp000 resultado ncmp000
del del spcms del spcms
día_12 [??:12/??/??:??.??] w * *
. . fp . Fp
Oración 19
Miré mirar vmis1s0 mirar vmis1s0
alrededor alrededor rg alrededor rg
, , fc , Fc
y y cc y cc
los el da0mp0 el da0mp0
invitados invitado ncmp000 invitar aq0mpp
, , fc , Fc
con con sps00 con sps00
los el da0mp0 el da0mp0
carrillos carrillo ncmp000 - ?
llenos lleno aq0mp0 lleno aq0mp0
, , fc , Fc
seguían seguir vmii3p0 seguir vmii3p0
gastándose gastar vmg0000 - ?
bromas broma ncfp000 broma ncfp000
. . fp . Fp
Oración 20
Finalmente Finalmente rg finalmente rg
, , fc , Fc
el el da0ms0 el da0ms0
autor autor ncms000 autor ncms000
da dar vmip3s0 dar vmip3s0
a a sps00 a sps00
entender entender vmn0000 entender vmn0000
que que cs que cs
la el da0fs0 el da0fs0
pareja pareja ncfs000 pareja ncfs000
se él p0300000 él p0300000
dedicaba dedicar vmii3s0 dedicar vmii3s0
a a sps00 a sps00
hacer hacer vmn0000 hacer vmn0000
siempre siempre rg siempre rg
el el da0ms0 el da0ms0
mismo mismo di0ms0 mismo di0ms0
número número ncms000 número ncms000
: : fd : Fd
61
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
fe Fe
Entendí entender vmis1s0 entender vmis1s0
al_fin al_fin rg * *
que que cs que pr0cn000
en en sps00 en sps00
aquel aquel dd0ms0 aquel dd0ms0
asunto asunto ncms000 asunto ncms000
yo yo pp1csn00 yo pp1csn00
no no rn no rn
había haber vaii1s0 haber vaii3s0
sido ser vsp00sm ser vsp00sm
un uno di0ms0 uno di0ms0
elemento elemento ncms000 elemento ncms000
pasivo pasivo aq0ms0 pasivo aq0ms0
, , fc , Fc
un uno di0ms0 uno di0ms0
eslabón eslabón ncms000 eslabón ncms000
más más rg más rg
en en sps00 en sps00
una uno di0fs0 uno di0fs0
cadena cadena ncfs000 cadena ncfs000
fe Fe
. . fp . Fp
Oración 21
Su su dp3cs0 su dp3cs0
vibración vibración ncfs000 vibración ncfs000
desguaza desguazar vmip3s0 - ?
sin sin sps00 sin sps00
cuidado cuidado ncms000 cuidado aq0msp
la el da0fs0 el da0fs0
estabilidad estabilidad ncfs000 estabilidad ncfs000
de de sps00 de sps00
lo el da0ns0 el da0ns0
dulce dulce aq0cs0 dulce aq0cs0
y y cc y cc
la el da0fs0 el da0fs0
sincera sincero aq0fs0 sincero aq0fs0
determinación determinación ncfs000 determinación ncfs000
de de sps00 de sps00
lo el da0ns0 el da0ns0
amargo amargo aq0ms0 amargo aq0ms0
. . fp . Fp
Oración 22
Prefiere preferir vmip3s0 preferir vmip3s0
los el da0mp0 el da0mp0
decorados decorado ncmp000 decorar aq0mpp
que que pr0cn000 que pr0cn000
contribuyen contribuir vmip3p0 contribuir vmip3p0
a a sps00 a sps00
dar dar vmn0000 dar vmn0000
sensación sensación ncfs000 sensación ncfs000
de de sps00 de sps00
62
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
realidad realidad ncfs000 realidad ncfs000
a a sps00 a sps00
la el da0fs0 el da0fs0
escena escena ncfs000 escena ncfs000
, , fc , Fc
y y cc y cc
si si cs si cs
se se p0000000 él p0300000
trata tratar vmip3s0 tratar vmip3s0
de de sps00 de sps00
ambientar ambientar vmn0000 - ?
una uno di0fs0 uno di0fs0
obra obra ncfs000 obra ncfs000
moderna moderno aq0fs0 moderno aq0fs0
, , fc , Fc
detesta detestar vmip3s0 - ?
las el da0fp0 el da0fp0
composiciones composición ncfp000 composición ncfp000
con con sps00 con sps00
planos plano ncmp000 plano ncmp000
geométricos geométrico aq0mp0 geométrico aq0mp0
( ( fpa ( Fpa
se él p0300000 él p0300000
refiere referir vmip3s0 referir vmip3s0
al al spcms al spcms
auge auge ncms000 auge ncms000
del del spcms del spcms
expresionismo expresionismo ncms000 - ?
y y cc y cc
el el da0ms0 el da0ms0
cubismo cubismo ncms000 - ?
) ) fpt ) Fpt
. . fp . Fp
Oración 23
Cada cada di0cs0 cada di0cs0
pliegue pliegue ncms000 - ?
es ser vsip3s0 ser vsip3s0
una uno di0fs0 uno di0fs0
herida herida ncfs000 herir aq0fsp
definitiva definitivo aq0fs0 definitivo aq0fs0
sin sin sps00 sin sps00
remedio remedio ncms000 remedio ncms000
o o cc o cc
lenitivo lenitivo ncms000 - ?
. . fp . Fp
Oración 24
Antonia antonia np00000 Antonia np00000
colocó colocar vmis3s0 colocar vmis3s0
la el da0fs0 el da0fs0
mano mano ncfs000 mano ncfs000
a a sps00 a sps00
contraluz contraluz nccs000 - ?
63
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
y y cc y cc
observó observar vmis3s0 observar vmis3s0
cómo cómo pt000000 cómo pt000000
la el da0fs0 el da0fs0
carne carne ncfs000 carne ncfs000
se él p0300000 él p0300000
ponía poner vmii3s0 poner vmii3s0
roja rojo aq0fs0 roja ncfs000
y y cc y cc
un uno di0ms0 uno di0ms0
poco poco pi0ms000 poco pi0ms000
transparente transparente aq0cs0 transparente aq0cs0
. . fp . Fp
Oración 25
Apartó apartar vmis3s0 apartar vmis3s0
con con sps00 con sps00
sumo sumo aq0ms0 sumo aq0ms0
cuidado cuidado ncms000 cuidado aq0msp
el el da0ms0 el da0ms0
juego juego ncms000 juego ncms000
de de sps00 de sps00
tocador tocador ncms000 - ?
, , fc , Fc
un uno di0ms0 uno di0ms0
regalo regalo ncms000 regalo ncms000
de de sps00 de sps00
su su dp3cs0 su dp3cs0
abuela abuela ncfs000 abuela ncfs000
cuya cuyo pr0fs000 cuyo pr0fs000
función función ncfs000 función ncfs000
no no rn no rn
había haber vaii3s0 haber vaii3s0
pasado pasar vmp00sm pasar vmp00sm
nunca nunca rg nunca rg
de de sps00 de sps00
la el da0fs0 el da0fs0
dudosamente dudosamente rg - ?
decorativa decorativo aq0fs0 decorativo aq0fs0
. . fp . Fp
Oración 26
Agudísima agudísimo aq0fs0 Agudísima np00000
observación observación ncfs000 observación ncfs000
de de sps00 de sps00
míster míster ncms000 - ?
Chaplin chaplin np00000 Chaplin np00000
, , fc , Fc
que que pr0cn000 que pr0cn000
sabe saber vmip3s0 saber vmip3s0
que que cs que cs
, , fc , Fc
pese_a pese_a sps00 pese_a sps00
todos todo di0mp0 todo di0mp0
64
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
los el da0mp0 el da0mp0
reconocimientos reconocimiento ncmp000 reconocimiento ncmp000
, , fc , Fc
los el da0mp0 el da0mp0
homenajes homenaje ncmp000 - ?
, , fc , Fc
los el da0mp0 el da0mp0
aplausos aplauso ncmp000 aplauso ncmp000
dedicados dedicado aq0mpp dedicar aq0mpp
al al spcms al spcms
payaso payaso ncms000 - ?
, , fc , Fc
el el da0ms0 el da0ms0
hombre hombre ncms000 hombre ncms000
serio serio aq0ms0 serio aq0ms0
o o cc o cc
el el da0ms0 el da0ms0
que que pr0cn000 que pr0cn000
sonríe sonreír vmip3s0 sonreír vmip3s0
a a sps00 a sps00
la el da0fs0 el da0fs0
muchedumbre muchedumbre ncfs000 muchedumbre ncfs000
solamente solamente rg solamente rg
para para sps00 para sps00
promocionarse promocionar vmn0000 promocionar vmn0000
es ser vsip3s0 ser vsip3s0
siempre siempre rg siempre rg
más más rg más rg
respetado respetar vmp00sm respetado aq0msp
que que cs que cs
el el da0ms0 el da0ms0
que que pr0cn000 que pr0cn000
hace hacer vmip3s0 hacer vmip3s0
reír reír vmn0000 reír vmn0000
. . fp . Fp
Oración 27
Ya ya rg ya rg
me yo pp1cs000 me pp1cs000
imaginaba imaginar vmii3s0 imaginar vmii3s0
yo yo pp1csn00 yo pp1csn00
que que cs que pr0cn000
era ser vsii3s0 ser vsii1s0
gente gente ncfs000 gente ncfs000
humilde humilde aq0cs0 humilde aq0cs0
, , fc , Fc
pero pero cc pero cc
, , fc , Fc
conociendo conocer vmg0000 conocer vmg0000
la el da0fs0 el da0fs0
vivienda vivienda ncfs000 vivienda ncfs000
, , fc , Fc
era ser vsii3s0 ser vsii1s0
65
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
peor peor aq0cs0 peor aq0cs0
que que cs que pr0cn000
eso ese pd0ns000 ese pd0ns000
. . fp . Fp
Oración 28
Y y cc y cc
es ser vsip3s0 ser vsip3s0
que que cs que cs
el el da0ms0 el da0ms0
progreso progreso ncms000 progreso ncms000
de de sps00 de sps00
nuestra nuestro dp1fsp nuestro dp1fsp
descomposición descomposición ncfs000 - ?
es ser vsip3s0 ser vsip3s0
la el da0fs0 el da0fs0
menos menos rg menos rg
ocultable ocultable aq0cs0 - ?
de de sps00 de sps00
las el da0fp0 el da0fp0
incidencias incidencia ncfp000 incidencia ncfp000
de de sps00 de sps00
nuestra nuestro dp1fsp nuestro dp1fsp
vida vida ncfs000 vida ncfs000
: : fd : Fd
todos todo pi0mp000 todo di0mp0
empeoramos empeorar vmip1p0 - ?
a_ojos_vistas a_ojos_vistas rg * *
a_partir_de a_partir_de sps00 * *
cierta cierto aq0fs0 cierta di0fs0
edad edad ncfs000 edad ncfs000
muy mucho rg mucho rg
temprana temprano aq0fs0 temprano aq0fs0
, , fc , Fc
o o cc o cc
quizá quizá rg quizá rg
, , fc , Fc
si si cs si cs
Freud freud np00000 Freud np00000
no no rn no rn
miente mentir vmip3s0 - ?
, , fc , Fc
a_partir_de a_partir_de sps00 * *
nuestra nuestro dp1fsp nuestro dp1fsp
fecha fecha ncfs000 fecha ncfs000
de de sps00 de sps00
nacimiento nacimiento ncms000 nacimiento ncms000
. . fp . Fp
Oración 29
Lo el da0ns0 el da0ns0
malo malo aq0ms0 malo aq0ms0
de de sps00 de sps00
la el da0fs0 el da0fs0
66
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
mayoría mayoría ncfs000 mayoría ncfs000
de de sps00 de sps00
nuestras nuestro dp1fpp nuestro dp1fpp
más más rg más rg
caras caro aq0fp0 caro aq0fp0
ilusiones ilusión ncfp000 ilusión ncfp000
es ser vsip3s0 ser vsip3s0
que que cs que cs
comienzan comenzar vmip3p0 comenzar vmip3p0
como como cs como cs
proyectos proyecto ncmp000 proyecto ncmp000
, , fc , Fc
luego luego rg luego rg
se él p0300000 él p0300000
convierten convertir vmip3p0 convertir vmip3p0
en en sps00 en sps00
deberes deber ncmp000 deberes ncmp000
y y cc y cc
terminan terminar vmip3p0 terminar vmip3p0
siendo ser vsg0000 ser vsg0000
tareas tarea ncfp000 tarea ncfp000
obligatorias obligatorio aq0fp0 obligatorio aq0fp0
cuyo cuyo pr0ms000 cuyo pr0ms000
descuido descuido ncms000 descuidar vmip1s0
está estar vmip3s0 estar vmip3s0
legalmente legalmente rg legalmente rg
penado penado aq0msp - ?
. . fp . Fp
Oración 30
De_otro_lado de_otro_lado rg de_otro_lado rg
, , fc , Fc
las el da0fp0 el da0fp0
propiedades propiedad ncfp000 propiedad ncfp000
conductoras conductor aq0fp0 - ?
de de sps00 de sps00
los el da0mp0 el da0mp0
materiales material ncmp000 material ncmp000
moleculares molecular aq0cp0 molecular aq0cp0
se él p0300000 él p0300000
ven ver vmip3p0 ver vmip3p0
muy mucho rg mucho rg
afectadas afectado aq0fpp afectar aq0fpp
por por sps00 por sps00
las el da0fp0 el da0fp0
interacciones interacción ncfp000 interacción ncfp000
entre entre sps00 entre sps00
los el da0mp0 el da0mp0
sistemas sistema ncmp000 sistema ncmp000
electrónicos electrónico aq0mp0 electrónico aq0mp0
y y cc y cc
las el da0fp0 el da0fp0
vibraciones vibración ncfp000 vibración ncfp000
67
Palabra Etiqueta Lema Etiqueta asignada Lema asignado por
corregida corregido por PETRA tag 1 PETRA tag 1
del del spcms del spcms
retículo retículo ncms000 - ?
cristalino cristalino aq0ms0 cristalino aq0ms0
, , fc , Fc
llegando llegar vmg0000 llegar vmg0000
en en sps00 en sps00
el el da0ms0 el da0ms0
caso caso ncms000 caso ncms000
extremo extremo aq0ms0 extremo aq0ms0
a a sps00 a sps00
producirse producir vmn0000 producir vmn0000
a a sps00 a sps00
bajas bajo aq0fp0 bajo aq0fp0
temperaturas temperatura ncfp000 temperatura ncfp000
( ( fpa ( Fpa
próximas próximo aq0fp0 próximo aq0fp0
al al spcms al spcms
cero cero ncms000 cero dn0cp0
absoluto absoluto aq0ms0 absoluto aq0ms0
) ) fpt ) Fpt
una uno di0fs0 uno di0fs0
distorsión distorsión ncfs000 distorsión ncfs000
del del spcms del spcms
retículo retículo ncms000 - ?
( ( fpa ( Fpa
transición transición ncfs000 transición ncfs000
de de sps00 de sps00
Peierls peierls np00000 Peierls np00000
) ) fpt ) Fpt
acompañada acompañado aq0fsp acompañar aq0fsp
de de sps00 de sps00
una uno di0fs0 uno di0fs0
transición transición ncfs000 transición ncfs000
del del spcms del spcms
comportamiento comportamiento ncms000 comportamiento ncms000
metálico metálico aq0ms0 metálico aq0ms0
a a sps00 a sps00
aislante aislante aq0cs0 - ?
. . fp . Fp
68
Apéndice C: Lista de palabras no etiquetadas
Palabra Frecuencia Palabra Frecuencia
tocador 2 populariza 1
dudosamente 2 magazine 1
retículo 2 garantes 1
planchaban 1 decrépito 1
planchar 1 carrillos 1
parafina 1 gastándose 1
desahogarse 1 desguaza 1
gravitacional 1 ambientar 1
mirilla 1 detesta 1
turbia 1 expresionismo 1
franceses 1 cubismo 1
toucher 1 pliegue 1
tremendo 1 lenitivo 1
implacable 1 contraluz 1
crudeza 1 míster 1
imprevisible 1 homenajes 1
frescura 1 payaso 1
sobrantes 1 descomposición 1
cosiendo 1 ocultable 1
desilusión 1 empeoramos 1
incumplidas 1 miente 1
papás 1 penado 1
halitosis 1 conductoras 1
infelices 1 reponer 1
psicológica 1 Aislante 1
galaxia 1
ovnis 1
69
Apéndice D: Etiquetado correcto de las palabras desconocidas
70
Apéndice E: Guía de etiquetado
1. Adjetivos
Adjetivos
Pos. Atributo Valor Código
1 Categoría Adjetivo A
2 Tipo Calificativo Q
3 Grado Apreciativo A
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso - 0
7 Función Participio P
2. Adverbios
Adverbios
Pos. Atributo Valor Código
1 Categoría Adverbio R
2 Tipo General G
3 - - 0
4 - - 0
5 - - 0
3. Artículos
Artículos
Pos. Atributo Valor Código
1 Categoría Artículo T
2 Tipo Definido D
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
5 Caso - 0
71
4. Determinantes
Determinantes
Pos. Atributo Valor Código
1 Categoría Determinante D
2 Tipo Demostrativo D
Posesivo P
Interrogativo T
Exclamativo E
Indefinido I
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso - 0
7 Poseedor 1ª persona-sg 1
2ª persona-sg 2
3ª persona 0
1ª persona-pl 4
2ª persona-pl 5
5. Nombres
Nombres
Pos. Atributo Valor Código
1 Categoría Nombre N
2 Tipo Común C
Propio P
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N
5 Caso - 0
6 Género semántico - 0
7 Grado Apreciativo A
72
6. Verbos
Verbos
Pos. Atributo Valor Código
1 Categoría Verbo V
2 Tipo Principal M
Auxiliar A
3 Modo Indicativo I
Subjuntivo S
Imperativo M
Condicional C
Infinitivo N
Gerundio G
Participio P
4 Tiempo Presente P
Imperfecto I
Futuro F
Pasado S
5 Persona Primera 1
Segunda 2
Tercera 3
6 Número Singular S
Plural P
7 Género Masculino M
Femenino F
73
7. Pronombres
Pronombres
Pos. Atributo Valor Código
1 Categoría Pronombre P
2 Tipo Personal P
Demostrativo D
Posesivo X
Indefinido I
Interrogativo T
Relativo R
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Caso Nominativo N
Acusativo A
Dativo D
Oblicuo O
7 Poseedor 1ª persona-sg 1
2ª persona-sg 2
3ª persona 0
1ª persona-pl 4
2ª persona-pl 5
8 Politeness Polite P
8. Conjunciones
Conjunciones
Pos. Atributo Valor Código
1 Categoría Conjunción C
2 Tipo Coordinada C
Subordinada S
3 - - 0
4 - - 0
74
9. Numerales
Numerales
Pos. Atributo Valor Código
1 Categoría Numeral M
2 Tipo Cardinal C
Ordinal O
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
5 Caso - 0
6 Función Pronominal P
Determinante D
Adjetivo A
10. Interjecciones
Interjecciones
Pos. Atributo Valor Código
1 Categoría Interjección I
11. Abreviaturas
Abreviaturas
Pos. Atributo Valor Código
1 Categoría Abreviatura Y
12. Preposiciones
Preposiciones
Pos. Atributo Valor Código
1 Categoría Adposición S
2 Tipo Preposición P
3 Forma Simple S
Contraída C
3 Género Masculino M
4 Número Singular S
13. Signos de puntuación
Signos de puntuación
Pos. Atributo Valor Código
1 Categoría Puntuación F
75