Sunteți pe pagina 1din 23

2 TERMINOLOGA

La palabra terminologa en una primera instancia se puede considerar como la materia de


interseccin que se ocupa de la designacin de los conceptos de las lenguas de especialidad
(Cabr, 1992). Un lenguaje especializado es un lenguaje que se usa en un campo del
conocimiento y que se caracteriza por el uso de medios especficos de expresin lingstica
(ISO 1087-1:2000, 2000). Por tanto, en otras palabras, la terminologa, como disciplina, es
una materia interdisciplinaria que se encarga de designar conceptos del lenguaje que se
emplean en los campos del conocimiento y que tienen caractersticas especficas que las
diferencian de la lengua general o cotidiana.
A lo largo de este tercer captulo se abordar la terminologa no solamente como disciplina
sino tambin sus aplicaciones, su relacin con el procesamiento de lenguaje y la aplicacin
de ambas materias en diversos sistemas y herramientas.

2.1 Terminologa y terminografa


La Terminologa, no slo designa a una disciplina, sino tambin define el conjunto de
unidades lxicas usadas con un valor preciso en los mbitos de especialidad (Cabr, 1992).
Es decir, todo el grupo de conceptos que la terminologa, como disciplina, designa. Tomando
en cuenta lo anterior, para Cabr (1992), existen cuatro puntos que muestran los distintos
enfoques sobre el estudio y la prctica de la terminologa:

Para los lingistas, la terminologa es una parte del lxico delimitada por criterios
temticos y pragmticos.

Para los especialistas, la terminologa es el reflejo formal de la organizacin


conceptual de una especialidad, y un medio inevitable de expresin y de
comunicacin profesional.

Para los usuarios (directos e intermediarios), la terminologa es un conjunto de


unidades de comunicacin, tiles y prcticas, cuyo valor se mide en funcin de
criterios de economa, de precisin y de adecuacin.
31

Para los planificadores lingsticos, la terminologa es un mbito del lenguaje donde


se debe intervenir para reafirmar la existencia, la utilidad y la pervivencia de una
lengua, y para garantizar, mediante su modernizacin, su continuidad como medio de
expresin.

2.1.1 Los trminos


Una unidad terminolgica, o trmino, es un smbolo convencional que representanta una
nocin definida en un cierto dominio del saber (Lrat, 1989). La unin de varios trminos,
forman la terminologa del dominio de especialidad.
Existen distintos tipos de trminos, estos se suelen clasificar de distinta manera, en
torno a cuatro aspectos que son forma, funcin, significado y procedencia (Cabr, 1992).
El aspecto de forma es un conjunto de criterios que no son necesariamente
excluyentes y que expresan la manera en que un trmino puede estar conformado. Estos
criterios son los siguientes:

Nmero de morfemas7: Dependiendo del nmero de morfemas un trmino puede ser


simple o complejo. Ejemplo: cuadern-o, cuadern-os, en-cuadern-ado.

Tipos de morfemas: Los distintos tipos de morfemas existentes en un trmino


complejo determinan si es derivado o compuesto. Ejemplos de derivados son frutera, libr-ero, verd-oso. En cambio, algunos ejemplos de trminos compuestos son parabrisas, saca-corchos, balon-cesto.

Estructura: Existen trminos complejos que son la combinacin de palabras que


siguen una determinada estructura sintctica. Algunos ejemplos de estructuras que se
emplean en el espaol son sustantivo-preposicin-sustantivo (mtodo de NewtonRaphson), sustantivo-adjetivo (cristal lquido).

Segn el diccionario de la Real Academia Espaola un morfema es la unidad mnima analizable que posee
slo significado gramatical. En otras palabras es la parte variante de la palabra que otorga un significado y
permite formar nuevas palabras. Ejemplo: ni-o, ni-a, ni-os, ni-as

32

Origen complejo: En algunos casos los trminos simples provienen de trminos


complejos; casos de este criterio son las abreviaturas (Del., av.), las siglas (SIDA,
ONU), acrnimos (bit, sonar) o formas abreviadas (tele, cine).
El segundo aspecto existente es el de funcin, es decir, los trminos siempre tienen

una funcin determinada en las oraciones. Estas funciones pueden ser de nombres, adjetivos,
verbos y adverbios. En el caso de las palabras funcionales, como las preposiciones,
conjunciones, artculos, entre otros, Cabr (1992) indica que no tienen un carcter
terminolgico.
El aspecto siguiente es el de significado, el cual indica que un trmino denomina una
determinada clase de conceptos. Para Cabr (1992) se pueden establecer cuatro grandes
clases conceptuales que son las siguientes:

Objetos o entidades: Nombres.

Procesos, operaciones o acciones: Verbos, nominalizaciones de verbos8.

Propiedades, estados, cualidades: Adjetivos.

Relaciones: Adjetivos, verbos.


El ltimo aspecto que es mencionado por Cabr es el de procedencia lingstica, es

decir, los trminos pueden ser creados o construidos a partir de reglas del propio lenguaje o
provenir de otras lenguas.

2.1.2 La terminografa
La terminografa es la rama aplicada de la terminologa que se ocupa de la elaboracin de
diccionarios especializados o de glosarios terminolgicos (Cabr, 1995). Esta tarea incluye
adems la compilacin, la sistematizacin y la presentacin de los trminos de las reas de
especializacin.

Es el proceso de convertir un verbo en un sustantivo, por ejemplo gotear goteo.

33

Aunque la tarea de la terminografa es similar al de la lexicografa9 (el de crear


diccionarios y glosarios), estas dos tareas difieren en el mtodo que emplean, la forma en que
emplean los datos y la manera en que presentan los resultados.
Mientras que la lexicografa sigue un proceso semasiolgico, es decir, a partir del
trmino crea la definicin; la terminografa parte de la definicin o de una lista de conceptos
para determinar su trmino (que corresponda a la forma en que se emplea en el rea
especializada), es decir, sigue un proceso onomasiolgico.
De igual forma, dentro del proceso de la terminografa se lleva a cabo una
normalizacin, esto quiere decir que se busca estandarizar los trminos que se emplean
dentro de un rea especializada para conseguir una comunicacin profesional precisa,
moderna y unvoca (Cabr, 1995).
El proceso de la terminografa est conformado por seis fases que son las siguientes
(Cabr, 1992):

Definicin y delimitacin del trabajo: En esta primera fase se debe definir el tema a
trabajar, cul es el pblico al que va dirigido, cul es la funcin que va a tener el
trabajo y el alcance de la obra en funcin de las condiciones anteriores, pero tambin
de las econmicas, temporales, materiales, acadmicas, entre otras.

Preparacin del trabajo: Consiste en adquirir y reunir toda la informacin sobre el


tema a trabajar, en la seleccin de asesores de trabajo, en la estructuracin que se va
emplear y en la propuesta del plan de trabajo.

Elaboracin de la terminologa: En la tercera fase de la terminografa se localizan


los trminos en el corpus y se determina que pertenezcan al rea analizada.

Presentacin del trabajo: En esta fase se crea la publicacin que contendr el


trabajo realizado en las etapas anteriores.

Es la rama aplicada de la lexicologa. Segn la RAE la lexicologa es el estudio de las unidades lxicas de una
lengua y de las relaciones sistemticas que se establecen entre ellas.

34

Supervisin del trabajo: Durante esta fase se juntan los expertos en terminologa y
los del rea determinada para supervisar que el trabajo realizado no tenga problemas
y sea el adecuado.

Tratamiento y resolucin de los casos problemticos: Si existen casos


problemticos es necesario resolverlos; para ello se emplean diversos caminos
dependiendo del caso, como consultar bibliografa complementaria, consultar a
especialistas en la materia, lexicgrafos, especialistas multilinges o consultar a
organismos oficiales de normalizacin.

2.1.3 Extraccin de informacin terminolgica


El desarrollo de nuevas materias de investigacin y aplicacin, como la informtica o las
ciencias computacionales, y su incursin dentro de diversas reas, han hecho que muchas
materias de investigacin cambien su metodologa, planteamiento o rendimiento. La
terminologa no es la excepcin, ya que en la actualidad existe la termintica. Para Cabr
(1992) la termintica es la materia que se ocupa, en general, de las relaciones entre la
informtica y la terminologa; y, en particular, que trata de la aplicacin de la informtica al
trabajo terminolgico.
Esta incursin de la informtica en el rea de la terminologa, de manera ms
especfica en la terminografa ha adquirido cierto protagonismo en algunas de las tareas que
se llevan a cabo en la metodologa, como la documentacin previa, la constitucin del
corpus, la verificacin de la informacin, entre otras tareas. Pero tambin la extraccin de
trminos ha sido una de las tareas donde la informtica, especficamente el PLN, participa
activamente por medio de la extraccin de informacin, esto ha desarrollado la extraccin de
informacin terminolgica, extraccin terminolgica o terminology extraction (TE).
La extraccin de informacin terminolgica es el uso de mtodos propios de la
extraccin de informacin con el objetivo de extraer los trminos de un corpus apoyndose
en el poder de procesamiento de las computadoras.
Cabe destacar que la extraccin terminolgica est altamente relacionada con la
recuperacin de informacin, no solamente porque la extraccin de informacin est
relacionada con esa tarea, sino por que frecuentemente los trminos (empleando su sentido de
35

la bsqueda de informacin) que indizan los documentos son los trminos (en su sentido
lingstico) que conforman a un documento. La nica diferencia es que la extraccin
terminolgica busca obtener todas las unidades terminolgicas y no slo las ms
representativas de un documento. Por tanto, son constantemente empleadas tcnicas que en
un principio eran solamente de indizacin de documentos en sistemas de extraccin de
terminologa.

2.2 Sistemas actuales de extraccin terminolgica


Segn Cabr et al. (2001) desde el 2000 los lingistas computacionales, los investigadores en
lingista aplicada, traductores, intrpretes, periodistas, cientficos e ingenieros en
computacin han estado interesados en el aislamiento automtico de la terminologa de
textos. La razn de ello es que la terminologa no slo sirve para crear diccionarios o
glosarios, tambin es til en la traduccin automtica, en el resumen automtico, en bases de
conocimiento, en sistemas expertos, entre otras tareas.
Por lo anterior se han desarrollado sistemas que extraigan de manera automtica la
terminologa de grandes cantidades de texto, de una manera rpida. Sin embargo, con el paso
del tiempo los desarrolladores de los sistemas de extraccin terminolgica han observado que
existen diversas complicaciones la cuales, segn Cabr et al. (2001), son las siguientes:

Identificacin de trminos complejos, es decir, se necesita reconocer cundo una


unidad discursiva10 constituye una frase terminolgica y dnde comienza y termina
sta.

Identificacin de la naturaleza terminolgica de una unidad lxica11, esto es, conocer


cuando dentro de un texto especializado una unidad lxica tiene una naturaleza
terminolgica o pertenece al lenguaje general.

La propiedad y conveniencia de una unidad terminolgica en un vocabulario dado.

10

Una unidad discursiva es una estructura que puede ser identificable dentro de un texto (http://linguisticsontology.org/gold/DiscourseUnit).
11

Una unidad lxica es un elemento que es objeto de definicin en un diccionario, vocabulario, glosario,
etctera (Luna Trail et al., 2005).

36

Los sistemas de extraccin terminolgica se basan en tres tipos de conocimientos que


son los lingsticos, los estadsticos y los hbridos. Cada uno de estos tipos de sistemas se
explicar en los apartados siguientes, adems de que se darn a conocer algunos sistemas de
extraccin terminolgica.

2.2.1 Sistemas basados en conocimiento lingstico


Como se indic en el apartado anterior, los sistemas de extraccin terminolgica se basan en
distintos tipos de conocimiento y uno de ellos es el lingstico; su razn de uso es porque la
terminologa y los trminos estn ampliamente relacionados con la lingstica.
Para Pazienza et al. (2005) los sistemas con un acercamiento lingstico tratan de
identificar trminos a travs de sus propiedades sintcticas, esto se debe a que
frecuentemente las unidades terminolgicas tienen estructuras sintcticas definidas, como se
vio en la seccin 2.1.1. Estos sistemas se pueden basar en dos tipos de informacin (Cabr et
al., 2001):

Trmino especfico: Este consiste en la deteccin de patrones recurrentes de


unidades terminolgicas complejas; en la Tabla 5 podemos ver algunas estructuras
empleadas en el espaol que definen por lo general un trmino; en cambio en la Tabla
6 podemos observar algunas estructuras sintcticas que por lo general no forman un
trmino. Los patrones que se buscan provienen de reglas que se obtienen de manera
emprica a travs del anlisis de datos y se pueden programar a travs de expresiones
regulares o autmatas de estados finitos.

Lenguaje genrico: Consiste en la deteccin de estructuras lingsticas ms bsicas,


como los sintagmas12 nominales (por ejemplo: libro, campo de trigo), sintagmas
preposicionales (de Mara, para cocinar), entre otros. Para ello se emplean
herramientas de PLN complejas, como son los analizadores sintcticos, tambin
conocidos como parsers, que son herramientas que analizan la estructura de un texto
con base en una gramtica.

12

Un sintagma, segn la Real Academia Espaola, es un conjunto de palabras. Por ejemplo: un sintagma
nominal est construido en torno a un nombre o sustantivo. En cambio, uno preposicional, es el formado
alrededor de una preposicin.

37

Estructura sintctica

Ejemplos

sustantivo

agua, planeta, protozoario, cimiento

sustantivo + adjetivo

plano inclinado, agua oxigenada

sustantivo + preposicin + sustantivo

lmpara de halgeno, dixido de carbono

Tabla 5. Ejemplos de estructuras sintcticas para trminos en espaol

Estructura sintctica

Ejemplos

artculo + sustantivo

la casa, el nio, los pases

sustantivo + y/o + sustantivo

guila o sol, coseno y tangente

Tabla 6. Ejemplos de estructuras sintcticas que no forman por lo general trminos en espaol

Los tipos de informacin explicados anteriormente se basan en el anlisis


morfolgico.
Los sistemas terminolgicos basados en conocimiento lingstico tienen como ventaja
que encuentran trminos sin importar su frecuencia o importancia en el texto, pues se basan
en su estructura. En cambio, su desventaja, es que son propensos al ruido, es decir, los
sistemas son proclives a encontrar estructuras falsas debido a errores en la asignacin de la
categora gramatical (anlisis morfolgico); de igual manera, los sistemas basados en
conocimiento lingstico son dependientes de la lengua, ya que las reglas generadas pueden
no servir en otras lenguas.
2.2.1.1 LEXTER
El sistema de extraccin de trminos LEXTER (Bourigault, 1994) fue desarrollado para el
francs basndose en conocimiento lingstico; su objetivo principal era mejorar el sistema
de indizacin de la compaa EDF (Electricit de France).
El principio bsico de LEXTER es encontrar las fronteras de los sintagmas
nominales, pero en lugar de hacerlo de manera positiva, es decir, encontrando las
estructuras que emplean los trminos frecuentemente en francs, se realiz de manera
negativa, en otras palabras, era encontrar estructuras sintcticas que claramente no
formaran un trmino.
38

La primera tarea que realiza LEXTER es un anlisis morfolgico y de


desambiguacin para cada uno de los textos que se va a analizar. Posteriormente, el sistema
busca, dentro del texto preprocesado, patrones que no sean parte de un sintagma nominal y
por tanto, de un trmino. Algunos casos segn Bourigault et al. (1996) son verbos,
pronombres, preposiciones unidos a artculos posesivos, entre otros. Este proceso deja
secuencias de palabras que por lo general corresponden a sintagmas nominales y son
candidatos a ser trminos o partes de ellos son candidatos; a este conjunto de palabras le
llamaron MLNP (Maximal-Length Noun Phrases).
La segunda tarea consiste en un analizador sintctico que analiza los MLNP para
dividir candidatos terminolgicos complejos en partes ms sencillas llamadas cabeza (head,
H) y expansin (expansion, E). El mdulo del analizador sintctico se basa en reglas, que
indican qu partes son la cabeza y qu partes son la expansin del MLNP; en caso de
encontrar estructuras ambiguas, existe un algoritmo de desambiguacin que ejecuta distintas
formas de una regla si se hallan formaciones en la estructura ambigua que ya hubieran sido
encontradas durante el anlisis. A continuacin, en la Tabla 7 se muestra una regla no
ambigua, mientras que en la Tabla 8 se ejemplifica otra donde se presentan casos de
ambigedad.
Regla no ambigua

Cabeza:
Cabeza:
Extensin:
Extensin:
Tabla 7. Ejemplo de una regla no ambigua empleada en LEXTER

39

Regla ambigua

Caso 1

Caso 2

Cabeza:

Cabeza:

Extensin:

Cabeza:

Cabeza:

Extensin: :

Extensin:

Extensin:
Tabla 8. Ejemplo de una regla ambigua empleada en LEXTER

La tercera parte del proceso es un mdulo de estructuracin que emplea la


informacin dada por el paso anterior para crear una red terminolgica. Este consiste en
vincular las cabezas y extensiones de trminos complejos con trminos menos complejos, y
estos, a su vez, vincularlos con trminos todava menos complejos hasta formar una red. En
la Figura 6 se muestra un ejemplo13 de la red terminolgica generada por LEXTER.

vanne

commande manucllc
lignage manucl
ordre manucl
repositionnement manucl
robinct manucl

manuelle
isolement

vanne motorise
vannc pneumatiquc
vannc d'isolcmcnt d'enceinte
vanne dc dbit nul
vanne dc recirculation directe
vanne d'alimcntation

vanne manuelle

vanne manuelle disolement

Figura 6. Ejemplo de una red terminolgica creada por LEXTER

Al sistema extractor de trminos LEXTER se le considera un sistema robusto, preciso


e independiente del dominio desarrollado para el idioma francs. Sin embargo, LEXTER
tiene algunos problemas de ruido por errores en el anlisis morfolgico, como ocurre en la
mayora de los sistemas basados en conocimiento lingstico. Aun as, se le considera a este

13

Ejemplo extrado de Bourigault et al. (1996)

40

extractor de trminos un buen sistema por su habilidad de aprender conforme se van


obteniendo unidades terminolgicas.
2.2.1.2 HEID
HEID (Heid et al., 1996) es un sistema de extraccin terminolgica que se basa en
conocimiento lingstico para el idioma alemn. Su objetivo es aumentar la eficiencia del
proceso de creacin de glosarios en tareas relacionadas con la traduccin de textos tcnicos,
en este caso de ingeniera automovilstica.
El sistema de extraccin est compuesto de dos partes, la primera de ellas es el
anlisis lingstico y la anotacin de los textos; la segunda es la extraccin de trminos por
medio de consultas en el corpus.
El anlisis lingstico consiste en un tokenizador, un analizador morfosintctico14, un
etiquetador POS15 y un lematizador que se ejecutan al inicio del anlisis. Posteriormente se
extraen construcciones caractersticas de los sintagmas nominales, esto se debe a que no
exista en el momento del desarrollo del extractor terminolgico un analizador sintctico de
cobertura amplia para el alemn que pudiera extraer de manera total sintagmas nominales.
La extraccin de trminos est conformada por tres componentes principales:

Procesador de consultas de corpus general (CPQ): Es un procesador que puede


soportar expresiones complejas de consultas, como expresiones regulares, etiquetas
POS, lemas, entre otras.

Macroprocesador para el lenguaje de consulta CPQ: La extraccin de trminos en


HEID se basa en listas de afijos y en la verificacin de los contextos tpicos de los
candidatos a trmino (Heid et al., 1996); para llevar a cabo este proceso, dado un
parmetro en consulta, ejecuta este en un gran nmero de palabras mientras mantiene
los dems parmetros de la consulta iguales.

14

Identifica las categoras gramaticales, morfosintcticas y caractersticas distribucionales (Heid et al., 1996)

15

Es un etiquetador de partes de la oracin, el cual segn Heid et al. (1996) desambigua los casos identificados
en el proceso morfosintctico.

41

XKWIC: Esta herramienta grfica muestra los trminos y sus concordancias16;


tambin permite ordenar de manera automtica el material extrado segn las
necesidades del usuario.
El

extractor

terminolgico

HEID

fue

evaluado

empleando

manuales

de

mantenimiento en alemn. Se busc extraer principalmente trminos monopalabra, que


frecuentemente representan sintagmas nominales en alemn; en este tipo de casos se
obtuvieron algunos problemas por ruido los cuales, segn los desarrolladores, pueden ser
eliminados con el uso de filtros (por frecuencia, por categora gramatical, entre otros).
Asimismo, HEID permite extraer colocaciones17 combinando sustantivos y verbos, aunque,
en este caso los resultados no son muy buenos.

2.2.2 Sistemas basados en conocimiento estadstico


Adems de los sistemas basados en conocimiento lingstico, existen aquellos que se basan
en conocimiento estadstico, es decir, en el empleo de frmulas matemticas, modelos
probabilsticos, modelos heursticos, entre otros.
Estos sistemas, adems de extraer trminos, otorgan una calificacin que permite
clasificar los resultados en buenos o malos. Aunque lo anterior es algo ambiguo, lo que se
busca es que los trminos extrados con una alta calificacin expresen una mayor relevancia
en el documento o corpus, mientras que uno con baja calificacin indique lo opuesto.
Existen mltiples medidas estadsticas que se emplean en los extractores
terminolgicos, como el TF-IDF, el logaritmo de la verosimilitud (Log Likelihood), el Tscore, entre otros.
La ventaja de estos sistemas de extraccin es que son independientes de la lengua e
indican una calificacin para cada uno de los trminos. El problema con este tipo de enfoque

16

Las concordancias, segn la Real Academia Espaola (RAE), es el ndice de todas las palabras de un libro o
del conjunto de la obra de un autor, con todas las citas de los lugares en que se hallan.
17

Propiedad que tienen ciertos sustantivo y verbos, y algunos sustantivos y adjetivos de coincidir en estructuras
sintagmticas, gracias a su estructura semntica: gato y ronronear, planta y marchita (Luna Trail et al., 2005).

42

es que existen trminos de baja frecuencia difciles de manejar por los sistemas de extraccin
(Cabr et al., 2001), esto genera lo que se llama silencio.
2.2.2.1 ANA
El sistema ANA (Euguehard y Pantera, 1994), Automatic Natural Acquisition, es un
extractor terminolgico basado en conocimiento estadstico. Se bas en la idea de que este
sistema deba poder extraer los trminos de cualquier texto, sin importar si estaba bien escrito
o no, si eran textos escritos o transcripciones de conversaciones y sin la utilizacin de
conocimiento lingstico. El extractor estaba diseado para funcionar con cualquier lengua
europea que no fuera aglutinante; sus pruebas se basaron en el ingls y el francs.
El sistema est formado por dos mdulos: el de familiarizacin y el de
descubrimiento. El primero de estos determina tres listas que emplea como conocimiento de
la lengua a analizar; este conocimiento es extrado de manera estadstica sin el uso de
diccionarios o gramticas. Las listas empleadas como conocimiento son las siguientes:

Palabras funcionales: Es un conjunto de palabras que aportan poco o ninguna


informacin (Seccin 1.1.6). En esta lista entran artculos, pronombres y algunos
verbos recurrentes.

Palabras esquemticas: Son las palabras que establecen una relacin semntica
entre otras palabras. Por ejemplo, Euguehard y Pantera (1994) indican que en el
fragmento box of nails, la palabra of indica una cierta relacin entre box y
nails, por lo tanto of es una palabra esquemtica.

Palabras base (bootstrap): Es el conjunto de trminos base con el que se inicia el


sistema, es decir, este grupo de unidades terminolgicas es el ncleo del extractor
terminolgico ANA.
El segundo mdulo que conforma ANA es el de descubrimiento y se basa en la

adquisicin de nuevos trminos a travs del descubrimiento, como lo hace una persona que
aprende un idioma. Este proceso se apoya en la co-ocurrencia de las palabras, esto puede
tener tres interpretaciones:

43

Expresiones: Una expresin se genera y se agrega a la lista de trminos (bootstrap)


cuando dos trminos co-ocurren frecuentemente, es decir, aparecen en estructuras
similares. Por ejemplo, en las frases the diesel engine is, this diesel engine has,
los trminos diesel y engine, que pertenecen al bootstrap, aparecen contiguos
frecuentemente, por lo tanto es posible que diesel engine sea un trmino y se agrega
a la lista de palabras base.

Candidato: Cuando una palabra, llammosla X, aparece seguidamente de una


palabra esquemtica y de trminos pertenecientes al bootstrap, se le considera como
un candidato a trmino y se agrega a la lista de palabras base. Ejemplo: en las frases
shade of wood, shade of color, shade of beech, donde of es una palabra
esquemtica y las palabras wood, color y beech son trminos, la palabra
shade cumple con la interpretacin de candidato.

Expansin: Este caso es similar al anterior, la diferencia es que no existe ninguna


palabra esquemtica entre el trmino y la palabra X. Un ejemplo sera: use any soft
woods to, this soft woods or, donde wood18 es un trmino, por tanto la palabra
soft wood se agregara al conjunto de trminos.
El proceso del mdulo 2 se realiza de manera recursiva hasta que no se encuentre

ningn trmino nuevo en el documento. Adems, durante el proceso de descubrimiento se


genera una red semntica, en el cual se muestran algunas relaciones morfolgicas y las coocurrencias de los trminos.
Con respecto a los resultados, el sistema ANA fue evaluado para el ingls y para el
francs. En el caso del ingls se emple un corpus de 25,000 palabras el cual no fue
ejecutado en el mdulo de familiarizacin, sino que se indicaron de manera manual cada una
de las listas que se crean en este mdulo por el pequeo tamao que tena el corpus; del uso
de ANA en este corpus se obtuvieron 200 nuevos trminos. Para el francs, en cambio, se

18

Aunque la palabra en el ejemplo es woods y el trmino es wood, ANA reconoce que son la misma
palabra debido a que emplea una herramienta que llama Reconocimiento Flexible de Cadenas. Esta herramienta
emplea la distancia de edicin; por ejemplo, si se tiene casa y casas su distancia de edicin es 1 (adicin de
una s), en cambio para caza y casa es de 2 (eliminacin de z y adicin de s); por tanto dos palabras se
parecen si su distancia de edicin es muy pequea.

44

us un corpus de 120,000 palabras el cual s pas por el mdulo de familiarizacin; del


proceso de extraccin se obtuvieron ms de 3,000 nuevos trminos.
A pesar de los resultados obtenidos, los desarrolladores de ANA consideran que este
sistema es un extractor terminolgico especializado en corpus de gran tamao pero que sean
de mala calidad, ya que aprende sobre la lengua empleada.
2.2.2.2 Extractor de trminos estadstico basado en corpus
Este extractor terminolgico fue desarrollado por Pantel y Lin (2001) y se basa nicamente
en conocimiento estadstico.
El extractor terminolgico consta de dos partes; la primera consta de la extraccin de
candidatos de trminos. Para ello primero se recuperan todas los bigramas que se encuentren
en el texto y su frecuencia; esta informacin se almacena en una base de datos de
proximidad19. Posteriormente, se eliminan los bigramas que no cumplen con una serie de
valores que estn relacionados con la frecuencia del bigrama, con el valor de informacin
mutua entre bigramas adyacentes20 y el valor del logaritmo de la verosimilitud entre las
palabras que pertenecen a un mismo bigrama21.
La segunda parte del extractor consiste en la extraccin de trminos multipalabra; en
esta parte se realiza la extraccin de todas las construcciones que puede tener un bigrama
(extrado en el paso anterior) con sus palabras adyacentes, esto para obtener trminos que
sean ms grandes que bigramas; de este proceso slo se guardan las palabras adyacentes que
aparecieron en una misma construccin con el bigrama en cuestin varias veces. En seguida,
la base de datos de proximidad se actualiza con el bigrama formado por una palabra del
trmino original y por la de la nueva palabra que se encontr en la construccin. Finalmente,

19

Una base de datos de proximidad es una base de datos con dos tablas; en la primera se almacena el objeto o el
registro, mientras que en la segunda se guardan vnculos; cada tabla adems tiene algunos atributos, como el
nombre o valor (http://c2.com/cgi/wiki/Wiki?ProximityDatabase; http://kdl.cs.umass.edu/software/about.html).
20

Esto se lleva a cabo para eliminar bigramas que tengan una palabra que no est altamente relacionada con un
posible trmino.
21

Esto se realiza para saber si las palabras dentro del bigrama estn por casualidad o por una verdadera
importancia.

45

el proceso se vuelve recursivo y se emplea la nueva informacin que se obtuvo en la base de


datos de proximidad, para que se pueda extender un trmino y obtener sus variantes.
Este sistema de extraccin terminolgica se evalu usando precisin y cobertura
usando un corpus segmentado en el idioma chino, la razn de lo anterior es que dicen los
desarrolladores del sistema que el detectar palabras en chino es similar a detectar frases en
ingls. La precisin fue evaluada contra los valores que se obtuvieron del logaritmo de la
verosimilitud, mientras que la cobertura contra la frecuencia mnima de las palabras. Este
sistema de extraccin terminolgica obtuvo una precisin mxima de 74.4% y una cobertura
del 62.3%

2.2.3 Sistemas basados en conocimiento hbrido


Los sistemas de extraccin terminolgica no slo pueden estar basados en un tipo de
conocimiento; pueden emplear tanto el lingstico como el estadstico, de esta manera se
forma un sistema con conocimiento hbrido. El objetivo de este tipo de extractores
terminolgicos es crear sistemas que aprovechen al mximo las ventajas tanto de la parte
lingstica como de la estadstica y disminuyan las desventajas que ambos tienen.
2.2.3.1 Termext
Termext (Barrn-Cedeo et al., 2009) es un extractor terminolgico de tipo hbrido que se
basa en una adaptacin para el espaol del mtodo de C-Value/NC-Value (Frantzi et al.,
2000). Adems el mtodo fue modificado para que aceptara unigramas como trminos.
Este extractor de trminos est dividido a grandes rasgos en dos partes, la de C-Value,
y la de NC-Value. La primera parte, a su vez, se divide en dos procesos, el lingstico y el
estadstico. El proceso lingstico consiste en etiquetar con partes de la oracin y lematizar
cada uno de los textos a analizar por medio de la herramienta TreeTagger. Posteriormente,
dentro de este mismo proceso, se aplica un filtro lingstico que consiste en almacenar las
estructuras que pueden formar un trmino en espaol; este filtro puede ser abierto o cerrado,
si es abierto este es ms flexible con los patrones de los trminos, de lo contrario es estricto
con los patrones encontrados. En el proceso estadstico se calcula cul es la probabilidad de
que una estructura extrada sea un trmino; es decir, el C-Value, y para tal fin se toma en
46

cuenta la frecuencia de la estructura, la frecuencia de la estructura en estructuras ms


grandes, el nmero de ocurrencias de las estructuras ms grandes anteriores y la longitud de
la estructura.
La segunda parte que conforma a Termext es la del clculo de NC-value. Este valor
considera el contexto en el cual se encontraban los trminos obtenidos en el proceso anterior,
esto con base en que un trmino, por lo general, est rodeado de palabras que estn altamente
relacionadas y pueden ser un indicio que exprese qu tan representativo el trmino es o no.
Para ello se obtienen las palabras que en el contexto del trmino tengan cierta relevancia y se
les calcula un peso. Posteriormente, se calcula el NC-Value, usando estos pesos y el valor CValue del trmino. Finalmente, los trminos con valores ms altos de NC-Value son los
trminos que son ms importantes en el documento, mientras que los de menor valor, son
trminos no tan representativos.
El extractor Termext fue evaluado con precisin y cobertura cuatro veces, la primera
de ella con un filtro abierto sin una lista de paro obtuvo 23% de precisin y 82.6% en
cobertura. La segunda de evaluacin fue con un filtro lingstico abierto y con lista de paro,
la cual tuvo una precisin de 26.5% y una cobertura de 79.4%. La tercera evaluacin se llev
a cabo con un filtro cerrado sin lista de paro y la curta de ellas con un filtro cerrado y lista de
paro, en precisin se obtuvo un 24% y 30.8% respectivamente mientras que en cobertura se
alcanz un 46.3% y 50.3% de manera respectiva. Adems, para su uso, se indica que
Termext obtiene los mejores resultados de precisin y cobertura cuando se emplea un corpus
de carcter tcnico o cientfico de alto nivel de especializacin, de lo contrario se genera una
gran cantidad de ruido.
2.2.3.2 YATE
YATE (Vivaldi, 2001) es un extractor terminolgico que emplea conocimiento tanto
estadstico como lingstico. Permite extraer trminos tanto en espaol como en cataln, en
los dominios de medicina, economa y gentica. Las principales caractersticas de YATE son
dos: la primera es que emplea una combinacin de varias tcnicas de extraccin de trminos
y la segunda, que usa EuroWordNet como recurso lxico principal; de este recurso se hablar
ms adelante en la seccin 2.4.1.
47

Grosso modo, existen 3 procesos que conforman YATE, los cuales se explican a
continuacin:

Proceso lingstico: Este es el primer proceso del extractor YATE. En l se lleva a


cabo la segmentacin, un anlisis morfolgico y, finalmente, un etiquetado de partes
de la oracin. En este proceso se emplean recursos lxicos como diccionarios,
EuroWordNet y un corpus de referencia.

Filtro lingstico: Este proceso filtra las construcciones sintcticas que tienden a
generar trminos ya sea en espaol o en cataln, dependiendo del texto analizado. De
este proceso se obtienen los candidatos a trmino que sern utilizados en el siguiente
proceso.

Analizador de candidatos a trmino: Este es el ltimo proceso que forma parte de


YATE. En l se calculan las diversas mtricas y los datos que emplea YATE para
determinar si un candidato a trmino pertenece o no al dominio seleccionado.
Algunos de sus mdulos son los siguientes (Vivaldi et al., 2001):
o Sistema de combinacin: En este mdulo se unen todos los resultados para
crear la lista final de candidatos.
o Extractor de contenido semntico: Este mdulo emplea EuroWordNet para
determinar cundo una palabra dada pertenece al dominio analizado,
empleando identificadores de dominio.
o Formas griegas y latinas: En el vocabulario mdico se emplean muchas
palabras que contienen formas griegas y latinas; por lo tanto, el conocer los
trminos que contienen estas formas puede dar informacin til.
o Anlisis colocacional: En este mdulo se emplean algunas medidas
estadsticas para clasificar los candidatos a trmino, como la informacin
mutua y la informacin mutua cbica (MI3).
Para llevar a cabo la evaluacin de YATE se emple un corpus de 10,000 palabras

que consista en resmenes de artculos mdicos. Este sistema de extraccin terminolgica


fue evaluado con las medidas de precisin y cobertura, donde obtuvo un 97.2% de exactitud
para una cobertura del 30%.

48

2.3 Evaluacin de los extractores terminolgicos


Los sistemas de extraccin terminolgica, al igual que muchos otros sistemas realizados por
el hombre, necesitan que se les evale, ya que se necesita ver que el sistema cumpla con los
objetivos, funcione con los estndares adecuados y sea lo suficientemente bueno como para
realizar la tarea de forma automtica y no manual. Sin embargo, aun cuando la extraccin y
el reconocimiento automtico de trminos han sido trabajados por largo tiempo y desde
diferentes perspectivas, ningn gold standard22 de evaluacin ha sido introducido para
evaluar claramente y comparar distintos enfoques (Pazienza et al., 2005).
Aun as, se han desarrollado dos tcnicas para la evaluacin de los extractores
terminolgicos y se presentan a continuacin.

2.3.1 Lista de referencia


Uno de los mtodos utilizados para la evaluacin de los sistemas de extraccin terminolgica
es el empleo de una lista de referencia. En este caso, segn Pazienza et al. (2005), una lista de
referencia se toma como un gold standard; esta puede ser una lista de trminos ya existente
de un dominio o rea especfica, o puede ser construida por un experto analizando el corpus
que se emple para extraer los trminos.
Con la lista de referencia, el extractor terminolgico se evala mediante el empleo de
las mtricas de precisin y de cobertura que se vieron en el apartado 1.2.3.
Aunque la lista de referencia tiene sus ventajas, para Pazienza et al. (2005), en
trminos de eficiencia, la lista de referencia no es la mejor tcnica para calcular la precisin.
Esto se debe a que puede haber trminos reales que no fueron colocados en la lista y, por
tanto, se consideran como falsos, disminuyendo la precisin del sistema.

22

Un gold standard o una prueba estndar es una prueba o punto de referencia que califica, en este sentido, un
sistema; puede que esta prueba no sea la mejor, pero no existe alguna otra y cumple con los estndares ms
bsicos (http://en.wikipedia.org/wiki/Gold_standard_%28test%29).

49

2.3.2 Validacin
Otro de los mtodos empleados para la evaluacin de los extractores terminolgicos es la
validacin. Este mtodo es preferido cuando ningn gold standard est disponible o cuando
algunas caractersticas particulares del proceso de extraccin de trminos tienen que ser
explcitas (Pazienza et al., 2005).
Este mtodo consiste en validar los trminos que se encuentran en la lista creada por
el sistema en evaluacin. Para poder llevar esto a cabo, Pazienza et al. (2005) indican que es
necesario que se cumplan dos cosas. La primera de ellas, es que la validacin de la lista debe
ser realizada por varios expertos, esto para tener una lista de trminos mucho ms confiable.
El segundo parmetro a cumplir es que cada experto que va a participar en el anlisis debe
recibir una introduccin a lo que es un trmino. De todas maneras, cabe aclarar que aun
siguiendo estos dos parmetros, es posible que las listas resultantes sean diferentes, esto
puede ser debido a los distintos conocimientos de los expertos, al juicio del experto o a la
ambigedad de lo que es una unidad terminolgica; por tanto, es necesario que se llegue a un
acuerdo entre los expertos para obtener una lista validada.
Con la lista de trminos validada se emplean las mtricas de precisin y de cobertura
de la misma forma que ocurre en los sistemas de recuperacin de informacin.
Al igual que la lista de referencia, este mtodo de evaluacin tiene sus desventajas,
una de ellas es que no es el mejor mtodo para calcular la cobertura del sistema. La razn de
ello es que, al enfocarse en una lista extrada por el mismo sistema, se cierra la posibilidad de
conocer si existen otros trminos que se debieran haber obtenido.

2.4 Recursos electrnicos para la validacin


Actualmente, existen algunos extractores terminolgicos que validan cada uno de los
trminos encontrados en el documento antes de presentrselos al usuario; adems algunos de
ellos agregan informacin que podra ser de utilidad. Para ello emplean recursos semnticos,
en su mayora creados por expertos, que otorgan informacin sobre el dominio al que

50

pertenecen, como sinnimos. Algunos extractores que emplean este tipo de validacin,
adems de YATE, son MetaMap (Aronson y Lang, 2010) y TRUCKS (Maynard, 2000).

2.4.1 WordNet y EuroWordNet


WordNet es una base de datos lxica electrnica desarrollada por la Universidad de
Princeton, la cual sirve como recurso para aplicaciones en PLN y recuperacin de
informacin (Fellbaum, 1998). Esta base de datos slo maneja ingls y es de acceso libre por
internet23. Su extensin a otros idiomas, como el espaol, se realiz por medio de
EuroWordNet (EWN), que es de paga y actualmente est en crecimiento en algunas lenguas.
Dentro de WordNet y, por consiguiente, de EuroWordNet, existen tres estructuras que
se encargan de las diversas categoras lingsticas que maneja, es decir, hay una para
sustantivos, otra para verbos y una para adjetivos y adverbios.
Esta base de datos se basa principalmente en conjuntos de sinnimos, llamados
synset, que representan todo un concepto. Por ejemplo, en el caso del ingls, cuando se busca
elevator tambin se muestra su variante britnica que es lift; en el caso del espaol si
buscamos tepalcate nos muestra que tiene como synset tejoleta, tiesto y casco.
La estructura de sustantivos, de WordNet y EWN, adems de manejarse a travs de
los synset, se maneja por medio de relaciones de hiponimia e hiperonimia. La hiponimia es
una relacin que denota un subconjunto o subclase de una palabra; por ejemplo, en EWN la
palabra automvil tiene como hipnimos las palabras limosina, sedn, jeep, entre
otros. En cambio, la hiperonimia es una relacin que expresa una superclase de una palabra;
vivienda, por ejemplo, es un hipernimo de casa, de estudio y de algunos otros ms.
WordNet y EWN, adems de contar con los synset, incluye definiciones tipo
diccionario y ejemplos de uso.

23

http://wordnetweb.princeton.edu/perl/webwn

51

2.4.2 Lexicn Specialist UMLS


Uno de los recursos lxicos electrnicos ms importantes del rea de la biomedicina es el
lexicn Specialist de UMLS. Este lexicn es uno de los tres recursos que se generaron dentro
del proyecto UMLS (Unified Medical Language System) creado por la Biblioteca Nacional
de Medicina de los Estados Unidos de Amrica (NLM).
Segn Ananiadou y McNaught (2006), el lexicn Specialist es un diccionario general
del ingls que contiene una gran cantidad de trminos de biomedicina. Todos estos trminos
fueron extrados de diversos recursos, como de los registros de MEDLINE/PubMed24, del
metatesauro UMLS25 y de diccionarios mdicos del ingls.
Cada una de las entradas del lexicn puede ser monopalabra o multipalabra; a su vez,
estos trminos tienen informacin como categora gramatical, patrones complementarios
permitidos, lema, variantes ortogrficas y morfolgicas.

2.4.3 Wikipedia
Otro de los recursos que se han estado empleando actualmente para la validacin de
extractores es Wikipedia26. La Wikipedia es una enciclopedia gratuita, multilenguaje, creada
para la red y construida de manera colaborativa por voluntarios (Zesch et al., 2008).
Esta enciclopedia est formada por artculos que crean una red interconectada de
conocimiento, adicionada con categoras y subcategoras (se podra decir que es un tipo de
hiperonimia e hiponimia, aunque no cumplan forzosamente con las relaciones) que los
voluntarios crean y organizan, y que permiten hasta cierto punto dividir los conocimientos en
reas o dominios. El uso de categoras y subcategoras forma lo que se conoce como una
taxonoma, es decir una ordenacin jerrquica y sistemtica; aunque hay autores como Peters

24

MEDLINE es una base de datos que almacena bibliografa mdica que provienen desde 1950. Su motor de
bsqueda es la herramienta de PubMed.
25

Es otro de los recursos del proyecto de UMLS que incluye conceptos del rea de biomedicina, nombres de
conceptos, sinnimos, as como las relaciones entre los conceptos.
26

http://www.wikipedia.org

52

(2009), que consideran esto realmente como una folksonoma27, ya que es la gente quien
desarrolla la jerarquizacin y sistematizacin de la Wikipedia.
Adems Wikipedia contiene una gran cantidad de informacin semntica y lxica que
se complementa con el conocimiento de entidades nombradas y trminos de dominio
especfico o especializado que incluye el sitio. De igual forma, incluye un sistema de
redireccionamiento, que podra ser considerado un diccionario de sinnimos en el cual se
toman en cuenta variaciones ortogrficas, morfolgicas y de abreviaturas; por ejemplo, si se
busca en la Wikipedia ajolote, axolote o axolotl se redirecciona a Ambystoma
mexicanum, el nombre cientfico del ajolote. Tambin el sistema de redireccionamiento
funciona, en un menor grado, como un sistema que pasa de un tema especfico a uno general,
o de un verbo a un sustantivo.
Entre las ventajas con las que cuenta Wikipedia se puede mencionar que es un recurso
libre, que se actualiza y crece rpidamente, que maneja una gran cantidad de dominios y que
est en diversas lenguas, no solamente en las principales. Algunas de sus desventajas es que
no existe un control editorial o por expertos, y que no se siguen lineamientos especficos para
su construccin.
De este recurso electrnico se hablar ms adelante, en la seccin 3.4, donde se
abordar la estructura interna y la manera en que fue empleada en el proyecto de tesis.

27

Una folksonoma es un sistema de clasificacin de contenidos desarrollado de manera colaborativa (Peters,


2009).

53

S-ar putea să vă placă și