Documente Academic
Documente Profesional
Documente Cultură
1. Introducere
Realizarea unui dicţionar şi a unei gramatici pentru o limbă naturală (limba română în cazul
nostru) este un proiect de anvergură, implicând resurse umane şi materiale foarte mari.
Generalizarea abordărilor lexicalizate în modelarea gramaticilor limbajelor naturale atribuie
dicţionarului un rol esenţial în orice arhitectură de sistem de prelucrare automată a limbajului
natural. Tot mai multe informaţii ce tradiţional erau codificate prin regulile gramaticii
(sintaxa) sunt transferate în dicţionar. În felul acesta se promovează încapsularea
cunoştinţelor lingvistice specifice în structuri lexicale, sintaxei revenindu-i sarcina codificării
unor aspecte generice, a unor restricţii conceptuale, instanţiabile prin elemente lexicale
specifice. Teoriile lingvistice moderne cum ar fi gramaticile funcţional lexicale (LFG),
gramaticile de constituenţi frazali regenţi (HPSG), gramaticile categoriale (CG) sau
gramaticile lexicalizate cu adjuncţie de arbori (LTAG) evidenţiază contribuţia esenţială a
specificaţiilor lexicale la definirea şi reprezentarea restricţiilor gramaticale.
În cele ce urmează vom prezenta structura unui dicţionar al limbii române, construit în
contextul unui mediu de programare lingvistică bazată pe unificare, numit Mac-ELU [2]
mediu implementat în colaborare cu ISSCO-Geneva. Dicţionarul se bazează pe un model
morfologic paradigmatic [3,4,5,6] şi acoperă (sub raport morfo-grafematic), la momentul
elaborării acestei lucrări, circa 80% din fondul lexical al DEX. După cum se va vedea în
continuare, datorită caracterului incremental al dezvoltării proiectului nostru, este posibil ca
diferite componente ale dicţionarului să fie dezvoltate în paralel, cu o relativă independenţă
una de alta. Filozofia modelării de tip "atribut-valoare", în contextul unui mediu bazat pe
unificare, precum şi facilităţile de compilare separată existente în sistemul Mac-ELU, ne-au
permis defalcarea şi distribuirea (parţială deocamdată) a sarcinilor de realizare a dicţionarului
limbii române în colective specializate pe segmente specifice (fonologie, morfologie, sintaxă,
clasificare terminologică, semantică lexicală). Prezentarea ce urmează tratează doar
componentul morfo-grafematic (şi parţial cel lexical) ce a fost asumat şi a fost implementat
de colectivul nostru.
Fizic, dicţionarul este descris prin intermediul unei colecţii de fişiere ce codifică fiecare în
parte o anumită categorie de informaţie relevantă pentru descrierea morfo-lexicală a limbii
române. Coreferenţialitatea informaţiei referitoare la un anumit articol de dicţionar,
distribuită în diferite descrieri parţiale, se realizează prin intermediul operaţiei de unificare. În
urma procesului de compilare a acestor descrieri furnizând informaţii congruente, dar din
perspective diferite, ale aceluiaşi articol morfo-lexical, rezultă o structură agregată complexă
cu funcţionalitate la toate nivelurile de prelucrare lingvistică. Prin unificare, se pot integra în
descrierile unor articole lexicale individuale, proprietăţi generice, caracteristice unor clase
cărora acestea aparţin. De pildă, macro-definiţiile de mai jos, reprezentând abstracţii
relaţionale de natură morfo-lexicală, sunt aplicabile tuturor formelor verbale partajate în
forme predicative şi respective nepredicative.
# Define morph
VUntensed(Verform)
<head tensed> = no
VTensed(TENSE,Verform)
Abstracţia relaţională de mai jos, specifică elementele structurale relevante pentru verb în
modelarea acordului gramatical.
# Define morph
VAgr(N,P,G)
Prin intermediul abstracţiilor relaţionale se pot defini valori implicite pentru categorii
gramaticale, valori care se moştenesc (dacă nu se specifică altfel) de către toţi reprezentanţii
categoriei respective. În exemplul de mai jos este dată o astfel de descriere generică a clasei
verbelor.
# Define lexical
Verb
!prefixe
<bar> =0
Cuvintele (în fapt, rădăcinile şi temele lexicale) aparţinând categoriilor gramaticale flexionare
(substantiv, verb, adjectiv, pronume şi adjectiv nehotărât, pronume şi adjectiv demonstrativ,
pronume relativ/interogativ, articol şi numeral) sunt descrise în câte două fişiere: unul conţine
informaţiile morfologice iar cel de-al doilea informaţiile lexicale asociate intrării de dicţionar
în cauză.
Pentru categoriile gramaticale neflexionare este necesară numai specificarea formelor leme şi
a informaţiilor lexicale ataşate acestor forme.
În practica teoriilor lingvistice moderne, se realizează o distincţie intre categorii majore (cele
ce pot constitui regentul unui grup frazal) şi categorii minore. Categoriile majore au asignate
atributul "bar" care desigur pentru nivelul lexical au fost iniţializate la valoarea 0.
Aşa cum am menţionat anterior, descrierea unei rădăcini pentru un cuvânt aparţinând unei
categorii gramaticale flexionare se realizează prin intermediul a două subdescrieri [9]. Prima,
furnizează rădăcina, tema implicită [3] (opţional) şi respectiv informaţiile lexicale ataşate
acesteia. De exemplu pentru rădăcina "baron" (rezidentă în dicţionarul nounlex) vom avea:
Această intrare conţine rădăcina ("baron") care este totodată şi tema implicită (acest lucru
este semnalat prin prezenta caracterului de control "*"), categoria gramaticală (substantiv),
specificarea că nu admite prefix şi în sfârşit că tema implicită este o rădăcină a unui
substantiv comun.
Descrierea morfologică cuprinde două teme substantivale ale rădăcinii "baron". Prima intră în
componenţa tuturor formelor flexionare ale substantivului masculin "baron" (paradigma
nom_masc8), dar şi în toate formele flexionare ale substantivului feminin "baroneasă"
(paradigma nom_mob_fem6) ce reprezintă moţiunea temei implicite. Cea de a doua temă
substantivală intră în componenţa tuturor formelor flexionare ale substantivului "baroană",
reprezentând de asemenea o moţiune a temei implicite (paradigma nom_mob_fem1).
În afară de clasele închise care au fost inventariate, introduse şi testate în totalitate, au fost
descrise aproximativ 30.000 de intrări lexicale. Folosind descrierile sufixelor lexicale şi a
unor prefixe cu semantică simplu descriptibilă, dicţionarul nostru acoperă în momentul de
faţă aproximativ 50.000 cuvinte din fondul de cuvinte al limbii române.
Fiind implicaţi în proiectul MULTEXT-EAST, pentru realizarea unui corpus pentru limba
română, a trebuit să construim un lexicon exploatabil în contextul platformei de prelucrare a
corpusurilor implementată în cadrul proiectului "mamă" MULTEXT, având următoarea
structură de intrare lexicală:
4. Bibliografie
[1] Alberto, P., Bennet, P. (eds) - "Lexical Issues in Machine Translation", in Studies in
Machine Translation and Natural Language Processing, vol. 8, European Commission,
Luxembourg, 1995.
[4] Tufiş,D., Popescu,O. - "A Unified Management and Processing of Word-Forms, Idioms
and Analytical Compounds" in J. Kunze and D. Reinmann (eds), Proceedings of ECACL'`91,
Berlin, 1991.
[5] Tufiş,D, -"It Would Be Much Easier if WENT Were GOED", In Somers, H., Woods, M.
(eds) Proceedings of ECACL'89, Manchester, 1989.