Sunteți pe pagina 1din 7

Dan Tufiş (ed.), Limbaj şi Tehnologie, pp. 93-100.

Editura Academiei Române, Bucureşti, 1996. ISBN 973-27-0542-6

DICŢIONAR AL LIMBII ROMÂNE DESTINAT


TRADUCERII AUTOMATE
DAN TUFIŞ, LIDIA DIACONU,
CĂLIN DIACONU, ANA MARIA BARBU

1. Introducere

Realizarea unui dicţionar şi a unei gramatici pentru o limbă naturală (limba română în cazul
nostru) este un proiect de anvergură, implicând resurse umane şi materiale foarte mari.
Generalizarea abordărilor lexicalizate în modelarea gramaticilor limbajelor naturale atribuie
dicţionarului un rol esenţial în orice arhitectură de sistem de prelucrare automată a limbajului
natural. Tot mai multe informaţii ce tradiţional erau codificate prin regulile gramaticii
(sintaxa) sunt transferate în dicţionar. În felul acesta se promovează încapsularea
cunoştinţelor lingvistice specifice în structuri lexicale, sintaxei revenindu-i sarcina codificării
unor aspecte generice, a unor restricţii conceptuale, instanţiabile prin elemente lexicale
specifice. Teoriile lingvistice moderne cum ar fi gramaticile funcţional lexicale (LFG),
gramaticile de constituenţi frazali regenţi (HPSG), gramaticile categoriale (CG) sau
gramaticile lexicalizate cu adjuncţie de arbori (LTAG) evidenţiază contribuţia esenţială a
specificaţiilor lexicale la definirea şi reprezentarea restricţiilor gramaticale.

Întreaga activitate de cercetare/dezvoltare în domeniul prelucrării limbajului natural,


desfăşurată în contextul formalismelor bazate pe unificare precum şi popularitatea din ce în
ce mai mare a acestor abordări, au făcut din problematica lexicului un punct focal al anilor
`90. În definitiv, nici nu este de mirare, întrucât, orice încercare de a construi ceva mai mult
decât un sistem jucărie de prelucrare a limbajului natural, este confruntată imediat cu nevoia
de a avea la dispoziţie un dicţionar de mare acoperire lingvistică şi implicit cu enormele
resurse materiale şi umane care trebuie asigurate pentru construcţia unui astfel de dicţionar.
Aceasta este o problemă pe care lingvistica teoretică nu o are atât timp cât o duzină de
exemple de intrări lexicale sunt suficiente pentru argumentarea uneia sau alteia dintre teoriile
propuse [1]. Cum lingvistica în general şi lingvistica computaţională în special, sunt departe
de consensul metodologic care să permită alegerea unei teorii sau a unui formalism în
contextul cărora să se formalizeze cunoştinţele lingvistice necesare unui sistem de prelucrare
a limbajului natural, este esenţial ca în modelarea limbii să se aibă în vedere criteriul
reutilizabilităţii descrierilor lingvistice. Cu alte cuvinte, "migrarea" facilă (ideal automată) a
reprezentării cunoştinţelor lingvistice dintr-un formalism în altul este un obiectiv a cărui
ignorare poate genera imobilism şi un conservatorism perdant faţă de avansurile conceptuale
în teoria lingvistică.

În cele ce urmează vom prezenta structura unui dicţionar al limbii române, construit în
contextul unui mediu de programare lingvistică bazată pe unificare, numit Mac-ELU [2]
mediu implementat în colaborare cu ISSCO-Geneva. Dicţionarul se bazează pe un model
morfologic paradigmatic [3,4,5,6] şi acoperă (sub raport morfo-grafematic), la momentul
elaborării acestei lucrări, circa 80% din fondul lexical al DEX. După cum se va vedea în
continuare, datorită caracterului incremental al dezvoltării proiectului nostru, este posibil ca
diferite componente ale dicţionarului să fie dezvoltate în paralel, cu o relativă independenţă
una de alta. Filozofia modelării de tip "atribut-valoare", în contextul unui mediu bazat pe
unificare, precum şi facilităţile de compilare separată existente în sistemul Mac-ELU, ne-au
permis defalcarea şi distribuirea (parţială deocamdată) a sarcinilor de realizare a dicţionarului
limbii române în colective specializate pe segmente specifice (fonologie, morfologie, sintaxă,
clasificare terminologică, semantică lexicală). Prezentarea ce urmează tratează doar
componentul morfo-grafematic (şi parţial cel lexical) ce a fost asumat şi a fost implementat
de colectivul nostru.

2. Structura dicţionarului în formalismul Mac-ELU

Mac-ELU (MacIntosh Environment Linguistique d'Unification) este un sistem bazat pe


unificare care implementează o extensie semnificativă a formalismul PATR-II, [7]. O
descriere completă a funcţionalităţii acestui mediu de programare lingvistică poate fi găsită în
[8], iar detalii despre implementarea specifică pe care se bazează dicţionarul nostru sunt
prezentate în [3].

O importantă caracteristică a acestui sistem este reversibilitatea. Acelaşi dicţionar poate fi


folosit atât în analiză cât şi în generare, caracteristica de reversibilitate fiind persistentă la
toate nivelurile prelucrării lingvistice în care dicţionarul este consultat.

Fizic, dicţionarul este descris prin intermediul unei colecţii de fişiere ce codifică fiecare în
parte o anumită categorie de informaţie relevantă pentru descrierea morfo-lexicală a limbii
române. Coreferenţialitatea informaţiei referitoare la un anumit articol de dicţionar,
distribuită în diferite descrieri parţiale, se realizează prin intermediul operaţiei de unificare. În
urma procesului de compilare a acestor descrieri furnizând informaţii congruente, dar din
perspective diferite, ale aceluiaşi articol morfo-lexical, rezultă o structură agregată complexă
cu funcţionalitate la toate nivelurile de prelucrare lingvistică. Prin unificare, se pot integra în
descrierile unor articole lexicale individuale, proprietăţi generice, caracteristice unor clase
cărora acestea aparţin. De pildă, macro-definiţiile de mai jos, reprezentând abstracţii
relaţionale de natură morfo-lexicală, sunt aplicabile tuturor formelor verbale partajate în
forme predicative şi respective nepredicative.

# Define morph

VUntensed(Verform)

<head sem mood> = Verform

<head tensed> = no

<head prd > = no

<head sem voice> = active/reflexive

VTensed(TENSE,Verform)

<head sem mood> = Verform

<head sem tense> = TENSE

<head tensed> = yes

<head prd > = yes


<head sem voice> = active/reflexive

Abstracţia relaţională de mai jos, specifică elementele structurale relevante pentru verb în
modelarea acordului gramatical.

# Define morph

VAgr(N,P,G)

<head agr num> = N

<head agr pers> = P

<head agr gen> = G

Prin intermediul abstracţiilor relaţionale se pot defini valori implicite pentru categorii
gramaticale, valori care se moştenesc (dacă nu se specifică altfel) de către toţi reprezentanţii
categoriei respective. În exemplul de mai jos este dată o astfel de descriere generică a clasei
verbelor.

# Define lexical

Verb

<head sem pred> =<form>

<head sem voice> =active/passive

!prefixe

<head agr> ==VAgr

<head agr num> =singular/plural

<head agr pers> =1/2/3

<head agr gen> =masculine/feminine

<head tensed> =no/yes

<head prd> =no/yes

<head type> =aux/main

<bar> =0

Cuvintele (în fapt, rădăcinile şi temele lexicale) aparţinând categoriilor gramaticale flexionare
(substantiv, verb, adjectiv, pronume şi adjectiv nehotărât, pronume şi adjectiv demonstrativ,
pronume relativ/interogativ, articol şi numeral) sunt descrise în câte două fişiere: unul conţine
informaţiile morfologice iar cel de-al doilea informaţiile lexicale asociate intrării de dicţionar
în cauză.

Analiza şi generarea cuvintelor presupun o strategie "stânga-dreapta" cu verificarea


restricţiilor combinaţionale proprii fiecărui morfem din componenţa unui cuvânt.

Pentru categoriile gramaticale neflexionare este necesară numai specificarea formelor leme şi
a informaţiilor lexicale ataşate acestor forme.

Categoriile gramaticale constituind clase închise (pronumele, numeralul, articolul,


prepoziţiile şi conjuncţiile) au fost descrise în totalitate în cadrul unui singur fişier.

2.1. Structura de atribute şi valori

Structura de atribute şi valori este reprezentată în cadrul formalismului Mac-ELU printr-o


structură de graf orientat aciclic [7].

În practica teoriilor lingvistice moderne, se realizează o distincţie intre categorii majore (cele
ce pot constitui regentul unui grup frazal) şi categorii minore. Categoriile majore au asignate
atributul "bar" care desigur pentru nivelul lexical au fost iniţializate la valoarea 0.

Alte atribute importante, prezente în dicţionarul nostru sunt:

• "cat" având ca valoare categoria gramaticală corespunzătoare cuvântului respectiv,

• "form", atribut care specifică forma lemă a cuvântului de bază, şi

• "head" care are ca valoare întotdeauna un subgraf în care sunt concentrate


caracteristicile lexicale ale cuvântului. Atributul head conţine subarborele semantics,
iar pentru categoriile gramaticale flexionare şi subarborele agreement (Figura 1.).
Sunt definite două tipuri de acord: acordul nominal în gen, număr, caz şi persoană,
corespunzător categoriilor nominale (substantiv, adjectiv, pronume şi numeral), şi
acordul verbal în gen, număr şi persoană.

Figura 1. Structura generală de atribute corespunzătoare categoriilor majore


În afară de aceste atribute esenţiale, structura de atribute se completează cu atributele
specifice fiecărei categorii gramaticale. Pentru fiecare cuvânt această structură este
completată cu atributele şi valorile corespunzătoare.

În virtutea reversibilităţii descrierilor din dicţionar precum şi a mediului de prelucrare


lingvistică, aceleaşi structuri de atribute şi valori vor fi atribuite unei forme ocurenţă atât în
procesul analizei cât şi al generării sale.

2.2. Exemple comentate de intrări în dicţionar

Aşa cum am menţionat anterior, descrierea unei rădăcini pentru un cuvânt aparţinând unei
categorii gramaticale flexionare se realizează prin intermediul a două subdescrieri [9]. Prima,
furnizează rădăcina, tema implicită [3] (opţional) şi respectiv informaţiile lexicale ataşate
acesteia. De exemplu pentru rădăcina "baron" (rezidentă în dicţionarul nounlex) vom avea:

baron * n !common !pref(none)

Această intrare conţine rădăcina ("baron") care este totodată şi tema implicită (acest lucru
este semnalat prin prezenta caracterului de control "*"), categoria gramaticală (substantiv),
specificarea că nu admite prefix şi în sfârşit că tema implicită este o rădăcină a unui
substantiv comun.

A doua parte a descrierii cuprinde descrierea restricţiilor de concatenare a sufixelor


gramaticale şi lexicale la temele rădăcinii "baron":

baron n @baronînounlex {+a}{+b} $nom_masc8, $nom_mob_fem6

baroan n @baronînounlex {+a}{+b} $nom_mob_fem1

Descrierea morfologică cuprinde două teme substantivale ale rădăcinii "baron". Prima intră în
componenţa tuturor formelor flexionare ale substantivului masculin "baron" (paradigma
nom_masc8), dar şi în toate formele flexionare ale substantivului feminin "baroneasă"
(paradigma nom_mob_fem6) ce reprezintă moţiunea temei implicite. Cea de a doua temă
substantivală intră în componenţa tuturor formelor flexionare ale substantivului "baroană",
reprezentând de asemenea o moţiune a temei implicite (paradigma nom_mob_fem1).

În descrierea de mai sus se mai observă modul de realizare a coreferenţialităţii informaţiilor


distribuite în cele două descrieri parţiale: notaţia @baronnounlex specifică faptul că
descrierea morfologică curentă este pertinentă pentru elementul lexical "baron" rezident în
dicţionarul "nounlex". Variabilele "a" şi "b" reprezintă mijloace de control de tip "semafor"
ce blochează combinaţii ilegale (faptul că cele două "semafoare", primul pentru formele de
singular şi cel de al doilea pentru formele de plural sunt prefixate cu + semnifică invarianţa
temei în raport cu numărul gramatical).

Descrierea unui cuvânt aparţinând uneia din categoriile neflexionare se realizează pe un


singur nivel specificându-se forma rădăcina, care de fapt reprezintă în acest caz forma lemă,
şi informaţiile ataşate acesteia. Un exemplu de astfel de intrare (pentru adverbul locativ
"acasă") este următorul:

acasă * adv !Adv !pref(none) !type(place)


3. Rezultate

În afară de clasele închise care au fost inventariate, introduse şi testate în totalitate, au fost
descrise aproximativ 30.000 de intrări lexicale. Folosind descrierile sufixelor lexicale şi a
unor prefixe cu semantică simplu descriptibilă, dicţionarul nostru acoperă în momentul de
faţă aproximativ 50.000 cuvinte din fondul de cuvinte al limbii române.

Fiind implicaţi în proiectul MULTEXT-EAST, pentru realizarea unui corpus pentru limba
română, a trebuit să construim un lexicon exploatabil în contextul platformei de prelucrare a
corpusurilor implementată în cadrul proiectului "mamă" MULTEXT, având următoarea
structură de intrare lexicală:

<cuvânt> <tab> <cod-lexical> <tab> <formă-lemă> <tab> <cod-corpus>

<cod-lexical>, reprezintă o codificare liniară ("Ncmsoyn") a informaţiei morfo-lexicale


asociată cuvântului (forma ocurenţă) iar <cod-corpus> reprezintă o marcă de adnotare a
corpusului obţinut automat pe baza unor generalizări ale codurilor lexicale.

Întrucât pe de o parte, informaţia codificată în acest dicţionar reprezintă un subset al


informaţiei existente sau deductibile din dicţionarul implementat în formalismul Mac-ELU,
iar pe de altă parte atributele şi valorile definite în cele două modelări au avut semantică
identică sau foarte apropiată (alinierea la recomandările EAGLES fiind extrem de benefică), a
fost posibilă generarea automată a noului dicţionar, conţinând aproximativ 500.000 de forme
ocurenţă, economisindu-se un considerabil efort uman, financiar şi logistic.

4. Bibliografie

[1] Alberto, P., Bennet, P. (eds) - "Lexical Issues in Machine Translation", in Studies in
Machine Translation and Natural Language Processing, vol. 8, European Commission,
Luxembourg, 1995.

[2] Estival,D., Tufiş,D., Popescu,O. - "Développment d'outils et de donnés linguistiques pour


le traîtement du langage naturel". Rapport Final - Projet EST, 1994.

[3] Tufiş,D., Diaconu,L, Diaconu,C., Barbu,A.M. - "Morfologia limbii române, o resursă


lingvistică reversibilă şi reutilizabilă " în acest volum.

[4] Tufiş,D., Popescu,O. - "A Unified Management and Processing of Word-Forms, Idioms
and Analytical Compounds" in J. Kunze and D. Reinmann (eds), Proceedings of ECACL'`91,
Berlin, 1991.

[5] Tufiş,D, -"It Would Be Much Easier if WENT Were GOED", In Somers, H., Woods, M.
(eds) Proceedings of ECACL'89, Manchester, 1989.

[6] Tufiş,D. - "A Learning Approach to Morphological Knowledge Acquisition", in I.Plander


(ed), Artificial Intelligence and Information-Control Systems for Robots, North Holland,
Strbske Pleso, 1989.

[7] Shieber,S.M. - "An Introduction to Unification-Based Approaches to Grammar", Lecture


Notes CSLI, No. 4, 1986.
[8] Estival,D. - "ELU User Manual", ISSCO, 1990.

[9] *** "Gramatica limbii române". Editura Academiei, Bucureşti, 1966.

[10] Diaconu,L. - "Construirea intrărilor lexicale în Mac-ELU." Manual de utilizare. Raport


Tehnic ICI, iunie 1995.

S-ar putea să vă placă și