Tufis DDB LT1996

Dan Tufiş (ed.), Limbaj şi Tehnologie, pp. 93-100.
Editura Academiei Române, Bucureşti, 1996. ISBN 973-27-0542-6
DICŢIONAR AL LIMBII ROMÂNE DESTINAT

TRADUCERII AUTOMATE
DAN TUFIŞ, LIDIA DIACONU,
CĂLIN DIACONU, ANA MARIA BARBU
1. Introducere
Realizarea unui dicţionar şi a unei gramatici pentru o limbă naturală (limba română în cazul
nostru) este un proiect de anvergură, implicând resurse umane şi materiale foarte mari.
Generalizarea abordărilor lexicalizate în modelarea gramaticilor limbajelor naturale atribuie
dicţionarului un rol esenţial în orice arhitectură de sistem de prelucrare automată a limbajului
natural. Tot mai multe informaţii ce tradiţional erau codificate prin regulile gramaticii
(sintaxa) sunt transferate în dicţionar. În felul acesta se promovează încapsularea
cunoştinţelor lingvistice specifice în structuri lexicale, sintaxei revenindu-i sarcina codificării
unor aspecte generice, a unor restricţii conceptuale, instanţiabile prin elemente lexicale
specifice. Teoriile lingvistice moderne cum ar fi gramaticile funcţional lexicale (LFG),
gramaticile de constituenţi frazali regenţi (HPSG), gramaticile categoriale (CG) sau
gramaticile lexicalizate cu adjuncţie de arbori (LTAG) evidenţiază contribuţia esenţială a
specificaţiilor lexicale la definirea şi reprezentarea restricţiilor gramaticale.
Întreaga activitate de cercetare/dezvoltare în domeniul prelucrării limbajului natural,

desfăşurată în contextul formalismelor bazate pe unificare precum şi popularitatea din ce în
ce mai mare a acestor abordări, au făcut din problematica lexicului un punct focal al anilor
`90. În definitiv, nici nu este de mirare, întrucât, orice încercare de a construi ceva mai mult
decât un sistem jucărie de prelucrare a limbajului natural, este confruntată imediat cu nevoia
de a avea la dispoziţie un dicţionar de mare acoperire lingvistică şi implicit cu enormele
resurse materiale şi umane care trebuie asigurate pentru construcţia unui astfel de dicţionar.
Aceasta este o problemă pe care lingvistica teoretică nu o are atât timp cât o duzină de
exemple de intrări lexicale sunt suficiente pentru argumentarea uneia sau alteia dintre teoriile
propuse [1]. Cum lingvistica în general şi lingvistica computaţională în special, sunt departe
de consensul metodologic care să permită alegerea unei teorii sau a unui formalism în
contextul cărora să se formalizeze cunoştinţele lingvistice necesare unui sistem de prelucrare
a limbajului natural, este esenţial ca în modelarea limbii să se aibă în vedere criteriul
reutilizabilităţii descrierilor lingvistice. Cu alte cuvinte, "migrarea" facilă (ideal automată) a
reprezentării cunoştinţelor lingvistice dintr-un formalism în altul este un obiectiv a cărui
ignorare poate genera imobilism şi un conservatorism perdant faţă de avansurile conceptuale
în teoria lingvistică.
În cele ce urmează vom prezenta structura unui dicţionar al limbii române, construit în
contextul unui mediu de programare lingvistică bazată pe unificare, numit Mac-ELU [2]
mediu implementat în colaborare cu ISSCO-Geneva. Dicţionarul se bazează pe un model
morfologic paradigmatic [3,4,5,6] şi acoperă (sub raport morfo-grafematic), la momentul
elaborării acestei lucrări, circa 80% din fondul lexical al DEX. După cum se va vedea în
continuare, datorită caracterului incremental al dezvoltării proiectului nostru, este posibil ca
diferite componente ale dicţionarului să fie dezvoltate în paralel, cu o relativă independenţă
una de alta. Filozofia modelării de tip "atribut-valoare", în contextul unui mediu bazat pe
unificare, precum şi facilităţile de compilare separată existente în sistemul Mac-ELU, ne-au
permis defalcarea şi distribuirea (parţială deocamdată) a sarcinilor de realizare a dicţionarului
limbii române în colective specializate pe segmente specifice (fonologie, morfologie, sintaxă,
clasificare terminologică, semantică lexicală). Prezentarea ce urmează tratează doar
componentul morfo-grafematic (şi parţial cel lexical) ce a fost asumat şi a fost implementat
de colectivul nostru.
2. Structura dicţionarului în formalismul Mac-ELU
Mac-ELU (MacIntosh Environment Linguistique d'Unification) este un sistem bazat pe

unificare care implementează o extensie semnificativă a formalismul PATR-II, [7]. O
descriere completă a funcţionalităţii acestui mediu de programare lingvistică poate fi găsită în
[8], iar detalii despre implementarea specifică pe care se bazează dicţionarul nostru sunt
prezentate în [3].
O importantă caracteristică a acestui sistem este reversibilitatea. Acelaşi dicţionar poate fi

folosit atât în analiză cât şi în generare, caracteristica de reversibilitate fiind persistentă la
toate nivelurile prelucrării lingvistice în care dicţionarul este consultat.
Fizic, dicţionarul este descris prin intermediul unei colecţii de fişiere ce codifică fiecare în
parte o anumită categorie de informaţie relevantă pentru descrierea morfo-lexicală a limbii
române. Coreferenţialitatea informaţiei referitoare la un anumit articol de dicţionar,
distribuită în diferite descrieri parţiale, se realizează prin intermediul operaţiei de unificare. În
urma procesului de compilare a acestor descrieri furnizând informaţii congruente, dar din
perspective diferite, ale aceluiaşi articol morfo-lexical, rezultă o structură agregată complexă
cu funcţionalitate la toate nivelurile de prelucrare lingvistică. Prin unificare, se pot integra în
descrierile unor articole lexicale individuale, proprietăţi generice, caracteristice unor clase
cărora acestea aparţin. De pildă, macro-definiţiile de mai jos, reprezentând abstracţii
relaţionale de natură morfo-lexicală, sunt aplicabile tuturor formelor verbale partajate în
forme predicative şi respective nepredicative.
# Define morph
VUntensed(Verform)
<head sem mood> = Verform
<head tensed> = no
<head prd > = no
<head sem voice> = active/reflexive
VTensed(TENSE,Verform)
<head sem mood> = Verform
<head sem tense> = TENSE
<head tensed> = yes
<head prd > = yes

<head sem voice> = active/reflexive
Abstracţia relaţională de mai jos, specifică elementele structurale relevante pentru verb în
modelarea acordului gramatical.
# Define morph
VAgr(N,P,G)
<head agr num> = N
<head agr pers> = P
<head agr gen> = G
Prin intermediul abstracţiilor relaţionale se pot defini valori implicite pentru categorii
gramaticale, valori care se moştenesc (dacă nu se specifică altfel) de către toţi reprezentanţii
categoriei respective. În exemplul de mai jos este dată o astfel de descriere generică a clasei
verbelor.
# Define lexical
Verb
<head sem pred> =<form>
<head sem voice> =active/passive
!prefixe
<head agr> ==VAgr
<head agr num> =singular/plural
<head agr pers> =1/2/3
<head agr gen> =masculine/feminine
<head tensed> =no/yes
<head prd> =no/yes
<head type> =aux/main
<bar> =0
Cuvintele (în fapt, rădăcinile şi temele lexicale) aparţinând categoriilor gramaticale flexionare
(substantiv, verb, adjectiv, pronume şi adjectiv nehotărât, pronume şi adjectiv demonstrativ,
pronume relativ/interogativ, articol şi numeral) sunt descrise în câte două fişiere: unul conţine
informaţiile morfologice iar cel de-al doilea informaţiile lexicale asociate intrării de dicţionar
în cauză.
Analiza şi generarea cuvintelor presupun o strategie "stânga-dreapta" cu verificarea

restricţiilor combinaţionale proprii fiecărui morfem din componenţa unui cuvânt.
Pentru categoriile gramaticale neflexionare este necesară numai specificarea formelor leme şi
a informaţiilor lexicale ataşate acestor forme.
Categoriile gramaticale constituind clase închise (pronumele, numeralul, articolul,

prepoziţiile şi conjuncţiile) au fost descrise în totalitate în cadrul unui singur fişier.
2.1. Structura de atribute şi valori
Structura de atribute şi valori este reprezentată în cadrul formalismului Mac-ELU printr-o

structură de graf orientat aciclic [7].
În practica teoriilor lingvistice moderne, se realizează o distincţie intre categorii majore (cele
ce pot constitui regentul unui grup frazal) şi categorii minore. Categoriile majore au asignate
atributul "bar" care desigur pentru nivelul lexical au fost iniţializate la valoarea 0.
Alte atribute importante, prezente în dicţionarul nostru sunt:
• "cat" având ca valoare categoria gramaticală corespunzătoare cuvântului respectiv,
• "form", atribut care specifică forma lemă a cuvântului de bază, şi
• "head" care are ca valoare întotdeauna un subgraf în care sunt concentrate

caracteristicile lexicale ale cuvântului. Atributul head conţine subarborele semantics,
iar pentru categoriile gramaticale flexionare şi subarborele agreement (Figura 1.).
Sunt definite două tipuri de acord: acordul nominal în gen, număr, caz şi persoană,
corespunzător categoriilor nominale (substantiv, adjectiv, pronume şi numeral), şi
acordul verbal în gen, număr şi persoană.
Figura 1. Structura generală de atribute corespunzătoare categoriilor majore

În afară de aceste atribute esenţiale, structura de atribute se completează cu atributele
specifice fiecărei categorii gramaticale. Pentru fiecare cuvânt această structură este
completată cu atributele şi valorile corespunzătoare.
În virtutea reversibilităţii descrierilor din dicţionar precum şi a mediului de prelucrare

lingvistică, aceleaşi structuri de atribute şi valori vor fi atribuite unei forme ocurenţă atât în
procesul analizei cât şi al generării sale.
2.2. Exemple comentate de intrări în dicţionar
Aşa cum am menţionat anterior, descrierea unei rădăcini pentru un cuvânt aparţinând unei
categorii gramaticale flexionare se realizează prin intermediul a două subdescrieri [9]. Prima,
furnizează rădăcina, tema implicită [3] (opţional) şi respectiv informaţiile lexicale ataşate
acesteia. De exemplu pentru rădăcina "baron" (rezidentă în dicţionarul nounlex) vom avea:
baron * n !common !pref(none)
Această intrare conţine rădăcina ("baron") care este totodată şi tema implicită (acest lucru
este semnalat prin prezenta caracterului de control "*"), categoria gramaticală (substantiv),
specificarea că nu admite prefix şi în sfârşit că tema implicită este o rădăcină a unui
substantiv comun.
A doua parte a descrierii cuprinde descrierea restricţiilor de concatenare a sufixelor

gramaticale şi lexicale la temele rădăcinii "baron":
baron n @baronînounlex {+a}{+b} $nom_masc8, $nom_mob_fem6
baroan n @baronînounlex {+a}{+b} $nom_mob_fem1
Descrierea morfologică cuprinde două teme substantivale ale rădăcinii "baron". Prima intră în
componenţa tuturor formelor flexionare ale substantivului masculin "baron" (paradigma
nom_masc8), dar şi în toate formele flexionare ale substantivului feminin "baroneasă"
(paradigma nom_mob_fem6) ce reprezintă moţiunea temei implicite. Cea de a doua temă
substantivală intră în componenţa tuturor formelor flexionare ale substantivului "baroană",
reprezentând de asemenea o moţiune a temei implicite (paradigma nom_mob_fem1).
În descrierea de mai sus se mai observă modul de realizare a coreferenţialităţii informaţiilor

distribuite în cele două descrieri parţiale: notaţia @baronnounlex specifică faptul că
descrierea morfologică curentă este pertinentă pentru elementul lexical "baron" rezident în
dicţionarul "nounlex". Variabilele "a" şi "b" reprezintă mijloace de control de tip "semafor"
ce blochează combinaţii ilegale (faptul că cele două "semafoare", primul pentru formele de
singular şi cel de al doilea pentru formele de plural sunt prefixate cu + semnifică invarianţa
temei în raport cu numărul gramatical).
Descrierea unui cuvânt aparţinând uneia din categoriile neflexionare se realizează pe un

singur nivel specificându-se forma rădăcina, care de fapt reprezintă în acest caz forma lemă,
şi informaţiile ataşate acesteia. Un exemplu de astfel de intrare (pentru adverbul locativ
"acasă") este următorul:
acasă * adv !Adv !pref(none) !type(place)

3. Rezultate
În afară de clasele închise care au fost inventariate, introduse şi testate în totalitate, au fost
descrise aproximativ 30.000 de intrări lexicale. Folosind descrierile sufixelor lexicale şi a
unor prefixe cu semantică simplu descriptibilă, dicţionarul nostru acoperă în momentul de
faţă aproximativ 50.000 cuvinte din fondul de cuvinte al limbii române.
Fiind implicaţi în proiectul MULTEXT-EAST, pentru realizarea unui corpus pentru limba
română, a trebuit să construim un lexicon exploatabil în contextul platformei de prelucrare a
corpusurilor implementată în cadrul proiectului "mamă" MULTEXT, având următoarea
structură de intrare lexicală:
<cuvânt> <tab> <cod-lexical> <tab> <formă-lemă> <tab> <cod-corpus>
<cod-lexical>, reprezintă o codificare liniară ("Ncmsoyn") a informaţiei morfo-lexicale

asociată cuvântului (forma ocurenţă) iar <cod-corpus> reprezintă o marcă de adnotare a
corpusului obţinut automat pe baza unor generalizări ale codurilor lexicale.
Întrucât pe de o parte, informaţia codificată în acest dicţionar reprezintă un subset al

informaţiei existente sau deductibile din dicţionarul implementat în formalismul Mac-ELU,
iar pe de altă parte atributele şi valorile definite în cele două modelări au avut semantică
identică sau foarte apropiată (alinierea la recomandările EAGLES fiind extrem de benefică), a
fost posibilă generarea automată a noului dicţionar, conţinând aproximativ 500.000 de forme
ocurenţă, economisindu-se un considerabil efort uman, financiar şi logistic.
4. Bibliografie
[1] Alberto, P., Bennet, P. (eds) - "Lexical Issues in Machine Translation", in Studies in
Machine Translation and Natural Language Processing, vol. 8, European Commission,
Luxembourg, 1995.
[2] Estival,D., Tufiş,D., Popescu,O. - "Développment d'outils et de donnés linguistiques pour

le traîtement du langage naturel". Rapport Final - Projet EST, 1994.
[3] Tufiş,D., Diaconu,L, Diaconu,C., Barbu,A.M. - "Morfologia limbii române, o resursă

lingvistică reversibilă şi reutilizabilă " în acest volum.
[4] Tufiş,D., Popescu,O. - "A Unified Management and Processing of Word-Forms, Idioms
and Analytical Compounds" in J. Kunze and D. Reinmann (eds), Proceedings of ECACL'`91,
Berlin, 1991.
[5] Tufiş,D, -"It Would Be Much Easier if WENT Were GOED", In Somers, H., Woods, M.
(eds) Proceedings of ECACL'89, Manchester, 1989.
[6] Tufiş,D. - "A Learning Approach to Morphological Knowledge Acquisition", in I.Plander

(ed), Artificial Intelligence and Information-Control Systems for Robots, North Holland,
Strbske Pleso, 1989.
[7] Shieber,S.M. - "An Introduction to Unification-Based Approaches to Grammar", Lecture

Notes CSLI, No. 4, 1986.
[8] Estival,D. - "ELU User Manual", ISSCO, 1990.
[9] *** "Gramatica limbii române". Editura Academiei, Bucureşti, 1966.
[10] Diaconu,L. - "Construirea intrărilor lexicale în Mac-ELU." Manual de utilizare. Raport

Tehnic ICI, iunie 1995.

Tufis DDB LT1996

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tufis DDB LT1996

Încărcat de

Drepturi de autor:

Formate disponibile

Dan Tufiş (ed.), Limbaj şi Tehnologie, pp. 93-100.

Editura Academiei Române, Bucureşti, 1996. ISBN 973-27-0542-6

DICŢIONAR AL LIMBII ROMÂNE DESTINAT

Întreaga activitate de cercetare/dezvoltare în domeniul prelucrării limbajului natural,

2. Structura dicţionarului în formalismul Mac-ELU

Mac-ELU (MacIntosh Environment Linguistique d'Unification) este un sistem bazat pe

O importantă caracteristică a acestui sistem este reversibilitatea. Acelaşi dicţionar poate fi

<head sem mood> = Verform

<head prd > = no

<head sem voice> = active/reflexive

<head sem mood> = Verform

<head sem tense> = TENSE

<head tensed> = yes

<head prd > = yes

<head agr num> = N

<head agr pers> = P

<head agr gen> = G

<head sem pred> =<form>

<head sem voice> =active/passive

<head agr> ==VAgr

<head agr num> =singular/plural

<head agr pers> =1/2/3

<head agr gen> =masculine/feminine

<head tensed> =no/yes

<head prd> =no/yes

<head type> =aux/main

Analiza şi generarea cuvintelor presupun o strategie "stânga-dreapta" cu verificarea

Categoriile gramaticale constituind clase închise (pronumele, numeralul, articolul,

2.1. Structura de atribute şi valori

Structura de atribute şi valori este reprezentată în cadrul formalismului Mac-ELU printr-o

Alte atribute importante, prezente în dicţionarul nostru sunt:

• "cat" având ca valoare categoria gramaticală corespunzătoare cuvântului respectiv,

• "form", atribut care specifică forma lemă a cuvântului de bază, şi

• "head" care are ca valoare întotdeauna un subgraf în care sunt concentrate

Figura 1. Structura generală de atribute corespunzătoare categoriilor majore

În virtutea reversibilităţii descrierilor din dicţionar precum şi a mediului de prelucrare

2.2. Exemple comentate de intrări în dicţionar

baron * n !common !pref(none)

A doua parte a descrierii cuprinde descrierea restricţiilor de concatenare a sufixelor

baron n @baronînounlex {+a}{+b} $nom_masc8, $nom_mob_fem6

baroan n @baronînounlex {+a}{+b} $nom_mob_fem1

În descrierea de mai sus se mai observă modul de realizare a coreferenţialităţii informaţiilor

Descrierea unui cuvânt aparţinând uneia din categoriile neflexionare se realizează pe un

acasă * adv !Adv !pref(none) !type(place)

<cuvânt> <tab> <cod-lexical> <tab> <formă-lemă> <tab> <cod-corpus>

<cod-lexical>, reprezintă o codificare liniară ("Ncmsoyn") a informaţiei morfo-lexicale

Întrucât pe de o parte, informaţia codificată în acest dicţionar reprezintă un subset al

[2] Estival,D., Tufiş,D., Popescu,O. - "Développment d'outils et de donnés linguistiques pour

[3] Tufiş,D., Diaconu,L, Diaconu,C., Barbu,A.M. - "Morfologia limbii române, o resursă

[6] Tufiş,D. - "A Learning Approach to Morphological Knowledge Acquisition", in I.Plander

[7] Shieber,S.M. - "An Introduction to Unification-Based Approaches to Grammar", Lecture

[9] *** "Gramatica limbii române". Editura Academiei, Bucureşti, 1966.

[10] Diaconu,L. - "Construirea intrărilor lexicale în Mac-ELU." Manual de utilizare. Raport

S-ar putea să vă placă și