Sunteți pe pagina 1din 7

Contextul şi bazele de cunoştinţe

Tema 5. WordNet

Plan:
1. Ideea de bază
2. Substantivele în WordNet
3. Adjectivele în WordNet
4. Verbele în WordNet

1. Ideea de bază

Înca la începutul erei lingvisticii computaţionale cercetătorii s-au confruntat cu problema creării
vocabulalelor potrivite pentru sistemele automatizate. Dicţionarele clasice folosite de oameni nu erau utile
pentru sistemele computaţionale. Cuvintele aranjate în ordinea alfabetică cu definiţii nu erau potrivite pentru
reprezentarea sensului lor pentru sisteme automate de procesare a textului în limbaj natural. Sistemele
computaţionale aveau nevoie de un alt fel de reprezentare a sensurilor cuvintelor.
Un ajutor a venit din partea psiholingvisticii, ramurei a lingvisticii care studiază mecanismul psihic al
limbajului. Psiholingviştii au condus cercetări cu scopul definirii modului de memorizare a cuvintelor în creierul
omului. La Universitatea din Princeton, SUA, cu problema aceasta intensiv s-a ocupat George A. Miller cu
colegii săi. În 1985 ei au pus drept scop crearea unui lexicon computaţional în baza principiilor psiholingvistice.
Ca rezultat ei şi-au creat o bază de date unde cuvintele sunt organizate în baza conceptelor, dar nu în ordinea
alfabetică. De-a lungul anilor 1985-1990 ei manual au completat dicţionarul lor şi rezultatul muncii intensive a
fost lexiconul semantic a limbii engleze numit WordNet. Paralel cu crearea WordNet au fost propuse mai
multe teorii psiholingvistice care au fost exemplificate cu seturi mici de cuvinte (în majoritatea sa substantive).
Avantajul principal proiectului dat a fost volumul de cuvinte incluse în lexicon. În 1990 WordNet conţinea
aproximativ 95,600 forme de cuvinte (51,500 cuvinte simple si 44,100 colocaţii).
Diferenţa principală între lexiconul creat şi dicţionarele clasice constă în organizarea cuvintelor. Unitatea de
bază a dicţionarelor este un cuvînt cu lista sensurilor săi, pe cînd în WordNet unitatea de bază este un concept
(sens) reprezentat prin lista cuvintelor ce reprezintă conceptul dat. Este evident că dacă cîteva cuvinte reprezintă
un concept (sens) cuvintele acestea sunt sinonime. Dacă cuvintele au deja reprezentare bine formată prin forma
lor lexicală, reprezentarea sensurilor trebuia cumva stabilit. În WordNet problema prezentării sensului este
rezolvată folosind setul de cuvinte care-l reprezinta. De exemplu: {board, plank} and {board, committee}
prezintă foarte bine două sensuri ale cuvântului ‘board’. Astfel au fost inventate unităţile de reprezentatre a
sensului – seturi de sinonime (synonym set). Având sensurile descrise prin seturi de sinonime (sin-set-uri) pot
fi stabilite relaţiile dintre sensuri ca relaţii între sinseturi. De exemplu, setul de cuvinte „travel, go, move,
locomote” reprezintă conceptul de a merge, călători; setul de cuvinte „car, auto, automobile, machine, motorcar”
reprezintă conceptul „automobil, vehicol”.
Ca bază a dicţionarului, synseturi au stabilit împărţirea lui WordNet în categorii conform parţilor de vorbire:
sinonimul substantivului poate fi numai substantiv, verbului – verb, s.a.m.d. În WordNet cuvitele sunt grupate în
cinci grupe mari: substantive, verbe, adjective, adverbe şi cuvinte funcţionale. Cuvintele funcţionale nu sunt
încluse în WordNet fiindcă în teoria dată se presupune că ele nu au sens propriu ci numai ajută în combinarea
sensurilor cuvintelor semnificative în propoziţie.

Dar uneori cuvintele care descriu aceiaşi entitate nu se pot inlocui unul pe altul.
Altă relaţie este antonimia. Relaţia de antonimie este una de baza pentru adjective şi adverbe.
Hiponimia – hipernimia. Dacă sinonimia şi antonimia sunt relaţii lexicale intre cuvinte, hiponimia –
hipernimia sunt relaţii semantice între sensurile cuvintelor sau între concepte. Spunem că un concept c1 este un
hiponim al lui c2 sau că c2 este un hipernim a lui c1 dacă c1 este un concept mai particular decât c2, sau dacă c2
este un concept mai general decât c1. Verificarea acestor relaţii poate fi făcută prin includerea cuvintelor w1 şi w2
care definesc conceptele c1 şi c2 aflate în această relaţie în exprimări de tipul “w1 este un w2” sau “w1 este un tip
de w2” (predicatul ISA). Relaţia de hiponimie/hipernimie este tranzitivă (adică dacă c1 este un hiponim al lui c2,
iar c2 este un hiponim al lui c3, atunci c1 este un hiponim al lui c3) şi asimetrică (dacă c1 este un hiponim al lui c2,
atunci c2 nu este un hiponim al lui c1). Relaţia de hiponimie este bine cunoscută în Inteligenţa Artificială, pentru
că ea stă la baza reprezentării cunoştinţelor în sistemele bazate pe moştenirea proprietăţilor. Într-adevăr un
hiponim moşteneşte toate trăsăturile unui hipernim, în acelaşi timp diferenţiindu-se de alte hiponime ale
aceluiaşi hipernim prin anumite trăsături specifice numai lui. Relaţia de hiponimie stă la baza organizării
substantivelor în WordNet. De exemplu, un lanţ: oak @ -> tree @ -> plant @ -> organism prezintă legăturile de
hiponimie @-> care poate fi citit ‘is a’ sau ‘is a kind of’.
Meronimia – holonimia. Meronimia este relaţia parte-întreg (HasAsPart în engleză). Astfel, spunem că un
concept c1 este un meronim al unui concept c2 dacă putem accepta exprimări de genul: “c1 este o parte a lui c2”
sau “c2 are ca parte pe c1”. Relaţia de meronime este tranzitivă şi asimetrică şi poate în rândul ei forma o
ierarhie. Toate relaţiile descrise sunt formate ca referinţe (pointers) de la un sinset la altul.
Relaţii morfologice. Pe parcursul creării WordNet-ului s-a evidenţiat că el trebuie sa aibă posibilitate să
lucreze cu toate formele cuvintelor. Problema aceasta pentru limba engleza nu este foarte complicată, dar şi
pentru engleza programul care prelucrează diferite forme ale cuvintelor nu a fost aşa de simplu cum părea
iniţial. Dar, în final, programul a fost creat şi lucrează ca partea de interfaţă WordNet-ului. În baza cu cuvinte
morfologia nu a fost introdusă.

2. Substantivele în WordNet.

Definiţia unui substantiv, spre exemplu, contur – linie închisă, care mărgineşte o parte dintr-o suprafaţă,
prezintă, ca regulă, un termen mai general plus caracteristicile specifice obiectului dat. Problema constă în
aceea, că cuvintele sunt descrise folosind alte cuvinte, care iarăşi sunt descrise cu cuvinte. Idea pricipală este că
lexicografii creează o structură ierarhică din cuvinte folosind noţiunea mai generală în definiţia cuvintelor.
Legătura aceasta între cuvânt şi termenul mai general şi a fost introdusă ca bază pentru formarea structurii
WordNet-ului substantivelor. Este interesant că ierarhia substantivelor practic nu conţine mai mult de 10
niveluri, o parte din care sunt noţiuni tehnice introduse artificial. Programiştii numesc ierarhii ‚sisteme de
moştenire’ unde subclasa moşteneşte toate proprietăţile clasei mai generale care-i aparţine. WordNet tot este un
sistem cu moştenire. Fiecare noţiune (sinset) conţine referinţe la noţiunea mai generală şi o mulţime de referinţe
spre noţiuni mai particulare. În procesul de clasificare a substantivelor trei tipuri de caracteristici au fost luate în
consideraţie, au fost grupate substantivele cu aceleaşi atribute (modificatori), părţi (meronime), funcţii
(predicate). Meronimia este indicată prin legăturile între sinseturi, atribute – ca referinţe de la adejective la
substantive, funcţii – ca legături de la verbe la substantive. Toate substantivele sunt repartizate in 25 fisiere
fiecare prezentând un component semantic primitiv.
List of 25 unique beginners for WordNet nouns:
{act, action, activity} {food} {possession}
{animal, fauna} {group, collection} {process}
{artifact} {location, place} {quantity, amount}
{attribute, property} {motive} {relation}
{body, corpus} {natural object} {shape}
{cognition, knowledge} {natural phenomenon} {state, condition}
{communication} {person, human being} {substance}
{event, happening} {plant, flora} {time}
{feeling, emotion}

O hierarhie are nevoie să aibă un vârf, ceva, de exemplu ‚entitate’, care apoi să se împărţească în ‚obiect real’ şi
‚obiect abstract’ ş.a.m.d. Iniţial în WordNet vâirful nu a fost realizat.
Totuşi, la urmă, a fost creată o hierarhie de vârf, care conţinea 7 grupuri globale:

{plant, flora}
{living thing, organism} {animal, fauna}
{person, human being}

{thing, entity} {natural object}


{artifact}
{nonliving thing, object} {substance}
{food}

O problemă nerezolvată în WordNet – informaţia generală despre obiectele descrise care prezintă, de fapt,
cunoştinţele generale, dar nu lingvistice. Problema este mai globală, fiindcă şi dictionarele explicative nu conţin
o mulţime de informaţie despre cuvintele, pe care le descriu. De exemplu, nu se descrie cum arată obiectul
definit, ce părţi are, care sunt cuvintele legate de obiectul acesta, care sunt funcţiile lui, care sunt diferite
modificări ale obiectului dat.
Au fost adăugate caracteristicele pentru fiecare nivel al hierarhiei care pot fi moştenite de nivelurile
inferioare. Au fost realizate următoarele caracteristici: atribute, părţi şi funcţii. Trebuie de notat că atributele sunt
descrise folosind adjective, părţile cu substantive şi funcţiile cu verbe. Aşadar, s-au creat legăturile între diferite
părţi de vorbire. Iniţial au fost realizate numai legăturile între substantive. Când WordNet a fost creat se
presupunea ca el va fi folosit paralel cu un dicţionar explicativ, apoi totuşi la sinseturi s-a adăugat descrierea
scurta a sensului (gloss).
În cele ce urmează este dat un exemplu al reţelei de relaţii cu câteva noţiuni şi relaţiile de hiponimie,
meronimie şi antonimie. Rezultatul este o reţea destul de interconnectată.

3. Adjectivele in WordNet.

Adjectivele, ca regulă, au funcţia de modificatori. Uneori aceiaşi funcţie o au substantivele (barber chair) sau
verbele (creaking chair, broken chair), deseori grupele întregi de cuvinte (chair by the window, chair that you
bought last week). Dar, totuşi, în majoritatea cazurilor modificatori sunt adjectivele.
Adjectivele în WordNet se impart în descriptive si relaţionale. Adjectivele descriptive ca regulă au antonim
sau cuvinte antonimice dupa sens si gradul de comparaţie. Spre exemplu, frumos, mare, cinstit. Adjectivul
frumos are grad de comparaţie: frumos, foarte frumos, cel mai frumos şi antonimul: urât. Adjective relaţionale
sunt în majoritatea cazurilor create din substantive sau verbe. Spre exemlu, patrat, construit. Adjectivele de
culoare se consideră un caz specific. Mai este o categorie, care se numeste „reference-modifying” (former,
alleged).
Adjectivele descriptive formează cea mai mare clasă de adjective. Adjectivul descriptiv descrie oarecare
atribut al obiectului. Daca spunem „X este Adj”, presupunem ca exista un atribut A a lui X, care este descris de
adjectiv Adj. Sau în forma matematică: A(X)=Adj. Spre exemplu, Valiza este grea. Aici Valiza are atribut –
greutate, care este descris de adjectiv grea. Greutatea ( Valiza ) = Grea. Alt exemplu: Problema este uşoară.
Complexitatea ( Problema ) = uşoară.
Sinonimia între adjective este prezentată destul de larg. În setul de sinonime se observă un cuvânt - nucleu,
care reprezintă noţiunea şi cuvintele care denotează diferite variaţiuni ale noţiunii acestea. Spre exemplu:
cuvântul wat reprezintă noţiunea umed. Sinonimele lui sunt watery, damp, moist, humid, soggy (apos, jilav,
purulent, igrasios, ud).
Între adjective nu există relaţie hierarhică ca între substantive. Relaţie de bază în afară de sinonimie este
antonimia. Antonimia este relaţia lexicală, adica relaţia între cuvinte individuale, dar nu între sensuri, şi ridică
un set de probleme. Spre exemplu, cuvintele heavy, weighty, ponderous sunt sinonime. Dar antonim pentru
heavy este light, pentru weighty este weightless şi pentru ponderous nu există nici un antonim.
Deci, antonimia nu poate fi stabilită între sinseturi, numai între cuvinte individuale. Cele mai evidente cazuri
de antonimie sunt cuvintele cu prefixe in- im- ir- un- . Ca rezultat, în WordNet sunt prezentate 2 tipuri de relaţii
– sinonimie sau similaritate şi antonimie directa. Cuvintele care nu au antonime directe obţin antonime
indirecte prin relaţii X -> similar -> Y -> antonim -> Z. De exemplu, ponderous -> similar -> heavy -> antonim
-> light. Aşadar, cuvântul ponderous are antonim indirect, cuvântul cu sensul opus light.
Polisemie Adjectivele sunt destul de polisemantice şi sensul lor depinde mult de substantivele, pe care le
modifica. (fresh). Unii lingvişti propun altă teorie că adjectivul are un sens, dar cu substantive diferite apar
diferite interpretări ale sensului lor. În WordNet este prezentat primul punct de vedere că adjectivele sunt
polisemantice şi că substantivele pe care ele le modifică ajută la determinarea sensurilor lor.
Contribuţia adjectivelor în pereche adjectiv-substantiv este secundară şi cea mai optimală variantă este
crearea legăturilor între substantive şi adjective. Şi adjectivele şi substantivele sunt organizate in aşa mod, ca să
facă legăturile acestea câît mai simple. Legăturile acestea sunt create numai într-o direcţie: de la adjectiv la
substantiv.
Ca rezultat al investigaţiilor adjectivelor a fost creată structura bipolară dintr-o pereche de antonime directe,
fiecare cu sinonimele lui care este prezentată în figura dată.

Reference-modifying adjectives. Adjectivele acestea formeaza o clasă din cîteva zeci de cuvinte aşa ca
fostul, aşa-zis, viitor, simulat, asumat, presupus, potenţial, virtual. Dacă adjectivele relaţionale modifică
noţiunile, dând lor o caracteristică adjectivele acestea schimbă sensul obiectului pe care îl modifică. Prezident
potenţial nu este prezident, el este numai candidat. Ele deseori au functia adverbelor şi ca regulă nu pot folosite
predicativ. Spre exemplu, putem spune fostul preşedinte, dar nu putem presedintele este fostul. Această
deosebire este marcată în WordNet. Adjectivele de tipul acesta au antonime directe sau cuvintele cu sensul opus.
Adjectivele de culoare formează o clasă aparte, ele au grad de comparaţie dar, practic, nu au antonime (în
afară de white-black, light-dark). Cuvintele, care descriu culoarea pot fi atât substantive cât şi adjective. Este
interesantă observaţia că numărul adjectivelor de culoare în limbă creşte în dependenţă de dezvoltarea artei,
industriei (producerii mărfii de diferite culori) care are nevoe de o terminologie corespunzătoare.
Adjective relaţionale practic nu au grad de comparaţie şi antonime. Spre exemplu, adjectivele muzical,
criminal, englez, nuclear sunt relaţionale. Ele ca regulă nu pot fi predicative şi seamană cu modificatori
substantivale. Sunt interesante sensurile unor adjective. Dacă comparăm copil muzical, instrument muzical şi
concert muzical sensul adjectivelor este diferit.
Adjectivele relaţionale sunt organizate în sinseturi cu referinţă la substantivul corespunzător. Spre exemplu,
sinsetul {stellar, astral, sideral, noun.object:star } se referă la substantivul star.

4. Verbele în WordNet

Verbele se consideră cea mai importantă parte de vorbire din punct de vedere sintactic şi al structurii propoziţiei.
Fiecare propoziţie engleză trebuie să conţină cel puţin un verb, pe când substantivele nu sunt aşa de necesare.
Mulţi lingvişti creau modele ale structurii propoziţiei în jurul verbului, ca nucleu sintactic şi semantic. Spre
exemplu, teoria cazurilor cu rolurile tematice ale substantivelor în jurul predicatului, şabloane sintactice ale
verbelor cu restricţii semantice. Prin urmare, verbul este cea mai dificilă parte de vorbire din punct de vedere al
studierii ei.
Chiar dacă fiecare propoziţie necesită cel puţin un verb, numărul de verbe în limba engleză este mai mic decât al
substantivelor. Spre exemplu, dicţionarul englez Collins English Dictionary conţine 43635 substantive şi numai
14190 verbe. Dar verbele sunt cu mult mai polisemantice decât substantivele. Sensul verbelor se schimba în
dependenţă de subiectul care apare în propoziţie. Verbele cel mai frecvent folosite (have, be, run, make, set, go,
take, get) sunt şi cele mai polisemantice. În scopul definirii sensurilor diferite ale verbelor sunt prevăzute
legăturile cu substantivele corespunzătoare. Spre exemplu, pentru verbul run: run the streets, run from one’s
word, running to form, running for the city council, ran aground on a sandbank, shuttle runs daily, news run
ş.a., în fiecare combinaţie verbul are alt sens.
Sinonimia nu este prezentată între verbe engleze, sunt practic numai câteva sinonime adevărate. Unele verbe cu
acelaşi sens nu pot înlocui unul pe altul din cauza că au diferite domenii de utilizare. Spre exemplu, verbele buy
şi purchase. Ca regulă subiectul şi obiectul acestor verbe sunt diferite. De exemplu, în propoziţia A housewife
bought some carrots verbul purchase nu este potrivit.
Mulţi cercetători au încercat să clasifice verbele şi sensurile lor. S-au executat mai multe încercări de
descompunere a sensurilor verbelor care prezintă semantica decompoziţională. Au fost propuse diferite tipuri
de clasificări ale predicatelor în propoziţie, prin urmare şi a sensurilor verbelor corespunzătoare. De exemplu au
fost propuse aşa tipuri abstracte de predicate: EVENIMENT, ACŢIUNE, STARE, MANIERĂ şi altele. Altă teorie
prezintă semantica relaţională ce diferă de cea decompoziţională prin următoarele concepte:
- ca elemente de bază ea foloseşte cuvinte reale dar nu concepte abstracte;
- se descriu relaţiile între cuvintele limbii.
Dar analiza relaţională conţine şi unele concepte de decompoziţie. Unul din predicatele abstracte CAUSE este
considerat ca relaţie între verbe, de exemplu, show-see. O altă abstracţie MANNER este codificată în WordNet
ca relaţia de troponimie. De exemplu, verbele slip-snore.
Adepţii teoriei decompoziţiei presupun că oamenii au în memorie unele abstracţii generale ca MIŞCAREA,
SCHIMBAREA, CAUZA, STAREA şi altele în jurul cărora se grupează verbele apropiate după sens. În WordNet
verbele move, go, change din cauza sensului lor general sunt considerate cuvintele iniţiale (unique beginners).
Alte verbe se grupează în jurul lor.
Relaţia de bază între verbe este moştenirea lexicală sau includerea (lexical entailment). Definiţia moştenirii
lexicale este următoarea: clauza P este moştenitorul clauzei Q atunci şi numai atunci când nu există situaţie că P
este adevărat şi Q este fals. De exemplu, verbul swallow este moştenitorul verbului eat. Relaţia această este
asimetrică. Dacă între unele verbe relaţia aceasta este simetrică ele sunt sinonime. De exemplu, She bought
something. – She purchased something , swallow-glup. Relaţia această poate fi compărată cu meronimia, dar
între verbe relaţiile nu sunt aşa de bine definite ca între substantive.
Unele activităţi denotate de verbe pot fi descompuse în subactivităţi, dar activităţile acestea rar sunt descrise cu
un verb. De exemplu, buy include pick out, negotiate, pay. Activităţile, ca regulă au nişte parametri temporali.
Unele subactivităţi ocupă o parte de timp din activitatea principală (ca în exemplul precedent), altele se
efectuează paralel, de exemplu a merge – a păşi.
Hiponimie între verbe nu există în aşa formă ca între substantive. Modificaţia relaţiei acestea între verbe
este relaţia de troponimie, de la cuvântul grecesc tropos - manieră. Relaţia aceasta poate fi descrisă în următorul
mod: A face V2 înseamnă a face V1 într-o manieră. De exemplu, a şopti înseamnă a vorbi în şoaptă. De fapt,
troponimia este o variantă de includere sau moştenire care co-există în timp. Ca regulă, V1 este un verb mai
general decât V2.
Taxonomia verbelor. După cum s-a observat din descrierea anterioară a verbelor, verbele nu pot fi
organizate într-un arbore ca substantivele. De fapt este destul de greu de stabilit hipernime şi hiponime între
verbe. Se poate de spus, de exemplu Ambling is a kind of walking dar această nu este aceeaşi relaţie, ca şi între
substantive. Unele verbe care pot fi grupate în ceva asămănător cu un arbore formeaza mai degrabă ceva in
formă de tufişuri deformate unde numărul de nivele nu depăşeşte 4. În fiecare tufiş există un verb principal cu
sensul mai general (move, go, be, get) şi un set de verbe ataşate la el. Este observată regula că cu cât mai departe
de la verbul principal se află cuvântul în hierarhie, cu atât mai puţine substantive pot fi ataşate la el. De
exemplu, move - jump , bound , hop , leap , spring, skip.
Antonimia între verbe. Relaţia de opoziţie între verbe este foartă importantă. Ca şi în cazul adjectivelor,
există antonime directe (fall-rise) şi cuvintele opuse după sens (fall-ascend). Pe când antonimele sunt marcate,
majoritatea relaţiilor de opoziţie nu sunt notate în WordNet, numai cele mai evidente.
Relaţia de cauză include două concepte: cauzativă (give) şi rezultativă (have). WordNet conţine relaţii
cauzative şi rezultative mai mult între grupuri de cuvinte, decât între cuvinte individuale. Relaţia de cauză este
un tip specific de moştenire(includere). Dacă V1 este cauză pentru V2, înseamnă că V1 include V2. Includerea
de tipul acesta, ca regulă, nu este temporală, adică, cauza şi rezultatul se întâmplă nu în aceiaşi perioadă de timp.
Ca rezultat sunt clasificate patru tipuri de moştenire (includere) care sunt prezentate în figura dată:

Sintaxa şi semantica verbelor. Verbele au fost cercetate din punct de vedere al structurilor sintactice care
au legătura cu semantica lor. De fapt, WordNet nu a fost creat pentru prezentarea informaţiei sintactice dar
cercetările au arătat că structurile sintactice au o legătură strânsă cu semantica lor. Din cauza aceasta la fiecare
sinset este adăugat unul (sau cîteva) şablon sintactic pentru verbele din sinset.
Ca rezultat al cercetării verbelor ele au fost împărţite după sens în 15 fişiere:

funcţiile corpului şi de îngrigire a corpului de creaţie


de schimbare emoţionale, psihologice
de competiţie, sport stative
de percepţie de posesie
ale comunicării interacţiuni sociale
de consumare de mişcare
de contact meteorologice
cognitive