Documente Academic
Documente Profesional
Documente Cultură
AN
A
Institutul de Cercetari pentru Inteligent a Articiala
Metode de dezambiguizare semantic
a
automat
a
s i rom
an
a
Radu ION
Conducator: prof. dr. Dan TUFIS,
Membru Corespondent al Academiei Romane
Bucuresti, mai 2007
Rezumat
Dezambiguizarea semantica automata (DSA) reprezinta un subdomeniu al
Prelucrarii Automate a Limbajului Natural (PLN) si se refera la identicarea
algoritmica a nt elesului unui cuvant ntr-un context dat. Problema DSA a
aparut ca o necesitate imediata a cercetarilor de traducere automata care
au evident iat faptul ca nt elesurile cuvintelor nu se traduc uniform pentru
ca la nt elesuri diferite corespund traduceri diferite. Astfel, pentru a selecta
traducerea corecta a unui cuvant, trebuie sa existe o metoda de a alege acea
traducere care conserva nt elesul cuvantului.
Adnotarea cu nt elesuri a devenit utila si pentru alte aplicat ii ale PLN.
Dintre acestea, putem ment iona aplicat iile de nt elegere a limbajului natural:
generarea automata a raspunsurilor la ntrebari, sisteme de recunoastere a
comenzilor n limbaj natural, etc. sau algoritmii de transcriere a vorbirii
(pentru o lista mai cuprinzatoare se poate consulta [37]).
Problema DSA este recunoscuta ca ind una IA-completa. Ea nu poate
rezolvata fara a rezolva n prealabil celelalte probleme complexe ale In-
teligent ei Articiale (IA) printre care pe primul loc se aa Reprezentarea
Cunostint elor (RC) cu un accent special pe reprezentarea cunostint elor im-
plicite (asa numitele cunostint e de bun-simt ). De aceea metodele de DSA
existente aproximeaza capacitatea umana de a atribui nt elesuri cuvintelor
modeland algoritmi evident iabili experiemental prin care se presupune ca
int ele umane nt eleg limbajul natural. Cel mai important dintre acestia
este exemplicat de axioma potrivit careia nt elesul unui cuvant este deter-
minat de contextul de aparit ie al acestuia
1
([126, 26]).
Determinarea contextului de aparit ie a unui cuvant si reprezentarea lui
constituie principala dicultate n proiectarea de algoritmi de DSA. Exista
metode care reprezinta contextul ca pe o mult ime de cuvinte care apar n ve-
cinatatea cuvantului studiat (t inta). Altele impun restrict ii pe aceste mult imi
cum ar ordinea n care apar cuvintele sau gradele de relevant a a cuvintelor
din mult ime asupra nt elesului cuvantului t inta. Pe langa acestea, metodele
de DSA pe texte paralele beneciaza de un avantaj: campul semantic al
cuvantului t inta se restrange
2
prin traducerea lui ntr-o alta limba.
1
[126, pag. 117]: 43. Pentru o clasa larga de cazuri de folosire a cuvantului
semnicat ie . . . semnicat ia unui cuvant este folosirea lui n limbaj. Aici termenul
semnicat ie este sinonim cu nt eles.
2
Avem n vedere faptul ca traducerea conserva nt elesul cuvantului sursa si ca, n
general, la traduceri diferite, corespund nt elesuri diferite.
Lucrarea de fat a si propune sa studieze problema DSA atat pe texte
simple cat si pe texte paralele. Din perspectiva monolingva ne intereseaza
modelele sintactice ale contextului iar din cea multilingva, traducerile ca si
cuanticari ale contextului.
Ideea de reprezentare sintactica a contextului de aparit ie a unui cuvant
nu este noua n peisajul cercetarilor de DSA (vezi de exemplu [97, 53, 98,
51]).
In general, modelele sintactice ale contextelor au folosit gramaticile
de constituent i pentru a evident ia corespondent ele dintre cuvinte. Prin
nsasi natura lor, gramaticile de constituent i sunt gramatici generative care
ncearca, n ultima instant a, sa explice realizarea formelor de suprafat a
3
a
propozit iilor limbii fara a se preocupa de corespondent a analizei sintactice cu
cea a analizei semantice
4
.
In contrast, formalismul sintactic al structurilor
de dependent a din [61] este conceput ca o etapa n reprezentarea semantica
a propozit iei. Melcuk observa faptul ca ordinea cuvintelor este un mijloc
expresiv universal al oricarei limbi si care, tocmai din acest motiv, nu poate
inclusa ntr-un formalism sintactic care ar trebui sa e independent de
limba
5
.
Structura sintactica de dependent e a unei propozit ii va aproximata de
modele de atract ie lexicala ([131]) care sunt modele statistice ale structurii
de dependent a a unei propozit ii. Aceasta structura simplica denit ia din
[61] prin eliminarea orientarii arcelor si a identicarii lor cu numele relat iilor
sintactice din limba. Din punctul de vedere al dezambiguizarii semantice
automate, simplicarea nu reduce complexitatea algoritmului de DSA dar,
pe de alta parte, generarea grafului bazat pe modelul de atractie lexicala are
propriile avantaje care nu pot neglijate.
Int elesurile diferite ale unui cuvant se traduc de regula diferitntr-o alta limba
iar acest fapt se datoreaza cunostint elor pe care traducatorul le-a nglobat
n traducerea cuvantului t inta prin examinarea contextului acestuia. Daca
exista inventare de nt elesuri compatibile
6
pentru cele doua limbi, atunci prin
intersect ia mult imilor de nt elesuri ale cuvantului t inta si traducerii acestuia,
obt inem o mult ime de nt elesuri redusa si comuna ambelor cuvinte.
3
Forma observabila a propozit iei. Gramaticile generative cont in reguli de product ie din
a caror aplicare ar trebui sa rezulte propozit ii gramatical corecte.
4
Pentru care nu exista nca formalizari general acceptate.
5
Lucru care nu se ntampla cu gramaticile generative. Pentru o corespondent a formala,
vezi [69].
6
Prin inventare de nt elesuri compatibile pentru doua limbi, nt elegem inventare de
nt elesuri ntre care nt elesurile unuia sunt echivalate la nivel sinonimic cu nt elesurile
celui de-al doilea.
2
3
Cuprins
1 Introducere 1
1.1 O clasicare a metodelor de DSA . . . . . . . . . . . . . . . . 4
1.2 Despre sensuri si nt elesuri . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Sens si denotat ie. Analiza limbajului . . . . . . . . . . 6
1.2.2 DSA si not iunea de sens . . . . . . . . . . . . . . . . . 8
2 Preprocesarea textelor. Resurse lingvistice computat ionale 10
2.1 Modulul de preprocesare a textelor TTL . . . . . . . . . . . . 12
2.1.1 Recunoasterea entitat ilor denumite . . . . . . . . . . . 13
2.1.2 Segmentarea la nivel de fraza . . . . . . . . . . . . . . 14
2.1.3 Segmentarea la nivel de cuvant . . . . . . . . . . . . . 16
2.1.4 Adnotarea cu etichete morfosintactice . . . . . . . . . . 18
2.1.5 Lematizarea . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 SemCor2.0: O versiune adnotata n limba romana . . . . . . . 26
2.2.1 Adnotarea textului englezesc din SemCor2.0 . . . . . . 28
2.2.2 Adnotarea textului romanesc din SemCor2.0 . . . . . . 32
2.2.3 Transferul sensurilor din engleza n romana . . . . . . . 34
2.3 Ret eaua semantica a limbii romane . . . . . . . . . . . . . . . 38
3 DSA pe texte paralele 49
3.1 Aliniatorul lexical YAWA . . . . . . . . . . . . . . . . . . . . . 50
3.1.1 Faza 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1.2 Faza 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.3 Fazele 3 si 4 . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 WSDTool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.1 Descrierea algoritmului de baza . . . . . . . . . . . . . 60
3.2.2 O extensie a algoritmului de baza . . . . . . . . . . . . 64
3.2.3 Evaluari . . . . . . . . . . . . . . . . . . . . . . . . . . 67
i
4 DSA cu structuri sintactice de dependent e 69
4.1 Formalismul dependent elor sintactice . . . . . . . . . . . . . . 72
4.1.1 Relat ia de dependent a sintactica . . . . . . . . . . . . 72
4.1.2 Meaning Text Model . . . . . . . . . . . . . . . . . . . 78
4.2 Modele de atract ie lexicala. Analizorul de legaturi LexPar . . 81
4.2.1 Modele de atract ie lexicala . . . . . . . . . . . . . . . . 82
4.2.2 LexPar . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3 SynWSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3.1 Descrierea algoritmului . . . . . . . . . . . . . . . . . . 95
4.3.2 Evaluari . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Concluzii 106
5.1 Contribut ii proprii . . . . . . . . . . . . . . . . . . . . . . . . 108
A 111
B 116
C 123
ii
Lista de guri
1.1 O clasicare a metodelor de DSA. . . . . . . . . . . . . . . . . 6
2.1 Gramatica pentru recunoasterea unei abrevieri . . . . . . . . . 14
2.2 Filtru pentru gramatica din gura 2.1 . . . . . . . . . . . . . . 14
2.3 Rezultatul operat iei de recunoastere a entitat ilor . . . . . . . . 15
2.4 Cateva abrevieri uzuale n romana . . . . . . . . . . . . . . . . 15
2.5 Cateva abrevieri uzuale n engleza . . . . . . . . . . . . . . . . 16
2.6 Compusi romanesti ca unitat i lexicale . . . . . . . . . . . . . . 17
2.7 Prexe (LEFTSPLIT) si suxe (RIGHTSPLIT) care trebuie
separate n romana. . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Regula pentru a rezolva ambiguitatea de MSD Di.../Pi.... . 22
2.9 Formele exionare ale substantivului arama. . . . . . . . . . 24
2.10 Reguli de lematizare pentru un substantiv singular, articulat,
nominativ/acuzativ. . . . . . . . . . . . . . . . . . . . . . . . 25
2.11 in este adnotat ca adverb (RB) cand ar trebuit sa e
prepozit ie (IN); which este adverb (!) cand aceasta parte
de vorbire nici nu se aa n clasa sa de ambiguitate. Aici ar
trebuit sa e pronume relativ (WP). . . . . . . . . . . . . . . . 29
2.12 Adjectivul much n Princeton WordNet 2.0. . . . . . . . . . 36
2.13 Exemple de diferent e n cazul de transfer 2 (leme diferite). . . 36
2.14 Exemple de diferent e n cazul de transfer 3 (etichete morfosin-
tactice diferite). . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.15 Matricea de corespondent a ntre nt elesuri si cuvinte. . . . . . 41
2.16 Conceptul de vehicul pe patru rot i propulsat de un motor cu
ardere interna n ROWN2.0. . . . . . . . . . . . . . . . . . . 42
2.17 Conceptul de vehicul pe patru rot i propulsat de un motor cu
ardere interna n PWN2.0. . . . . . . . . . . . . . . . . . . . 42
2.18 Alinierea nt elesurilor de pix - instrument de scris si ball-
point pen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.19 Echivalent a conceptuala a arborilor de hipernimi pentru con-
ceptul pix(1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
iii
3.1 Exemplu de aliniere lexicala ntre o fraza n engleza si tradu-
cerea acesteia n romana. . . . . . . . . . . . . . . . . . . . . . 51
3.2 Exemplu de aliniere lexicala ntre doua cuvinte de categorii
gramaticale diferite: thinking si ganduri . . . . . . . . . . . 52
3.3 Gramatica pentru recunoasterea grupurilor nominale si prepo-
zit ionale (tipice) n engleza. . . . . . . . . . . . . . . . . . . . 54
3.4 Exemplu de codicare XML din corpusul paralel SemCor2.0. . 55
3.5 Situat ii posibile n alinierea de blocuri. . . . . . . . . . . . . . 57
3.6 Matricea echivalent ilor de traducere (MTEQ). . . . . . . . . . 62
3.7 Matricea de dezambiguizare (MSET). . . . . . . . . . . . . . . 63
3.8 O traducere aproximativa (corespondent a indirecta). . . . . . 64
4.1 Un arbore de constituent i . . . . . . . . . . . . . . . . . . . . 73
4.2 Un arbore de relat ii sintactice binare cu radacina n pleaca . 73
4.3 Relat ie intranzitiva care nu este relat ie de dependent a sintactica 77
4.4 Exemplu n care condit ia de planaritate nu este ndeplinita . . 77
4.5 Exemplul 4.1: Translat ia de la SSyntR la DSyntR . . . . . . 80
4.6 Exemplul 4.2: Translat ia de la SSyntR la DSyntR . . . . . . 81
4.7 Dependent e ale cuvintelor n context. . . . . . . . . . . . . . . 85
4.8 Cateva reguli sintactice pentru engleza folosite de LexPar. . . 90
4.9 Functor care exprima nt elesul propozit iei 4.5. . . . . . . . . . 94
4.10 O corespondent a ntre SemR si DSyntR. . . . . . . . . . . . . 94
4.11 Exemplu de generalizare pentru substantivul oare. . . . . . 98
iv
Lista de tabele
2.1 Rezultatele lematizarii pentru romana si engleza. . . . . . . . 27
2.2 Primele 62 de expresii ca rang de frecvent a din SemCor-ul
englezesc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Transferul de etichete semantice SC20-en-BrillSC20-en-TTL . 35
2.4 Corpusul paralel englez-roman SemCor2.0. . . . . . . . . . . . 39
2.5 Situat ia transferului de sensuri n romana. . . . . . . . . . . . 39
2.6 Relat ii transferate automat din PWN2.0 n ROWN2.0 (tabel
din [105]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Performant ele YAWA pe corpusul HLT-NAACL 2003. . . . . . 58
3.2 Performant ele YAWA pe corpusul ACL 2005. . . . . . . . . . . 59
3.3 Performant a WSDTool pe SemCor2.0. . . . . . . . . . . . . . 67
4.1 Memoria procesorului LexPar nainte de rularea acestuia pe
exemplul 4.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2 Gradul de acord ntre LexPar si MiniPar pe SemCor2.0. . . . . 93
4.3 Rezultatele algoritmului SynWSD pe SemCor2.0. . . . . . . . 102
4.4 Comparat ia preciziilor algoritmilor WSDTool si SynWSD (cu
combinatorul int). . . . . . . . . . . . . . . . . . . . . . . . . 104
4.5 WSDTool si SynWSD (cu combinatorul int) si cei mai buni
algoritmi de DSA din SensEval pentru limba engleza. . . . . 105
B.1 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba engleza. Inventarul de sensuri este dat de ILI iar eva-
luarea este stricta. . . . . . . . . . . . . . . . . . . . . . . . . 117
B.2 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba engleza. Inventarul de sensuri este dat de categoriile
SUMO iar evaluarea este stricta. . . . . . . . . . . . . . . . . . 118
B.3 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba engleza. Inventarul de sensuri este dat de domeniile
IRST iar evaluarea este stricta. . . . . . . . . . . . . . . . . . 119
v
B.4 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba romana. Inventarul de sensuri este dat de ILI iar eva-
luarea este stricta. . . . . . . . . . . . . . . . . . . . . . . . . 120
B.5 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba romana. Inventarul de sensuri este dat de categoriile
SUMO iar evaluarea este stricta. . . . . . . . . . . . . . . . . . 121
B.6 Rezultatele algoritmului WSDTool pe corpusul SemCor2.0 n
limba romana. Inventarul de sensuri este dat de domeniile
IRST iar evaluarea este stricta. . . . . . . . . . . . . . . . . . 122
C.1 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba engleza (masura de atract ie semantica este mi). Inven-
tarul de sensuri este dat de ILI iar evaluarea este relaxata. . . 124
C.2 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba engleza (masura de atract ie semantica este mi). Inven-
tarul de sensuri este dat de categoriile SUMO iar evaluarea
este stricta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
C.3 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba engleza (masura de atract ie semantica este dice). In-
ventarul de sensuri este dat de domeniile IRST iar evaluarea
este stricta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
C.4 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba romana (masura de atract ie semantica este prob). In-
ventarul de sensuri este dat de ILI iar evaluarea este relaxata. 127
C.5 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba romana (masura de atract ie semantica este mi). Inven-
tarul de sensuri este dat de categoriile SUMO iar evaluarea
este stricta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
C.6 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba romana (masura de atract ie semantica este dice). In-
ventarul de sensuri este dat de domeniile IRST iar evaluarea
este stricta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
C.7 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba engleza (combinator int). Inventarul de sensuri este
dat de ILI iar evaluarea este relaxata. . . . . . . . . . . . . . . 130
C.8 Rezultatele algoritmului SynWSD pe corpusul SemCor2.0 n
limba romana (combinator int). Inventarul de sensuri este
dat de ILI iar evaluarea este relaxata. . . . . . . . . . . . . . . 131
vi
Capitolul 1
Introducere
Dezambiguizarea Semantica Automata
1
(o vom abrevia DSA de aici nainte)
reprezinta un subdomeniu al Prelucrarii Automate a Limbajului Natural
(PLN) care si-a castigat recunoasterea nca de la nceputurile cercetarilor
preocupate de procesarea limbajului natural. De exemplu, n traducerea au-
tomata, pentru a reda cu o cat mai mare acuratet e traducerea unui cuvant
din limba sursa, sensul acestuia trebuia cunoscut pentru a se putea alege
acea lexicalizare care l conserva n limba t inta
2
.
Un al doilea exemplu n sprijinul utilitat ii unui proces de DSA ar acela
n care se ia n considerare selectarea documentelor n care numai un anume
sens al cuvantului cheie este cautat.
In prezent, motoarele de cautare exis-
tente pe Internet nu fac distinct ia de sensuri
3
pentru cheile cautate si astfel,
interogarea se soldeaza cu asarea documentelor care cont in cuvintele cheie
fara nici o alta procesare.
In engleza, tokenizing.
10
ecarui algoritm de DSA. Pentru a putea atribui un sens unui cuvant,
algoritmul trebuie sa obt ina ntai o lista a cuvintelor de dezambiguizat.
3. adnotare cu etichete morfosintactice
7
: exista lucrari de DSA (vezi
[98]) n care se considera ca ambiguitatea de categorie gramaticala
este de asemenea si ambiguitate semantica. De aceea, performant a
adnotarii cu categorii gramaticale este creditata ca performant a a ad-
notarii semantice n cazul n care pentru o anumita categorie grama-
ticala, cuvantul are un singur sens n dict ionar. Cunoastem totusi
faptul ca algoritmii de adnotare cu etichete morfosintactice ajung la
ora actuala la performant e n intervalul de precizie 96% 98% (vezi
[100, 101, 7, 88]) iar n acest caz, dezambiguizarea cuvintelor cu un
singur sens pe categorie gramaticala nu mai reprezinta o problema pen-
tru ca aici meritul este al algoritmului de adnotare cu etichete morfosin-
tactice.
In practicile curente de DSA, acest proces de dezambiguizare
morfosintactica este considerat ca o etapa standard premergatoare de-
zambiguizarii semantice.
4. lematizare: operat ie de asemenea obligatorie pentru DSA. Asigura re-
ducerea formelor exionare ale cuvintelor la formele standard care sunt
inventariate de dict ionare. Trebuie sa observam ca aceasta operat ie este
dependenta de adnotarea cu etichete morfosintactice pentru ca pentru
o forma exionara a unui cuvant lema acestuia depinde de categoria
gramaticala a cuvantului. De exemplu, haina poate sa e adjectiv
feminin, singular, articulat cu lema hain sau substantiv comun, fe-
minin, singular, articulat cu lema haina.
Pe langa informat ia necesara pentru dezambiguizare prezentata mai sus,
un algoritm de DSA mai are nevoie si de un inventar de sensuri
8
din care
sa aleaga sensul unui cuvant dintr-un context dat. Aceste inventare de sen-
suri fac parte din categoria resurselor lingvistice computat ionale (alaturi de
corpusuri, lexiconuri, gramatici, s.a.) si sunt indispensabile dezambiguizarii
semantice. De ele depinde ntr-o oarecare masura chiar proiectarea algorit-
milor de DSA. De exemplu, n [1], ret eaua semantica Princeton WordNet 2.0
(PWN2.0) a limbii engleze ([25, 24]) este folosita pentru a calcula o densi-
tate conceptuala ntre nt elesurile cuvantului t inta si nt elesurile cuvintelor
din context de aceeasi categorie gramaticala iar aceasta densitate este folosita
apoi pentru a selecta nt elesul cuvantului t inta.
7
In engleza, tagset.
29
1
+
2
+
3
= 1
Probabilitat ile de emisie sunt de asemenea estimate din corpusul de antre-
nare la care se adauga un lexicon care cont ine forme ocurente ale cuvintelor
mpreuna cu etichetele morfosintactice corespunzatoare
31
.
In cazul n care
adnotatorul gaseste un cuvant pe care nu l-a ntalnit la antrenare, euristi-
cile de ghicire a etichetei intra n funct iune iar n acest punct implementarea
noastra difera de descrierea originala prin:
analiza de sux (adica atribuirea unei etichete morfosintactice t unui
cuvant pe baza analizei ultimelor m caractere din cele n ale cuvantului:
i = 0, . . . , m1 ,
P(t[l
ni+1
, . . . , l
n
) =
P(t[l
ni+1
, . . . , l
n
) +
i
P(t[l
ni
, . . . , l
n
)
1 +
i
,
P(t[l
ni+1
, . . . , l
n
) =
f(t, l
ni+1
, . . . , l
n
)
f(l
ni+1
, . . . , l
n
)
, P(t) =
P(t) ,
P =
1
s
s
j=1
P(t
j
),
i
=
1
s 1
s
j=1
(
P(t
j
)
P)
2
30
De exemplu, pentru substantiv, ntre gen si numar, genul poate eliminat pentru
ca n afara de cazul n care determina acordul cu un adjectiv, genul substantivului nu
mai determina nicio alta eticheta spre deosebire de numar care apare atat la acordul cu
adjectivul cat si la acordul cu un verb n situat ia de subiect-predicat.
31
Pentru romana acest lexicon cont ine aproximativ 570000 de intrari iar pentru engleza,
126000. Pentru un exemplu, vezi gura 2.9.
20
unde s este numarul de CTAG-uri,
P este probabilitate estimata din
corpusul de antrenare, f este funct ie de frecvent a iar
i
sunt parametrii
de ajustare a probabilitat ii nale, vezi [7] pentru detalii) se face doar
pentru etichetele morfosintactice apart inand claselor deschise: substan-
tive, adjective, verbe si adverbe pentru ca cel put in pentru romana si
engleza credem ca am epuizat lista cuvintelor funct ionale astfel ncat
marea majoritate a lor se aa n lexicoanele noastre;
daca cuvantul este necunoscut dar ncepe cu litera mare si nu se aa
la nceput de fraza, adnotatorul are opt iunea de a-l eticheta ca ind
substantiv propriu, o eticheta generica care se potriveste pentru orice
tip de entitate. Aceasta euristica este un parametru congurabil si
funct ioneaza n cazul n care textul abunda n denumiri;
n cazul n care recunoasterea entitat ilor denumite a fost rulatanaintea
adnotarii cu etichete morfosintactice, entitat ile au deja eticheta morfo-
sintactica asociata (vezi gura 2.2; daca se aplica o regula, entitatea va
putea adnotata cu MSD-ul, CTAG-ul sau EMSD-ul
32
corespunzator:
toate cele trei etichete sunt n corespondent a) ceea ce este un castig
atat pentru decodorul Viterbi [123] (unele puncte sunt prestabilite n
calea optima) cat si pentru analiza de sux pentru ca aceasta greseste
mai mult n cazul entitat ilor (nu au terminat ii regulate).
Tehnica adnotarii straticate ([100, 110]) se bazeaza pe faptul ca adno-
tatoarele probabilistice dau rezultate foarte bune cu mult imea CTAG
33
si
ca funct ia de recuperare a unui MSD dintr-un CTAG mpreuna cu forma
ocurenta a cuvantului adnotat este determinista n cazul n care cuvantul
adnotat apare n lexicon mpreuna cu MSD-ul corespunzator. TTL imple-
menteaza de asemenea aceasta tehnica a adnotarii straticate cu care poate
sa readnoteze cu etichete MSD un text adnotat cu etichete CTAG .
In cazul
n care exista ambiguitat i la operat ia de recuperare, TTL foloseste o lista de
reguli pentru a elimina ambiguitatea. De exemplu n gura 2.8, n engleza
avem o regula care precizeaza ca ambiguitatea de MSD Di.../Pi... se re-
zolv a astfel: se alege Di... daca la pozit ia +1 n text
34
apare un substantiv
comun care se acorda cu determinatorul dupa numar (pozit ia marcata cu #
desemneaza acord) sau daca la pozit ia +1 se aa un substantiv propriu sau
daca la pozit ia +1 se aa un adjectiv (A), adverb (R) sau numeral (M) si la
32
Etichetele EMSD sunt extensii ale etichetelor MSD si au fost introduse de autor pentru
a descrie entitat ile recunoscute de TTL (vezi anexa A).
33
Care are o cardinalitate cu mult redusa fat a de mult imea MSD.
34
Fat a de pozit ia ambigua.
In aceasta faza, textul este o lista de perechi unitate lexicala,
MSD sau unitate lexicala, MSD-uri daca avem ambiguitate.
21
choose ^Di..#$ if
+1 Nc.# or
+1 ^Np or
+1 ^[ARM] and +2 Nc.# or
+1 ^[ARM] and +2 ^Np or
+1 ^[ARM] and +2 ^[ARM] and +3 Nc.#
end
Figura 2.8: Regula pentru a rezolva ambiguitatea de MSD Di.../Pi....
pozit ia +2 se aa un substantiv comun care se acorda cu determinatorul dupa
numar, etc.
Daca un cuvant nu se aa n lexicon, TTL ncearca sa i ghiceasca MSD-
ul construind un model de suxe similar cu cel descris mai sus implementat
de TnT. O metoda mai adecvata care utilizeaza Principiul Entropiei Ma-
xime atat pentru a asigura MSD-urile cuvintelor necunoscute cat si pentru
a rezolva ambiguitat ile de MSD-uri, este descrisa n [14].
2.1.5 Lematizarea
Lematizarea
35
este o operat ie de normalizare a formei ocurente a unui cuvant,
normalizare care elimina orice tip de exiune din forma ocurenta a cuvantu-
lui. Este operat ia care transforma orice forma ocurenta a unui cuvant ntr-o
forma standard care de obicei este adoptata de dict ionare. Lematizarea nu
trebuie confundata cu indenticarea radacinii cuvantului
36
(vezi de exemplu
algoritmul din [85]) pentru ca de exemplu connecting are lema connect
dar connections are lema connection si nu connect care este radacina
cuvantului.
i=1
p(c
i
[c
i3
, c
i2
, c
i1
)
unde c
2
, c
1
, c
0
si c
n+1
sunt caractere inserate (nu fac parte din lema) care
marcheaza nceputul respectiv sfarsitul lemei. Se observa ca cu cat n este
39
Daca lema nu este unica ca n cazul copii cu lemele copil si copie atunci pentru
a extrage lema potrivita avem nevoie de DSA iar pentru a putea face DSA avem nevoie
de lema. Aceasta dependent a mutuala este rezolvata la nivelul lematizarii.
24
CTAG Regula Frecvent a Exemplu
NSRY LCSul->LCS 6732 baiatul baiat
NSRY LCSa->LCSa 4307 masina masina
NSRY LCSa->LCS 3525 cartea carte
NSRY LCSa->LCSe 1540 colect ia colect ie
Figura 2.10: Reguli de lematizare pentru un substantiv singular, articulat,
nominativ/acuzativ.
mai mare, p(l) este mai mica pentru ca avem un produs de numere subuni-
tare. Pentru a atenua aceasta tendint a am introdus n procesul de select ie
si frecvent a regulii care a produs lema candidata (vezi gura 2.10) si n
consecint a, am decis sa introducem urmatoarea combinat ie de euristici n
locul punctului 2 de mai sus:
1. genereaza doua leme: una cu modelul Markov (pasul 2 de mai sus),
l
MM
si cea de-a doua prin aplicarea celei mai frecvente reguli pentru
eticheta t
i
, l
FRQ
; daca l
MM
= l
FRQ
= l, alege lema l.
2. la antrenare, pentru ecare eticheta t
j
pentru care se construieste mo-
delul de lematizare, evalueaza precizia euristicilor MM si FRQ separat
si mpreuna pe N tripluri w
i
, l
i
, t
j
). Fie c numarul de cazuri n care
MM si FRQ au dat aceeasi lema corecta, a numarul de cazuri n care
MM a dat lema corecta si b numarul de cazuri n care FRQ a dat lema
corecta. Atunci, x = a c este numarul de cazuri n care MM a dat
lema corecta iar FRQ nu si y = b c este numarul de cazuri n care
FRQ a dat lema corecta iar MM nu.
3. e probabilitat ile:
probabilitatea ca MM sa furnizeze lema corecta daca FRQ nu a
dat-o (l
MM
,= l
FRQ
): p(MM[FRQ) =
x/N
(Nb)/N
=
x
Ncy
probabilitatea ca MM sa furnizeze lema gresita daca FRQ a dat
lema corecta (l
MM
,= l
FRQ
): p(MM[FRQ) =
y/N
b/N
=
y
c+y
4. daca p(MM[FRQ) > p(MM[FRQ) alege lema l
MM
; n caz contrar
alege l
FRQ
.
Acest mecanism asigura select ia automata a euristicii optime pentru ecare
CTAG.
25
In tabelul 2.2 sunt expuse primele 62 de expresii din engleza dupa rangul
de frecvent a. Dintre acestea, de exemplu, of this, in which, of it
corespunzatoare exemplelor
(2.4) ... the size of this city ...
(2.5) ... a resonant circuit in which the capacitor ...
(2.6) The name of it (RB!) is Gore Court, ...
nu exista n PWN2.0. Putem gasi o justicare la nivel sintactic pentru
of this ca ind un determinator cu cazul marcat de prepozit ie (s-ar tra-
duce n romana cu acestui/acestei) si pentru of it ca ind un de-
terminator posesiv (n romana lui/ei) dar care este adnotat ca adverb.
29
Oricum pentru ca etichetele morfosintactice ale acestor expresii sunt n marea
majoritate a cazurilor gresite si pentru ca aceste echivalent e sunt lasate spre
rezolvare aliniatorului lexical, am decis sa eliminam toate expresiile care nu se
regasesc n PWN2.0 exceptand acele expresii care erau adnotate ca entitat i:
grup, locat ie, persoana (de exemplu du Pont care are eticheta de sens
group(1), adica any number of entities (members) considered as
a unit denit ie din PWN2.0).
Tot n tabelul 2.2 remarcam expresia in this al carei unic sens de
adverb n PWN2.0 este
therein, in_this, in that -- ((formal) in or into that thing or place;
"they can read therein what our plans are")
dar care n exemple de tipul
(2.7) ... I ever saw in this county ...
(2.8) ... which is so vividly real in this play.
nu reprezinta expresia cu sensul citat ci succesiunea de prepozit ie, determi-
nator demonstrativ. Pe parcursul a doua luni, autorul a vericat toate ex-
presiile suspecte de a nu expresii n contextul lor care aveau o frecvent a de
aparit ie de cel put in 10. Candidat ii s-au selectat din expresii care cont ineau
cel put in un cuvant funct ional (prepozit ie, determinator, etc.).
Dupa ce etapa de corectare a expresiilor s-a ncheiat, s-a trecut la ad-
notarea morfosintactica si lematizarea textului. Adnotatorul morfosintactic
din TTL s-a antrenat pe fract iunea n limba engleza a corpusului multilingv
1984 ([100]).
In plus, toate cuvintele necunoscute din SemCor2.0 (care nu
apar n 1984) au fost adaugate la lexionul de engleza (extras init ial din 1984)
ecare mpreuna cu lema si MSD-ul asociat. Informat ia de lema este data
de PWN2.0 iar MSD-ul este derivat cu ajutorul unui analizor morfologic ru-
dimentar cu expresii regulate care asociaza terminat iile formelor ocurente
cu MSD-urile corespunzatoare. De exemplu daca booking nu apare n
lexicon, PWN2.0 ne da doua leme: booking ca substantiv si book ca
verb. Pentru ca substantivul nu se termina n s|es, avem MSD-ul Ncns
(singular, neutru) iar verbul, pentru ca se termina n ing primeste MSD-
ul Vmg (gerunziu). Cu aceste adaugiri, lexiconul de engleza s-a marit cu
aproximativ 64000 de forme ocurente necunoscute si a fost si el inclus n
antrenarea adnotatorului morfosintactic si a lematizorului.
Adnotarea morfosintactica pe partea de engleza a corpusului SemCor2.0
(sa o denumim SemCor2.0-en) a fost apoi corectata de autor pe parcursul
a aproximativ 4 saptamani
44
folosind tehnica antrenarii pe datele de test
45
44
SemCor2.0-en are 778400 de unitat i lexicale incluzand aici si punctuat ia.
45
In sect iunea anterioara am facut referire la termenii (eticheta de) sens sau eticheta
semantica. O astfel de eticheta este de fapt un ILI.
41
POS: n
ILI: ENG20-02853224-n
Synonyms: automobil (1), autovehicul (1), masina(4)
Denition: Vehicul cu patru (rar trei, sase) rot i pneumatice,
miscat de un motor cu explozie interna, cu aburi,
cu electricitate sau aer comprimat.
Figura 2.16: Conceptul de vehicul pe patru rot i propulsat de un motor cu
ardere interna n ROWN2.0.
POS: n
ILI: ENG20-02853224-n
Synonyms: car(1), auto(1), automobile(1), machine(4), motorcar(1)
Denition: 4-wheeled motor vehicle;
usually propelled by an internal combustion engine.
Figura 2.17: Conceptul de vehicul pe patru rot i propulsat de un motor cu
ardere interna n PWN2.0.
relat ie: relat iile se stabilesc ntre conceptele ret elei semantice lexicale.
Int elesurile cuvintelor sunt independente de limba dar acest lucru nu ga-
ranteaza ca n doua limbi diferite conceptualizarea unei entitat i din universul
de discurs se face n mod necesar la fel. Cu alte cuvinte, teoretic nu exista
nt elesuri identice dar pentru ca oricine poate nvat a si vorbi o limba straina,
exist a deci nt elesuri similare iar aceste similaritat i sunt independente de
limba. Doua nt elesuri similare din limbi diferite asociate aceluiasi ILI
58
for-
meaza un concept iar operat ia de asociere
59
le confera acestora statutul de
nt elesuri echivalente. Dupa ce nt elesurile au fost asociate conceptul iden-
ticat de ILI-ul respectiv devine o generalizare a nt elesurilor din cele doua
limbi si este astfel egalul acestora
60
.
In consecint a, aceeasi cheie de identi-
care a sinseturilor n PWN2.0 si ROWN2.0 arata faptul ca vorbim despre
acelasi concept (nt eles). Astfel ILI reprezinta o codicare independenta de
limba a unui concept care se realizeaza (lexicalizeaza) diferit n romana si
engleza (vezi gurile 2.16 si 2.17).
O trasatura importanta (poate cea mai importanta) a WordNet-ului este
existent a relat iilor semantice ntre conceptele ret elei. Aceasta structura ne
ndreptat este sa privim WordNet-ul ca pe o ontologie lexicala, ontologie care
specica astfel o conceptualizare a structurii lexiconului mental. Exista doua
tipuri de relat ii n WordNet ([66]):
relat ii lexicale: apar ntre literali si nu ntre sensurile lor. Exemple:
sinonimia
61
, antonimia si relat iile morfologice.
relat ii semantice: apar ntre conceptele ret elei. Exemple: hiperoni-
mia/hiponimia, meronimia/holonimia, s.a.
Pentru ca un sinset cont ine o mult ime de literali care pot folosit i in-
tersanjabil ntr-o clasa de contexte, ntr-un sinset literalii sunt tot i de aceeasi
categorie gramaticala.
In WordNet, ecare categorie gramaticala grupeaza
conceptele n structuri diferite cu proprietat i diferite
62
. Unul din principi-
ile de dezvoltare a ret elei semantice lexicale a limbii romane ROWN2.0 a
58
ILI este cheia care identica nt elesul din engleza. Asocierea se face prin atribuirea
aceluiasi ILI nt elesului din romana.
59
Numim aceasta operat ie aliniere conceptuala de unde not iunea de ret ele semantice
aliniate la nivel de concept.
60
Prin operat ia de asociere, cele doua nt elesuri si mprumuta unul altuia trasaturi
semantice astfel ncat conceptul s a reprezinte o descriere sucienta pentru identicarea
oricaruia din ele.
61
Este relat ia denitorie a conceptului n WordNet si este o relat ie lexicala pentru ca
apare ntre literalii unui sinset ([66]). Totusi sinsetul este o colect ie de sensuri similare
ale literalilor component i, caz n care sinonimia trebuie sa e o relat ie semantica. Atribuim
astfel sinonimiei calicativul de relat ie lexico-semantica.
62
Exista de asemenea relat ii care leaga sensuri ale unor literali care nu au aceeasi catego-
rie gramaticala dar acestea nu formeaza ierarhii de tipul celei a hipernimelor de exemplu.
43
fost acela de a conserva pe cat posibil structurile din PWN2.0 avand data
alinierea conceptuala. Ca o consecint a directa a acestui fapt, relat iile din
PWN2.0 pot grupate n doua categorii: relat ii dependente de limba (en-
gleza) si relat ii independente de limba. Evident ca relat iile semantice sunt
independente de limba si de aceea pot transferate automat n romana (vezi
gurile 2.18 si 2.19 pentru o aliniere structurala automata vizualizari cu
VisDic ([34])). Antonimia a fost si ea part ial transferata n romana dar cu
vericarea perechilor de antonime rezultate.
In afara de relat ii, din PWN2.0 s-au mai transferat automat corespon-
dent ele sinseturilor cu conceptele ontologiei SUMO ([75, 76]) si cu domeniile
IRST ([56]). Astfel, ecare concept din PWN2.0 are asociat unul sau mai
multe concepte SUMO si unul sau mai multe domenii IRST. Asocierea cu
conceptele SUMO se face la nivel de sinonimie, hipernimie sau instant iere
(vezi [76]):
64
n
t
e
l
e
s
u
r
i
l
o
r
d
e
p
i
x
-
i
n
s
t
r
u
m
e
n
t
d
e
s
c
r
i
s
s
i
b
a
l
l
p
o
i
n
t
p
e
n
.
47
F
i
g
u
r
a
2
.
1
9
:
E
c
h
i
v
a
l
e
n
t
a
c
o
n
c
e
p
t
u
a
l
a
a
a
r
b
o
r
i
l
o
r
d
e
h
i
p
e
r
n
i
m
i
p
e
n
t
r
u
c
o
n
c
e
p
t
u
l
p
i
x
(
1
)
.
48
Capitolul 3
DSA pe texte paralele
Dezambiguizarea semantica automata a fost o problema a carei solut ie s-a
cautat n mod tradit ional experimentand-se pe texte simple. Textele para-
lele
1
, reprezinta colect ii de traduceri (le numim texte t inta) ale unor texte
(surs a) n una sau mai multe limbi, traduceri care ofera o noua dimensiune
not iunii de context de aparit ie al unui cuvant. Pentru ca o traducere conserva
nt elesul textului sursa, principiul compozit ionalitat ii nt elesului ne permite
sa apreciem ca la nivel de cuvant, perechea cuvant sursa, cuvant t inta re-
duce ambiguitatea de nt eles n ambele direct ii (sursa-t inta si t inta-sursa).
Contextul de aparit ie al cuvantului sursa este materializat prin nsasi tra-
ducerea cuvantului n limba t inta (contextul de aparit ie determina nt elesul
cuvantului sursa iar nt elesuri diferite se traduc diferit
2
).
Dezambiguizarea semantica automata pe texte paralele a fost subiectul
cercetarilor din [9, 17, 20]. Primele doua lucrari se ocupa de generarea tradu-
cerii corecte n engleza a unui cuvant ntr-o limba sursa data cum ar limba
germana sau ebraica ([17]) sau limba franceza ([9]). Aceasta problema este
tot una de DSA n care inventarul de sensuri este compus din traducerile
posibile ale unui cuvant
3
. A treia lucrare ([20]) foloseste traducerile pentru
a determina nt elesurile cuvintelor t inta (n franceza) din inventarul de sen-
suri al limbii sursa (engleza). Prezentam pe scurt algoritmul SALAAM din
[20] pentru ca poseda anumite similaritat i cu algoritmul nostru WSDTool
([119]) care va descris n acest capitol.
SALAAM atribuie etichete de sens cuvintelor n franceza dintr-un inven-
tar de sensuri pentru engleza (Collins Cobuild English Dictionary, [95]). Pasii
de dezambiguizare sunt urmatorii:
1
Sau corpusuri paralele.
2
Evident, nu n mod necesar.
3
Este deci un dict ionar de traducere.
49
1. alinierea lexicala a bitextului englez-francez si select ia cuvintelor fran-
t uzesti de dezambiguizat;
2. pentru ecare cuvant de dezambiguizat w
fr
k
, prin alinierea lexicala,
obt ine o mult ime E de echivalent i de traducere ai lui w
fr
k
din ntreg
corpusul;
3. se deneste o masura de similaritate sim (vezi [52] pentru denit ia
acesteia) ntre textele denit iilor sensurilor cuvintelor w
en
j
E. Daca
notam denit ia sensului n al cuvantului w
en
cu d
n
(w
en
), aceasta ma-
sura, sim(d
a
(w
en
i
), d
b
(w
en
j
)), trebuie sa e maxima pentru a se selecta
sensurile a respectiv b ale cuvintelor englezesti w
en
i
si w
en
j
, w
en
i
, w
en
j
E. Astfel, un cuvant w
en
i
E primeste eticheta de sens a daca si numai
daca d
a
(w
en
i
) are o similaritate maxima cu restul denit iilor sensurilor
atribuite ale cuvintelor din E;
4. ecare ocurent a a cuvantului w
fr
k
n textul francez primeste eticheta
de sens w
en
j
(a) unde w
en
j
E este echivalentul de traducere folosit n
unitatea de traducere respectiva.
i
B
i
en
se extrag alinieri 1:1 G
k
iar dintre aces-
tea se alege ca aliniere nala cea pentru care
l
i
ro
,l
j
en
,s
i,j
G
k
[i j[ este
minima iar
l
i
ro
,l
j
en
,s
i,j
G
k
s
i,j
este maxima. Cu alte cuvinte se presu-
pune ca ordinea cuvintelor se pastreaza n traducere (suma modulelor
diferent elor pozit iilor cuvintelor este minima) si se alege alinierea a
carei suma a scorurilor de traducere este maxima.
3.1.2 Faza 2
Aceasta faza cere o preprocesare suplimentara a corpusului paralel atat pen-
tru limba romana cat si pentru engleza. Este vorba de recunoasterea gru-
purilor sintactice nominale (Np) si prepozit ionale (Pp) nerecursive cat si a
complecsilor verbali (Vp) si adjectivali (Ap). Aceste grupuri sunt recunoscute
cu ajutorul expresiilor regulate denite peste secvent e de etichete morfo-
sintactice. De exemplu expresia /<TSR>(<NSRN>|<NSN>)<ASN>/ recunoaste
un grup nominal de tipul o/TSR fata/NSRN frumoasa/ASN sau un/TSR
baiat/NSN curajos/ASN iar expresia regulata /<TSR>?<R><ASN>/ recunoaste
complecsi adjectivali de tipul cel /TSR mai /R complicat/ASN sau foarte/R
complicat/ASN. Se foloseste o gramatica similara cu cea cu care TTL re-
cunoaste entitat ile denumite (vezi gura 2.1) ale carei reguli se transforma
automat n expresii regulate Perl. De exemplu, n gura 3.3, neterminalul
Mod genereaza expresia regulata Perl /(<ADVE>)*(<ADJE>)+/ (n gura 3.4
se aa un extras din formatarea XML a corpusului paralel n care grupurile
sunt adnotate cu atributul chunk).
54
F
i
g
u
r
a
3
.
4
:
E
x
e
m
p
l
u
d
e
c
o
d
i
c
a
r
e
X
M
L
d
i
n
c
o
r
p
u
s
u
l
p
a
r
a
l
e
l
S
e
m
C
o
r
2
.
0
.
55
i
[S
ro
[
j
[S
en
[
n=1
occ(l
T
, S
n
T
)
l
i
T
, i = 1, M
t
i
T
, i = 1, M
si ocurent ele l
n,j
L
i
prin e
L
i
(l
i
T
) adica echivalentul de traducere al lemei l
i
T
n limba L
i
. Trebuie subliniat faptul ca acest echivalent de traducere
are aceeasi eticheta morfosintactica
26
cu l
i
T
.
In cazul n care l
i
T
nu
are echivalent de traducere sau acesta are o eticheta morfosintactica
diferita, e
L
i
(l
i
T
) = (sirul vid).
2. matricea echivalent ilor de traducere este transformata n matrice de
dezambiguizare (MSET, gura 3.7), matrice cu acelasi numar de linii
si coloane cu MTEQ.
In aceasta matrice ecare celula este ocupata de
mult imea
s(i, j) = ili(l
j
T
, t
j
T
) ili(e
L
i
(l
j
T
), t
j
T
)
ili(, t
j
T
) =
Exista doua cazuri n ce priveste mult imea s(i, j):
24
De substantiv, adjectiv, verb sau adverb.
25
Lista cont ine lemele acestor cuvinte si nu forma lor ocurenta.
26
Identitatea se face numai la nivelul categoriilor gramaticale.
61
l
1
T
l
2
T
. . . l
M
T
L
1
e
L
1
(l
1
T
) e
L
1
(l
2
T
) . . . e
L
1
(l
M
T
)
L
2
e
L
2
(l
1
T
) e
L
2
(l
2
T
) . . . e
L
2
(l
M
T
)
.
.
. . . .
L
k
e
L
k
(l
1
T
) e
L
k
(l
2
T
) . . . e
L
k
(l
M
T
)
Figura 3.6: Matricea echivalent ilor de traducere (MTEQ).
(a) [s(i, j)[ 1; adauga mult imea la matricea MSET pe pozit ia i, j;
(b) [s(i, j)[ = 0 sau s(i, j) = ; din diverse motive (descrise mai jos)
mult imea s(i, j) poate vida, caz n care, daca t
j
T
este eticheta de
substantiv sau verb, s(i, j) va cont ine conceptele c
T
facand parte
din perechi c
T
, c
L
i
) ili(l
j
T
, t
j
T
) ili(e
L
i
(l
j
T
), t
j
T
)
27
pentru care
masura de similaritate calculata pe graful relat iei de hipernimie
are o valoare de cel put in 0.33 (0 K 2)
28
:
sim(c
T
, c
L
i
) =
1
1 +K
(K este numarul de legaturi ntre cele doua concepte; K = 0 daca
si numai daca c
T
= c
L
i
).
3. mult imea D
j
T
de etichete de sens (ILI) pentru lema l
j
T
se obt ine prin
intersect ia mult imilor s(i, j):
D
j
T
=
k
i=1
s(i, j), [s(i, j)[ 1
Cu alte cuvinte, daca s(i, j) = atunci aceasta mult ime nu poate con-
tribui la dezambiguizarea lemei l
j
T
ind astfel exclusa de la intersect ia
nala.
In cazuri except ionale (vezi comentariile urmatoare), mult imea
D
j
T
poate sa e vida caz care se rezolva prin gruparea ocurent elor l
j
T
(sect iunea 3.2.2).
In pasul 2b mult mea s(i, j) poate sa ramana vida din oricare din urma-
toarele motive:
27
este produsul cartezian.
28
Valoare stabilita experimental.
62
l
1
T
l
2
T
. . . l
M
T
L
1
s(1, 1) s(1, 2) . . . s(1, M)
L
2
s(2, 1) s(2, 2) . . . s(2, M)
.
.
. . . .
L
k
s(k, 1) s(k, 2) . . . s(k, M)
Figura 3.7: Matricea de dezambiguizare (MSET).
echivalentul de traducere e
L
i
(l
j
T
) poate sa e gresit (vorbim de o eroare
a aliniatorului lexical);
l
j
T
poate sa nu e tradus n limba L
i
sau poate de asemenea sa e tradus
gresit;
e
L
i
(l
j
T
) poate sa l traduca aproximativ pe l
j
T
iar pragul de similari-
tate (K 2) sa e prea ridicat. Similaritatea ntre doua sinseturi de
substantive sau verbe (pentru alte masuri de similaritate sau distant e
semantice pe ret ele semantice lexicale, vezi [12]) este o masura care
cuantica nrudirea nt elesurilor pentru ca ntr-o traducere reala ade-
sea se folosesc hipernimii/hiponimii direct i ai cuvantului de tradus. De
exemplu, n traducerea
(3.1) Its the Golden Country - almost, he murmured.
(3.2) Parc-ar Taramul de Aur; n ne, aproape, sopti el.
intersect ia de la punctul 2 este vida pentru perechea de traducere
country
en
, taram
ro
). Figura 3.8 ne arata ca nt elesul lui country
a fost tradus n romana printr-un hipernim lexicalizat n aceasta limba
ca taram iar n acest caz masura de similaritate are valoarea 0.5
(K = 1):
sim(country(5)
en
, t ar am(1)
ro
) =
1
1 + 1
= 0.5
literalul e
L
i
(l
j
T
) nu se aan sinsetul care se aliniaza la sinsetul aplicabil
n context al lui l
j
T
. Avem in acest caz un sinset incomplet n ret eaua
semantica a limbii L
i
(vezi studiul de caz SemCor2.0, tabelul 2.5);
63
Figura 3.8: O traducere aproximativa (corespondent a indirecta).
sinsetul aplicabil n context al lui l
j
T
nu este implementat n ret eaua
semantica a limbii L
i
(ILI-ul care-l identica nu se aa n ret eaua se-
mantica a limbii L
i
, vezi de asemenea tabelul 2.5)
3.2.2 O extensie a algoritmului de baza
Pasul 3 al algoritmului de dezambiguizare nu asigura pentru ecare lema l
j
T
o
singura eticheta de sens (ILI). Dar n cazul n care k 3, sunt mici sansele ca
intersect ia nala sa cont ina mai multe etichete de sens mai ales daca limbile
corpusului paralel au origini diferite si daca ret elele semantice ale limbilor L
i
sunt corect aliniate la cea a limbii t inta. Experimentele noastre pe corpusul
paralel 1984 care cont ine traducerea romanului Nineteen Eighty-Four al lui
George Orwell n romana, ceha si bulgara au aratat ca 4 limbi sunt suciente
pentru dezambiguizarea completa a oricarui cuvant t inta
29
.
In cazul n care corpusul paralel cont ine traduceri n mai put in de 3 limbi
(la limita poate sa cont ina o singura traducere cum ar cea n romana din
SemCor2.0) trebuie gasita o metoda de a reduce dimensiunea mult imii D
j
T
la 1 (acolo unde este cazul) adica ne trebuie o metoda care sa aleaga din D
j
T
eticheta de sens aplicabila lemei l
j
T
n contextul ei de aparit ie
30
.
29
Cu condit ia ca sinseturile relevante sa se ae n ret elele semantice ale celor 3 limbi
sursa si sa cont ina echivalent ii de traducere ai cuvantului t inta.
30
Se poate obiecta ca D
j
T
poate sa nu cont ina ILI-ul cautat. Excludem acest caz pre-
64
Pentru a reduce dimensiunea mult imii D
j
T
apelam la un algoritm ierar-
hic de grupare
31
a ocurent elor l
j
T
dupa similaritatea traducerilor bazandu-
ne pe ipoteza ca traduceri identice pentru doua ocurent e l
a
T
si l
b
T
nseamna
sensuri identice pentru aceste ocurent e. Fie E
Li
lista ordonata alfabetic a
echivalent ilor de traducere n limba sursa L
i
pentru lema l
T
32
construita din
linia L
i
a matricii MTEQ (gura 3.6). Fie E lista obt inuta prin concatenarea
listelor E
Li
, i = 1, k si pos(E, e
L
i
(l
j
T
)) pozit ia n E a echivalentului de tradu-
cere e
L
i
(l
j
T
). Pentru ecare ocurent a l
j
T
se construieste un vector binar v
j
T
de dimensiune [E[ =
k
i=1
[E
Li
[ n care ecare bit corespunde unui element
din E. Acest vector are exact k pozit ii egale cu 1 si anume cele date de
pos(E, e
L
i
(l
j
T
)), i = 1, k.
Algoritmul de grupare pe care-l utilizam este descris n principiu n [46]
(vezi de asemenea si [111]). Acest algoritm este modicat astfel ncat condit ia
de oprire sa permita determinarea claselor de ocurent e ale lemei l
T
care
au sensuri distincte. Fiecare vector de traducere v
j
T
intra n algoritmul de
grupare cu mult imea proprie D
j
T
iar doi vectori v
a
T
si v
b
T
se pot combina ntr-o
clasa doar daca D
a
T
D
b
T
,= (D
a
T
si D
b
T
sunt diferite de mult imea vida ).
In
acest fel, numai ocurent ele care au sensuri comune se pot grupa ntr-o clasa
de echivalent a iar n momentul n care nu mai exista doua clase cu sensuri
comune, algoritmul se opreste
33
.
Algoritmul de grupare porneste cu o lista init iala de clase V de dimensiune
M (numarul de ocurent e al lemei l
T
). Fiecare clasa cont ine o mult ime O de
ocurent e care au fost grupate n ea (init ial se aa doar ocurent a l
j
T
a lemei
l
T
), vectorul v
j
T
corespunzator lemei l
j
T
si mult imea de etichete de sens D
j
T
.
La ecare iterat ie, doua clase x
a
si x
b
pentru care conjunct ia de enunt uri
distant a euclidiana
dist(x
a
, x
b
) =
_
|E|
i=1
(v
a
T
[i] v
b
T
[i])
2
este minima, a, b, 1 a, b M unde v
a
T
[i] este pozit ia i (la prima
iterat ie, 0 sau 1) a vectorului v
a
T
si
supunand ca traducerile sunt corecte, ret elele semantice lexicale ale limbilor sursa sunt
corect aliniate la cea a limbii t inta si ca sinseturile relevante sunt implementate si cont in
echivalent ii de traducere din text. Cu WSDTool se pot dezambiguiza numai ocurent ele
cuvintelor t inta ale caror sensuri cautate sunt implementate n toate ret elele semantice ale
limbilor sursa.
31
Hierarchical Clustering Algorithm n engleza.
32
Lista fara duplicate.
33
In tabelul 3.3 performant a pentru romana este sistematic mai slaba decat
cea pentru engleza. Acest lucru se explica prin faptul ca n engleza toate
ocurent ele l
j
en
care nu au putut dezambiguizate
38
au primit automat ILI-ul
corespunzator celui mai frecvent sens, informat ie care nu este (nca) disponi-
bila n ROWN2.0 (vezi si nota de subsol 35).
In ROWN2.0 identicatorii de
sens i respecta pe cei din DEX ([18]) dar n acest dict ionar, sensul numarul
1 nu este neaparat cel mai frecvent sens al cuvantului respectiv n romana.
36
Insa de regula, un ILI are asociata o singura categorie SUMO si un singur domeniu
IRST. De exemplu, n PWN2.0 exista 38 de ILI cu doua sau mai multe categorii SUMO
asociate si 23838 de ILI cu doua sau mai multe domenii IRST asociate dintr-un total de
115424 de ILI.
37
Este vorba de distinct iile care se fac ntre nt elesuri si care la nivel de ILI sunt foarte
ne: nu put ine sunt cazurile n care este greu de precizat prin ce anume difera doua
nt elesuri.
38
Frecvent a mica si fara echivalent i de traducere n romana.
68
Capitolul 4
DSA cu structuri sintactice de
dependent e
Dezambiguizarea semantica automata cu structuri sintactice de dependent e
ader a la ideea conform careia contextul unui cuvant este dat de dependent ele
sintactice ale lui de restul frazei. Aceasta reprezentare a contextului impune
o anumita structura acestuia si anume, structura contextului este data de
arborele de dependent e asociat. O astfel de reprezentare a contextului are
urm atoarele avantaje:
1. nt elesul cuvantului t inta este inuent at direct numai de nt elesurile
cuvintelor cu care intra n relat ii de dependent a sintactica. Acest lucru
poate avea o inuent a beneca asupra procesului de dezambiguizare
ntrucat se elimina astfel zgomotele introduse de contextul de tip fe-
reastra de cuvinten care cuvantul t inta intran relat ie cu ecare cuvant
din fereastra.
2. structura arborescenta a contextului favorizeaza atribuireant elesurilor
cuvintelor fara a se considera o ordine de procesare a acestora.
3. structura contextului permite o cuanticare a interpretarii semantice;
la nivelul frazei ne putem imagina o masura care sa exprime numeric
cat de plauzibila este o interpretare
1
sau alta.
In numar de cuvinte.
69
k [2, 10] ^
3
. Sch utze ([93]) foloseste secvent e de 3 sau 4 caractere
ca unitate componenta a contextului pe care le selecteaza dintr-o fereastra
de 1000 de caractere centrata n cuvantul t inta.
In general nu exista un con-
sens n ceea ce priveste dimensiunea contextului dar un fapt unanim acceptat
este acela ca inuent ele asupra nt elesului cuvantului t inta ale cuvintelor din
contexul sau scad cu cresterea dimensiunii contextului
4
.
In acest capitol vom
considera ca frazan care apare cuvantul de dezambiguizat reprezinta contex-
tul de aparit ie al sau
5
. Desigur ca facem o presupunere care este discutabila
pentru ca exista cazuri n care cuvinte din afara frazei n care apare cuvantul
de dezambiguizat pot ajuta la identicarea nt elesului acestuia. Totusi tre-
buie sa remarcam aici ca desi determinarea nt elesului unui cuvant poate
favorizata de contexte ale lui care depasesc barierele frazei, acest lucru nu
este de natura sa schimbe structura de baza a algoritmului de dezambiguizat.
Dandu-i-se o fraza oarecare, un om poate determina n marea majoritate
a cazurilor care sunt nt elesurile cuvintelor care o alcatuiesc. Deci, suntem
nclinat i sa credem ca un context egal cu fraza ar trebui sa e sucient pentru
un algoritm de DSA iar eventualele performant e mai slabe ale algoritmilor
de DSA care folosesc un asemenea context ar trebui sa e puse pe seama
unor simplicari de formalizare a lui.
O a doua problema cu privire la contextul de aparit ie a unui cuvant
este formalizarea acestuia. Cea mai simpla conceptualizare a contextului
este reprezentarea lui ca o mult ime de cuvinte
6
de dimensiune nespeci-
cata ([127, 129, 130, 29]). Marea majoritate a algoritmilor de DSA existent i
considera ca un context al cuvantului t inta este echivalent cu o mult ime
de atribute
7
(extrasa din acest context) relevanta pentru dezambiguizarea
nt elesului cuvantului n contextul respectiv ([33, 98, 51, 82]). Cateva dintre
aceste atribute sunt:
3
^ este mult imea numerelor naturale.
4
In sprijinul acestei armat ii putem aduce rezultatele obt inute n [5] care conrma fap-
tul ca atract ia lexicala dintre doua cuvinte scade exponent ial cu distant a dintre ele.
In con-
tinuare vom vedea de ce atract ia lexicala este esent iala pentru determinarea nt elesurilor
cuvintelor.
5
Fraza este context de aparit ie al unui cuvant al ei n [97, 63, 73] de exemplu.
6
Termenul din engleza pentru acest model de context este bag of words prin care se
sugereaza ca un context este dat de cuvintele care apar la stanga si la dreapta cuvantului
studiat fara a se considera niciun nivel de segmentare al textului, altul decat cel la ni-
vel de cuvant. De remarcat este faptul ca un cuvant poate aparea de mai multe ori n
aceasta mult ime pentru ca mult imea este formata din perechi cuvant,pozit ie) unde
pozit ie este pozit ia la care apare cuvantul n text. Acest tip de context mai este denu-
mit si fereastra de cuvinte centrata n cuvantul studiat (numarul de cuvinte de la stanga
cuvantului t inta este egal cu cel de la dreapta lui).
7
Termenul englezesc pentru atribut este feature. Atribut se refera la un atribut
specic contextului si de aceea l vom numi si atribut contextual.
70
cuvinte din fereastra cuvantului studiat reduse sau nu la formele lor
standard de dict ionar
8
. O opt iune posibila este includerea sau nu a
cuvintelor din clasa part ilor de vorbire neexionare (cu except ia adver-
bului).
etichetele morfosintactice
9
ale cuvintelor din fereastra cuvantului stu-
diat.
colocat iile cuvantului t inta. Yarowsky lanseaza ipoteza conform careia
cuvintele care alcatuiesc o colocat ie au nt elesuri determinate n acest
context minimal (vezi [128]).
atribute morfosintactice cum ar de exemplu numarul plural la sub-
stantive ([11]).
atribute de natura sintactica cum sunt centrul unui grup nominal care
include cuvantul t inta sau primul substantiv/verb care apare naintea
cuvantului t inta sau dupa el ([62]).
Reprezentarea contextului cu ajutorul analizei sintactice la nivel de fraza
a mai fost realizata n [97, 122]. Structurile de dependent e au fost folosite
la dezambiguizarea nt elesurilor cuvintelor de [53].
In aceasta lucrare, Lin
deneste contextul local al unui cuvant W ca ind mult imea de relat ii sin-
tactice de dependent a la care acesta participa ntr-o fraza data. Metoda sa
de dezambiguizare se bazeaza pe postulatul conform caruia cuvinte diferite
n contexte locale identice tind sa aiba nt elesuri similare
10
si procedeaza la
identicarea nt elesului unui cuvant prin aarea contextelor locale ale altor
cuvinte identice cu cel al cuvantului t inta.
Acelasi principiu va folosit si n capitolul de fat a. Algoritmul prezentat
va diferi esent ial de cel din [53] prin faptul ca va atribui o interpretare frazei
8
Reducerea formelor ocurente ale cuvintelor la formele lor standard de dict ionar se
numeste lematizare. O lema este deci o forma morfologica standard a unui cuvant
care, pentru substantive de exemplu, este forma de nominativ, sigular, nearticulat.
In
consecint a, lematizarea formelor ocurente baiatul, baiatului, baiet ii produce lema
baiat.
9
O eticheta morfosintactica reprezinta o codicare a unei part i de vorbire mpreuna cu
combinat ii ale atributelor morfosintactice proprii ei. De exemplu, pentru un substantiv
comun se pot codica numarul, genul, cazul si articolul enclitic.
10
O obiect ie perfect justicata formultata de Lin n [53] asupra metodelor de DSA
asistate era aceea ca cei mai mult i algoritmi de DSA asistata funct ioneaza pe principiul si-
milaritat ii contextelor: cuvinte identice n contexte similare au acelasi nt eles, principiu
care impune existent a unor corpusuri de antrenare n care ecare nt eles al ecarui cuvant
sa e reprezentat sucient de bine din punct de vedere statistic. Astfel de corpusuri nu
exista si pe langa aceasta, cuvintele care nu au fost ntalnite n procesul de antrenare, nu
pot dezambiguizate.
71
ca ntreg.
In cele ce urmeaza, vom prezenta pe scurt formalismul sintactic
al dependent elor expus n [61] urmat de o prezentare succinta a modelelor
de atract ie lexicala din [131] cu mbunatat irile ce se impun iar n nal, vom
schit a un algoritm de DSA neasistata pe texte adnotate cu un analizor de
legaturi.
4.1 Formalismul dependent elor sintactice
In engleza, governor.
17
In engleza, dependant.
18
Asimetria implica ireexivitatea.
75
corespunzatoare perechilor de forme ocurente
proprietarul, apartamentului)
apartamentul, proprietarului)
nu pot coexista n R deoarece au semnicat ii diferite si ar trebui
sa aiba astfel si structuri sintactice diferite.
este intranzitiva
19
:
w
1
, w
2
, . . . , w
k
M, w
1
, w
2
) R w
k1
, w
k
) R w
1
, w
k
) / R
Proprietatea de intranzitivitate prezentata aici ar trebui numita
intrazitivitate totala pentru ca negarea denit iei de tranziti-
vitate nu produce aceasta denit ie ci urmatoarea denit ie (ex-
primam a, b) R ca aRb si consideram k = 3 pentru ca derivarea
este aceeasi k, k [M[):
(w
1
, w
2
, w
3
M, w
1
Rw
2
w
2
Rw
3
w
1
Rw
3
)
w
1
, w
2
, w
3
M, (w
1
Rw
2
w
2
Rw
3
w
1
Rw
3
)
w
1
, w
2
, w
3
M, ((w
1
Rw
2
w
2
Rw
3
) w
1
Rw
3
)
w
1
, w
2
, w
3
M, (w
1
Rw
2
w
2
Rw
3
w
1
Rw
3
)
w
1
, w
2
, w
3
M, w
1
Rw
2
w
2
Rw
3
w
1
Rw
3
Altfel spus, este sucient ca trei perechi cu proprietat ile de mai
sus sa nu respecte tranzitivitatea iar relat ia devine intranzitiva.
Totusi trebuie sa impunem condit ia ca toate triplurile de pere-
chi cu proprietat ile de mai sus sa nu respecte caracteristica de
tranzitivitate ori vom avea cazuri n care un cuvant are doua no-
duri parinte ntr-o structura care, evident, nu mai este un ar-
bore. De exemplu, pentru gura 4.3, daca adaugam la R perechea
lucra
ind,prez
,masina
sg,fem
) obt inem o relat ie intranzitiva n sen-
sul negarii denit iei clasice dar care ar inacceptabila pentru un
arbore de dependent e sintactice.
Pe langa cele trei proprietat i generale ale lui R mai trebuie impuse doua
pentru a transforma aceasta relat ie ntr-una de dependent a sintactica:
existent a unui nod unic n arborele de dependent e care sa consti-
tuie radacina arborelui:
!w M, ((x M, x, w) / R)
19
Intranzitivitatea asa cum este denita aici implica asimetria.
76
Figura 4.3: Relat ie intranzitiva care nu este relat ie de dependent a sintactica
Figura 4.4: Exemplu n care condit ia de planaritate nu este ndeplinita
inexistent a unui nod cu doi parint i diferit i:
x, y, w M, x ,= y, (x, w) R y, w) R)
Alaturi de mult imile ment ionate mai sus avem nevoie de o funct ie r care
sa faca legaturantre relat ia Rsi multimea I a denumirilor relat iilor sintactice
din limba respectiva (sau inventarul de relat ii sintactice al limbii):
r : R I, r(x) I, x R
Pentru un alt model matematic al structurii de dependent a cat si pentru
un inventar al relat iilor sintactice pentru limba romana, cititorul poate con-
sulta [35].
In [35] se considera o noua restrict ie asupra relat iei R si anume
aceea de planaritate (aceasta proprietate a lui R este semnalata si de [61]).
O explicat ie intuitiva a proprietat ii de planaritate a relat iei de dependent a
sintactica R este aceea ca graful relat iei desenat pe forma de suprafat a a
propozit iei nu cont ine arce care sa se intersecteze (pentru o denit ie mate-
matica a planaritat ii, vezi [35]). Desi majoritatea propozit iilor din romana
au analize sintactice de dependent e planare, exista si contraexemple (exem-
plu din [43], vezi gura 4.4). Relat ia de acord (notata agr) dintre substanti-
77
vul Stelele si adjectivul vesele intersecteaza relat ia de complement direct
(obj) dintre verbul luminau si substantivul bolta. Aici observam de ase-
menea si o dubla dependent a a adjectivului vesele astfel ncat proprietatea
de arbore a analizei sintactice este inrmata. Melcuk explica fenomenele de
acest tip prin faptul ca n orice limba exista cel put in trei tipuri de relat ii
sintagmatice ntre cuvintele unei propozit ii:
relat ii morfologice care sunt n totalitate dependente de limba;
relat ii sintactice care sunt n parte dependente de limba, n parte con-
ceptuale;
relat ii semantice care sunt conceptuale pe de-a-ntregul.
Astfel, relat ia trasata punctat n gura 4.4 este una morfologica si nu intra
n component a relat iei de dependent a sintactica R descrisa mai sus (pentru
detalii vezi [61, pag. 25,106]).
4.1.2 Meaning Text Model
Meaning Text Model (abreviat MTM) reprezinta un cadru de lucru pentru
descrierea si studiul limbajelor naturale. Pe langa componentele consacrate
ale actului de vorbire, emit atorul, receptorul si canalul de comunicat ie, mo-
delul include urmatoarele trei componente suplimentare:
un cont inut cu o structura ierarhica care este comunicat de catre e-
mit ator receptorului si care este inclus ntr-o mult ime numarabila de
semnicat ii sau nt elesuri
20
.
o forma lingvistica de exprimare a cont inutului care va denumita
generic text
21
inclusa si ea ntr-o mult ime numarabila a textelor.
o corespondent a de m : n m 1, n 1 m, n ^ ntre mult imea
nt elesurilor si mult imea textelor.
MTM reprezinta un sistem de reguli care descrie corespondent a ntre
mult imea nt elesurilor si mult imea textelor sau, mai exact, ntre mult imea
20
Un nt eles este astfel o entitate de sine statatoare dintr-o mult ime (se accepta aici
reprezentarea discreta a nt elesului). De asemenea, un nt eles se deneste ca ind un
invariant al transformarilor sinonimice si este deci ceea ce se extrage dintr-un cuvant
sau enunt numai pe baza cunostint elor de natura lingvistica fara a se recurge la logica,
pragmatica, cunostint e enciclopedice sau alte cunostint e extralingvistice.
21
Un text este deci orice forma de comunicare lingvistica pornind de la cuvant, secvent a
de cuvinte, propozit ii, fraze si asa mai departe.
78
reprezentarilor simbolice ale nt elesurilor Sem si mult imea reprezentarilor
simbolice fonetice ale textelor Phon:
Sem = SemR
i
[ i ^,
Phon = PhonR
j
[ j ^,
Sem
m:n
Phon
A descrie direct corespondent a dintre Sem si Phon este un lucru impo-
sibil pentru ca aceasta este una foarte complexa. Un mod de simplicare
a descrierii este acela de a introduce straturi intermediare de reprezentare
care pentru orice limbaj natural se evident iaza la cel put in doua nivele de
analiza: nivelul formei ocurente a cuvantului si cel al propozit iei. Obt inem
astfel reprezentarile intermediare morfologice si sintactice MorphR respectiv
SyntR
22
iar schema corespondent ei devine:
SemR
i
m:n
SyntR
j
m:n
MorphR
k
m:n
PhonR
l
, i, j, k, l ^
n
i=1
p(w
i
[w
i1
)
n care se foloseste un model Markov de ordin 1 (vezi [57, pag. 192,
317]): ecare cuvant depinde ca aparit ie doar de precedentul. O astfel
de aproximat ie este mai buna decat independent a totala dar are si ea
decient ele ei:
(4.3) Individul iesi pe usa din dos n graba, vadit ncurcat.
i=1
p(w
i
) log p(w
i
) =
n
i=1
H
1
(w
i
)
si pentru ca n cazul 2 avem un model Markov de ordin 1 iar din [57, pag.
64, ecuat ia 2.30] avem
H(X
1
, X
2
, . . . , X
n
) = H(X
1
) +H(X
2
[X
1
) +. . . +H(X
n
[X
1
, . . . , X
n1
)
atunci
H
2
(S) = H
2
(w
1
) +
n
i=2
H
2
(w
i
[w
i1
)
Diferent a ntre cele doua entropii este
84
Figura 4.7: Dependent e ale cuvintelor n context.
H
1
(S) H
2
(S) = H
1
(w
1
) +
n
i=2
H
1
(w
i
) H
2
(w
1
)
n
i=2
H
2
(w
i
[w
i1
)
=
n
i=2
H
1
(w
i
)
n
i=2
H
2
(w
i
[w
i1
)
=
n
i=2
[H
1
(w
i
) H
2
(w
i
[w
i1
)]
=
n
i=2
I(w
i
; w
i1
) =
n
i=2
I(w
i1
; w
i
)
si este pozitiva pentru ca este suma informat iilor mutuale ale cuvintelor
adiacente din propozit ie (vezi [57, pag. 66,67 si ecuat ia 2.36]). Astanseamna
ca entropia modelului Markov este mai mica decat entropia modelului bazat
pe independent a totala ceea ce duce la concluzia ca modelul Markov atribuie
o probabilitate mai mare propozit iei S decat contracandidatul sau
34
.
Am facut aceasta minidemonstrat ie pentru a servi ca suport introdu-
cerii modelelor de atract ie lexicala.
In exemplul 4.3, am dori sa existe o
dependent a ntre cuvintele iesi si usa si ntre usa si dos sau ntre Individul si
ncurcat.
In gura 4.7 sunt reprezentate dependent ele cuvintelor din exem-
plul 4.3 ntr-o structura de dependent e care respecta relat ia de dependent a
sintactica din sect iunea 4.1. Yuret ([131, pag. 25]) arata ca entropia unei
propozit ii S a carei probabilitate este data de un model care se bazeaza pe o
astfel de structura este mai mica decat entropia propozit iei data de modelul
Markov.
Un model de atract ie lexicala (MAL) este asadar un model de probabili-
tate a unei fraze n care ecare cuvant al frazei este probabilistic dependent
34
Daca S este gramatical corecta. De asemenea modelul Markov va atribui o probabi-
litate mai mica unei propozit ii gramatical gresite decat celalalt model.
85
numai de centrul sau. Pe de alta parte, se presupune ca informat ia mu-
tual a ntre doua cuvinte ale unei fraze este masura relat ionarii sintactice ale
acestora
35
. Aceasta masura este simetrica nsa si nu poate o masura a
unei relat ii asimetrice dar Yuret demonstreaza ca probabilitatea unei fraze
calculata cu un MAL este aceeasi indiferent de cuvantul care este ales ca
radacina a arborelui de dependent e ([131, pag. 28,29]). Acest rezultat con-
duce la observat ia ca orientarea arcelor poate eliminata fara ca modelul sa
calculeze alta probabilitate pentru o aceeasi fraza caz n care:
un MAL devine un model de probabilitate a unei fraze n care ecare
cuvant al sau este probabilistic dependent numai de cuvintele cu care
se leaga;
informat ia mutuala poate o masura a relat ionarii sintactice a doua
cuvinte dintr-o fraza.
Cu aceste precizari vedem ca de fapt un MAL aproximeaza o relat ie sin-
tactica de dependent a din sect iunea 4.1 prin eliminarea orientarii arcelor si
prin neconsiderarea inventarului de relat ii sintactice al limbii
36
. Vom numi
aceasta aproximat ie o structura de legaturi a unei fraze care este un graf
ale carui noduri sunt cuvintele frazei si care este neorientat, conex, aciclic si
planar (vezi pagina 77). De asemenea, numim o legatura un arc al acestui
graf.
Un MAL se poate construi
37
de exemplu dintr-un corpus care este ad-
notat cu structuri de dependent a sintactica. Yuret descrie un algoritm care
construieste un MAL din texte simple, neadnotate si care mbina construct ia
structurii de legaturi a unei fraze cu estimarea parametrilor modelului pe
fraza respectiva. Fie C un corpus care cont ine M fraze S
i
, i = 1, M, liste
de unitat i lexicale w
j
, j = 1, n
i
(n
i
este dimensiunea frazei S
i
, N =
M
i=1
n
i
).
Fiecare fraza S
i
cont ine de asemenea si doua marcaje de nceput, respectiv
sfarsit de fraza aate pe pozit iile 0 si n
i
+ 1. Algoritmul de construct ie/des-
coperire (vezi algoritmul 1) a structurii de legaturi are doua componente:
o memorie care nregistreaza perechile de cuvinte w
a
, w
b
) din fraza S
i
,
0 a < b n
i
+ 1 si de asemenea si perechile w
a
, ), , w
b
) si , )
(ultima este numarul K de perechi care au fost introduse n memorie)
unde reprezinta orice cuvant. Pentru ecare pereche se contorizeaza
numarul de aparit ii a acesteia n corpus.
35
o
a
r
e
.
98
3. pentru ecare pereche de ILI c
a
, c
b
) (parametru al modelului) din pro-
dusul cartezian G
i
G
j
incrementeaza frecvent ele f(c
a
, c
b
)), f(c
a
, )),
f(, c
b
)) si f(, )) n model. Notat ia semnica orice eticheta de
sens iar frecvent a perechii , ) este egala cu numarul total de perechi
de etichete semantice care au aparut n corpusul de antrenare pana la
pasul curent. De asemenea, f(c
a
, )) este numarul de aparit ii ale eti-
chetei semantice c
a
n stanga unei legaturi iar f(, c
b
)) este numarul de
aparit ii ale lui c
b
n dreapta unei legaturi (toate legaturile sunt perechi
i, j) pentru care i < j).
Modelul astfel format este o colect ie de frecvent e ale perechilor de etichete
semantice posibile ale cuvintelor care determina o legatura si este identic din
acest punct de vedere cu memoria analizorului de legaturi.
Faza de dezambiguizare
Este responsabila de gasirea congurat iei de nt elesuri care confera un scor
de atract ie semantica maxim pentru fraza S.
In aceasta privint a, SynWSD
difera de algoritmii de DSA care atribuie nt elesuri cuvintelor unei fraze prin
optimizarea locala, pentru ecare cuvant n parte, a parametrilor de clasi-
care.
Faza de dezambiguizare este de asemenea complet independenta de limba
n sensul ca aceasta are nevoie de fraza S mpreuna cu structura ei de legaturi
L si de modelul de atract ie semantica M construit n faza anterioara. Pentru
ca parametrii specici frazei S sa e denit i n momentul dezambiguizarii,
este necesar ca antrenarea sa se produs si pe fraza S. Aceasta condit ie
nu trebuie interpretata nsa ca o favorizare a fazei de dezambiguizare (este
vorba de evaluarea pe datele de test care nu poate obiectiva ntrucat ar
trebui testata abilitatea programului de nvat are automata de a generaliza pe
date necunoscute) pentru ca n cazul SynWSD, antrenarea nu se produce pe
corpusuri adnotate cu etichete semantice (SynWSD ind astfel un algoritm de
DSA neasistata) iar din aceasta cauza nu exista premiza favorizarii (procesul
de antrenare nu stie apriori care sunt etichetele semantice pe care faza de
dezambiguizare ar trebui sa le furnizeze).
Vom descrie algoritmul de dezambiguizare pentru inventarul de sensuri
dat de ILI.
In aceasta faza, SynWSD parcurge urmatorii pasi:
1. pas identic cu pasul 1 (pagina 96) din faza de antrenament;
2. pas de asemenea identic cu pasul 2 din faza de antrenament;
3. considera structura de legaturi L a frazei S ca pe un arbore cu radacina
99
n pozit ia 0 a frazei
47
. Parcurge recursiv acest arbore n adancime si
formeaza o lista V de indecsi prin inserarea nodurilor arborelui cand
acestea sunt vizitate.
4. pentru ecare index k V, 0 k < [S[, asociaza acestuia mult imea G
k
de ILI calculata anterior. Prin V [i], 0 i < [V [ vomnt elege mult imea
de ILI corespunzatoare pozit iei k, 0 k < [S[ din fraza S;
5. pe secvent a de stari V [i], aplica algoritmul Viterbi ([57, pag. 332]) fara
emisie de simboluri si utilizand una din urmatoarele masuri de atract ie
semantica n locul probabilitat ilor de tranzit ie (c
a
V [i], c
b
V [i +1]):
coecientul DICE (masura simetrica):
dice(c
a
, c
b
) = dice(c
b
, c
a
) =
2p(c
a
, c
b
)
p(c
a
) +p(c
b
)
=
2
f(c
a
,c
b
)+f(c
b
,c
a
)
f(,)
f(c
a
,)+f(,c
a
)
f(,)
+
f(c
b
,)+f(,c
b
)
f(,)
=
=
2(f(c
a
, c
b
)) +f(c
b
, c
a
)))
f(c
a
, )) +f(, c
a
)) +f(c
b
, )) +f(, c
b
))
probabilitatea prob(c
b
[c
a
) (masura asimetrica):
prob(c
b
[c
a
) = p(c
b
[c
a
) =
p(c
a
, c
b
)
p(c
a
)
=
=
f(c
a
, c
b
)) +f(c
b
, c
a
))
f(c
a
, )) +f(, c
a
))
informat ia mutuala punct la punct
48
(masura simetrica):
mi(c
a
, c
b
) = mi(c
b
, c
a
) = log
2
p(c
a
, c
b
)
p(c
a
)p(c
b
)
=
= log
2
f(, ))(f(c
a
, c
b
)) +f(c
b
, c
a
)))
(f(c
a
, )) +f(, c
a
)))(f(c
b
, )) +f(, c
b
)))
scorul Log-Likelihood ll(c
a
, c
b
) ([71]) de asemenea o masura si-
metrica.
47
Tot i indecsii care apar n legaturi care cont in pozit ia 0 devin dependent i ai acesteia
iar acest proces continua recursiv pana cand se epuizeaza tot i indecsii frazei.
48
Pointwise mutual information n engleza.
100
6. extragerea prin cautarea cu revenire
49
a tuturor congurat iilor seman-
tice ale lui S de scor maxim. Se obt ine o lista D de mult imi de etichete
semantice astfel ncat D[i] V [i], 0 i < [V [. Daca c
a
D[i] este un
ILI care nu cont ine substantivul/verbul l
k
, se cauta sinsetul hiponim al
lui c
a
care-l cont ine pe l
k
(se aplica operat ia inversa generalizarii) si se
nlocuieste c
a
cu acesta. Daca l
k
este adjectiv, se cauta sinsetul similar
cu c
a
care-l cont ine pe l
k
si se face de asemenea nlocuirea.
m{dice,prob,mi,ll}
D
m
[i];
adnotarea prin reuniune (union): n condit iile de la intersect ie, adno-
tarea lui w
i
este D
union
[i] =
m{dice,prob,mi,ll}
D
m
[i];
adnotarea prin vot majoritar (majv): e M =
m{dice,prob,mi,ll}
D
m
[i]
lista obt inuta din concatenarea mult imilor D
dice
[i], D
prob
[i], D
mi
[i] si
D
ll
[i]. Se pastreaza etichetele de sens care au frecvent a de aparit ie
maxima n M si se depun n D
majv
[i].
N
A
i=1
|D
A
i
|
N
A
.
51
Evident, doar daca C ,= .
103
Engleza Romana
P(%) S/C P(%) S/C
ILI WSDTool 70.217 1 53.478 1
SynWSD 69.773 1.163 59.845 1.373
SUMO WSDTool 76.788 1 65.095 1
SynWSD 74.067 1.009 69.405 1.008
IRST WSDTool 87.636 1.092 85.015 1.11
SynWSD 88.399 1.002 87.368 1.001
Tabela 4.4: Comparat ia preciziilor algoritmilor WSDTool si SynWSD (cu
combinatorul int).