Tehnici Extensibile de Interpretare Sintactico - Semantică

Universitatea Tehnică din Moldova
Cu titlu de manuscris
C.Z.U.: 004.822(043)
Sergiu CREŢU
Tehnici extensibile de interpretare sintactico – semantică

a textelor în limbaj natural
01.05.04 „Modelare matematică, metode matematice, produse program”
Autoreferat
ştiinţific al tezei de doctor în informatică
Chişinău -2007
Teza a fost elaborată în cadrul Catedrei Bazele Informaticii Economice a
Academiei de Studii Economice din Moldova
Conducător ştiinţific: Dumitru TODOROI

dr., hab. în informatică prof. univ., A.S.E.M.
Consultant ştiinţific: Anatol POPESCU
dr., hab. în informatică, prof. univ., U.T.M.
Referenţi oficiali: Ilie COSTAŞ

dr., hab. în informatică, prof. univ., A.S.E.M.
Nicolae OBJELEAN
dr. în informatică, conf. univ., U.S.M.
Susţinerea va avea loc la 23 noiembrie 2007 ora 1500 în şedinţa Consiliului ştiinţific specializat
DH 31.01.05.04 – 2 din cadrul Universităţii Tehnice a Moldovei, str. Studenţilor, 7, birou 3 – 208,
MD2068, Moldova
Teza de doctorat şi autoreferatul pot fi consultate la biblioteca Universităţii Tehnice a Moldovei, pe

pagina web a C.N.A.A. (www.cnaa.acad.md) şi la Biblioteca Naţională a Moldovei
Autoreferatul a fost expediat la __ octombrie 2007
Secretar ştiinţific
al Consiliului ştiinţific specializat,
dr. în tehnică, conf. univ. U.T.M. ____________ Vasile GÎSCĂ
Conducător ştiinţific,
dr. hab. în informatică, prof. univ. A.S.E.M . ____________ Dumitru TODOROI
Consultant ştiinţific,
dr. hab. în informatică, prof. univ. U.T.M. ____________ Anatol POPESCU.
Autor: ____________ Sergiu CREŢU
2
Referinţe generale asupra lucrării
Actualitatea temei
Problematica modelării informatice a interpretării de către om a informaţiei reprezentată sub
formă de texte în limbaj natural (LN) a fost pe larg tratată în cadrul elaborării inteligenţei artificiale
(IA). Aici ar fi de remarcat lucrările clasice ale lui Chomsky N., Hewitt C., Hunt E., Newell A.,
Schank R., Shaw A. C., Winograd T., Woods W. A. etc.
Unele probleme ale procesării textelor în LN au fost abordate şi în lucrările cercetătorilor din
R. Moldova şi România: A. Popescu, S. Cojocaru, I. Costaş, C. Ciubotaru, D. Cristea, D. Tufiş, L.
Chiran, D. Sofronie – Dudău etc.
Elaborarea sistemelor informatice cu elemente de procesare a textelor în LN a vizat diverse
domenii de aplicabilitate: robotica, traducerea dintr-un limbaj natural în altul, sistemele de căutare
documentară (Information Retrieval – IR systems), sistemele de extragere a informaţiei
(Information Exraction – IE systems), sistemele întrebare – răspuns (Question Answering – QA
systems). În urma acestor lucrări a devenit clar, că pentru elaborarea unor tehnologii informaţionale
eficiente în aceste domenii este necesar de asigurat:
• elaborarea unor baze considerabile de cunoştinţe pentru a înmagazina informaţia
necesară procesării textelor în LN;
• dezvoltarea unor tehnici de interpretare şi deducţie, ce ar permite gestiunea
informaţiei explicite şi implicite, conţinută în textele în LN, folosind informaţia din
bazele de cunoştinţe.
Implementarea ambelor direcţii nominalizate de proiectare necesită un efort conceptual,
intelectual şi fizic considerabil.
Lucrarea de doctorat reprezintă rezultatul cercetării principiilor şi metodelor de elaborare a
unui sistem de interpretare sintactico – semantică (ISS) a textelor în LN.
Prin interpretarea sintactico – semantică a textelor în LN înţelegem procesul de analiză şi
interpretare a informaţiei conţinută în texte, efectuată într-un context semantic precis, asigurat de o
bază de cunoştinţe adecvată.
În urma interpretării sintactico – semantice a textului este generat un sistem de glose –
fragmente de text în limbaj natural adaptat, ce reprezintă explicaţia semantică a textului interpretat.
Pot exista şi alte forme de reprezentare a rezultatului funcţionării ISS: formulare, răspunsuri,
exegeză.
Toate abordările în vederea implementării unor sisteme informatice de tip ISS au, de fapt, în
comun necesitatea elaborării la etapa iniţială a corpusurilor lingvistice adecvate. Ele trebuie să
conţină informaţia tipizată, ce urmează să fie interpretată. Pe baza acestor corpusuri lingvistice se
3
elaborează un sistem de reguli de interpretare – gramatica. Regulile cu o anumită aproximaţie
descriu procesul de interpretare a textului analizat. Testarea gramaticilor are loc pe baza aceloraşi
corpusuri lingvistice.
Principalele dificultăţi, care pot interveni în procesul de elaborare a unor sisteme informatice
de tip ISS, se reduc la:
• inexistenţa sau dimensiunile extrem de mari a corpusurilor lingvistice adecvate;
• complexitatea restabilirii gramaticilor pe baza corpus-ului lingvistic;
• dificultatea modificării gramaticilor elaborate.
Există câteva conferinţe (Message Understandig Conference – MUC, Automatic Content
Extraction – ACE,CLEF,TREC), care efectuează concursuri pentru cel mai bun sistem de tip ISS.
Sistemul de tip ISS propus în prezenta lucrare, ISS – GLOS, spre deosebire de alte sisteme
similare (LUNAR, ORACLE, MURAX, Protosyntex etc.), interpretează textul în LN folosind o
bază de cunoştinţe, care este accesată prin intermediul unui limbaj formal – limbajul bazei de
cunoştinţe (LBC) proiectat ad-hoc.
Metodele de cercetare
Interpretarea textelor în LN se reduce la identificarea informaţiei conţinută în texte conform
unui cadru conceptual bine definit – contextul semantic. În consecinţă, la prima etapă, a fost
formalizat contextul semantic. În acest scop au fost folosite reţele semantice, utilizate pe larg în IA.
Deoarece drept obiect de aplicaţie a reţelelor semantice urma să fie textul în LN, a fost
necesară readaptarea reţelelor. Modelul readaptat al reţelelor semantice, propus în cadrul prezentei
lucrări, a servit drept bază pentru elaborarea unui limbaj formal – limbajul bazei de cunoştinţe
(LBC). Acest limbaj, pe de o parte, asigură interpretarea informaţiei conţinută în textul interpretat
(manual sau automatizat), iar pe de altă parte, defineşte contextul semantic în care se efectuează
interpretarea. Prin urmare, limbajul LBC reprezintă un mijloc eficient de organizare a unei baze de
cunoştinţe.
Actualmente, nu dispunem de un analizor sintactico – semantic, care ar extrage automat
informaţia din textul interpretat şi ar restabili reţeaua semantică a textului analizat. Acest proces se
efectuează manual prin codificarea informaţiei extrase din textul interpretat în clauze LBC.
Scopul prezentei lucrări
Scopul prezentului studiu constă în elaborarea cadrului teoretic şi practic în vederea
realizării mediilor eficiente de memorare a informaţiei conţinută în textele în LN. Această
informaţie are o încărcătură semantică şi pragmatică considerabilă. Pentru realizarea scopului
propus au fost efectuate următoarele lucrări:
4
• elaborarea principiilor de interpretare a textelor în LN în vederea analizei şi
extragerii informaţiei conţinută în aceste texte;
• proiectarea metodelor de stocare a informaţiei cu o încărcătură semantică
considerabilă;
• elaborarea principiilor de identificare şi extragere a informaţiei stocate în mediile
de memorare;
• implementarea tehnicilor de extindere şi adaptare a mediilor de stocare a
informaţiei.
Inovaţia ştiinţifică
Noutatea ştiinţifică a lucrării constă în elaborarea unui cadru teoretic şi practic nou de
interpretare sintactico – semantică, care permite organizarea mediilor eficiente de memorare a
informaţiei cu încărcătură semantică pronunţată, cum sunt textele în LN. Aceste medii au un
caracter sintactico – semantico – pragmatic. Sistemul ISS – GLOS, elaborat pe baza acestor
principii, are multe în comun cu un sistem clasic IE. Tehnicile, utilizate în procesul de elaborare a
sistemelor IE, s-au folosit şi pentru elaborarea sistemului ISS – GLOS:
• utilizarea unui corpus lingvistic pentru elaborarea de gramatici (vocabularele
virtuale în ISS – GLOS);
• folosirea unei baze de cunoştinţe în procesul de interpretare;
• facilităţile de extindere a bazei de cunoştinţe pentru un anturaj nou.
În acelaşi timp ISS – GLOS se deosebeşte radical de sistemele IE:
• sistemul propus nu extrage informaţia din setul de documente, elaborate conform
unor tehnici speciale. Interpretarea textelor în LN se efectuează fără preprocesarea
acestora;
• rezultatul interpretării textului în LN este o glosă (un text – explicaţie în LN) şi nu
o listă de documente care conţin informaţia regăsită, cum este cazul sistemelor de
tipul QA şi IR.
Sistemul ISS – GLOS se poate desemna prin sintagma I – G (interpretare – glosă). Pot fi enumerate
următoarele avantaje ale abordării propuse:
• utilizatorul nu construieşte expresii de căutare. El remite textul în LN, pentru care
este necesară obţinerea explicaţiei (interpretării);
• sistemul ISS – GLOS nu cere o implicare directă a utilizatorului în procesul de
generare a gloselor.
Există câteva momente principiale în realizarea sistemelor de tipul I – G:
5
• selectarea corpusului lingvistic pentru elaborarea regulilor (gramaticilor) de
interpretare a textelor în LN;
• complexitatea extinderii şi reproiectării gramaticilor de interpretare;
• dificultatea menţinerii integrităţii bazei de cunoştinţe.
Pentru realizarea sistemului ISS – GLOS de tip I – G au fost propuse următoarele soluţii:
• elaborarea unui limbaj specializat LBC pentru deservirea bazei de cunoştinţe.
Acest mecanism trebuie să asigure extinderea şi adaptarea bazei de cunoştinţe;
• elaborarea concepţiei vocabularului virtual pentru proiectarea gramaticilor;
• elaborarea mecanismul de implementare rapidă a vocabularelor virtuale;
• obţinerea automatizată a interpretatoarelor semantice.
Elaborarea corpusului lingvistic constituie momentul central în realizarea concepţiei
prezentate. El va fi implementat de profesioniştii în domeniu şi codificat în limbajul LBC.
Utilizatorii sistemului doar îl vor folosi prin intermediul aceluiaşi limbaj LBC.
Importanţa teoretică
În prezenta lucrare au fost elaborate principiile teoretice necesare proiectării unor sisteme de
interpretare sintactico – semantică a textelor în LN.
Valoarea practică
Lucrarea furnizează suportul teoretic şi practic în vederea implementării unor medii (baze de
cunoştinţe) eficiente de stocare a informaţiei cu o încărcătură sintactico – semantică considerabilă.
Tehnicile elaborate au un caracter extensibil şi permit adaptarea bazelor de cunoştinţe pentru
deservirea diverselor domenii de aplicabilitate.
Aprobarea rezultatelor obţinute
Rezultatele cercetărilor realizate la tema tezei de doctorat au fost expuse în cadrul
următoarelor conferinţe:
1. Conferinţa ştiinţifică a doctoranzilor A.S.E.M., ed. 1, Chişinău, 1999.
2. Conferinţa a V-a ştiinţifico – metodică şi practică a profesorilor şi studenţilor, Universitatea de
ştiinţe aplicative din Moldova, Chişinău, 1999.
3. Conferinţa corpului didactico – ştiinţific: Bilanţul activităţii ştiinţifice a USM pe anii
1998/1999, ştiinţe fizico – matematice, Chişinău, 2000.
4. Conferinţa internaţională: Rolul ştiinţei si învăţământului economic în realizarea reformelor
economice din Republica Moldova, A.S.E.M., Chişinău, 2003.
5. Simpozionul internaţional al tinerilor cercetători, ed. 1, A.S.E.M., Chişinău, 2003.
6
6. The 30th Annual Congress of the American – Romanian Academy of the Arts and Sciences
(ARA), Chişinău, 2005.
7. International Conference Knowledge Management: Projects, Systems and Technologies,
Bucharest, 2006, p. 171 – 174.
8. The 31th Annual Congress of the American – Romanian Academy of the Arts and Sciences
(ARA), Braşov, 2007.
Rezultatele obţinute au mai fost prezentate la Seminarul Ştiinţific de Profil din cadrul
Universităţii Tehnice a Moldovei şi la seminarul ştiinţific al Catedrei Bazele Informaticii
Economice a Academiei de Studii Economice din Moldova.
Publicaţii:
Rezultatele de bază ale tezei au fost publicate în 12 lucrări, inclusiv 10 sunt publicate fără
coautori şi 2 în reviste recenzate. Lista publicaţiilor este expusă la sfârşitul autoreferatului.
Structura şi volumul lucrării
Teza prezentată constă din introducere, patru capitole, concluzii finale, lista abrevierilor
folosite, bibliografia utilizată, nouă anexe cu material auxiliar şi trei figuri cu material ilustrativ.
Definiţiile, lemele, teoremele sunt numerotate prin trei numere, unde primul număr referă numărul
capitolului, al doilea indică numărul paragrafului, iar al treilea – numărul de ordine din acest
paragraf.
Conţinutul studiului
Lucrarea constă din următoarele capitole:
Capitolul 1. Modelul axiomatic al reprezentării informaţiei conţinută în textele în LN.
Capitolul 2. Modelul formal de interpretare sintactico – semantică a textelor în LN.
Capitolul 3. Baza algoritmică de realizare a modelului de interpretare sintactico –
semantică a textelor în LN.
Capitolul 4. Realizarea modelului de interpretare a textelor în LN
În Capitolul 1 este descris un model axiomatic pentru interpretarea textelor în LN. Scopul
elaborării acestui model constă în specificarea obiectelor informatice, folosite la reprezentarea
informaţiei conţinută în textele în LN.
Modelul axiomatic elaborat se bazează pe două modele: modelul morfo – informatic şi
modelul sintactico – semantico – pragmatic.
Modelul morfo – informatic a fost obţinut prin interpretarea informatică a principalelor
categorii gramaticale ale limbii române. Fixarea faptelor morfologice ale textului analizat constituie
baza unei interpretări ulterioare a informaţiei conţinute în acesta.
7
Modelul sintactico – semantico – pragmatic este necesar sintetizării sensului (înţelesului)
pentru fragmentul de text analizat şi generarea gloselor (explicaţiilor) respective în LN.
Elaborarea modelului axiomatic a necesitat o reinterpretare a noţiunii de competenţă
lingvistică a vorbitorului – baza oricărei explicaţii a textului analizat. Pentru precizarea noţiunii de
competenţă lingvistică a vorbitorului au fost formulate trei definiţii.
Definiţia 1.1. Competenţa lingvistică a vorbitorului de a produce şiruri de cuvinte sintactic corecte
fără vreo implicare a sensului o vom numi competenţă sintactică în sens larg sau, pur şi simplu,
competenţă sintactică acolo unde nu creează ambiguităţi.
Definiţia 1.2. Competenţa lingvistică a vorbitorului de a stabili relaţii semantice (de sens, de
înţeles) între părţile de vorbire: relaţii de includere – conţinere a sensului (is part of etc., relaţii
anaforice etc.) se va numi competenţă semantică.
Definiţia 1.3. Competenţa lingvistică a vorbitorului de a atribui sens (denotaţional) sintagmelor,
propoziţiilor, frazelor lingvistice o vom numi competenţă pragmatică.
În baza definiţiilor prezentate este formulată următoarea afirmaţie.
Afirmaţie. Interpretarea unui text în LN presupune abilitatea vorbitorului de a manifesta cele trei
competenţe lingvistice menţionate mai sus: sintactică în sens larg, semantică şi pragmatică.
Este greu de formulat explicit regulile de interacţiune a sintaxei, semanticii şi pragmaticii în
procesul de interpretare a textelor. Se presupune, că competenţa sintactică este primară. Pe baza ei
se manifestă competenţa semantică (vorbitorul poate indica sinonimele, antonimele, meronimele,
holonimele, este conştient de relaţiile anaforice etc.).
Competenţa pragmatică este rezultatul sintezei competenţei sintactice, competenţei
semantice, dar şi al unei experienţe pragmatice anterioare actului de interpretare. Această experienţă
pragmatică este stocată într-o bază de cunoştinţe sub forma unor sintagme cu un caracter mai mult
sau mai puţin lingvistic.
Modelul axiomatic bazat pe modelele morfo – informatic şi sintactico – semantico –
pragmatic postulează existenţa următoarelor entităţi – mulţimi finite sau infinite (nevide):
1) O – mulţimea obiectelor ce urmează a fi manipulate;
2) M – mulţimea actelor mintale – raţionamente, gânduri despre obiectele analizate;
3) © - operaţia de compoziţie a actelor mintale.
Nu se va specifica natura fiziologică a actelor mintale. Fiind aplicat, actul mintal produce
(forma de reprezentare este deliberativă) un obiect ce aparţine mulţimii de obiecte O. Se postulează
ineficienţa aplicării actului mintal prin admiterea unui obiect ω – obiectul vid ce aparţine mulţimii
O.
8
Este admisibilă aplicarea unui lanţ de acte mintale obiectului vizat. În acest caz lanţurile de
acte mintale sunt produse prin intermediul operaţiei de compoziţie ©. Există un act mintal I, ce
identifică obiectul însuşi. Modelul, care integrează mulţimile O şi M se defineşte astfel:
MA=(O, M, ©), unde O, M şi © sunt entităţile prezentate mai sus.
Pentru axiomatizarea modelului MA este necesară următoarea precizare.
Definiţia 1.4. Sunt definite următoarele entităţi ale modelului MA:
1) T={ t | ( ∀ m) m©t = ω } – mulţimea obiectelor terminale, adică a obiectlor sensul
cărora este fixat într-un vocabular (registru). Orice act mintal în această situaţie
este considerat eşuat (obiectul ω). Trebuie să acceptăm interpretarea propusă în
vocabular, registru etc.;
2) E={ e | e ≠ ω ∧ ( ∀ m) m©e = ω} – mulţimea obiectelor terminale elementare. Este
eliminat obiectul vid ω;
3) C= O \ E – mulţimea obiectelor compuse, neelementare, non – terminale. Faţă de
aceste obiecte pot fi formulate şi aplicate lanţurile actelor mintale înşiruite cu
operaţia ©.
Axiomele stipulate pentru modelul MA sunt următoarele:
A1. m©A ∈ O
A2. (α©m)A=α(m(A))
A3. I©A=A
A4. ( ∃ ω)( ∀ m) m©ω=ω
A5. ( ∀ ω[( ∀ m) m©ω=A —>( ∀ A( ∃ α) α©A=ω)]
A6. ( ∀ α, e)[α(A)=e <—>α(B)=e]—>A=B
Axioma A1 asigură închiderea mulţimii O faţă de actele mintale. Este o cerinţă absolut justificată,
care simplifică situaţia.
Axioma A2 defineşte modul de combinare a actelor mintale, pe când axioma A3 stipulează
existenţa unui act mintal, care identifică obiectul.
Axioma A4 postulează existenţa obiectului vid, iar axioma A5 denotă existenţa înlănţuirilor de acte
mintale, care pot genera obiectele vide.
Egalitatea obiectelor (interpretarea ei) este dictată de axioma A6.
Pentru definiţia axiomelor au fost utilizate următoarele notaţii:
• ω este obiectul vid şi aparţine mulţimii O;
• e este obiectul elementar şi aparţine mulţimii E;
• m este actul mintal care aparţine M;
9
• α este actul mintal compus obţinut cu operaţia ©;
• I, A, B ... sunt nume de obiecte care aparţin mulţimii O.
Modelul axiomatic MA a servit drept bază conceptuală pentru elaborarea unui limbaj formal
numit LBC (Limbajul Bazei de Cunoştinţe). Limbajul LBC permite definirea şi gestionarea bazelor
de cunoştinţe necesare procesului de interpretare a textelor în LN.
Utilizarea bazelor de cunoştinţe pentru generarea gloselor la interpretarea textelor este o
abordare logică a procesului de atribuire de sens fragmentelor analizate de text.
În Capitolul 2 al studiului este prezentat mecanismul de atribuire a sensului textelor în LN.
În acest scop a fost propus un model informatic interpretativ. În cadrul acestui model este definită
reţeaua semantică translantă de tranziţie, folosită atât la reprezentarea informaţiei conţinută în
textele în LN, cât şi pentru atribuirea nemijlocită de sens acestor texte. Reţelele semantice sunt
tratate ca obiecte informatice aparţinând modelului axiomatic MA din capitolul 1 al prezentei
lucrări.
Reţeaua semantică simplă modificată (RSSM) translantă de tranziţie este un graf orientat cu
marcaj de-a lungul arcelor şi se defineşte în felul următor.
Definiţia 2.1. RSSM este definită printr-un graf g format din mulţimea finită de noduri N şi
mulţimea de arce H ⊂ N × N.
Nodurile grafului sunt indexate (se folosesc numerele naturale). Submulţimea E ⊂ N
formează submulţimea nodurilor finale.
Funcţia F de marcaj al arcelor este definită astfel:
Fie ∑ şi Δ două mulţimi finite de simboluri numite alfabetul de intrare şi alfabetul de ieşire, iar IdN
– alfabetul non – terminalelor, atunci :
• F: H → (Lt ® IdN ), unde ® este operaţia reuniunii exclusive;
• Lt – mulţimea perechilor {( ∑ ∪ {e} ) × ( Δ ∪ {e})};
• IdN– mulţimea {(Id ⏐ Id ∈IdN)}.
Fiecare RSSM trebuie să aibă nume. Denumirea reţelei este asigurată de funcţia biunivocă
R, definită pe mulţimea RSSM:
• R: RSSM → IdN, unde IdN este alfabetul non – terminalelor.
Natura acestor nume (în virtutea caracterului lor alfabetic) ale reţelelor este irelevantă. Simbolul e
reprezintă elementul vid ({e} – şirul vid).
Definiţia 2.2. Reţeaua semantică translantă de tranziţie (RSM) este un obiect format din
următoarele componente:
• RSM ={Σ, Δ, RSSM, R(RSSM), Id0}.
10
În expresia de mai sus ∑ este alfabetul de intrare, Δ – alfabetul de ieşire, RSSM – mulţimea finită a
reţelelor semantice simple de tranziţie, care formează RSM, R(RSSM) – mulţimea numelor reţelelor
simple, deoarece fiecare RSSM este accesată prin intermediul numelui şi Id0 – numele reţelei
iniţiale .
Pentru RSM se va defini în modul obişnuit relaţia de inferenţă după cum urmează.
Definiţia 2.3. În calitate de rezultat al inferenţei se vor accepta perechile:
• RezRSM ={(ξ, μ) |(Id0, Id0) —> * (ξ, μ), ξ ∈ Σ*, μ ∈ Δ*}, unde "—>*" reprezintă
închiderea relaţiei —>.
Pentru implementarea sistemelor de interpretare sintactico – semantică a textelor a fost introdusă
noţiunea de translator semantic cu stivă:
• T ={Σ, Δ, RSM, Id0}.
Funcţionarea acestui translator este descrisă de următoarele tranziţii tipizate:
a) (( Id, i), aα, γ , β ) ⏐⎯ (( Id, i) , α , γ , bβ), unde pe banda de intrare este scris
simbolul terminal a, iar arcul reţelei simple cu nodurile i şi j este marcat de
perechea (a, b) (b face parte din alfabetul de ieşire, iar a şi b pot fi şi vide);
b) ((Id, i), aα, γ, β)⏐⎯ ((Idi, 1), aα, (Id, i, j)γ, β), unde pe banda de intrare este
vizualizat simbolul terminal a, iar arcul reţelei simple cu nodurile i şi j este marcat
de non – terminalul Idi. În memoria stivei este scris simbolul (Id, i, j), iar starea
curentă a translatorului devine prima stare a reţelei simple Idi, adică nodul cu
indicele 1;
c) ((Idi, f), aα , ( Id, i, j)γ, η ) ⏐⎯ ((Id, j), aα, γ, η ), unde f este nodul final, al reţelei
simple Idi şi, în consecinţă, translatorul trece în starea dictată de stivă.
Rezultatul funcţionării translatorului semantic este definit în modul următor:
• RezΛ = {( x, z )⎮((Id0, 1),x, λ,λ ) ⏐⎯ ∗ Τ((Id0, f), λ , λ, z))}, unde Id0 – numele
reţelei simple iniţiale, iar f – starea finală în această reţea. Asteriscul „∗” notează
închiderea relaţiei⏐⎯, iar λ este şirul vid.
Următoarea teoremă stabileşte relaţia dintre RSM şi translatorul T.
Teorema 2.1. Translatorul semantic T este echivalent unei RSM (definiţia 2.2.), pentru care sunt
satisfăcute cerinţele de L – atributivitate
Demonstrarea acestei teoreme constituie elementul central al acestui capitol, deoarece permite
elaborarea mecanismului ISS a textelor în LN.
Modelul informatic interpretativ, bazat pe reţeaua semantică translantă de tranziţie, a fost
generalizat prin introducerea tehnicilor non – deterministe de interpretare. Acest fapt are drept efect
creşterea fiabilităţii procesului de interpretare sintactico - semantică a textelor în LN.
11
Definiţia 2.4. Prin reţeaua semantică simplă translantă modificată ponderată de tranziţie (RSSMP')
se subînţelege un graf g format din mulţimea finită de noduri N şi mulţimea de arce H ⊂ N×N.
Nodurile sunt indexate. Submulţimea E ⊂ N formează submulţimea nodurilor finale.
Funcţia F de marcaj al arcelor este definită astfel:
Fie Σ şi Δ două mulţimi finite de simboluri numite alfabetul de intrare şi alfabetul de ieşire, iar IdN-
alfabetul non – terminalelor, atunci:
• F: H → (L't ® IdN ) ∪ Ex ∪ Proc , unde ® este operaţia reuniunii exclusive;
• Lt' – mulţimea perechilor {(∑' ∪ {e} ) × ( Δ ' ∪ {e});
• ∑′={(t , A(t), w) ⎢t ∈∑ , A(t) ∈ Valt , w ∈ [0, 1]};
• Δ′={ ( r , A(r), w) ⎢ r ∈ Δ , A(r) ∈ Valr,w∈[0, 1] };
• IdN'={(Id, A(Id)) | Id∈IdN, A(Id) ∈ValId}.
Fiecare RSSMP' trebuie să aibă nume. Denumirea reţelei este asigurată de funcţia biunivocă
R, definită pe mulţimea RSSMP':
• R: RSSMP' → IdN', unde IdN' este alfabetul non – terminalelor.
În expresia de mai sus simbolul e reprezintă elementul vid ({e} – şirul vid).
Definiţia 2.5. Reţeaua semantică translantă modificată ponderată de tranziţie (RSMP') este un
obiect format din următoarele componente:
• RSMP' = {Σ', Δ', RSSM, R(RSSM'), Id'0}, unde ∑′ − mulţimea simbolurilor de
intrare redefinite mai sus, Δ′ − mulţimea simbolurilor de ieşire redefinite mai sus,
R(RSSMP') - mulţimea numelor RSSMP', Id'0 – numele reţelei iniţiale.
În sfârşit, rezultatul inferenţei pe arcele RSMP' va fi redefinit astfel:
• RezRSMP' = {(ξ, μ) | (Id'0, Id'0) —> * (ξ, μ), ξ ∈ Σ'*, μ ∈ Δ'*}, unde ∑′ şi Δ′ sunt date
de definiţia 2.2.4, iar Id'0 ∈ IdN'.
Pentru translatorul semantic modificat T′ rezultatul funcţionării adaptat ponderărilor este :
• RezTP′ = {(x, z) ⏐ ((Id'0 , Val1*Ido, 1, ex1*, w1*, proc1*), x, λ,, λ) ⏐⎯*((Id'0, Val*f Id'0,
f, ex*f , w*f, proc*f ), λ, λ, z), x ∈ Σ'*, z ∈ Δ'*}, unde f este nodul final al RSMP' cu
reţeaua iniţială Id'0, iar asteriscul "*"este un cuantificator ce specifică un oarecare
arc al reţelei.
Capitolul 3 prezintă aspectele implementării sistemului ISS – GLOS. Procesul de
interpretare sintactico – semantică a textelor în LN implică:
• specificarea textului supus interpretării;
• definirea modului în care are loc atribuirea de sens textelor analizate;
• specificarea rezultatului interpretării sintactico – semantice a textelor în LN.
12
În capitolul 1 al prezentei lucrări sunt evocate tehnicile de reprezentare a informaţiei
conţinută în textele în LN (modelul axiomatic). Capitolul 2 conţine descrierea modului în care are
loc atribuirea de sens textelor interpretate (modelul interpretativ). Pentru specificarea rezultatului
interpretării sintactico – semantice a textelor în LN sunt folosite tehnici denotative – reprezentarea
rezultatului sub formă de homomorfisme între două ∑-algebre. Aceste tehnici denotative sunt
reunite într-un singur model – modelul denotativ. În scopul definirii acestui homomorfism sunt
prezentate trei definiţii.
Definiţia 3.1. Signatura S-sortată ∑ reprezintă o familie de mulţimi <∑w,s>, unde w∈S* (şiruri
finite formate din elementele mulţimii S), iar s ∈ S. Elementele sunt considerate simboluri
operaţionale de orientarea w şi de sortul s.
Definiţia 3.2. Fie ∑ o signatură S-sortată, atunci ∑-algebră este o mulţime Ps de mulţimi portante cu
o funcţie f pentru fiecare element σ∈∑w,s şi w = s1...sn de forma:
fσ: Ps1× ... ×Psn→ Ps.
O importanţă deosebită în atribuirea de sens unui text în LN o are noţiunea de homomorfism
între ∑-algebre, deoarece vocabularele, practic, reprezintă o ∑-algebră S-sortată.
Definiţia 3.3. Fie ∑ o signatură S1-sortată şi Ω o signatură S2-sortată. Atunci un derivator algebric
din ∑ în Ω este reprezentat prin intermediul:
• funcţiei f: S1→S2;
• familiei de funcţii d: <∑w,s → (TΩ ) f(w),f(s)> , unde w = s1,...,sn, iar f(s1,...,sn )=
f(s1),...,f(sn ).
Pe baza definiţiilor prezentate sunt formulate două teze.
Teza 1. Interpretarea sintactico – semantică a textelor în LN este descrisă complet de o algebră
multi – sort (∑-algebră S-sortată).
Teza 2. Atribuirea de sens construcţiilor sintactice ale LN este echivalentă homomorfismelor
definite de derivatorii algebrici.
Definiţia celor trei modele (modelul axiomatic, modelul interpretativ şi modelul denotativ)
puse la baza interpretării sintactico – semantice a textelor în LN permite elaborarea unui limbaj
formal, integrativ – limbajul bazei de cunoştinţe (LBC).
În capitolele 1 şi 2 a fost demonstrată necesitatea unei baze de cunoştinţe pentru asigurarea
interpretării sintactico – semantice a textelor în LN. Baza de cunoştinţe este necesară pentru
stocarea şi administrarea cunoştinţelor morfologice, sintactice, semantice şi pragmatice care asigură
procesul de interpretare sintactico – semantică a textelor în LN. Prin urmare, pentru a îndeplini rolul
preconizat, limbajul LBC trebuie să înglobeze cele trei modele menţionate mai sus.
13
Principalele concepte ale limbajului LBC sunt: identificatorii de date, sintagmele şi
vocabularele virtuale.
Identificatorii de date sunt un mijloc de identificare a datelor în baza de cunoştinţe. De
exemplu,
VOCABULAR.VERB.*
Identificatorul de date trebuie interpretat astfel: se identifică toate verbele (sintagma VERB) din
sintagma VOCABULAR. Semnul "*" joacă rolul cuantificatorului – ∀ din logica matematică.
Sintagmele denumesc grupuri de valori cu sens precis. Sensul sintagmelor limbajului LBC
poate fi sintetizat pe baza sensurilor părţilor componente. De exemplu,
CONTEXT: ( SUBST IN
TRANZ:VOCABULAR.VERB.TRANZITIV.*;SUBST;
SUBST: VOCABULAR.SUBSTANTIV.om;ADJ;
ADJ: VOCABULAR.ADJECTIV.frumos;)
Semantic executarea sintagmei CONTEXT are loc astfel:
Pasul 1. Executarea şirului de sintagme şi a identificatorilor de date situaţi după cuvântul cheie IN.
Pentru a avea acces la sintagmele interioare trebuie să existe un nume de sintagmă interioară identic
cu numele de sintagmă situat anterior lui IN. Dacă această cerinţă nu este satisfăcută, atunci
executarea sintagmei e terminată.
Pasul 2. În caz contrar se execută acea sintagmă, care deţine numele specificat anterior lui IN.
Pasul 3. Executarea continuă până există nume de sintagme interioare ce pot fi accesate.
Trebuie de remarcat că sintagma CONTEXT poate conţine în interior alte sintagme
CONTEXT. În acest caz e valabilă regula blocurilor imbricate din limbajele de programare de tip
PASCAL etc.
Vocabularele virtuale specifică interpretarea textelor în LN analizate conform contextului
semantico – pragmatic asigurat de baza de cunoştinţe. Vocabularele virtuale sunt echivalente
funcţional reţelelor semantice definite în capitolul 2 al tezei de doctorat. Exemplul prezentat
defineşte conceptul de student:
Site student: (morf: morph, fam: nume, trai: adresa, studii: asezamant,
glosa:txt;
rel pragmatica1 (intra studii, intra trai, intra fam, rezult glosa1);
rel pragmatica2 (intra fam, trai rezult studii);
rel pragmatica3 (intra studii, rezult fam, trai)
) morf.rg=’student’, morf.genul= ’m’, cazul=(’n’, ’a’,’d’,’g’),
clg=clg(genul,numarul,cazul),
14
/morf.numarul=’s’, glosa = ’ persoană ce studiază într-un aşezământ de
învăţământ’/,
/morf.numarul=’p’, glosa =’ mai multe persoane ce studiază într-un aşezământ
de învăţământ – contingentul de studenţi’/,
glosa1=’studenţii ce studiază la o instituţie de învăţământ şi adresele lor’;
morph:(rg, genul, numarul, cazul: txt, clg: num, glosa: txt;
rel intra rg, clg rezult glosa)
Comentariu. Vocabularul virtual descrie conceptul "student" cu componentele respective.
Componenta "morf" conţine caracteristicile morfologice ale conceptului. Se presupune că sintagma
"morph" este deja prezentă în baza de cunoştinţe sau urmează să fie definită în acelaşi site.
Sintagma "morph" conţine următoarele componente: rg (rădăcina generalizată a morfemului),
numărul, cazul şi genul. Componenta „clg” reprezintă caracteristica lexico – gramaticală – un cod
numeric obţinut pe baza categoriilor gramaticale.
Tehnicile denotative elaborate pentru specificarea rezultatului interpretării sintactico –
semantice a textelor în LN sunt folosite şi pentru implementarea schemelor de realizare a limbajului
LBC. Elementele principale ale schemelor de realizare sunt proto – interpretatorul şi interpretatorul
sintactico – semantic.
Proto – interpretatorul este destinat generării vocabularelor virtuale, iar interpretatorul
sintactico – semantic utilizează vocabularele virtuale pentru sintetizarea reţelei semantice rezultante
necesare interpretării sintactico – semantice a textului analizat. Sintetizarea se efectuează pe baza
cunoştinţelor semantice şi pragmatice reprezentate în baza de cunoştinţe.
Regulile de inferenţă folosite pentru sintetizare sunt:
Regula I. Dacă antecedentul (adică lista conceptelor, conceptul) conţine succedentul (lista
conceptelor, conceptul), atunci antecedentul implică succedentul. Simbolic situaţia este reprezentată
astfel:
S⊆A ⇒ A – > S
Regula II. Dacă antecedentul implică un rezultat intermediar, iar apoi rezultatul intermediar sau
antecedentul implică succedentul, atunci antecedentul implică succedentul sau/şi rezultatul
intermediar. Simbolic putem reda cele spuse mai sus astfel:
A– >R & A v R– > S ⇒ A– > R v S
Regula III. Dacă implicaţiile A1– >S1 şi (A1– >S1) – > (A2– >S2) sunt adevărate, atunci este
adevărată şi implicaţia (A2– >S2).
În Capitolul 4 sunt expuse problemele vizând procesarea entităţilor morfologice şi
sintactice ale LN folosind baza de cunoştinţe. Cunoştinţele semantice şi pragmatice ale LN sunt
15
reprezentate în baza de cunoştinţe sub formă de reţele semantice translante modificate ponderate de
tranziţie (vezi capitolul 2). Atribuirea de sens entităţilor morfologice şi sintactice ale LN se
efectuează prin intermediul translatorului semantic modificat T' care interpretează RSMP'
sintetizată.
Scopul principal al interpretării sintactico - semantice a textelor în LN este obţinerea
gloselor. Glosele sunt explicaţii semantice ale textului în LN. Semnificaţia semantică a textului
analizat depinde de semnificaţia morfologică şi sintactică a fiecărui element constitutiv al textului.
Ambele elemente sunt regăsite în baza de cunoştinţe: vocabularul morfo – semantic şi vocabularele
virtuale.
O problemă extrem de importantă o formează administrarea bazei de cunoştinţe care este
asigurată prin intermediul limbajului LBC.
Capitolul încheie prin prezentarea unor exemple, care demonstrează corectitudinea abordării
propuse.
Sinteza rezultatelor obţinute

În prezenta lucrare au fost formulate următoarele cerinţe de realizare a interpretării sintactico
– semantice a textelor în LN:
1. Interpretarea sintactico – semantică a textelor în LN va fi efectuată cu utilizarea
unei baze de cunoştinţe care formează contextul semantic al interpretării.
2. Atât mediul semantic (baza de cunoştinţe), folosit la interpretare, cât şi mecanismul
de interpretare propriu – zis trebuie să fie compatibile în sensul formalismelor
descriptive. În prezenta abordare această cerinţă este asigurată de limbajul LBC.
3. Baza de cunoştinţe, utilizată la interpretare, trebuie să aibă dimensiuni
considerabile pentru a furniza contextul semantic adecvat. Prin urmare, pentru baza
de cunoştinţe sunt indicate tehnici extensibile.
În cadrul studiului s-au obţinut următoarele rezultate:
1. A fost elaborat modelul axiomatic de reprezentare a informaţiei conţinută în textele
LN, care a fost obţinut prin interpretarea informatică a categoriilor gramaticale în
vederea realizării interpretării sintactico – semantice a textelor. Pe baza acestui
model s-au formulat cerinţele faţă de baza de cunoştinţe necesară atribuirii sensului
fragmentului de text analizat. Sintetizarea sensului fragmentului de text analizat se
bazează pe informaţia morfologică, sintactică şi semantică a textului interpretat.
2. Pe baza competenţelor sintactice, semantice şi pragmatice ale vorbitorului s-a
formulat noţiunea de interpretare sintactico – semantică a textelor în LN şi s-a
16
precizat structura bazei de cunoştinţe. Pentru gestionarea bazei de cunoştinţe a fost
elaborat un limbaj formal LBC. Baza conceptuală a acestui limbaj a servit modelul
axiomatic de reprezentare a informaţiei conţinută în textele LN.
3. A fost elaborat un model interpretativ de atribuire a sensului textelor în LN. S-a
definit reţeaua semantică translantă de tranziţie în calitate de instrument al
interpretării sintactico – semantice a textelor în LN. Pentru algoritmizarea
interpretării sintactico – semantice a textelor a fost introdusă noţiunea de translator
semantic cu stivă. S-a demonstrat echivalenţa funcţională a reţelei semantice
translante de tranziţie translatorului semantic cu stivă (teorema 2.1.). Pentru
fiabilitatea procesului de interpretare sintactico – semantică a textelor în LN a fost
propus un model non – deterministic de interpretare. În legătură cu aceasta reţelele
semantice translante de tranziţie au fost completate cu noţiunea de pondere.
4. Pentru reprezentarea rezultatului interpretării sintactico – semantice a textelor în
LN au fost formulate două teze, care stipulează că rezultatul interpretării sintactico
– semantice a textului este descris de o algebră multi – sort, iar atribuirea de sens
construcţiilor sintactice se reduce la homomorfismele definite de derivatorii
algebrici. A fost elaborată schema de reprezentare a procesului de interpretare
sintactico – semantică a textelor în LN, bazată pe tehnici denotative.
5. Pentru menţinerea integrităţii bazei de cunoştinţe a fost elaborat un set de operaţii
şi formulată concepţia vocabularului virtual – metodă de organizare şi de extindere
a bazei de cunoştinţe.
6. S-a precizat noţiunea de glosă ca rezultat finit al interpretării textelor în LN.
Direcţii viitoare de cercetare

În perspectivă se preconizează întreprinderea următoarelor investigaţii pentru
dezvoltarea abordării propuse:
1. Elaborarea principiilor de implementare a corpus – ului lingvistic adecvat
procesului de interpretare sintactico – semantică.
2. Perfectarea unei baze morfologice reprezentative a limbii române, folosind
limbajul LBC şi principiile de reprezentare a informaţiei cu caracter lingvistic.
3. Realizarea unui interpretator sintactico – semantic, care ar automatiza extragerea
informaţiei din textul analizat cu interpretarea ei ulterioară în contextul semantic
asigurat de baza de cunoştinţe existentă.
4. Elaborarea unor mecanisme, ce ar asigura integritatea bazei de cunoştinţe.
17
Bibliografia include lista lucrărilor semnate de autori din ţară şi de peste hotare folosite în
procesul elaborării prezentului studiu.
Anexele şi figurile conţin material auxiliar şi ilustrativ, care completează şi facilitează
înţelegerea rezultatelor obţinute în cadrul tezei de doctorat.
Publicaţiile autorului la tema tezei
La tema tezei de doctorat au fost publicate 12 lucrări:
1. Creţu, S., Elaborarea unui model ergonomic pentru sistemele computerizate de dialog, în
Tezele conferinţei ştiinţifice a doctoranzilor A.S.E.M., ed. 1, Chişinău, 1999, p. 333 – 336.
2. Creţu, S., Aspecte ergonomice ale sistemelor computerizate de dialog, în Ştiinţele aplicative
în perioada de tranziţie, ed. V – a Conferinţei ştiinţifico – metodică si practică a profesorilor
şi studenţilor, Universitatea de Ştiinţe Aplicative din Moldova, Chişinău, 1999, p. 16 – 17.
3. Creţu, S., Modele axiomatice în instruire, în Tezele Conferinţei corpului didactico –
ştiinţific: Bilanţul activităţii ştiinţifice a USM pe anii 1998/1999, ştiinţe fizico – matematice,
Chişinău, 2000, p. 121 – 122 .
4. Creţu, S., Estimarea plauzibilităţii textelor în limbaj natural, în Tezele Conferinţei
internaţionale: Rolul ştiinţei şi învăţământului economic în realizarea reformelor economice
din Republica Moldova, A.S.E.M., Chişinău, 2003, p. 556 – 557.
5. Creţu, S., Modelul asociativ de instruire. Faza percepţiei, în Tezele Simpozionului
internaţional al tinerilor cercetători, ed. 1, A.S.E.M., Chişinău, 2003, p. 373 – 374.
6. Creţu, S., Elaborarea unui mecanism formal de interpretare sintactico – semantică a textelor
in limbaj natural, in Proceedings of the 30th Annual Congress of the American – Romanian
Academy of the Arts and Sciences (ARA), Chişinău, 2005 p. 131 – 133.
7. Creţu, S., A system for natural language text syntactic – semantic interpretation (SSI), in the
2 nd supplement of the review Informatica Economică, International Conference Knowledge
Management: Projects, Systems and Technologies, Bucharest, vol. 1, november 2006, p.
171 – 174.
8. Creţu, S., Interpretarea semantică a textelor în limbaj natural, EduSoft, Bacău, 2007, 208p.
9. Creţu, S., An understanding model for acquisition of NL text information, in Proceedings of
the 31th Annual Congress of the American – Romanian Academy of the Arts and Sciences
(ARA), Braşov, 2007, p. 296 – 298.
10. Creţu, S., Baza algoritmică de interpretare sintactico – semantică a textelor cu caracter
economic în LN, Economica, nr. 1 (57), A.S.E.M., Chişinău, 2007, p. 108 – 110.
11. Todoroi D., Micusa D., Clocotici V., Pereteatcu S., Bordeianu V., Grogoras C., Cretu S.,
Linga I., Spataru S., Natural language processing: IEE – 2000 Project, in Proceedings of the
18
International scientific seminar Strategies and Modalities for Romania and Moldova’
European Integration, 2000, vol. 2, A.S.E.M., Chisinau, p. 281 – 285.
12. Todoroi D., Gorbaticov V., Cretu S., Pereteatcov S., Problems concerning creation of
Extensible Programming Tools, Programmirovanie, no. 5, Moscow, 1989, p. 52 – 63.
ADNOTARE
la teza de doctor „Tehnici extensibile de interpretare sintactico – semantică a textelor în
limbaj natural”
Autor: Sergiu CREŢU
Lucrarea de doctorat reprezintă rezultatul obţinut în urma cercetării principiilor şi metodelor
de elaborare a unui sistem de interpretare sintactico – semantică (ISS) a textelor în LN numit ISS –
GLOS.
Prin interpretarea sintactico – semantică a textelor în limbaj natural înţelegem procesul de
analiză şi extragere a informaţiei conţinută în textele în LN, efectuată într-un context semantic
precis, asigurat de o bază de cunoştinţe adecvată. Rezultatul interpretării sintactico – semantice a
textului este un sistem de glose – fragmente de text în LN adaptat ce reprezintă explicaţia
semantică a textului interpretat.
Problema cercetată derivă din necesitatea procesării unor volume mari de informaţie sub
formă de texte în LN, mediatizată, mai ales, de reţelele computerizate existente (globale sau locale).
Sistemele de tipul ISS – GLOS permit identificarea eficientă a informaţiei din textele procesate
(manual, prin adnotare în limbajul proiectat ad-hoc LBC sau automatizat) şi interpretarea ei sub
formă de glose. Accesarea, modificarea, eliminarea informaţiei stocate sunt efectuate în cadrul
aceluiaşi sistem. Eficienţa operaţiilor enumerate mai sus este condiţionată de principiile semantice
de memorare a informaţiei.
Importanţa lucrării constă în elaborarea unui cadru teoretic şi practic nou ce permite
organizarea unor medii eficiente de memorare a informaţiei cu încărcătură semantică pronunţată,
cum sunt textele în LN şi utilizarea ei ulterioară la interpretarea sintactico - semantică a textelor în
LN.
Rezultatele obţinute în cadrul prezentei lucrări sunt:
1. A fost elaborat modelul axiomatic de reprezentare a informaţiei conţinută în textele LN,
obţinut prin interpretarea informatică a categoriilor gramaticale în vederea realizării
interpretării sintactico – semantice a textelor. Pe baza acestui model s-au formulat cerinţele
19
faţă de baza de cunoştinţe necesară atribuirii sensului fragmentului de text analizat.
Sintetizarea sensului fragmentului de text analizat se bazează pe informaţia morfologică,
sintactică şi semantică a textului interpretat.
2. Pe baza competenţelor sintactice, semantice şi pragmatice ale vorbitorului s-a formulat
noţiunea de interpretare sintactico – semantică a textelor în LN şi s-a precizat structura
bazei de cunoştinţe. Pentru gestionarea bazei de cunoştinţe a fost elaborat un limbaj formal
LBC. Drept bază conceptuală a acestui limbaj a servit modelul axiomatic de reprezentare a
informaţiei conţinută în textele LN.
3. A fost elaborat un model interpretativ de atribuire a sensului textelor în LN. S-a definit
reţeaua semantică translantă de tranziţie în calitate de instrument al interpretării sintactico –
semantice a textelor în LN. Pentru algoritmizarea interpretării sintactico - semantice a
textelor în LN a fost introdusă noţiunea de translator semantic cu stivă. S-a demonstrat
echivalenţa funcţională a reţelei semantice translante de tranziţie translatorului semantic cu
stivă (teorema 2.1.). Pentru fiabilitatea procesului de interpretare sintactico – semantică a
textelor în LN a fost propus un model non – deterministic de interpretare. În legătură cu
aceasta reţelele semantice translante de tranziţie au fost completate cu noţiunea de pondere.
4. Pentru reprezentarea rezultatului interpretării sintactico – semantice a textelor în LN au fost
formulate două teze, care stipulează că rezultatul obţinut este descris de o algebră multi –
sort, iar atribuirea de sens construcţiilor sintactice se reduce la homomorfismele definite de
derivatorii algebrici. A fost elaborată schema de reprezentare a procesului de interpretare
sintactico – semantică a textelor în LN, bazată pe tehnici denotative.
5. Pentru menţinerea integrităţii bazei de cunoştinţe a fost elaborat un set de operaţii şi
formulată concepţia vocabularului virtual – metodă de organizare şi de extindere a bazei de
cunoştinţe.
6. S-a precizat noţiunea de glosă ca rezultat finit al interpretării textelor în LN.
Rezultatele obţinute în cadrul prezentei lucrări pot servi drept bază pentru investigaţiile în
domeniul interpretării textelor în LN şi al metodelor de memorare eficientă a informaţiei cu o
încărcătură semantică considerabilă.
LISTA ABREVIERILOR
IA – inteligenţa artificială
IE – information extracting
IR – information retrieval
ISS – interpretarea sintactico – semantică
20
LN – limbaj natural
QA – question answering
RSMP – reţea semantică translantă modificată ponderată de tranziţie
LISTA CUVINTELOR – CHEIE
Bază de cunoştinţe, bază de date, competenţă lingvistică, corpus lingvistic, glosă, inteligenţă
artificială, interpretator, interpretare sintactico – semantică, înţelegerea informaţiei, limbaj formal,
limbaj natural, sintaxă, semantică, semantică denotativă, reţea semantică, tehnici extensibile.
АННОТАЦИЯ
на докторскую диссертацию “Расширяемые средства синтаксическо – семантической
интерпретации текстов на естественном языке”
Автор: Серджиу КРЕЦУ
Докторская диссертация представляет результаты исследования приципов и методов
разработки системы синтаксическо – семантической интерпретации (ССИ) текстов на
естественном языке (ЕЯ).
Под ССИ текстов на ЕЯ понимается процесс анализа и извлечения информации
содержащаеся в текстах на ЕЯ, осуществленного в точно определенном семантическом
контексте, обеспеченного адекватной базой знаний.
Результатом ССИ текстов на ЕЯ является система объяснений – глоссы – фрагменты
текстов на ЕЯ, что и составляет синтаксическое и семантическое объяснение
интерпретироианного текста.
Исследоваиие проблемы обусловлено необходимостью обработки больших объемов
иформации, представленной в виде текстов на ЕЯ, главным образом, предосталенной
существующими вычислительными сетями (глобальными или локальными).
Были разработаны принципы создания системы ISS – GLOS для синтаксическо
– семантической интерпретации (ССИ) текстов на естественном языке (ЕЯ). Система ISS –
GLOS позволяет эффективно идентифицировать информацию, содержащаяся в текстах на
ЕЯ (вручную, посредством разработаного для этого формального языка LBC или
автоматизировано) и ее интерпретацию в виде глосс. Доступ, модификация и удаление
информации из базы знаний осуществляется в рамках той же системы.
Значение данной работы состоит в разработке теоретических и практических
предпосылок для создания эффективных сред для хранения информации с существенным
сематическим наполнением, какими являются тексты на ЕЯ с поледующим ее
использованием для синтаксическо – семантической интерпретации текстов на естественном
языке.
21
В данной работе получены следующие результаты:
1. Разработана аксиоматическая модель для представления информации,
содержащаяся в текстах на ЕЯ, полученная посредсвом интерпретации грамматических
категориий с целью ССИ текстов на ЕЯ. На основе данной модели были сформулированы
требования к базе знаний, необходимой для присваиваиия смысла интерпретированному
тексту. Синтезироваие смысла анализированого текста основывается на морфологической,
синтактической и семантической информации данного текста;
2. На основе синтаксической, семантической и прагматической информации
сформулировано понятие ССИ текстов на ЕЯ и была уточнена структура базы знаний. Для
администрирования базы знаний был разработан формальный язык LBC. Основой для
данного языка послужила аксиоматическая модель представления информации
содержащаяся в текстах на ЕЯ.
3. Разработана интерпретационная модель присваивания смысла текстам на ЕЯ.
Определена семантическая транслирующая сеть переходов (СТСП) в качестве инструмента
ССИ текстов на ЕЯ. Для алгоритмизации ССИ текстов определено понятие семантического
транслятора со стеком. Была доказана теорема фунциональной эквивалентности СТСП
семантическому транслятору со стеком. Для повышения надежности ССИ текстов на ЕЯ
была предложена недетерминистская модель интепретации. В связи с этим СТСП были
дополнены понятием взвешенности (ВСТСП).
4. Для представления результата ССИ текстов на ЕЯ были сформулированы два
тезиса, которые указывают что полученный результат интерпретации описывается мульти –
сорт алгеброй, а присваиваиие смысла синтаксическим конструкциям может быть сведено к
гомоморфизмам определенными алгебраическими производными. Разработана схема
представления результатов ССИ текстов на ЕЯ, основаная на денотационных принципах.
5. Для поддержки целостности базы знаний было разработано множество операций и
сформулирована концепция виртуального словаря – метод организации и расширения базы
знаний.
6. Было уточнено понятие глоссы в качестве конечного результата ССИ текстов на
ЕЯ.
Полученные результаты могут служить основой для исследований в области ССИ
текстов на ЕЯ а также для разработки методов эффективного хранения информации со
значительным семантическим наполнением.
СПИСОК СОКРАЩЕНИЙ
22
ССИ - синтаксическо – семантическая интерпретация текстов на ЕЯ
ЕЯ – естественный язык
СТСП –. семантическая транслирующая сеть переходов
ВСТСП – взвешанная семантическая транслирующая сеть переходов
СПИСОК КЛЮЧЕВЫХ СЛОВ
База знаний, лингвистическая компетенция, лингвистический корпус, глосса, искусственный
интеллект, синтаксическо – семантическая интерпретация, формальный язык, естественный
язык, синтаксис, семантика, денотационная семантика, семантическая сеть, расширяемые
средства.
SUMMARY
of the PhD thesis “Extensible Techniques of Syntactic – Semantic Interpretation of
Texts in Natural Language”
Author: Sergiu CREŢU
This study represents a research concerning the principles and methods of elaboration of
syntactic-semantic interpretation system (SSI) of texts in natural language (NL). When we say
syntactic-semantic interpretation of texts in a NL, we mean the process of analyzing and extracting
information contained in NL, realized according to a precise semantic context, assured by an
adequate knowledge base.
The result of syntactic-semantic interpretation represents a system of glosses – adapted
fragments of text in NL, which forms the semantic and pragmatic explication of the interpreted text.
Our research results from the necessity of processing large amounts of information given in
the NL.
A developed ISS-GLOS system assures the efficient identification of information from the
processed texts (manually, in LBC or in an automatic way) and its interpretation under the format of
glosses. The process of accessing, modification, elimination of the stored information is effectuated
using the same system. The efficiency of the given operations is in relation with the semantic
principles of saving information.
The importance of this research consists in the elaboration of a new theoretical and practical
background, which permits the organization of efficient systems of saving information with
complex semantics and its future utilization in the syntactic-semantic interpretation of texts in a NL.
We obtained the following results:
1. The axiomatic model of representation of information contained in the NL was elaborated.
This result was obtained interpreting the grammatical categories. Using this model we
formulated some requests towards the needed knowledge base. The process of synthesizing
23
the fragment of the analyzed text is based upon morphological information, syntactic
information and semantic information of the given text.
2. Using the semantic, syntactic and pragmatic competences of the speaker, the notion of
syntactic-semantic interpretation of texts in the NL was formulated and the structure of the
knowledge base was précised. In order to administrate the knowledge base, a new formal
language LBC was elaborated. The conceptual basis for this language is the axiomatic
model of representing information contained in the NL.
3. An interpretative model of giving sense to the texts in NL was elaborated. The translated
and transition semantic network as a tool of syntactic-semantic interpretation of texts in the
NL was defined. In order to apply an algorithm for the SSI of texts in the NL, the notion of
semantic translator with stack (theorem 2.1.1) was introduced. A non-deterministic model of
interpretation was proposed. The translated, transition networks were completed with the
notion of weight.
4. We have formulated two theses, which stipulate that the obtained result can be described by
a multi-sort algebra and the process of giving sense to the syntactical constructions can be
reduced to the homomorphism defined by the algebraic derivers. The scheme of
representing the result was elaborated, using denotative techniques.
5. A set of operations and was elaborated and the concept of virtual vocabulary – as method of
organizing and extending the knowledge base has been formulated.
6. The final result was considered to be a gloss.
ABBREVIATIONS
AI – artificial intelligence
IE – information extracting
IR – information retrieval
SSI – syntactic – semantic interpretation
NL – natural language
QA – question answering
KEY WORDS
Knowledge base, database, linguistic competence, corpus, gloss, artificial intelligence,
interpretation, syntactic – semantic interpretation, information understanding, formal language,
natural language, syntax, semantics, denotation semantics, semantic networks, extensible
techniques.
24
25

Tehnici Extensibile de Interpretare Sintactico - Semantică

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tehnici Extensibile de Interpretare Sintactico - Semantică

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Tehnică din Moldova

Tehnici extensibile de interpretare sintactico – semantică

Conducător ştiinţific: Dumitru TODOROI

Referenţi oficiali: Ilie COSTAŞ

Teza de doctorat şi autoreferatul pot fi consultate la biblioteca Universităţii Tehnice a Moldovei, pe

Autoreferatul a fost expediat la __ octombrie 2007

Autor: ____________ Sergiu CREŢU

Sinteza rezultatelor obţinute

Direcţii viitoare de cercetare

S-ar putea să vă placă și