Sunteți pe pagina 1din 26

UNIVERSITATEA TEHNICĂ A MOLDOVEI

Cu titlu de manuscris
C.Z.U. 004.912

Victoria BOBICEV

METODE ŞI ALGORITMI STATISTICI


DE PROCESARE A TEXTELOR
(în baza textelor în limba română)

01.05.04 – Modelare matematică, metode matematice,


produse program

AUTOREFERAT
al tezei de doctor în informatică

CHIŞINĂU 2007
Teză a fost elaborată la catedra Informatica Aplicată, facultatea
Calculatoare, Informatica şi Microelectronică, Universitatea Tehnica a
Moldovei

Conducător ştiinţific: POPESCU Anatol


doctor habilitat în informatică,
profesor universitar

Referenţi oficiali: COJOCARU Svetlana


doctor habilitat în informatică,
conferenţiar cercetător

OBJELEAN Nicolae
doctor în informatică,
conferenţiar universitar

Susţinerea va avea loc la 8 iunie 2007, ora 15.00, în şedinţa Consiliului


ştiinţific specializat DH 31.01.05.04 - 01 din cadrul Universităţii Tehnice a
Moldovei pe adresa str. Studenţilor, 7, birou 3-208, Chişinău, MD2068,
Moldova.

Teza şi autoreferatul pot fi consultate la biblioteca Universităţii Tehnice a


Moldovei.

Autoreferatul a fost expediat la __________________________

Secretar ştiinţific
al consiliului ştiinţific specializat,
doctor în ştiinţe tehnice,
conferenţiar universitar Vasile Gîscă

Conducător ştiinţific
doctor habilitat în informatică,
profesor universitar Anatol Popescu

Autor Victoria Bobicev

2
CARACTERISTICA GENERALĂ A LUCRĂRII

Cuvinte-cheie: Procesarea Limbajului Natural (PLN), procesarea


textului, modele statistice ale textului, probabilităţile elementelor
textului, metode de nivelare, dicţionar de frecvenţe, legea Zipf, legea
Heaps, legile de repartiţie a cuvintelor, similaritatea corpusurilor,
metode statistice de comprimare, Prediction by Partial Matching
(PPM), prezicerea prin corespunderea parţială, algoritm de restabilire a
semnelor diacritice, sortarea documentelor, marcarea morfo-sintactică,
algoritm de dezambiguizare morfo-sintactică.

Preliminarii

Imediat după apariţia calculatoarelor a apărut şi dorinţa de a face


calculatorul să înţeleagă limba vorbită şi scrisă. Primele cercetări au
condus la rezultate promiţătoare şi era de aşteptat că în anii cei mai
apropiaţi calculatorul va fi în stare să prelucreze atît informaţia
numerică, cît şi cea textuală. Totodată, pe parcursul cercetărilor s-a
conturat complexitatea limbajelor naturale, în special ambiguitatea
elementelor lor, specificul utilizării în societate, etc.
Dificultatea majoră în soluţionarea problemei înţelegerii de către
calculator a limbajului natural constă în operarea numai cu elemente
strict concretizate, cu algoritmi bine determinaţi şi cu modele
matematice.
Limbajul uman, însă, este un fenomen complex, ce nu poate fi
formalizat în aşa măsură, încît să poată fi prelucrat pe calculator într-
un mod relevant. În consecinţă apare noţiunea de Procesare a
Limbajului Natural (PLN), care reprezintă o tehnologie (un ansamblu
de procese, metode, operaţii) ce creează şi implementează modalităţi
de executare a diverselor sarcini referitoare la limbajul natural.
În ultimii ani s-au făcut mai multe încercări de utilizare a
metodelor statistice în scopul procesării limbajului natural. Această
abordare se datorează unor rezultate mai performante în raport cu cele
obţinute de modelele deterministice. Lucrarea dată face parte din acest
domeniu.
3
Actualitatea temei investigate:
Fiind un domeniu actual foarte explorat, PLN rămîne totuşi o
ramură în care există destule probleme nerezolvate. Pînă în prezent nu
s-au elaborat teorii şi modele ce ar putea descrie limbajul uman şi ar
permite procesarea lui pe calculator într-un mod, asemănător cu cel
realizat de o fiinţă umană.
Specialiştii din domeniu răspund la necesităţile stringente ale pieţei
cu aplicaţii care rezolvă doar parţial problemele de procesare a
informaţiei textuale. O mare parte a acestor aplicaţii sunt bazate pe
metodele statistice care soluţionează un număr semnificativ de
probleme ce ţin de limbajul natural.
Lipsa cercetărilor teoretice în domeniul dat provoacă dificultăţi în
utilizarea pe larg a modelelor statistice în aplicaţiile practice. În multe
cazuri, metodele statistice sunt folosite intuitiv, fără studierea teoretică
profundă a statisticii limbajului natural. În consecinţă, rezultatele
promiţătoare ale aplicării în practica de prelucrare a limbajului natural
a modelelor statistice conduc la necesitatea cercetărilor mai profunde
în domeniul statisticii limbii naturale.
Actualitatea lucrării date constă în faptul, că pentru rezolvarea
problemelor expuse, în lucrare este efectuat un studiu teoretic al
caracteristicilor statistice ale textului român cu scopul de a crea modele
statistice. În baza textului român se cercetează atît proprietăţile textului
care măresc eficienţa folosirii metodelor statistice, cît şi caracteristicile
care provoacă dificultăţi în utilizarea lor. În baza studiilor efectuate au
fost create modele statistice adecvate ale textului şi elaboraţi algoritmi
pentru prelucrarea automată a textului.

Scopul şi obiectivele lucrării:


Scopul lucrării date este modelarea statistică a textului român,
cercetarea proprietăţilor statistice ale elementelor textului (litere,
cuvinte, părţi de vorbire) precum şi elaborarea algoritmilor şi
produselor program în baza modelelor create pentru rezolvarea
problemelor de procesare a limbajului natural şi, în special, a limbii
române.

4
Obiectivele principale ale lucrării sunt:
9 modelarea statistică a textului, cercetarea proprietăţilor statistice
ale elementelor textului;
9 cercetarea caracteristicilor statistice ale corpusului de texte ca
sursă principală pentru modelele statistice;
9 crearea modelelor statistice a textelor în baza literelor, cuvintelor şi
părţilor de vorbire;
9 elaborarea algoritmilor şi produselor program care folosesc
modelele create pentru rezolvarea problemelor practice de
prelucrare a limbajului natural.

Noutatea ştiinţifică a rezultatelor obţinute constă în:


ƒ demonstrarea posibilităţii de aproximare a frecvenţelor tuturor
tipurilor de elemente investigate ale textului (litere, cuvinte, părţi
de vorbire), precum şi a secvenţelor lor cu ajutorul legilor Zipf,
Zipf-Mandelbrot şi legii Heaps, fapt ce permite utilizarea
modelelor şi metodelor statistice în procesarea textului;
ƒ determinarea constantelor formulelor pentru legile Zipf, Zipf-
Mandelbrot şi legii Heaps în baza literelor, cuvintelor şi
codurilor morfo-sintactice precum şi ale secvenţelor lor pentru
textele româneşti;
ƒ determinarea legilor de repartiţie a cuvintelor frecvente în textele
româneşti, folosind ipoteze statistice, fapt ce permite aplicarea
aparatului matematic respectiv;
ƒ evaluarea omogenităţii şi similarităţii statistice a corpusurilor de
texte în scopul optimizării modelelor statistice ale textului;
ƒ elaborarea algoritmilor şi produselor program pentru procesarea
textului în baza modelelor PPM (Prediction by Partial Matching
– prezicere prin corespundere parţială), şi anume:
9 restabilirea semnelor diacritice în baza literelor;
9 clasificarea textelor în baza cuvintelor;
9 adnotarea morfo-sintactică a cuvintelor din text în baza
codurilor morfo-sintactice.

5
Semnificaţia teoretică a lucrării o constituie elaborarea metodelor
matematice pentru studiul teoretic al statisticii textului românesc, care
includ:
ƒ verificarea legilor teoretice ce descriu comportamentul statistic al
elementelor textului: legea Zipf şi legea Heaps pentru litere,
cuvinte, coduri morfo-sintactice precum şi pentru secvenţele lor
din text;
ƒ estimarea probabilităţilor elementelor din texte pentru metodele
statistice, îndeosebi a probabilităţilor elementelor rare în text;
ƒ aplicarea aparatului de ipoteze statistice la verificarea legilor de
repartiţie a cuvintelor în text;
ƒ evaluarea bazei modelului statistic – corpusurilor de texte - prin
aplicarea metodelor statistice la definirea omogenităţii şi
similarităţii statistice a corpusurilor de texte.

Valoarea aplicativă a lucrării:


În lucrarea de faţă au fost elaborate resurse şi instrumente utilizate
pentru modelarea statistică a textului, şi anume:
ƒ dicţionarul morfologic formatat conform standardelor europene;
ƒ corpusuri de texte în limba română;
ƒ corpus adnotat morfo-sintactic;
ƒ produse program în limbajul Perl, care efectuează:
- transformarea documentelor HTML în forma textuală;
- adnotarea textului cu coduri morfo-sintactice, folosind
dicţionarul morfologic;
- dezambiguizarea parţială morfo-sintactică a cuvintelor în baza
regulilor;
- analiza cuvintelor din text care nu au fost găsite în dicţionar;
- crearea dicţionarelor de frecvenţe pentru litere, cuvinte, coduri
morfo-sintactice şi secvenţele lor;
- modelarea dependenţei de creştere a vocabularului corpusului de
creşterea volumului acestui corpus;
- compararea probabilităţilor literelor, cuvintelor şi secvenţelor lor;
- modelarea repartiţiei cuvintelor în text;
- determinarea similarităţii corpusurilor şi a omogenităţii lor.

6
În scopul aplicării practice a metodelor statistice au fost create
produse program în limbajul Perl, care realizează diferite modificări
ale metodei PPM şi le utilizează la rezolvarea următoarelor probleme:
- restabilirea semnelor diacritice cu ajutorul metodei PPM în baza
literelor;
- clasificarea textelor prin metoda PPM în baza cuvintelor;
- adnotarea morfo-sintactică a cuvintelor în text, folosind metoda
PPM în baza codurilor morfo-sintactice.
Dicţionarele, textele corpusurilor, algoritmii şi produsele program
sunt folosite în procesul de instruire la Universitatea Tehnică a
Moldovei.
Produsele program au fost înregistrate la Agenţia de Stat pentru
Proprietatea Intelectuală a Republicii Moldova.

Aprobarea rezultatelor:
Rezultatele principale ale tezei au fost expuse la 9 conferinţe
internaţionale:
• II International Conference BIT+ Information Technologies,
Chişinău, Moldova, 2002.
• The 3rd International Conference on Microelectronics and
Computer Science, Chişinău, Moldova, September, 2002.
• International Conference Trends in the Development of the
Information and Communication Technologies in
Education and Management, Chisinau, Republic of
Moldova, 2003.
• International Conference RANLP, Borovets, Bulgaria, 2003.
• 4th International Conference Information Technologies,
“BIT-PLUS-2004”, Chişinău, Moldova, 2004.
• Şcoala de vară Eurolan 2005, Cluj-Napoca, România, 2005.
• 4th International Conference on „Microelectronics and
Computer Science” ICMCS, TUM, Chisinau, Moldova,
septembrie 2005.
• Workshop „Natural Language Processing for Metadata
Extraction (NLP4ME 2006)”, AIMSA 2006 Conference,
Varna, Bulgaria, septembrie 2006.

7
• International Conference «Corpora-2006», St-Petersburg,
octombrie 2006.

Metodologia si metodele de cercetare.


Textele în format electronic devin una din formele principale ale
comunicării. Din aceste considerente anume textul este ales ca obiect
de studiu, deoarece are un număr anumit de avantaje asupra limbii
vorbite: el este mai explicit, mai clar, mai organizat. Odată scris, textul
este în orice moment la dispoziţia cititorului. Mai mult decît atît, este
constatat faptul, că textul este limbajul principal pentru calculator,
limbajul care poate fi prelucrat în diferite scopuri cu diferite unelte
cum ar fi editoarele, motoarele de căutare, imprimantele şi multe altele.
Textul poate fi analizat la nivele diferite – la nivelul literelor,
cuvintelor, clauzelor, frazelor. În lucrarea dată studiul este efectuat la
nivelul elementelor de trei tipuri: literele, cuvintele şi părţile de
vorbire. Alegerea acestor elemente este dictată de următoarele motive:
- ele stau la baza majorităţii metodelor statistice;
- analiza lor nu necesită prelucrări speciale ale textelor.
Pentru studiul statistic al textelor sunt necesare corpusuri de texte.
În cadrul studiului elaborat sunt folosite patru corpusuri de texte
române. În tabelul 1 sunt prezentate datele referitoare la aceste
corpusuri.
Tabelul 1.
Corpusuri de texte în limba română folosite în cadrul studiului.
Denu- Număr Număr
Volum (în Număr total
Corpus mirea total de total de
Kb) de caractere
scurtă fişiere cuvinte
Hotărârile curţii de apel şi
Hot 885 4 553 789 520 4 511 057
recurs a Republicii Moldova
Arhiva site-ului revistei
RL 6 339 49 712 7 743 969 48 648 093
România Literară
Ziarul electronic Adevărul Ad 3 160 15 624 2 303 842 14 787 010
Ziarul electronic
EZ 2 464 57 076 8 032 318 50 995 252
Evenimentul zilei

În cadrul studiului în baza codurilor morfo-sintactice au fost


folosite două corpusuri de texte adnotate morfo-sintactic. În tabelul 2
sunt prezentate datele referitoare la aceste tipuri de corpus.

8
Tabelul 2.
Corpusuri de texte adnotate morfologic folosite în cadrul studiului.
Denumirea Număr total Număr total de
Corpus
scurtă de fişiere cuvinte
Hotărârile curţii de apel şi recurs a
Hot 575 268 966
Republicii Moldova
Primul capitol al romanului «1984»
1984 1 101 586
(G.Orwell)

Structura lucrării
Lucrarea conţine următoarele compartimente:

Capitolul 1. Analiza frecvenţelor elementelor textelor


româneşti (litere, cuvinte, coduri morfo-sintactice).
În capitolul dat se dezvăluie şi se analizează caracteristicile
statistice ale elementelor textului român. Capitolul este structurat pe
trei subcapitole dedicate studiului literelor, cuvintelor şi codurilor
morfo-sintactice, respectiv.

rang(r) litera frecvenţa(n)


1 e 4541178
2 i 4214257
3 a 3809165
4 r 2851745
5 n 2543597
6 t 2521675
7 u 2303669
8 c 2060931
9 l 1898672
10 o 1729851
...
Figura 1. Un fragment al dicţionarului de frecvenţe pentru litere.

În prima parte se studiază frecvenţele literelor în texte, se compară


frecvenţele literelor în corpusuri de texte diferite, rezultatele obţinute
în cadrul lucrării date şi al cercetărilor precedente. O mare parte din
cercetări să bazează pe dicţionarul de frecvenţe, care prezintă lista
9
elementelor din text în pereche cu numărul lor de apariţii în textul dat,
sortată în ordinea descrescătoare a numărului de apariţie a lor.
Elementul cu numărul maximal de apariţii este primul în această listă,
fapt ce înseamnă, că rangul lui este unu. Următorul după numărul de
apariţii element are rangul doi, şi aşa mai departe. În Figura 1 este
prezentat un fragment a dicţionarului de frecvenţe pentru litere.
Se verifică corespunderea repartizării dicţionarului de frecvenţe a
literelor legii Zipf:
r ⋅ n ≈ const (1)
sau
K
n= (2)
r
unde n – frecvenţa cuvîntului dat, K - constantă,
r – rangul cuvîntului, numărul lui de ordine în dicţionarul de
frecvenţe.
În baza verificării efectuate s-a obţinut confirmarea valabilităţii
legii Zipf pentru repartiţia literelor în texte. Aceasta confirmare a
condus la determinarea constantelor formulei Zipf, precum şi ale
formulei modificate Zipf-Mandelbrot pentru repartizarea literelor.
Au fost obţinute rezultate importante în domeniul studiului
frecvenţelor lungimilor cuvintelor din texte şi din dicţionar. În
dicţionar frecvenţa lungimilor cuvintelor are o formă clasică a
repartiţiei Gauss, ce coincide cu datele pentru limba engleză. Repartiţia
lungimilor cuvintelor în texte are o formă specifică limbii textului. În
capitolul dat este prezentată comparaţia repartiţiilor lungimilor
cuvintelor pentru limbile română, engleză, franceză şi rusă, fiecare
avînd o formă specifică limbii.
O problemă importantă pentru textele în format electronic prezintă
literele cu semne diacritice. Multe texte în limba româna sunt scrise
fără folosirea semnelor diacritice. Dacă astfel de texte se citesc fără
probleme de către oameni, procesarea acestor texte este cu mult mai
complicată pentru sistemele de prelucrare automatizată a textelor. În
lucrare este analizată frecvenţa literelor care devin ambigue în cazul,
dacă semnele diacritice sunt omise. S-a calculat, că aceste patru litere
cu perechile lor – a (ă, â), i (î), t (ţ), s (ş) – formează 38% din toate
literele textului.
10
De asemenea a fost repetat, la o scară mai mare, experimentul lui
Markov, şi anume, au fost calculate frecvenţele apariţiilor vocalelor şi
consoanelor în textele româneşti. Comparativ cu rezultatele obţinute de
Markov pentru limba rusă, în textele româneşti sunt mai multe vocale
şi cele mai frecvente sunt alteraţiile consoană-vocală-consoană-vocală.
Etapa următoare este cea a studiului secvenţelor din două, trei,
patru şi cinci litere din text. În marea lor majoritate, metodele statistice
folosesc anume probabilităţile condiţionale ale literei în dependenţă de
literele precedente în text. Aceasta conduce la sporirea atenţiei la
caracteristicile statistice ale secvenţelor literelor în text. Este arătat, că
numai o parte relativ mică din combinaţiile de litere teoretic posibile
apare în text. Lista elementelor care apar în text se numeşte
“vocabularul corpusului”, şi pentru metodele statistice este foarte
important de aflat dimensiunea reală a „vocabularului” dat.
“Vocabularul” acesta, la fel ca şi mărimea lui, se schimbă în
dependenţă de corpusul, în baza căruia se construieşte modelul. În
capitolul dat a fost studiată dependenţa creşterii vocabularului de
creştere a corpusului descrisă de legea Heaps:
V = kN b (3)
unde V – volumul vocabularului corpusului; N – volumul
corpusului; k, b – constante care depind de text.
La fel ca şi pentru repartiţia literelor, pentru repartiţia secvenţelor
de litere este valabilă legea Zipf, fapt ce înseamnă, că un număr redus
de secvenţe are o frecvenţă înaltă, iar un număr mare de secvenţe are
frecvenţă redusă.
A doua parte a capitolului dat este dedicată studiului cuvintelor. Ca
şi pentru litere, s-a studiat dicţionarul de frecvenţe ale cuvintelor din
fiecare corpus. A fost cercetată corespunderea formulei Zipf pentru
cuvintele din corpusuri, calculate constantele formulei date pentru
fiecare corpus. O deosebită atenţie a fost acordată ratei cuvintelor rare,
care apar în corpus numai de cîteva ori.
O altă problemă pentru metodele statistice este estimarea
numărului cuvintelor care nu au apărut în corpus. Formula Heaps,
pentru care au fost aflate constantele, permite estimarea numărului dat.

11
De asemenea s-a efectuat studiul secvenţelor din două, trei şi patru
cuvinte în text. Au fost create dicţionarele de frecvenţe pentru aceste
secvenţe, cercetată corespunderea lor formulei Zipf şi legii Heaps.
A treia parte a capitolului este dedicată analizei repartiţiei codurilor
morfo-sintactice în text. În domeniul procesării limbajului natural
definirea caracteristicilor morfologice ale cuvintelor este o problemă
studiată intens, dar nu este rezolvată definitiv. Ambiguitatea morfo-
sintactică a cuvintelor este dificultatea principală la adnotarea textului
cu codurile morfo-sintactice. Din cauza aceasta textele adnotate
automat se corectează manual.
În cadrul proiectului european MULTEXT-EAST au fost create
coduri cu descrierile amănunţite ale caracteristicilor morfo-sintactice
ale cuvintelor pentru limba română, care au fost folosite în lucrarea
dată.
Totodată în cadrul proiectului european MULTEXT-EAST a fost
creat un corpus român adnotat manual folosind setul dat de coduri. Pe
parcursul lucrului asupra tezei de către autor a fost creat un alt corpus
adnotat morfo-sintactic. Pentru adnotarea textelor corpusului a fost
folosit un dicţionar morfologic, care conţine aproximativ 90 000 de
forme de cuvinte.
În cadrul studiului a fost analizată ambiguitatea morfo-sintactică a
cuvintelor româneşti. Aproape 20% de cuvinte din dicţionar pot avea
cel puţin două caracteristici morfologice. Situaţia se complică din
cauză, că multe cuvinte din text pot să-şi schimbe caracteristicile lor în
dependenţă de poziţia lor în propoziţie.
Textele adnotate morfologic prezintă o sursă de informaţie
valoroasă. Spre exemplu, avînd astfel de texte, au fost calculate
procentele părţilor de vorbire în text, rata substantivelor de gen feminin
şi masculin. La fel au fost comparate secvenţele de coduri morfo-
sintactice pentru textele literare şi textele formalizate ale hotărîrilor
judecătoreşti.
La fel ca şi pentru litere şi cuvinte, au fost create dicţionare de
frecvenţe pentru codurile morfo-sintactice, secvenţe de două, trei, patru
şi cinci coduri în text. S-a efectuat verificarea corespunderii repartizării
codurilor legii Zipf, au fost calculate constantele pentru formula
corespunzătoare. Ca şi pentru cuvinte, pentru secvenţele de coduri
12
morfo-sintactice problema rarităţii elementelor este destul de acută. A
fost verificată legea Heaps pentru coduri şi secvenţele lor, calculate
constantele formulei corespunzătoare.
În capitolul dat a fost demonstrat faptul că literele, codurile morfo-
sintactice şi secvenţele lor, la fel ca şi cuvintele, sunt supuse legilor
Zipf şi Heaps, fapt ce permite prelucrarea lor, folosind aceleaşi modele
şi metode statistice.

Capitolul 2. Evaluarea caracteristicilor probabilistice ale


elementelor textelor româneşti.
În capitolul dat a fost efectuată o încercare de studiere mai
aprofundată a unor caracteristici statistice ale textului şi ale
elementelor lui, importante pentru crearea modelelor statistice.
În primul rînd, au fost stabilite cuvintele pentru care pot fi obţinute
rezultate statistic reprezentative. A fost stabilit, că pot fi obţinute
rezultate reprezentative pentru aproximativ 50-70 din cele mai
frecvente cuvinte ale dicţionarului de frecvenţe. Restul cuvintelor au o
frecvenţă scăzută şi caracteristicile lor statistice nu pot fi considerate
reprezentative.
În compartimentul următor a fost efectuat un studiu asupra legilor
repartizării cuvintelor în text. În scopul creării modelului statistic se
presupune că în text cuvintele au repartiţia normală. Însă, în urma
studiului mai detaliat pe baza textelor engleze a fost demonstrat, că
aceasta nu este chiar aşa. Din acest motiv în cadrul lucrării date a fost
efectuat un studiu al repartizării cuvintelor în textele româneşti.
Pentru cuvintele date au fost formate extrageri independente din
texte şi create diagramele de repartiţie a lor. În Figura 2 şi Figura 3
sunt prezentate exemplele de diagrame obţinute pentru cuvîntul ‚de’:
pe axa X este dat numărul cuvintelor ‚de’ apărute în fragment, pe axa
Y este dat numărul fragmentelor în care a apărut numărul dat al
cuvintelor ‘de’.

13
14000 400 0

350 0
12000

300 0
10000

250 0
8000

200 0
6000
150 0

4000
100 0

2000
5 00

0
0
0 5 10 15 20 25 30 35
0 2 4 6 8 10 12 14 16 18 20

Figura 2. Corpus EZ, mărimea Figura 3. Corpus Ad, mărimea


fragmentului – 100 de cuvinte; fragmentului – 100 de cuvinte;
numărul fragmentelor – 80000 numărul fragmentelor – 23000

Diagramele obţinute au arătat, următorul fapt: cuvintele date pot


avea atît repartiţia Gauss cît şi repartiţia Poisson. Prin urmare, au fost
înaintate simultan două ipoteze: cuvintele au repartiţia Gauss;
cuvintele au repartiţia Poisson. Ipotezele date au fost verificate
folosind testul cu criteriul χ2 :

χ = N⋅∑
2 ( f i − pi )
2
(4)
i =1,n p i
unde fi – valorile experimentale ale frecvenţei;
pi – valorile teoretice ale probabilităţilor calculate conform legii de
repartiţie alese;
n – numărul de intervale ale valorilor statistice, N – numărul de
extrageri.
Ca rezultat, a fost demonstrat, că, pentru majoritatea din 50 de
cuvinte frecvente, ambele ipoteze pot fi acceptate. Unele cuvinte, mai
ales prepoziţiile şi articolele, se aproximează cu precizie mai mare,
utilizînd formula Gauss, altele (pronume, verbe auxiliare) se
aproximează cu precizie mai mare, utilizînd formula Poisson.
Problema cuvintelor rare, care apar în text mai puţin de 10 ori, este
cunoscută şi pentru alte limbi şi este numită în engleză ca “word
sparseness” ceea ce înseamnă “raritatea cuvintelor”. În procesul creării
modelului statistic nu este posibil de calculat cu precizia necesară
probabilităţile acestor cuvinte. Cuvintele, care apar în textul corpusului
numai o dată, prezintă un fenomen specific numit hapax legomena.
Problema cuvintelor care apar în text numai o dată este strîns legată cu
problema cuvintelor care nu apar în corpusul dat. În prezentul capitol
14
este dată o descriere a metodelor de tratare a acestor cuvinte, inclusiv a
cuvintelor care nu au apărut în corpusul, în baza căruia se creează
modelul statistic. Aceste metode se numesc “smoothing methods”,
ceea ce înseamnă că ele nivelează probabilităţile cuvintelor rare şi
acelor care nu au apărut în text. Pentru secvenţe de litere şi secvenţele
de coduri morfo-sintactice la fel sunt actuale problemele descrise mai
sus, deci, metodele de nivelare se folosesc şi pentru aceste elemente.
Altă problemă abordată în cadrul capitolului dat este compararea
probabilităţilor elementelor pentru diferite corpusuri de texte. În baza
la patru corpusuri s-a efectuat o încercare de a afla, dacă probabilităţile
literelor calculate în baza acestor corpusuri sunt egale. Egalitatea între
probabilităţile literelor a fost verificată, folosind testul cu criteriul z.
A fost construită o valoare de test z:
p'1 −p' 2
z= (5)
p1 (1 − p1 ) p 2 (1 − p 2 )
+
N1 N2
unde p’1 şi p’2 - probabilităţile unei litere estimate în baza
primului şi al doilea corpus respectiv;
p1 şi p2 - probabilităţile teoretice ale unei litere în primul şi al
doilea corpus respectiv;
N1 şi N2 – numărul de fragmente în primul şi al doilea corpus
respectiv.
Se consideră
p1 = p2 ≈ (m1 + m2) / (N1 + N2) (6)
unde m1 şi m2 - mărimea fragmentelor în primul şi în al doilea
corpus respectiv.
Astfel, valoarea de test z se calculează:
N1 + N 2 m1N 2 − m 2 N1
z= (7)
N1 N 2 (m1 + m 2 )( N1 + N 2 − m1 − m 2 )
A fost demonstrat că probabilităţile literelor calculate în baza
diferitor corpusuri nu sunt egale, chiar şi pentru unele corpusuri mai
puţin omogene, probabilităţile literelor calculate în baza diferitor părţi
ale corpusului nu sunt egale.

15
Aceste rezultate evidenţiază dependenţa modelului statistic de
corpus, în baza căruia el este creat, şi importanţa analizei corpusului
înainte de a crea modelul statistic. Prin urmare, este important de a
avea la dispoziţie o metodă pentru verificarea corpusurilor, calcularea
omogenităţii unui corpus sau similarităţii celor două corpusuri de texte.
În concluzie menţionăm, că în capitolul dat a fost realizat un set de
experimente de evaluare a caracteristicilor statistice ale textului care
pot fi folosite în modelarea statistică cu scopul măririi eficienţei
acesteia.

Capitolul 3. Elaborarea metodelor şi algoritmilor statistici de


procesare a textului în limba română.
Paralel cu alte metode statistici, pentru prelucrarea automată a
textelor au fost aplicate metodele statistice de comprimare a lor.
Metoda PPM se consideră astăzi optimală în domeniul comprimării
textelor. În primul rînd, ea este bazată pe lanţurile Markov cu contexte
de lungime diferită. În PPM este realizată o metodă eficientă de
amestecare (blend) a probabilităţilor pentru contextele, de lungime
diferită. Algoritmul PPM de modelare a textului are complexitatea
lineară, ceea ce confirmă performanţele lui. Pentru modelarea statistică
şi comprimarea în baza modelului creat sunt utilizaţi doi algoritmi
independenţi aplicaţi în mod secvenţial unul după altul. Aceasta
permite utilizarea primului algoritm şi în alte scopuri de procesare a
limbajului natural. Alt avantaj al metodei date constă în adaptarea ei la
text pe parcursul codificării lui.
În PPM sunt stocate contoarele fiecărei combinaţiei context-simbol
întîlnite în textul precedent. Sunt memorizate nu numai combinaţiile cu
context maximal, dar şi combinaţiile cu toate contextele cu lungimea
de la maximală pînă la zero. Spre exemplu, probabilitatea literei ‚e’ la
capătul cuvîntului ‚corespundere’ se calculează ca suma probabilităţilor
condiţionale ale literei date în dependenţa de contextele cu lungime
diferită:
P(‚e’)=λ1P(‚under’|‚e’)+λ2P(‚nder’|‚e’)+λ3P(‚der’|‚e’)+λ4P(‚er’|‚e’)+λ5P(‚r’|‚e’)+λ6P(‚e’) (8)

unde λi – coeficientul de pondere pentru fiecare probabilitate;


P(x|y) – probabilitatea condiţională a lui x în dependenţă de y.
16
Modelul clasic folosit pentru comprimarea textelor este creat în
baza caracterelor. În domeniul prelucrării limbii naturale aceste modele
sunt folosite pentru rezolvarea unor probleme de prelucrare a textului.
În studiul de faţă modelul PPM în baza literelor a fost folosit pentru
restabilirea semnelor diacritice în textul românesc. De fapt, problema
literelor cu semne diacritice este actuală nu numai pentru limba
româna, majoritatea limbilor europene conţin astfel de litere. Totodată
în majoritatea textelor de pe Internet semnele diacritice sunt eliminate
în scopul păstrării textului în timpul transmiterii şi recodificării.
Modelul a fost antrenat în baza textelor cu semne diacritice ale
corpusului RL. În textele cu semnele diacritice eliminate patru litere se
consideră ambigue (a – poate fi ă, i – poate fi î, t – poate fi ţ, s – poate
fi ş). Pentru fiecare literă din aceste patru în model se calculează
entropia fragmentului din 11 litere în jurul literei ambigue. Apoi litera
se înlocuieşte cu perechea ei cu semn diacritic şi iarăşi se calculează
entropia fragmentului. Litera, pentru care entropia era mai mică, se
consideră corectă.
Metoda restabileşte corect semnele diacritice în text cu aproximativ
98% de cazuri, fapt ce poate fi considerat un rezultat satisfăcător.
În afara modelului în baza literelor în lucrarea de faţă au fost
folosite modele PPM în baza cuvintelor şi codurilor morfo-sintactice.
În studiul dat s-a folosit modelul statistic PPM în baza cuvintelor
cu context alcătuit dintr-un cuvînt şi două cuvinte în scopul clasificării
documentelor. Sortarea sau clasificarea documentelor este o problemă
actuală în legătură cu crearea bazelor de informaţie textuală de
dimensiuni imense. Pentru sortarea sau clasificarea documentelor sunt
folosite metode statistice în baza cuvintelor. Recent a fost propusă o
metodă de clasificare a documentelor în baza modelului PPM numită
‘off-the-shelf method’. Ea constă în comprimarea documentului
necunoscut cu documentele deja clasificate. Avînd cîteva clase de
documente se execută comprimarea documentului necunoscut
împreună cu fiecare clasă. Apoi sunt comparate ratele de comprimare.
Se consideră că documentul aparţine clasei cu care acesta a fost
comprimat cel mai bine. În metoda propusă a fost folosit modelul PPM
în baza literelor, în lucrarea dată a fost folosit modelul în baza
cuvintelor.
17
Avînd un corpus de articole din ziarul electronic, clasificate în
şapte tematici, s-au folosit aceste şapte clase pentru clasificarea
documentelor.
În primul rînd, au fost create şapte modele în baza acestor şapte
clase de documente. Apoi au fost alese cîte zece documente din fiecare
clasă, plasate într-o mapă şi clasificate cu ajutorul modelelor create. În
scopul acesta a fost calculată entropia fiecărui document din mapa
dată, în baza fiecărui model din cele şapte create. Astfel, pentru fiecare
document, se calculează şapte valori de entropie. Documentul se
clasează în clasa pentru care entropia calculată a fost minimală.
Experimentele efectuate au arătat, că 97% de documente au fost
clasificate corect, fapt ce demonstrează eficienţa metodei folosite.
Modelul PPM în baza codurilor morfo-sintactice este folosit pentru
analiza morfo-sintactică automată a cuvintelor textului. Cea mai mare
problemă pentru analiza morfo-sintactică automată este ambiguitatea
morfo-sintactică a cuvintelor. Deci, o etapă importantă în procesarea
textului este rezolvarea problemei ambiguităţii cuvintelor, selectarea
codului morfo-sintactic potrivit pentru fiecare cuvînt care a obţinut mai
mult decît un cod.
Pentru rezolvarea acestei probleme se folosesc atît metode în baza
regulilor cît şi metode statistice. Metoda cea mai des folosită este
metoda în baza lanţului Markov. Pentru definirea secvenţei optimale
de coduri se foloseşte algoritmul Viterbi, care este o variantă a
programării dinamice a lanţului Markov. Algoritmul conţine două
etape: parcurgerea înainte şi parcurgerea înapoi. Avantajul
algoritmului constă în faptul că enumerarea variantelor posibile se
execută numai pentru cuvîntul curent. Pentru fiecare pas se află codul
optimal al cuvîntului precedent.
Calitatea rezultatului utilizării modelului depinde mult de
probabilităţile iniţiale. Presupunînd că modelul PPM estimează
probabilităţile condiţionale mai exact, decît alte modele, calculăm
probabilităţile, folosind modelul PPM în baza codurilor.
În experimentul efectuat a fost utilizat algoritmul Viterbi modificat.
A fost creat modelul PPM în baza codurilor cu lungimea maximală a
contextului egală cu patru coduri. Probabilităţile cuvintelor în
dependenţă de coduri nu au fost calculate. Astfel, probabilitatea
18
codului curent se calculează ca produsul probabilităţilor codului curent
şi codului precedent. Altă modificare a algoritmului constă în absenţa
parcurgerii înapoi. Toate codurile aflate sunt memorizate imediat
pentru folosirea lor în contextul modelului PPM. Pentru calculul
probabilităţii codului curent modelul PPM foloseşte patru coduri
precedente, din cauza aceasta codurile precedente optimale se
determină în procesul parcurgerii înainte.
Pentru cercetarea mai detaliată a rezultatelor dezambiguizării
automate s-au ales zece documente şi s-a analizat marcarea lor. După
etapa de marcare automată cu ajutorul dicţionarului, în textul marcat
există trei tipuri principale ale cuvintelor: cuvinte marcate cu un cod,
cuvinte ambigue, cuvinte necunoscute. Numărul cuvintelor marcate cu
un cod este destul de stabil - aproximativ 85%, la fel ca şi numărul
cuvintelor ambigue - aproximativ 11%, cuvintele necunoscute
formează aproximativ 4% din cuvintele textului.
Folosind metoda PPM, s-au calculat probabilităţile codurilor pentru
partea corpusului care a fost marcată morfologic, verificată şi corectată
manual. În baza probabilităţilor calculate s-a executat dezambiguizarea
automată a fişierelor deja analizate. În mediu, programul elaborat a
dezambiguizat corect 95,3% de cuvinte, ceea ce de fapt nu este atît de
mult. Însă în multe cazuri programul a restabilit corect partea de
vorbire şi majoritatea caracteristicilor cuvîntului şi făcea eroare numai
într-o caracteristică morfologică. Spre exemplu, pentru substantiv
eroarea era numai în gen sau în număr.
După analiza mai detaliată a erorilor s-a constatat, că partea de
vorbire este definită corect pentru 97,5% de cuvinte. O treime din
erorile comise de model sunt cauzate de adnotarea iniţială, care nu
conţinea codul corect al cuvîntului. Codul acesta a fost manual
introdus de un adnotator uman. Pe de altă parte, 15% din numărul total
de erori au fost comise, de fapt, nu de program, dar de adnotatorii
umani, care au pus codul greşit.
Din rezultatele obţinute în capitolul dat putem conclude, că
folosirea modelului PPM pentru rezolvarea problemelor de prelucrare
a textului este destul de eficientă şi poate fi aplicată la un număr mai
larg de probleme din domeniul dat.

19
Sinteza rezultatelor obţinute.
• Legile Zipf, Zipf-Mandelbrot cu parametrii determinaţi în lucrare
sunt aplicabile pentru litere, cuvinte, coduri morfo-sintactice,
precum şi secvenţele lor în texte româneşti.
• Coeficienţii formulei Heaps determinaţi în lucrare pot fi folosiţi
pentru estimarea numărului de cuvinte, care nu s-au întîlnit în
corpus, fapt ce permite calculul mai eficient al probabilităţilor în
modelarea statistică.
• Creşterea vocabularului secvenţelor elementelor (literelor,
cuvintelor şi codurilor morfo-sintactice) în text este cu mult mai
lentă, decît reiese din calculele teoretice, deci putem
concluziona, că modelele create, folosind secvenţe mai lungi, nu
necesită mărirea corpusului în progresie geometrică.
• Repartizarea frecvenţelor lungimilor cuvintelor în text prezintă o
caracteristică stabilă pentru limba dată şi diferă la diferite limbi;
repartizarea frecvenţelor lungimilor cuvintelor în dicţionar este
similară în diferite limbi.
• Caracteristicile statistice ale secvenţelor de litere sunt similare
caracteristicilor statistice ale cuvintelor în text.
• Numărul elementelor rare într-un corpus de texte nu depinde de
volumul lui, dar depinde de tipul textelor în corpus.
• În textele româneşti prepoziţiile, articolele şi un număr mic de
pronume au repartiţia normală.
• Pentru cuvintele cu rangul de pînă la 50, din dicţionarul de
frecvenţe repartiţia este aproximată cu legea Gauss; legea
Poisson estimează repartiţia cuvintelor cu rangul mai mare decît
50, pentru care au fost obţinute rezultate statistic reprezentative.
• Rata substantivelor de genul feminin şi a substantivelor de genul
masculin în limba româna este aproximativ de 2:1.
• Probabilităţile elementelor textului, calculate în baza diferitor
corpusuri, nu pot fi considerate egale, deci, modelele statistice
depind considerabil de corpusul în baza căruia sunt create.
• Verificarea şi compararea corpusurilor permit crearea modelelor
statistice mai eficiente.

20
• Modelele statistice create pentru comprimarea textelor pot fi
folosite cu succes pentru rezolvarea problemelor de procesare a
textelor.

Concluzii şi recomandări practice:


În lucrare au fost realizate cercetări teoretice de analiză şi elaborare a
modelelor statistice ale textelor, care au condus la următoarele
rezultate:
- aproximarea frecvenţelor tuturor tipurilor de elemente
investigate ale textului (litere, cuvinte, părţi de vorbire), precum
şi a secvenţelor lor cu ajutorul legilor Zipf, Zipf-Mandelbrot şi
legii Heaps;
- determinarea constantelor formulelor pentru legile Zipf, Zipf-
Mandelbrot şi legii Heaps în baza literelor, cuvintelor şi
codurilor morfo-sintactice, precum şi a secvenţelor lor pentru
textele româneşti;
- definirea legilor de repartiţie a cuvintelor frecvente în textele
româneşti, folosind ipoteze statistice;
- evaluarea omogenităţii şi similarităţii statistice a corpusurilor de
texte în scopul optimizării modelelor statistice ale textului;
- estimarea probabilităţilor elementelor din texte pentru metodele
statistice, îndeosebi a probabilităţilor elementelor rare în text;
În scopul aplicării practice a metodelor statistice au fost elaboraţi
algoritmi şi produse program în limbajul Perl, care rezolvă următoarele
probleme de prelucrare a textului:
- restabilirea semnelor diacritice în textele româneşti cu ajutorul
metodei PPM în baza literelor;
- clasificarea textelor prin metoda PPM în baza cuvintelor;
- adnotarea morfo-sintactică a cuvintelor în textele româneşti,
folosind metoda PPM în baza codurilor morfo-sintactice.
În baza rezultatelor obţinute putem conclude, că folosirea
modelului PPM pentru rezolvarea sarcinilor de prelucrare a textului
este eficientă şi poate fi aplicată la un număr larg de probleme din
domeniul dat.

21
Publicaţii la tema tezei
La tema tezei au fost publicate 13 lucrări:
1. Bobicev V. State-of-the-art in Computational Linguistics, particularly for
Romanian. II International Conference BIT+ Information
Technologies, Chişinău, Moldova, 2002, p. 69-71.
2. Bobicev V. Aplicarea metodelor statistice pentru dezambiguizarea
textelor în limbaje naturale. Conferinţa tehnico-ştiinţifică a
studenţilor şi doctoranzilor, UTM, Chişinău, Moldova, 2002, p.18-
19.
3. Bobicev V., Popescu A., Carcea L., Butucel A., Maxim V., Zidrasco T.,
Fiodorov T., Tacu N., Zagaiciuc S., Stucalov O. Some Prelimlinary
Results of Creating the Romanian Morphologically Annotated
Corpus. The 3rd International Conference on Microelectronics and
Computer Science, Chişinău, Moldova, September, 2002, p.183-
186.
4. Bobicev V. Creating Syntactically Annotated Romanian Corpus.
International Conference RANLP, Borovets, Bulgaria, 2003, p. 58-
62.
5. Bobicev V., Angheluş V. Restaurarea automată a diacriticelor în textele
româneşti. Conferinţa tehnico-ştiinţifică jubiliară a colaboratorilor,
doctoranzilor şi studenţilor, UTM, Chişinău, Moldova, 2004,
p.141-142.
6. Bobicev V., Carcea L. Abordare statistică a restaurării diacriticelor.
Conferinţa tehnico-ştiinţifică jubiliară a colaboratorilor,
doctoranzilor şi studenţilor, UTM, Chişinău, Moldova, 2004, p.199-
200.
7. Bobicev V., Popescu A., Zidraşco T. Automatic error correction in text.
4th International Conference on „Microelectronics and Computer
Science” ICMCS, TUM, Chisinau, Moldova, septembrie 2005,
p.193-196.
8. Bobicev V., Popescu A. , Zidraşco T. Statistical Models of Language and
Zipf’s Law. 4th International Conference on „Microelectronics and
Computer Science” ICMCS, TUM, Chisinau, Moldova, septembrie
2005, p. 133-136.
9. Bobicev V., Maxim V. Regulile statistice pentru texte româneşti.
Conferinţa tehnico-ştiinţifică jubiliară a colaboratorilor,
doctoranzilor şi studenţilor, UTM, Chişinău, Moldova, Noiembrie
2005, p. 190-191.

22
10. Bobicev V., Popescu A. Entropia textului român. I Conferinţa Naţională
de Comunicaţii, Electronica şi Informatica, UTM, Chişinău,
Moldova, mai 2006, p. 116-119.
11. Bobicev V. Compararea probabilităţilor elementelor textului.
Meridian ingineresc n.2, UTM, Moldova, 2006, p. 62-67.
12. Bobicev V. Text Classification Using Word-Based PPM Models.
Computer Science Journal of Moldova vol.14, 2(41), Kishinev,
Moldova, 2006, p.183-201.
13. Bobicev V., Popescu A. Marcarea morfo-sintactică automată folosind
modelul PPM. Conferinţa jubiliară Tehnico-ştiinţifică a
colaboratorilor, doctoranzilor şi studenţilor consacrată celei de-a
40-a aniversări a doctoranturii U.T.M., Chişinău, Moldova,
Noiembrie 2006, p. 155-158.

23
Adnotare
la teza de doctor „Metode şi algoritmi statistici de procesare a textelor
(în baza textelor în limba română)”
prezentată de Victoria Bobicev

Teza conţine cercetarea şi elaborarea metodelor statistice de procesare a


textului. În lucrare este efectuat un studiu teoretic al caracteristicilor statistice
ale textului românesc din punctul de vedere al creării modelelor statistice. În
baza lui au fost cercetate atît proprietăţile textului care măresc eficienţa
folosirii modelelor statistice, cît şi caracteristicile care provoacă dificultăţi în
crearea acestor modele. Au fost analizate trei tipuri de elemente ale textului –
litere, cuvinte şi coduri morfo-sintactice.
Pentru cercetările efectuate au fost pregătite resursele necesare:
dicţionarul morfologic; patru corpusuri de texte în limba română; un corpus
adnotat morfo-sintactic, produse soft necesare pentru adnotarea corpusului.
În cadrul studiului legilor teoretice au fost determinate constantele
formulelor Zipf şi Zipf-Mandelbrot pentru litere, cuvinte, coduri morfo-
sintactice precum şi secvenţele lor în textele româneşti. A fost verificată
legea Heaps şi aflaţi coeficienţii pentru diferite elemente ale textului.
În scopul măririi eficienţei metodelor statistice au fost studiate legile de
repartiţie pentru cuvintele frecvente în text. A fost cercetată baza modelului
statistic – corpusurile de texte, a fost definită omogenitatea şi similaritatea
corpusurilor de texte româneşti.
Pentru rezolvarea problemelor de procesare a textelor a fost aplicată
metoda de comprimare PPM (Prediction by Partial Matching – prezicere prin
coincidenţa parţială), care în prezent este considerată ca fiind optimală în
domeniul comprimării textelor. În teză au fost folosite trei modificări ale
metodei date: în baza literelor, cuvintelor şi codurilor morfo-sintactice.
Metoda PPM în baza literelor a fost folosită pentru restabilirea semnelor
diacritice în textul românesc. Metoda în baza cuvintelor a fost folosită în
scopul clasificării documentelor. Metoda în baza codurilor morfo-sintactice a
fost folosită pentru analiza morfo-sintactică automată.
Rezultatele obţinute demonstrează eficienţa folosirii modelului PPM
pentru procesarea textului.

24
Abstract
of the Ph.D. thesis „Statistical Methods and Algorithms
of Text Processing (based on Romanian texts)”
presented by Victoria Bobichev

The thesis contains the analysis, study and elaboration of statistical


methods used for text processing. The research has been carried out for three
types of text elements: letters, words and morpho-syntactic tags as well as
sequences of all these elements in text. Characteristics that make possible
statistical methods application and features which create difficulties for
statistical methods have been investigated.
The necessary resources for the carried out study have been prepared: the
morphological dictionary; four corpora of Romanian texts; a morphologically
annotated corpus, a number of scripts for the experiments.
The first part of the thesis contains examination of text’s theoretical
laws. Zipf’s and Heap’s law constants for the sequences of all three types of
elements (letters, words and morpho-syntactic tags) have been calculated.
In the second part several aspects of text statistical models effectiveness
are described. In order to increase the statistical methods performance, means
of probability estimation for rare elements in text have been reviewed.
Distribution laws for high frequency elements in Romanian texts have been
determined. Corpora similarity and corpus homogeneity have been evaluated.
The last part of the work presents several algorithms for text processing
which use statistical compression method – Prediction by Partial Matching
(PPM). This method is considered the best method for compression as it
creates the optimal statistical model of text. Three variations of PPM method
have been applied: on the basis of letters, words and morpho-syntactic tags.
The PPM method on the letter basis has been applied for diacritics
restoration. Document classification task have been solved by the word-based
method. The usage of PPM method on the base of morpho-syntactic tags for
morpho-syntactic disambiguation has been tested.
The results of the experiments confirm the effectiveness of the PPM
method in text processing.

25
Аннотация
на докторскую диссертацию « Статистические методы и алгоритмы
обработки текстов (на базе румынских текстов)»
представленную Викторией Бобичев

В работе был проведен анализ статистических характеристик для


трех типов элементов текста: букв, слов и морфо-синтаксических кодов
а также для цепочек этих элементов в тексте. Были исследованы как
свойства на которых базируются статистические методы, так и
характеристики, создающие трудности в их применении.
Для этого были подготовлены необходимые ресурсы:
морфологический словарь; четыре корпуса текстов; корпус
размеченный морфо-синтаксическими кодами, созданы необходимые
программные продукты для разметки текстов.
Первая часть работы посвящена теоретическим законам
распределения частот элементов текста. В ходе исследования были
вычислены константы законов Ципфа и Ципфа-Мандельброта для
цепочек из букв, слов и морфо-синтаксических кодов а также константы
закона Хипса для всех вышеперечисленных элементов.
С целью повышения эффективности применения статистических
методов были определены законы распределения слов с высокой
частотой встречаемости, а также были проанализированы корпуса
текстов, осуществлена оценка их статистического сходства и
однородности.
Для решения практических задач автоматической обработки
текстов был использован статистический метод сжатия текстов - PPM
(Prediction by Partial Matching – предсказание по частичному
совпадению), который считается самым эффективным методом сжатия
на сегодняшний день. В работе были использованы три модификации
данного метода: на базе букв, на базе слов и на базе морфо-
синтаксических кодов. Метод на базе букв был применен для
восстановления диакритических знаков в румынских текстах. Задача
сортировки документов была решена с помощью метода на базе слов.
Метод на базе морфо-синтаксических кодов был применен для
автоматического разрешения морфологической неоднозначности при
морфо-синтаксической разметке.
Результаты проведенных экспериментов подтверждают
эффективность применения данного метода для автоматической
обработки текстов.
26