Documente Academic
Documente Profesional
Documente Cultură
Grafuri de cuvinte
Tudor Berariu
tudor.berariu@gmail.com
10 mai 2015
Pe scurt...
Graful de cuvinte
U = wordA
U 6= wordA
V = wordB
AB
O11
AB
O21
V 6= wordB
AB
O12
AB
O22
unde:
AB
O11
reprezinta numarul total de aparit, ii ale sintagmei word1 word2 n
text.
AB
O12
reprezinta numarul total de aparit, ii ale unor sintagme n care
word1 este urmat de alt cuvant n afara de word2 .
AB
reprezinta numarul total de aparit, ii ale unor sintagme n care
O21
word2 este precedat de alt cuvant n afara de word1 .
AB
O22
reprezinta numarul total de aparit, ii ale unor sintagme n care
primul cuvant nu este word1 , iar cel de-al doilea nu este word2 .
AB
AB
AB
AB
Desigur, O11
+ O12
+ O21
+ O22
= M (numarul total de secvent, e
consecutive de doua cuvinte).
Pe baza tabelei de contingent, a a doua cuvinte wordA s, i wordB se calculeaza o masura1 pentru sintagma (colocat, ia) wordA wordB :
AB
AB
O22
O11
OddsRatio(wordA , wordB ) = log
AB
AB
O12
O21
AB
AB
= log O11
+ log O22
AB
AB
log O12
log O21
Deoarece este posibil ca unii termeni sa fie zero, n practica se foloses, te:
!
AB
AB
+
0.5
+
0.5
O
O
22
11
OddsRatio (wordA , wordB ) = log
AB
AB
O12
O21
AB
AB
= log O11
+ 0.5 + log O22
+ 0.5
AB
AB
log O12
+ 0.5 log O21
+ 0.5
Deoarece masura OddsRatio(wordA , wordB ) este o masura a cat de puternica este alaturarea dintre cele doua cuvinte, costul unui arc ntre nodurile
wordA s, i wordB va fi:
Cost(wordA , wordB ) = 1 +
min
(wordX ,wordY )
http://www.collocations.de/AM/
Cerint, e
3.1
Se da un text n limba romana. Sa se extraga cuvintele s, i sa se construiasca graful de cuvinte, calculandu-se scorul muchiilor conform formulei din
sect, iunea 2.
Toate simbolurile ., % vor fi eliminate, iar cratima va fi considerat separator ntre cuvinte.
Testarea se va face prin verificarea costurilor pentru cateva muchii alese
la ntamplare.
3.2
Se dau doua cuvinte wordstart s, i wordend . Sa se construiasca o fraza corespunzatoare drumului de cost minim ntre cele doua noduri.
Pentru rezolvarea acestei cerint, e se va implementa o coada de prioritat, i.
3.3
Trimiterea temei
4.1
Fis, ierul de intrare va cont, ine pe prima linie numele fis, ierului cu textul pe
baza caruia se va construi graful de cuvinte.
3
4.2
Fis, ierul de ies, ire va avea L linii pe care se va gasi cate o valoare reala corespunzatoare costului arcului descris la linia 3 l 2 + L.
Urmatoarele M linii corespund frazelor construite pentru drumul de cost
minim ntre cuvintele date pe linia 2 + L + 2 m 2 + L + 1 + M n fis, ierul
de intrare.
Pentru cerint, a de la bonus, se vor produce N grupuri de linii, fiecare
avand urmatoarea component, a: o linie cu numarul soln de solut, ii, urmate
de soln cu frazele respective.
Vezi exemplu n Sect, iunea5.3.
5
5.1
Exemplu
Graful de cuvinte
U = linii
U 6= linii
V = scurte
O11 = 2
O21 = 1
V =
6 scurte
O12 = 2
O22 = 11
sier
3.456
de
5.22652
1
3.45674
scurte
4.20487
foarte
5.65396
4.20487
3.456
test
2.87445
5.05216
linii
cu
3.87017
1.70915
cinci
5.2
data/text1
6
fisier de
linii scurte
foarte scurte
test linii
de test
scurte de
2
fisier scurte
scurte test
1
5 test
5.3
3.45674
4.20487
3.45674
5.05216
6
1
5.22652
fisier de test linii scurte
scurte de test
1
cu cinci linii de test