Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
Metode statistice
statistice de
de
procesare
procesare aa datelor
datelor
Ce înseamnă:
- se crează așa numit “model statistic”
al limbii avînd în vedere fenomenul
specific care este necesar pentru
rezolvarea problemei concrete.
“model statistic” al limbii
p(c) =frec(c)/N
“model statistic” al limbii
Frecvențele sunt utilizate pentru estimarea
probabilităților elemetelor.
p(c/h) = freq(h,c)/freq(h)
beautiful 17 500
freq p(c/beautiful)
beautiful actress 1 050 0,06
beautiful acres 312 0,018
beautiful caress 3 0,00017
beautiful access 24 0,0014
beautiful across 39 0,0022
Schema generală de aplicare a
metodelor statistice în procesarea
limbajului natural
Corpus de Text 1
antrenare
Aplicația Text 2
Text 3
..
Fişierul cu
.
Corpus instanţe
Text n
de testare
Sensuri marcate în text
Bonnie and Clyde are two really famous criminals, I
think they were bank/1 robbers
My bank/1 charges too much for an overdraft.
I went to the bank/1 to deposit my check and get a
new ATM card.
The University of Minnesota has an East and a West
Bank/2 campus right on the Mississippi River.
My grandfather planted his pole in the bank/2 and
got a great big catfish!
The bank/2 is pretty muddy, I can’t walk there.
Ferestre (window)
Cînd ne-am cunoscut
Un buchet de flori de liliac mi-ai adus la prag
buchet
fereastra 2n+1 cuvinte flori
adus
prag
1. de 2296
2. şi 2029
3. în 1511
4. nu 1271
5. să 1244
Rank – ul
. . . Frecvența
cuvîntului
3265. maşina 5 cuvîntului
3266. secundă 5
3267. te-am 5
3268. capitală 5
3269. mâncarea 5
. . .
9465. rezervor 1
9466. ideologic 1
9467. spune-le 1
9468. experimenta 1
9469. hiper-locatorului 1
Legea Zipf
2500
Numărul de apariție
2000
1500
1000
500
0
0 2000 4000 6000 8000 10000 12000
RANK
Dicționar de frecvențe
c f(c) p(c)
• de 2296 0,032
• şi 2029 0,028
• în 1511 0,021
• nu 1271 0,018
• să 1244 0,017
. . . Frecvența
3265. maşina 5 0,00007 relativă
3266. secundă 5 0,00007
3267. te-am 5 0,00007
3268. capitală 5 0,00007 p(c) =f(c)/N
3269. mâncarea 5 0,00007
. . .
9465. rezervor 1 0,00001
9466. ideologic 1 0,00001
9467. spune-le 1 0,00001
9468. experimenta 1 0,00001
9469. hiper-locatorului 1 0,00001
total N=70916
Exemplu
În propoziţia
Smoothing!
Netezire (nivelare)
Сглаживание
Frecvența
relativă
Smoothing! N = 70916
Netezire (nivelare)
V = 10970
Сглаживание
Frecvența
relativă
Mărirea vocabularului
în - in
și - si
peste – pește
român – roman
fata – fața
fâța
Context
Cînd ne-am cunoscut
Un buchet de flori de liliac mi-ai adus la prag
buchet
fereastra 2n+1 cuvinte flori
adus
prag
Context
décor ţesătura de in are o istorie
din pânza de in au fost purtate
purității fibrele de in sunt extrase din
două specii de in pentru producere este
produsele realizate din in se spală bine
materialele textile din in bumbac mătase cînepă
maro semintele de in sunt valoroase nu
intrebuinteaza faina de in sub formă de
măcinate seminţele de in conţin mai mulţi
colocaţii şi co-ocurenţe
de in are de in seminţele
de in au de in conţin
de in a de in scad
de in sunt de in sînt
de in pentru de in introduceţi
din in se de in în
din in bumbac de in sau
de in sunt de in zilnic
de in pot de in sînt
de in au
de in sub
de in conţin
Metode statistice operează cu
noţiuni de statistică şi
probabilitate
Avînd o statistică pentru unele evenimente
putem estima probabilitatea lor.
Frecvenţa relativă:
f=n/N
n – numărul de apariţie a evenimentului dat;
N – numărul total de observaţii
Probabilitatea este considerată egală cu
frecvenţa relativă
P~f=n/N
Probabilitatea condiţionată
Pr(A|B)=Pr(A∩B)/Pr(B)
Exempu:
Pr(u|q)=Pr(qu)/Pr(q)
Pr(qu) ~ f(qu) = n(qu) /N
Pr(q) ~ f(q) = n(q) /N
n(qu) = 2525
n(q) = 2648
n(u) = 2303669
N = 47482554
Pr(A/B) Pr(B)
Pr(B/A) =
Pr(A)
Formula lui Bayes
Pr(A/B) Pr(B)
Pr(B/A) =
Pr(A)