Sunteți pe pagina 1din 28

Corectarea erorilor n text

Cauzele erorilor
Erorile recunoaterii textului din
documente scanate (OCR)
Erorile recunoaterii textului scris de mn
Erorile n textul cules n grab
Erorile gramaticale (fonetice)
Lipsa semnelor speciale (diacritice)

Cauzele erorilor
Erorile recunoaterii textului din
documente scanate (OCR)
Eroriierecunoaserii textulul clin docuinente
soanate

Cauzele erorilor
Erorile recunoaterii textului scris de mn

Cauzele erorilor
Erorile n textul cules n grab

Cauzele erorilor
Erorile gramaticale

Cauzele erorilor
Lipsa semnelor speciale (diacritice)
Sau, cine stie, cu Europa asta integrata de
care se vorbeste atit de mult, poate ca
lucrurile au devenit mai simple. Si eu nu
stiu. Pentru ca am o virsta.

Tipurile erorilor
(clasice)
Erorile care produc cuvinte greite (se detecteaz de
Word prin compararea cu dicionarul)

Laureniu Reghecampf se bazeaz pejuctori cu


experienta n al doilea su mandat la Steaua.
Erorile care produc cuvinte corecte (nu pot fi
detectate de Word prin compararea cu dicionarul)

Produse de makeup pentru fata, fonduri de ten,


pudre, lotiuni de curatare.

Variantele de corectare a erorilor


(clasice)
Inserarea literei (insertion)
scrsoare - scrisoare
tergerea literei (deletion)
scrissoare - scrisoare
nlocuirea literei (substitution)
scrosoare - scrisoare
Schimbarea a dou litere (transposition)
srcisoare - scrisoare

Metode de corectare a erorilor


n primul rnd este eroarea trebuie sa fie
detectat.
Exemplu:
Mi-am perfectat toate documentele si am
devenit un cetatean roman.
*cautarea n dicionar

Metode de corectare a erorilor


Exemplu:
She is a beautiful acresswho starred in ...
*cautarea n dicionar
acress -> actress inserarea
acress -> acres
tergerea
acress -> caress schimbarea
acress -> access nlocuirea

Minimum edit distance


Distana minim de editare
Este numrul minim de operaii
elementare (inserarea, tergerea,
nlocuirea) necesare pentru transformarea
unui cuvnt n altul:

Minimum edit distance


Distana minim de editare

Exemplupentruopropoziie(pentrutraducereautomat?)
RSpokesmanconfirmsseniorgovernmentadviserwasshot
HSpokesmansaidthesenior
adviserwasshotdead

SID
I

Minimum edit distance


Distana minim de editare
Ometod?decalculare(Levenshtein)
pentrudou?irurix(n)iy(m)
Algoritm:
Iniializarea:
for i=1,n
forj=1,m

rezultat: D(n,m)

Minimum edit distance


Distana minim de editare
Ometod?decalculare(Levenshtein)
pentrudou?irurix(n)iy(m)
Algoritm:
Iniializarea:
for i=1,n
forj=1,m

rezultat: D(n,m)

Minimum edit distance


Distana minim de editare
Ometod?decalculare(Levenshtein)
pentrudou?irurix(n)iy(m)
Algoritm:
Iniializarea:
for i=1,n
forj=1,m

rezultat: D(n,m)

Statistica erorilor
Tabel cu erorile tipice (confusion table)

Statistica erorilor
Tabel cu erorile tipice (confusion table)

utilizarea statisticii
Probabilitatea pur

p(c) =frec(c)/N

utilizarea statisticii
Probabilitatea condiionat
(dependent de context)
p(c/h) = frec(h,c)/frec(h)
beautiful
beautiful actress
beautiful acres
beautiful caress
beautiful access
beautiful across

17 500
frec
1050
312
3
24
39

p(c/beautiful)
0,06
0,018
0,00017
0,0014
0,0022

Algoritmul general
1. Detectm cuvintele greite
comparm cu cuvintele din dicionar
calculm probabilitatea lor

2. Generm variantele de corectare


comparm cu tabelul erorilor tipice
analizm erorile clasice (inserarea, tergerea, etc.)
cautm variantele apropiate n dicionar

3. Selectm varianta cea mai potrivit


Calculm probabilitatea variantelor de corectare

Utilizarea n-gramelor
N-grame de cuvinte
Bi-grame:
She is; is a; a beautiful; beautiful actress;
actresswho; who starred; starred in; . . .
Tri-grame:
She is a; is a beautiful; a beautiful actress;
beautiful actresswho;actresswho
starred; who starred in; . . .

Utilizarea n-gramelor
N-grame de caractere
Bi-grame:
Sh;he;e ; i;is;s ; a;a ; b;be;ea;au;ut;ti;if;fu;ul;l ...
accttrreesss
Tri-grame:
She;he ;e i; is;is ;s a; a ;a b; be;bea;eau;aut; ...
actctrtreresess

Probabilitatea cuvntului n baza n-gramelor


(cazul simplificat)

P(word) = P(n-grams)
Bi-grame: ac ct tr re es ss
P(actress) = P(ac) P(ct) P(tr) P(re) P(es) P(ss)
Tri-grame: act ctr tre res ess
P(actress) = P(act) P(ctr) P(tre) P(res) P(ess)

Probabilitatea cuvntului n baza n-gramelor


(cazul simplificat)
P(fragment) = P(n-grams)
N-grame de cuvinte
Bi-grame:
P(fragment) = P(a beautiful) P(beautiful actress)
P(actresswho) P(who starred)
Tri-grame:
P(fragment) = P(is a beautiful) P(a beautiful actress)
P(beautiful actresswho) P(who starred in)

Redundana textului

Redundana textului

D9403 0063N3 048437,


4N3 9N8N733 83N 037
9347 4 4!