Sunteți pe pagina 1din 13

8.

TEHNOLOGIA OCR
Programele de recunoaştere a textului de tip OCR (Optical Character
Recognition) nu reuşesc să „citească” chiar atât de repede ca oamenii de
inteligenţă medie, dar reuşesc să recupereze acest handicap. Recunoaşterea
de text modernă lucrează cu diferiţi experţi software, care intră în scenă toţi
deodată sau succesiv. Procedeele utilizate îşi au originea în era de debut a
programelor, zona experienţelor fiind doar extinsă cu cele mai noi metode.

8.1. POTRIVIREA DE MODEL (PATTERN MATCHING)


Cel mai simplu şi mai vechi procedeu de verificare este potrivirea de
model (pattern matching). Extragerea caracteristicilor şi verificarea sintaxei apar
abia în a doua fază. Logica fuzzy – aplicare maleabilă, nu strictă, a regulilor –
hotărăşte în cazuri dificile, iar un expert suplimentar (bazat pe reţele neurale)
permite utilizatorului să antreneze programul.
Procedeele de bază pentru recunoaşterea textului tipărit (OCR, Optical
Character Recognition – recunoaştere optică a caracterelor) există de mai mult
de 30 de ani: iniţial, se aplica o comparaţie relativ simplă, bazată pe hardware,
între o literă şi imaginea din documentul de referinţă (vezi figura 8.1). La mijlocul
anilor '60, au fost introduse fonturile normate OCR-a şi OCR-b. Chiar şi azi se
mai află în liniile codificate ale cecurilor bancare aceste tipuri de caractere, care
sunt stocate ca model pixelizat în aparatele de citire utilizate, în special, pentru
codurile de bare din standard EAN.

Fig. 8.1. Litera a salvată sub formă de imagine într-un model matriceal predefinit.
Tehnologia OCR

În cazul în care imaginea caracterului corespunde cu obiectul de


referinţă, imaginii respective îi este atribuită o valoare ASCII, iar litera este
recunoscută. Aceasta înseamnă că un caracter va fi identificat doar dacă
fiecare a, b sau c se aseamănă cu modelul pentru a, b sau c ca două picături de
apă, în caz contrar, fiind ignorat.
Aparatele de citire performante au reuşit apoi să identifice, pe lângă
fonturile OCR, şi fonturile maşinilor de scris obişnuite – tot cu procedeul pattern
matching, care compară modelul de pixeli cu imaginea stocată a caracterului.

8.2. EXTRAGEREA CARACTERISTICILOR


(FEATURE EXTRACTION)
Potrivirea de model a fost completată în 1975 cu metoda extragerii
caracteristicilor (feature extraction). Analiza detaliilor tipografice ale fiecărei litere
renunţă la a compara imaginile literelor cu modele matriceale predefinite şi caută
în imaginea literei anumite curbe şi bucle, raporturi de unghiuri, proporţii între
liniile verticale şi cele orizontale, precum şi deschideri (vezi figura 8.2).

Fig. 8.2. Descompunerea geometrică a literei a pentru metoda extragerii caracteristicilor.

Deoarece aceste caracteristici geometrice ale literelor tuturor fonturilor


se păstrează cât de cât, metoda se descurcă cu mai multe fonturi decât cele
anterioare. De aceea, procedeul este denumit şi omnifont.
Primul aparat de citire care a lucrat cu noua metodă de recunoaştere a
fost denumit după dezvoltatorul său (1975), Raymond Kurzweil: Kurzweil
Reading Machine (KRM). Primul client particular: Stevie Wonder, care îşi
traducea textele tipărite cu ajutorul lui KRM în alfabet braille.
Kurzweil a dezvoltat împreună cu Xerox, în anii '80, programe OCR care
lucrau atât cu potrivirea de model, cât şi cu extragerea caracteristicilor (metode
hibride). Capacitatea de a recunoaşte a putut fi extinsă, deoarece acest soft
dispunea şi de inteligenţă artificială: literele recunoscute greşit sunt corectate de
utilizator şi introduse automat în dicţionarul programului de OCR, care va lua în
considerare, la următoarele procese de recunoaştere, noile cunoştinţe dobândite.
171
Echipamente multimedia

Îndeosebi recunoaşterea scrisului de mână apelează foarte mult la


antrenamentul suplimentar, pentru că stilurile diferite de scriere trebuie mai întâi
învăţate de program. Aceste metode se numesc ICR (Intelligent Character
Recognition) şi se bazează pe modele Markov şi reţele neurale.

8.3. ANALIZA SINTACTICĂ (LANGUAGE ANALYSIS)


Metodele cu potrivire de model şi extragere a caracteristicilor sunt
susţinute într-o a treia fază de experţii lingvistici: o analiză sintactică (language
analysis) stabileşte dacă şirul de caractere descoperite poate apărea sau nu în
limba selectată. Niciun cuvânt din limba română – exceptând abrevierile – nu
începe, de exemplu, cu doi e. Verificarea sintaxei, prezentă în majoritatea
programelor OCR, verifică însă doar trei caractere ale şirului care nu au fost
recunoscute deplin de ceilalţi experţi.
În ciuda capacităţii de învăţare şi a procedeelor omnifont, programele
OCR nu se descurcă cu toate excepţiile tipografice. La mijlocul anilor '80,
dezvoltatorii de software OCR au experimentat procedee de recunoaştere
inspirate din modul de lucru al creierului uman. În reţelele neuronale naturale şi
artificiale, prelucrarea informaţiilor urmează aşa-numitele reguli ale mulţimilor
vagi (fuzzy logic).

8.4. METODA LOGICII FUZZY (FUZZY LOGIC)


Procedeele algoritmice de rezolvare a problemelor, precum potrivirea
de model, lucrează cu reguli stricte. În sistemele capabile să înveţe, sunt
generate în permanenţă noi reguli, care, la rândul lor, sunt formulate univoc. În
schimb, logica fuzzy ia în considerare faptul că mecanismul creierului uman
găseşte soluţii la probleme şi fără parametrii stricţi: sunt luaţi în calcul termeni
precum „aproximativ”, „aproape ” sau „în mare”.
Exemplu. Cnofrom uuni stduiu al ueni uinvresttiai elgenze, nu cntozeaa
în ce odrnie se alfa lirteele itnr-un cuvant, signruul lcuru ipmotarnt e ca pirma şi
utlima lierta sa fie la lcuol lor. Rsetul potae fi o vrzaa colmpeta şi tot o vei ptuea ctii
fraa prboelme. Atsa e din cuzaa ca nu ciitm feicrae lteira, ci cvanutul ca un irtneg.
Modul de funcţionare al experţilor logicii fuzzy din programele OCR
este asemănător modului de gândire al oamenilor: ei lucrează analog, nu digital,
cunosc, deci, nu doar valori logice de adevăr ca „da” şi „nu”, ci şi „mult” şi
„puţin”. Dar termeni ca “puţin”, “mai mult”, “mult” etc. trebuie clar departajaţi,
172
Tehnologia OCR

pentru ca procedeul să poată funcţiona. Pentru aceasta, rezultatele verificării


experţilor inferiori, precum extragerea caracteristicilor, trebuie mai întâi să fie
„fuzzy-ficate”, traduse deci în valori mai puţin tranşante – aşa-numite variabile
lingvistice. În sisteme fuzzy, aceste variabile cuprind mai multe valori exacte de
analiză. O asemenea colecţie de valori este numită mulţime fuzzy. Fiecăreia
dintre aceste mulţimi îi este atribuit un nume de variabilă. Sunt utilizate, de
regulă, abrevieri din limba engleză:
• NB (Negative Big): pentru abateri mari;
• NM (Negative Medium): pentru abateri medii;
• NS (Negative Small): pentru abateri mici;
• ZE (ZEro): fără abateri.
În alte modele de sisteme fuzzy, pot fi utilizate şi alte tipuri de variabile,
precum PS, PM şi PB (Positive Small, Positive Medium, Positive Big), pentru
abaterile acceptate de la valoarea ideală.
Măsura în care se apropie, de exemplu, de un a valorile geometrice ale
unui caracter găsite prin extragerea caracteristicilor poate fi reprezentat –
exceptând variabilele lingvistice – şi prin funcţia de apartenenţă. Gradul de
apartenenţă la o mulţime a tuturor a-urilor posibile se poate exprima printr-o
valoare cuprinsă între 0 şi 1.
Dacă mai multe din aceste valori maleabile 0 – care pot proveni din
diferite verificări ale experţilor – sunt legate prin operatorii booleeni and (şi), or
(sau) şi if/then (dacă/atunci), va creşte probabilitatea apariţiei de concluzii
pertinente.
Exemplu. Pentru programele OCR, acest lucru înseamnă în mod
concret: dacă două caracteristici ale literei a sunt prea puţin evidente şi alte trei
sunt clar prezente şi din verificarea sintaxei reiese că din combinaţiile cu un d
premergător şi un r ulterior se poate forma un cuvânt, atunci expertul va hotărî că
este vorba despre a.
Rezultatele operaţiilor if/then sunt predate mai întâi variabilelor
corespunzătoare, şi în final, „de-fuzzy-ficate”: valoarea exactă este, în cele din
urmă, a.
Experţii logicii fuzzy din programele OCR se descurcă şi cu rezultatele
verificărilor care vin în contradicţie cu regulile aplicate. În schimb, un sistem
bazat în exclusivitate pe reguli se împiedică clar de prima regulă încălcată,
lăsând decizia în seama utilizatorului. Expertul fuzzy preîntâmpină aceste
situaţii, asigurând accelerarea şi precizia recunoaşterii de text.
Nu în ultimul rând, PC-ul necesită un minimum de memorie RAM şi un
scaner cu rezoluţie minimă de 300 dpi pentru a ajuta programul de recunoaştere
a textului.
173
Echipamente multimedia

8.5. RECUNOAŞTEREA CU REŢELE NEURALE


Dacă se scanează documente şi se obţine dintr-o imagine un
document ASCII, se foloseşte o simulare de reţea neurală, cunoscută sub
numele de reţea cu retropropagare (Backpropagation Network).
Algoritmul din spatele reţelelor cu retropropagare a fost descoperit
independent de câteva grupuri de cercetare, în anii 1985-86. Neuronii din
aceste reţele sunt inspiraţi din cei biologici, care sunt, desigur, cu mult mai
complecşi. Conexiunea generică dintre neuroni utilizată în cele mai multe tipuri
de reţele este extrem de simplă.
O reţea cu retropropagare este alcătuită, de obicei, din cel mult 3
straturi de neuroni:
• stratul de intrare;
• stratul ascuns;
• stratul de ieşire.
Algoritmul cu retropropagare funcţionează prin ceea ce se numeşte
antrenare supervizată. În primul rând, el primeşte o intrare pentru a o trece prin
reţea. Ieşirea este comparată cu ieşirea dorită, care este specificată de cel care
supervizează operaţia (de exemplu, computerul care rulează simularea), astfel
fiind calculată eroarea pentru toţi neuronii din stratul de ieşire. Ideea
fundamentală din spatele retropropagării este că eroarea este propagată către
straturile de început şi, deci, poate fi folosit un algoritm cu gradient
descrescător. Acest lucru presupune că reţeaua poate merge şi înapoi,
însemnând că, pentru oricare doi neuroni conectaţi, „intrările spate” trebuie să
fie aceleaşi cu „intrările faţă”, lucru care nu este adevărat pentru neuronii reali.
Aşadar, reţeaua cu retropropagare este nebiologică. Totuşi, această reţea este
populară, deoarece atunci când este aplicată în probleme reale dă rezultate bune.

Fig. 8.3. Relaţia intrare-ieşire pentru reţeaua neurală.

Intrările reţelei ajung de la alţi neuroni sau din mediul înconjurător (vezi
figura 8.3). Neuronii multiplică fiecare intrare primită cu o pondere specifică
acelei intrări. Acest lucru se bazează pe faptul că, în realitate, neuronii biologici
174
Tehnologia OCR

sunt conectaţi prin sinapse, care variază în grosime. Fiecare neuron are legături
cu mii de alţi neuroni, dar „este mai atent” către unii decât către alţii. Neuronii
adaugă toate ponderile luate împreună în produsul final, care apoi este trimis
printr-o funcţie de transfer către ieşire, rezultatul fiind chiar neuronul de ieşire.

Fig. 8.4. Arhitectura reţelei cu retropropagare.

Reţeaua cu retropropagare foloseşte două sau trei straturi de neuroni,


toţi neuronii comportându-se aşa cum se observă în figura 8.4. Fiecare neuron
primeşte intrări de la neuronii din stratul precedent şi apoi trimite ieşirea tuturor
neuronilor din stratul de jos.
Reţeaua cu retropropagare foloseşte trei paşi distincţi în recunoaştere:
• se transformă datele binare într-o formă mai potrivită;
• se ia rezultatul de la primul pas şi se antrenează reţeaua cu
retropropagare, lăsând la ieşire toate rezultatele acesteia;
• se ia ieşirea de la cel de-al doilea pas şi se creează o reţea; se
rulează un set întreg de caractere prin reţea şi se trimit către ieşire
toate identificările obţinute pentru caracterele din setul respectiv.

8.6. ICR (INTELLIGENT CHARACTER RECOGNITION)


Performanţele sistemului de recunoaştere pot fi îmbunătăţite prin
incorporarea de informaţii statistice la nivelul succesiunii cuvintelor.
Îmbunătăţirea performantei derivă din considerarea cuvintelor de rang inferior
din şirul cuvintelor recunoscute, contextul indicând cuvintele care ar face
întreaga propoziţie mai probabilă. Pentru a modifica învecinările faţă de
cuvintele generate de sistemul de recunoaştere a cuvintelor, se pot folosi tehnici
lexicale, cum este analiza colocaţională.
175
Echipamente multimedia

Modificările includ rearanjarea, ştergerea sau propunerea altor cuvinte.


Analiza colocaţională foloseşte cuvinte care apar frecvent într-o limbă. Intuitiv,
se poate spune că dacă un anumit cuvânt este prezent, atunci există o
probabilitate mare să fie, de asemenea, prezent şi alt cuvânt anume.

Fig. 8.5. Exemplu de recunoaştere a unei fraze scrise de mână.

În figura 8.5 este ilustrat un exemplu de frază scrisă de mână în limba


engleză, împreună cu variantele posibile produse de sistemul de recunoaştere,
precum şi căile corecte determinate gramatical pentru a reface propoziţia.
Un sistem ICR poate folosi o bază de date care conţine cuvinte şi propoziţii
scrise cursiv de mână sau tipărite. O astfel de bază de date a fost realizată de
firma Cedar. Ea conţine 105.573 cuvinte scrise de mână şi tipărite. Scrisurile
aparţin unui număr de aproximativ 200 de persoane diferite. Faptul că această
bază de date conţine linii de text, şi nu doar cuvinte individuale, este important,
deoarece astfel poate fi folosită pentru recunoaşterea cuvintelor în context.
Cedar a cercetat o mulţime de algoritmi de tip ICR de-a lungul anilor.
Aceşti algoritmi sunt folosiţi în câteva proiecte implicând recunoaşterea de
caractere din scrisul de mână.

8.6.1. Algoritmul codului în lanţ (chaincode)


Un extractor de tip statistic şi fizionomie bazată pe contur a fost
dezvoltat pentru recunoaşterea de cifre. Fizionomiile sunt calculate de la
reprezentarea unui cod în lanţ al imaginii (de unde denumirea de chaincode) şi
sunt folosite ca intrare într-un clasificator de reţea de neurală. Imaginea trebuie
să fie binarizată înainte de a genera codul în lanţ. Apoi, conturul este netezit, prin
extragerea mediei locale a fiecărei diferenţe de nivel a pixelilor. Curbarea este, de
asemenea, calculată în fiecare limită de pixel şi cuantificată în una din cinci valori.
Se foloseşte o reţea de 4×4 pentru a împărţi imaginea în 16 regiuni
egale. Se determină numărul pixelilor de frontieră din fiecare regiune cu
înclinaţie şi curbare particulare. Din cauză că există opt valori pentru pantă şi
cinci valori pentru curbare, apar 40 de posibile categorii de pixel.
176
Tehnologia OCR

În cele din urmă, această contorizare a categoriilor de pixeli este


transformată în procentaje ale pixelilor totali pe regiune. Rezultatul este de 640
de fizionomii (40 pe subregiune), care descriu schiţa de curbare a imaginii şi
care constituie vector de intrare pentru un clasificator de reţea neurală (vezi
figura 8.6). Clasificatorul este o reţea cu două straturi de propagare, cu 640
nodurile de intrare, 100 noduri în stratul ascuns şi 10 noduri în stratul de ieşire.

Fig. 8.6. Ilustrarea algoritmul chaincode pentru recunoaşterea cifrei 0.


177
Echipamente multimedia

O altă versiune a algoritmului foloseşte aceeaşi rutină de extracţie a


fizionomiei. Însă, în locul unui tabel complet 8×5 pentru a acumula toate posibilele
categorii de pixeli, curbele sunt tabelate în două matrice separate de lungime 8 şi,
respectiv, 5. Aceste 208 fizionomii (13×4×4 = categorii×pante×curbări), împreună
cu 84 de fizionomii de tranziţie şi alte 4 fizionomii de cavitate, constituie un set
de 296 posibilităţi de fizionomii. Fizionomiile de tranziţie codifică complet toate
tranziţiile posibile între fizionomii adiacente, urmărind conturul codului în lanţ.
Trei fizionomii de cavitate codifică proporţia mărimii cavităţii la graniţele
caracterului centrat în partea superioară sau în partea inferioară a imaginii.
Numărul cavităţilor este înregistrat în ultima caracteristică. Acest set de
caracteristici a avut performanţe la fel de bune cu cele 640 caracteristici pentru
recunoaşterea cifrei şi a înlocuit cele 640 de trăsături în aproape toate cazurile.

8.6.2. Algoritmul gradientului


Caracteristicile bazate pe gradient capturează indirect conturul unei
imagini a caracterului. Imaginea caracterului este preprocesată mai întâi prin
normalizare la o dimensiune fixă de 32×32. Apoi este folosită o netezire
puternică. Imaginea este apoi folosită la extragerea caracteristicilor de gradient.
Gradientul fiecărui pixel este definit prin orientare şi magnitudine (vezi figura 8.7):

orientarea: d = arctg(dy/dx)
(8.1)
magnitudinea: m = (dx2 + dy2)½,

unde dx şi dy sunt elementele diferenţiale calculate de operatorul Sobel pe


direcţia orizontală şi verticală. Acestor gradienţi li se aplică praguri, pentru a
elimina micile fluctuaţii produse de zgomot. Gradienţii rămaşi sunt codificaţi într-un
vector de lungime fixă, prin partiţionarea imaginii în 4×4 subregiuni. Acest
proces generează un vector binar cu dimensiunea de 192. Vectorii de trăsături
sunt apoi introduşi în clasificatorul de reţea de neurală. Arhitectura de reţea
folosită este 192 (stratul de intrare) – 110 (stratul ascuns) – 10 (stratul de ieşire).

Fig. 8.7. Ilustrarea algoritmul gradientului pentru recunoaşterea cifrei 0.


178
Tehnologia OCR

8.6.3. Algoritmul gradientului rapid (FSGD)


FSGD, acronim pentru gradientul rapid (FaSt GraDient), este o variaţie
a algoritmului chaincode. Pentru a eticheta fiecare muchie de pixel, se foloseşte
o convoluţie de 3×3. Aceasta corespunde trăsăturilor algoritmului chaincode, cu
excepţia faptului că nu se calculează nicio curbă. Instrucţiunile sunt apoi pliate
în 4 direcţii pentru a reduce dimensiunea caracteristicii. Imaginea este împărţită
în 4×4 regiuni. Se calculează o histogramă de tip chaincode în patru direcţii
pentru fiecare regiune, rezultând un vector de caracteristici cu dimensiunea de
4×4×4 = 64.
Unele versiuni ale acestui algoritm folosesc partiţii de 3×3, pentru a
reduce dimensiunea caracteristicilor la 36. Aceste caracteristici sunt folosite cu
un clasificator de reţea neurală. Această metodă este asemănătoare celei a
algoritmului gradient în tipul său de convoluţii pentru calculul gradientului, însă
aici se calculează codurile de lanţ direcţionale, spre deosebire de gradienţii
actuali existenţi. Scopul acestei metode este de a realiza o recunoaştere
performantă la viteze mari. Posibilitatea de calcul rapid, combinată cu o reţea de
clasificare mică, permit obţinerea unui rezultat de peste 200 caractere pe
secundă pe o staţie de lucru cu acurateţe rezonabilă. Această algoritm este
folosit, în special, în sistemele de timp real, cum sunt, de exemplu, sistemele
NABR (Name and Address Block Reader) şi RCP (Reply Card Processing).

8.6.4. Algoritmul histogramei


Acest algoritm de recunoaştere foloseşte un clasificator de reţea
neurală cu un set simplu de caracteristici eficiente, bazate pe histograme.
Metoda de extragere a caracteristicii necesită numai o singură trecere prin
imaginea nenormalizată a caracterului, permiţând astfel calculul rapid al
trăsăturii. Acest algoritm poate fi aplicat numai pentru caractere binare.
Sunt extrase opt tipuri de trăsături:
• profiluri de proiecţie orizontale şi verticale;
• histograme de cavităţi şi contururi de caracter din stânga, dreapta,
sus şi jos.
Histogramele de cavităţi sunt definite ca fiind numărul pixelilor albi
înconjuraţi pixeli negri la ambele sfârşituri de rânduri sau de coloane. Cele patru
trăsături orizontale sunt după aceea normalizate la un vector de lungime 10, iar
cele patru trăsături verticale, la un vector de lungime 8, rezultând un vector de
dimensiune 72.
179
Echipamente multimedia

8.7. ETAPELE UNUI PROCES OCR


1. Identificarea textului şi a zonelor de imagine din imaginea scanată
În imaginile complexe, care conţin imagini şi tabele, de obicei, se
delimitează pe rând zonele care vor fi interpretate.
2. Recunoaşterea caracterelor
Cele mai folosite metode sunt extragerea caracteristicii (feature
extraction) şi potrivirea de model (pattern matching).
3. Recunoaşterea şi identificarea cuvintelor
Şirurile de caractere rezultate sunt împărţite în cuvinte şi sunt apoi
comparate cu înregistrările din dicţionarul stocat de softul respectiv. Această
metodă se numeşte corecţie ortografică.
4. Corectarea
Nu toate cuvintele sunt identificate cu o acurateţe de 100%. Cuvintele
care nu au fost identificate şi nici nu au fost găsite în dicţionar sunt scoase în
evidenţă.
5. Formatarea textului
Textul recunoscut este convertit într-un fişier de tip ASCII, RTF, Word,
PDF sau într-un alt format.
Etapele unui proces OCR sunt prezentate în figura 8.8.

Fig. 8.8. Etapele unui proces OCR.

În tabelul 8.1, sunt prezentate comparativ caracteristicile unei imagini


bitmap şi cele ale unui text OCR, pentru a evidenţa avantajele oferite de
recunoaşterea de caractere, precum şi superioritatea formatelor în care se
salvează un text care a fost supus unei metode OCR.
180
Tehnologia OCR

Tabelul 8.1. Comparaţie între caracteristicile unei imagini bmp şi textul OCR

caracteristică imagine BMP text OCR

dimensiunea cca. 5% din dimensiunea


mare
fişierului bmp-ului
pierdut, dacă se transformă în
formatul original se păstrează caractere ASCII; se poate
păstra pentru alte formate
editarea şi
nu sunt posibile sunt posibile
formatarea
căutarea şi
nu sunt posibile sunt posibile
indexarea
Asigură o copie a originalului. Datorită Nu constituie o reprezentare
acurateţea de faptului că poate fi prelucrată cu un exactă a originalului, iar prin
reproducere editor de imagini, se poate obţine o prelucrare pot fi afectate
reprezentare mai fidelă a originalului. textul şi acurateţea formatului.

8.8. ACURATEŢEA METODELOR OCR


O acurateţe de peste 98% este, de obicei, considerată mai mult decât
suficientă pentru conversia documentelor. Rata de acurateţe este determinată
de numărul modificărilor necesare (inserări, ştergeri, substituţii etc.), exprimată
în procente faţă de numărul caracterelor din imagine. Acurateţea este
influenţată de mai mulţi factori.
1. Parametrii hardware şi software
Aceştia se referă la calitatea scanerului folosit, metoda şi algoritmii de
recunoaştere, tipul fontului şi complexitatea dicţionarului.
2. Rezoluţia la scanare
Numărul de puncte pe inci (dpi) afectează claritatea imaginii şi, deci,
acurateţea OCR. Teste recente au dovedit că reducerea de la 300 dpi la 200
dpi a rezoluţiei măreşte rata de eroare a recunoaşterii unui document complex
cu 75%. Pe de altă parte, tot pentru un document complex, mărirea de la 300
dpi la 400 dpi a rezoluţiei are un impact neglijabil asupra acurateţei.
3. Calitatea hârtiei
Caracterele întrerupte datorită degradării hârtiei sau umplute cu prea
multă cerneală pot să nu fie recunoscute. Petele hârtiei vor fi capturate de
scaner, iar softul OCR poate încerca să le interpreteze ca fiind caractere.
181
Echipamente multimedia

4. Formatări diferite ale fontului


Variaţii ale fontului (normal, bold, italic) pot fi pierdute sau pot crea
caractere care nu pot fi recunoscute. Caracterele nu prea des folosite, cum ar fi
simbolurile matematice, indicii superiori sau inferiori, pot să nu fie recunoscute.
De asemenea, scrisul de mână nu este recunoscut de toate aplicaţiile OCR
standard. Tabelele, alinierea textului, notele de subsol, textul care înconjoară
imaginile şi notele de pe margine pun probleme softului OCR în recunoaşterea
integrală a paginii. Acest lucru se poate evita dacă imaginea respectivă este
împărţită în zone.
5. Probleme lingvistice
Apar probleme în recunoaşterea textului dacă sunt încărcate mai multe
dicţionare. Setul de caractere al unei anumite limbi poate să nu fie suportat.
Tendinţa actuală în domeniul OCR este de creştere a ratei de
recunoaştere şi, în acelaşi timp, de scădere a preţului pentru produsele software
OCR. Este important ca alegerea unui produs software OCR să se facă în
funcţie de sarcina specifică de rezolvat.
Pe de altă parte, efectul acestor factori care fac procesul OCR dificil
poate fi redus prin construirea unui sistem adecvat. De exemplu, folosirea
dicţionarelor potrivite pentru limba respectivă, a setărilor corecte pentru
luminozitate, a unei rezoluţii potrivite etc. De asemenea, imaginile originale
după care se face recunoaşterea trebuie să fie de o calitate bună. Teste
realizate recent au demonstrat că recunoaşterea textului poate fi făcută la
costuri reduse pentru limbile engleză, franceză sau chiar pe documente bilingve
şi texte pe coloane, pentru o varietate mare de fonturi şi pe hârtie de o calitate
mai slabă. Totuşi, dacă apar astfel de elemente, problema trebuie tratată cu mai
multă atenţie, pentru a asigura că sistemul OCR este bine ales şi eficient din
punct de vedere al costului pentru digitizare.
Posibilitatea construirii unui algoritm hibrid eficient este luată serios în
considerare şi este posibil ca acesta să fie viitorul tehnologiei OCR.

182

S-ar putea să vă placă și