Sunteți pe pagina 1din 23

— Extragerea OCR —

Versiune tutorial::

— 1 —
— Minitutoriale e-book —

Cuprinsul:

Cuvânt înainte

§1. Generalităţi, precizări şi justificări


De ce split?
De ce RTF şi nu DOC?
De ce Plain text?
Alte setări importante ale programului Abbyy.

§2. Pregătirea Abbyy pentru extragerea OCR


2.1. Stabilirea modelului de recunoaştere a caracterelor
2.2. Antrenamentul Abbyy cu caracteristicile fontului
2.3. Acomodarea şi antrenamentul în recunoaşterea unui grup de litere
2.4. Acomodarea şi antrenamentul în recunoaşterea forţată a unor
caractere
2.5. Cât timp se face acomodarea şi antrenamentul în recunoaşterea
caracterelor?

§3. Extragerea OCR

§4. Salvarea OCR


Format document = „rtf”.
Tipul textului = „Plain text” sau „Formatted text”.
Salvarea propriu-zisă

— 2—
— Extragerea OCR —

Cuvânt înainte

Scopul principal al acestui ghid e ca cititorul să plece la drum cu un


pachet de informaţii şi să nu mai fie nevoit să cerceteze toate lucrurile de la
zero.
Prezentul ghid nu e un ghid obligatoriu pentru nimeni şi nu se
consideră, nicidecum, ca fiind unul foarte bun.
Eu însumi sunt într-o continuă îmbunătăţire a metodelor de lucru; unele
îmbunătăţiri decurg din experienţă şi studiu, altele sunt inspirate din
metodele pe care le folosesc alte persoane de pe forum sau de aiurea.
Am adunat aici câteva puncte de vedere, rezultate dintr-o anume
experienţă a unei persoane care a parcurs toate etapele realizării unei cărţi
electronice, de la scanare până la corectura pentru versiuni superioare.
Totdeauna este loc pentru mai bine şi acest lucru îl poate face oricine
este interesat.

Caracteristici ale metodei:


— metoda se adresează numai acelor persoane care lucrează şi
corectează pe computer (nu şi celor ce corectează pe e-Reader). Unele
dintre etapele de precorectare pentru corectura pe e-Reader nu vor fi
regăsite aici, deoarece ele sunt mai uşor de corectat decât de precorectat;
voi puncta acest lucru la momentul potrivit.
— metoda se aplică doar la cărţi cu text cu formatare minimă. Ea se
aplică cel mai bine cărţilor de beletristică clasică, fără pretenţii tipografice
deosebite, în sensul că vom avea doar font normal regular şi, uneori, italic
la aceeaşi mărime.
— metoda se referă la cărţi cu oarecare vechime, caz în care OCR are
probleme de recunoaştere corectă a caracterelor, fapt pentru care vom
insista mult pe lucrul cu programul AutoCorect.
— metoda este foarte eficientă, pentru digitalizarea unei serii de mai
multe volume care au aceleaşi caracteristici de tipar: acelaşi font, aceeaşi
mărime de pagină, aceeaşi tipografie. Deoarece mai multe volume din
aceeaşi serie păstrează caracteristicile de font şi calitate a tiparului,
activităţile pregătitoare pentru recunoaşterea în Abbyy, precum şi
dicţionarele din AutoCorect vor fi valabile pentru toate aceste volume.
— ghidul este conceput în ordinea etapelor şi fazelor de execuţie.

— 3 —
— Minitutoriale e-book —

§1. Generalităţi, precizări şi justificări

Extragerea OCR în Abbyy trebuie să se facă din imagini cu paginile


splituite, iar salvarea se face în format RTF – Plain text sau RTF – Formatted
text.

De ce split?
Splituirea înseamnă separarea imaginii cu dublă pagină în două imagini
a câte o pagină fiecare.
Splituirea imaginilor se face din două motive:
— pentru prevenirea rocadei paginilor. Abbyy citeşte pe suprafeţe de
text; el analizează imaginea şi stabileşte că sunt 4-5-6... suprafeţe de text,
câte una pentru fiecare corp de text de pagină şi câte una pentru fiecare
header, respectiv footer. Dacă mai apare şi un cap-capitol, atunci măreşte
numărul de suprafeţe. Fiecare dintre aceste suprafeţe poartă un număr
stabilit de Abbyy, care determină ordinea citirii şi respectiv recunoaşterii
textului.
Care e problema? Sunt situaţii în care numerotarea ordinii acestor
suprafeţe nu este cea corectă, astfel că mai întâi citeşte pagina din dreapta
şi apoi pe cea din stânga, făcând rocadă între ele, dar poate lua titlul de la
prima pagină, apoi textul de la a doua... adică iese o adevărată
încurcătură... Pentru prevenirea acestui lucru, se recomandă splituirea
paginilor. Nu recomand splituirea automată realizată de Abbyy, decât după
o oarecare experienţă. Este de preferat splituirea manuală.
Vezi problemele privind splituirea automată de la punctul §3.b.
— un alt motiv, de ordin estetic; dacă ne propunem să realizăm un pdf-
img (pdf din imagini), atunci pdf-ul realizat din imaginile cu paginile
splituite şi cropuite arată mult mai elegant şi este mult mai practic la
corectarea de fond când pe ecran apar în acelaşi timp două ferestre: în una
pdf-img şi în cea de-a doua documentul word de corectat.

De ce RTF şi nu DOC?
Deoarece, după extragerea OCR, acesta va fi rulat prin câteva dicţionare
de tip AutoCorect, iar acest program – AutoCorect – prelucrează doar rtf; nu
poate prelucra document word. Pentru a preveni salvarea în word, apoi
convertirea în rtf, se recomandă salvarea direct în format rtf.

De ce Plain text?
Abbyy are posibilitatea să salveze rtf-ul în 4 variante; dacă se alege una
dintre primele trei: Exact copy, Editable copy sau Formatted text, atunci va
crea un număr mare de stiluri care vor face mai dificilă formatarea
ulterioară a textului. Se alege una dintre variante, numai la cărţile de

— 4—
— Extragerea OCR —

specialitate la care apare necesitatea stringentă de a păstra stilurile.


În cazul cărţilor de beletristică, cărţile având doar text normal şi,
eventual, text italic şi mai rar bold, cea mai indicată variantă este Plain text.
În formatul RTF – Plain text nu se păstrează decât stilul de bază, stilul
normal, dar se pierd toate celelalte formate.

Figura nr. 01

Alte setări importante ale programului Abbyy.


Din meniul Abbyy se aleg opţiunile: Tools  Options  3.Save.

Figura nr. 02

Luând opţiunile de sus în jos, avem:


 Retain layout = Plain text
 Default paper size (format pagină) = A4 sau Automatic.

— 5 —
— Minitutoriale e-book —

 Text setings – aici e nevoie de câteva explicaţii. Mai înainte de a


analiza fiecare opţiune să amintim că, de regulă, prima corectură, numită şi
de fond sau de conţinut se face verificând textul de corectat cu textul
original (cartea pe hârtie sau pdf din imagini). Pentru a ne orienta mai uşor
în text, este necesar ca OCR să fie salvat cu numere de pagină, eventual
număr de pagină şi un rând gol. Pe măsura executării corecturii se şterge
numărul de pagină şi rândul lăsat gol.

 Keep headers and footers (Arată headere şi footere) – se


recomandă să fie bifată. Există următoarele situaţii: când nu există header,
deci în partea de sus a paginii nu este tipărit numele autorului şi/sau titlul.
În acest caz Abbyy va citi doar numărul paginii (vor fi situaţii când nu va
citi sau nu va citi corect numărul de pagină, dar majoritatea vor fi citite). În
a doua situaţia numărul de pagină este însoţit de titlul cărţii şi/sau numele
autorului. Se va activa şi în acest caz opţiunea, urmând ca mai târziu să se
şteargă semiautomat titlul şi numele autorului.

 Keep page break – această opţiune va executa trecerea forţată la


pagina următoare, astfel încât fiecare pagină a cărţii va ocupa o pagină de
text OCR.
E de preferat ca opţiunea să fie activă. Mai târziu trecerea la pagina
următoare (page break) va fi înlocuită cu un rând gol; în acest caz textul va
avea continuitate, dar va avea câte un rând gol între pagini. În fig. 03 se
arată cum arată o pagină OCR la care a fost activă opţiunea „Keep page
break”, iar în fig. 04, se arată cum apare o pagină de OCR, după înlocuirea
„Page break” cu un rând gol.

Figura nr. 03

— 6—
— Extragerea OCR —

Figura nr. 04

 Keep line break – această opţiunea va forţa trecerea la rândul


următor în cadrul tuturor liniilor, ca atunci când se aplică Enter. Activarea
opţiunii va face deosebit de dificilă corectarea textului, cel ce execută prima
corectură fiind nevoit să anuleze la fiecare rând trecerea forţată, în cadrul
aceluiaşi paragraf).
Exemplu de OCR la care s-a activat opţiunea „Keep line break” este cel
din fig. 05. Această opţiune nu se activează.
Se poate activa această opţiune, numai pentru un număr limitat de
pagini, atunci când calitatea imaginii şi deci, şi a textului OCR, în paginile
respective, este foarte slabă; dacă textul OCR necesită completare de text pe
fiecare rând (de regulă un capăt al rândului sau la ambele), e mai uşor de
corectat un text cu această opţiune activă, decât un text care are textul
continuu.

 Keep text color va arăta culoarea originală a fontului, ceea ce nu e


cazul la cărţile de beletristică. Va rămâne neactivată.

— 7 —
— Minitutoriale e-book —

Figura nr. 05

 În fereastra Tools  Options  Viev / Text window există opţiunea


„Highlight uncertain character and non-dictionary words”
Dacă se activează această opţiune, Abbyy va colora fundalul bucăţilor de
text, pe care el le consideră greşite, inexacte etc. Exemplu de text cu această
opţiune activată, în figura 06.
Nu e cazul să fie activată această opţiune, deoarece dicţionarele
editoarelor Word şi AutoCorect sunt mult mai puternice decât ceea ce poate
marca Abbyy.

Figura nr. 06

— 8—
— Extragerea OCR —

Am afirmat la început că, extragerea OCR în Abbyy trebuie să se facă din


pagini splituite în format RTF – Plain text.
Am justificat de ce split şi am motivat fiecare opţiune „Keep” de la Text
setings.
În concluzie salvăm OCR-ul în format RTF – Plain text, toate paginile într-
un singur fişier.
Salvarea fiecărei pagini în câte un fişier separat va face destul de dificilă
montarea textului cărţii.

§2. Pregătirea Abbyy pentru extragerea OCR

Sunt două variante de încărcare în Abbyy.


— prin scanarea direct de sub Abbyy;
— încărcarea în Abbyy a imaginilor de tip jpg, (gif, tif, png), realizate cu
un alt program.
Vom discuta în mod detaliat despre cea de-a doua variantă, în care
imaginile au fost realizate cu un alt program sau chiar de o altă persoană.
Dacă nu ne interesează realizarea pdf-img, ci doar extragerea OCR,
atunci vom seta programul Abbyy să execute split la încărcare, procedând
astfel: din meniul Abbyy se aleg opţiunile:
Tools  Options  1.Scan/Open  Image processing  Split dual pages.
Această opţiune se activează.
Atenţie! Dacă dorim să realizăm şi un pdf-img de calitate, este de
preferat ca această opţiune să fie inactivă, urmând ca splituirea paginilor să
se facă manual după încărcarea imaginilor.

Menţionez că în cazul unui text foarte clar, tipărit la o calitate bună sau
foarte bună, în care literele nu sunt lipite una de alta şi recunoaşterea
caracterelor se poate face uşor, nu este nevoie de crearea unui model nou şi
nici de acomodare şi antrenament, programul Abbyy reuşind să facă un OCR
de calitate fără nici un fel de setare în plus, ci bazându-se pe modelul implicit
„Default”.
Explicaţiile următoare sunt valabile în cazul extragerii OCR din imagini
care au probleme de calitate, determinate de calitatea proastă a hârtiei pe
care e tipărită cartea, carte veche, cerneală ştearsă, culoare neuniformă a
tiparului, fonturi care permit confuzii, litere tipărite foarte apropiat unele de
altele, scanare, copiere sau fotografiere cu defecte nereparabile de contrast a
imaginii, scanare cu carte insuficient deschisă... în concluzie, cărţi cu
dificultate în recunoaşterea caracterelor.

— 9 —
— Minitutoriale e-book —

2.1. Stabilirea modelului de recunoaştere a caracterelor

Dacă se urmăreşte doar realizarea OCR şi încărcăm imagini realizate cu


un alt program, atunci după încărcarea unui număr de 5-6 pagini,
procedăm la stabilirea modelului (pattern) şi acomodarea şi antrenamentul
Abbyy.
Programul Abbyy este prevăzut cu un model de recunoaştere a
caracterelor, denumit „Default”, care este activ.
În situaţia când facem OCR la o carte cu un font atipic, ori o carte cu un
grad relativ de uzură şi o anume degradare a tiparului e posibil ca modelul
„Default” să dea un număr mai mare sau mai mic de erori.
Pentru aceasta se face citirea de probă a câtorva pagini.
Dacă se constată că există un număr mare de erori de citire (de confuzie
a semnelor), atunci se procedează la crearea şi folosirea unui model
(pattern) particularizat, astfel:
Din meniul Abbyy se aleg opţiunile:
Tools  Options  2.Read  Training  Use user pattern.
Apare fereastra „Pattern editor”. Acţionăm butonul „New...” şi în noua
fereastră denumită „Create Pattern” stabilim un nume, de exemplu:
„Carte_veche” pentru modelul pe care dorim să-l realizăm, apoi acţionăm
butonul „OK”.
După crearea noului model (pattern), în fereastra „Pattern Editor” el
trebuie să fie marcat cu menţiunea (active).

Figura nr. 07

— 10 —
— Extragerea OCR —

Ieşirea din fereastră se face cu ajutorului butonului [Close], apoi din


fereastra „2. Read” prin acţionarea butonului [OK].
După crearea noului fişier, în folderul Abbyy va apărea fişierul
”Carte_veche.ptf”, acesta fiind un fişier care salvează setările modelului de
recunoaştere al caracterelor. Subliniez acest lucru, deoarece în cazul Abbyy
9, el se poate copia dintr-un document (folder) Abbyy şi duce într-un alt
document (folder) Abbyy.
În acest sens se poate folosi şi opţiunea Tools  Options  Advanced 
Save Options... Folosirea acestei opţiuni va salva toate setările făcute pentru
respectivul document Abbyy. Deschiderea (chemarea) acestor setări într-un
document nou se face cu opţiunea „Load Options...” din aceeaşi fereastră.

2.2. Antrenamentul Abbyy cu caracteristicile fontului


Pentru realizarea acomodării şi antrenamentului, în fereastra Tools 
Options  2.Read  Trening se activează opţiunea „Train user pattern”. Vor
apărea două ferestre, ca în fig.08, astfel: fereastra „Reading... %..”, aflată în
planul al doilea, în care se arată în ce procent s-a citit pagina respectivă şi
fereastra „Pattern Training” aflat în primul plan al imaginii, pe care o vom
analiza în detaliu.

Figura nr. 08

Observăm în partea de sus o fantă de mari dimensiuni în care apare


textul ce urmează a fi recunoscut şi cu ajutorul căruia se face acomodarea
şi antrenamentul modelului nou creat. De remarcat că în jurul literei „a”
există un chenar de culoare verde.
Sub această fantă apar două butoane: şi .

— 11 —
— Minitutoriale e-book —

Dacă în fanta care conţine textul, chenarul verde nu încadrează o literă


în totalitatea lui, atunci cu ajutorul butoanelor sau/şi se
măreşte/micşorează cadrul verde, astfel încât caracterul (litera) să fie
încadrat corect. Frecvent apare această situaţie la litera „m”; de foarte
multe ori Abbyy încadrează doar o primă parte din literă şi o recunoaşte în
mod eronat ca fiind „n”. Totdeauna se va folosi butonul pentru
încadrarea corectă a literei „m”
Mai jos, în aceeaşi fereastră apare fanta în care este trecută litera
recunoscută, litera „a”, scrisă cu culoarea albă pe fond albastru.
Confirmăm corectitudinea recunoaşterii literei, prin acţionarea
butonului aflat în imediata apropiere a acestei fante.
Dacă există situaţii în care Abbyy, face o încadrare corectă a literei cu
chenarul verde, dar în fanta a doua, se face o recunoaştere incorectă a
literei, de exemplu în loc de litera „â” el recunoaşte litera ”ă”, atunci în a
doua fantă, cea de lângă butonul „Train” se pune litera corectă prin
introducerea ei de la tastatură.
Varianta a treia, când Abbyy încadrează în prima fantă nişte caractere
false sau caractere incomplete care nu pot fi încadrate corect nici prin
acţionarea butoanelor sau/şi atunci se acţionează butonul
şi se trece mai departe fără ca acest „caracter” să fie înregistrat. În
imaginile din fig. 09 se prezintă două exemple de încadrare incorectă la
care nu se poate rezolva încadrarea folosind cele două butoane.

Figura nr. 09

De menţionat faptul că în partea stânga-jos a acestei ferestre există patru


opţiuni pentru stilul fontului (bold, italic, superscript şi subscript). Atunci
când caracterul de citit este tipărit italic (ca în figura 10) ori bold,
superscript sau subscript se marchează efectul italic, respectiv bold,
superscript sau subscript.

Atenţie!
La terminarea citirii cuvintelor scrise cu font cu efect special (italic sau
bold) şi trecerea la citirea literelor scrise cu font drept (regular) opţiunile
nu se dezactivează automat; aceste opţiuni trebuie să fie dezactivate
manual, altfel vor rămâne active.

— 12 —
— Extragerea OCR —

Figura nr. 10

2.3. Acomodarea şi antrenamentul în recunoaşterea unui grup de


litere
Abbyy recunoaşte nu numai caractere individuale, ci şi grupuri de
caractere. Această opţiune trebuie folosită cu atenţie, deoarece folosirea ei
în exces poate provoca erori, recunoscând în mod fals gruparea şi acolo
unde ea nu există. De exemplu, dacă vom înregistra grupul <in> e probabil
că şi grupul de litere <în> va fi recunoscut drept <in>.
Opţiunea se poate folosi pentru grupul <ce>, dat fiind faptul că în mod
frecvent Abbyy face confuzii între <c> şi <e>. Se va ţine cont că grupul <cc>
din cuvântul „accelerat” va avea o mare probabilitate de a fi citit <ce>.
Este indicat să se salveze grupuri de litere atunci când acestea au o
formă atipică, iar scrierea lor una lângă alta le apropie foarte tare, formând
în mod practic un nou semn. Un exemplu clar în acest sens este cel din
figura 11; se constată că partea de sus a literei <i> este lipită de linia
orizontală a literei <f> iar punctul lui <i> este lipit de partea de sus a lui <f>.
În acest caz, citirea separată este mai dificil de realizat decât citirea în grup.

Figura nr. 11

Se va evita grupări de litere care pot provoca confuzii, precum <r+n>


care poate fi confundat cu litera <m>.
Vom salva grupuri de litere, de regulă, atunci când Abbyy va „propune”
acest lucru prin faptul că va încadra în fereastra de citire în mod frecvent
un astfel de grup.
De asemenea putem propune şi salva astfel, grupuri care dau erori la
citire; sunt frecvente confuzii la litera <l> (L mic), literă care poate fi
— 13 —
— Minitutoriale e-book —

confundată cu cifra 1, semnul exclamării, litera <I> (i) etc.


În acest sens se pot salva grupuri de caractere în care una dintre litere
este <l> (L mic).
Ce anume grupuri este indicat a fi salvate şi care dintre ele tre-buiesc
evitate depinde de calitatea şi stilul tipăririi şi, de asemenea, de gradul de
experienţă al utilizatorului programului Abbyy.

2.4.Acomodarea şi antrenamentul în recunoaşterea forţată a unor


caractere
Abbyy poate fi păcălit şi forţat, în unele situaţii, să recunoască în mod
fals unele caractere, aşa după cum îl setăm noi. Aceste păcăleli trebuie să
aibă o anumită logică, altfel ele nu funcţionează şi Abbyy nu va accepta
ceea ce încercăm noi să-l facem să recunoască.
În imaginile din fig. 12–14 avem exemple în care Abbyy este nevoit să
recunoască alte litere decât cele scrise cu adevărat.
Să luăm ca exemplu o carte în limba română tradusă din limba franceză,
germană sau spaniolă, în care numele personajelor sunt scrise cu grafia
originală: numele vor care conţine litere existente în limba română dar
care sunt prevăzute cu diferite accente, precum: caractere <è>, <é>, <ó>,
<ñ> etc. Este de preferat ca limba de recunoaştere să fie limba română şi nu
combinaţia de limbi română + franceză + germană + spaniolă. Dacă am seta
mai multe limbi de recunoaştere e posibil ca Abbyy să dea foarte multe
erori, recunoscând astfel de caractere şi acolo unde nu este cazul, ca
urmare a existenţei unor defecte de tipar sau scanare.
În acest caz se setează ca limbă de recunoaştere doar limba română,
OCR va conţine numai litere existente în limba română şi după aceea se vor
face corecturile de rigoare, folosind funcţia Fiind & Replace ori un macro
sau, mult mai simplu, un dicţionar de înlocuiri multiple realizat în
AutoCorect.
Astfel, litere accentuate, ca de exemplu: <è>, <é>, <ó> sau <ñ> pot fi
setate ca fiind litere simple, fără accent <e>, <o> sau <n> (fig. 12).

Figura nr. 12

În ultima perioadă am experimentat realizarea OCR după o carte veche,


tipărită în urmă cu 130 de ani. Cartea are o grafie mult diferită de cea din
ziua de azi, fapt pentru care am încercat o serie de recunoaşteri „forţate”,

— 14 —
— Extragerea OCR —

aşa cum sunt cele arătate în continuare. Menţionez că Abbyy a acceptat,


relativ uşor aceste propuneri.

În limba română veche caracterul <é> înlocuia diftongul <ea>, iar


caracterul <ó> înlocuia diftongul <oa>. În textul luat ca exemplu am propus
lui Abbyy această acomodare şi programul a acceptat acest lucru, aşa cum
se vede în fig. 13

Figura nr. 13

În cazul prezentat în figura 14 stânga, ea a fost setată ca fiind litera <ţ>,


deoarece în acest text caracterul <ç> reprezenta litera <ţ>.
Caracterul <ç> poate fi propus/setat şi în alte variante.
În cărţile în care apar nume franţuzeşti cum ar fi François, se
obişnuieşte ca OCR să se facă sub forma Francois şi corectarea se face
ulterior prin Fiind & Replace. În aceste situaţii caracterul <ç> se propune ca
fiind litera <c>.
Caracterul <ç> poate fi propus/setat şi ca fiind una dintre literele
româneşti cu cedilla: <ş> sau <ţ>.
Tot în acest text, caracterul <d cu cedilla> reprezenta litera <z>, aşa cum
se vede în figura 14 dreapta.

Figura nr. 14

Pot fi propuse şi alte variante de recunoaştere, în funcţie de textul la


dispoziţie şi scopul pe care ni l-am propus.
Se va ţine seama ca între caracterul real şi caracterul propus să existe o
asemănare, o corespondenţă, o logică; în caz contrar, propunerea nu va fi
acceptată de către Abbyy.
— 15 —
— Minitutoriale e-book —

2.5. Cât timp se execută acomodarea şi antrenamentul în recunoaş–


terea caracterelor?
În situaţia în care textul din imaginile încărcate în Abbyy este de o bună
calitate şi se folosesc setărilor implicite din Abbyy, este necesară verificarea
cu atenţie a calităţii OCR la un număr de câteva (5–10) pagini, spre a
constata dacă este necesar sau nu acomodarea şi antrenamentul Abbyy.
Dacă apar erori, se poate face un mic antrenament pe modelul (pattern)
„Default”, fără a fi necesară crearea unui nou model (pattern).

În varianta în care se creează un nou model (pattern), cum ar fi în cazul


luat ca exemplu, „Carte_veche”, se face acomodarea cu caracteristicile
fontului şi antrenamentul Abbyy pentru un număr de 2–4 pagini sau mai
multe, în funcţie de rezultatele obţinute.
Cum aflăm cât trebuie să se facă antrenamentul?
Problema este uşor de rezolvat.
Pe timpul antrenamentului se urmăreşte corespondenţa dintre
propunerea de recunoaştere a caracterului pe care o face programul Abbyy
în fereastra şi caracterul real
ce trebuie recunoscut.
În momentul în care erorile nu mai apar sau sunt foarte puţine,
înseamnă că antrenamentul este suficient.
Ce înseamnă „erori foarte puţine”?
E vorba de erori acceptabile, provocate de puncte sau pete mici de
cerneală accidentale aflate în imagine în apropierea sau lipite de anumite
litere sau alte erori pentru care există o anume justificare.
Se va urmări şi modul de propunere de încadrare a caracterului de citit
în fanta din partea superioară a ferestrei „Pattern Trening”.

Cadrul de culoare verde trebuie să facă încadrarea corectă a literei „m”,


adică să o încadreze în totalitate şi nu parţial; acelaşi lucru este valabil şi
pentru alte litere. La fel de grav este când Abbyy încadrează grupuri de
caractere (litere) pe care noi nu le-am propus.
Nu este necesar să se facă antrenamentul până la eliminarea totală a
erorilor, deoarece acest lucru este aproape imposibil.
Experienţa câştigată în timp, ne va face să „simţim” când antrenamentul
este suficient.

De reţinut:
La prima vedere, virgula şi punctul nu par a fi o problemă la recunoaş–
terea de către Abbyy şi nu par să prezinte mare importanţă în calitatea
OCR-ului. Afirmaţia e complet falsă. Este foarte-foarte important să se facă
o recunoaştere cât mai bună a acestor semne de punctuaţie şi să se elimine
posibilitatea confuziei între ele. Din acest motiv, se va acorda o foarte mare
atenţie antrenamentului Abbyy în recunoaşterea virgulei şi a punctului.
— 16 —
— Extragerea OCR —

Toate aceste setări rezultate din acomodarea şi antrenamentul Abbyy în


recunoaşterea caracterelor, sub modelul (Pattern) numit „Carte_veche” vor
fi salvate într-un fişier, numit „Carte_veche.ptn”.
Fişierul „Carte_veche.ptn” salvează numai informaţii legate de modelul
(Pattern) „Carte_veche”.
Dacă dorim să salvăm şi opţiunile stabilite în Abbyy, se poate face acest
lucru accesând opţiunile: Tools  Options  Advanced.
În fereastra Advanced, se găseşte rândul de butoane de mai jos:

Se acţionează asupra butonului şi într-un folder pe care îl


stabilim în mod special salvăm setările într-un fişier care are extensia
<fbt>, Fişierul va putea purta numele „Carte_veche.fbt” sau
„Setare_Carte_veche.fbt” ori cum vom dori.

Figura nr. 15

Atunci când într-un alt document Abbyy vom dori să avem aceste setări,
din aceeaşi fereastră Advanced, acţionăm asupra butonului şi
vom deschide fişierul de tip <fbt>, „Carte_veche.fbt” sau cel pe care îl
dorim.

— 17 —
— Minitutoriale e-book —

§3. Extragerea OCR

Am arătat că sunt mai multe situaţii în care procedăm la extragerea


OCR:
— 3.a) când urmărim numai extragerea OCR şi încărcăm în Abbyy
imagini scanate şi salvate cu o altă aplicaţie; în acest caz activăm opţiunea
„Split dual pages”, pentru ca încărcarea în Abbyy să se facă în pagini gata
splituite.

Figura nr. 16

Se vor încărca un număr de maxim 10 imagini. Aceste pagini vor fi citite


automat la deschidere, Abbyy folosind setările implicite din modelul
(pattern) „Default”.
După deschiderea acestor pagini, se va proceda la stabilirea sau nu a
unui nou model (pattern) şi la executarea acomodării şi antrenamentului
corespunzător, aşa cum am arătat mai sus. După executarea
antrenamentului se va activa opţiunea „Use user pattern” din fereastra
Tools  Options  2.Read. Vom verifica în plus ca Modelul (pattern) activ
să fie cel stabilit şi la care s-a făcut antrenamentul. După aceasta se
procedează la încărcarea celorlalte imagini în Abbyy. Procedând astfel,
paginile vor fi citite, folosindu-se modelul particularizat.

— 18 —
— Extragerea OCR —

— 3.b) când urmărim extragerea OCR, cât şi executarea unui pdf din
imagini, prin încărcarea în Abbyy a imaginilor scanate şi salvate cu o altă
aplicaţie.
În acest caz este de preferat ca opţiunea „Split dual pages” din fig. 15 să
fie inactivă, deci să nu se realizeze splitul automat al paginilor, deoarece
splitul automat poate da erori de împărţire a imaginilor.

Atenţie!
Este important de subliniat faptul că Abbyy dă un număr de ordine a
imaginilor la încărcare, începând cu 0001.
Numărul de ordine al imaginilor splituite manual, se dă în continuare şi
nu în locul celor splituite.

Să presupunem că încărcăm pagini fără splituire automată şi că avem


un număr de 100 de imagini nesplituite încărcate; numerele de ordine al
imaginilor vor purta numărul de la 0001 la 0100; după splituirea celor 100
de imagini, vor rezulta un număr de 200 noi imagini, care vor purta
numărul de ordine 0101 la 0300.
Dacă facem încărcarea imaginilor având activată opţiunea split automat,
e posibil ca din motive tehnice (e cazul imaginilor în care una dintre pagini
este o pagină albă) una sau mai multe imagini să nu fie splituite automat;
va apărea situaţia în care între numerele de ordine ale imaginilor splituite,
să exista şi imagini nesplituite.
Să presupunem că vom încărca 200 de imagini, iar imaginea 51 este o
imagine cu pagină albă şi nu va fi splituită automat; în acest caz ea va purta
numărul 0101, deoarece primele 50 de pagini au fost numerotate cu 50 × 2,
deci 0100; imaginile următoare vor fi splituite în totalitate, având numerele
de ordine de la 0101 până la imaginea cu nr. 0339. După terminarea
încărcării, va trebui să facem manual splituirea imaginii 51 şi vom constata
că cele două pagini vor purta numărul de ordine 0340 şi 0341, ceea ce va
face ca cele două pagini să nu se mai afle la locul lor real, necesitând o serie
de intervenţii.

Când executăm extragerea OCR în situaţia prevăzută la §3.b, procedăm


astfel: încărcăm toate imaginile, realizăm splituirea şi cropuirea manuală a
imaginilor şi când toate prelucrările de ima–gine sunt gata, se procedează
la stabilirea sau nu a unui nou pattern (model) şi executarea sau nu a
acomodării şi antrenamentului.
Trebuie subliniat că după executarea splituirii şi cropului, Abbyy
consideră că imaginile sunt necitite şi le va citi din nou.

— 3.c) când urmărim extragerea OCR, fără executarea unui pdf din
imagini scanate direct din Abbyy, vom proceda similar cu situaţia de la
§3.a, urmărind pe parcursul scanării ca toate imaginile să fie splituite de
către Abbyy. În principiu, între momentul scanării şi al citirii imaginii de

— 19 —
— Minitutoriale e-book —

către Abbyy nu există o perioadă mare de timp, aceasta depinzând de


performanţa computerului. Dacă apare situaţia în care o pagină nu este
splituită, se vor şterge ultimile 2-3 pagini şi se reia scanarea de la imaginea
respectivă, chiar setând pentru imaginea cu probleme ca Abbyy să nu
execute splitul; vom proceda la splituire manuală, după care vom reveni la
setările iniţiale şi continuăm scanarea.

— 3.d) când urmărim extragerea OCR, cu executarea unui pdf din


imagini scanate direct din Abbyy, vom proceda ca la §3.b, ţinând cont de
cele subliniate la §3.c.

Indiferent de varianta în care ne aflăm, după ce s-a terminat


acomodarea şi antrenamentul în noul pattern (model) sau folosind modelul
implicit „Default”, după caz, vom trece la citirea întregului document,
astfel: din meniul de bază al Abbyy, alegem opţiunea:
Document  Read Document.
Va apărea o fereastră asemănătoare cu cea de mai jos (fig. 17).

Figura nr. 17

Durata de timp în care se face citirea documentului este una relativ mai
lungă şi depinde de performanţa computerului.
După terminarea citirii documentului, fereastra de mai sus va avea o
formă şi conţinut similar cu cea din imaginea din fig. 18.

Figura nr. 18

— 20 —
— Extragerea OCR —

În acest moment, întregul document Abbyy, deci toate imaginile


conţinute de Abbyy sunt citite în totalitate.
Înainte de salvarea textului, se pot face unele corecturi direct în Abbyy,
în fereastra aflată în partea din dreapta-sus a ferestrei
principale. Concomitent cu mişcarea cursorului în această fereastră, un alt
cursor se va deplasa în varianta imagine a paginii, aflată în partea de jos a
ferestrei principale a programului Abbyy, ceea ce face ca această corectură
să se facă relativ uşor şi cu compararea imaginii originale.

§4. Salvarea OCR


După terminarea acţiunii de citire a întregului document şi eventuala
realizare a unor corecturi direct în programul Abbyy, se va proceda la
salvarea documentului text rezultat, deci a ceea ce numim OCR.
Pentru aceasta, în fereastra „3.Text” aflată din partea dreaptă-sus a
imaginii principale a programului Abbyy (figura nr. 19) se vor executa
câteva setări, pe care le voi aminti în continuare.


Figura nr. 19

Format document = „rtf”.


Am menţionat că documentul va fi salvat în format rtf şi nu doc.
De ce în format rtf? Deoarece, imediat după salvare, documentul va fi
rulat prin WordPad şi AutoCorect, programe ce nu acceptă decât formatul
rtf, nu şi formatul doc.
Dacă în cazuri cu totul speciale, în care documentul rezultat va fi de o
dimensiune foarte mare, atunci se va recurge la convertiri repetate rtf-doc-
rtf, având ca scop micşorarea fişierului, dar în final, documentul va fi salvat
în format rtf.
De menţionat că, dacă în conţinutul cărţii există poze, gravuri, alte
imagini, acestea e de preferat să fie salvate separat, prelucrate dacă este
cazul, redimensionate la mărimea necesară şi reinserate în text după
terminarea corecturilor şi a formatării textului.

Tipul textului = „Plain text” sau „Formatted text”.


Este de preferat tipul de text „Plain text”.
În această variantă se realizează eliminarea stilurilor atribuite de către
Abbyy textului OCR.
Varianta aceasta se aplică în cazul cărţilor care au textul scris cu font

— 21 —
— Minitutoriale e-book —

drept (regular) şi doar unele cuvinte sau zone rare şi separate (exemplu –
scrisori ale personajelor, text documente citate etc.) scrise cu font înclinat
(italic).
În situaţii speciale se poate salva şi ca „Formatted text”, cu menţiunea că
după salvare, textul va fi rulat prin WordPad pentru eliminarea stilurilor.
În cazul setării ca „Formatted text”, apare şi posibilitatea stabilirii fontului.

Salvarea propriu-zisă
În figura 19, în partea stângă a ferestrei „3 Text” se află butonul „Save”,
buton evidenţiat şi separat în aceeaşi figură.
Se acţionează asupra butonului „Save” şi apare fereastra pentru salvare,
redată în fig. 20.

Figura nr. 20

În principiu, se salvează toate paginile într-un singur document, fapt


pentru care se activează opţiunea „All pages”, ca în fig. 20.
În situaţia când se reface OCR pentru un anumit număr de pagini, se
poate folosi opţiunea pentru salvarea paginii curente (se activează butonul
„Curent page”) sau salvarea mai multor pagini care au fost selectate (se
activează butonul „Selected page”).

Seven
– versiune 1.00 – 01.02.2011
– versiune 1.30 – 20.02.2011

— 22 —
— Extragerea OCR —

— 23 —

S-ar putea să vă placă și