Documente Academic
Documente Profesional
Documente Cultură
Versiune tutorial::
— 1 —
— Minitutoriale e-book —
Cuprinsul:
Cuvânt înainte
— 2—
— Extragerea OCR —
Cuvânt înainte
— 3 —
— Minitutoriale e-book —
De ce split?
Splituirea înseamnă separarea imaginii cu dublă pagină în două imagini
a câte o pagină fiecare.
Splituirea imaginilor se face din două motive:
— pentru prevenirea rocadei paginilor. Abbyy citeşte pe suprafeţe de
text; el analizează imaginea şi stabileşte că sunt 4-5-6... suprafeţe de text,
câte una pentru fiecare corp de text de pagină şi câte una pentru fiecare
header, respectiv footer. Dacă mai apare şi un cap-capitol, atunci măreşte
numărul de suprafeţe. Fiecare dintre aceste suprafeţe poartă un număr
stabilit de Abbyy, care determină ordinea citirii şi respectiv recunoaşterii
textului.
Care e problema? Sunt situaţii în care numerotarea ordinii acestor
suprafeţe nu este cea corectă, astfel că mai întâi citeşte pagina din dreapta
şi apoi pe cea din stânga, făcând rocadă între ele, dar poate lua titlul de la
prima pagină, apoi textul de la a doua... adică iese o adevărată
încurcătură... Pentru prevenirea acestui lucru, se recomandă splituirea
paginilor. Nu recomand splituirea automată realizată de Abbyy, decât după
o oarecare experienţă. Este de preferat splituirea manuală.
Vezi problemele privind splituirea automată de la punctul §3.b.
— un alt motiv, de ordin estetic; dacă ne propunem să realizăm un pdf-
img (pdf din imagini), atunci pdf-ul realizat din imaginile cu paginile
splituite şi cropuite arată mult mai elegant şi este mult mai practic la
corectarea de fond când pe ecran apar în acelaşi timp două ferestre: în una
pdf-img şi în cea de-a doua documentul word de corectat.
De ce RTF şi nu DOC?
Deoarece, după extragerea OCR, acesta va fi rulat prin câteva dicţionare
de tip AutoCorect, iar acest program – AutoCorect – prelucrează doar rtf; nu
poate prelucra document word. Pentru a preveni salvarea în word, apoi
convertirea în rtf, se recomandă salvarea direct în format rtf.
De ce Plain text?
Abbyy are posibilitatea să salveze rtf-ul în 4 variante; dacă se alege una
dintre primele trei: Exact copy, Editable copy sau Formatted text, atunci va
crea un număr mare de stiluri care vor face mai dificilă formatarea
ulterioară a textului. Se alege una dintre variante, numai la cărţile de
— 4—
— Extragerea OCR —
Figura nr. 01
Figura nr. 02
— 5 —
— Minitutoriale e-book —
Figura nr. 03
— 6—
— Extragerea OCR —
Figura nr. 04
— 7 —
— Minitutoriale e-book —
Figura nr. 05
Figura nr. 06
— 8—
— Extragerea OCR —
Menţionez că în cazul unui text foarte clar, tipărit la o calitate bună sau
foarte bună, în care literele nu sunt lipite una de alta şi recunoaşterea
caracterelor se poate face uşor, nu este nevoie de crearea unui model nou şi
nici de acomodare şi antrenament, programul Abbyy reuşind să facă un OCR
de calitate fără nici un fel de setare în plus, ci bazându-se pe modelul implicit
„Default”.
Explicaţiile următoare sunt valabile în cazul extragerii OCR din imagini
care au probleme de calitate, determinate de calitatea proastă a hârtiei pe
care e tipărită cartea, carte veche, cerneală ştearsă, culoare neuniformă a
tiparului, fonturi care permit confuzii, litere tipărite foarte apropiat unele de
altele, scanare, copiere sau fotografiere cu defecte nereparabile de contrast a
imaginii, scanare cu carte insuficient deschisă... în concluzie, cărţi cu
dificultate în recunoaşterea caracterelor.
— 9 —
— Minitutoriale e-book —
Figura nr. 07
— 10 —
— Extragerea OCR —
Figura nr. 08
— 11 —
— Minitutoriale e-book —
Figura nr. 09
Atenţie!
La terminarea citirii cuvintelor scrise cu font cu efect special (italic sau
bold) şi trecerea la citirea literelor scrise cu font drept (regular) opţiunile
nu se dezactivează automat; aceste opţiuni trebuie să fie dezactivate
manual, altfel vor rămâne active.
— 12 —
— Extragerea OCR —
Figura nr. 10
Figura nr. 11
Figura nr. 12
— 14 —
— Extragerea OCR —
Figura nr. 13
Figura nr. 14
De reţinut:
La prima vedere, virgula şi punctul nu par a fi o problemă la recunoaş–
terea de către Abbyy şi nu par să prezinte mare importanţă în calitatea
OCR-ului. Afirmaţia e complet falsă. Este foarte-foarte important să se facă
o recunoaştere cât mai bună a acestor semne de punctuaţie şi să se elimine
posibilitatea confuziei între ele. Din acest motiv, se va acorda o foarte mare
atenţie antrenamentului Abbyy în recunoaşterea virgulei şi a punctului.
— 16 —
— Extragerea OCR —
Figura nr. 15
Atunci când într-un alt document Abbyy vom dori să avem aceste setări,
din aceeaşi fereastră Advanced, acţionăm asupra butonului şi
vom deschide fişierul de tip <fbt>, „Carte_veche.fbt” sau cel pe care îl
dorim.
— 17 —
— Minitutoriale e-book —
Figura nr. 16
— 18 —
— Extragerea OCR —
— 3.b) când urmărim extragerea OCR, cât şi executarea unui pdf din
imagini, prin încărcarea în Abbyy a imaginilor scanate şi salvate cu o altă
aplicaţie.
În acest caz este de preferat ca opţiunea „Split dual pages” din fig. 15 să
fie inactivă, deci să nu se realizeze splitul automat al paginilor, deoarece
splitul automat poate da erori de împărţire a imaginilor.
Atenţie!
Este important de subliniat faptul că Abbyy dă un număr de ordine a
imaginilor la încărcare, începând cu 0001.
Numărul de ordine al imaginilor splituite manual, se dă în continuare şi
nu în locul celor splituite.
— 3.c) când urmărim extragerea OCR, fără executarea unui pdf din
imagini scanate direct din Abbyy, vom proceda similar cu situaţia de la
§3.a, urmărind pe parcursul scanării ca toate imaginile să fie splituite de
către Abbyy. În principiu, între momentul scanării şi al citirii imaginii de
— 19 —
— Minitutoriale e-book —
Figura nr. 17
Durata de timp în care se face citirea documentului este una relativ mai
lungă şi depinde de performanţa computerului.
După terminarea citirii documentului, fereastra de mai sus va avea o
formă şi conţinut similar cu cea din imaginea din fig. 18.
Figura nr. 18
— 20 —
— Extragerea OCR —
Figura nr. 19
— 21 —
— Minitutoriale e-book —
drept (regular) şi doar unele cuvinte sau zone rare şi separate (exemplu –
scrisori ale personajelor, text documente citate etc.) scrise cu font înclinat
(italic).
În situaţii speciale se poate salva şi ca „Formatted text”, cu menţiunea că
după salvare, textul va fi rulat prin WordPad pentru eliminarea stilurilor.
În cazul setării ca „Formatted text”, apare şi posibilitatea stabilirii fontului.
Salvarea propriu-zisă
În figura 19, în partea stângă a ferestrei „3 Text” se află butonul „Save”,
buton evidenţiat şi separat în aceeaşi figură.
Se acţionează asupra butonului „Save” şi apare fereastra pentru salvare,
redată în fig. 20.
Figura nr. 20
Seven
– versiune 1.00 – 01.02.2011
– versiune 1.30 – 20.02.2011
— 22 —
— Extragerea OCR —
— 23 —