! OCR de La A La Z (Simplificat) Dec 2011

TUTORIAL (simplificat) Pentru OCR de la A la Z
-------TOTAL COMMANDER.
-PDF PASSWORD REMOVER sau PDF UNLOCKER
-ADOBE ACROBAT 7, 8, 9, X10......... explicatiile sunt pt 9. Principiile sunt
valabile si pt celelalte versiuni de program
-PDF-XCHANGE VIEWER 4
-FOXIT PDF Editor v2.1.0 - Editeaza scrisul din paginile pdf searchable
-ACDSEE 7...sau alta varianta. Explicatiile sunt pt.7
-IRFAN VIEW, care poate prelucra BATCH (in grup), asemanator lui ACDSEE,
totusi ultimul e mai de finetze.
Uneori, la prelucrari de sute de pag, prelucrez in paralel cu ACDSEE si IRFAN,
etape diferite de ajustare imagine pentru doua carti diferite.
-ABBYY PDF TRANSFORMER 2 si 3
-ABBYY Finereader 9 si 10
Instalati-le pe toate, uneori puteti avea nevoie de una dintre optiunile unuia dintre
programe, pe care respectivul program le executa mai bine decat celelalte.
Specificatiile de mai jos sunt ACTUALIZATE pt dv, dupa o experimentare de 12
ani. Nu sunt chiar ultimul racnet, dar sunt de eficientza maxima pe computerul de 2-3
GHz.
Un program MAI NOU, Nu lucreaza intotdeauna mai bine DECAT versiunea
anterioara. Magarii astia care vor sa ne ia banii pe soft, schimba DOAR meniurile, solicita
UPGRADE de HARDWARE si escrocheaza bietul popor. Care se foloseste de crackuri,
desigur.
..........................
In primul rand eliminam eventuala parola din pdf cu
PDF PASSWORD REMOVER sau PDF UNLOCKER, - elimina automat
parolele de securitate din PDF, lasandu-va astfel sa extrageti ulterior, JPG din PDF.
Dupa eliminare parola
In cazul pdf SEARCHABLE, NU MAI FACETI extractie jpg, ci introduceti PDF
direct in:
- Abbyy PDF TRANSFORMER 3 care executa OCR rapid, de calitate, pt intregul
PDF. Setati limbile de recunoastere, conform documentului
Daca faceti zonarea manual, va ia mult timp.
Dar, programul ZONEAZA si RECUNOASTE AUTOMAT intreg documentul.
Abia dupa recunoastere, aveti posibilitatea sa verificati ZONAREA
DOCUMENTULUI, si sa corectati erorile de zonare.
Apoi, dupa rectificare, MAI FACETI INCA O DATA OCR...merge foarte repede.
Salvati ca doc.
- in cazul in care doriti sa faceti OCR numai pentru anumite pagini, sau pentru UN
NR. LIMITAT de pag. SI NU PENTRU INTREG PDF-ul, folositi abbyy pdf transformer
2,
sau extrageti in prealabil, acele pagini PDF - CU ADOBE ACROBAT 9 sau cu
TRACKER PDF X-CHANGE VIEWER - din documentul PDF si le faceti OCR cu
ORICARE din PDF-TRANSFORMER.
Comentariu
Faceti totusi proba si cu Abbyy finereader 9 sau 10, intrucat uneori, se obtin
rezultate superioare, mai ales in cazul documentelor PDF searchable, care contin note de
subsol.
In Abbyy 9 sau 10, salvarea se va face ca EDITABLE COPY, intrucat pastreaza
structura documentului MAI BINE ca in cazul salvarii ca Formatted text.
Abbyy 9 sau 10 nu sunt perfecte, intrucat, in cazul doc pdf care contin note de
subsol, o parte din note sunt mutate aiurea de catre program, din josul paginii, LA
SFARSITUL documentului OCR, ele trebuind mutate de dv, manual, la locul lor.
Remarca faceti probe cu ambele TRANSFORMERE, si vedeti cu care iese mai
bine..
E posibil, datorita ENCODINGULUI (UNICODE, ISO, Windows, etc) si datorita
FONTURILOR continute in pdf, instalate sau NU, in calculatorul dv,
sa obtineti caractere ILIZIBILE de genul - = , = , ...etc ... pe astea le corectati
automat in word, ulterior, cu inlocuire automata.
Paralel cu subiectul, dar uneori foarte important:
-FOXIT PDF Editor v2.1.0 - Editeaza scrisul din paginile pdf searchable,
asemanator (oarecum) modului in care editam scrisul dactilografiat in Word.
Se da dublu click pe un cuvant (sau un grup de cuvinte) in PDF SEARCHABLE si
ni se ofera posibilitatea de a EDITA manual, SCRISUL, in portiunea respectiva. Apoi,
continuam cu urmatoarele cuvinte, in acelasi mod.
In cazul in care editati un document PDF cu poze, scris in mai multe limbi, puteti
MODIFICA EDITAND partial SCRISUL din document, inlocuind MANUAL portiuni de
scris cu traducerea si scrierea directa IN DOC PDF - in alte limbi
In cazul pdf scan
Extragerea si prelucrarea jpg e necesara, intrucat daca introduceti pdf scan
DIRECT in abbyy, e posibil ca scanul sa nu aiba rezolutia si adancimea de culoare DPI
necesare RECUNOASTERII, si atunci ABBYY sare peste litere sau peste paragrafe.
Recomandare:
- Extrageti jpg din PDF cu PDX XCHANGE VIEWER 4
Click dreapta pe fisier pdf
Open with, browse, cautati in Program files...
c:\Program Files\Tracker Software\PDF Viewer\PDFXCview.exe
si, ati deschis fisierul pdf cu XCHANGE VIEWER.

Mergeti sus in meniu, stanga
FISIER
Alegeti EXPORTA --- exporta ca imagine
Se deschide fereastra de setari
Alegeti PAGINI toate
TIPUL IMAGINII alegeti JPG Optiuni Image type dati click pe scris-in
caseta-True color (8bpp)- cu 12 bpp nu merge, intrucat ulterior pozele nu sunt identificate
de catre ACDSEE
JPEG Quality setati la 100 % (si nu 70, care e default)
HORIZONTAL dpi setati la 600
VERTICAL dpi tot la 600
Apasati OK
Director destinatie rasfoieste-Browse...alegeti locatia pe hard UNDE trimiteti
pozele.
Nume fisier puneti un nume prescurtat de dv,
la care se va adauga din MACROURI, optiunea de -<Auto Number>, autonumerotare a pozelor de catre PROGRAM.
Mod de export
Alegeti PUNE FIECARE PAGINA intr-un fisier
GRAFICA
PAGE ZOOM ...reglati dv de asa maniera, incat - avand deja setata ADANCIMEA
dpi de 600 - sa obtineti o INALTIME de 5000 5500 pixeli a pozei in dreapta ferestrei
aveti o schitza COTATA a paginii, cu dimensiunile orizontala+verticala.
Sub schitza cotata, aveti patratzele care indica numarul paginii din document.
Treceti prin cateva pagini, pentru a va asigura ca PAGINILE sunt de aproximativ aceeasi
dimensiune. Daca in doc pdf au fost introduse de catre AUTOR pag de diferite dimensiuni,
posibil ca dimensiunea setata de dv...de 5000-5500 pixeli, sa varieze in cursul
documentului dv.
Avand procesor computer de 2-3 gigahertz , peste 6000 de pixeli pe verticala sunt f.
greu de procesat ulterior in ACDSEE (peste 8000, nu merge deloc) si in Abbyy care se
va misca greu.
Apasati Exporta si incepe extractia.
Fisierele jpg obtinute au 15-20 mega bucata, asa ca va trebuie spatiu pe HARD.
La final, inchideti programul.
EXTRAGERE jpg din pdf, cu ADOBE ACROBAT 9
O metoda PT CONVERSIA pdf in jpg,
- deschizi orice PDF, dai FILE - "save as" si poti salva ca PDF, dar alegi din dropdown list, JPG.
Alta este :
- Click dreapta pe fisierul de extras
OPEN WITH Adobe Acrobat
FILE EXPORT Image JPEG
Modul de lucru in AMBELE METODE CONTINUA astfel:
-Se deschide fereastra in explorer, pentru salvarea fisierelor pe hard
Umblati la SETTINGS si setati:
File Settings pentru GRAYSCALE si COLOR - toate LA MAXIM
Pentru Format PROGRESSIVE, 3 scans
COLOR MANAGEMENT, OFF toate 3
CONVERSION
Alegeti COLOR - in general, daca e bine scanat documentul, daca e uniform ca
expunere, stralucire, contrast.
GRAYSCALE daca litera (marita cu ZOOM a) documentului prezinta
halouri/portiuni de culori diferite (uneori LITERA apare colorata ca un curcubeu).
Coperta o EXTRAGETI intotdeauna COLOR.
In cazul in care extrageti jpg grayscale din PDF, COPERTA o extrageti separat la
urma, COLOR, accesand in meniul de sus Adobe DOCUMENT EXTRACT PAGES.
Extrageti initial ca PDF, urmand sa EXPORTATI acea unica pagina, ca JPG, dupa
explicatiile anterioare.
RESOLUTION, alegeti 600 dpi.
Daca documentul contine pagini de mari dimensiuni (in cm, inch, pixeli), extractia
acelor pagini nu se poate face DACA SUNT MAI MARI DE 45 inch, si in acest caz
trebuie coborat nivelul la 300 dpi.
Sau chiar 150, sau chiar mai jos.
Neplacut este ca aflati despre asta ABIA cand extractia ajunge la pag cu pricina,
INTRUCAT ACROBAT se blocheaza si astfel, sunteti OBLIGATI SA OPRITI
PROGRAMUL si sa reluati extractia DIN LOCUL in care ati abandonat-o, setand o
rezolutie inferioara lui 600 ... ASTFEL ca va poate crea CONFUZIE in RE-numerotarea
paginilor la final.
Plus ca in aceste cazuri, rezolutia - claritatea imaginii are de suferit.
REMARCA - E oarecum la ghiceala, de asta e mai bun PDF-XCHANGE VIEWER.
APASATI OK
Apasati SAVE, si incepe EXTRACTIA propriu-zisa...
CONVERSIA / COMBINAREA DOC, RTF... JPG /BMP, TIF in PDF CU

ADOBE ACROBAT
FOLOSIM ACROBAT, si NU Reader care e numai pt citire, nu si pentru EDITARE.
ACROBAT - combina intr-un singur PDF mai multe fisiere PDF, DOC, RTF, jpg, tif
sau BMP etc
- extrage jpg-uri din PDF,...
- face si conversie in word, la pdf searchable, DAR NU E INTODEAUNA
CALITATIV.... LA PDF scan, INTRODUCE paginile din pdf-ul scan, CA poza JPG in
pagina de Word.
Creati doc PDF, cu ADOBE ACROBAT, din mai multe fisiere DOC, RTF.... sau
imagini JPG/BMP/TIF, etc
In TOTAL COMMANDER, Selectati toate fisierele de combinat, plimband mouseul cu click dreapta apasat, peste fisierele din director... (se inrosesc).
Dupa INROSIREA LOR, Click dreapta LUNG pe unul din ele, pana va apare
FEREASTRA DE OPTIUNI si alegeti COMBINE SUPPORTED FILE IN ACROBAT.
Accesati cu click stg in TASKBAR jos - fereastra COMBINE FILES, si verificati
ORDINEA in care vor fi combinate fisierele dv.
Apasati COMBINE FILES
Pentru jpg, pdf, e ok, dar la doc, rtf, merge mai lent, iar uneori Crackul ACROBAT
9 nu functioneaza, si implicit, nici PDF-MAKER, o componenta a ACROBAT, astfel ca nu
puteti combina doc sau rtf.
Conversia doc, rtf in PDF, se poate face prin PRINTARE DIRECTA din OFFICE
WORD, sau cu AJUTORUL Abbyy PDF TRANSFORMER, care poate SI CREA PDF
searchable, din doc.
Continuam cu
PRELUCRAREA jpg cu ACDSEE 7
O FACEM inainte si/sau SI dupa prelucrarea jpg cu SCAN TAILOR
-pentru care gasiti Tutorial video la http://vimeo.com/12524529
Si un tutorial scris, simplificat de mine, in finalul acestui document.
Precautii si masuri necesare in prealabil:
1. Nu vei stoca poze /nu vei lucra in My documents,
intrucat Acdsee ''nu vede'' pozele din acest folder.
2. Te asiguri ca pozele tale sunt in 24 bitzi, si nu in 256 de culori sau 256 gray, si
nici in B-W.
Photoeditor nu poate da blur decat celor in 24 de bitzi.
Dar Photoeditor POATE prelucra exposure si la pozele 256 gray, asa ca, pt a obtine
poze in 24 bitzi, dai in prealabil, un ADJUST IMAGE EXPOSURE
tuturor, in grup, utilizand o setare minima, inofensiva, cum ar fi Exposure = +1.
Vezi ca optiunea de accesare a PHOTOEDITOR 3.1, implica instalarea prealabila a
lui, din kitul de program.
Ulterior, PHOTOEDITOR 3.1 poate fi deschis astfel:
START - All programs - ACD System - ACD Photoeditor 3.1.
Accesarea PHOTOEDITOR 3.1 se poate face si direct din FOLDERUL cu poze
necesar a fi prelucrate, folder pe care il deschizi cu ACD SEE, astfel:
1. Deschizi poza in ACD SEE, apoi dai un dublu click pe poza, si astfel INTRI IN
FOLDERUL CU POZE DE PRELUCRAT, urmand sa vezi THUMBNAIL cu toate pozele
de prelucrat.
2. SELECTEZI toate pozele, dar sugerez sa o faci in transe de cate 50-100, intrucat
in TEMPORAR pe disk C un jpg de 2 mega este transformat (in background, si nu la
vedere) IN BMP de pana la 100 mega/bucata.
Selectezi deci, POZELE cu pricina, si mergi in meniul de sus:
TOOLS - OPEN IN EDITOR - alegi ACD PHOTOEDITOR 3.1
ACDSEE - Prelucreaza JPG-urile (scoase ANTERIOR din pdf cu ajutorul PDFXCHANGE VIEWER 4 sau ADOBE ACROBAT)
- Puteti modifica MARIMEA jpg in pixeli, CULOAREA, CONTRASTUL,
STRALUCIREA, etc
- la SIZE, *marime* va recomand 5000 - 5500 pixeli pe verticala - setand mai mult
de 6000, il incetineste pe ABBYY la editarea automata a paginii si la recunoastere.
Deschizand poza cu ACDSEE si apoi cu inca un dublu click pe poza, ACDSEE iti
vizualizeaza continutul FOLDERULUI in care ai pozele.
IN acel folder, Prima oara ne uitam la dimensiunile pozelor jpg in pixeli si la nr de
culori al pozei... Truecolor, 24 bitzi, sau gray in 256, B/W, etc.
De obicei, pozele pe verticala merg prelucrate superior, daca le aducem la 5000 de
pixeli, sau uneori chiar 6000, in cazul scanurilor mizerabile.
Pt marire dimensiune in pixeli,
selectam POZA/POZELE pe care trebuie sa le prelucram
Apoi apesi TOOLS si alegi Resize IMAGES...
In general, reglezi dimensionarea in PROCENTE FATZA DE ORIGINAL...
200 la suta inseamna ca dublam dimensiunile initiale.
300 triplam, etc. ... poti da si 5, sau 600, in asa fel, incat sa ajungi cu aproximatie la
5000 , sau chiar 6000 pe verticala
Cu cat e mai mare poza cu atat avem sanse sa obtinem o rezolutie si claritate mai
mare...Dar, lui ABBYY la OCR ii va veni f. greu sa prelucreze un folder /carte jpg cu
POZE peste 6000 de pixeli pe verticala...
Am 2 computere
Unul cu procesor de 3 gigahertz si memorie de 1,5 giga,
Unul de 2 GHZ procesor, si memorie 2 GHz RAM asta merge mai greu - si am
lucrat o carte de 400 de pg, fiecare avand dimensiunea de 6000 pe verticala, pe bucati,
(am impartit cartea in 3 fisiere) in 3 zile a cate 6 ore/zi.
Cartea aia imi ocupa un folder de 400 de megabitzi pe hard, DAR in fisier
TEMPORAR - in cursul prelucrarii cu ABBYY - imi ocupa peste 10 giga de spatiu pe
hard.
Pentru lucrul la claritatea imaginii, cu ACDSEE7 dam dublu click pe o poza, intram
in ea adica.
Sus in meniu, apasam MODIFY
Alegem Edit mode
Apare edit panel
Dai zoomul pozei, mai mare, DE SUS din meniu, apasand pe LENTILE ca sa vezi
scrisul marit, iar marginile literelor vor aparea zdrentzuite.
1. ... apesi Color
Desi operatiile din meniul COLOR nu finalizeaza POZA, Jonglezi cu LIGHTNESS
si HUE pana obtii un contrast si o culoare mai potrivita, mai buna. Poti elimina astfel
backgroundul gri al pozei, el devenind ALB, iar scrisul ramanand negru.
Apesi APPLY si salvezi Presetul dandu-i nume sau cifra, ca sa poti folosi Presetul
pt restul fisierelor, la prelucrarea in grup..
Apesi DONE si Salvezi rezultatul obtinut cu titlu schimbat ca sa nu se suprascrie cu
poza bruta.
Rezultatele intermediare la OPERATIA de aici si la cele de mai jos, le pastrezi pana
TE HOTARASTI care anume este mai BUN.
2. Apoi, apesi meniul EXPOSURE
Alegi in dreapta sus meniul BRIGHTNESS, care contine 3 cursoare.
Jonglezi cu Brightness - Contrast - Gama
GAMA e la 50, il cobori in etape, pana spre 0, dar la fiecare coborire a lui GAMA,
cresti BRIGHTNESS si contrast, cate putin.
Alegi singur contrastul dorit, prin tentative succesive.
Apesi APPLY, si salvezi PRESETUL, dandu-i nume sau cifra, ca sa poti folosi
Presetul pt restul fisierelor...
poza bruta, sau cu cea anterior prelucrata.
Daca e necesara o mai mare ACURATETE, in cazul ca LITERA APARE TOT

gaurita si zdrentzuita:
3. Alegi SHARPNESS
Alegi BLUR
Gaussian
Amount e setat by default - la 10... il cobori la 1, si vezi cum iti pare poza ... clar,
neclar...
Apoi cresti in etape, pana spre 6 -7... si vei vedea ca dispar marginile zdrentzuite ale
literei, dar nu de tot...
Alegi singur cea mai buna setare posibila.
Daca vrei, si daca e nevoie, DUPA BLURARE, poti relua procesul de la pct 2,
BRIGHTNESS, reintroducand poza la prelucrare.
Daca ai obtinut un scris prea gros, il poti subtia, astfel:
in meniul SHARPNESS
Alegi UNSHARP MASK
Maresti Amount cam la 200 - 250
Micsorezi Threshold spre zero... JONGLEZI cu cursoarele pana iti place ce vezi...
PRELUCRARE
individuala
ACDSEE PHOTOEDITOR 3.1.
cu
Sageata rosie indica BUTONUL pentru

SELECTAREA unei zone separate, care VA
SUPORTA prelucrare diferita de a restului
POZEI.
Click pe patratel, (daca aveti zone
circulare pe cerc sau, daca vreti sa selectati
o zona de forma neregulata - apasati pe
lasso)
Mergeti cu mouse-ul si cu click stanga
selectati (chenaruiti) zona care intereseaza.
Acea zona poate fi indepartata cu CUT,
poate fi luata in copy-paste., sau poate suporta
prelucrari diferite de al restului pozei,
folosind reglaje de brightness, sharpness,
color, etc..
Selectand o zona pe care vrem s-o
copiem SI IN ALTA PARTE a pozei... (de ex.
luam in copy o zona din dreapta sus - ii
putem da paste, si acea zona COPIATA, ne
apare SUPRAPUSA in stanga sus a pozei
MARI,... de acolo putand s-o luam in mouse
cu click stg, si putem s-o plimbam/mutam in
poza mare, FIXAND-O in zona unde vrem so ducem, (de ex... sa acoperim zona din
stanga jos, sau oriunde altundeva).
Pentru prelucrare zone.

Mariti ZOOMUL POZEI ca sa va dati seama ce probleme exista.
De asemeni, dupa fiecare prelucrare, VIZUALIZATI cu ZOOM MARE,
REZULTATUL.
Pentru pag cu scris sters, selectati (chenaruiti) zona cu scris sters, si apasati
SHARPNESS.
Apoi UNSHARP MASK
Amount + 300
Radius + 30
Threshold + 1
Scrisul va apare f. Bine.
Apasati DONE.
Apoi, nu mai umblati la zona, caci este selectata INCA si deci poate suporta
urmatoare prelucrari,
si aplicati BLUR defaultul e Gaussian, foarte bun pt ce ne trebuie.
Apasati pe cursorul AMOUNT (defaultul e la 10, dar il veti cobori la 1), iar de la 1
cresteti gradual, fiind atenti la CLARITATEA SCRISULUI.
Ideea e ca BLURUL umple grosimea literei, facand-o uniforma, dar, PESTE o
anumita limita superioara O POATE INCETZOSA prea tare.
Alegeti ochiometric un echilibru INTRE ingrosare litera si incetzosare.
Apasati DONE.
IN CONTINUARE aplicam EXPOSURE.
Tot asa, nu mai umblati la zona, caci este selectata INCA,
Jonglati cu cursoarele PANA Obtineti ECHILIBRUL DE CARE SPUNEAM
ANTERIOR.
Brightness - in urcare de la 0 LA 2...4...10...etc
CoNTRAST MERGETI IN SCADERE (SPRE STG) DE LA 0 LA MINUS 5-1015 ETC...
GAMA - IN SCADERE, DE LA 50, LA 40, 35, 25, ETC.
Apasati DONE
In final, veti ramane surprinsi de ceea ce veti obtine.
Pastrati totusi ALTUNDEVA, o copie a pozei originale.
ACUM prelucrarea in grup...

Ai preseturile salvate la toate operatiile anterioare.
CU ACDSEE vizualizezi fisierele BRUTE, inca NEPRELUCRATE, DIN Folderul
cu pricina, unde ai cartea.
Selectezi toate pozele.

Daca vrei sa le maresti .... TOOLS - Resize images
Daca vrei sa umbli la contrast, stralucire.... TOOLS - ADJUST IMAGE
EXPOSURE... Brigtness - alegi si introduci presetul anterior salvat...
apoi apesi Options - bifezi RENAME Modified images... - la Overwrite - alegi
RENAME... apoi JPEG COMPRESSION - OPTIONS, alegi BEST COMPRESSION, si
bifezi toate casutele pe care le poti bifa. Dai OK, si inca o data OK,
apoi FILTER ALL IMAGES... DONE.
prelucrarea in grup pentru COLOR si pt SHARPNESS...
Pozele trebuie introduse in ACDSEE EDITOR 3.1
Dai dublu click pe o poza din folder, si se deschide ACDSEE 7,
Inca un dublu click pe poza si INTRI cu vizualizarea DIN ACDSEE in FOLDERUL
cu poze - Selectezi toate pozele CTRL+I
apoi
TOOLS - OPEN IN EDITOR - alegi ACD PHOTO EDITOR 3.1
(Se deschide editorul 3.1 - si vei vedea pozele in basket jos, stanga...)
Apesi BROWSER
Tag images
apesi apoi COLOR,
sau SHARPNESS,
si aplici modul de lucru pomenit mai sus, folosindu-te de preseturi.
Cand apesi DONE, incep sa se prelucreze automat in grup
apare - writing temporary images - SE SCRIU TEMPORAR in directorul (din
contul tau de ADMINISTRATOR),
la mine NUMELE de administrator fiind jullien_alphonse
C:\Documents
and
Settings\jullien_alphonse\Local
Settings\Application
Data\ACDPhotoEditor\
PT salvare ai 2 variante...
1. PRIMA , cea mai comoda, este sa transferi pozele temporare din
C:\Documents
and
Settings\jullien_alphonse\Local
Settings\Application
Data\ACDPhotoEditor\
Ele sunt in format BMP, si pot ocupa si 100 de mega bucata...
DUPA ce le mutzi din temporar folder, le convertesti in jpg, ... isi pastreaza calitatile
dar ocupa de 100 de ori mai putin spatiu.
ATENTIE nu inchide ACD PHOTOEDITOR 3.1 decat DUPA mutarea fisierelor in
alt folder.
Inchiderea ACD PHOTOEDITOR 3.1 duce la stergerea automata a tuturor fisierelor

din folderul temporar pomenit mai sus: C:\Documents and Settings\jullien\Local
Settings\Application Data\ACDPhotoEditor\
Convertire BMP in JPG
CU ACDSEE 7 normal (si nu photoeditor - desi si acolo se poate face, apasand alte
comenzi) - vizualizezi pozele din directorul cu BMP, si selectezi toate pozele cu CTRL+I.
TOOLS - alegi CONVERT FILE FORMAT - alegi JPG Format, - apesi Format
settings - acolo alegi bifand ce vrei - Best compression, - duci cursorul la ZERO, ...
(Atentie, alegeti la setari ce doriti, REPLACE sau RENAME) ... OK ... NEXT... NEXT Start CONVERT - FINISH
2. Varianta a doua de SALVARE
IN PHOTOEDITOR, dupa prelucrare, Le salvezi poza cu poza...
FILE - SAVE ALL, si ti se deschide fereastra cu directorul in care LE salvezi, cu
titlu schimbat sau LE suprascrii.
Trebuie sa dai ok, de sute de ori, cate sute de pag jpg ai.
LUCRUL CU ABBYY 9
Deschideti programul din iconitza
Mergeti la TOOLS Options si FACEM SETARILE de lucru efectiv si de produs
final (pentru a obtine un OCR cat mai bun), apoi mergem din tab in tab astfel:
- Document - setati limbile ROMANIAN, FRENCH, GERMAN, reusind astfel sa
obtineti recunoasterea tuturor accentelor, tremelor si umlauturilor. Daca Aveti doar
ROMANA in document, setati numai ROMANIAN.
Pentru sanscrita - de ex., expresii in operele lui Mircea Eliade - setati si LATVIAN
- contine , , , , - vocale cu MACRON deasupra, similare sanscritei...
LA CORECTURA restul simbolurilor se iau ulterior din butonul xp - Start-All
Programs-Accesories -System Tools- character map)
Pentru slavona, (chirilice vechi) sau alte limbi ale caror simboluri grafice NU SUNT
EXPLICITATE in ABBYY, luati simbolul in copy-paste, si/sau cautati SIMILARITATI in
google si in wikipedia.
-document print type - AUTODETECT.
- Scan/Open - bifati DO NOT READ and ANALIZE acquired page image
automatically
- in cazul in care bifati, ABBYY face recunoasterea automat IMEDIAT dupa
deschidere si introducere poze in ABBYY, FARA ca dv sa MAI aveti posibilitatea sa
REVIZUITI ZONAREA si FARA A PUTEA EDITA CU ABBYY rezolutia ,
INDREPTAREA PAGINII , INDREPTARE TEXT, etc..
- Image Processing - bifati ENABLE IMAGE PREPROCESSING
Bifati Corect Image Skew, indreapta imaginile strambe, rotite cu 1 grad sau chiar
cu 80, 90, 100 grade, etc.
Bifati DETECT PAGE ORIENTATION sesizeaza orientarea si roteste direct, la
introducere, pag stramb orientate, rasturnate cu 90 grade
Bifati Split Dual Pages), - taie pag duble in doua, automat, la jumatate (in dreptul
cotorului)
Este bine sa bifati, intrucat ULTERIOR, la editare page image, PUTETI INDREPTA
orientarea PAGINILOR strambe, precum si randurile strambe. DACA nu faceti split,
ABBYY mai indreapta cate ceva din chestiile strambe , DAR NECORESPUNZATOR.
In cazul pag. scanate mizerabil, posibil sa taie aiurea. Reintroduceti paginile cu
pricina, din nou , la finalul INTRODUCERII-DESCHIDERII pozelor, si MUTATI-LE
manual la locul lor in locul celor taiate prost.
Daca nu o face bine ABBYY automat, aveti posibilitatea sa faceti SPLIT manual,
acolo unde e cazul, din meniul PAGE EDIT PAGE IMAGE-SPLIT, pozitionand cursorul
pe cotor, unde doriti.
De asemeni, din acelasi meniu, puteti taia pagina si pe orizontala, eliminand portiuni
nedorite.
Nu bifati Convert color and grayscale images to black and white... le elimina
acuratetea, si rezultatul ocr e f. Prost, similar operarii unor tifuri alb-negru, de adancime
mica, culoare (2 culori A-N) si de rezolutie f. slaba.
- READ - la Reading mode, bifati THOROUGH READING, la Training bifati
deocamdata DO NOT USE PATTERNS.
Cand veti avea probleme cu texte greu lizibile, veti fi nevoiti sa faceti TRAINING, si
ATUNCI veti folosi pe rand optiunile, bifand TRAIN USER PATTERN si apoi USE USER
PATTERN.
-SAVE - la Retain Layout, alegeti EDITABLE COPY sau FORMATTED TEXT.
Editable copy e bun in cazul cand aveti multe note de subsol. Abbyy le va pune la
locul lor in 90 la suta din cazuri.
Formatted text e bun in cazul cand nu aveti note de subsol.
Default paper size - alegeti A4
Ai si optiunea de Increase Paper Size, dar in cazul romanelor noastre, debifatzi.
O veti folosi numai daca SALVATI documentul CA EXACT COPY...
In cazul cand PAGINA POZA JPG de prelucrat nu e de format PORTRET ci e de
forma patrata, pentru a obtine un doc asemanator cu FORMATUL ORIGINAL al cartii
(patrat, de ex), se foloseste INCREASE PAPER SIZE.
La TEXT SETTINGS bifati NUMAI keep headers and footers
Chiar e nevoie de Header si Footer? Uneori acele 3-4 cuvinte din antet si subsol iti
dau textul peste cap.
Da, e nevoie, intrucat NOTELE DE SUBSOL se incadreaza tot acolo, din punctul
de vedere al lui ABBYY.
Daca nu bifati KEEP HEADERS and Footers, si...mai ales, daca nu verificati
zonarea, posibil ca ABBYY sa sara la RECUNOASTERE tocmai zonele cu note de subsol.
Verificand zonarea ochiometric, dupa ce executati ANALIZE LAYOUT (care se
face automat), eliminati dv, manual, antetul care nu va trebuie, si verificati si PASTRATI
subsolul.
- Debifati restul, in caz contrar veti avea ENTER-URI puse de ABBYY la ORICE
SFARSIT DE RAND (care vor fi, in REALITATE, enteruri LA MIJLOCUL FRAZEI.
- la Picture settings, alegeti MEDIUM QUALITY, sub ADVANCED, exista tabul
More, se va apasa pe el
-debifati HIGHLIGHT Uncertain Characters.
-bifati ENABLE COMPATIBILITY with Microsoft Word 95)
- tabul VIEW, alegeti Thumbnail.
-Debifati HIGHLIGHT uncertain characters
-Bifati SHOW non printable characters,
-Bifati show zoom window scroll bars
LUCRUL EFECTIV cu ABBYY
Apasati FILE- OPEN PDF/image file
Cautati directorul in care aveti pozele prelucrate
Selectati ULTIMA POZA DIN folder, si apoi, CU CTRL apasat mergeti la PRIMA
poza din folder si dati click stg pe ea. SE VOR SELECTA TOATE. Verificati.
Apasati OPEN
Se introduc deja in ABYY.
Dupa introducere pag jpg in ABBYY
Accesati meniul PAGE EDIT PAGE IMAGE
Apasati DESKEW and STRAIGHTEN
Bifati Aplly to all
Apasati DESKEW IMAGE
Incepe indreptarea paginilor, asteptati.
Apoi, apasati STRAIGHTEN TEXT LINES (verificati sa fie bifat APLLY TO ALL)
incepe indreptarea randurilor de text, asteptati
Megeti apoi jos, la IMAGE RESOLUTION, bifati APPLY TO ALL, si completati
MANUAL in caseta OTHER, valorea de 600 (dpi) apasati APPLY, incepe modificarea
rezolutiei , asteptati.
Meniurile celelalte,
ROTATE, se foloseste pt rotire manuala a pag, din 90 in 90 de grade
CROP , pt taiere manuala a pag pe contur determinat de dv... se foloseste numai
daca este absolut NECESAR, de ex, pt a elimina o zona neagra (sau PESTRITZA) iesita
din scanare, - care ar deregla zonarea automata.... in rest e pierdere de timp, intrucat
ABBYY va face automat zonarea.
Cu SPLIT am cam lamurit deja, mai sus.

INVERT, transforma POZA JPG in negativ fotografic, inversand culorile.
Trecem imediat la ZONAREA AUTOMATA A PAGINILOR
Din meniul DOCUMENT ANALIZE PAGE LAYOUT
Dupa terminare, treceti apoi manual, din pag in pag - le vizualizati pe fiecare in
parte, verificand zonarea automata, si AJUSTATI MANUAL chenarul de zonare, tragand
cu mouse-ul de liniile chenarului, asigurandu-va ca respectivul chenar incadreaza
PERFECT textul. Eventualele zone ne-chenaruite le chenaruiti MANUAL.
- In cazul in care apar zone in plus, chenaruite, care contin elemente ce nu doriti sa
apara in final, eliminati manual acele zone - selectand zona cu mouse-ul click stg pe ea,
si dand DELETE.
Se elimina multe artefacte in acest fel.
Puteti elimina inclusiv numarul de pagina.
Unii pastreaza NR PAGINII, pentru a se orienta mai usor confruntand copia doc cu
scanul, la corectura.
Eliminand zonele in plus, mariti viteza de citire a programului.
Daca e nevoie, eliminam MANUAL, headerul si footerul, intrucat acestea
CONTRIBUIE la aparitia unei PROASTE ZONARI in cazul unui scan mizerabil - sau in
cazul in care HEADERUL contine imagini, grafica, ornamente, etc.
- verificati ORDER, ordinea de zonare pentru OCR, notata cu cifre 1,2,3 in coltul
fiecarei zone. Asta e ordinea in care ABBYY va face recunoasterea, .... daca treceti
superficial peste acest aspect, vi se inverseaza ordinea paragrafelor in textul final. La
abbyy 10, ORDINEA ZONARII apare numai din MENIU sus , AREAS ORDER
AREAS.
Un ultim amanunt de final

La finalul procesului, inainte de a salva ca DOCUMENT WORD, inlocuiti DIN
ABBYY (cu CTRL+H) liniuta de dialog (luand-o in copy-paste)
(EmDash) sau
(EnDash)
Cu:
-- -Adica,2 spatii, doua cratime, doua spatii, doua cratime.
Atentie! Cand luati cu copy din Abbyy EmDash/EnDash, evitati sa luati si spatii
goale. Daca selectati un spatiu gol de dinainte sau de dupa simbolul respectiv, nu o sa va
reuseasca inlocuirea.
Acum puteti salva in format doc.
FILE-SAVE AS Word document...dati titlul si alegeti calea.
Operatiuni Automate in Word
Deshideti doc in WORD OFFICE. Selectati tot textul cu Ctrl+A. Apoi apasati sus in
meniul word FORMAT. Alegeti Bullets and numbering, alegeti Bullets NONE.
Apoi faceti inlocuirea inversa celei din ABBYY. Adica, secventa:
-- -spatiu-spatiu-cratima-cratima-spatiu-spatiu-cratima-cratima
se inlocuieste cu
EmDASH
Astfel scapati de TABURILE BLOCATE de dupa liniuta de dialog.
MIC TUTORIAL SCAN TAILOR

Pui pozele (NUMAI JPG) pe care vrei sa le prelucrezi intr-un director, fara alte
poze jpg apartinand altor carti.
1. PRELUCREZI RESIZE cu ACDSEE , redimensionezi toate pozele la minim
4000 pixeli pe verticala. La 5000 pixeli, SCAN TAILOR se va misca greu pe
calculatoare mai lente.
Amanunte despre lucrul cu ACDSEE in TUTORIAL OCR DE LA A LA Z.
Fara prelucrare prealabila cu ACDSEE, riscati sa obtineti o varza.
2. Deschizi program SCAN TAILOR.
Apesi New Project.
Cu Browse cauti in calculator directorul cu pricina.
Il adaugi, ori introduci cu COPY-PASTE - calea directa spre folder
Apar in fereastra din stg, numai denumirile pozelor din folder.

Apesi select all in stg jos, - bifezi FIX DPIs.
Apesi dubla sageata (cu directia spre dreapta) de pe BARA VERTICALA
din mijlocul ferestrei programului.
Astfel, pozele se muta in ferestruica din dreapta.
Apesi select all in dreapta jos - Apesi OK
Apare fereastra FIX DPI
ESTI in tabul Need Fixing
Dai click pe ALL PAGES
Jos la DPI - apesi triunghiuletzul la CUSTOM,
si alegi 600x600 - apesi APPLY
Sus, apesi tabul ALL PAGES
Apoi dai click mai jos pe o alta optiune - ALL PAGES, acolo unde este semnul +
plus
Se repeta - mergi jos la DPI
apesi triunghiuletzul la CUSTOM,
si alegi 600x600 - apesi APPLY
APESI OK.
Acum vezi cum se introduc pozele in program (thumbnail) in fereastra din
LATERAL dreapta.
Cand se termina aceasta operatie,
SALVEZI PROIECTUL.
FILE - SAVE PROJECT AS recomand salvarea in acelasi director
DIN care ai introdus pozele.
O vei mai face apoi, din timp in timp.
Penele de curent te pot face sa pierzi ce ai lucrat, intrucat SCAN TAILOR nu
salveaza automat progresul obtinut.
Abia incepand cu operatia de la LINIA 6 - OUTPUT, TIFURILE incep sa se
salveze rand pe rand in directorul OUT.
DAND CLICK pe oricare poza thumbnail din dreapta, acea pagina devine
activa si poti actiona asupra ei.
In MENIU stg sus lateral, - operatiile de pe LINIA 1, 2 , 3, se pot face toate odata,
automat, mergand direct la LINIA 4 meniu - SELECT CONTENT, unde apasand pe
Butonul cu cerc si triunghi, incepi sa chenaruiesti automat PARTEA UTILA , scrisa, sau
continand foto, din pag. jpg, cea CARE ne VA RAMANE PRELUCRATA FRUMOS.
Apasare o data - se prelucreaza cate o pagina pe rand
Apasare de doua ori RAPID - se prelucreaza in grup, de sus pana jos, toate
paginile.
Daca la terminarea CHENARUIRII - buton 4 - obtii pag prost TAIATE - (in
general cele duplex) te intorci la LINIA 2 si reglezi manual, taierea paginii cu pricina,
astfel:
Apesi 2 - Split Pages - Alegi din meniu stg iconitza-patratzel care se potriveste
dispunerii paginilor duplex, si tragi de BULINE sau de marginile verticale in fereastra
principala.
Dupa reglarea taierii, mai apesi o data pe buton linia 2, si se executa operatia de
taiere efectiva, propriuzisa.
Ulterior, dintr-o poza duplex, tratata cu SPLIT, in directorul OUT obtii 2 poze
simple,
notate cu L (left) si R (right).
Apoi te intorci la LINIA 4.
Refaci chenaruirea aceleiasi pagini splituite anterior.
Continui cu restul paginilor.
Paginile lasate albe in carte, se pot elimina, dand click dreapta pe
THUMBNAILUL aferent paginii albe, si dai REMOVE FROM PROJECT.
Chenarul necorespunzator, se elimina cu click dreapta in pagina MARE, din
centrul ferestrei, unde dai REMOVE CONTENT BOX, si cu un nou click dreapta (alegi
CREATE CONTENT BOX) inserezi un nou chenar, care va trebui ajustat.
Cand ajungi la ultima pag si verifici ca este chenaruita
mergi din nou la prima pagina jpg thumbnail, si verifici CALITATEA
CHENARUIRII, de sus de la prima poza thumbnail, pana jos, dand click pe fiecare
thumbnail, pe rand, si ajustezi chenarul in fereastra principala, punand click stg pe chenar
si tragand cu mouseul apasat in directia dorita.
Cand ai terminat verificarea chenarelor,

mergi in meniu sus la butonul 5 - MARGINS - unde fixam marginile mansetei, pe
care va fi decupata poza.
Apesi TOP - fixezi 1-2 mm
Bottom = 1-2 mm ( se fixeaza solidar cu TOP, in acelasi click, automat)
LEFT, RIGHT, solidare = 3-4 mm
APPLY TO - Alegi si bifezi ALL PAGES - Apesi OK
Mergi la ALIGNMENT
Debifezi MATCH SIZE WITH OTHER PAGES
Acolo ai un patrat format din 9 patrate mai mici, cu sageti.
Apesi intotdeauna pe cel din MIJLOC-CENTRU.
Apesi APPLY TO- Alegi si bifezi ALL PAGES
Apesi butonul cu cerc si triunghi, la LINIA 5
si faci MARGINS la o poza de proba.
Restul prelucrarii de MARGINS o POATE face UNEORI
Optiunea 6- OUTPUT (direct - in mod automat, fara interventia ta),
adica POATE face si 5-ul anterior, si 6-le la care actionezi acum.
Mergi deci direct la LINIA 6 (OUTPUT)
Nu mai faci verificare pag cu pag, la margins.
Daca nu vrea sa mearga, (mesaj OUTPUT IS NOT YET POSSIBLE), e din cauza
operatiei 5 (neexecutate).
Atunci apesi de 2 ori butonul cu triunghi de la linia 5 - si ai rabdare pana termina de
taiat margini la toate pozele, ele defiland IN PARTEA DREAPTA lateral,
de jos in sus, pana se ajunge la ultima din ir.
Acum mergi la LINIA 6 meniu si daca APESI PE butonul rotund cu triunghi, iti
scoate DEFAULT o poza in alb negru.
Reglaje
OUTPUT RESOLUTION - te asiguri ca e 600 dpi.
Mode
faci teste si vezi care iti place:
BLACK AND WHITE - alb negru
Dai zoomul mare al pozei, click pe poza
jonglezi din rotitza mouse
sau din tastele + PLUS si - MINUS
marind scrisul ca sa vezi detaliile literei, contur, etc.
COLOR/GRAYSCALE - color, sau gri
in modul COLOR, bifezi WHITE MARGINS
Apoi bifezi si EQUALIZE ILLUMINATION
si verifici prin probe - bifat egalizare - debifat egalizare
alegand varianta care iti place
MIXED - daca ai COMBINATIE de foto si text in pag JPG,
SCANTAILOR prelucreaza SINGUR, distinct, astfel:
scrisul il scoate ALB-NEGRU,
poza in culori
Cursorul THINNER - THICKER, la jumatate de obicei.
Actioneaza numai in modurile ALB - NEGRU si MIXED
il dai in stg - subtie scrisul, il face mai sters
in dreapta - ingroasa textul, il face mai BOLD
APPLY TO - ALL PAGES.
Ulterior, vei verifica vizual fiecare pagina, si UNDE a iesit prea
ingrosat, reduci spre THINNER,
si dai din NOU OUTPUT doar acelei pagini.
DEWARPING, indreapta automat (e drept, aproximativ)

paginile trapezoidale. Uneori cu bune rezultate , alteori dezastruoase
Default e OFF, FARA INDREPTARE , deci fara DEWARPING
Daca e musai necesar, (la poze strambe) faci probe apasand
CHANGE - Mode AUTO - Scope- ALL PAGES - OK
iar cand apesi OUTPUT, incepe operatia DE OUTPUT propriuzis,
tot atunci SCAN TAILOR facand si DEWARPINGUL.
Pentru pag strambe , poti sa folosesti si DEWARPING MANUAL, pag cu pag.
Ajustarea manuala a chenarului dureaza mai mult, si poate da rezultate proaste daca
nu esti atent.
Dewarping - apesi CHANGE - MANUAL - this page only.
Apoi vezi in dreapta pozei centrale, MARI, din fereastra, un meniu cu scris vertical,
de sus in jos.
Acolo, apesi DEWARPING si iti apare o grila-retzea.
Tragi cu mouseul de colturile extreme ale retelei, ajustand retzeaua pe marginile
scrisului pozei.
Poti da si traseu curbiliniu retelei, urmarind conturul paginii scrise sau linia de baza
stramba a randului scris.
Pt finalizare indreptare, apesi in acelasi meniu vertical -, OUTPUT
DESPECKLING, indeparteaza NOISE
(o parte din "purici", zgomot de imagine = pixeli izolati sau gri)
facand si scrisul mai bine conturat, fara zdrentzuieli pe contur.
Are 3 trepte, maximum e la dreapta.
In general, mergem pe prima din stg, sau pe mediu.
Faci probe.
Click pe ''maturitza'' dorita
APPLY TO - All pages (sau cum vrei, doar o pagina... etc)
Dupa executare reglaje,
Apesi BUTONUL de pe linia 6 de doua ori, si incepe prelucrarea OUTPUT FINAL
( IN SERIE).
Scrisul , daca scanul e bun, il faci MODE alb negru...
Pt coperte, va trebui sa te intorci in meniul 6 output - si sa setezi diferentziat,
paginile respective, pe COLOR.
La coperte nu egalizezi iluminarea.
Pozele ies toate, TIF - cele TIF color ocupa 10-20-40 mega, functie de inaltimea in
pixeli a pozei, cele B/ W, ocupa putin... 20-40-100 kilo.
LE GASESTI in sub-directorul OUT, creat automat in directorul din care ai incarcat
pozele.
Ulterior, daca lucrezi cu ABBYY 9 sau 10,
Pe cele TIF Color, le convertesti IN PREALABIL, in JPG COLOR, cu ACDSEE,
intrucat pozele TIF color pot ajunge si la 50 mega color si il incetinesc pe ABBYY.
Le poti baga direct in ABBYY ca tif, pe cele B/W., daca nu mai necesita prelucrari
suplimentare cu ACDSEE.
La ABBYY 11 am obtinut rezultate proaste cu tifurile simple rezultate din SCAN
TAILOR si cu cele tif reconvertite in jpg cu ACDSEE.
E vorba de cazul pag prost scanate, si ULTERIOR re-conditionate/convertite,
deoarece nici Abbyy si nici Scan Tailor nu reusesc sa refaca rezolutia pozei, marind-o
la 600 dpi, si ABBYY 11 pur si simplu NU VEDE SCRISUL PAGINII, ca si cum ar fi
pagina foto blank, sarind peste randuri.
In aceste cazuri, (poze cu 100 dpi-200dpi) reduceti Standardul de rezolutie de
600 dpi, la o rezolutie de doar 300 dpi, sau valori intre 300 si 400 dpi.
Posibil ca la 300 dpi - sa mearga bine, si ca Abbyy sa reuseasca sa recunoasca
pagina.
Dar, per total, NU RECOMAND ABBYY 11.
La OCR, faci probe OCR cu 3- 4 pag. Jpg/tif
Daca nu iti place cum iese recunoasterea,
convertesti TOT setul de tif din scantailor, in JPG, cu ajutorul ACDSEE, si le dai si
un resize la jpg-urile obtinute final, la 4700 5000 sau chiar 5500-6000 pixeli
verticala, daca te tine procesorul.
Vei fi surprins de calitatea OCR.
(In final, daca iti vine sa trantesti computerul de pamant, inseamna ca ai gresit pe
undeva sau ai vrut sa fentezi indicatiile) :)))))))

! OCR de La A La Z (Simplificat) Dec 2011

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

! OCR de La A La Z (Simplificat) Dec 2011

Încărcat de

Drepturi de autor:

Formate disponibile

TUTORIAL (simplificat) Pentru OCR de la A la Z

si, ati deschis fisierul pdf cu XCHANGE VIEWER.

CONVERSIA / COMBINAREA DOC, RTF... JPG /BMP, TIF in PDF CU

Daca e necesara o mai mare ACURATETE, in cazul ca LITERA APARE TOT

Sageata rosie indica BUTONUL pentru

Pentru prelucrare zone.

ACUM prelucrarea in grup...

Selectezi toate pozele.

Inchiderea ACD PHOTOEDITOR 3.1 duce la stergerea automata a tuturor fisierelor

Cu SPLIT am cam lamurit deja, mai sus.

Un ultim amanunt de final

Astfel scapati de TABURILE BLOCATE de dupa liniuta de dialog.

MIC TUTORIAL SCAN TAILOR

Apar in fereastra din stg, numai denumirile pozelor din folder.

Cand ai terminat verificarea chenarelor,

DEWARPING, indreapta automat (e drept, aproximativ)

S-ar putea să vă placă și