Documente Academic
Documente Profesional
Documente Cultură
-------TOTAL COMMANDER.
-PDF PASSWORD REMOVER sau PDF UNLOCKER
-ADOBE ACROBAT 7, 8, 9, X10......... explicatiile sunt pt 9. Principiile sunt
valabile si pt celelalte versiuni de program
-PDF-XCHANGE VIEWER 4
-FOXIT PDF Editor v2.1.0 - Editeaza scrisul din paginile pdf searchable
-ACDSEE 7...sau alta varianta. Explicatiile sunt pt.7
-IRFAN VIEW, care poate prelucra BATCH (in grup), asemanator lui ACDSEE,
totusi ultimul e mai de finetze.
Uneori, la prelucrari de sute de pag, prelucrez in paralel cu ACDSEE si IRFAN,
etape diferite de ajustare imagine pentru doua carti diferite.
-ABBYY PDF TRANSFORMER 2 si 3
-ABBYY Finereader 9 si 10
Instalati-le pe toate, uneori puteti avea nevoie de una dintre optiunile unuia dintre
programe, pe care respectivul program le executa mai bine decat celelalte.
Specificatiile de mai jos sunt ACTUALIZATE pt dv, dupa o experimentare de 12
ani. Nu sunt chiar ultimul racnet, dar sunt de eficientza maxima pe computerul de 2-3
GHz.
Un program MAI NOU, Nu lucreaza intotdeauna mai bine DECAT versiunea
anterioara. Magarii astia care vor sa ne ia banii pe soft, schimba DOAR meniurile, solicita
UPGRADE de HARDWARE si escrocheaza bietul popor. Care se foloseste de crackuri,
desigur.
..........................
In primul rand eliminam eventuala parola din pdf cu
PDF PASSWORD REMOVER sau PDF UNLOCKER, - elimina automat
parolele de securitate din PDF, lasandu-va astfel sa extrageti ulterior, JPG din PDF.
Dupa eliminare parola
In cazul pdf SEARCHABLE, NU MAI FACETI extractie jpg, ci introduceti PDF
direct in:
- Abbyy PDF TRANSFORMER 3 care executa OCR rapid, de calitate, pt intregul
PDF. Setati limbile de recunoastere, conform documentului
Daca faceti zonarea manual, va ia mult timp.
Dar, programul ZONEAZA si RECUNOASTE AUTOMAT intreg documentul.
Abia dupa recunoastere, aveti posibilitatea sa verificati ZONAREA
DOCUMENTULUI, si sa corectati erorile de zonare.
Apoi, dupa rectificare, MAI FACETI INCA O DATA OCR...merge foarte repede.
Salvati ca doc.
- in cazul in care doriti sa faceti OCR numai pentru anumite pagini, sau pentru UN
NR. LIMITAT de pag. SI NU PENTRU INTREG PDF-ul, folositi abbyy pdf transformer
2,
sau extrageti in prealabil, acele pagini PDF - CU ADOBE ACROBAT 9 sau cu
TRACKER PDF X-CHANGE VIEWER - din documentul PDF si le faceti OCR cu
ORICARE din PDF-TRANSFORMER.
Comentariu
Faceti totusi proba si cu Abbyy finereader 9 sau 10, intrucat uneori, se obtin
rezultate superioare, mai ales in cazul documentelor PDF searchable, care contin note de
subsol.
In Abbyy 9 sau 10, salvarea se va face ca EDITABLE COPY, intrucat pastreaza
structura documentului MAI BINE ca in cazul salvarii ca Formatted text.
Abbyy 9 sau 10 nu sunt perfecte, intrucat, in cazul doc pdf care contin note de
subsol, o parte din note sunt mutate aiurea de catre program, din josul paginii, LA
SFARSITUL documentului OCR, ele trebuind mutate de dv, manual, la locul lor.
Remarca faceti probe cu ambele TRANSFORMERE, si vedeti cu care iese mai
bine..
E posibil, datorita ENCODINGULUI (UNICODE, ISO, Windows, etc) si datorita
FONTURILOR continute in pdf, instalate sau NU, in calculatorul dv,
sa obtineti caractere ILIZIBILE de genul - = , = , ...etc ... pe astea le corectati
automat in word, ulterior, cu inlocuire automata.
Paralel cu subiectul, dar uneori foarte important:
-FOXIT PDF Editor v2.1.0 - Editeaza scrisul din paginile pdf searchable,
asemanator (oarecum) modului in care editam scrisul dactilografiat in Word.
Se da dublu click pe un cuvant (sau un grup de cuvinte) in PDF SEARCHABLE si
ni se ofera posibilitatea de a EDITA manual, SCRISUL, in portiunea respectiva. Apoi,
continuam cu urmatoarele cuvinte, in acelasi mod.
In cazul in care editati un document PDF cu poze, scris in mai multe limbi, puteti
MODIFICA EDITAND partial SCRISUL din document, inlocuind MANUAL portiuni de
scris cu traducerea si scrierea directa IN DOC PDF - in alte limbi
In cazul pdf scan
Extragerea si prelucrarea jpg e necesara, intrucat daca introduceti pdf scan
DIRECT in abbyy, e posibil ca scanul sa nu aiba rezolutia si adancimea de culoare DPI
necesare RECUNOASTERII, si atunci ABBYY sare peste litere sau peste paragrafe.
Recomandare:
- Extrageti jpg din PDF cu PDX XCHANGE VIEWER 4
Click dreapta pe fisier pdf
Open with, browse, cautati in Program files...
c:\Program Files\Tracker Software\PDF Viewer\PDFXCview.exe
- deschizi orice PDF, dai FILE - "save as" si poti salva ca PDF, dar alegi din dropdown list, JPG.
Alta este :
- Click dreapta pe fisierul de extras
OPEN WITH Adobe Acrobat
FILE EXPORT Image JPEG
Modul de lucru in AMBELE METODE CONTINUA astfel:
-Se deschide fereastra in explorer, pentru salvarea fisierelor pe hard
Umblati la SETTINGS si setati:
File Settings pentru GRAYSCALE si COLOR - toate LA MAXIM
Pentru Format PROGRESSIVE, 3 scans
COLOR MANAGEMENT, OFF toate 3
CONVERSION
Alegeti COLOR - in general, daca e bine scanat documentul, daca e uniform ca
expunere, stralucire, contrast.
GRAYSCALE daca litera (marita cu ZOOM a) documentului prezinta
halouri/portiuni de culori diferite (uneori LITERA apare colorata ca un curcubeu).
Coperta o EXTRAGETI intotdeauna COLOR.
In cazul in care extrageti jpg grayscale din PDF, COPERTA o extrageti separat la
urma, COLOR, accesand in meniul de sus Adobe DOCUMENT EXTRACT PAGES.
Extrageti initial ca PDF, urmand sa EXPORTATI acea unica pagina, ca JPG, dupa
explicatiile anterioare.
RESOLUTION, alegeti 600 dpi.
Daca documentul contine pagini de mari dimensiuni (in cm, inch, pixeli), extractia
acelor pagini nu se poate face DACA SUNT MAI MARI DE 45 inch, si in acest caz
trebuie coborat nivelul la 300 dpi.
Sau chiar 150, sau chiar mai jos.
Neplacut este ca aflati despre asta ABIA cand extractia ajunge la pag cu pricina,
INTRUCAT ACROBAT se blocheaza si astfel, sunteti OBLIGATI SA OPRITI
PROGRAMUL si sa reluati extractia DIN LOCUL in care ati abandonat-o, setand o
rezolutie inferioara lui 600 ... ASTFEL ca va poate crea CONFUZIE in RE-numerotarea
paginilor la final.
Plus ca in aceste cazuri, rezolutia - claritatea imaginii are de suferit.
REMARCA - E oarecum la ghiceala, de asta e mai bun PDF-XCHANGE VIEWER.
APASATI OK
Apasati SAVE, si incepe EXTRACTIA propriu-zisa...
Continuam cu
PRELUCRAREA jpg cu ACDSEE 7
O FACEM inainte si/sau SI dupa prelucrarea jpg cu SCAN TAILOR
-pentru care gasiti Tutorial video la http://vimeo.com/12524529
Si un tutorial scris, simplificat de mine, in finalul acestui document.
Precautii si masuri necesare in prealabil:
1. Nu vei stoca poze /nu vei lucra in My documents,
intrucat Acdsee ''nu vede'' pozele din acest folder.
2. Te asiguri ca pozele tale sunt in 24 bitzi, si nu in 256 de culori sau 256 gray, si
nici in B-W.
Cu cat e mai mare poza cu atat avem sanse sa obtinem o rezolutie si claritate mai
mare...Dar, lui ABBYY la OCR ii va veni f. greu sa prelucreze un folder /carte jpg cu
POZE peste 6000 de pixeli pe verticala...
Am 2 computere
Unul cu procesor de 3 gigahertz si memorie de 1,5 giga,
Unul de 2 GHZ procesor, si memorie 2 GHz RAM asta merge mai greu - si am
lucrat o carte de 400 de pg, fiecare avand dimensiunea de 6000 pe verticala, pe bucati,
(am impartit cartea in 3 fisiere) in 3 zile a cate 6 ore/zi.
Cartea aia imi ocupa un folder de 400 de megabitzi pe hard, DAR in fisier
TEMPORAR - in cursul prelucrarii cu ABBYY - imi ocupa peste 10 giga de spatiu pe
hard.
Pentru lucrul la claritatea imaginii, cu ACDSEE7 dam dublu click pe o poza, intram
in ea adica.
Sus in meniu, apasam MODIFY
Alegem Edit mode
Apare edit panel
Dai zoomul pozei, mai mare, DE SUS din meniu, apasand pe LENTILE ca sa vezi
scrisul marit, iar marginile literelor vor aparea zdrentzuite.
1. ... apesi Color
Desi operatiile din meniul COLOR nu finalizeaza POZA, Jonglezi cu LIGHTNESS
si HUE pana obtii un contrast si o culoare mai potrivita, mai buna. Poti elimina astfel
backgroundul gri al pozei, el devenind ALB, iar scrisul ramanand negru.
Apesi APPLY si salvezi Presetul dandu-i nume sau cifra, ca sa poti folosi Presetul
pt restul fisierelor, la prelucrarea in grup..
Apesi DONE si Salvezi rezultatul obtinut cu titlu schimbat ca sa nu se suprascrie cu
poza bruta.
Rezultatele intermediare la OPERATIA de aici si la cele de mai jos, le pastrezi pana
TE HOTARASTI care anume este mai BUN.
2. Apoi, apesi meniul EXPOSURE
Alegi in dreapta sus meniul BRIGHTNESS, care contine 3 cursoare.
Jonglezi cu Brightness - Contrast - Gama
GAMA e la 50, il cobori in etape, pana spre 0, dar la fiecare coborire a lui GAMA,
cresti BRIGHTNESS si contrast, cate putin.
Alegi singur contrastul dorit, prin tentative succesive.
Apesi APPLY, si salvezi PRESETUL, dandu-i nume sau cifra, ca sa poti folosi
Presetul pt restul fisierelor...
Apesi DONE si Salvezi rezultatul obtinut cu titlu schimbat ca sa nu se suprascrie cu
poza bruta, sau cu cea anterior prelucrata.
PRELUCRARE
individuala
ACDSEE PHOTOEDITOR 3.1.
cu
LUCRUL CU ABBYY 9
Deschideti programul din iconitza
Mergeti la TOOLS Options si FACEM SETARILE de lucru efectiv si de produs
final (pentru a obtine un OCR cat mai bun), apoi mergem din tab in tab astfel:
- Document - setati limbile ROMANIAN, FRENCH, GERMAN, reusind astfel sa
obtineti recunoasterea tuturor accentelor, tremelor si umlauturilor. Daca Aveti doar
ROMANA in document, setati numai ROMANIAN.
Pentru sanscrita - de ex., expresii in operele lui Mircea Eliade - setati si LATVIAN
- contine , , , , - vocale cu MACRON deasupra, similare sanscritei...
LA CORECTURA restul simbolurilor se iau ulterior din butonul xp - Start-All
Programs-Accesories -System Tools- character map)
Pentru slavona, (chirilice vechi) sau alte limbi ale caror simboluri grafice NU SUNT
EXPLICITATE in ABBYY, luati simbolul in copy-paste, si/sau cautati SIMILARITATI
in google si in wikipedia.
-document print type - AUTODETECT.
- Scan/Open - bifati DO NOT READ and ANALIZE acquired page image
automatically
- in cazul in care bifati, ABBYY face recunoasterea automat IMEDIAT dupa
deschidere si introducere poze in ABBYY, FARA ca dv sa MAI aveti posibilitatea sa
REVIZUITI ZONAREA si FARA A PUTEA EDITA CU ABBYY rezolutia ,
INDREPTAREA PAGINII , INDREPTARE TEXT, etc..
- Image Processing - bifati ENABLE IMAGE PREPROCESSING
Bifati Corect Image Skew, indreapta imaginile strambe, rotite cu 1 grad sau chiar
cu 80, 90, 100 grade, etc.
Bifati DETECT PAGE ORIENTATION sesizeaza orientarea si roteste direct, la
introducere, pag stramb orientate, rasturnate cu 90 grade
Bifati Split Dual Pages), - taie pag duble in doua, automat, la jumatate (in dreptul
cotorului)
Este bine sa bifati, intrucat ULTERIOR, la editare page image, PUTETI
INDREPTA orientarea PAGINILOR strambe, precum si randurile strambe. DACA nu
faceti split, ABBYY mai indreapta cate ceva din chestiile strambe , DAR
NECORESPUNZATOR.
In cazul pag. scanate mizerabil, posibil sa taie aiurea. Reintroduceti paginile cu
pricina, din nou , la finalul INTRODUCERII-DESCHIDERII pozelor, si MUTATI-LE
manual la locul lor in locul celor taiate prost.
Daca nu o face bine ABBYY automat, aveti posibilitatea sa faceti SPLIT manual,
acolo unde e cazul, din meniul PAGE EDIT PAGE IMAGE-SPLIT, pozitionand
cursorul pe cotor, unde doriti.
De asemeni, din acelasi meniu, puteti taia pagina si pe orizontala, eliminand portiuni
nedorite.
Nu bifati Convert color and grayscale images to black and white... le elimina
acuratetea, si rezultatul ocr e f. Prost, similar operarii unor tifuri alb-negru, de adancime
mica, culoare (2 culori A-N) si de rezolutie f. slaba.
- READ - la Reading mode, bifati THOROUGH READING, la Training bifati
deocamdata DO NOT USE PATTERNS.
Cand veti avea probleme cu texte greu lizibile, veti fi nevoiti sa faceti TRAINING, si
ATUNCI veti folosi pe rand optiunile, bifand TRAIN USER PATTERN si apoi USE USER
PATTERN.
-SAVE - la Retain Layout, alegeti EDITABLE COPY sau FORMATTED TEXT.
Editable copy e bun in cazul cand aveti multe note de subsol. Abbyy le va pune la
locul lor in 90 la suta din cazuri.
Formatted text e bun in cazul cand nu aveti note de subsol.
Default paper size - alegeti A4
Ai si optiunea de Increase Paper Size, dar in cazul romanelor noastre, debifatzi.
O veti folosi numai daca SALVATI documentul CA EXACT COPY...
In cazul cand PAGINA POZA JPG de prelucrat nu e de format PORTRET ci e de
forma patrata, pentru a obtine un doc asemanator cu FORMATUL ORIGINAL al cartii
(patrat, de ex), se foloseste INCREASE PAPER SIZE.
La TEXT SETTINGS bifati NUMAI keep headers and footers
Chiar e nevoie de Header si Footer? Uneori acele 3-4 cuvinte din antet si subsol iti
dau textul peste cap.
Da, e nevoie, intrucat NOTELE DE SUBSOL se incadreaza tot acolo, din punctul
de vedere al lui ABBYY.
Daca nu bifati KEEP HEADERS and Footers, si...mai ales, daca nu verificati
zonarea, posibil ca ABBYY sa sara la RECUNOASTERE tocmai zonele cu note de
subsol.
Verificand zonarea ochiometric, dupa ce executati ANALIZE LAYOUT (care se
face automat), eliminati dv, manual, antetul care nu va trebuie, si verificati si PASTRATI
subsolul.
- Debifati restul, in caz contrar veti avea ENTER-URI puse de ABBYY la ORICE
SFARSIT DE RAND (care vor fi, in REALITATE, enteruri LA MIJLOCUL FRAZEI.
- la Picture settings, alegeti MEDIUM QUALITY, sub ADVANCED, exista tabul
More, se va apasa pe el
-debifati HIGHLIGHT Uncertain Characters.
-bifati ENABLE COMPATIBILITY with Microsoft Word 95)
- tabul VIEW, alegeti Thumbnail.
-Debifati HIGHLIGHT uncertain characters
-Bifati SHOW non printable characters,
-Bifati show zoom window scroll bars
LUCRUL EFECTIV cu ABBYY
Apasati FILE- OPEN PDF/image file
Cautati directorul in care aveti pozele prelucrate
Selectati ULTIMA POZA DIN folder, si apoi, CU CTRL apasat mergeti la PRIMA
poza din folder si dati click stg pe ea. SE VOR SELECTA TOATE. Verificati.
Apasati OPEN
Se introduc deja in ABYY.
Dupa introducere pag jpg in ABBYY
Accesati meniul PAGE EDIT PAGE IMAGE
Apasati DESKEW and STRAIGHTEN
Bifati Aplly to all
Apasati DESKEW IMAGE
Incepe indreptarea paginilor, asteptati.
Apoi, apasati STRAIGHTEN TEXT LINES (verificati sa fie bifat APLLY TO
ALL) incepe indreptarea randurilor de text, asteptati
Megeti apoi jos, la IMAGE RESOLUTION, bifati APPLY TO ALL, si completati
MANUAL in caseta OTHER, valorea de 600 (dpi) apasati APPLY, incepe modificarea
rezolutiei , asteptati.
Meniurile celelalte,
ROTATE, se foloseste pt rotire manuala a pag, din 90 in 90 de grade
CROP , pt taiere manuala a pag pe contur determinat de dv... se foloseste numai
daca este absolut NECESAR, de ex, pt a elimina o zona neagra (sau PESTRITZA) iesita
din scanare, - care ar deregla zonarea automata.... in rest e pierdere de timp, intrucat
ABBYY va face automat zonarea.
Cu SPLIT am cam lamurit deja, mai sus.
INVERT, transforma POZA JPG in negativ fotografic, inversand culorile.
Trecem imediat la ZONAREA AUTOMATA A PAGINILOR
Din meniul DOCUMENT ANALIZE PAGE LAYOUT
Dupa terminare, treceti apoi manual, din pag in pag - le vizualizati pe fiecare in
parte, verificand zonarea automata, si AJUSTATI MANUAL chenarul de zonare, tragand
cu mouse-ul de liniile chenarului, asigurandu-va ca respectivul chenar incadreaza
PERFECT textul. Eventualele zone ne-chenaruite le chenaruiti MANUAL.
- In cazul in care apar zone in plus, chenaruite, care contin elemente ce nu doriti sa
apara in final, eliminati manual acele zone - selectand zona cu mouse-ul click stg pe ea,
si dand DELETE.
Se elimina multe artefacte in acest fel.
Puteti elimina inclusiv numarul de pagina.
Unii pastreaza NR PAGINII, pentru a se orienta mai usor confruntand copia doc cu
scanul, la corectura.
Eliminand zonele in plus, mariti viteza de citire a programului.
Daca e nevoie, eliminam MANUAL, headerul si footerul, intrucat acestea
CONTRIBUIE la aparitia unei PROASTE ZONARI in cazul unui scan mizerabil - sau in
cazul in care HEADERUL contine imagini, grafica, ornamente, etc.
- verificati ORDER, ordinea de zonare pentru OCR, notata cu cifre 1,2,3 in coltul
fiecarei zone. Asta e ordinea in care ABBYY va face recunoasterea, .... daca treceti
superficial peste acest aspect, vi se inverseaza ordinea paragrafelor in textul final. La
abbyy 10, ORDINEA ZONARII apare numai din MENIU sus , AREAS ORDER
AREAS.
(EmDash) sau
(EnDash)
Cu:
-- --
EmDASH
Mode
faci teste si vezi care iti place:
BLACK AND WHITE - alb negru
Dai zoomul mare al pozei, click pe poza
jonglezi din rotitza mouse
sau din tastele + PLUS si - MINUS
marind scrisul ca sa vezi detaliile literei, contur, etc.
COLOR/GRAYSCALE - color, sau gri
in modul COLOR, bifezi WHITE MARGINS
Apoi bifezi si EQUALIZE ILLUMINATION
si verifici prin probe - bifat egalizare - debifat egalizare
alegand varianta care iti place
MIXED - daca ai COMBINATIE de foto si text in pag JPG,
SCANTAILOR prelucreaza SINGUR, distinct, astfel:
scrisul il scoate ALB-NEGRU,
poza in culori
Cursorul THINNER - THICKER, la jumatate de obicei.
Actioneaza numai in modurile ALB - NEGRU si MIXED
il dai in stg - subtie scrisul, il face mai sters
in dreapta - ingroasa textul, il face mai BOLD
APPLY TO - ALL PAGES.
Ulterior, vei verifica vizual fiecare pagina, si UNDE a iesit prea
ingrosat, reduci spre THINNER,
si dai din NOU OUTPUT doar acelei pagini.
Le poti baga direct in ABBYY ca tif, pe cele B/W., daca nu mai necesita prelucrari
suplimentare cu ACDSEE.
La ABBYY 11 am obtinut rezultate proaste cu tifurile simple rezultate din SCAN
TAILOR si cu cele tif reconvertite in jpg cu ACDSEE.
E vorba de cazul pag prost scanate, si ULTERIOR re-conditionate/convertite,
deoarece nici Abbyy si nici Scan Tailor nu reusesc sa refaca rezolutia pozei, marindo la 600 dpi, si ABBYY 11 pur si simplu NU VEDE SCRISUL PAGINII, ca si cum ar
fi pagina foto blank, sarind peste randuri.
In aceste cazuri, (poze cu 100 dpi-200dpi) reduceti Standardul de rezolutie de
600 dpi, la o rezolutie de doar 300 dpi, sau valori intre 300 si 400 dpi.
Posibil ca la 300 dpi - sa mearga bine, si ca Abbyy sa reuseasca sa recunoasca
pagina.
Dar, per total, NU RECOMAND ABBYY 11.
La OCR, faci probe OCR cu 3- 4 pag. Jpg/tif
Daca nu iti place cum iese recunoasterea,
convertesti TOT setul de tif din scantailor, in JPG, cu ajutorul ACDSEE, si le dai si
un resize la jpg-urile obtinute final, la 4700 5000 sau chiar 5500-6000 pixeli
verticala, daca te tine procesorul.
Vei fi surprins de calitatea OCR.
(In final, daca iti vine sa trantesti computerul de pamant, inseamna ca ai gresit pe
undeva sau ai vrut sa fentezi indicatiile) :)))))))