Sunteți pe pagina 1din 33

Versiune tutorial:

Minitutoriale e-book

Cuprinsul:

1. Scan Tailor Generaliti .. 3 2. Crearea unui Proiect Scan Tailor .. 5 3. Etapele Proiectului Scan Tailor . 10 3.1. Fix Orientation 10 3.2. Split Pages .. 12 3.3. Deskew . 16 3.4. Select Content .. 19 3.5. Margins ... 22 3.6. Output .. 26 3.7. Salvarea n dou variante a unui proiect Scan Tailor .. 31 n loc de ncheiere .. 32

Iniiere n utilizarea Scan Tailor

1. Scan Tailor Generaliti

Istoric Scan Tailor este una dintre cele mai folositoare aplicaii, ce vine n sprijinul aciunii de digitalizare a crilor. Scan Tailor este o aplicaie cu licen free (GNU General Public License), realizat ntr-un proiect de Joseph Artsimovich, proiect ce se afl n plin dezvoltare i perfecionare. Prima variant a proiectului a fost oferit publicului la 14.05.2008. n perioada 01.09.2008 24.10.2010 s-a trecut la un nivel superior al proiectului, realizndu-se versiunile 0.9 (0.9.0 0.9.9.2) Pagina de download pentru versiunea 0.9.9.2: http://scantailor.sourceforge.net/?q=en/node/3 n aceast perioad este lansat versiunea 1.0.0 beta. Domeniul de aplicare Aplicaia proceseaz pagini scanate sau fotografiate, n vederea printrii (imprimrii) sau asamblrii lor ntr-un fiier PDF sau DjVu. Scanarea, recunoatere optic a caracterelor, imprimarea, asamblarea n documente cu mai multe pagini, de tip PDF, DjVu etc., nu fac parte din domeniul de aplicare al acestui proiect. Atenionare Scan Tailor realizeaz proiecte complete i nu poate fi folosit doar pentru rulri pariale ale unora dintre etape; imaginile prelucrate se salveaz numai dup rularea ntregului program. Dificulti n folosirea programului Programul poate prea dificil de folosit la prima vedere. Interfaa nu ajut foarte tare i nu spune foarte multe despre prelucrrile ce se pot executa cu aceast aplicaie. n realitate sunt necesare cunotine minime despre calculator, iar cele cteva indicaii din acest minitutorial vor fi suficiente pentru realizarea unor prelucrri de calitate. Cu timpul, experiena i descoperirea altor faciliti ale programului vor face posibile prelucrri mult mai complexe. Sursa imaginilor ce vor fi ncrcate n proiect Vom numi n acest minitutorial, Proiect Scan Tailor (PrST), activitatea de prelucrare a unui set de imagini prin rularea complet a programului Scan Tailor. Imaginile de prelucrat, pot fi de tip jpg, png, tiff etc., grayscale sau color, rezultate din orice scanare sau fotografiere fr a fi prelucrate n prealabil.
3

Minitutoriale e-book

n cazul scanrii direct din Abbyy se vor copia ntr-un folder special creat, imaginile tiff din folderul Abbyy 9 sau se vor salva imagini n orice format (de preferat jpg) n cazul Abbyy 10. Este important de reinut c imaginile rezultate dintr-un Proiect Scan Tailor pot fi salvate att alb-negru, dar i color/grayscale, n funcie de setrile pe care le vom face n acest sens. Imaginile color/grayscale rezultate pot fi ncrcate n Abbyy pentru realizarea OCR, dac este necesar. Se pot prelucra att imagini bipagin dar i imagini monopagin (la crile mari se poate scana i cte o singura pagin la o scanare). Imaginile pot avea greeli de geometrie a imaginii: pot fi prelucrate imagini cu paginile nclinate spre stnga sau spre dreapta la orice unghi, pot fi prelucrate imagini n care paginile sunt lipite de oricare col al imaginii ori centrate. n figura 01, se pot vedea pagini nclinate (img. 006, 010, 015, 016), dar i pagini lipite de diferite margini ale imaginii. La aceste imagini nu ar fi fost posibil un crop n grup cu un editor clasic de imagini, deoarece poriunea de eliminat se afl n diferite zone ale imaginii; se putea realiza doar crop individual, operaiune mai dificil.

Figura nr. 01
4

Iniiere n utilizarea Scan Tailor

La versiunea Scan Tailor 0.9.9.2 nu se poate corecta deformaia paginii sub form de trapez. Din informaiile de pe pagina programului, rezult c acest lucru face obiectul preocuprilor autorului pentru versiunile urmtoare. Timpul de prelucrare a unui set de imagini, depinde de performana computerului, de numrul de pagini de prelucrat i de necesitatea de a interveni manual n cazul unora dintre imagini. Din motive ce vor fi detaliate la etapa Margins, se recomand ca toate imaginile rezultate la scanarea unei cri s fie prelucrate ntr-un singur proiect Scan Tailor; nu se recomand prelucrarea pe pri a unei cri, deoarece fiecare procesare va stabili o alt dimensiune a paginilor, astfel nct n pdf vor aprea mai multe dimensiuni ale paginilor.

2. Crearea unui Proiect Scan Tailor


Se deschide programul Scan Tailor. La deschidere, fereastra programului arat ca n imaginea urmtoare.

Figura nr. 02

Alegem opiunea [New Project...] de pe butonul din centru ferestrei sau folosind meniul principal: File New Project... Se deschide fereastra Project Files ca n figura 03.
5

Minitutoriale e-book

Figura nr. 03

n partea de sus a ferestrei, n dreptul etichetei Input Directory se stabilete folderul care conine imaginile de prelucrat, scriind calea de la tastatur sau folosind butonul [Browse]. n dreptul etichetei Output Directory nu trebuie pus nimic, deoarece n folderul stabilit la Input se va crea automat un subfolder ...\out, unde se vor salva imaginile prelucrate. Chiar dac la Imput se va stabili o alt cale, programul va salva imaginile tot ntr-un subfolder out subordonat folderului de prelucrat. n fereastra cu eticheta Files In Project vor aprea n coloan numele imaginilor din folderul respectiv. Dac toate imaginile trebuie prelucrate se acioneaz butonul Select All i butonul OK. Dac exist imagini ce nu dorim s fie prelucrate (de exemplu: copertele sau alte imagini), acestea vor fi selectate cu ajutorul mausului i tastei Ctrl
6

Iniiere n utilizarea Scan Tailor

i prin folosirea butonului vor fi trecute n fereastra Files Not In Project, deci nu vor fi prelucrate. Dup stabilirea imaginilor ce nu vor fi prelucrate se iese din fereastr prin apsarea butonului OK. E posibil s se deschid o fereastr asemntoare celei din fig. 04. n acest caz nseamn c imaginile sunt la o rezoluie sub 300 dpi. De remarcat c, ferestrele de la eticheta [DPI] nu se pot edita.

Figura nr. 04

Se face clic cu mausul pe All pages ca n fig. 05. n acest moment, ferestrele de la eticheta [DPI] se pot edita. Dac punem rezoluia real, inferioar rezoluiei 300 dpi, proiectul nu va fi rulat, programul Scan Tailor nu va funciona. De aceea va trebui s minim i s alegem 300 300, apoi salvm setarea cu butoanele [Apply] i [OK].

Figura nr. 05
7

Minitutoriale e-book

Ce trebuie reinut n legtur cu rezoluia la intrare? Programul este conceput s prelucreze imagini scanate la rezoluia 300, 400 sau 600 dpi. Nu se pot prelucra cu rezultate bune imagini cu o rezoluie sub 300 dpi. La sfritul proiectului, programul poate salva imagini grayscale sau albnegru la rezoluii de 300, 400, 600 dpi sau valori particularizate. Presupunem c imaginile la intrare sunt la rezoluia 96. Vom pune rezoluia fals de 300 dpi, doar din motivul de a rula programul i vom salva n final imaginile la rezoluia de 300 dpi. n realitate imaginea final va avea tot rezoluia de la intrare, adic 96 dpi rularea programului nu va influena rezoluia real. Dac vom salva aceste imagini la rezoluia de 600 dpi (deci dublu fa de ct am setat la intrare), rezoluia real va fi de 96 2 = 192 dpi. Practic, pn aici a fost etapa de deschidere a proiectului Scan Tailor. n acest moment stabilim un nume pentru salvarea proiectului, folosind meniul principal: File Save Project As... Dup salvarea numelui proiectului, se revine automat n fereastra principal a programului, care va arta ca n imaginea din fig. 06.

Figura nr. 06

Iniiere n utilizarea Scan Tailor

Cteva detalii despre aceast fereastr: Se observ 3 zone principale: n stnga sus este afiat meniul principal al etapelor de prelucrare i tot n stnga, sub meniu, se afieaz explicaii, opiuni, parametrii sau setri a etapelor i secvenelor de prelucrare; n centru este afiat, imaginea asupra creia se fac prelucrri; n dreapta, se afieaz unele sub altele, miniaturi ale imaginilor de prelucrat; n fig. 06, se observ c prima imagine este ncadrat ntr-un dreptunghi albastru nchis aceeai imagine se afl i n plan central este imaginea care se prelucreaz. Pe aceste miniaturi se poate constata dac o imagine a fost sau nu a fost prelucrat, se observ succesiunea de prelucrare etc. Tot din aceast fereastr, la unele etape, se poate stabili dac procesarea se va face asupra tuturor paginilor, ori numai a celor din stnga sau numai a celor din dreapta. n diferite etape de prelucrare, n aceast fereastr unele imagini vor avea pe fundal un semn grafic, sub forma unui semn de ntrebare. Acest tip de marcaj arat c acele imagini nu au fost procesate. Fig. 07 reprezint pagini neprelucrate ce apar n fereastra miniaturilor, n ultima etap a programului Output. n imaginea 07a nu exist pagini prelucrate; n imaginea 07b se observ c imaginea de sus este prelucrat (n acest caz s-a ales salvarea paginilor n alb-negru), iar urmtoarele sunt neprelucrate.

a
Figura nr. 07
9

Minitutoriale e-book

3. Etapele Proiectului Scan Tailor

Figura nr. 08

Programul Scan Tailor are 6 etape de realizare a proiectului fig. 08: 0 1. Fix Orientation rotete la 90 spre stnga sau spre dreapta (dac e nevoie) imaginea, astfel nct textul s fie citit normal. 2. Split Pages mparte imaginea bipagin (imaginea cu pagin dubl) n 2 imagini monopagin. 3. Deskew Corectarea fin a nclinrii paginii. 4. Select Content selectarea coninutului real, a blocului de text i/sau imaginilor de pe pagin. 5. Margins stabilirea dimensiunilor marginilor n jurul coninutului util al paginii. 6. Output procesarea final, cuprinde 5 pachete de opiuni pentru prelucrri speciale, care pot executa prelucrri i corectri complexe ale textului i pozelor dintr-o pagin; n aceast etap, nu este obligatorie rularea tuturor opiunilor oferite de aplicaie, astfel nct utilizatorul, n funcie de experien i dorine, poate folosi un numr mai mare sau mai mic de funcii i opiuni de prelucrare, puse la dispoziie de ctre program. 3.1. Fix Orientation n aceast etap nu sunt probleme deosebite de clarificat. n funcie de orientarea imaginilor, exist mai multe situaii: Cnd toate imaginile sunt cu textul poziionat corect; n acest caz programul nu trebuie s proceseze nimic, dar nu se poate trece la etapa urmtoare fr rularea acestei etape, fapt pentru care se d comanda de rulare automat, apsnd butonului aflat n dreapta numelui etapei. Cnd toate imaginile trebuie rotite spre stnga sau spre dreapta; observm sub fereastra meniului cu etapele principale ferestrele a dou etichete [Rotate] i [Scope], vezi fig. 09.
10

Iniiere n utilizarea Scan Tailor

Figura nr. 09

Pentru corectarea orientrii imaginilor apsm unul dintre cele dou butoane , apoi butonul . n acest se va deschide o fereastr Fix Orientation n care vom activa cea de-a doua opiune All pages, adic aciunea de rotire este valabil pentru toate imaginile. Iei, din fereastr, acionnd butonul [OK], apoi apsm butonul rulare automat, ca n situaia precedent.

Figura nr. 10
11

Minitutoriale e-book

Cnd majoritatea imaginilor au orientare corect i un numr mic de imagini trebuie rotite cazul concret din fig. 10. n aceast situaie, se trec n revist imaginile prin vizualizarea miniaturilor din dreapta ferestrei fcnd setri manuale numai n cazul imaginilor ce trebuie rotite. Cnd n derularea miniaturilor apare o imagine ce trebuie corectat, se face clic pe miniatur, imaginea se afieaz mrit n centru, apoi acionnd unul dintre cele dou butoane , facem corecia imaginii. Acionm butonul [Aply to] i alegem prima opiune This page only, pentru a aciona numai asupra acestei imagini. Se reia rularea miniaturilor pn la apariia unei alte imagini ce necesit corectarea orientrii, procedndu-se similar. Se repet procedura pn la rezolvarea tuturor imaginilor ce necesit corectarea orientrii. La sfrit se d comanda pentru rularea automat a etapei, acionnd butonul . De reinut: Se poate face mai nti corectarea individual a imaginilor cu probleme, apoi rularea automat, dar se poate proceda i invers, mai nti rularea automat, dup care corectarea manual a imaginilor de corectat. Indiferent care e ordinea execuiei, efectul final este acelai. Acest lucru este valabil n toate etapele. 3.2. Split pages

Figura nr. 11
12

Iniiere n utilizarea Scan Tailor

La procesarea imaginilor n etapa Split Pages, fereastra programului arat ca n figura 11. Sub fereastra meniului etapelor principale, exist urmtoarele etichete i opiuni: Page Layout, n care se poate seta: nemprirea imaginii, mprirea asimetric a imaginii sau mprirea simetric a imaginii ; Split Line, cu dou opiuni: Auto i Manual. n mod normal programul va avea active opiunile mprire simetric a imaginii i modul automat, ca n fig. 12.

Figura nr. 11

Avnd setate astfel cele dou opiuni, se d comanda Rulare automat, acionnd butonul din dreptul opiunii Split Pages din meniu. Dup rularea automat, n fereastra miniaturilor va fi marcat prima imagine, iar n planul central al ferestrei programului va fi afiat n format mrit aceast imagine. Pe timpul rulrii automate, care va dura o perioad de timp ce depinde de numrul de imagini de procesat i performana computerului, n dreptul etapelor care ruleaz va aprea semnul iar n fereastra din mijloc va aprea imaginea din fig. 12.

Figura nr. 12
13

Minitutoriale e-book

Se poate opri sau ntrerupe aceast procesare automat prin acionarea butonului central (STOP). De asemenea, se poate activa opiunea Beep when finished pentru ca programul s dea semnal sonor de avertizare la ncheierea procesrii. Aceste semne, indicatoare i semnale se afieaz i au acelai rol n oricare dintre etapele de prelucrare. Atunci cnd se proceseaz automat o etap, semnul dreptul etapelor anterioare. apare i n

n cazul scanurilor de calitate, avnd imagini cu contrast i luminozitate corect stabilite, rezoluie 300 dpi i pagini simetrice, nenclinate, mprirea automat al paginilor se realizeaz fr probleme, nemaifiind nevoie de intervenii manuale asupra unora dintre pagini. n cazul imaginilor de calitate necorespunztoare (contrast i iluminare insuficiente, rezoluie sub 300 dpi, pagini asimetrice i nclinate ca n exemplul din fig. 01, mprirea automat a paginilor nu se realizeaz totdeauna perfect, fiind nevoie de verificarea modului n care s-a realizat splitul (mprirea imaginilor bipagin) i, eventual corectarea manual a splitului n cazul paginilor cu probleme. Este de reinut c Scan Tailor este programul care realizeaz cel mai eficient splitul imaginilor cu probleme. Chiar dac acest program ar fi fost conceput doar cu funcia de split al imaginilor bipagin, el ar fi meritat toat atenia creatorilor de carte electronic. Toate celelalte programe folosite n mod uzual pentru a realiza split, fac mprirea paginilor cu linie perfect vertical. La aceste programe exist posibilitatea deplasrii spre stnga sau spre dreapta a liniei de split, dar linia rmne totdeauna vertical, programele neputnd rezolva n mod eficient imaginile cu pagini nclinate (ex. fig.13).

Figura nr. 13
14

Iniiere n utilizarea Scan Tailor

Scan Tailor e special, chiar n acest sens; se poate manevra manual fiecare capt al liniei de split, astfel nct linia poate avea o nclinare de peste la 45O, practic fiecare capt al liniei de split se poate deplasa pe toat orizontala, de la marginea stng la marginea dreapt. n figura 14a avem o imagine bipagin cu split normal, iar n 14b, se d un exemplu de deplasare maxim a capetelor liniei de split. Se observ c linia de split poate face un unghi mai mare de 45O fa de vertical.

a
Figura nr. 14

1a

1b
Figura nr. 15
15

2a

2b

Minitutoriale e-book

Chiar i la imaginile cu probleme de calitate, splitul realizat prin rulare automat este destul de bun. n figura 15 sunt 4 imagini. Cele notate cu 1a i 2a reprezint detalii dintr-un split realizat automat, iar imaginile notate cu 1b i 2b, reprezint aceleai pagini dup corectarea manual a liniei de split. Observm ca fiecare capt al liniei de split este marcat cu un semn sub form de sfer. Pentru corectare, capetele liniei se pot deplasa cu mausul inut apsat pe cte una dintre aceste sfere, sau linia se poate deplasa spre stnga sau spre dreapta dac mausul e pus ntr-o zon a liniei aflat ntre sfere. Practic, la aceast etap se d comanda de rulare automat a procesrii, apoi se vizualizeaz miniaturile prin deplasarea cursorului din fereastra miniaturilor, iar la imaginile care au probleme se intervine manual. 3.3. Deskew Este etapa n care programul face verificarea i corectarea orizontalitii textului. Etapa urmtoare, Select Content este strns legat de etapa Deskew, n sensul c: toate imaginile care prezint probleme de nclinare a paginii fa de axa vertical i care necesit corectarea unghiului n etapa Deskew, vor prezenta probleme i la selectarea blocului de text-imagine. E posibil ca o pagin perfect vertical s nu fie selectat corect, dar este imposibil ca o pagin nclinat, s fie selectat corect. Din acest motiv succesiunea secvenelor de execuie cea mai eficient este urmtoarea: se execut procesarea automat n etapa 3 Deskew; se execut procesarea automat n etapa 4 Select Content; dup executarea celor dou procesri automate se face o verificare a corectitudinii selectrii coninutului (Select Content) a fiecrei pagini n parte, prin vizualizarea acestora n fereastra central a ecranului. Nu este suficient vizualizarea miniaturilor, deoarece pot scpa detalii minore, ce pot fi vzute doar n fereastra central a programului; unele detalii pot avea impact serios asupra ntregului proiect acest lucru va fi detaliat la etapa stabilirii marginilor paginii. Exist o excepie de la aceast succesiune: dac, s presupunem, toate imaginile au o nclinare la acelai unghi, corectarea nclinaiei se poate face nainte de procesarea automat. Practic, aceast situaie nu se poate ntlni, dect n eventualitatea realizrii imaginilor cu unui scaner cu alimentare automat i cu defect de alimentare. Dei activitatea de corectare a nclinrii paginilor se va executa n etapa urmtoare, este preferabil ca aceasta s fie descris n cadrul acestui subcapitol.
16

Iniiere n utilizarea Scan Tailor

Presupunem c s-a terminat executarea procesrii automate a selectrii de coninut a paginilor i s-a trecut la vizualizarea paginilor. La verificarea paginilor, constatm c una dintre pagini nu are textul ncadrat corespunztor, dreptunghiul de selecie nu are laturile paralele cu marginile textului (fig. 16a). Vizualiznd aceast pagin i n fereastra etapei Deskew vom observa c pagina este nclinat fa de axa vertical (fig. 16b), fapt pentru care trebuie corectat nclinarea paginii.

a
Figura nr. 16

Revenim la fereastra principal a Project Scan Tailor, etapa Deskew. Sub fereastra meniului principal se afl eticheta Deskew , fig. 17.

Figura nr. 17

n mod normal este activat butonul [Auto], deoarece procesarea s-a fcut automat; butonul [Manual] se va activa n momentul n care vom aciona asupra unghiului de nclinare. Se mai observ o caset numeric, unde
17

Minitutoriale e-book

putem interveni pentru reglaje foarte fine asupra unghiului. Butonul [Apply To] nu este obligatoriu s fie folosit. Dac l folosim va trebui s activm prima opiune This page only, dar nu va fi nevoie, deoarece Scan Tailor d prioritate setrilor manuale fa de cele automate. Dup ce vom corecta manual unghiurile de nclinare a unor pagini, oricte procesri automate vom rula, unghiurile acestor pagini nu se vor schimba, nici dac aceste sunt voit greite.

Figura nr. 18

18

Iniiere n utilizarea Scan Tailor

S analizm fereastra central cu imaginea mrit n etapa Deskew. Se observ urmtoarele elemente grafice de culoare albastr: grila, de culoare albastr i pstreaz poziia indiferent de unghiul de nclinare al paginii i folosete ca elemente de reper pentru compararea nclinrii rndurilor fa de orizontal i a marginilor din stnga, respectiv dreapta a blocului de text. linia orizontal central marcat cu linie ngroat. dou arce de cerc pe care se afl cte un marcaj n forma unei mici sfere, marcaj specific Scan Tailor. pagina de carte suprapus peste grile i marcaje. Corecia manual se face trgnd cu mausul de unul din marcaje n sus sau n jos, astfel nct rndurile textului s devin paralele cu liniile de gril orizontale, iar marginile din stnga, respectiv dreapta ale blocului de test s fie paralele cu liniile verticale ale grilei. Pentru reglaje de mare finee se pot introduce valori ale unghiului n caseta de unghiuri din fig. 17. Se pot introduce valori foarte mici, pn la o sutime de grad. Se va ine cont de faptul c rotirea n sensul acelor de ceasornic (nclinarea spre dreapta), corespunde valorilor negative ale unghiului (valori negative), iar rotirea n sensul invers acelor de ceasornic, (nclinarea spre stnga), corespunde valorilor pozitive (valori pozitive) ale unghiului. 3.4. Select Content Revenim la Select Content, despre care am spus cteva lucruri n subcapitolul anterior. Principalele erori de selectare a blocului text-imagine ce pot rezulta din procesarea automat se pot grupa n trei categorii: eroare determinat de nclinarea paginii; selectarea unei suprafee mai mici dect blocul de text real; selectarea unei suprafee mai mari dect blocul de text real; Prima categorie de erori a fost detaliat n subcapitolul anterior. Selectarea unei suprafee mai mici dect blocul de text real poate aprea n zona imaginii cu contrast insuficient i iluminare ridicat. Cele mai frecvente situaii se constat n zona de la marginea textului dinspre interiorul crii (zona de lipire a paginilor), dar pot aprea i n marginea exterioar a paginii. Cauzele principale sunt: Greeli de scanare: a ptruns lumin din surse externe sub pagina de carte pe timpul scanrii; a fost micat cartea pe timpul scanrii. Defecte de tipar: cerneal ntins neuniform sau cu pigment slab. Carte veche, cu tipar deteriorat i hrtie nglbenit.
19

Minitutoriale e-book

Rezolvarea erorii se face trgnd de linia de contur, mrind suprafaa de selecie, astfel nct s ncadreze tot textul. Selectarea unei suprafee mai mari dect blocul de text real. Eroarea apare deoarece Scan Tailor interpreteaz diverse pete sau zone nnegrite ale imaginii, ca fiind caractere-text sau imagine. Defecte de scanare: cartea nu este suficient presat n zona cotorului, pe ecranul scanerului, fapt pentru care poriunea dintre pagini este nnegrit; dac poriunea nnegrit se ntinde pn n zona textului i dac are i nuan de culoare apropiat de cea a textului, eroarea apare mai frecvent. Erori determinate de calitatea hrtiei i a tiparului: pete pe imagine determinate de elemente strine n structura hrtiei, hrtie ptat; De reinut: la finalul procesului de prelucrare a imaginilor, Scan Tailor stabilete mrimea paginii etalon astfel: pentru stabilirea limii paginii etalon se ia n calcul pagina cu cea mai mare lime a seleciei de coninut; pentru stabilirea nlimii paginii etalon se ia n calcul pagina cu cea mai mare nlime a seleciei de coninut; la aceste dimensiuni se adaug marginile setate la etapa 5 Margins. Rezult deci, c dac o singur pagin are selecia blocului text-imagine stabilit n mod eronat mai mare dect cea corect, toate paginile vor fi mai fi mai mari; pentru ca toate paginile s aib aceleai dimensiuni, n jurul selectrii de text corect se va aduga o margine mai mare dect cea setat, ea avnd limea att ct este necesar pentru a se ajunge la dimensiunile mrimii etalon.

a
Figura nr. 19
20

Iniiere n utilizarea Scan Tailor

n fig. 19, sunt detaliate 2 cazuri de mrire eronat a seleciei pe lime. n fig. 19a eroarea este provocat de marginea foarte nnegrit a paginii determinat de scanare incorect, iar n fig. 19b, eroare este provocat de structura lemnoas a hrtiei (cele dou pete negre din dreapta).

a
Figura nr. 20

n figura 20, n ambele situaii, eroarea de selecie este determinat de pete aflate pe coala de hrtie. Corectarea manual a seleciei de coninut eronate. Se trage cu mausul de latura dreptunghiului de selecie n direcia corect, astfel nct marginea dreptunghiului s fie ct mai aproape de marginea blocul text, fr a se suprapune peste acesta. Suprafaa dreptunghiului de selecie trebuie s fie doar foarte puin mai mare dect blocul text-imagine De reinut: La aceast etap, pentru o mai uoar gsire a erorilor, se recomand ca dup executarea procesrilor automate s folosim opiunea de afiare a paginilor n funcie de dimensiune limii, respectiv a nlimii seleciei de coninut. Opiunile sunt afiate n partea de jos a ferestrei miniaturilor, i cuprind cele trei variante de ordonare a afirii paginilor: Natural order Ordonate natural (n ordinea fireasc a paginilor); Order by increasing width ordonate dup lime (cresctoare); Order by increasing height ordonate dup nlime (cresctoare).
21

Minitutoriale e-book

Alegnd pe rnd opiunea a doua i a treia, avem posibilitatea s gsim mai uor erorile de selectare a blocului de text-imagine, innd cont c ordonarea se face n ordinea cresctoare a dimensiunilor. n mod normal n paginile de nceput a ordonrii se pot descoperi erori de selectare n minus fa de limea sau nlimea blocului text-imagine, iar n paginile de la sfritul afirii putem descoperi erori de selectare n plus fa de limea sau nlimea blocului de text-imagine. 3.5. Margins Este una dintre etapele unde iniial setrile vor fi stabilite identic pentru toate paginile, dup care se va da comanda de procesare automat. n partea stng a ferestrei programului, sub meniul etapelor principale se observ blocul de comenzi a dou etichete: Margins i Alignment. Margins (fig. 21a) stabilete opiunile marginilor ce se vor lsa n jurul seleciei de coninut (a blocului text). Dimensiunile sunt n milimetri i se aplic aceleai dimensiuni pentru toate paginile. Din motive estetice, marginile nu trebuie s fie foarte mari, dar nici nu se recomand diminuarea exagerat a lor sau eliminarea total. Valoarea de 4 sau 5 mm este indicat a fi stabilit pentru toate laturile. Din imagini de pagini cu margini de 4-5 mm se obin cri format PDF cu un aspect plcut i uor de citit. Unii utilizatori ai programului recurg la stabilirea unor valori foarte mici (12 mm) sau la eliminarea marginilor, cu scopul de a obine n final un pdf din imagini cu valori mici. Influena dimensiunilor paginilor este nesemnificativ asupra mrimii pdf din imagini. Valorile mici ale marginilor sau eliminarea lor, dau un aspect neplcut al pdf din imagini i o anume stare de disconfort pe timpul cititului pe ecranul calculatorului, dar poate ncadra mai bine pagina pe un e-reader.

a
Figura nr. 21
22

Iniiere n utilizarea Scan Tailor

Alignment (fig. 21a) stabilete diferitele variante de aliniere a blocului de text fa de vertical i orizontal ori aliniere la centru. Se poate alege orice variant n funcie de caracteristica de tiprire a crii, astfel: dac toate paginile conin antet (titlul, numrul de pagin i/sau numele autorului, atunci este recomandat alinierea sus-central); dac toate paginile au numr de pagin amplasat la baz i numrul de pagin a fost inclus n blocul text se poate alege alinierea jos-central. Dup stabilirea criteriilor de aliniere, cu ajutorul butonului [Apply To...] se alege opiunea All pages (fig. 21), dup care se apas pe butonul procesare automat.

Figura nr. 21

Dup executarea procesrii automate, va trebui s revenim cu setri manuale la cteva pagini de format special, pagini n care blocul text este situat n poziii diferite fa de celelalte pagini (fig. 22).

b
Figura nr. 22
23

Minitutoriale e-book

Aceste pagini se pot clasifica n 3 categorii, astfel: a) pagini nceput de capitol, n care blocul de text se afl poziionat mai jos dect la celelalte pagini. La aceste pagini trebuie stabilit manual aliniere jos-central (fig. 22a); b) pagini sfrit de capitol, n care blocul de text nu se ntinde pn n partea de jos a paginii. La aceste pagini trebuie stabilit manual aliniere sus-central; dac pagina este numerotat i selecia cuprinde i numrul de pagin, atunci pagina poate rmne aliniat i jos-central (fig. 22b); c) pagini de titlu (fig. 22d); sunt pagini care cuprind un bloc de text cu suprafa mic aliniat central pe orizontal, dar situat diferit de la caz la caz pe vertical; poate fi situat central pe pagin sau n partea de sus sau jos a paginii, dar la distan variabil fa de marginea de sus/jos. d) pagini de tip motto (fig. 22c); este vorba de pagini care cuprind un bloc de text poziionat atipic, diferit de oricare dintre exemplele de mai sus. Aceste pagini sunt cel mai dificil de aliniat. Textul se poate afla situat pe pagin mai spre stnga sau mai spre dreapta i mai sus sau mai jos, fr a fi aliniat la vreuna dintre margini. Atenie: Chiar n momentul n care se aleg opiunile de aliniere i se stabilesc valorile marginilor, n fereastra central se afieaz pagina, aa cum ar arta ea la ncheierea procesrilor. Aceast facilitate a programului de a afia imaginea paginii chiar n timp ce alegem variantele de setare, ne permite s constatm imediat dac aceste setri sunt cele corecte sau nu, i s gsim imediat varianta optim. S analizm posibilitile de aliniere i corecie a setrilor, lund pentru exemplificare, o pagin de titlu.

a
Figura nr. 23
24

Iniiere n utilizarea Scan Tailor

n fig. 23, selecia blocului de text este cea obinut prin procesarea automat. Valoarea marginilor este 4 mm pentru toate laturile, dei aceste valori nu au importan pentru n acest exemplu. Alinierea paginilor este urmtoarea: pagina din fig. 23a este aliniat centru-centru, cea din 23b este aliniat centru-jos, iar cea din 22c este aliniat centru-sus. Se observ c niciuna dintre variantele de aliniere nu este corect. n fiecare dintre exemple exist o zon mai mare sau mai mic din pagina original, la care, pentru completarea dimensiunilor paginii, programul adaug o suprafa alb (n imagine n partea de sus a paginii, la exemplele a i b; i n partea de jos a paginii, la exemplul c. Nu mai exist o alt variant de aliniere pe vertical n afara celor din exemplu; rezult c trebuie intervenit la alt setare. Ne ntoarcem n etapa anterioar (4. Select Content) i vom modifica dreptunghiul de selectare a blocului de text. Deoarece blocul de text se afl poziionat n partea superioar a paginii, este mai uor s ncercm o aliniere centru-sus. Pentru ca alinierea s devin valid, vom proceda la modificarea dreptunghiului de selecie text, trgnd cu mausul de latura sa de sus, pn n zona aproximativ unde ar ncepe blocul de text la paginile obinuite fig. 23b. Revenind cu pagina modificat astfel, n etapa de procesare 5. Margins i alegem varianta de aliniere sus-central. Constatm c pagina este corect ncadrat, nu mai exist suprafa alb adugat de program pentru completarea paginii, rezultnd c acestea sunt setrile optime fig. 23c.

a
Figura nr. 23

Dac blocul de text ar fi fost n partea inferioar a paginii, s-ar fi procedat similar, dar trgnd cu mausul n jos de latura inferioar a dreptunghiului de selecie a blocului de text. n acest caz, va fi aleas alinierea jos-central.
25

Minitutoriale e-book

Dac blocul de text se afl poziionat n zona central a paginii, se va ncerca deformarea dreptunghiului de seleciei, astfel nct acesta s ajung s fie poziionat n centrul paginii; pentru alinierea paginii, n aceast situaie trebuie aleas opiunea centru-centru. n cazul n care, imaginea paginii nu este cea optim, vom relua aciunea de modificare a dreptunghiului seleciei coninutului, pn vom oine imaginea paginii dorite. Dac la finalul proiectului, n etapa Output, vom alege opiunea de culoare Color/Grayscale, atunci se impune s acordm o atenie deosebit selectrii blocului text-imagine, alinierii i valorilor marginilor, pentru a preveni inserarea suprafeei artificiale de completare a paginii. n cazul unor setri incorecte exist posibilitatea s obinem imagini, respectiv pdf din imagini, cu pagini n care o parte din suprafa este grayscale i alt poriune de suprafa Black and White. Dac n etapa Output vom seta Black and White, aspectele prezentate la pagina de titlu i pagina de tip motto nu mai prezint aceeai importan, deoarece fundalul paginii este deja alb. 3.6. Output Etapa Output este etapa final, dar i cea mai complex. Ea cuprinde 5 pachete de opiuni: un pachet (pachetul Output) finalizeaz procesarea n Scan Tailor; patru pachete (Picture Zones, Fill Zones, Dewarping, Despeckling); acestea pot realiza prelucrarea i corectarea diferitelor deficiene, aprute la scanare; se pot prelucra sau elimina zone de text sau imagine; se poate corecta forma curbat a rndurilor, rezultate din fotografiere sau scanare de sus1 a crilor cu filele curbate (insuficient ntinse) i multe alte corecii. Alegerea acestor pachete de opiuni se face din fereastra central (a paginii mrite) unde sunt afiate pe vertical n partea dreapt a ferestrei. Figura 24 red zona de accesare a acestor pachete, cu meniunea c imaginea a fost rotit la 90O, pentru a fi neleas mai uor.

Figura nr. 24

Nu trebuie fcut confuzia ntre etapa Output i pachetul de opiuni Output (numit n continuare Output-Output), din cadrul acestei etape.
1 Scanare cu scanere speciale de mare performan, aflate n dotarea unora dintre marile biblioteci, destinate digitalizrii fondului de carte; exemplu: Scanner de carte tip kiosk E-scan format A3.

26

Iniiere n utilizarea Scan Tailor

Pachetul Output-Output va fi singurul analizat n prezentul tutorial. Rularea celorlalte pachete nu este necesar pentru ncheierea procesrii imaginilor, fapt pentru care nu vor face obiectul prezentului tutorial. Aceste patru pachete execut corecii speciale, rezolv multe defecte de scanare; n acelai timp ele, sunt mai complexe i mai dificil de folosit. Aceste patru pachete au fost implementate i/sau mbuntite de ctre Joseph Artsimovich, pe msura perfecionrii Proiectului Scan Tailor. De exemplu, pn la versiunile din gama 0.9 ale programului nu exist pachetul Dewarping, acesta aprnd ca pachet special la versiunile 1.0 beta. S ne ocupm n detaliu de pachetul de opiuni Output-Output. Reamintim c, n toate etapele de procesare, n partea stng a ferestrei, sub meniul etapelor sunt afiate etichetele de opiuni specifice. La activarea pachetului de opiuni Output-Output, etichetele de opiuni afiate sunt urmtoarele: Eticheta Output Resolution (DPI). Dac imaginile rezultate vor fi ncrcate n Abbyy, vom ine cont de faptul c Abbyy face recunoaterea optim la rezoluia de 300 dpi. n situaia n care, imaginile iniiale au fost scanate la rezoluia 300 dpi, setm Output Resolution = 300 dpi Change All pages. Dac rezoluia iniial este mai mic dect 300 dpi, vom alege o valoare de 400, 600 dpi sau stabilim o valoare particularizat, alegnd varianta custom, dup care introducem de la tastatur valoarea dorit. Reamintim c la cap. 2. Crearea unui Proiect Scan Tailor, am explicat detaliat despre influena rezoluiei de intrare asupra rezoluiei de ieire i s-a subliniat c valoarea rezoluiei de ieire este fals, n cazul n care cea de intrare a fost fals. Ideea este s trebuie s rezulte o rezoluie real de ieire de 300 dpi. Toate aceste sunt valabile n cazul crilor care conin text. La procesarea unor cri care conin imagini, scheme, plane, tabele etc., stabilirea rezoluiei este mai complex i va fi tratat separat. Eticheta Mode fig. 25.

a
Figura nr. 25
27

Minitutoriale e-book

Paginile pot fi salvate n urmtoare versiuni de culoare: Black and White (text i imagini alb-negru) Color / Grayscale (paginile pstreaz culoarea de intrare) Mixed (text alb-negru i imagini color/tonuri de gri) La stabilirea modului de salvare Color / Grayscale, apar dou opiuni: White margins i Equalize illumination fig. 25 a. a) Dac opiunea White margins rmne neactivat, ntreaga pagin va pstra culoarea de intrare; n acest caz, opiunea Equalize illumination nu se poate activa. b) Dac activm opiunea White margins, atunci blocul de text-imagine va pstra culoarea de intrare, dar marginile paginii vor fi albe. c) Activnd i opiunea Equalize illumination se realizeaz o iluminare a fundalului blocului de text-imagine, micorndu-se contrastul dintre blocul de text grayscale (color) i marginile ale paginii. n figura 26 este redat aceeai pagin, salvat n fiecare dintre cele trei variante ale modului Color/Grayscale; se poate constata n imagine efectele fiecrei opiuni asupra aspectului paginii a) pagin Color/Grayscale; opiunea White margins este neactivat; b) pagin Color/Grayscale cu margini albe; opiunea White margins este activat, dar egalizarea iluminrii nu este activat; c) pagin Color/Grayscale, avnd margini albe i iluminare egalizat; opiunile White margins i Equalize illumination sunt activate.

Figura nr. 26

La stabilirea modului de salvare Black and White sau a modului Mixed, apare opiunea Thinner /Thicker fig. 25 b i fig 27.

28

Iniiere n utilizarea Scan Tailor

Figura nr. 27

Opiunea este afiat sub form de scal gradat i cursor. Deasupra scalei se afieaz valorile numerice, corespunztoare poziiei cursorului pe scal; deplasarea cursorului n jumtatea din stnga a scalei (zona Thinner) afieaz valori negative, iar cnd cursorul este deplasat n jumtatea din dreapta a scalei (zona Thicker) sunt afiate valori pozitive. Prin deplasarea cursorului spre stnga sau spre dreapta se poate seta subierea sau ngroarea caracterelor sau figurilor din pagin. Cursorul opiunii este setat pe poziia de baz, avnd valoarea zero. Trgnd cursorul spre stnga (zona Thinner) textul se va subia, cu att mai mult, cu ct cursorul va fi mai aproape de valoarea maxim; dac deplasarea cursorului se face spre dreapta (zona Thicker) textul se va ngroa. Subierea textului se face prin eliminarea de puncte negre din jurul literelor, iar ngroarea se realizeaz prin adugarea de puncte negre n zona gurit a literelor i n jurul acestora. Posibilitile maxime de setare sunt diferite, n funcie de versiunea programului Scan Tailor; la versiunile 0.9. valorile maxime sunt 30, iar la versiunile 1.0 valorile maxime de setare sunt 50.

Figura nr. 28
29

Minitutoriale e-book

n figurile 28 i 29 se pot observa efectele setrilor de subiere (Thinner) i ngroare (Thicker) asupra unei pagini. Folosirea valorilor mari pentru opiunea de subiere (Thinner), poate duce la pierderea de informaii prin tergerea unor poriuni de text, iar folosirea valorilor mari ale opiunii de ngroare (Thicker), produce efectul de nnegrire a paginii.

Figura nr. 29

Recomandare: Pentru a preveni apariia efectelor negative ale setrilor de tip Thinner i Thicker, nceptorii vor folosi valori maxime de 15. Pe msur ce se ctig experien n procesarea imaginilor cu ajutorul Scan Tailor, aceste setri, precum i alte setri, opiuni i prelucrri de imagini i text, vor putea fi experimentate i folosite n mod treptat. Pentru modul de salvare Black and White sunt disponibile nc dou opiuni: Dewarping (ndreptarea rndurilor) i Despeckling (curarea sau scderea densitii culorilor). Folosirea acestor opiuni nu este recomandat nceptorilor.

30

Iniiere n utilizarea Scan Tailor

3.7. Salvarea n dou variante a unui proiect Scan Tailor Observaie: Scan Tailor este un program foarte bun, dar el nu poate face minuni. n cazul imaginilor realizate cu rezoluii mici sau cu defecte majore de scanare, nu se vor putea remedia toate problemele. Ca i ScanKromsator i alte programe de procesare, Scan Tailor a fost conceput pentru procesarea unor imagini care ndeplinesc un barem de calitate minim. Din aceste motive, imaginile salvate Black and White pot avea o calitate slab, din care nu se pot realiza pdf din imagini sau fiiere DjVu. La salvarea Black and White, gama de nuane gri se mparte n dou: cele foarte nchise vor deveni negre, iar cele deschise vor deveni albe, n acest fel pierzndu-se o mare parte din detalii. O carte veche scanat la rezoluie mic poate fi nc citibil ntr-un pdf din pagini grayscale, dar aceeai carte poate fi imposibil de citit dac pdf este realizat din pagini salvate alb-negru. De aceea, de multe ori este necesar salvarea n modul Color/Grayscale sau dou salvri: att alb-negru, ct i n nuane de gri. Dac imaginile rezultate vor fi procesate cu Abbyy, n vederea extragerii OCR, atunci este obligatorie salvarea imaginilor Grayscale, dat fiind c Abbyy este specializat n recunoaterea imaginilor Grayscale i d adeseori erori mari la recunoaterea imaginilor alb-negru. Pentru a salva n ambele formate de culoare, se procedeaz astfel: Presupunem c n ultima etap de procesare (Output) alegem opiunea de culoare: Color/Grayscale. salvarea: dup ncheierea complet a procesrii imaginilor, nainte sau la ieirea din program se salveaz proiectul de tip Scan Tailor. copiere subfolder out: se deschide folderul imaginilor de prelucrat i se face o copie a subfolderului out; acesta poate fi redenumit sau pstrat sub numele dat de sistemul de operare. n acest subfolder-copie se vor pstra imaginile grayscale, rezultate din prima salvare. reluarea procesrii: se redeschide Scan Tailor i proiectul n cauz, se revine n etapa Output i se schimb setrile de culoare, alegnd Black and White, se d comanda de procesare automat, apoi se salveaz proiectul. Astfel, vom avea salvate n subfolderul Copie a out imagini Grayscale, rezultate din prima procesare, iar n subfolderul out imaginile Black and White rezultate din a doua procesare. ******************************

31

Minitutoriale e-book

n loc de ncheiere Am constatat c multe persoane execut scanri de calitate, dar nu finalizeaz rezultatul scanrii, neavnd suficiente informaii despre prelucrarea imaginilor i despre convertirea acestora, n scopul obinerii unui pdf cu o mrime decent i de o calitate corespunztoare. Tutorialul ncearc s rezolve o mic parte dintre aceste probleme. El este gndit ca o iniiere n utilizarea programului Scan Tailor i prezint numai aspecte legate de prelucrarea crilor care conin doar text, aa cum sunt crile de beletristic. Pentru ca procesarea imaginilor cu Scan Tailor s fie realizat fr dificulti de ctre orice utilizator, ntr-un timp relativ scurt i cu rezultate bune, este necesar s se acorde toat atenia calitii scanrii. Cu ct scanarea va fi mai bun (carte cu hrtie i tipar de bun calitate, scanare la 300 dpi grayscale, cu paginile ntinse perfect plan pe sticla scanerului), cu att procesarea va fi mai exact i mai rapid. Este necesar ca acest tutorial s fie completat de un altul, care s analizeze setri mai fine i procesri mai dificile, ce se aplic paginilor de carte coninnd scheme, plane, fotografii sau desene. De asemenea, nu a fost detaliat procesarea paginilor obinute prin fotografiere, care prezint defeciuni de geometrie i planeitate specifice. De reinut: setarea manual are prioritate fa de procesarea automat. n fereastra principal micarea scroll maus determin mrirea sau micorarea zoomului imaginii. la scanerele prevzute cu senzor CIS lumina puternic a mediului ambiant decoloreaz imaginea; apsarea insuficient a crii pe ecranul scanerului n zona cotorului provoac nnegrirea imaginii n zona dintre pagini. Ar trebui precizat ca o observaie important, faptul c proiectul ST nu este portabil. ncercarea de a-l continua pe un alt PC, evident transfernd tot dosarul de lucru, va eua. Am ncercat aceasta de mai multe ori i nu am reuit, ST nu deschide imaginile de lucru. Nu cunosc motivul, probabil c este vorba despre dosarul Temp din Windows. Pe site-ul dezvoltatorului nu se precizeaz nimic n acest sens. ******** versiune [V.01] 2011.05.26 ********

32

Tutoriale Forum Romania Inedit