Documente Academic
Documente Profesional
Documente Cultură
Cum procedm?
Dup deschiderea programului AutoCorect, din meniul principal, accesm
opiunea Instrumente > Configurare ca n prima imagine i se va deschide
fereastra Configurare General.
Accesm tabul-icon Punctuaie, apoi tabul OCR Plus.
Fereastra Configurare Punctuaie OCR Plus are n acest moment 5 taburi
componente:
Conversii
Punctuaia de baz
Majuscul
Diverse
Sugestii
S le discutm pe rnd.
Conversii
Aici nu este mult de discutat. Fereastra de setare este mai mult dect sugestiv.
Opiunea va face conversiile menionate n fereastr.
Ea trebuie activat n mod obligatoriu de ctre toi utilizatorii.
Punctuaia de baz
Aici sunt dou setri: prima este obligatorie i cea de-a doua se activeaz n
funcie de preferinele utilizatorului.
Aplic principiile de baz ale punctuaiei trebuie activat n mod obligatoriu.
Ca i la tabul precedent i aici sunt menionate toate modificrile pe care le va face
opiunea.
Practic opiunea nu face altceva dect s aplice regulile de scriere a semnelor de
punctuaie i s adauge sau s tearg spaii n faa sau dup fiecare semn de
punctuaie, aa cum cer regulile ortografice ale limbii romne.
Creaz list de sugestii
Dac vom activa aceast setare, pe timpul rulrii Punctuaiei, programul va crea o
list cu propuneri de corectare a punctuaiei; aceast list cuprinde propuneri ale
programului, dar a cror rezolvare depinde de utilizator; utilizatorul va putea s
verifice fiecare propunere i s accepte sau nu modificarea propus de program.
Dac utilizatorul va dori s fac doar o curare automat a OCR-ului, fr alte
corecturi, atunci nu trebuie activat aceast setare.
Majuscul
Aici este mai mult de discutat. Sunt trei situaii n care se face majuscularea:
La nceput de dialog
La nceput de paragraf
La nceput de fraz
Prima setare Majuscul la nceput de dialog [inclusiv dialog cu ghilimele]
trebuie activat n mod obligatoriu.
Rularea opiunii va corecta toate literele mici la nceput de dialog fie el cu
ghilimele sau nu.
Rularea opiunii nu produce modificri nedorite.
Al doilea pachet de opiuni se refer la corectarea majusculelor la nceput de
paragraf i necesit cteva explicaii n plus.
Mai nti s definim paragraful:
Iat o definiie scurt din dicionare: paragraful este Pasaj al unei lucrri
desprit de restul textului printr-un aliniat nou (i printr-un semn grafic special);
fragment (unitar) dintr-un text care cuprinde o anumit idee. Fragment mic al unui
capitol, al unui discurs, al unui articol de lege etc. cuprins ntr-un alineat.
Pentru computer, pentru editoarele de text, paragraful este ceva mai mult de att.
Din punct de vedere al logicii editoarelor, paragraful cuprinde orice text/nontext
cuprins ntre dou comenzi Enter. Pe editor nu-l intereseaz dac ntre cele dou
comenzi Enter se afl un paragraf care are neles, dac sunt una sau mai multe cifre,
ori rglii sau dac ntre dou Enter nu se afl nimic, nici mcar un spaiu. Editorul
va considera c acela este un paragraf.
Acestea fiind spuse, s ncercm s analizm imaginea urmtoare i s privim
atent paragraful care ncepe la sfritul paginii 58 i se termin la nceputul paginii
59.
Acest paragraf ar fi corect n forma urmtoare:
Lemn umed rspunse rzboinicul, tot att de calm ca un pedagog care-i face
o demonstraie aritmetic elevului su ncurcat. Prea mult umezeal, prea mult fum;
prea mult ap fum negru.
Ce constatm?
Paragraful real din punct de vedere literar i a logicii limbajului, ncepe la sfrit
de pagin i nu ncape n totalitate pe pagina respectiv, ci se continu pe pagina 59.
Atenie la ultimul cuvnt scris pe pagina 58: cuvntul elevu-, este de fapt cuvntul
elevului, desprit la capt [sfrit] de rnd, sfrit de rnd care, n acest caz,
corespunde i cu sfrit de pagin. Primul cuvnt de pe pagina 59 lui nici nu este un
cuvnt real, ci este secvena final a cuvntul elevului.
S privim mai departe: cele dou pri ale paragrafului real sunt desprite de 4
paragrafe digitale:
paragraf 1 nota de subsol 1 Colib de piei-roii cu font rou n imagine;
paragraf 2 nota de subsol 2 Oameni albi cu font rou n imagine;
paragraf 3 numr de pagin numrul 58 pe fundal bleu
paragraf 4 paragraf [rnd] gol, marcat cu |
Din pcate, calculatorul a majusculat secvena de cuvnt lui cu care ncepe pagina,
transformnd-o n cuvntul Lui, calculatorul considernd c e vorba de un paragraf
nou.
Acum s ncercm s definim Paragraful ntreg i Paragraful ntrerupt n
sensul folosit la aceste setri.
Paragraful ntreg este un paragraf normal, un paragraf obinuit, aa cum este
definit n dicionare, care urmeaz dup un paragraf format din caractere de tip liter,
mai lung de 7 caractere i care se termin cu semne de punctuaie corecte.
Paragraful ntrerupt este acel paragraf care urmeaz dup un paragraf gol [deci
un rnd gol] sau dup un paragraf care conine numai cifre [cum ar fi cazul numerelor
de pagin].
n sfrit, acum revenim la setrile privind majuscularea paragrafelor.
Subliniez c din cele 3 setri posibile ale majusculrii paragrafului se poate activa
doar UNA SINGUR, la alegere.
S le analizm pe rnd:
Majuscul la nceput de paragraf [orice liter orice paragraf]
Aceast opiune va majuscula orice liter la toate paragrafele, indiferent dac ele
urmeaz dup un paragraf normal, ori dup unul gol sau dup unul format din cifre,
dac este un Paragraf ntreg sau un Paragraf ntrerupt
Atenie! Activnd aceast opiune se vor majuscula i paragrafele care ncep la
sfrit de pagin i se continu la nceputul paginii urmtoare, fiind ntrerupt de
rndul gol dintre pagini sau de numrul de pagin, aa cum s-a ntmplat n exemplul
din imaginea de mai sus.
Recomand ca aceast opiune s fie activat doar n cazurile n care utilizatorul nu
a pstrat [sau a ters] numerele de pagin i nici nu are marcat trecerea de la o
pagin la alta cu rnd gol i, de asemenea, a corectat desprirea paragrafelor cu
opiunea 1.5 Repararea rndurilor rupte.
Majuscul la nceput de paragraf [numai paragraf ntreg]
Aceast setare va permite ca majuscularea s se fac la toate literele cu care ncep
paragrafele, dar doar la paragrafele care curg unul dup altul, la paragrafele ntregi.
Efectul secundar al opiunii este acela c dac ntre titlul capitolului i primul
paragraf aven un rnd gol, programul nu va majuscula acest paragraf.
Recomand activarea acestei opiuni.
Majuscul la nceput de paragraf [numai litera paragraf ntreg]
Aceast setare va permite doar majuscularea literei > i numai n cazul
paragrafelor ntregi. Practic aceasta seamn cu setarea a doua, doar c nu caut toate
Prima setare, Majuscul la nceput de fraz doar dup punct urmat de spaiu,
este setarea pe care o recomand. Rularea opiunii de majusculare astfel setat nu va
face erori de majusculare [nu va majuscula i acolo unde nu trebuie] dect n situaia
n care Abbyy a pus n mod eronat un punct n locul unei virgule. Subliniez c
punctele de suspensie, n acest moment, sunt deja convertite n Elipsis, astfel c
opiunea nu va majuscula propoziiile care ncep dup puncte de suspensie.
Avantaje i dezavantaje ale setrii. Rularea punctuaiei astfel setate nu va produce
erori de majusculare n plus, adic nu va majuscula situaii n care trebuie pstrat
minuscula. Dezavantajul este c pot rmne nceputuri de fraz care urmeaz dup ? !
i elipsis, ce vor trebui corectate manual.
Cea de-a doua setare, Majuscul la nceput de fraz dup ! i ? urmat de
spaiu, are dezavantajul c poate face majusculri n plus fa de situaiile corecte.
Aceast opiune va face majuscularea cazurilor de dialog francez, astfel c dac va fi
activat, n mod obligatoriu este necesar i cea de-a treia opiune de la tabul
Sugestii sau opiunea special din meniul OCR_Plus 4.5. Convertire majuscul n
minuscul n dialog francez.
Niciuna dintre cele dou setri nu este perfect, fiecare dintre ele are avantaje i
dezavantaje.
Personal prefer prima opiune, pentru simplul motiv c aa m-am obinuit s
lucrez.
Diverse
Cred c numele acestor setri sunt suficient de sugestive i nu mai necesit
explicaii.
Recomand activarea tuturor setrilor.
Sugestii
Setare font
Dei fereastra de setare este suficient de sugestiv, sunt necesare cteva explicaii.
Nume font i Mrime font. Vom stabili fontul i mrimea ca n orice editor.
Personal folosesc "Bookman Old Style" la mrimea 11, dar pot fi folosite i alte
fonturi i mrimi, conform obinuinei. Recomand fontul "Droid Serif"; este un font
foarte uor de citit, n special pe Readere.
culoare setarea poate rmne inactiv; opional se poate activa i stabili
culoarea [n principiu la cri se folosete culoarea Black i nu Automatic].
Recomandare personal: setare inactiv.
"B + I = I" aceast setare va nlocui toate bucile de text formatate
bold+italic n font italic simplu, neboldat.
De regul, n crile de beletristic nu este folosit formatarea Bold+Italic, astfel
c zonele de text formatate astfel sunt de cele mai multe ori nicte simple erori
Abbyy. Recomandare personal: setare ACTIV.
"B >> N" aceast setare va nlocui toate bucile de text formatate cu Bold
simplu n font drept simplu, neboldat. La crile de beletristic este folosit
formatarea Bold doar pentru numele capitolelor, dar Abbyy va marca astfel toate
zonele de text pe care nu este sigur c le-a recunoscut corect, n special cuvintele care
conin litera O i L mic lng cratim, deoarece nu va ti sigur dac acolo se afl
literele O sau L mic, ori cifrele 0 sau 1. Recomandare personal: setare ACTIV.
n care un paragraf care ncepe cu linie de dialog a fost lipit la sfritul paragrafului
din faa sa.
Opiunea ncearc s repare aceast ultim eroare i "rupe" paragraful atunci cnd
gsete o liniu care ndeplinete condiiile unei linii de dialog. Astfel, liniua trebuie
s aib spaiu nainte i dup, are o fraz care se termin corect naintea spaiului din
fa i are o fraz care ncepe cu liter mare dup spaiu de dup liniu.
Sunt cazuri de beletristic n care toate condiiile de mai sus apar i n cazul unei
linii de pauz. Situaiile sunt destul de rare, dar exist. Mai mult dect att, aceste
situaii apar, de regul, n cazul dialogurilor, iar liniile de pauz separ ceea ce spune
personajul de ceea ce comenteaz autorul; deci confuzia poate fi mare, dac se face o
rupere eronat.
Rularea opiunii poate produce erori n cazul unui anumit autor sau traductor;
dac marcarea comentariilor autorului n dialoguri se face cu linii de pauz, erorile
pot avea o frecven mai mare; dac aceste comentarii sunt marcate prin virgule,
erorile sunt minime sau inexistente. Opiunea trebuie folosit cu atenie, dup o
vizualizare ct de sumar a textului, pentru stabilirea modului n care s-a fcut
demarcarea comentariilor autorului de de ceea ce spun personajele ntr-un dialog.
Iat dou moduri corecte de marcare a comentariilor autorului ntr-un dialog.
Nu sunt credincios zise el dar am s spun Tatl Nostru de zece ori, ca
s prind petele.
Nu sunt credincios, zise el, dar am s spun Tatl Nostru de zece ori, ca s
prind petele.
n cazul n care n carte se folosete metoda liniilor explicative ca n primul
exemplu, activarea opiunii ar putea produse erori; n cel de-al doilea caz, erorile sunt
aproape excluse.
Recomandare personal: utilizatori nceptori = setare inactiv i utilizatori
avansai = setare ACTIV
2. PUNCTUAIE
2.1. Eliminare artefact-paragraf
2.2. Corectare linii de pauz i linii de dialog
2.3. Funcii obinuite
2.4. Corectare suplimentar elipsis
2.5. Conversie combinaii ? ! i . ,
Cnd spunem erori de OCR, cel mai adesea ne referim la erori de recunoatere a caracterelor.
Exist caractere asemntoare ca form, precum cifra 1 sau semnul de punctuaie ! i litera L
mic, cifra 0 i litera O, grupul c+l i litera d, grupul r+n i litera m, caracterele $ sau i litera ,
confuzii ntre literele e i c...
Erori de OCR sunt i rocade de dou litere alturate, astfel c grupul et poate fi reprodus ca te...
i multe alte erori n care n locul unui caracter, Abbyy "recunoate" un alt caracter.
Unele erori sunt date de insuficiena nregistrrilor n dicionarul de limba romn la care Abbyy
are acces.
Acest pachet de opiuni ncearc s rezolve o parte din aceste erori.
Pachetul se bazeaz n principal pe rularea automat a unui numr mare de dicionare de tip
OCR_Plus.
n acest moment pachetul n totalitatea lui ruleaz 12 dicionare cu peste 4600 de nregistrri.
Mai sunt n lucru alte cteva dicionare de secvene care nu au fost definitivate i implementate.
Este posibil ca n perioada urmtoare pachetul s mai fie mbuntit i cu alte opiuni, dar acest
lucru nu va complica modul de lucru al utilizatorului, deoarece opiunile au un element comun rularea automat de dicionare care fac nlocuiri de cuvinte sau secvene de cuvinte.
Practic toate opiunile din pachet ar putea fi comprimate n una singur, numit "Corectare
caractere reproduse eronat". A fost aleas varianta divizrii n mai multe opiuni pentru ca numele
acestora s sugereze i categoriile de nlocuiri pe care o anume opiune le face.
O caracteristic un pic aparte o are opiunea 4.5. Convertire majuscul n minuscul n dialog
francez, pe care o vom sublinia la momentul respectiv.
Pentru ca utilizatorul s fie convins de necesitatea rulrii acestor opiuni i s nu aib reineri la
activarea lor, pe motiv c ele ar produce efecte secundare nedorite, vom descrie n detaliu fiecare
opiune n parte.
E posibil ca explicaiile s fie ceva mai lungi dect la alte opiuni, astfel c am ales varianta ca
unele dintre opiuni s fie tratate n cte o postare separat. Este mai uor de urmrit o postare care
nu este foarte lung i este mult mai uor de editat i modificat.
care necesit confirmare la rulare. Acest lucru este neplcut pentru utilizator deoarece
rularea automat a meniului poate fi ntrerupt i programul [dac gsete astfel de
situaii n textul de corectat] s atepte confirmarea pentru a rula mai departe.
Viitoarea versiune de dicionare, aflat acum n lucru, ncearc s elimine la
maxim condiia de confirmare; la dicionarele care vor rula la aceast opiune va fi
eliminat complet condiia de confirmare a nlocuirilor.
Succesiunea de litere c l n locul literei d i succesiunea de litere r n n locul
literei m
Litera d [D mic] poate fi confundat de Abbyy cu succesiunea de litere c+l < cl >;
uneori confuzia se poate face i n sens invers.
Astfel de confuzii se pot face i ntre litera m [M mic] i succesiunea de litere r+n
< rn >.
Se poate urmri asemnarea dintre succesiunile i literele menionate n imaginea
cl=d i rn=m
Dicionarul CO_Gcl.imd realizeaz o serie de corecii ale succesiunii cl >> d
pentru cuvinte cu frecven mai mare n limba romn.
Dicionarul CO_Grn.imd realizeaz corecii ale succesiunii rn >> m.
Din testri rezult c astfel de confuzii se produc mai mult n cazul cuvintelor
scurte i mai rar n cazul cuvintelor lungi.
Exist i cteva cuvinte la care nu se pot face modificri automate, deoarece sunt
valabile n limba romn att cuvintele care conin litera d, dar i succesiunea cl, cum
ar fi cele din exemplul urmtor:
clac - dac; clar - dar; clin - din; cldea - ddea.
Astfel de cuvinte au fost trecute n dicionarele cu variante i confirmare care
ruleaz la opiunea 12.2
Pentru succesiunea rn >> m exist noi nregistrri care vor fi cuprinse n noua
versiune de dicionare.
Menionez c dicionarele pot fi i trebuie s fie mbuntite cu alte nregistrri; la
acest moment ele pot rezolva majoritate confuziilor de tip cl >> d i rn >> m.
La rularea dicionarelor nu am constatat efecte secundare nedorite.
n principiu, dicionarele de la ntregul pachet de opiuni sunt gndite s realizeze
ct mai multe corecturi, fr a face modificri nedorite. Atunci cnd o anume
nregistrare ar fi putut produce efecte secundare nedorite, am preferat s nu fac
nregistrarea respectuv n dicionar.
Recomandare personal: setare ACTIV
4.3. Corectare cuvinte foarte scurte
Opiunea ruleaz automat urmtoarele 4 dicionare: CO_Sc1.imd, CO_Sc2.imd,
CO_Sc3.imd i CO_Sc4.imd
Dicionarele corecteaz erori de recunoatere care apar la cuvinte foarte scurte, de
pn la 4 litere inclusiv.
Exist ca excepie i un numr foarte-foarte mic de nregistrri care se refer la
cuvinte formate din cinci litere.
Pentru dezvoltatori, menionez c structura dicionarelor nu este respectat ferm,
dar n principiu se poate meniona c dicionarul CO_Sc1.imd face corecii att
pentru cuvinte ntregi formate din dou litere, dar i pentru cteva secvene de cte
dou litere aflate la nceput sau la sfrit de cuvinte; dicionarul cuprinde i situaii
foarte rare, dar posibile, n care litera "" este recunoscut ca "$" sau "", iar litera
"E" este recunoscut ca "".
Dicionarele CO_Sc2.imd, CO_Sc3.imd i CO_Sc4.imd corecteaz numai cuvinte
ntregi formate din 3 sau 4 litere.
Toate cele 4 dicionare cuprind nregistrri de cuvinte cu i fr cratim.
Posibilitatea de realizare a unor nlocuiri nedorite este teoretic imposibil.
Recomandare personal: setare ACTIV
4.4. Corectarea minuscule la nceput de paragraf
Opiunea ruleaz automat dicionarul CO_Midp.imd [CL_Midp.imd], care
cuprinde aproape 2000 de nregistrri.
Practic, opiunea realizeaz majusculri i corecturi suplimentare fa de cele
realizate la opiunea 2.3 Punctuaie >> Funcii obinuite.
Efectul este maxim dac la setarea punctuaiei se activeaz opiunile ca n
imaginea urmtoare de mai jos.
Activarea mai multor opiuni de setare fa de cele activate n imagine nu este
recomandat, deoarece se vor realiza majusculri n plus n poziii de text n care
majuscularea este incorect.
care fac nlocuiri ale secvenelor de sfrit [STer1 i STer2] conin foarte puine
nregistrri i este necesar mbogirea i perfecionarea lor.
Comentariu:
n legtur cu modificrile care se realizeaz la aceast opiune i la opiunea
urmtoarea, se cuvine s facem un scurt comentariu:
nlocuirile de cuvinte ntregi au avantajul c au o corectitudine maxim, iar
efectele secundare sunt practic imposibile.
Dezavantajul n cazul nlocuirii cuvintelor ntregi este faptul c probabilitatea
existenei n text a erorilor de acest gen este relativ mic.
De exemplu, n cazul nlocuirii imponderabilitatc >> imponderabilitate
corectitudinea este de 100%, iar efectele secundare sunt zero. Probabilitatea ca acest
cuvnt s existe n text n aceast form este foarte mic.
nlocuirile de secvene de cuvinte au dezavantajul c pot produce uneori efecte
secundare nedorite, dar au avantajul c frecvena lor n text este mult mai mare i se
vor face mult mai multe nlocuiri.
De exemplu, secvena final oarc >> oare poate fi valabil pentru circa 3787 de
cuvinte din limba romn. Partea neplcut este c uneori i secvena final carc
poate fi recunoscut n mod eronat n forma oarc, deci nlocuirea de mai sus nu
prezint corectitudinea de 100%.
Recomandare personal: setare ACTIV
4.6. Corectare cuvinte ntregi i expresii
Opiunea ruleaz automat urmtoarele 5 dicionare:
CO_CImf1.imd CO_CImf3.imd corecteaz cuvinte ntregi;
CO_Expr1.imd CO_Expr2.imd corecteaz grupuri de cuvinte [expresii].
Aceast opiune, ca i cea anterioar este implementat n ultima perioad, fapt
pentru care dicionarele cuprind un numr relativ mic de nregistrri, fa de
posibilitile reale. De aceea este necesar mbuntirea n continuare a acestor
dicionare.
Pentru dezvoltatori este relativ simplu de adugat cuvinte n dicionarele
CO_CImf1.imd CO_CImf3.imd, dar trebuie s acorde atenie sporit la dezvoltarea
dicionarelor care conin grupuri de cuvinte [CO_Expr1.imd CO_Expr1.imd].
De ce este necesar o opiune special pentru nlocuiri de cuvinte ntregi i
expresii?
Practic, aceast opiune face o dezvoltare, o lrgire, a opiunii 4.3. Corectare
cuvinte foarte scurte. La acest moment nu pare s existe o diferen foarte clar ntre
tipurile de nlocuiri ale cuvintelor ntregi ale celor dou opiuni, dar n timp ce
opiunea 4.3. face corectri ale cuvintelor scurte, de maxim 4 litere, aceast opiune,
prin dicionarele sale CO_CImf1.imd CO_CImf3.imd, trebuie s realizeze corectri
ale cuvintelor mai lungi.
Dicionarele care corecteaz grupuri de cuvinte reprezint mai mult dect o
lrgire a nlocuirilor de cuvinte ntregi. Dei nregistrrile fac nlocuiri de grupuri de
cuvinte, practic modificarea se face doar asupra unui singur cuvnt din grup, celelalte
cuvinte avnd rolul de coordonate n cutarea cu precizie a cuvntului de nlocuit.
Cuvintele ce sunt corectate se pot modifica prin varianta nlocuire cu confirmare,
dar aceast metod solicit mai mult timp pentru rezolvare, precum i intervenia
utilizatorului la fiecare cuvnt gsit.
Exist cteva paronime ntlnite frecvent n OCR-uri care necesit corectare, aa
cum ar fi de exemplu: sting-stng, stingi-stngi, sting-stng, ling-lng, intre-ntre.
Abbyy recunoate ambele variante de cuvinte n forma scris cu litera "i", deci:
sting, stingi, sting, ling, intre; menionez c n text au frecven mai mare exact
celelalte cuvinte, adic: stng, stngi, stng, lng, ntre.
Dac s-ar face nregistrarea sting >> stng, nlocuirea cuvntului "sting" cu
cuvntul "stng" ar trebui confirmat sau respins pentru fiecare nlocuire n parte.
Fcnd nregistrri de grupuri de cuvinte de forma: picior/piciorul/piciorului sting >>
picior/piciorul/piciorului stng, umr sting >> umr stng... atunci nlocuirea se poate
face automat, fr confirmare. Pentru cuvintele ling-lng i intre-ntre, mai nti sau fcut nlocuirile ling >> lng i intre >> ntre, dup care au fost fcute nlocuiri
n expresii de dou pn la cinci cuvinte, astfel nct nlocuirile s se fac fr
confirmare i ct mai sigur.
n afara acestor paronime, Abbyy face uneori confuzii de recunoatere ntre
cuvintele "ele" i "de". n cazul acestor cuvinte confuzia poate exista sau nu, iar
atunci cnd exist, este frecvent folosirea cuvntului "ele" n locul lui "de".
Prin folosirea nregistrrilor de tipul: fa ele >> fa de; fa ele >> fa de; form
ele >> form de; la un pas ele >> la un pas de, numrul de situaii ce trebuie corectate
manual se reduce foarte mult.
Recomandare personal: setare ACTIV
4.7. Convertire majuscul n minuscul n dialog francez
Opiunea se bazeaz pe rularea automat a dicionarului CO_DFr.imd.
Aceast opiune funcioneaz la pachet cu o setarea din Configurarea Punctuaiei
OCR Plus. Este vorba despre setarea din imaginea urmtoare:
vor aciona asupra butonului "renun" pentru fiecare dintre nregistrri pentru ca
programul s renune la cutri.
Butonul "Renun" ocup poziia a treia n fereastra de confirmare, redat n
imaginea de mai jos:
5. MARCARE CARACTERE:
Marcare ghilimele
Marcare apostroafe
Marcare consoane independente n format Spaiu_Consoan_Spaiu
Marcare caracterele: ~ & * ( ) \ /
Marcare caracterele: ~ & = + $ % # { } [ ] ( ) / \ > < *
Numele opiunii este suficient de sugestiv, iar fereastra de setri este foarte clar,
astfel c nu va fi nevoie de prea multe explicaii n legtur cu aceast opiune.
Opiunea permite utilizatorilor s marcheze prin colorare diferite caractere, pentru
a fi mai uor de urmrit la corectare.
Dup cum se poate vedea n imagine, utilizatorul poate marca doar anumite
caractere sau toate caracterele implementate n opiune. Pentru fiecare dintre cele 5
categorii de caractere se poate alege cte o culoare diferit de marcare a fontului, ori
se poate alege o singur culoare pentru toate caracterele pe care le dorim a fi marcate.
De reinut c marcarea se face prin colorarea fontului i nu a fundalului.
Nu se pot face recomandri pentru activarea sau neactivarea opiunii.
Pentru unii utilizatori marcarea poate fi benefic, prin scoaterea n eviden a unor
caractere ce trebuie urmrite; de exemplu, prin marcare se poate urmri mai uor
existena perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoasc
ambele ghilimele care formeaz perechea ci numai unele dintre ghilimele, fie ele de
deschodere sau nchidere.
Pentru ali utilizatori marcarea poate s deranjeze, s atrag mai mult atenia
asupra caracterelor marcate, "srind" peste alte tipuri de erori ce trebuiesc corectate.
Dup corectarea ctorva volume, fiecare utilizator va ti sigur care dintre variante
i se "potrivete" cel mai bine, care variant [marcarea sau nonmarcarea] i se pare mai
comod.
Recomand ca i la aceast opiune s se fac ceea ce am numit "Test 100", pentru
a stabili care metod de lucru mare mai comod.
6. TERGERE CARACTERE:
Eliminare Cratim semiindependent ["Cratim_spaiu" i "Spaiu_Cratim]
Eliminare Apostrof independent ["Spaiu_ Apostrof _Spaiu]
Eliminare Artefacte cri obinuite [Spaiu_Artefact_Spaiu]
Eliminare Artefacte cri tehnice [Spaiu_Artefact_Spaiu]
Prin corectarea manual este posibil s mai introducem linii de dialog n text,
acolo unde nu au fost recunoscute de Abbyy, iar aceste linii de dialog s fie urmate de
spaiu obinuit.
Dac vom avea un text rtf corectat i accesm n mod independent numai aceast
opiune, textul nu va suferi alte modificri, ci se vor face doar nlocuirile spaiilor
obinuite de dup linia de dialog i doar n poziiile n care este cazul.
Sunt cteva opiuni care se pot accesa separat n orice moment al etapei de
corectur i chiar dup corectur, fr a afecta structura textului i fr a produce
modificri ce ar trenui verificate manual.
De cele mai multe ori este necesar o rulare suplimentar a unora dintre aceste
opiuni dup corectarea textului; aceste opiuni sunt urmtoarele:
1.1 Conversii preliminare >> Conversie dialog bullets n dialog text
1.3 Conversii preliminare >> Eliminare tab i spaii multiple
1.4 Conversii preliminare >> Eliminare spaii la nceput de paragraf
12.1 Setri finale >> nlocuire spaiu dup linia de dialog cu spaiu neseparator
n afara de aceste 4 opiuni se mai pot rula cu oarece atenie i opiunile din
pachetele 7 i 8.
7. nlocuiete toate liniile de pauz cu >> EmDash / EnDash / Horizontal Bar
8. nlocuiete toate liniile de dialog cu >> EmDash / EnDash / Horizontal Bar
12.2. Corectare cuvinte rupte i nlocuiri cu confirmare
Opiunea se bazeaz pe rularea a 4 dicionare de nlocuire multipl i a suferit de-a
lungul timpului mai multe modificri, fapt pentru care pare atipic, deoarece are dou
pri:
partea care corecteaz "cuvintele rupte", adic acele cuvinte care apar scrise
n mod eronat cu cratim, ca urmare a faptului c n cartea pe hrtie cuvintele erau
desprite [rupte] la capt de rnd; corectarea acestor cuvinte se bazeaz pe rularea
dicionarelor CO_Var1.imd CO_Var3.imd.
partea care face nlocuiri cu confirmare i care ruleaz dicionarul
CO_Var4.imd.
Corectare cuvinte rupte
n cartea pe hrtie, respectiv n imaginea scanat a unei pagini, o serie de cuvinte
sunt desprite la capt de rnd. n aceste cazuri avem 3 elemente: prima parte a
cuvntului, cratima i a doua parte a cuvntului. Dup cum este i normal, prima
parte a cuvntului se afl la sfrit de rnd i este nsoit de cratima care marcheaz
faptul c se face "ruperea" cuvntului; partea a doua a cuvntului ocup prima poziie
pe rndul urmtor i nu este nsoit de cratim.
Atunci cnd Abbyy face extragerea OCR, textul i schimb structura rndurilor,
n sensul c rndurile pot fi, de regul, mai lungi dect cele din cartea original, astfel
c unele dintre cuvintele rupte se vor afla undeva la mijlocul rndului i n mod
corect ele trebuie s fie complete i fr cratim, deoarece Abbyy este instruit s
lipeasc cele dou pri ale cuvntului rupt la capt de rnd i s elimina cratima care
marcheaz desprirea.
trebuie s-i anuleze [s-i tearg] marcarea. Acest lucru e valabil doar n cazurile n
care vrem s facem demarcarea doar pentru o parte dintre marc.
Dac dorim s demarcm toate culorile de fundal sau toate culorile de font, atunci
nu marcm nici o culoare ci doar acionm butonul "Demarcare text" sau "Demarcare
fundal".
Trebuie s mai rein c demarcare de culoare a fontului sau a fundalului se face,
de regul, pe timpul corecturii i nu neaprat n mod automat folosind aceast
opiune, deoarece marcarea are ca scop scoaterea n eviden a anumitor elemente
care s fie de ajutor pe timpul corecturii.
PRECIZRI FINALE
Ce-ar mai fi folositor s fie spus dup prezentarea fiecrei opiuni?
Sper s nu fi uitat ceva...
Trebuie s reamintim c AutoCorect OCR Plus nu face corectur, ci doar o
curare a textului care are ca scop uurarea muncii de corectare i nu nlocuirea
acestei munci.
Trebuie reamintit faptul c n mod obligatoriu dup rularea opiunilor din meniul
OCR Plus trebuie s urmeze corectur manual prin citirea cuvnt cu cuvnt, fraz cu
fraz i pagin cu pagin a ntregului text de la cap la coad.
Niciodat nu trebuie folosit AutoCorect ca un instrument de lefuire a unui text
corectat.
Cine face acest lucru i crede el c tie mai bine ce are de fcut, n realitate este
ntr-o mare eroare i face o imens gaf. A rula o carte versiune [V1.0] sau chiar
[V2.0] sau [V3.0] prin AutoCorect, [aa cum am vzut deja pe forum] este o prostie
mare ct Piramida lui Keops. Asta nseamn s strici un text corectat, asta nseamn
s-i faci pe hoii i ceretorii din Curtea Miracolelor sau alte personaje colorate din
mahalalele Parisului sau de aiurea, s foloseasc un limbaj corect, ceea ce nu este
deloc corect, deoarece autorul a folosit n mod voit cuvinte stlcite sau blbite, ori
arhaisme i regionalisme i, mai ales, limbaj de argou i jargon.
Trebuie s reamintim n mod obligatoriu c AutoCorect OCR Plus este un
program care trebuie dezvoltat n continuare. Programatorii au implementat toate
aceste opiuni. Probabil c n viitor se vor mai putea face unele mbuntiri, dar n
principiu au cam ncheiat partea de programare. Opiunile implementate fac s ruleze
cele 32 de dicionare obligatorii i alte nenumrate dicionare suplimentare. Aceste
dicionare sunt n mare parte la nceput. Ele fac nc foarte-foarte puine nlocuiri fa
de cte nlocuiri ar putea s realizeze.
Dezvoltarea i mbuntirea dicionarelor nu mai este treaba programatorilor, ci
este menirea utilizatorilor. Nu e chiar cel mai simplu lucru editarea unui dicionar, dar
nici pe departe un lucru foarte complicat. E nevoie doar de puin voin i un dram
de dorin... restul este munc i plcere.
Poate c ar mai trebuie s reamintim c AutoCorect OCR Plus este un program
interactiv cu care utilizatorul trebuie s conlucreze permanent. Aa cum un joc de
calculator ruleaz diferit n funcie de calitile juctorului, n acelai mod
AutoCoredct OCR Plus poate avea performane diferite de la un utilizator la altul. Ca
"virgul""spaiu" INACTIV
9.2 Elimin virgula de dup semnul de exclamare/ntrebare INACTIV
9.3 nlocuiete "spaiu""linie de pauz""virgul""spaiu" n "virgul""spaiu"
INACTIV
10.1 Elimin TOATE liniile de pauz din text ATENIE: Pachet de opiuni pentru
profesioniti
10.1 Din " !""spaiu""linie de pauz""spaiu" n " !""spaiu" INACTIV
10.2 Din " ?""spaiu""linie de pauz""spaiu" n " ?""spaiu" INACTIV
10.3 Din "spaiu""linie de pauza""spaiu" n "virgul""spaiu" INACTIV
10.4 Din "spaiu""linie de pauz""virgul""spaiu" n "virgul""spaiu"
INACTIV
11. Rulare grup de dicionare nlocuire multipl Rog studiai tutorialul nainte de
activare
12. Setri finale
12.1 nlocuire spaiu dup linia de dialog cu spaiu neseparator setare ACTIV
12.2 Corectare cuvinte rupte i nlocuiri cu confirmare setare ACTIV
Una dintre cele mai puternice funcii, dac nu chiar cea mai puternic, pe care a
are implementat AutoCorect este aceea de a putea realiza nlocuiri multiple.
Opiunea "nlocuire multipl" din AutoCorect este asemntoare opiunilor de tip
Find & Replace din oricare dintre editoarele de text, dar are caractristici net
superioare oricrei opiuni de acest tip, don oricare dintre editoarele de text
cunoscute, fie ele free sau dintre cele care cost foarte mult i care au n spate un
numr foarte mare de programatori.
"nlocuirea multipl" din AutoCorect are cteva caracteristici specifice; acestea o
fac superioar oricrei opiuni similare din celelalte editoare de text:
cu opiunea "nlocuirea multipl" din AutoCorect se pot face un numr
nelimitat de nlocuiri, ce se pot realiza cu o singur comand, prin rularea unui
dicionar de nlocuiri multiple; n acelai timp, n toate celelalte editoare, nlocuirile
se pot face una cte una prin editarea de fiecare dat a irului de caractere de cutat i
a irului de caractere cu care va fi nlocuit;
nlocuirile ce dorim a fi fcute ntr-un text se pot salva ntr-un fiier de tip
dicionar de nlocuiri multiple, iar acest dicionar este salvat la rndul su de ctre
program, putnd fi accesat de oricte ori este nevoie pentru a fi fcute nlocuirile pe
orice text, oriunde i oricnd;
dicionarele de nlocuiri multiple pot fi transmise de la un utilizator la altul,
acest lucru reducnd timpul de editare a unui dicionar ce prezint interes pentru mai
muli useri;
n cazul executrii unui numr mare de nlocuiri, timpul total de executare al
nlocuirilor este mult mai scurt n AutoCorect, dect n oricare dintre celelalte
editoare.
Accesarea ferestrei "nlocuire multipl" se poate face n dou moduri, ca n
imaginea de mai jos:
din meniul principal: "Editare" >> "nlocuire multipl";
actionnd asupra ultimului [din dreapta], aflat pe bara de iconuri.
se restrnge.
Iat n imaginile de mai jos modul de afiare a zonei de editare n cele trei
variante:
Varianta extins parial, n care sunt afiate primele dou sectoare, dar nu este
afiat cel de-al treilea.
Acest mod de afiare este folosit atunci cnd utilizatorul face modificri ale
nregistrrilor existente sau adaug nregistrri noi, dar care ndeplinesc condiii
simple la cutare.
Varianta extins total, n care sunt afiate toate cele trei sectoare.
Se recurge la acest mod de afiare atunci cnd utilizatorul face nregistrri care
sunt nsoite de condiii complexe de cutare, ori trebuiesc inserate n nregistrri
caractere speciale sau coduri specifice.
Prezentarea detaliat a opiunilor din Zona de editare a nregistrrilor
Opiuni de rulare a dicionarelor:
"nlocuiete n tot documentul " i "Marcheaz modificrile"
Ambele opiuni acioneaz asupra tuturor dicionarelor n ntregul lor i nu doar
asupra unora dintre nregistrri.
Este foarte important de reinut c dac marcm sau demarcm una dintre opiuni
ntr-un singur dicionar, aceste marcri sau demarcri se aplic asupra tuturor
dicionarelor.
Pentru a scoate n eviden faptul c aceste dou opiuni sunt diferite de celelalte
opiuni din zona de editare, realizatorii programului le-au grupat ntr-un sector de
fereastr separat, iar fontul cu care sunt afiate aceste opiuni are culoarea albastru,
fa de celelalte opiuni care apar afiate cu font neagru.
termin cu secvena ndu-i , deci nlocuirea poate corecta foarte multe erori, dac
Abbyy a fcut confuzia ntre litera d i grupul cl.
Practic, pentru activarea opiunii Cuvnt ntreg ntr-una dintre cele trei variante,
se activeaz mai nti opiunea, apoi din fereastra etichetei Cuvnt ntreg nseamn:
se alege una din variante, astfel:
pentru setarea variantei Cuvnt ntreg la ambele capete [Ci] se activeaz
doar opiunea Cuvnt ntreg, fr a mai stabili setarea la ambele capete, deoarece
programul are setat implicit varianta cuvnt ntreg la ambele capete.
pentru setarea variantei Cuvnt ntreg la nceput [Ci Ic] se activeaz
opiunea Cuvnt ntreg, apoi se alege setarea la nceput.
pentru setarea variantei Cuvnt ntreg la sfrit [Ci Sc] se activeaz
opiunea Cuvnt ntreg, apoi se alege setarea la sfrit.
n mod normal, dificulti sau efecte secundare nedorite nu apar la stabilirea
nlocuirilor de tip Cuvnt ntreg la ambele capete [Ci], dar pot aprea uneori la
stabilirea nlocuirilor de tip Cuvnt ntreg la sfrit [Ci Sc] i destul de des la
stabilirea nlocuirilor de tip Cuvnt ntreg la nceput [Ci Ic].
S lum ca exemplu nlocuirea: aezrnint >> aezmnt
Dac activm opiunea Cuvnt ntreg la ambele capete [Ci] nu sunt efecte
secundare.
Dac activm opiunea Cuvnt ntreg la nceput [Ci Ic], vor fi corecte
nlocuirile pentru formele de singular: aezmnt, aezmntul, aezmntului, dar va
fi o eroare nlocuirea formelor de plural: aezminte, aezmintele, aezmintelor.
"Pstreaz capitalizarea" [Pc] i "Potrivire perfect" [Pp]
Dac trebuie s facem nite nregistrri de genul Francois >> Franois sau
Pepiniere >> Ppinire, vom constata c nu putem scrie direct de la tastatur,
caracterele , , , specifice limbii franceze.
Opiunea nserare simbol este un instrument care permite inserarea de caractere
speciale n timp ce nregistrm o modificare.
Menionez c la accesarea opiunii [butonului] nserare simbol se afieaz o
fereastr care conine caractere speciale, ca n imaginea urmtoare.
Setri complexe
Opiunile urmtoare nu au existat n versiunea AutoCorect standard, ci au fost
implementate pe timpul dezvoltrii proiectului AutoCorect OCR Plus, deoarece unele
nregistrrile fcute n dicionarele care ruleaz automat n cadrul meniului OCR Plus
aveau nevoie de condiii speciale de cutare sau de modificare.
Astfel au fost implementate opiuni care permit cutri numai la nceput sau la
sfrit de paragraf, ori care permit realizarea de nlocuiri cu confirmare, inserarea n
nregistrri a unor caractere speciale care nu pot fi introduse foarte simplu de la
tastatur, precum i alte opiuni ce vor fi analizate n continuare.
"Confirmare la nlocuire" [Cli]
Chiar dac se folosete unul dintre butoanele Renun sau Toate, fereastra nu
dispare dect atunci cnd nu mai exist n dicionar alte nregistrri setate cu opiunea
"Confirmare la nlocuire" [Cli].
Dei aceste dou opiuni sunt folosite destul de rar, numele lor este suficient de
sugestiv, astfel c nu necesit foarte multe explicaii.
Opiunea "nceput de paragraf" [Pi] va face cutarea irului de caractere de
nlocuit doar la nceput de paragraf i, bineneles, opiunea Sfrit de paragraf [Ps]
va face cutarea doar la sfrit de paragraf.
Cu opiunea "nceput de paragraf" [Pi] au fost setate nregistrrile din dicionarul
CO_LinD.imd. Acest dicionar face corecturi ale liniei de dialog n mod practic,
sunt eliminate caracterele de tip artefact [cunoscute i ca "rglii"] care nsoesc linia
de dialog, ori diferite tipuri de linii, nsoite sau nu de artefacte sunt modificate n
linia de dialog de tip EmDash.
Linia de dialog este totdeauna nceputul unui paragraf nou, astfel c o nlocuire de
genul - >> [cratim se modific n Emdash] nu se va face i n interiorul
paragrafului, ci doar la nceput de paragraf.
n acest moment, teoretic la finalul unei procesri complete n AutoCorect OCR
Plus toate liniile de dialog sunt curate de diferitele artefacte i toate liniile de dialog
pot fi setate, n funcie de dorina utilizatorului, ca EmDash, EnDash ori Horizontal
Bar.
Dac nu ar exista opiunea de cutare la "nceput de paragraf" [Pi], toate aceste
"curri" ale liniei de dialog i eliminarea de caractere nsoitoare nedorite, ar fi fost
imposibil.
Opiunea Sfrit de paragraf [Ps] poate fi folosit cel puin n cazul eliminrii
unor artefacte care exist la sfrit de paragraf. Nu de puine ori la sfritul unui
paragraf, n zona alb a hrtiei care se afl n continuarea ultimului rnd, Abbyy crede
c recunoate nite caractere, ce sunt n realitate doar pete ale hrtiei sau umbre
rezultate la scanare, astfel c la sfritul unui rnd mai scurt dect celelalte [este cazul
ultimului rnd din paragraf, deci sfrit de paragraf] apare un ir mai lung sau mai
scurt de caractere false, cunoscute ca artefacte sau rglii.
Aceste artefacte [rglii] pot fi eliminate manual la citirea i corectarea textului,
dar se poate face i o ncercare de curare a lor n mod automat prin folosirea unui
dicionar.
Exemple de artefacte sunt caracterele: ^ < > | @
# $ %
Dac vom edita o modificare, nregistrnd n fereastra "Caut:" caracterul ^ , iar n
fereastra "nlocuiete cu:" nu vom pune nimic, nici mcar un spaiu, atunci programul
va cuta caracterul ^ n orice zon a textului i-l va terge.
Dac aceast nregistrare va avea activat opiunea Sfrit de paragraf [Ps],
atunci programul va cuta acest caracter numai la sfrit de paragraf i-l va terge.
n situaia cnd am realiza un dicionar cu mai multe nregistrri, iar la fiecare
nregistrare vom pune un alt caracter dintre cele menionate vom avea posibilitatea s
tergem toate artefactele aflate la sfrizul unui paragraf, deoarece dicionarul va
terge cte un singur caracter, dar prin cutri repetate va avea ansa s le elimine pe
toate.
"nserare caractere speciale"
Cred c cel mai uor este s recurgem din nou la exemple de modificri.
Sunt cunoscute cazurile n care Abbyy, n mod eronat, scrie la mijlocul frazelor
cuvinte foarte scurte cu iniial majuscul. Este vorba de cuvinte compuse din dou
sau trei litere, n care prima liter este una dintre literele c, j, o, p, s, , u, v, w, z [care
seamn pn la identificare cu forma lor majuscul C, J, O, P, S, , U, V, W, Z].
De multe ori, putem constata c la mijlocul frazei ntlnim cuvintele cu, un, i
etc. scrise sub forma: Cu, Un, i etc.
Dac am nregistra o modificare de forma: Un >> un cu condiiile Cuvnt
ntreg plus Potrivire perfect [Ci Pp], se vor executa modificri i asupra
situaiilor n care cuvntul Un se afl la nceput de fraz, deci i cnd ar fi scris
corect.
Exist posibilitatea ca modificarea s primeasc i opiunea "Confirmare la
nlocuire" [Cli]; n acest caz putem face modificrile n mod corect, avnd
posibilitatea s alegem care sunt poziiile n text ale cuvntului Un ce trebuie
modificate i care dintre ele vor rmne nemodificate; dezavantajul este c vom
consuma ceva mai mult timp pentru executarea modificrilor.
Dac am putea pune condiia ca programul s caute aceste cuvinte numai n
interiorul frazelor, atunci cutrile s-ar reduce exact la situaiile n care trebuie fcute
modificrile.
Condiia ar fi ca programul s nu caute cuvntul Un la nceput de fraz, ci
numai atunci cnd acesta se afl n interiorul propoziiei, adic ar fi poziionat ntre
cuvinte scrise cu minuscule.
Ca s artm c n faa cuvntului Un i dup el, se afl cte un cuvnt este
suficient s artm c n fa se afl o liter urmat de spaiu, iar ca s artm c Un
este urmat de un cuvnt este suficient s artm c este urmat de spaiu i apoi o
liter.
Ca s eliminm si situaia n care este vorba de un titlu scris cu majuscule, ar fi
bine s punem condiia ca literele vecine s fie minuscule.
Condiia se poate scrie sub forma.
orice_liter_minuscul - spaiu - Un -spaiu - orice_liter_minuscul
Exist implementate n AutoCorect o serie de coduri, printre care:
^_
cod pentru spaiu
^l
cod pentru orice liter minuscul
^L cod pentru orice liter majuscul