Sunteți pe pagina 1din 58

TUTORIAL "AutoCorect OCR Plus"

realizat dup topicul AutoCorect OCR_Plus - Instructiuni de folosire

S stabilim care este asemnarea i diferena dintre programul AutoCorect


STANDARD i AutoCorect OCR Plus.
AutoCorect OCR Plus este practic programul AutoCorect STANDARD la care
s-au adugat urmtoarele 3 elemente:
un meniu n plus, numit "OCR Plus";
meniul OCR Plus a fost inserat ntre meniul "Inserare" i meniul "Instrumente, astfel
c n acest moment ocup poziia a patra de la stnga la dreapta.
o fereastr nou pentru Setri - Punctuaie - OCR Plus.
Alturi de ferestrele "Configurare - Punctuaie - Document" i "Configurare Punctuaie - Subtitrri" care sunt implementate n AC Standard, a fost creat o nou
fereastr pentru setarea punctuaiei care ruleaz n meniul OCR Plus.
o comand rapid [scurttur] n coloana de comenzi rapide din stnga
ferestrei principale a programului.
Este vorba de ultima comand rapid, numit "OCR", aflat pe poziia 5.
Foarte important: primele patru comenzi rapide din coloana din stnga
ferestrei principale nu trebuie folosite pentru corectarea OCR-urilor.
Ele sunt comenzi rapide pentru corectarea documentelor standard i nu a OCR.

Dac la programul AutoCorect OCR Plus ignorm existena meniului OCR


Plus, atunci nseamn c avem programul AutoCorect STANDARD.
Opiunile speciale implementate pentru corectarea fiierelor OCR se pot rula
numai din meniul OCR Plus. O rulare automat a meniului OCR Plus se poate face i
acionnd asupra ultimei comenzi rapide, aa cum se vede n imaginea de mai sus.

CONFIGURARE PUNCTUAIE OCR_Plus

nainte de a face prelucrri n AutoCorect este necesar s stabilim setrile


Punctuaiei. Acest lucru se poate face nainte de a ncrca un document n
AutoCorect, dar se poate realiza i cu un document ncrcat, fr s afecteze aceste
setri.
Este important de reinut c setrile punctuaiei [ca de altfel i setrile din
meniul OCR_Plus] sunt salvate i pstrate de ctre AutoCorect i dup nchiderea
programului, pn la o nou modificare a setrilor sau la o nou instalare a
AutoCorect.
n concluzie aceste setri sunt valabile oricnd vom folosi AutoCorect; ele se
fac o singur dat i nu la fiecare deschidere a programului.

Cum procedm?
Dup deschiderea programului AutoCorect, din meniul principal, accesm
opiunea Instrumente > Configurare ca n prima imagine i se va deschide
fereastra Configurare General.
Accesm tabul-icon Punctuaie, apoi tabul OCR Plus.
Fereastra Configurare Punctuaie OCR Plus are n acest moment 5 taburi
componente:
Conversii
Punctuaia de baz
Majuscul
Diverse
Sugestii
S le discutm pe rnd.

Conversii
Aici nu este mult de discutat. Fereastra de setare este mai mult dect sugestiv.
Opiunea va face conversiile menionate n fereastr.
Ea trebuie activat n mod obligatoriu de ctre toi utilizatorii.

Punctuaia de baz
Aici sunt dou setri: prima este obligatorie i cea de-a doua se activeaz n
funcie de preferinele utilizatorului.
Aplic principiile de baz ale punctuaiei trebuie activat n mod obligatoriu.
Ca i la tabul precedent i aici sunt menionate toate modificrile pe care le va face
opiunea.
Practic opiunea nu face altceva dect s aplice regulile de scriere a semnelor de
punctuaie i s adauge sau s tearg spaii n faa sau dup fiecare semn de
punctuaie, aa cum cer regulile ortografice ale limbii romne.
Creaz list de sugestii
Dac vom activa aceast setare, pe timpul rulrii Punctuaiei, programul va crea o
list cu propuneri de corectare a punctuaiei; aceast list cuprinde propuneri ale
programului, dar a cror rezolvare depinde de utilizator; utilizatorul va putea s
verifice fiecare propunere i s accepte sau nu modificarea propus de program.
Dac utilizatorul va dori s fac doar o curare automat a OCR-ului, fr alte
corecturi, atunci nu trebuie activat aceast setare.

Majuscul
Aici este mai mult de discutat. Sunt trei situaii n care se face majuscularea:
La nceput de dialog
La nceput de paragraf
La nceput de fraz
Prima setare Majuscul la nceput de dialog [inclusiv dialog cu ghilimele]
trebuie activat n mod obligatoriu.
Rularea opiunii va corecta toate literele mici la nceput de dialog fie el cu
ghilimele sau nu.
Rularea opiunii nu produce modificri nedorite.
Al doilea pachet de opiuni se refer la corectarea majusculelor la nceput de
paragraf i necesit cteva explicaii n plus.
Mai nti s definim paragraful:
Iat o definiie scurt din dicionare: paragraful este Pasaj al unei lucrri
desprit de restul textului printr-un aliniat nou (i printr-un semn grafic special);
fragment (unitar) dintr-un text care cuprinde o anumit idee. Fragment mic al unui
capitol, al unui discurs, al unui articol de lege etc. cuprins ntr-un alineat.
Pentru computer, pentru editoarele de text, paragraful este ceva mai mult de att.
Din punct de vedere al logicii editoarelor, paragraful cuprinde orice text/nontext
cuprins ntre dou comenzi Enter. Pe editor nu-l intereseaz dac ntre cele dou
comenzi Enter se afl un paragraf care are neles, dac sunt una sau mai multe cifre,
ori rglii sau dac ntre dou Enter nu se afl nimic, nici mcar un spaiu. Editorul
va considera c acela este un paragraf.
Acestea fiind spuse, s ncercm s analizm imaginea urmtoare i s privim
atent paragraful care ncepe la sfritul paginii 58 i se termin la nceputul paginii
59.
Acest paragraf ar fi corect n forma urmtoare:
Lemn umed rspunse rzboinicul, tot att de calm ca un pedagog care-i face
o demonstraie aritmetic elevului su ncurcat. Prea mult umezeal, prea mult fum;
prea mult ap fum negru.

Ce constatm?
Paragraful real din punct de vedere literar i a logicii limbajului, ncepe la sfrit
de pagin i nu ncape n totalitate pe pagina respectiv, ci se continu pe pagina 59.
Atenie la ultimul cuvnt scris pe pagina 58: cuvntul elevu-, este de fapt cuvntul
elevului, desprit la capt [sfrit] de rnd, sfrit de rnd care, n acest caz,
corespunde i cu sfrit de pagin. Primul cuvnt de pe pagina 59 lui nici nu este un
cuvnt real, ci este secvena final a cuvntul elevului.

S privim mai departe: cele dou pri ale paragrafului real sunt desprite de 4
paragrafe digitale:
paragraf 1 nota de subsol 1 Colib de piei-roii cu font rou n imagine;
paragraf 2 nota de subsol 2 Oameni albi cu font rou n imagine;
paragraf 3 numr de pagin numrul 58 pe fundal bleu
paragraf 4 paragraf [rnd] gol, marcat cu |
Din pcate, calculatorul a majusculat secvena de cuvnt lui cu care ncepe pagina,
transformnd-o n cuvntul Lui, calculatorul considernd c e vorba de un paragraf
nou.
Acum s ncercm s definim Paragraful ntreg i Paragraful ntrerupt n
sensul folosit la aceste setri.
Paragraful ntreg este un paragraf normal, un paragraf obinuit, aa cum este
definit n dicionare, care urmeaz dup un paragraf format din caractere de tip liter,
mai lung de 7 caractere i care se termin cu semne de punctuaie corecte.
Paragraful ntrerupt este acel paragraf care urmeaz dup un paragraf gol [deci
un rnd gol] sau dup un paragraf care conine numai cifre [cum ar fi cazul numerelor
de pagin].
n sfrit, acum revenim la setrile privind majuscularea paragrafelor.
Subliniez c din cele 3 setri posibile ale majusculrii paragrafului se poate activa
doar UNA SINGUR, la alegere.
S le analizm pe rnd:
Majuscul la nceput de paragraf [orice liter orice paragraf]
Aceast opiune va majuscula orice liter la toate paragrafele, indiferent dac ele
urmeaz dup un paragraf normal, ori dup unul gol sau dup unul format din cifre,
dac este un Paragraf ntreg sau un Paragraf ntrerupt
Atenie! Activnd aceast opiune se vor majuscula i paragrafele care ncep la
sfrit de pagin i se continu la nceputul paginii urmtoare, fiind ntrerupt de
rndul gol dintre pagini sau de numrul de pagin, aa cum s-a ntmplat n exemplul
din imaginea de mai sus.
Recomand ca aceast opiune s fie activat doar n cazurile n care utilizatorul nu
a pstrat [sau a ters] numerele de pagin i nici nu are marcat trecerea de la o
pagin la alta cu rnd gol i, de asemenea, a corectat desprirea paragrafelor cu
opiunea 1.5 Repararea rndurilor rupte.
Majuscul la nceput de paragraf [numai paragraf ntreg]
Aceast setare va permite ca majuscularea s se fac la toate literele cu care ncep
paragrafele, dar doar la paragrafele care curg unul dup altul, la paragrafele ntregi.
Efectul secundar al opiunii este acela c dac ntre titlul capitolului i primul
paragraf aven un rnd gol, programul nu va majuscula acest paragraf.
Recomand activarea acestei opiuni.
Majuscul la nceput de paragraf [numai litera paragraf ntreg]
Aceast setare va permite doar majuscularea literei > i numai n cazul
paragrafelor ntregi. Practic aceasta seamn cu setarea a doua, doar c nu caut toate

literele mici la nceput de paragraf ntreg, ci doar litera .


Not: n general, Abbyy face puine confuzii ntre literele mici i literele mari, fapt
pentru care nu sunt multe cazuri de nceput de paragraf care vor fi scrise cu litere
mici, mai ales dac s-a fcut un antrenament suficient al Abbyy cu caracterele [adic
minim 5-6 pagini].
Singura problem major a lui Abbyy este aceea c nu recunoate niciodat pentru
limba romn litera [ majuscul], ci o va scrie totdeauna cu [ minuscul]. Practic
aceasta, problema lui , este principala problem de rezolvat la majusculare.
Avantajul setrii acesteia fa de setarea a doua este c majuscularea va rula mai
repede, avnd mai puine cutri de realizat; dezavantajul este c pot exista i alte
litere scrise cu minuscul la nceput de paragraf, pe care programul nu le va corecta.
n funcie de aspectul textului, utilizatorul ca avea posibilitatea s aleag ntre setarea
2 sau 3, ori chiar setarea 1.
Tot la tabul "Majuscul", mai sunt de discutat setrile care se refer la "Majuscul
la nceput de fraz."
Redau n imaginea de mai jos un fragment din fereastra se setare, spre a reaminti
cum arat aceste setri.

Prima setare, Majuscul la nceput de fraz doar dup punct urmat de spaiu,
este setarea pe care o recomand. Rularea opiunii de majusculare astfel setat nu va
face erori de majusculare [nu va majuscula i acolo unde nu trebuie] dect n situaia
n care Abbyy a pus n mod eronat un punct n locul unei virgule. Subliniez c
punctele de suspensie, n acest moment, sunt deja convertite n Elipsis, astfel c
opiunea nu va majuscula propoziiile care ncep dup puncte de suspensie.
Avantaje i dezavantaje ale setrii. Rularea punctuaiei astfel setate nu va produce
erori de majusculare n plus, adic nu va majuscula situaii n care trebuie pstrat
minuscula. Dezavantajul este c pot rmne nceputuri de fraz care urmeaz dup ? !
i elipsis, ce vor trebui corectate manual.
Cea de-a doua setare, Majuscul la nceput de fraz dup ! i ? urmat de
spaiu, are dezavantajul c poate face majusculri n plus fa de situaiile corecte.
Aceast opiune va face majuscularea cazurilor de dialog francez, astfel c dac va fi
activat, n mod obligatoriu este necesar i cea de-a treia opiune de la tabul
Sugestii sau opiunea special din meniul OCR_Plus 4.5. Convertire majuscul n
minuscul n dialog francez.
Niciuna dintre cele dou setri nu este perfect, fiecare dintre ele are avantaje i
dezavantaje.
Personal prefer prima opiune, pentru simplul motiv c aa m-am obinuit s
lucrez.
Diverse
Cred c numele acestor setri sunt suficient de sugestive i nu mai necesit
explicaii.
Recomand activarea tuturor setrilor.

Sugestii

Pentru c personal nu am folosit aceste sugestii, am nevoie de un pic de timp


pentru documentarea privind setarea Sugereaz tipul corect de liniu.
Setarea a doua nu cred c necesit explicaii, fiind suficient de sugestiv.
Cea de-a treia setare, privind dialogul francez, se activeaz dup cum am mai
spus, doar dac se activeaz opiunea Majuscul la nceput de fraz dup ! i ?
urmat de spaiu.
Aceste dou setri i opiuni funcioneaz n pereche: ori activate ambele, ori
dezactivate.
Cred c cele de mai sus sunt suficient de detaliate ori, poate, enervant de detaliate.
Dac a fost mai greu la citit... mi cer scuze!... dar s tii c nici la scris n-a fost
foarte uor.

Probleme constatate de useri la rularea Meniului OCR_Plus


"cind rules functiile de la OCR plus imi spune ca "nu poate deschide"
urmatoarele dictionare CO_DE, L1, S1, Midp, Dlp, Df. Am verificat si dictionarele
sint la locul lor."
Mai nti trebuie stabilit dac ruleaz vreunul dintre dicionare; dac nu ruleaz
niciunul atunci pot fi urmtoarele cauze:
- dicionarele nu au fost instalate n folderul corect;
- dicionarele nu au numele reactualizate i ruleaz dicionare cu nume vechi.
Dicionarelor iniiale au fost redenumite, adugndu-se la toate dicionarele particula
CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic. E bine de
verificat pe baza anexelor Tutorialului din prima postare.
Prerea mea este c e posibil s avem o problem cu calea de cutare a
dicionarelor.
Foarte important: Exist n computer dou foldere numite "Dictionare" Nu
trebuie fcut confuzie ntre ele.

Unul dintre ele se gsete n Program Files, unde AutoCorect se instaleaz:


C:\Program Files\AutoCorect\ Dictionare
n acest folder "Dictionare" AutoCorect i instaleaz dictionarele sale de limba
romn, necesare funcionrii. Aceste dicionare n-au nicio legtur cu cele ce ruleaz
n Meniul OCR_Plus.
Mai exist un folder "Dictionare" si este cel care ne intereseaz si pe care
Autoorect l creaz la prima lui rulare.
Acest al doilea folder, cel ce ne intereseaz, are urmtoarea locaie:
n Windows XP:
C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Clasic\
Dictionare pentru versiunea AutoCorect Clasic.
sau
C:\Documents and Settings\NUME_USER\Application Data\AutoCorect
Contemporan\ Dictionare pt. versiunea AutoCorect Contemporan.
n Windows 7, Windows Vista:
C:\Users\NUME_USER\AppData\Roaming\AutoCorect Clasic \Dictionare
pentru versiunea AutoCorect Clasic.
sau
C:\Users\NUME_USER\AppData\Roaming\AutoCorect Contemporan\
Dictionare pentru versiunea AutoCorect Contemporan.
n aceste foldere numite "Dictionare" se creaz folderul "OCR_DIC" i aici se
copiaz dicionarele ce ruleaz cu Meniul OCR_Plus.

RULAREA AUTOMAT A MENIULUI OCR_Plus


GENERALITI
Meniul este destul de complex i o discuie despre rularea lui este dificil de
abordat. Am ales varianta n care s prezentm mai nti fiecare pachet de opiuni n
parte, deoarece rularea cronologic mi se pare mai dificil de explicat.
Mai nti s stabilim cteva aspecte:
a. Programul AutoCorect OCR_Plus poate fi folosit n cel puin dou variante:
CORECTURA sau varianta LUNG este varianta de lucru care permite o
corectur complet, n care se ruleaz att opiunile din meniul OCR_Plus ct i alte
opiuni cum ar fi Ortografie i editri care permit o corectur complex, inclusiv
corectura cap-coad prin citire.
CURAREA sau varianta SCURT se folosete pentru o curare rapid
a OCR-ului, dup care utilizatorul va continua corectura prin citire-cap coad n alt

editor de text. Aceasta este varianta pe care o vom discuta n continuare.


b. Timpul de rulare a meniului OCR_Plus.
Timpul depinde de mrimea documentului de corectat, ceea ce este normal, dar
trebuie menionat c dac avem un document de 200 de pagini i unul de 2 200 =
400 pagini, timpul necesar pentru documentul mai mare nu este numai de 2 ori mai
mare, ci de aproximativ 2 2, adic de vreo patru ori.
Dac avem cri mari de curat este bine s le mprim n cte dou sau trei pri
de circa 200 de pagini. Din teste, rezult c mrimea optim este n jurul a 200 de
pagini.
Programul pstreaz setrile, astfel c toate prile vor fi curate n acelai mod.
c. Aa cum am menionat i altdat, programul AC nu face totul i nici nu e
necesar s fac totul. Practic el este un instrument care ne ajut s curm grosul
greelilor. Adevrata curenie adevrata corectur o face omul. Utilizatorul poate
stabili ce anume opiuni ruleaz i ce nu ruleaz, alegnd opiunile care-l
avantajeaz i, de asemenea, el va putea mbunti programul prin adugarea de
noi dicionare cu nregistrri specifice crilor pe care le corecteaz. Aceste dicionare
suplimentare le va putea aduga, dup cum vom vedea, la opiunea 11.

Din meniul principal, alegem OCR_Plus > Ruleaz toate opiunile, ca n


prima imagine.
Programul va deschide fereastra cu lista de opiuni, aa cum se vede n cea de-a
doua imagine.
n aceast fereastr vom bifa [activa] opiunile pe care vrem s le rulm.
La opiunile care sunt prevzute cu Opiuni de setare va trebui s verificm dac
setrile default sunt cele care ne convin sau le vom modifica dup dorin.
Este important de reinut c aceste setri i activarea/nonactivarea opiunilor se
pstreaz pn la o eventual modificare sau o nou instalare de executabil. n
concluzie, setrile se fac o singir dat pentru mai multe utilizri ale programului.
Dup stabilirea tuturor setrilor se apas butonul Ruleaz.
Menionaz c ordinea de rulare a opiunilor a fost stabilit dup mai multe testri
i cea default este considerat optim. Cu toate acestea, opiunile pot fi mutate n sus
i n jos, astfel c ordinea lor se poate schimba, dac utilizatorul va voi s schimbe o
anumit ordine de rulare a opiunilor.
Pentru a putea hotr care dintre opiuni s fie activate i care nu, precum i care
sunt setrile necesare, vom proceda la explicarea n detaliu a fiecrei opiuni.
Pentru ca unii utilizatori s nu fie tentai s renune la unele opiuni, fr a
cunoate foarte bine ce anume modificri fac acele opiuni, voi explica avantajele
folosirii fiecreia n parte, dar voi insista suficient i pe eventualele dezavantaje ale
rulrii opiunii.
Legea nr.1: AutoCorect PCR_Plus face o precorectur i nu o corectur textului.
Dup rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii
manuale prin citire cap-coad a textului.
Dicionarele pe care programul le ruleaz pentru executarea modificrilor
realizeaz foarte multe nlocuiri corecte, dar nu este exclus ca n text s fac i
nlocuiri eronate, chiar dac acestea sunt n numr mic pn la extrem de mic.
La editarea dicionarelor s-a mers pe principiul ca un dicionar s ajute ct mai
mult pe cel ce corecteaz manual; cu alte cuvinte, dac o nregistrare face foarte
multe nlocuiri corecte, dar din cnd n cnd produce i modificri incorecte, aceast
nregistrare a fost fcut. Practic s-a avut n vederea frecvena apariiei ntr-un text a
unui anumit cuvnt ntr-o anumit form.
Exemplu: exist n limba romn, att cuvntul < n > cu o frecven foarte-foarte
mare n orice text, dar exist i cuvntul < in > ce are o frecven foarte mic. Am
ales s facem modificarea in >> n, iar cnd corectorul gsete n text c este vorba de
cuvntul < in = plant tehnic> - atunci corectorul face modificarea manual. Sunt
multe alte exemple.
Legea nr.2: vom activa TOATE acele opiuni pe care le considerm necesare.
Nu este indicat s facem corecturi manuale dac ele se pot face automat i mult
mai rapid n AutoCorect.
Legea nr.3: vom activa DOAR acele opiuni pe care le considerm necesare.
Nu este indicat s aglomerm programul cu sarcini pe care nu le considerm utile.
Legea nr.4: Legea 1 este OBLIGATORIE TOTDEAUNA, ORIUNDE i pentru
ORICE TEXT; Cine procedeaz altfel, are anse sigure S STRICE un text deja
corectat. Din pcate sunt civa "istei" care au procedat astfel, realiznd o versiune
"superioar" la o calitate "inferioar".

Legile 2 i 3 pot fi complet ignorate, da' e pcat.


1. CONVERTIRI PRELIMINARE
1.1. Conversie dialog bullets n dialog text
1.2. Setare text la font i mrime unic
1.3. Eliminare tab i spaii multiple
1.4. Eliminare spaii la nceput de paragraf

1.5. Repararea rndurilor rupte


1.6. Rupere rnduri care ncep cu dialog aflate n interiorul paragrafului.
1.1. Conversie dialog bullets n dialog text
Opiunea, aa cum sugereaz i numele, transform liniile de dialog de tip bullets
n linii de dialog de tip text.
Pstrarea ntr-un text a liniilor de dialog de tip buletts poate duce la pierderea
liniilor de dialog, din neatenie sau dac utilizatorul dorete s fac reformatarea
textului.
Opiunea nu necesit multe explicaii. Va fi ACTIVAT obligatoriu. Nu produce
efecte secundare nedorite.
Recomand ca aceast opiune s fie rulat separat si la terminarea corecturii,
deoarece pe timpul corecturii pot s mai apar n mod accidental situaii n care linii
noi de dialog apar ca buletts.
1.2. Setare text la font i mrime unic
Un OCR poate fi salvat de Abbyy n diferite formate: doc, rtf, pdf, htm, lit etc...
Recomand o singur variant i anume: RTF.
La rndul lui i RTF-ul poate fi salvat n mai multe variante de formatare:
RTF Exact copy
RTF Editable copy
RTF Formatted text

RTF Plain text


Primele dou ["RTF Exact copy" i "RTF Editable copy"] pot fi acceptate doar
dac OCR-ul extras va fi printat sau citit fr a fi corectat. Corectura unor astfel de
formatri necesit eforturi suplimentare mari i nejustificate, deoarece la aceste
formatri apar zone de Text Box i n principiu tot textul este inserat n Frame-uri,
cte un Frame pentru fiecare suprafa de text Abbyy [de reamintit c pe o pagin de
carte sunt mai multe suprafee de recunoatere a Abbyy, deci fiecare pagin va avea
cel puin dou-trei Frame]. Pentru a realiza corectura va trebui ca mai nti s fie
terse aceste Frame i ncadrri de la Text Box.
Dac la o carte nu ne intereseaz pstrarea formatrii italice [cursive] a zonelor
scrise n acest mod sau, pur i simplu cartea este scris doar cu font drept [regular],
atunci putem salva n varianta cea mai simpl, "RTF Plain text" i vom avea text cu
acelai font i la aceeai mrime.
n principiu, varianta optim de salvare a unui text OCR n Abbyy este RTF Formatted text.
Aceast variant salveaz toate formatrile de text, dar fr ncadrri de tip Box
Text sau Frame. Dezavantajul este c Abbyy va folosi mai multe tipuri de fonturi, o
mulime de valori pentru mrimea textului, de la 4-5 puncte tipografice pn la valori
foarte mari [chiar i 150 puncte pentru cte un caracter singular, recunoscut eronat],
precum i o serie de formatri false ale textului. Din acest motiv este necesar o
formatare a textului la font i mrime unic.
Aceast opiune este una dintre cele mai complexe pe care le conine meniul
OCR_Plus. Setrile sunt de asemenea complexe, astfel c vom insista mai mult pe
fiecare grup de setri.

Setare font
Dei fereastra de setare este suficient de sugestiv, sunt necesare cteva explicaii.
Nume font i Mrime font. Vom stabili fontul i mrimea ca n orice editor.
Personal folosesc "Bookman Old Style" la mrimea 11, dar pot fi folosite i alte
fonturi i mrimi, conform obinuinei. Recomand fontul "Droid Serif"; este un font
foarte uor de citit, n special pe Readere.
culoare setarea poate rmne inactiv; opional se poate activa i stabili
culoarea [n principiu la cri se folosete culoarea Black i nu Automatic].
Recomandare personal: setare inactiv.
"B + I = I" aceast setare va nlocui toate bucile de text formatate
bold+italic n font italic simplu, neboldat.
De regul, n crile de beletristic nu este folosit formatarea Bold+Italic, astfel
c zonele de text formatate astfel sunt de cele mai multe ori nicte simple erori
Abbyy. Recomandare personal: setare ACTIV.

"B >> N" aceast setare va nlocui toate bucile de text formatate cu Bold
simplu n font drept simplu, neboldat. La crile de beletristic este folosit
formatarea Bold doar pentru numele capitolelor, dar Abbyy va marca astfel toate
zonele de text pe care nu este sigur c le-a recunoscut corect, n special cuvintele care
conin litera O i L mic lng cratim, deoarece nu va ti sigur dac acolo se afl
literele O sau L mic, ori cifrele 0 sau 1. Recomandare personal: setare ACTIV.

Resetare zoom 100% la alegerea utilizatorului. Recomandare personal:


setare inactiv.
Setare paragraf
Aceste setri nu implic prea multe discuii. Se pot alege orice valori, dar le
recomand pe urmtoarele:
Alineatul: are valori zero n marginea stng i dreapt a paginii, iar primul
rnd ncepe mai din interior cu 0,5 cm [0,2 inches]
Spaiere rnduri = 1; textul este scris "la un rnd".
Spaiere caractere = 0. Spaiu dintre dou litere este un spaiu normal, adic
nu este nici condensat, nici expandat.

Spaiu paragraf: nainte = 0. Dup = 0. Spaiul dintre paragrafe este unul


normal, ca i cel dintre rnduri, adic distana dintre dou paragrafe este aceai cu cea
dintre dou rnduri ale aceluiai paragraf, deci tot "la un rnd"
Aliniere paragraf = stnga-dreapta sau, ceea ce cunoatem ca "Justify".
Setare pagin
La setarea paginii lucrurile sunt foarte simple i se procedeaz ca la setarea paginii
n orice editor. Recomand folosirea valorilor din imagine: pagina format A5 cu

marginile de 1 cm, iar Antetul i Subsolul de 0,5 cm.


Menionez c: 0,5 cm 0,2 inches, iar 1 cm 0,39 inches
Sunt foarte importante setrile de font i cele de paragraf, dar poate rmne
neactivat opiunea de setare a paginii. Setarea paginii se poate face atunci cnd
ncepe corectarea propriu-zis prin citire-cap coad a textului.
Dup ce am definitivat setrile de font, paragraf i pagin, acionm butonul
"Seteaz" pentru a salva setrile i a iei din fereastra de setare.
1.3. Eliminare tab i spaii multiple
Opiunea convertete toate taburile n spaii simple i, de asemenea convertete
toate spaiile multiple ntr-un singur spaiu, astfel c ntre cuvinte va exista n tot
textul cte un singur spaiu. Recomandare personal: setare ACTIV.
1.4. Eliminare spaii la nceput de paragraf
Opiunea elimin spaiile existente la nceput de paragraf.
Este necesar eliminarea spaiilor aflate la nceput de paragraf, deoarece opiunile
de corectare care ruleaz la pachetele urmtoare nu pot funciona corect sau nu pot
funciona deloc dac exist astfel de spaii la nceput de paragraf.
Utilizatorul de Word sau alte editoare de text, care se respect, nu va alinia
nceputul de paragtaf prin adugare de spaii sau taburi n faa primului rnd ci va seta
paragraful astfel nct prima linie s fie scris mai din interior. Recomandare
personal: setare ACTIV.
1.5. Reparare rnduri rupte
S-a ales formularea "rnduri rupte", ca fiind mai sugestiv, dar opiunea poate fi
numit i "repararea paragrafelor rupte".
ntr-un OCR pot aprea situaii n care unele dintre paragrafe sunt "rupte".
Cauzele apariiei paragrafelor rupte sunt mai multe, printre care:
- o simpl eroare de interpretare a Abbyy, dei setrile au fost fcute corect.
- setare greit n Abbyy [a fost activat opiunea "Keep line breaks" din Tools

-> Options -> 3. Save -> Text settings].


- copiere direct cu Copy&Paste dintr-un fiier de alt tip: pdf, htm etc...
Iat un exemplu de pagin rezultat din Abbyy care a avut setarea "Keep line
breaks" activ - Vezi Img.1.
Se observ c toate rndurile au devenit "un fel de" paragrafe.
n a doua imagine se vd i codurile de sfrit de rnd [semnul sub form de
sgeat orientat n jos] i codurile de sfrit de paragraf [cel sub form de P ntors] Vezi Img.2.
n cazul n care "ruperea paragrafelor ar fi avut un alt motiv dect setarea din
Abbyy, la sfritul rndurilor ar fi putut aprea semnul sfrit de paragraf n locul
semnului sfrit de rnd.
Iat cum apare pagina dup rularea opiunii 1.5. Reparare rnduri rupte - Vezi
Img.3.
Este important de menionat c opiunea are implementate opiuni de setare, aa
cum se vede n imaginea de mai jos.

Recomandri privind setrile opiunii:


Din experiena personal rezult c se pot activa toate variantele fr probleme la
crile de beletristic. n cazul crilor de specialitate [drept, economie, medicin,
tehnic etc.] se va evita activarea opiunilor nr. 5 i 10 sau se vor folosi cu mare
atenie. n cazul unor astfel de cri este normal s existe paragraf corect dup punct
i virgul, n cazul n care este vorba despre o enumerare.
Comentarii despre opiune.
Opiunea rezolv un numr relativ de erori n cazul unui OCR rezultat dintr-o
extragere Abbyy cu setri corecte. Efectele negative ale opiunii sunt limitate sau
inexistente. Singura meniunea este cea privind setrile 5 i 10 n cazul unor cri cu
structur diferit de literatura beletristic. n cazul textului obinut cu Copy&Paste
din formate speciale [pdf, htm etc] opiunea va scurta timpul i efortul coreciei
manuale de la cteva ore la unul-dou minute. Recomandare opiune: setare
ACTIV.
1.6. Rupere rnduri care ncep cu dialog aflate n interiorul paragrafului
Sunt cazuri n care Abbyy "lipete" n mod eronat dou paragrafe sau mai multe
paragrafe. Cazurile sunt mai dese n cazul paragrafelor obinuite, dar exist i cazuri

n care un paragraf care ncepe cu linie de dialog a fost lipit la sfritul paragrafului
din faa sa.
Opiunea ncearc s repare aceast ultim eroare i "rupe" paragraful atunci cnd
gsete o liniu care ndeplinete condiiile unei linii de dialog. Astfel, liniua trebuie
s aib spaiu nainte i dup, are o fraz care se termin corect naintea spaiului din
fa i are o fraz care ncepe cu liter mare dup spaiu de dup liniu.
Sunt cazuri de beletristic n care toate condiiile de mai sus apar i n cazul unei
linii de pauz. Situaiile sunt destul de rare, dar exist. Mai mult dect att, aceste
situaii apar, de regul, n cazul dialogurilor, iar liniile de pauz separ ceea ce spune
personajul de ceea ce comenteaz autorul; deci confuzia poate fi mare, dac se face o
rupere eronat.
Rularea opiunii poate produce erori n cazul unui anumit autor sau traductor;
dac marcarea comentariilor autorului n dialoguri se face cu linii de pauz, erorile
pot avea o frecven mai mare; dac aceste comentarii sunt marcate prin virgule,
erorile sunt minime sau inexistente. Opiunea trebuie folosit cu atenie, dup o
vizualizare ct de sumar a textului, pentru stabilirea modului n care s-a fcut
demarcarea comentariilor autorului de de ceea ce spun personajele ntr-un dialog.
Iat dou moduri corecte de marcare a comentariilor autorului ntr-un dialog.
Nu sunt credincios zise el dar am s spun Tatl Nostru de zece ori, ca
s prind petele.
Nu sunt credincios, zise el, dar am s spun Tatl Nostru de zece ori, ca s
prind petele.
n cazul n care n carte se folosete metoda liniilor explicative ca n primul
exemplu, activarea opiunii ar putea produse erori; n cel de-al doilea caz, erorile sunt
aproape excluse.
Recomandare personal: utilizatori nceptori = setare inactiv i utilizatori
avansai = setare ACTIV
2. PUNCTUAIE
2.1. Eliminare artefact-paragraf
2.2. Corectare linii de pauz i linii de dialog
2.3. Funcii obinuite
2.4. Corectare suplimentar elipsis
2.5. Conversie combinaii ? ! i . ,

2.1. Eliminare artefact-paragraf


Paragraf-artefact sau artefact-paragraf n cazul de fa este un paragraf care nu
conine text, cu doar un caracter sau combinai de dou sau trei caractere eronat
recunoscute [ceea ce am numit cu termenul general de "rglie"].
Opiunea caut i modific un astfel de paragraf i terge "rgliile", transformnd
paragraful n unul gol, fr coninut.
Aceast opiune funcioneaz prin rularea dicionarului CO_Artef.imd, respectiv
CL_DArtef.imd.
Exemplu de caractere-rglii nregistrate la acest moment: ^ < > |
_@#$%+={}[]
Este important de reinut c dicionarul poate fi completat de fiecare utilizator cu
cazuri noi descoperite n OCR.
Menionez c la editarea dicionarului trebuie s se in cont de faptul c toate
nregistrrile au n mod obligatoriu condiiile "nceput de paragraf" Pi i "Sfrit de
paragraf" Ps, la care se adaug "Potrivire perfect" Pp.
n ultima coloan a dicionarului trebuie s apar condiiile Pp Pi Ps
Dac una dintre cele dou condiii Pi sau Ps lipsete, programul va cuta astfel de
situaii i la nceputul sau sfritul unor paragrafe care conin text, ceea ce poate
afecta corectitudinea textului, deoarece pe lng rglii au fost nregistrate sau se pot
nregistra i semne de punctuaie solitare sau chiar litere solitare.
Aa cum este editat dicionarul la momentul actual, nu exist efecte secundare
nedorite.
Recomandare personal: setare ACTIV
2.2. Corectare linii de pauz i linii de dialog
Opiunea este implementat pe baz de cod i rularea automat a dou dicionare:
CO_LinP.imd i CO_LinD.imd [CL_LinP.imd i CL_LinD.imd]
CO_LinP.imd ia n calcul liniile de pauz, deci linii indiferent unde s-ar afla n text
i ruleaz primul, iar CO_LinD.imd se ocup doar de curarea liniilor de dialog, deci
are condiia onligatorie "nceput de paragraf" Pi.
La rularea acestei opiuni, sunt "curate" de rglii liniile de pauz i liniile de
dialog; altfel spus, se elimin din jurul liniilor de dialog i liniilor de pauz, diferite
caractere recunoscute eronat, indifernt dac acestea sunt lipite de linii n faa lor sau
dup ele sau dac ntre linii i rglii exist spaiu. Nu se fac modificri acolo unde
liniile sunt de tip cratim i lipite de litere.
Efectele negative ale opiunii sunt minime, de circa dou-trei procente.
Folosirea opiunii scurteaz n foarte-foarte msur timpul necesar la corectura
manual.
Cele dou dicionare pot fi mbuntite; se vor urmri cu atebie condiiile ce
trebuie puse nregistrrilor.
Recomandare personal: setare ACTIV
2.3. Funcii obinuite
Opiunea pune n aplicare toate setrile care s-au fcut la "Configurare Punctuaie - OCR_Plus"
Problemele au fost tratate detaliat n postarea privind "Configurare - Punctuaie OCR_Plus", aa c nu mai relum explicaiile.

Recomandare personal: setare ACTIV


2.4. Corectare suplimentar elipsis
Elipsis este caracterul asemntor cu trei puncte color=#7FFFD4]Pi[/color] doar
c este un singur caracter i nu o succesiune de 3 caractere. Este foarte important ca
n locul punctelor de suspensie s fie folosit caracterul Elipsis, deoarece n
interpretarea unor opiuni se poate face confuzie ntre caracterul "punct" i unul dintre
punctele componente de la punctele de suspensie. Discuia s-a purtat pe forum, fapt
pentru care nu insist asupra importanei caracterului Elipsis.
La opiunea "2.3. Funcii obinuite" se face conversia succesiunii de 3 sau mai
multe puncte n Elipsis.
Aceast opiune adaug n plus alte cteva situaii, n care succesiunea este
compus din puncte i virgule n diferite combinaii, aa ca n exemplele urmtoare:
,.. .,. .., ,,. ,., .,, .... ,... , .,.. ..,. ..., , ,,.. ,.,. ,.., .,,. .,., ..,,
Toate aceste combinaii sunt transformate ntr-un singur caracter Elipsis.
Recomandare personal: setare ACTIV
2.5. Conversie combinaii ? ! i . ,
Exist situaii n care caracterul ? este nsoit n mod eronat de un caracter punct
sau de un caracter virgul.
Punctul sau virgula sunt lipite de caracterul ? nainte sau dup el, astfel: .? ,? ?. ?
,
Acelai lucru este posibil i cu caracterul !. Exemplu: .! ,! !. !,
Punctul sau virgula din aceste situaii sunt la origine mici pete de imagini
determinate de vechimea hrtie sau textura de slab calitate a hrtiei, ori din alte
morive. Practic aceste puncte sau virgule nu exist n textul original i ar trebui
eliminate.
n principiu, la rularea acestei opiuni, punctul sau virgula lipit de ? sau de ! sunt
eliminate, astfel c:
.? ,? ?. ?, se transform n
?
.! ,! !. !,
se transform n
!
Opiunea are o fereastr de setare a combinaiilor.
Aceasz opiune este implementat n ultima perioad, astfel c nu au fost fcute
foarte multe teste.
Recomandare personal: setare ACTIV cu activarea tuturor situaiilor din
setare, dar i urmrirea pe ct posibil a efectelor opiunii asupra textului.
3. CONVERSIE TEXT CLASIC N TEXT CONTEMPORAN
Aceasta opiune este implementat n AutoCorect oficial nc de la apariia
primelor versiuni i se afl ca opiune independent n meniu la Editare --> Conversie
text clasic n text contemporan.
Deoarece opiunea este folosit frecvent n curarea OCR, s-a convenit ca ea s
fie accesat i din acest meniu i s poat fi rulat automat n cadrul meniului
OCR_Plus.
Practic, opiunea nlocuiete formele < snt, sntem, sntei > cu < sunt, suntem,
suntei > i nlocuiete litera < > din interiorul cuvintelor cu litera < >.
Opiunea funcioneaz astfel nct s nu afecteze scrierea cu < > n interiorul
cuvintelor compuse, astfel c nu face nlocuirea lui < > n cazul cuvintelor compuse

cu prefixele din imaginea urmtoare: Vezi imagine


nlocuirea NU FACE i o corectare a cuvintelor, ci doar conversia literei >> i
a celor trei forme snt.
Exist o singur excepie: la rularea opiunii cuvintele < nici o > i < nici un > se
transform n < nicio > i < niciun >.
Pentru repararea unor efecte suplimentare nedorite ale acestei corecii, au fost
fcute cteva nregistrri de forma: nicio singur >> nici o singur; niciunei singure
>> nici unei singure; niciun singur >> nici un singur; niciunui singur >> nici unui
singur.
Foarte important!
Sunt mprite prerile userilor cu privire la pstrarea textului cu grafia clasic sau
convertirea la grafia contemporan.
Nu ncerc s susin o variant sau alta, chiar dac nu mi se pare corect s scriem
astzi aa cum se scria n urm cu aproape 20 de ani, dar trebuie avut n vedere c:
TOATE DICIONARELE CARE RULEAZ AUTOMAT N MENIUL OCR_PLUS
AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE N LIMBA
ROMN CONTEMPORAN.
Aceste dicionare au fost gndite i au o anumit logic pentru erori ce apar la
texte n varianta Contemporan. Pentru varianta Clasic s-a fcut doar o nlocuire
simpl a literei < > cu < > n nregistrri. Este posibil ca unele nregistrri n
varianta Clasic s nu produc efecte.
n concluzie, cine dorete s beneficieze de toate facilitile meniului OCR_Plus
trebuie s activeze aceast opiune.
Recomandare personal: setare ACTIV
4. CORECTARE CARACTERE REPRODUSE ERONAT
4.1. Corectarea majusculelor ncorporate
4.2. Corectarea literelor l, d i m reproduse eronat
4.3. Corectare cuvinte foarte scurte
4.4. Corectarea minuscule la nceput de paragraf
4.5. Convertire majuscul n minuscul n dialog francez
4.6. nlocuire secvene cuvinte

Cnd spunem erori de OCR, cel mai adesea ne referim la erori de recunoatere a caracterelor.
Exist caractere asemntoare ca form, precum cifra 1 sau semnul de punctuaie ! i litera L
mic, cifra 0 i litera O, grupul c+l i litera d, grupul r+n i litera m, caracterele $ sau i litera ,
confuzii ntre literele e i c...
Erori de OCR sunt i rocade de dou litere alturate, astfel c grupul et poate fi reprodus ca te...
i multe alte erori n care n locul unui caracter, Abbyy "recunoate" un alt caracter.
Unele erori sunt date de insuficiena nregistrrilor n dicionarul de limba romn la care Abbyy
are acces.
Acest pachet de opiuni ncearc s rezolve o parte din aceste erori.
Pachetul se bazeaz n principal pe rularea automat a unui numr mare de dicionare de tip
OCR_Plus.
n acest moment pachetul n totalitatea lui ruleaz 12 dicionare cu peste 4600 de nregistrri.
Mai sunt n lucru alte cteva dicionare de secvene care nu au fost definitivate i implementate.
Este posibil ca n perioada urmtoare pachetul s mai fie mbuntit i cu alte opiuni, dar acest
lucru nu va complica modul de lucru al utilizatorului, deoarece opiunile au un element comun rularea automat de dicionare care fac nlocuiri de cuvinte sau secvene de cuvinte.
Practic toate opiunile din pachet ar putea fi comprimate n una singur, numit "Corectare
caractere reproduse eronat". A fost aleas varianta divizrii n mai multe opiuni pentru ca numele
acestora s sugereze i categoriile de nlocuiri pe care o anume opiune le face.
O caracteristic un pic aparte o are opiunea 4.5. Convertire majuscul n minuscul n dialog
francez, pe care o vom sublinia la momentul respectiv.
Pentru ca utilizatorul s fie convins de necesitatea rulrii acestor opiuni i s nu aib reineri la
activarea lor, pe motiv c ele ar produce efecte secundare nedorite, vom descrie n detaliu fiecare
opiune n parte.
E posibil ca explicaiile s fie ceva mai lungi dect la alte opiuni, astfel c am ales varianta ca
unele dintre opiuni s fie tratate n cte o postare separat. Este mai uor de urmrit o postare care
nu este foarte lung i este mult mai uor de editat i modificat.

4.1. Corectarea majusculelor ncorporate


Termenul de majuscul ncorporat se refer [n acest caz] la scrierea eronat cu
una sau mai multe litere majuscule n interiorul unor cuvinte ce trebuie s conin
doar litere minuscule.
Exist cteva litere care au aceeai form, att n forma majuscul, ct i n forma
minuscul.
Este vorba despre literele C, J, O, P, S, , U, V, W, Z, care seamn pn la
identificare cu forma lor minuscul: c, j, o, p, s, , u, v, w, z.
n cazul acestor litere, ntre majuscul i minuscul exist doar diferen de
mrime.
Din acest motiv Abbyy poate face confuzii ntre minuscula i majuscula unei
litere, fapt pentru care pot rezulta OCR, care au litere majuscule n interiorul
cuvintelor scrise cu minuscule.
Iat ultima fraz scris n acest mod:
Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii ntre minUSCUla i majUSCUla
unei litere, fapt pentrU care pOt rezUlta OCR, care aU litere majUSCUle n
interiOrUl CUvintelOr SCriSe CU minUSCUle.
Opiunea ruleaz pe baz de cod i rezolv situaii din cele menionate mai sus.
Recomandare personal: setare ACTIV

4.2. Corectarea literelor l, d i m reproduse eronat


Opiunea ruleaz automat urmtoarele 5 dicionare:
CO_L1.imd, CO_L2.imd i CO_L3.imd pentru coreciile: cifra 1 >> L mic,
! >> L mic i cifra 0 >> litera O.
CO_Gcl.imd pentru corectarea: grupul c+l >> litera d.
CO_Grn.imd pentru corectarea: grupul r+n >> litera m.
S analizm pe rnd fiecare grup de erori.
Cifra 1 n locul literei l [L mic]
La marea majoritate a fonturilor de tip serif, cifra 1 i litera L mic sunt foarte
asemntoare. Fontul Bookman Old Style le reproduce identic, iar n Times New
Roman [font folosit frecvent la tiprirea crilor] sunt foarte asemntoare; pentru
detalii despre fonturi serif i sans serif, vezi imagine aici i detalii suplimentare aici.
Abbyy face frecvent aceast confuzie i scrie cifra 1 n loc de litera l [L mic] n
situaiile n care litera L mic este lipit de cratim, indiferent dac este vorba de
cratim naintea literei sau cratim dup litera L mic. Abbyy crede c respectiva
cratim este semnul "minus" din matematic, iar litera L mic este cifra 1; n
concluzie, cratim lipit de litera L este considerat a fi "unu minus..." sau "minus
unu".
Exist un numr mic de useri nceptori care fac corectura cap-coad a unui text i
nici nu realizeaz c textul lor conine un mare numr de caractere "cifra 1" acolo
unde trebuia s fie L mic.
Cifra 0 n locul literei O [mic sau mare]
Cauzele apariiei unor astfel de situaii sunt similare celor de la cifra 1 >> litera L
mic. Subliniiez c cifra 0 nenspit de alte semne este corectat ca fiind litera O
mare, iar cifra 0 lipit de liniue este modificat ca fiind litera O mic din compunerea
unui cuvnt cu cratim.
Semnul exclamrii n locul literei l [L mic]
Semnul exclamrii poate fi reprodus de Abbyy n locul literei L mic, atunci cnd
baza literei L mic nu este clar reprodus n carte, ca urmare a unui tipar defectuos sau
uzura n timp [tergerea merginilor literei, "gurirea" literei. Pentru corectarea ! >> l
nu au fost luate n calcul situaiile n care litera L mic ocup poziia final n cuvnt,
ci doar dac dup semnul ! urmeaz cel puin o liter mic.
Toate aceste situaii sunt corectate prin rularea dicionarelor CO_L1.imd,
CO_L2.imd i CO_L3.imd, respectiv CL_L1.imd, CL_L2.imd i CL_L3.imd pentru
AC Clasic.
n principiu, la acest moment, dicionarele sunt structurate astfel: L1 cuprinde
cuvinte ntregi, L2 cuprinde secvene de sfrit de cuvnt i L3 cuprinde secvene de
nceput de cuvnt. Fa de aceast structur exist i nregistrri care fac excepie:
este vorba de nregistrrile care convertete semnul ! n L mic, i care dei nu sunt
cuvinte ntregi, ci secvene de dou caractere, au fost nregistrate n primul dicionar.
Variante de dicionare cu acest rol au nceput s fie editate i rulate n AutoCorect
n urm cu peste doi ani. Actualele dicionare au la baz acele dicionare care au fost
mbogite i perfecionate de-a lungul timpului. Erorile constatate sau reclamate de
diveri useri de-a lungul timpului au fost eliminate sau corectate.
n mod sigur dicionarele nu sunt perfecte i necesit mbuntire permanent, dar
n ultima perioad nu au fost constatate sau raportate efecte secundare importante.
Menionez c n acest moment exist n dicionarul CO_L3.imd cteva nregistrri

care necesit confirmare la rulare. Acest lucru este neplcut pentru utilizator deoarece
rularea automat a meniului poate fi ntrerupt i programul [dac gsete astfel de
situaii n textul de corectat] s atepte confirmarea pentru a rula mai departe.
Viitoarea versiune de dicionare, aflat acum n lucru, ncearc s elimine la
maxim condiia de confirmare; la dicionarele care vor rula la aceast opiune va fi
eliminat complet condiia de confirmare a nlocuirilor.
Succesiunea de litere c l n locul literei d i succesiunea de litere r n n locul
literei m
Litera d [D mic] poate fi confundat de Abbyy cu succesiunea de litere c+l < cl >;
uneori confuzia se poate face i n sens invers.
Astfel de confuzii se pot face i ntre litera m [M mic] i succesiunea de litere r+n
< rn >.
Se poate urmri asemnarea dintre succesiunile i literele menionate n imaginea
cl=d i rn=m
Dicionarul CO_Gcl.imd realizeaz o serie de corecii ale succesiunii cl >> d
pentru cuvinte cu frecven mai mare n limba romn.
Dicionarul CO_Grn.imd realizeaz corecii ale succesiunii rn >> m.
Din testri rezult c astfel de confuzii se produc mai mult n cazul cuvintelor
scurte i mai rar n cazul cuvintelor lungi.
Exist i cteva cuvinte la care nu se pot face modificri automate, deoarece sunt
valabile n limba romn att cuvintele care conin litera d, dar i succesiunea cl, cum
ar fi cele din exemplul urmtor:
clac - dac; clar - dar; clin - din; cldea - ddea.
Astfel de cuvinte au fost trecute n dicionarele cu variante i confirmare care
ruleaz la opiunea 12.2
Pentru succesiunea rn >> m exist noi nregistrri care vor fi cuprinse n noua
versiune de dicionare.
Menionez c dicionarele pot fi i trebuie s fie mbuntite cu alte nregistrri; la
acest moment ele pot rezolva majoritate confuziilor de tip cl >> d i rn >> m.
La rularea dicionarelor nu am constatat efecte secundare nedorite.
n principiu, dicionarele de la ntregul pachet de opiuni sunt gndite s realizeze
ct mai multe corecturi, fr a face modificri nedorite. Atunci cnd o anume
nregistrare ar fi putut produce efecte secundare nedorite, am preferat s nu fac
nregistrarea respectuv n dicionar.
Recomandare personal: setare ACTIV
4.3. Corectare cuvinte foarte scurte
Opiunea ruleaz automat urmtoarele 4 dicionare: CO_Sc1.imd, CO_Sc2.imd,
CO_Sc3.imd i CO_Sc4.imd
Dicionarele corecteaz erori de recunoatere care apar la cuvinte foarte scurte, de
pn la 4 litere inclusiv.
Exist ca excepie i un numr foarte-foarte mic de nregistrri care se refer la
cuvinte formate din cinci litere.
Pentru dezvoltatori, menionez c structura dicionarelor nu este respectat ferm,
dar n principiu se poate meniona c dicionarul CO_Sc1.imd face corecii att
pentru cuvinte ntregi formate din dou litere, dar i pentru cteva secvene de cte

dou litere aflate la nceput sau la sfrit de cuvinte; dicionarul cuprinde i situaii
foarte rare, dar posibile, n care litera "" este recunoscut ca "$" sau "", iar litera
"E" este recunoscut ca "".
Dicionarele CO_Sc2.imd, CO_Sc3.imd i CO_Sc4.imd corecteaz numai cuvinte
ntregi formate din 3 sau 4 litere.
Toate cele 4 dicionare cuprind nregistrri de cuvinte cu i fr cratim.
Posibilitatea de realizare a unor nlocuiri nedorite este teoretic imposibil.
Recomandare personal: setare ACTIV
4.4. Corectarea minuscule la nceput de paragraf
Opiunea ruleaz automat dicionarul CO_Midp.imd [CL_Midp.imd], care
cuprinde aproape 2000 de nregistrri.
Practic, opiunea realizeaz majusculri i corecturi suplimentare fa de cele
realizate la opiunea 2.3 Punctuaie >> Funcii obinuite.
Efectul este maxim dac la setarea punctuaiei se activeaz opiunile ca n
imaginea urmtoare de mai jos.
Activarea mai multor opiuni de setare fa de cele activate n imagine nu este
recomandat, deoarece se vor realiza majusculri n plus n poziii de text n care
majuscularea este incorect.

Dicionarul execut dou categorii de nlocuiri:


Majuscularea unor litere care au att n varianta majuscul ct i n cea
minuscul form identic. Urmtoarele litere c-C; -; j-J; o-O; p-P; s-S; -;
u-U; v-V; x-X; y-Y; z-Z se majusculeaz doar dac ele apar ca prima liter dup
linia de dialog.
Nu recomand dezvoltarea dicionarului cu nregistrri care s realizeze
majuscularea acestor litere n alte situaii.
Un numr de circa 650 de cuvinte care ncep cu litera i sunt recunoscute n
mod eronat ca ncepnd cu litera I, se corecteaz n urmtoarele 3 situaii: la nceput
de paragraf, la nceput de dialog i la nceputul unei fraze [care ncepe dup fraz
terminat cu PUNCT], aflat n interiorul paragrafului.
La editarea dicionarelor s-a urmrit evitarea nregistrrii paronimelor [cuvinte
care au att varianta corect care ncepe cu , ct i variant corect care ncepe cu I,
ca de exemplu ntre - Intre].
Posibilitatea de realizare a unor nlocuiri nedorite, n forma actual a dicionarului,

este teoretic imposibil.


Recomandare personal: setare ACTIV
4.5. nlocuire secvene cuvinte
Opiunea ruleaz automat urmtoarele 6 dicionare:
CO_SInc1.imd CO_SInc2.imd corecteaz secvene de nceput de cuvnt;
CO_SMed1.imd CO_SMed2.imd corecteaz secvene de la mijlocul
cuvntului [medii];
CO_STer1.imd CO_STer2.imd corecteaz secvene de sfrit de cuvnt
[terminale].
Prin noiunea de "secven de cuvnt", n sensul prezentei opiuni, se nelege o
succesiune de litere aflate la nceputul, la mijlocul sau la sfritul cuvntului.
S-a notat cu "SInc" - secvenele aflate la nceputul cuvintelor, cu "SMed" secvenele aflate n interiorul cuvntului [SMed = secvene mediane] i cu "STer" secvenele aflate la sfritul cuvintelor [STer = secvene terminale]. Numele nu sunt,
probabil, cele mai inspirate, dar au fost alese astfel pentru a pstra o ordine alfabetic
a lor.
Pentru a nelege mai bine rolul acestei opiuni, e bine s discutm cteva exemple
de secvene:
Secvene de nceput: aplee >> aplec. Exist circa 90 de cuvinte care ncep cu
secvena aplec, printre care: aplec, apleca, aplecai, aplecam, aplecar, aplecarm,
aplecari, aplecare, aplecarea aplector, aplectori, aplectorii, aplectorilor,
aplectorul... aplecuurilor, dar nu exist niciun cuvnt care s nceap cu secvena
aplee.
Secvene mediane: bcg >> beg. Exist peste 300 de cuvinte care conin secvena
[succesiunea] beg, dar nu exist niciun cuvnt care s conin secvena bcg.
Dicionarele conin foarte multe nregistrri care modific litera c aflat ntre
consoane cu litera e ntre consoane; de asemenea multe situaii n care litera L mic
aflat ntre consoane a fost modificat cu litera i ntre dou consoane.
Fiecare secven, nainte de a fi nregistrat, a fost verificat dac exist sau nu n
componena cuvintelor aflate n dicionarele limbii romne pe care le ncarc
AutoCorect n folderul de instalare.
Secvene de sfrit: lulul >> lului. Exist peste 5100 de cuvinte care se termin
cu secvena [succesiunea] lului, dar nu exist niciun cuvnt care s se sfreasc cu
secvena lulul. i la editarea acestor dicionare, ca de altfel la marea majoritate a
nregistrrilor, fiecare secven, nainte de a fi nregistrat, a fost verificat dac
exist sau nu n componena cuvintelor aflate n dicionarele limbii romne pe care le
ncarc AutoCorect.
Foarte important:
Opiunea este relativ de curnd implementat, fapt pentru care unele dintre
dicionare sunt la nceput de drum. Dicionarele SMed1 i SMed2 sunt relativ
complete, dar pot fi dezvoltate cu mare atenie, astfel ca secvenele propuse
modificrii s nu provoace nlocuiri nedorite.
Dicionarele care fac nlocuiri ale secvenelor de nceput [SInc1 i SInc2] i cele

care fac nlocuiri ale secvenelor de sfrit [STer1 i STer2] conin foarte puine
nregistrri i este necesar mbogirea i perfecionarea lor.
Comentariu:
n legtur cu modificrile care se realizeaz la aceast opiune i la opiunea
urmtoarea, se cuvine s facem un scurt comentariu:
nlocuirile de cuvinte ntregi au avantajul c au o corectitudine maxim, iar
efectele secundare sunt practic imposibile.
Dezavantajul n cazul nlocuirii cuvintelor ntregi este faptul c probabilitatea
existenei n text a erorilor de acest gen este relativ mic.
De exemplu, n cazul nlocuirii imponderabilitatc >> imponderabilitate
corectitudinea este de 100%, iar efectele secundare sunt zero. Probabilitatea ca acest
cuvnt s existe n text n aceast form este foarte mic.
nlocuirile de secvene de cuvinte au dezavantajul c pot produce uneori efecte
secundare nedorite, dar au avantajul c frecvena lor n text este mult mai mare i se
vor face mult mai multe nlocuiri.
De exemplu, secvena final oarc >> oare poate fi valabil pentru circa 3787 de
cuvinte din limba romn. Partea neplcut este c uneori i secvena final carc
poate fi recunoscut n mod eronat n forma oarc, deci nlocuirea de mai sus nu
prezint corectitudinea de 100%.
Recomandare personal: setare ACTIV
4.6. Corectare cuvinte ntregi i expresii
Opiunea ruleaz automat urmtoarele 5 dicionare:
CO_CImf1.imd CO_CImf3.imd corecteaz cuvinte ntregi;
CO_Expr1.imd CO_Expr2.imd corecteaz grupuri de cuvinte [expresii].
Aceast opiune, ca i cea anterioar este implementat n ultima perioad, fapt
pentru care dicionarele cuprind un numr relativ mic de nregistrri, fa de
posibilitile reale. De aceea este necesar mbuntirea n continuare a acestor
dicionare.
Pentru dezvoltatori este relativ simplu de adugat cuvinte n dicionarele
CO_CImf1.imd CO_CImf3.imd, dar trebuie s acorde atenie sporit la dezvoltarea
dicionarelor care conin grupuri de cuvinte [CO_Expr1.imd CO_Expr1.imd].
De ce este necesar o opiune special pentru nlocuiri de cuvinte ntregi i
expresii?
Practic, aceast opiune face o dezvoltare, o lrgire, a opiunii 4.3. Corectare
cuvinte foarte scurte. La acest moment nu pare s existe o diferen foarte clar ntre
tipurile de nlocuiri ale cuvintelor ntregi ale celor dou opiuni, dar n timp ce
opiunea 4.3. face corectri ale cuvintelor scurte, de maxim 4 litere, aceast opiune,
prin dicionarele sale CO_CImf1.imd CO_CImf3.imd, trebuie s realizeze corectri
ale cuvintelor mai lungi.
Dicionarele care corecteaz grupuri de cuvinte reprezint mai mult dect o
lrgire a nlocuirilor de cuvinte ntregi. Dei nregistrrile fac nlocuiri de grupuri de

cuvinte, practic modificarea se face doar asupra unui singur cuvnt din grup, celelalte
cuvinte avnd rolul de coordonate n cutarea cu precizie a cuvntului de nlocuit.
Cuvintele ce sunt corectate se pot modifica prin varianta nlocuire cu confirmare,
dar aceast metod solicit mai mult timp pentru rezolvare, precum i intervenia
utilizatorului la fiecare cuvnt gsit.
Exist cteva paronime ntlnite frecvent n OCR-uri care necesit corectare, aa
cum ar fi de exemplu: sting-stng, stingi-stngi, sting-stng, ling-lng, intre-ntre.
Abbyy recunoate ambele variante de cuvinte n forma scris cu litera "i", deci:
sting, stingi, sting, ling, intre; menionez c n text au frecven mai mare exact
celelalte cuvinte, adic: stng, stngi, stng, lng, ntre.
Dac s-ar face nregistrarea sting >> stng, nlocuirea cuvntului "sting" cu
cuvntul "stng" ar trebui confirmat sau respins pentru fiecare nlocuire n parte.
Fcnd nregistrri de grupuri de cuvinte de forma: picior/piciorul/piciorului sting >>
picior/piciorul/piciorului stng, umr sting >> umr stng... atunci nlocuirea se poate
face automat, fr confirmare. Pentru cuvintele ling-lng i intre-ntre, mai nti sau fcut nlocuirile ling >> lng i intre >> ntre, dup care au fost fcute nlocuiri
n expresii de dou pn la cinci cuvinte, astfel nct nlocuirile s se fac fr
confirmare i ct mai sigur.
n afara acestor paronime, Abbyy face uneori confuzii de recunoatere ntre
cuvintele "ele" i "de". n cazul acestor cuvinte confuzia poate exista sau nu, iar
atunci cnd exist, este frecvent folosirea cuvntului "ele" n locul lui "de".
Prin folosirea nregistrrilor de tipul: fa ele >> fa de; fa ele >> fa de; form
ele >> form de; la un pas ele >> la un pas de, numrul de situaii ce trebuie corectate
manual se reduce foarte mult.
Recomandare personal: setare ACTIV
4.7. Convertire majuscul n minuscul n dialog francez
Opiunea se bazeaz pe rularea automat a dicionarului CO_DFr.imd.
Aceast opiune funcioneaz la pachet cu o setarea din Configurarea Punctuaiei
OCR Plus. Este vorba despre setarea din imaginea urmtoare:

Dac se activeaz setarea "Majuscul la nceput de fraz dup ! i ? urmat de


spaiu", se vor majuscula toate cuvintele care ncep dup semnele "!" i "?", inclusiv
n poziiile din text n care majuscularea este incorect [poziiile cunoscute ca fiind
dialog francez].
Din acest motiv [pentru c se majusculeaz i situaiile n care textul trebuie scris

cu minuscul] este obligatorie activarea aceastei opiuni "4.7. Convertire majuscul n


minuscul n dialog francez", care va rula dicionarul CO_DFr.imd.
Dicionarul face corecii de genul:
! i spuse >> ! i spuse; ! i strig >> ! i strig; ! i opti >> ! i opti; ! i
vorbi >> ! i vorbi; ! i zise >> ! i zise.
? i spuse >> ? i spuse; ? i strig >> ? i strig; ? i opti >> ? i opti; ? i
vorbi >> ? i vorbi; ? i zise >> ? i zise.
Dac la Configurarea Punctuaiei OCR Plus nu se activeaz setarea "Majuscul la
nceput de fraz dup ! i ? urmat de spaiu", atunci nu este nevoie s ruleze
opiunea de fa. Este posibil ca n aceast situaie s rmn cteva situaii care vor
necesita majusculare, dar acest lucru se va putea face manual cu ocazia corecturii.
n concluzie:
Dac la Configurarea Punctuaiei OCR Plus activm setarea "Majuscul la
nceput de fraz dup ! i ? urmat de spaiu", atunci este obligatorie activarea
opiunii "4.7. Convertire majuscul n minuscul n dialog francez".
Dac la Configurarea Punctuaiei OCR Plus nu activm setarea "Majuscul la
nceput de fraz dup ! i ? urmat de spaiu", atunci nu vom activa nici opiunea
"4.7. Convertire majuscul n minuscul n dialog francez".
Care este varianta cea mai bun?
Prerile sunt mprite: useri cu experin n corectur prefer s nu activeze aceste
opiuni i s execute eventualele majusculri n mod manual, iar ali useri cu
experin n corectur adopt varianta activrii ambelor opiuni.
Ceea ce pentru un utilizator al programului pare mai comod i mai uor, pentru alt
utilizator poate prea greoi i dificil i invers.
Cel mai bine este ca fiecare user s-i stabileasc varianta preferat.
Pentru a stabili varianta optim este bine s se fac testri n ambele variante, prin
ceea ce vom numi "Test 100", adic testarea a o sut de pagini de carte.
Se alege un text de maxim 100 de pagini de carte, se prelucreaz separat n cele
dou variante i apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte
atent, dar fr a face o corectur prin citire cuvnt cu cuvnt], se stabilete varianta
care pare mai comod.
Meniune important:
Exist 8 nregistri care ar trebui s ruleze n acest dicionar, dar pentru c necesitau
confirmare n mod obligatoriu, au fost mutate n ultimul dicionar care ruleaz n
cadrul Meniului OCR Plus; este vorba de dicionarul CO_Var4.imd, iar nregistrrile
se alfl pe ultimele 8 poziii ale dicionarului.
Aceste nregistrri sunt:
! I^_ >> ! i^_ ! Le^_ >> ! le^_ ! O^_ >> ! o^_ ! Se^_ >> ! se^_
? I^_ >> ? i^_ ? Le^_ >> ? le^_ ? O^_ >> ? o^_ ? Se^_ >> ? se^_
Informez utilizatorii c grupul de caractere ^_ este codul pentru spaiu.
Utilizatorii care nu activeaz opiunea "4.7. Convertire majuscul n minuscul n
dialog francez", cnd programul va ajunge s ruleze aceste nregistrri cu confirmare

vor aciona asupra butonului "renun" pentru fiecare dintre nregistrri pentru ca
programul s renune la cutri.
Butonul "Renun" ocup poziia a treia n fereastra de confirmare, redat n
imaginea de mai jos:

5. MARCARE CARACTERE:
Marcare ghilimele
Marcare apostroafe
Marcare consoane independente n format Spaiu_Consoan_Spaiu
Marcare caracterele: ~ & * ( ) \ /
Marcare caracterele: ~ & = + $ % # { } [ ] ( ) / \ > < *

Numele opiunii este suficient de sugestiv, iar fereastra de setri este foarte clar,
astfel c nu va fi nevoie de prea multe explicaii n legtur cu aceast opiune.
Opiunea permite utilizatorilor s marcheze prin colorare diferite caractere, pentru
a fi mai uor de urmrit la corectare.
Dup cum se poate vedea n imagine, utilizatorul poate marca doar anumite
caractere sau toate caracterele implementate n opiune. Pentru fiecare dintre cele 5
categorii de caractere se poate alege cte o culoare diferit de marcare a fontului, ori
se poate alege o singur culoare pentru toate caracterele pe care le dorim a fi marcate.
De reinut c marcarea se face prin colorarea fontului i nu a fundalului.
Nu se pot face recomandri pentru activarea sau neactivarea opiunii.
Pentru unii utilizatori marcarea poate fi benefic, prin scoaterea n eviden a unor
caractere ce trebuie urmrite; de exemplu, prin marcare se poate urmri mai uor
existena perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoasc
ambele ghilimele care formeaz perechea ci numai unele dintre ghilimele, fie ele de
deschodere sau nchidere.

Pentru ali utilizatori marcarea poate s deranjeze, s atrag mai mult atenia
asupra caracterelor marcate, "srind" peste alte tipuri de erori ce trebuiesc corectate.
Dup corectarea ctorva volume, fiecare utilizator va ti sigur care dintre variante
i se "potrivete" cel mai bine, care variant [marcarea sau nonmarcarea] i se pare mai
comod.
Recomand ca i la aceast opiune s se fac ceea ce am numit "Test 100", pentru
a stabili care metod de lucru mare mai comod.
6. TERGERE CARACTERE:
Eliminare Cratim semiindependent ["Cratim_spaiu" i "Spaiu_Cratim]
Eliminare Apostrof independent ["Spaiu_ Apostrof _Spaiu]
Eliminare Artefacte cri obinuite [Spaiu_Artefact_Spaiu]
Eliminare Artefacte cri tehnice [Spaiu_Artefact_Spaiu]

Opiunea este oarecum similar cu opiunea precedent, doar c de data aceasta


anumite caractere [cunoscute i sub numele de artefacte sau rglii] sunt terse i nu
doar marcate.
De asemenea, numele opiunii este suficient de sugestiv, iar fereastra de setri este
foarte clar, astfel c nu va fi nevoie de prea multe explicaii privind aceast opiune.
i... nici la aceast opiune nu exist o recomndare clar privind activarea sau
nonactivarea opiunii.
Este important de reinut c exist dou cauze ale apariiei n text a acestor
"rglii".
Prima cauz: unele dintre "rglii" apar n text fr s existe un caracter
asemntor n original; aceste "rglii" apar ca urmare a unor defeciuni la scanare,
ori ca urmare a unor mici pete pe pagina scanat sau defeciuni ale texturii hrtiei pe
care a fost tiprit cartea. ntr-un mod sau altul, automat sau manual, ele vor fi terse
deoarece nu exist n text.
A doua cauz: o alt categorie de "rglii" apar n text n locul unor alte
caractere asemntoare; de exemplu: caracterul < j > poate nlocui caracterul < ; >,
caracterul < / > poate nlocui caracterul < z >, caracterul < $ > poate nlocui
caracterul < > etc... etc... n astfel de situaii este mai uor de observat locul unde
trebuie fcut corectura manual arunci cnd se pstreaz caracterul "rglie" n locul
respectiv i se poate "sri" mai uor peste eroare dac acel caracter a fost ters.

Ca i la opiunea precedent, propun executarea "Test 100" pentru ca fiecare


utilizator s poat alege varianta de lucru optim: activarea, activarea parial sau
nonactivarea opiunii.
7. nlocuiete toate liniile de pauz cu:
EmDash
EnDash
Horizontal Bar.

S ncepem prin a face cteva comentarii n legtur cu "Linia de pauz.


Prin "Linie de pauz", conform DOOM 2/2010 se nelege:
"1.2.5. Linia de pauz []
Este utilizat ca semn ortografic numai n scrierea unor cuvinte compuse
complexe (cu caracter mai mult sau mai puin ocazional) care cuprind cel puin un
cuvnt compus scris cu cratim: americanosud-coreean, nordnord-vest, sud-est
nord-vest.
n aceast situaie nu este precedat sau urmat de blanc."
n nota de subsol nr. 39, de la pagina XLIII se arat: Linia de pauz este "Plasat
aproximativ la jumtatea nlimii rndului. Numit i pauz. Este mai lung dect
cratima. Este i semn de punctuaie."
n realitate, n sensul acestei opiuni, nu este vorba de Linia de pauz tratat de
DOOM 2, ci de o alt liniu, cunoscut i sub numele de "Linie explicativ" sau
"Cratima mare". Aceast linie este precedat i urmat de blanc [spaiu] i se
folosete n urmtoarele dou situaii:

Linia explicativ care marchez [separ] comentariul autorului de vorbele


unui personaj, ntr-un dialog, exemplu:
De altfel adug ea, cobornd vocea va fi un prieten n plus la caz de
nevoie.
Nu sunt un om nvat adug el i nu mi-e ruine s-o mrturisesc.
Comentariu autorului ntr-un dialog poate fi marcat prin ncadrarea ntre linii
explicative sau prin ncadrarea ntre virgule; nu se folosesc n acelai text ambele
variante.
Linia explicativ care introduce un comentariu, o explicaie i care poate fi
nlocuit cu paranteze, ca n exemplul urmtor:
Tocmai atunci vntorul, fcnd un gest cu mna ca i cum ar fi anunat c
cedeaz rosti n englez, parc vorbind cu sine nsui:
aceast fraz ar putea fi scris i n varianta n care se folosesc paranteze n locul
liniilor explicative, astfel:
Tocmai atunci vntorul, fcnd un gest cu mna (ca i cum ar fi anunat c
cedeaz ), rosti n englez, parc vorbind cu sine nsui:
Recomand ca liniile de pauz s fie marcate cu EnDash, aducnd urmtoarele
argumente:
argumentul 1 DOOM 2/2010 spune c Linia de pauz "Este mai lung dect
cratima".
argumentul 2 n Word, atunci cnd facem editare i introducem linia
explicativ folosind cratima ncadrat de spaiu, editorul o transform automat n
EnDash.
argumentul 3 argument estetic: EnDash are limea unui caracter obinuit i
arat elegant ca linie de pauz, timp n care cratima este prea mic i se pot produce
confuzii, iar EmDash ncadrat de spaii este neelegant i mult prea mare. Este
adevrat c n limba englez linia de pauz este redat prin Emdash, dar n acest caz
linia este lipit de cuvintele alturate.
argumentul 4 nu este indicat a se folosi Horizontal Bar pentru a marca liniile
de pauz, deoarece pe multe eReadere, dar i n unele editoare, caracterul nu este
redat corespunztor, ci este nlocuit cu semnul ntrebrii sau cu ptrel.
8. nlocuiete toate liniile de dialog cu:
EmDash
EnDash
Horizontal Bar.

Recomand ca liniile de dialog s fie marcate cu EmDash, aducnd urmtoarele


argumente:
argumentul 1 Prin prelucrrile fcute de opiunea "2.2. Corectare linii de
pauz i linii de dialog", teoretic toate liniile de dialog sunt deja convertite n
Emdash. Pstrarea n continuare a liniilor de dialog sub forma caracterului EmDash
reduce aproape de zero timpul de rulare a opiunii, timp n care modificarea liniilor de
dialog cu alt caracter mrete timpul de rulare, deoarece uneori sunt mii de linii de
dialog ntr-un text i programul trebuie s realizeze cutarea i modificarea fiecrei
linii n parte.
argumentul 2 Linia de dialog nu poate fi redat prin cratim; acest lucru ar fi
incorect din toate punctele de vedere i este complet inestetic.
argumentul 3 Linia de dialog nu poate fi redat prin EnDash, deoarece linia
de dialog trebuie s fie diferit i mai mare dect linia de pauz.
argumentul 4 Dei liniile de dialog de tip Horizontal Bar arat foarte elegant,
linia de dialog nu poate fi redat prin Horizontal Bar, deoarece pe multe eReadere,
dar i n unele editoare, caracterul nu este redat corespunztor, ci este nlocuit cu
semnul ntrebrii sau cu ptrel.
argumentul 5 n regulile tipografice se arat c linia de dialog trebuie s aib
limea a dou caractere obinuite; liniile care ndeplinesc aceast condiie sunt
Horizontal Bar i EmDash; am explicat mai sus de ce nu se poate folosi Horizontal
Bar, deci singura linie care ndeplinete toate condiiile este EmDash.
Prerea mea personal este c nu trebuie s ne facem mari probleme n alegerea
tipului de liniu n aceast etap a corecturii, deoarece liniile de dialog, ca i liniile
de pauz, pot fi oricnd nlocuite prin comenzi foarte simple de Find&Replace n
Word sau alt editor.
Stabilirea tipului de linie de dialog, ca i nlocuirea spaiului de dup linia de
dialog cu spaiu neseparator, in mai degrab de formatarea final a unui document
corectat dect de precorectura unui OCR.
Not: Dac dorim s printm pe hrtie un text [o carte] care conine linii de dialog,
atunci recomand ca liniile de dialog s fie nlocuite cu Horizontal Bar, deoarece textul
tiprit astfel arat elegant. Dac documentul nu este destinat tipririi, ci folosirii
i/sau prelucrrii i corectrii de alte persoane, atunci vom folosi EmDash.
9. Elimin linii de pauz exclusiv din Dialoguri:
9.1. nlocuiete "Spaiu_LiniePauz_Spaiu" n "Virgul_Spaiu".
9.2. Elimin virgula de dup semnul de exclamare/ntrebare.
9.3. nlocuiete "Spaiu_ LiniePauz _Virgul_Spaiu" n "Virgul_Spaiu"
10. Elimin TOATE liniile de pauz din text
10.1. din "!_Spaiu_ LiniePauz_Spaiu" n "!_Spaiu"
10.2. din "?_Spaiu_ LiniePauz_Spaiu" n "?_Spaiu"
10.3. din "Spaiu_ LiniePauz_Spaiu" n "Virgul_Spaiu"
10.4. din "Spaiu_ LiniePauz_Virgul_Spaiu" n "Virgul_Spaiu"

Apreciez c aceste dou opiuni pot fi tratate mpreun, deoarece au caracteristici


comune.
Ambele opiuni se refer la eliminarea liniilor de pauz din text i nlocuirea
lor, dup caz, cu virgul, ori doar eliminarea fr a fi nlocuite cu un caracter anume.
Ambele opiuni sunt opiuni pretenioase i de nalt finee. Practic
modificrile pe care le fac aceste opiuni nu in de simpla curare a unui text de tip
OCR, ci realizeaz o modificare important a modului de editare a textului. Acest
drept nu e recomandat s fie folosit de un simplu utilizator care ncearc s reproduc
o carte din format clasic tiprit n format electronic, ci este dreptul editorilor de carte,
al traductorilor i autorilor de carte.
Recomand utilizatorilor, n special celor cu experien redus, s nu activeze
niciuna dintre aceste opiuni.
Eventuala activare a acestor opiuni sau doar a uneia dintre ele s fie fcut doar
dup o profund analiz i doar de utilizatorii cu experien care in neaprat s fac
astfel de modificri.
Recomandare personal: setare INACTIV pentru ambele opiuni.
11. RULARE GRUP DE DICIONARE NLOCUIRE MULTIPL

Aceast opiune este una special i trebuie analizat n detaliu.


Opiunea permite rularea unui numr nelimitat de dicionare personale, altele
dect cele 32 de dicionare care ruleaz obligatoriu n cadrul meniului.
n funcie de experiena acumulat n corectura textelor, de aptitudinea de a
remarca nlocuirile utile i aceea de structurare i editare a dicionarelor, fiecare
utilizator poate edita i rula n cadrul acestei opiuni un numr nelimitatt de dicionare
cu un numr nelimitat de nregistrri. Noile condiii ce le ofer fereastra de editare a
dicionarelor de nlocuire multipl dau posibilitatea realizrii de dicionare deosebit
de complexe, de mare funcionalitate.
Modul de folosire a acestei opiuni poate face diferena dintre doi utilizatori
ai programului i, respectiv diferena de calitate a currii unui text.
La acest moment exist circa 30 de dicionare puse la dispoziia utilizatorilor sub
forma a dou arhive, numite "Dicionare Uzuale" i "Dictionare Cifre romane".
Dicionarele sunt structurate pe litere, dar unele dintre ele au foarte puine
nregistrri. Toate aceste dicionare pot i trebuie s fie mbuntite prin adugarea
de noi nregistrri. Practic, mbuntirea acestor dicionare sau a altora este
nelimitat. Cu ct se vor aduga mai multe nregistrri n aceste dicionare, cu att
textul va fi "curat" mai bine.
Ce dicionare rulm n aceast piune? - acest lucru l stabilete fiecare utilizator.
Cum se face adugarea dicionarelor ce vor fi rulate n cadrul opiunii? - acest
lucru l vom clarifica n continuare.
Activm [bifm] opiunea "11. Rulare grup de dicionare nlocuire multipl".
Observm c opiunea aste prevzut cu opiuni de setare. Acionm butonul
"opiuni" i se va deschide o fereastr de setare numit "Rulare dicionare", ca n
imaginea de mai sus.
n stnga ferestrei trebuie s fie afiat o list de dicionare, iar n partea dreapt a
ferestrei, se pot observa poziionate unele sub altele 5 butoane.
Mai nti ne vom referi la butonul al doilea "Adaug" i butonul al treilea
"terge".
Acionnd butonul "Adaug" se deschide o fereastr clasic de deschidere fiiere
i putem aduga n list cte un dicionar sau un grup de dicionare. Dicionarele se
pot afla n orice loc de pe hard disk, dar am convenit ca dicionarele suplimentare s
fie salvate n folderul Dicionare\Dic_Speciale. Vpm aduga n list toate dicionarele
pe care le considerm necesare.
Acionnd butonul "terge" se poate elimina din list dicionarele pe care nu
dorim s fie rulate. Pentru tergere nu se pot marca mai multe dicionare, deci
tergerea dicionarelor se face tergnd cte un singur dicionar la fiecare apsare a
butonului "terge"
Important de reinut: dac un dicionar trecut n list a fost mutat sau redenumit,
acest dicionar trebuie ters i apoi adugat la list de la noua adres sau cu noul
nume, altfel programul nu va gsi dicionarul aflat n list i va da mesaj de eroare.
La ce folosesc butoanele 4 "Mut sus" i 5 "Mut jos"?
Uneori este obligatoriu ca o parte dintre dicionare s ruleze ntr-o anumit ordine,
deoarece unele nlocuiri pot avea efect doar dac mai nti a fost fcut o alt

nlocuire. Lista de dicionare afiat n stnga ferestrei de setare arat i ordinea de


rulare a dicionarelor. Pentru a modifica ordinea de afiare i respectiv de rulare a
unor dicionare procedm astfel: marcm cu mausul dicionarul ce trebuie mutat mai
sus sau mai jos n list i cu ajutorul butoanelor "Mut sus" sau "Mut jos" vom
deplasa dicionarul pe poziia dorit.
Dup stabilirea dicionarelor ce trebuie rulate i a ordinii de rulare, acionm
primul buton, numit "Seteaz", salvnd astfel lista de dicionare ce vor fi rulate.
Programul salveaz dicionarele, calea lor de cutare i ordinea de rulare n fiierul
"ListaDictionare.txt" aflat n folderul AutoCorect Contemporan, respectiv AutoCorect
Clasic, unde se afl i folderul Dicionare.
Dei nu are legtur cu opiunea, putem aminti c tot aici se mai afl un fiier
important, numit "RulareAutomataOCRPlus.txt" n care se salveaz opiunile setate
de utilizator ca active, ordinea lor i opiunile de setare.
Aceste salvri se pstreaz pn la o nou modificare a setrilor sau o nou
instalare a programului.
Revenind la problema activrii acestei opiuni, recomandarea este una singur i
ferm: opiunea trebuie ACTIVAT obligatoriu.
12. SETRI FINALE
12.1. nlocuire spaiu dup linia de dialog cu spaiu neseparator
12.2. Corectare cuvinte rupte i nlocuiri cu confirmare

12.1. nlocuire spaiu dup linia de dialog cu spaiu neseparator


Opiunea este implementat prin cod, iar numele su este suficient de sugestiv.
Programul nlocuielte spaiul obinuit de dup fiecare linie de dialog cu spaiu
neseparator [Nonbreaking Space].
Rolul nlocuirii este unul estetic.
Este important de reinut c aceast opiune se poate rula separat [fr accesarea
ntregului meniu OCR Plus], i n cazul textelor corectate.

Prin corectarea manual este posibil s mai introducem linii de dialog n text,
acolo unde nu au fost recunoscute de Abbyy, iar aceste linii de dialog s fie urmate de
spaiu obinuit.
Dac vom avea un text rtf corectat i accesm n mod independent numai aceast
opiune, textul nu va suferi alte modificri, ci se vor face doar nlocuirile spaiilor
obinuite de dup linia de dialog i doar n poziiile n care este cazul.
Sunt cteva opiuni care se pot accesa separat n orice moment al etapei de
corectur i chiar dup corectur, fr a afecta structura textului i fr a produce
modificri ce ar trenui verificate manual.
De cele mai multe ori este necesar o rulare suplimentar a unora dintre aceste
opiuni dup corectarea textului; aceste opiuni sunt urmtoarele:
1.1 Conversii preliminare >> Conversie dialog bullets n dialog text
1.3 Conversii preliminare >> Eliminare tab i spaii multiple
1.4 Conversii preliminare >> Eliminare spaii la nceput de paragraf
12.1 Setri finale >> nlocuire spaiu dup linia de dialog cu spaiu neseparator
n afara de aceste 4 opiuni se mai pot rula cu oarece atenie i opiunile din
pachetele 7 i 8.
7. nlocuiete toate liniile de pauz cu >> EmDash / EnDash / Horizontal Bar
8. nlocuiete toate liniile de dialog cu >> EmDash / EnDash / Horizontal Bar
12.2. Corectare cuvinte rupte i nlocuiri cu confirmare
Opiunea se bazeaz pe rularea a 4 dicionare de nlocuire multipl i a suferit de-a
lungul timpului mai multe modificri, fapt pentru care pare atipic, deoarece are dou
pri:
partea care corecteaz "cuvintele rupte", adic acele cuvinte care apar scrise
n mod eronat cu cratim, ca urmare a faptului c n cartea pe hrtie cuvintele erau
desprite [rupte] la capt de rnd; corectarea acestor cuvinte se bazeaz pe rularea
dicionarelor CO_Var1.imd CO_Var3.imd.
partea care face nlocuiri cu confirmare i care ruleaz dicionarul
CO_Var4.imd.
Corectare cuvinte rupte
n cartea pe hrtie, respectiv n imaginea scanat a unei pagini, o serie de cuvinte
sunt desprite la capt de rnd. n aceste cazuri avem 3 elemente: prima parte a
cuvntului, cratima i a doua parte a cuvntului. Dup cum este i normal, prima
parte a cuvntului se afl la sfrit de rnd i este nsoit de cratima care marcheaz
faptul c se face "ruperea" cuvntului; partea a doua a cuvntului ocup prima poziie
pe rndul urmtor i nu este nsoit de cratim.
Atunci cnd Abbyy face extragerea OCR, textul i schimb structura rndurilor,
n sensul c rndurile pot fi, de regul, mai lungi dect cele din cartea original, astfel
c unele dintre cuvintele rupte se vor afla undeva la mijlocul rndului i n mod
corect ele trebuie s fie complete i fr cratim, deoarece Abbyy este instruit s
lipeasc cele dou pri ale cuvntului rupt la capt de rnd i s elimina cratima care
marcheaz desprirea.

Abbyy face recunoaterea corect a unora dintre aceste cuvinte, n sensul c n


OCR cuvntul apare ntreg i fr cratim; n acelai OCR unele recunoateri se fac
n mod eronat, astfel c respectivele cuvinte apar n text cu cratim; uneori cratima
este lipit de ambele litere, alteori cratima este lipit doar de o parte a cuvntului i
apare inserat un spaiu ntre cratim i cealalt parte a cuvntului.
S presupunem c pe cartea tiprit, fraza urmtoare, n care apare cuvntul
"trebuincioase", este scris astfel:
"n urma acestei propuneri se apucar amndoi s pregteasc cele trebuincioase pentru prnzul zilnic."
Cuvntul "trebuincioase" poate fi recunoscut de ctre Abbyy n mod corect, adic
n forma:
"n urma acestei propuneri se apucar amndoi s pregteasc cele trebuincioase
pentru prnzul zilnic."
sau poate fi recunoscut eronat n varianta cu cratima lipit de ambele pri ale
cuvntului trebuin-cioase,
ori n varianta n care cratima este lipit de o parte a cuvntului dar are inserat spaiu
ntre cratim i cealalt parte a cuvntului, adic sub forma trebuin- cioase sau sub
forma trebuin -cioase.
Pn la acest moment, cele trei dicionare corecteaz cuvinte rupte n care
cratima este lipit de ambele pri ale cuvntului; deocamdat nu se fac corecii
pentru cuvinte la care este inserat i spaiu lng cratim.
Numrul de nregistrri este nc destul de mic; coreciile care se fac sunt
structurate astfel:
Cu dicionarul CO_Var1.imd se fac n principal corecii ale unor verbe n forma
de gerunziu; s-a luat n calcul desprirea ntre ultima i penultima silab i
desprirea ntre penultima i antepenultima silab.
Astfel, pentru cuvinte precum: necjindu-i, rotunjindu-le, vrjindu-ne...
s-au fcut nregistrri cu condiiile "Cuvnt ntreg la sfrit" + "Potrivire perfect"
-du-l
du-l
Ci Sc Pp
-du-le
du-le
Ci Sc Pp
-du-ne du-ne
Ci Sc Pp
sau nregistrarea de mai jos care are doar condiia "Potrivire perfect"
-jindu- jindu- Pp
Dicionarul CO_Var2.imd corecteaz cuvinte care au frecven mare n text i sau luat n calcul toate posibilitile de desprire; Condiiile sunt "
dum-neavoastr
dumneavoastr
Ci Pc
dumnea-voastr
dumneavoastr
Ci Pc
dumneavoas-tr
dumneavoastr
Ci Pc
De regul, la acest dicionar au fost puse condiiile: "Cuvnt ntreg la ambele
capete" + "Pstreaz capitalizarea", ceea ce nseamn c se vor face nlocuiri ale
cuvintelor ntregi care pot fi scrise att cu minuscul, ct i cu majuscul

Dicionarul CO_Var3.imd face corecii pentru cuvinte compuse cu sufixe i care


sunt rupte n zona final, deci la sfrit de cuvnt, cum ar fi exemplele de mai jos:
-bilor
bilor
Ci Sc Pp
-cilor
cilor
Ci Sc Pp
-dilor
dilor
Ci Sc Pp
Ca i n cazul primului dicionar, condiiile folosite sunt "Cuvnt ntreg la sfrit"
+ "Potrivire perfect".
nlocuiri cu confirmare
Dicionarul CO_Var4.imd, care este i ultimul ce ruleaz n cadrul meniului OCR
Plus, execut numai modificri cu confirmare. Pentru fiecare situaie gsit n text de
computer care ndeplinete condiiile i poate fi modificat, este necesar acceptul sau
refuzul utilizatorului.
nregistrrile sunt prevzute cu condiii speciale, care reduc cutrile la situaii
foarte concrete. Astfel, unele cutri se vor face doar ntre cuvinte scrise cu orice
liter minuscul, dar nu i cifre etc... Aceste condiii puse nregistrrilor vor fi
analizate n mod special atunci cnd vom discuta modul de editare a dicionarelor de
nlocuire multipl.
n principiu, au fost mutate n acest dicionar toate nregistrrile care necesitau
confirmare, chiar dac unele nregistrri ar fi trebuit s ruleze la alte opiuni. Scopul
mutrii nregistrrilor a fost acela de a evita ntreruperea rulrii programului la
diferite opiuni pentru obinerea confirmrilor; s-a considerat c este mai comod
pentru utilizator ca programul s ruleze n mod continuu i toate interveniile
utilizatorului s fie fcute n partea final a procesrii.
Exist patru categorii de modificri cu confirmare nregistrate n dicionar, astfel:
cuvinte foarte scurte scrise eronat cu majuscul iniial sau final n interiorul
frazei:
Cu >> cu, CU >> cu, i >> i, Un >> un, aI >> al, aI >> ai, Ia >> la, I-a >> l-a, ou
>> cu, ou >> eu.
Aceste situaii este posibil s nu apar n anumite texte, dar pot exista n altele, n
funcie de calitatea OCR.
patru nregistrri ce in de corectarea cifrei 1 cu litera L mic i a cifrei 0 cu
litera O mic; cifrele 1 sau 0 trebuie s fie lipite de o cratim, care la rndul ei este
lipit de orice liter mic, dar nu i de o cifr. nregistrrile au fost mutate din
dicionarele care rulau la opiunea 4.2 pentru a nu opri rularea programului la acea
opiune pentru cererea confirmrilor.
1 >> -l, -1 >> -l, 0 >> -o, -0 >> -o
Teoretic, nlocuirea cifrelor 1 i 0 cu literele L mic i O mic sunt rezolvate n
totalitate la opiunea 4.2. Aceste nregistrri au fost puse pentru situaii excepionale,
ca o msur de siguran n plus, astfel c n mod normal ele nu ar trebui s apar la
rularea opiunii.
perechi de cuvinte asemntoare ca form [paronime], care nu pot fi
modificate fr confirmare deoarece este posibil ca n text s fie valabil oricare

dintre cele dou forme ale cuvntului.


clac >> dac, clar >> dar, clin >> din, cldea >> ddea, lot >> tot, lotul >>
totul, miner >> mner, minerul >> mnerul.
Mai mult ca sigur o parte dintre aceste nregistrri, dac nu chiar toate, vor gsi n
text situaii care ndeplinesc condiiile cutate, astfel c utilizatorul va trebui s
confirme sau s infirme modificrile propuse de program.
elemente scurte ce in de dialogul francez, care nu se pot modifica fr
acceptul utilizatorului i care au fost mutate din dicionarul de la opiunea 4.7 pentru
a nu ntrerupe programul pentru cereri de confirmare.
! I >> ! i, ! Le >> ! le, ! O >> ! o, ! Se >> ! se, ? I >> ? i, ? Le >> ? le, ? O >> ?
o, ? Se >> ? se.
Aa cum am artat la opiunea 4.7, utilizatorii care nu au activat opiunea 4.7,
pentru aceste 8 nregistrri, n fereastra de confirmare vor aciona butonul "Renun"
pentru ca programul s renune la cutri i nlocuiri.
Recomandare personal: setare ACTIV
DEMARCARE TEXT
Aceasta este ultima opiune pe care o ofer meniul OCR Plus i nu ruleaz
automat, ci separat i independent de celelalte opiuni.
Opiunea trebuie rulat doar n situaiile n care avem n text marcri color ale
fontului sau fundalului i dorim s renunm la acestea.
Trebuie reinut c fontul poate fi marcat color n urmtoarele situaii:
- dac textul iniial coninea font color, iar la opiunea "1.2 Conversii
preliminare >> Setare text la font i mrime unic" nu s-a stabilit uniformizarea
textului la culoarea Negru. Situaii de acest gen sunt foarte rare.
- dac a fost activat opiunea "5. Marcare caractere"
Fundal marcat color poate exista ntr-o singur situaie:
- dac cel puin unul dintre dicionare are activat condiia de marcare a
modificrilor executate. n mod sigur niciunul dintre cele 32 dicionare care ruleaz
automat nu are aceast condiie. De asemenea, niciunul dintre dicionarele
suplimentare nu trebuie s aib aceast condiie. Dac am scpat vreun dicionar cu
aceast condiie activ, atunci este o eroare i activarea a rmas din perioada
executrii testrii acestor dicionare.
La accesarea acestei opiuni din meniul OCR Plus se va deschide o fereastr ca n
imaginea de mai jos.
Dup executarea demarcrilor dorite, nchidem manual fereastra, acionnd
butonul "X" din colul dreapta-sus al ferestrei, deoarece fereastra nu se nchide n
mod automat.

Ce mai trebuie s reinem?


Trebuie s inem minte culorile pe care le-am folosit la marcarea textului,
deoarece opiunea cere s "spunem" ce anume culoare are fontul sau fundalul cruia

trebuie s-i anuleze [s-i tearg] marcarea. Acest lucru e valabil doar n cazurile n
care vrem s facem demarcarea doar pentru o parte dintre marc.
Dac dorim s demarcm toate culorile de fundal sau toate culorile de font, atunci
nu marcm nici o culoare ci doar acionm butonul "Demarcare text" sau "Demarcare
fundal".
Trebuie s mai rein c demarcare de culoare a fontului sau a fundalului se face,
de regul, pe timpul corecturii i nu neaprat n mod automat folosind aceast
opiune, deoarece marcarea are ca scop scoaterea n eviden a anumitor elemente
care s fie de ajutor pe timpul corecturii.
PRECIZRI FINALE
Ce-ar mai fi folositor s fie spus dup prezentarea fiecrei opiuni?
Sper s nu fi uitat ceva...
Trebuie s reamintim c AutoCorect OCR Plus nu face corectur, ci doar o
curare a textului care are ca scop uurarea muncii de corectare i nu nlocuirea
acestei munci.
Trebuie reamintit faptul c n mod obligatoriu dup rularea opiunilor din meniul
OCR Plus trebuie s urmeze corectur manual prin citirea cuvnt cu cuvnt, fraz cu
fraz i pagin cu pagin a ntregului text de la cap la coad.
Niciodat nu trebuie folosit AutoCorect ca un instrument de lefuire a unui text
corectat.
Cine face acest lucru i crede el c tie mai bine ce are de fcut, n realitate este
ntr-o mare eroare i face o imens gaf. A rula o carte versiune [V1.0] sau chiar
[V2.0] sau [V3.0] prin AutoCorect, [aa cum am vzut deja pe forum] este o prostie
mare ct Piramida lui Keops. Asta nseamn s strici un text corectat, asta nseamn
s-i faci pe hoii i ceretorii din Curtea Miracolelor sau alte personaje colorate din
mahalalele Parisului sau de aiurea, s foloseasc un limbaj corect, ceea ce nu este
deloc corect, deoarece autorul a folosit n mod voit cuvinte stlcite sau blbite, ori
arhaisme i regionalisme i, mai ales, limbaj de argou i jargon.
Trebuie s reamintim n mod obligatoriu c AutoCorect OCR Plus este un
program care trebuie dezvoltat n continuare. Programatorii au implementat toate
aceste opiuni. Probabil c n viitor se vor mai putea face unele mbuntiri, dar n
principiu au cam ncheiat partea de programare. Opiunile implementate fac s ruleze
cele 32 de dicionare obligatorii i alte nenumrate dicionare suplimentare. Aceste
dicionare sunt n mare parte la nceput. Ele fac nc foarte-foarte puine nlocuiri fa
de cte nlocuiri ar putea s realizeze.
Dezvoltarea i mbuntirea dicionarelor nu mai este treaba programatorilor, ci
este menirea utilizatorilor. Nu e chiar cel mai simplu lucru editarea unui dicionar, dar
nici pe departe un lucru foarte complicat. E nevoie doar de puin voin i un dram
de dorin... restul este munc i plcere.
Poate c ar mai trebuie s reamintim c AutoCorect OCR Plus este un program
interactiv cu care utilizatorul trebuie s conlucreze permanent. Aa cum un joc de
calculator ruleaz diferit n funcie de calitile juctorului, n acelai mod
AutoCoredct OCR Plus poate avea performane diferite de la un utilizator la altul. Ca

s putem s folosim programul la parametrii maximi, trebuie s cunoatem foarte


bine programul, s tim ce poate s fac i ce nu, ce trebuie i e bine s fac i ce nu,
trebuie s nelegem foarte exact ce anume face fiecare opiune i cum poate fi fcut
ea s funcioneze cu randament maxim.
Ceea ce am scris pe acest topic este doar o prezentare sumar a programului
fcut de un simplu utilizator.
Nu tiu dac ar mai trebui adugat ceva. Poate c e deja prea mult...
Mult sau puin, cu toate blbele i exprimrile alambicate pentru care mi cer
scuze, am intenionat s ajut pe cei interesai s afle cum poate fi folosit ct mai bine
acest program.
Dac ceea ce am postat aici va folosi cuiva, voi fi foarte mulumit; dac nu va
folosi nimnui, voi avea mulumirea c mcar am ncercat s fiu util.
Dup Srbtorile de Pate voi continua cu cteva explicaii despre editarea
dicionarelor de nlocuiri multiple.

PROPUNERI PERSONALE PENTRU ACTIVARE


Rezumat
1. Conversii preliminare
1.1 Conversie dialog bullets n dialog text setare ACTIV
1.2 Setare text la font i mrime unic Rog studiai tutorialul nainte de activare
1.3 Eliminare tab i spaii multiple setare ACTIV
1.4 Eliminare spaii la nceput de paragraf setare ACTIV
1.5 Repararea rndurilor rupte setare ACTIV
1.6 Rupere rnduri care ncep cu dialog aflate n interiorul paragrafului Utilizatori
nceptori = INACTIV i Avansai = ACTIV
2. Punctuaie
2.1 Eliminare paragraf-artefact opiunea nu ruleaz corect setare INACTIV
2.2 Corectare linii de pauz i linii de dialog setare ACTIV
2.3 Funcii obinuite setare ACTIV
2.4 Corectare suplimentar elipsis setare ACTIV
2.5 Conversie combinatii ? ! si . , setare ACTIV
3. Conversie text clasic n text contemporan setare ACTIV
4. Corectare caractere reproduse eronat
4.1 Corectarea majusculelor ncorporate setare ACTIV
4.2 Corectarea literelor l, d si m reproduse eronat setare ACTIV
4.3 Corectare cuvinte foarte scurte setare ACTIV
4.4 Corectare minuscule la nceput de paragraf setare ACTIV
4.5 nlocuire secvene cuvinte setare ACTIV
4.6 Corectare cuvinte ntregi i expresii setare ACTIV
4.7 Conversie majuscul n minuscul la dialog francez Rog studiai tutorialul
nainte de activare
5. Marcare caractere Rog studiai tutorialul nainte de activare
6. tergere caractere Rog studiai tutorialul nainte de activare
7. nlocuiete toate liniile de pauz cu:
7.1 cu >> EmDash INACTIV
7.2 cu >> EnDash setare ACTIV
7.3 cu >> Horizontal Bar INACTIV
8. nlocuiete toate liniile de dialog cu:
8.1 cu >> EmDash setare ACTIV
8.2 cu >> EnDash INACTIV
8.3 cu >> Horizontal Bar INACTIV
9. Eliminare linii de pauz exclusiv din Dialoguri ATENIE: Pachet de opiuni
pentru profesioniti
9.1 nlocuiete "spaiu""linie de pauz oricare ar fi ea""spaiu" n

"virgul""spaiu" INACTIV
9.2 Elimin virgula de dup semnul de exclamare/ntrebare INACTIV
9.3 nlocuiete "spaiu""linie de pauz""virgul""spaiu" n "virgul""spaiu"
INACTIV
10.1 Elimin TOATE liniile de pauz din text ATENIE: Pachet de opiuni pentru
profesioniti
10.1 Din " !""spaiu""linie de pauz""spaiu" n " !""spaiu" INACTIV
10.2 Din " ?""spaiu""linie de pauz""spaiu" n " ?""spaiu" INACTIV
10.3 Din "spaiu""linie de pauza""spaiu" n "virgul""spaiu" INACTIV
10.4 Din "spaiu""linie de pauz""virgul""spaiu" n "virgul""spaiu"
INACTIV
11. Rulare grup de dicionare nlocuire multipl Rog studiai tutorialul nainte de
activare
12. Setri finale
12.1 nlocuire spaiu dup linia de dialog cu spaiu neseparator setare ACTIV
12.2 Corectare cuvinte rupte i nlocuiri cu confirmare setare ACTIV

EDITAREA DICIONARELOR DE NLOCUIRE MULTIPL


GENERALITI

Una dintre cele mai puternice funcii, dac nu chiar cea mai puternic, pe care a
are implementat AutoCorect este aceea de a putea realiza nlocuiri multiple.
Opiunea "nlocuire multipl" din AutoCorect este asemntoare opiunilor de tip
Find & Replace din oricare dintre editoarele de text, dar are caractristici net
superioare oricrei opiuni de acest tip, don oricare dintre editoarele de text
cunoscute, fie ele free sau dintre cele care cost foarte mult i care au n spate un
numr foarte mare de programatori.
"nlocuirea multipl" din AutoCorect are cteva caracteristici specifice; acestea o
fac superioar oricrei opiuni similare din celelalte editoare de text:
cu opiunea "nlocuirea multipl" din AutoCorect se pot face un numr
nelimitat de nlocuiri, ce se pot realiza cu o singur comand, prin rularea unui
dicionar de nlocuiri multiple; n acelai timp, n toate celelalte editoare, nlocuirile
se pot face una cte una prin editarea de fiecare dat a irului de caractere de cutat i
a irului de caractere cu care va fi nlocuit;
nlocuirile ce dorim a fi fcute ntr-un text se pot salva ntr-un fiier de tip
dicionar de nlocuiri multiple, iar acest dicionar este salvat la rndul su de ctre
program, putnd fi accesat de oricte ori este nevoie pentru a fi fcute nlocuirile pe
orice text, oriunde i oricnd;
dicionarele de nlocuiri multiple pot fi transmise de la un utilizator la altul,
acest lucru reducnd timpul de editare a unui dicionar ce prezint interes pentru mai
muli useri;
n cazul executrii unui numr mare de nlocuiri, timpul total de executare al
nlocuirilor este mult mai scurt n AutoCorect, dect n oricare dintre celelalte
editoare.
Accesarea ferestrei "nlocuire multipl" se poate face n dou moduri, ca n
imaginea de mai jos:
din meniul principal: "Editare" >> "nlocuire multipl";
actionnd asupra ultimului [din dreapta], aflat pe bara de iconuri.

Fereastra "nlocuire multipl" [vezi imaginea de mai jos] permite deschiderea i


editarea dicionarelor de nlocuire multipl, precum i o serie de alte aciuni, precum
crearea de noi dicionare, salvarea lor, sortarea nregistrrilor n ordine alfabetic,
copierea, mutarea sau tergerea unei nregistrri sau a unui pachet de nregistrri.
Copierea i mutarea nregistrrilor se poate face dintr-un dicionar de tip
AutoCorect n altul, dar i dintr-un dicionar AutoCorect n alte editoare de text sau
foi tabelare [ca de exemplu, Excel].
Se pot face, de asemenea, copieri i mutri din diferite editoare de texte sau foi
tabelare n dicionare de tip AutoCorect, dar aceast aciune este una mai dificil i
necesit mai mult experien din partea utilizatorului.
Despre astfel de aciuni vor fi date cteva detalii n partea final a tutorialului

Fereastra "nlocuire multipl"


Fereastra "nlocuire multipl" are o mrime minim standard sub care nu se mai
poate redimensiona, n schimb poate fi mrit att pe vertical, ct i pe orizontal
prin tragerea cu mausul de una din laturi sau unul dintre colurile ferestrei.
Deoarece aceast fereastr este una foarte complex, pentru a putea descrie mai
uor modul de editare a nlocuirilor i toate celelalte opiuni asociate ferestrei, am
recurs la un artificiu i am mprit fereastra n 3 zone [blocuri] separate.

mprirea ferestrei n cele trei zone este doar o ncercare de sistematizare a


discuiilor, cu scopul de a uura descrierea i nelegerea modului de funcionare a
fiecrei opiuni n parte.
Aceste 3 zone principale ar putea fi mprite astfel:
Zona de afiare a nregistrrilor - se afl n partea din stnga-sus a ferestrei
i are structura unui tabel cu 5 coloane i un numr variabil de rnduri; n aceast
fereastr se afieaz la fiecare nregistrare urmtoarele elemente:
"Nr." - reprezint numrul de ordine al nregistrrilor; el este creat
automat de program, deci nu se editeaz de ctre utilizator;
"Caut..." - este coloana n care sunt afiate cuvntele [irurile de
caractere] de nlocuit;
"nlocuiete cu..." - este coloana n care sunt afiate cuvntele [irurile de
caractere] cu care se face nlocuirea;
"Opiuni" - este coloana n care sunt afiate condiiile [opiunile] pentru
fiecare nregistrare n parte. Aceste condiii sunt afiate sub fprm de abrevieri
[prescurtri].
Mrirea dimensiunii pe orizontal a ferestrei poate fi fcut pentru a vizualiza
nregistrrile n totalitatea elementelor lor, atunci cnd exist sau editm nregistrri
care conin un ir lung de caractere. Practic, la lrgirea ferestrei pe orizontal i
mresc dimensiunile numai coloanele "Caut..." i "nlocuiete cu..."; toate celelalte
elemente ale ferestrei i pstreaz limea standard.
Se poate recurge la mrirea pe vertical a dimensiunii ferestrei pentru a vizualiza
un numr mai mare de nregistrri [rnduri].
Blocul butoanelor dicionarelor - se afl n partea din dreapta-sus a
ferestrei. Rolul fiecruia dintre aceste butoane va fi analizat n mod detaliat n cadrul
tutorialului.
Zona de editare a nregistrrilor - se afl n partea de jos a ferestrei
"nlocuire multipl" i cuprinde cele dou miniferestre de editare manual a
nregistrrilor, un pachet de opiuni [condiii] de cutare ce se pot aplica individual
sau n grup pentru fiecare nregistrare n parte, precum i butoane pentru nserare de
caractere speciale [caractere simbol] sau coduri specifice programului AutoCorect.
Modul de editare al nregistrrilor i caracteristica fiecrei opiuni de cutare n
parte, va fi analizat n mod detaliat.
Variante de afiarea a Zonei de editare a nregistrrilor
Trebuie reinut c aceast zon de editare a ferestrei "nlocuire multipl" are un
mod de afiare special.
Zona de editare este mprit n trei sectoare pliabile, care se pot desfura sau
restrnge una cte una, cu ajutorul unor butoane de forma sau care se afl n
partea dreapt a fiecrui sector.
Cnd un astfel de buton este orientat cu vrful n jos [adic are forma ], prin
acionarea lui, sectorul aflat sub acest semn se extinde, iar cnd butonul este orientat
cu vrful n sus [adic are forma ], prin acionarea lui, sectorul aflat sub acest semn

se restrnge.
Iat n imaginile de mai jos modul de afiare a zonei de editare n cele trei
variante:

Varianta redus [neextins] n care este afiat doar primul sector.


Acest mod de afiare este folosit atunci cnd utilizatorul face doar rularea sau
vizualizarea unui dicionar i nu este necesar editarea nregistrrilor.

Varianta extins parial, n care sunt afiate primele dou sectoare, dar nu este
afiat cel de-al treilea.
Acest mod de afiare este folosit atunci cnd utilizatorul face modificri ale
nregistrrilor existente sau adaug nregistrri noi, dar care ndeplinesc condiii
simple la cutare.

Varianta extins total, n care sunt afiate toate cele trei sectoare.
Se recurge la acest mod de afiare atunci cnd utilizatorul face nregistrri care
sunt nsoite de condiii complexe de cutare, ori trebuiesc inserate n nregistrri
caractere speciale sau coduri specifice.
Prezentarea detaliat a opiunilor din Zona de editare a nregistrrilor
Opiuni de rulare a dicionarelor:
"nlocuiete n tot documentul " i "Marcheaz modificrile"
Ambele opiuni acioneaz asupra tuturor dicionarelor n ntregul lor i nu doar
asupra unora dintre nregistrri.
Este foarte important de reinut c dac marcm sau demarcm una dintre opiuni
ntr-un singur dicionar, aceste marcri sau demarcri se aplic asupra tuturor
dicionarelor.
Pentru a scoate n eviden faptul c aceste dou opiuni sunt diferite de celelalte
opiuni din zona de editare, realizatorii programului le-au grupat ntr-un sector de
fereastr separat, iar fontul cu care sunt afiate aceste opiuni are culoarea albastru,
fa de celelalte opiuni care apar afiate cu font neagru.

Opiunea "nlocuiete n tot documentul" este activat implicit i trebuie s


rmn activat totdeauna n cazul tuturor dicionarelor.
Activarea acestei opiuni produce urmtorul efect: programul va cuta i va face
nlocuirile nregistrate n tot documentul; altfel spus, dac ntr-un text avem 100 de
cazuri n care cuvntul "binc" trebuie nlocuit cu "bine", dicionarul va face toate cele
100 de nlocuiri necesare.
Dezactivarea acestei opiuni produce urmtorul efect: programul va cuta i va
face doar cte o singur nlocuire pentru fiecare nregistrare n parte, fr a cuta n
document dac mai exist nlocuiri care ndeplinesc aceleai condiii; altfel spus, dac
ntr-un text avem 100 de cazuri n care cuvntul "binc" trebuie nlocuit cu "bine",
dicionarul va face o singur nlocuire a acestui cuvnt i anume n prima poziie din
text n care gsete cuvntul "binc", fr a cuta mai departe n text, astfel c celelalte
99 de cazuri n care nlocuirea era necesar, vor rmne nemodificate.
Opiunea "Marcheaz modificrile" este dezactivat implicit.
Aceast opiune se activeaz numai n situaia n care utilizatorul face teste cu
anumite docionare sau nregistrri i dorete s vad efectul nregistrrilor n text.
Activarea acestei opiuni produce urmtorul efect: toate modificrile realizate la
rularea dicionarele vor fi redate n text cu font normal pe un fundal color; culoarea
fundalului poate fi aleas de utilizator sau poate rmne cea setat implicit.
Marcarea n text a modificrilor obinuite nu este recomandat, deoarece produce
efectul de oboseal pe timpul corectrii textului.
Utilizatorul obinuit va trebui s pstreze opiunea inactiv, aa cum este setat
implicit.
Aa cum s-a artat, aceasta este o opiune recomandat persoanelor care particip
la dezvoltarea programului AutoCorect i va fi activat doar pentru a urmri efectul
unei modificri sau mai multor modificri ntr-un text.
Ferestrele de editarea a nregistrrilor
Pentru ca diferitele opiuni i butoane s fie mai uor de urmrit pe imaginile care
reprezint zona de editare a fereastrei "nlocuire multipl", am procedat la
evidenierea color a acestora.

Nu cred c sunt necesare foarte multe explicaii; numele butoanelor i al


ferestrelor de editare sunt suficient de sugestive.
Fereastra "Caut" n aceast fereastr va fi editat manual cuvntul [irul de
caractere] ce trebuie cutat pentru a fi nlocuit.

Fereastra "nlocuiete cu" n aceast fereastr va fi editat manual cuvntul [irul


de caractere] cu care trebuie s se fac nlocuirea.
Butonul "Salveaz" permite salvarea n dicionar a unei noi nlocuiri, precum i
salvarea modificrilor fcute asupra unor nlocuiri existente n dicionar.
Butonul "Renun" permite renunarea la salvarea n dicionar a o unei noi
nlocuiri i, de asemenea, permite renunarea la modificarea unei nlocuiri existente n
dicionar.
Pe de alt parte, este important de reinut faptul c nregistrarea unei nlocuiri nu
se rezum doar la editarea celor dou cuvinte [iruri de caractere] din ferestrele
"Caut" i "nlocuiete cu". Pentru fiecare nlocuire se vor stabili una sau mai multe
condiii de cutare.
S lum spre exemplificarea, nlocuirea succesiunii de caractere: "marc" >>
"mare"
Succesiunea corect "mare" poate aprea n text n mai multe situaii:
cuvnt ntreg scris cu minuscul n aceast situaie nlocuirea "marc" >>
"mare" este corect.
cuvnt ntreg scris cu majuscul iniial nlocuirea "Marc" >> "Mare" este
incorect, deoarece exist cuvntul corect "Marc" = nume de persoan, care nu
trebuie nlocuit cu "Mare".
cuvnt ntreg scris cu majuscule nlocuirea "MARC" >> "MARE" este
incorect din motivele artate mai sus.
succesiune de caractere aflat la nceputul cuvntului, ca n cuvintele:
marcat, marcant, marc, marcaj, marchiz, marcaj... etc. nlocuirea "marc" >>
"mare" este incorect;
succesiune de caractere aflat la mijlocul cuvntului, ca n cuvintele:
remarc, demarc, marchidan, neremarcnd, telemarc... etc. nlocuirea "marc" >>
"mare" este incorect;
succesiune de caractere aflat la sfritul cuvntului, ca n cuvintele: marc,
demarc, telemarc, remarc... etc. nlocuirea "marc" >> "mare" este incorect;
Efectuarea nlocuirilor n toate situaiile enunate mai sus este o grav eroare; de
aceea va trebui "s-i spunem" programului s fac nlocuirile doar n situaiile n care
succesiunea "marc" este un cuvnt ntreg i doar n situaia cnd este scris cu
minuscule.
Se poate comunica programului acest lucru, aplicnd nregistrrii "marc" >>
"mare" opiunile de cutare "Cuvnt ntreg" i "Potrivire perfect".
Pentru ca userii s poat stabili n mod corect opiunile de cutare pentru fiecare
nlocuire n parte, se impune o descriere amnunit a fiecreia dintre aceste opiuni
de cutare.
Opiunil de cutare [condiii de cutare] a nlocuirilor
Not: n zona de afiare a nregistrrilor, situat n partea din stnga-sus a ferestrei
nlocuire multipl, n coloana Opiuni vor fi afiate toate opiunile de cutare
activate pentru fiecare modificare n parte.
Evidenierea opiunilor de cutare se face n form abreviat.

Pentru a obinui utilizatorul cu aceste abrevieri, n explicaiile urmtoare, dup


numele fiecri opiuni de cutare voi nota ntre paranteze drepte abrevierea opiunii
respective, aa cum este folosit n afiarea din coloana Opiuni.
"Cuvnt ntreg" [Ci]

n programul AutoCorect Standard, nainte de dezvoltarea versiunii AutoCorect


OCR Plus, opiunea de cutare Cuvnt ntreg avea exact sensul cunoscut n mod
obinuit prin noiunea Cuvnt ntreg.
n timpul activitii de dezvoltare a versiunii OCR Plus a aprut necesitatea
implementrii unor noi opiuni care s caute succesiuni de caractere numai la
nceputul cuvintelor sau numai la sfritul cuvintelor.
Pentru a nu aglomera fereastra de editare prin adugarea de noi opiuni i butoane
i pentru a evita punerea n dificultate a utilizatorului care ar fi trebuit s aleag dintrun numr mare de opiuni, s-a recurs la varianta lrgirii opiunii Cuvnt ntreg la
care s-au adugat 3 variante de setare, astfel.
Cuvnt ntreg la ambele capete [Ci] n sensul prezentei opiuni, prin
cuvnt ntreg la ambele capete se nelege un ir de caractere delimitat la ambele
capete; rezult c se pot seta astfel, att nlocuirile care conin un singur cuvnt, ct i
nlocuirile fragmentelor de text care conin mai multe cuvinte.
Exemplul 1: "fcreastr" >> "fereastr", "cuvnt" >> "cuvnt", "Mria" >>
"Maria", "utili/ator" >> "utilizator", "secuen" >> "secven"...
Exemplul 2: "din cauza faptului c erau nitie oameni harnicii" >> "datorit
faptului c erau nite oameni harnici".
Cuvnt ntreg la nceput [Ci Ic], nu se refer la un cuvnt ntreg ci la
secvene de caractere situate la nceput de cuvnt;
Exemplu: "binc" >> "bine", pentru cuvinte de genul: binecrescut, binecunoscut,
binecuvnta, binedispun, binefacere, bineneles, binemerita, binetiut, binevenit,
binevoitor... etc. Exist n limba romn circa 490 de cuvinte care ncep cu secvena
bine.
Cuvnt ntreg la sfrit [Ci Sc], se refer la secvene de caractere
situate la sfrit de cuvnt;
Exemplu: "nclu-i" >> "ndu-i", pentru cuvinte de genul: acuzndu-i, agitndu-i,
apucndu-i, blocndu-i, calmndu-i, cntndu-i, dndu-i, evitndu-i, lundu-i,
picndu-i, redndu-i etc. Exist n limba romn circa 2200 de cuvinte care se

termin cu secvena ndu-i , deci nlocuirea poate corecta foarte multe erori, dac
Abbyy a fcut confuzia ntre litera d i grupul cl.
Practic, pentru activarea opiunii Cuvnt ntreg ntr-una dintre cele trei variante,
se activeaz mai nti opiunea, apoi din fereastra etichetei Cuvnt ntreg nseamn:
se alege una din variante, astfel:
pentru setarea variantei Cuvnt ntreg la ambele capete [Ci] se activeaz
doar opiunea Cuvnt ntreg, fr a mai stabili setarea la ambele capete, deoarece
programul are setat implicit varianta cuvnt ntreg la ambele capete.
pentru setarea variantei Cuvnt ntreg la nceput [Ci Ic] se activeaz
opiunea Cuvnt ntreg, apoi se alege setarea la nceput.
pentru setarea variantei Cuvnt ntreg la sfrit [Ci Sc] se activeaz
opiunea Cuvnt ntreg, apoi se alege setarea la sfrit.
n mod normal, dificulti sau efecte secundare nedorite nu apar la stabilirea
nlocuirilor de tip Cuvnt ntreg la ambele capete [Ci], dar pot aprea uneori la
stabilirea nlocuirilor de tip Cuvnt ntreg la sfrit [Ci Sc] i destul de des la
stabilirea nlocuirilor de tip Cuvnt ntreg la nceput [Ci Ic].
S lum ca exemplu nlocuirea: aezrnint >> aezmnt
Dac activm opiunea Cuvnt ntreg la ambele capete [Ci] nu sunt efecte
secundare.
Dac activm opiunea Cuvnt ntreg la nceput [Ci Ic], vor fi corecte
nlocuirile pentru formele de singular: aezmnt, aezmntul, aezmntului, dar va
fi o eroare nlocuirea formelor de plural: aezminte, aezmintele, aezmintelor.
"Pstreaz capitalizarea" [Pc] i "Potrivire perfect" [Pp]

Vom face o descriere prin comparaie a celor dou opiuni.


Fiecare dintre aceste opiuni poate fi activat mpreun cu alt opiune de cutare,
dar niciodat acestea dou nu trebuiesc activate mpreun pentru aceeai modificare,
deoarece sunt contrarii i-i vor anula condiiile de cutare n mod reciproc, ceea ce
poate duce la erori.
S recurgem din nou la exemple i, de data asta s alegem trei modificri de
cuvinte ntregi:
"carc" >> "care", "marc" >> "mare" i "rnare" >> "mare".
n mod obinuit, majoritatea cuvintelor pot fi scrise n 3 variante:

- toate literele minuscule: carc/care, marc/mare, rnare/mare


- toate literele majuscule: CARC/CARE, MARC/MARE, RNARE/MARE
- iniiala majuscul i celelalte litere minuscule: Carc/Care, Marc/Mare,
Rnare/Mare
Dac activm opiunea "Pstreaz capitalizarea" [Pc] pentru modificarea carc >>
care, programul va executa modificarea n toate cele 3 variante n care este scris
cuvntul de modificat "carc", dar pstrnd modul de scriere al cuvntului de
modificat, astfel c dei vom face o singur nregistrare, vom avea n realitate trei
modificri: "carc" va deveni "care", "Carc" va deveni "Care" i "CARC" va fi
modificat n "CARE".
Opiunea de cutare "Pstreaz capitalizarea" [Pc] se cupleaz, de regul cu
opiunea "Cuvnt ntreg - la ambele capete"[Ci] sau "Cuvnt ntreg - la nceput"[Ci
Ic].
Dac activm opiunea "Potrivire perfect" [Pp] pentru aceeai modificare: carc
>> care, programul va executa modificarea doar pentru situaiile n care cuvntul este
scris cu minuscule, deci exact aa cum este nregistrat modificarea. Rezult c
variantele "Carc" i "CARC" existente n text nu vor fi modificate.
S revenim la modificrile luate ca exemplu ["carc" >> "care", "marc" >> "mare"
i "rnare" >> "mare"] i s stabilim care dintre cele dou opiuni trebuie activat
pentru fiecare dintre modificri:
"carc" >> "care" modificarea este corect n toate variantele de scriere a
cuvntului, deci opiunea corect ce trebuie activat este "Pstreaz capitalizarea"
[Pc]. Opiunea se va cupla cu "Cuvnt ntreg - la ambele capete"[Ci].
"marc" >> "mare" modificarea este corect n varianta scrierii cu minuscule
pentru c se refer doar la adjectivul "mare", dar poate da erori n varianta cu iniial
majuscul i varianta toate literele majuscule, deoarece cuvntul cutat ar putea fi att
adjectivul "mare", dar i numele de persoan "Marc". n cazul n care cuvntul gsit
este numele "Marc" nu trebuie fcut mpdificarea. n acest caz singura opiune
activat corect este "Potrivire perfect" [Pp]. i n acest caz este obligatorie i
activarea opiunii "Cuvnt ntreg - la ambele capete"[Ci].
"rnare" >> "mare" modificarea este corect pentru varianta scrierii cu
minuscule, deoarece Abbyy realizeaz confuzii ntre grupul de litere "rn" i litera
"m", dar nu face niciodat confuzii ntre majusculele acelorai litere, deci nu va scrie
"Rn" sau "RN" n locul literei "M".
Dac am activa opiunea "Pstreaz capitalizarea" [Pc], programul va procesa mai
mult timp, ncercnd s caute toate cele 3 variante de scriere, dar va face modificri
doar n cazul cuvintelor scrise cu minuscule, deoarece nu va gsi cazuri n care
cuvintele de modificat sunt scrise cu majuscule sau cu iniaial majuscul.
n cazul acestei modificri, opiunea corect este "Potrivire perfect" [Pp], la care
se adaug opiunea "Cuvnt ntreg - la ambele capete"[Ci].
O recomandare simpl, dar nu i complet:
"Pstreaz capitalizarea" [Pc] cred c trebuie folosit n principal mpreun cu

setarea "Cuvnt ntreg - la ambele capete"[Ci] i "Cuvnt ntreg - la nceput"[Ci Ic].


"Potrivire perfect" [Pp] cred c trebuie cuplat cu setarea "Cuvnt ntreg - la
sfrit"[Ci Sc], ori atunci cnd avem secvene mediane.
Important este ca nainte de stabilirea setrilor s analizm bine efectul ce l vor
avea setrile propuse asupra cutrii cuvintelor de modificat.
"nserare simbol"

Dac trebuie s facem nite nregistrri de genul Francois >> Franois sau
Pepiniere >> Ppinire, vom constata c nu putem scrie direct de la tastatur,
caracterele , , , specifice limbii franceze.
Opiunea nserare simbol este un instrument care permite inserarea de caractere
speciale n timp ce nregistrm o modificare.
Menionez c la accesarea opiunii [butonului] nserare simbol se afieaz o
fereastr care conine caractere speciale, ca n imaginea urmtoare.

n cazul nlocuirii Francois >> Franois, n fereastra Caut: se va scrie cuvntul


Francois direct de la tastatur, iar n fereastra nlocuiete cu: vom scrie de la
tastatur succesiunea Fran, apoi accesm butonul nserare simbol, cutm
caracterul , apsm butonul Insereaz, dup care continum s editm de la
tastatur succesiunea ois.

Setri complexe
Opiunile urmtoare nu au existat n versiunea AutoCorect standard, ci au fost
implementate pe timpul dezvoltrii proiectului AutoCorect OCR Plus, deoarece unele
nregistrrile fcute n dicionarele care ruleaz automat n cadrul meniului OCR Plus
aveau nevoie de condiii speciale de cutare sau de modificare.
Astfel au fost implementate opiuni care permit cutri numai la nceput sau la
sfrit de paragraf, ori care permit realizarea de nlocuiri cu confirmare, inserarea n
nregistrri a unor caractere speciale care nu pot fi introduse foarte simplu de la
tastatur, precum i alte opiuni ce vor fi analizate n continuare.
"Confirmare la nlocuire" [Cli]

"Confirmare la nlocuire" [Cli] este o opiune cu un nume suficient de sugestiv.


Programul va cuta toate situaiile care ndeplinesc condiiile pentru realizarea unei
modificri nregistrate, dar nu va executa automat modificarea, ci va cere
utilizatorului s confirme sau s refuze executarea modificrii pentru fiecare situaie
n parte.
Aceast opiune poate fi combinat fr probleme cu una sau mai multe dintre
celelalte opiuni.
n momentul rulrii unei modificri setate cu opiunea "Confirmare la nlocuire"
[Cli], programul marcheaz rnd pe rnd n text locurile unde trebuie s se fac
fiecare nlocuire n parte i, n plus, afieaz o mic fereastr [cea din imaginea
urmtoare] cu 4 butoane, care au urmtorul rol: Da = confirm nlocuirea propus;
Nu = nu se execut nlocuirea propus; Renun = se renun la TOATE nlocuirile
pe care ar putea s le fac o singur nregistrare; Toate = se accept toate
modificrile din text ale unei singure nregistrri.

Chiar dac se folosete unul dintre butoanele Renun sau Toate, fereastra nu
dispare dect atunci cnd nu mai exist n dicionar alte nregistrri setate cu opiunea
"Confirmare la nlocuire" [Cli].

S facem o parantez i s amintim c paronimele sunt cuvinte cu form


aproape identic uneori difer un singur sunet i cu sensuri diferite. [Exemple:
abilitate-agilitate, arbitrai-arbitrar, dependen-dependin, familial-familiar, libretlivret, ordinal-ordinar...]
Situaiile cele mai frecvente n care este necesar activarea opiunii "Confirmare la
nlocuire" [Cli] sunt cele n care cuvntul de nlocuit i cuvntul nlocuitor sunt
paronime.
Iat cteva exemple de astfel de paronime care sunt deja nregistrate n dicionarul
CO_Var4.imd: intre-ntre, lot-tot, lotul-totul, mal-mai, miner-mner, minerulmnerul, clar-dar, clar-dar, clin-din.
Timpul necesar executrii modificrilor setate cu aceast opiune va fi mult mai
lung dect n cazul nlocuirii automate, de aceea vom seta modificrile cu aceast
opiune numai n cazurile n care modificrile automate ar produce i modificri
nedorite.
"nceput de paragraf" [Pi] i Sfrit de paragraf [Ps]

Dei aceste dou opiuni sunt folosite destul de rar, numele lor este suficient de
sugestiv, astfel c nu necesit foarte multe explicaii.
Opiunea "nceput de paragraf" [Pi] va face cutarea irului de caractere de
nlocuit doar la nceput de paragraf i, bineneles, opiunea Sfrit de paragraf [Ps]
va face cutarea doar la sfrit de paragraf.
Cu opiunea "nceput de paragraf" [Pi] au fost setate nregistrrile din dicionarul
CO_LinD.imd. Acest dicionar face corecturi ale liniei de dialog n mod practic,
sunt eliminate caracterele de tip artefact [cunoscute i ca "rglii"] care nsoesc linia
de dialog, ori diferite tipuri de linii, nsoite sau nu de artefacte sunt modificate n
linia de dialog de tip EmDash.
Linia de dialog este totdeauna nceputul unui paragraf nou, astfel c o nlocuire de
genul - >> [cratim se modific n Emdash] nu se va face i n interiorul
paragrafului, ci doar la nceput de paragraf.
n acest moment, teoretic la finalul unei procesri complete n AutoCorect OCR
Plus toate liniile de dialog sunt curate de diferitele artefacte i toate liniile de dialog
pot fi setate, n funcie de dorina utilizatorului, ca EmDash, EnDash ori Horizontal
Bar.
Dac nu ar exista opiunea de cutare la "nceput de paragraf" [Pi], toate aceste
"curri" ale liniei de dialog i eliminarea de caractere nsoitoare nedorite, ar fi fost
imposibil.

Opiunea Sfrit de paragraf [Ps] poate fi folosit cel puin n cazul eliminrii
unor artefacte care exist la sfrit de paragraf. Nu de puine ori la sfritul unui
paragraf, n zona alb a hrtiei care se afl n continuarea ultimului rnd, Abbyy crede
c recunoate nite caractere, ce sunt n realitate doar pete ale hrtiei sau umbre
rezultate la scanare, astfel c la sfritul unui rnd mai scurt dect celelalte [este cazul
ultimului rnd din paragraf, deci sfrit de paragraf] apare un ir mai lung sau mai
scurt de caractere false, cunoscute ca artefacte sau rglii.
Aceste artefacte [rglii] pot fi eliminate manual la citirea i corectarea textului,
dar se poate face i o ncercare de curare a lor n mod automat prin folosirea unui
dicionar.
Exemple de artefacte sunt caracterele: ^ < > | @
# $ %
Dac vom edita o modificare, nregistrnd n fereastra "Caut:" caracterul ^ , iar n
fereastra "nlocuiete cu:" nu vom pune nimic, nici mcar un spaiu, atunci programul
va cuta caracterul ^ n orice zon a textului i-l va terge.
Dac aceast nregistrare va avea activat opiunea Sfrit de paragraf [Ps],
atunci programul va cuta acest caracter numai la sfrit de paragraf i-l va terge.
n situaia cnd am realiza un dicionar cu mai multe nregistrri, iar la fiecare
nregistrare vom pune un alt caracter dintre cele menionate vom avea posibilitatea s
tergem toate artefactele aflate la sfrizul unui paragraf, deoarece dicionarul va
terge cte un singur caracter, dar prin cutri repetate va avea ansa s le elimine pe
toate.
"nserare caractere speciale"

"Ignor marginile la nlocuire"


[Ima... Ims... Imd...]
Este una dintre opiunile specifice programului AutoCorect, o noutate n materie
de opiuni de cutare i, incontestabil, una dintre opiunile cele mai complexe, care
necesit explicaii detaliate, dar i ceva mai mult atenie.
Trebuie subliniat c aceasta este o opiune bivalent, adic asigur condiii la
cutare, dar asigur condiii i la nlocuire.

Cred c cel mai uor este s recurgem din nou la exemple de modificri.
Sunt cunoscute cazurile n care Abbyy, n mod eronat, scrie la mijlocul frazelor
cuvinte foarte scurte cu iniial majuscul. Este vorba de cuvinte compuse din dou
sau trei litere, n care prima liter este una dintre literele c, j, o, p, s, , u, v, w, z [care
seamn pn la identificare cu forma lor majuscul C, J, O, P, S, , U, V, W, Z].
De multe ori, putem constata c la mijlocul frazei ntlnim cuvintele cu, un, i
etc. scrise sub forma: Cu, Un, i etc.
Dac am nregistra o modificare de forma: Un >> un cu condiiile Cuvnt
ntreg plus Potrivire perfect [Ci Pp], se vor executa modificri i asupra
situaiilor n care cuvntul Un se afl la nceput de fraz, deci i cnd ar fi scris
corect.
Exist posibilitatea ca modificarea s primeasc i opiunea "Confirmare la
nlocuire" [Cli]; n acest caz putem face modificrile n mod corect, avnd
posibilitatea s alegem care sunt poziiile n text ale cuvntului Un ce trebuie
modificate i care dintre ele vor rmne nemodificate; dezavantajul este c vom
consuma ceva mai mult timp pentru executarea modificrilor.
Dac am putea pune condiia ca programul s caute aceste cuvinte numai n
interiorul frazelor, atunci cutrile s-ar reduce exact la situaiile n care trebuie fcute
modificrile.
Condiia ar fi ca programul s nu caute cuvntul Un la nceput de fraz, ci
numai atunci cnd acesta se afl n interiorul propoziiei, adic ar fi poziionat ntre
cuvinte scrise cu minuscule.
Ca s artm c n faa cuvntului Un i dup el, se afl cte un cuvnt este
suficient s artm c n fa se afl o liter urmat de spaiu, iar ca s artm c Un
este urmat de un cuvnt este suficient s artm c este urmat de spaiu i apoi o
liter.
Ca s eliminm si situaia n care este vorba de un titlu scris cu majuscule, ar fi
bine s punem condiia ca literele vecine s fie minuscule.
Condiia se poate scrie sub forma.
orice_liter_minuscul - spaiu - Un -spaiu - orice_liter_minuscul
Exist implementate n AutoCorect o serie de coduri, printre care:
^_
cod pentru spaiu
^l
cod pentru orice liter minuscul
^L cod pentru orice liter majuscul

nlocuind n condiia de mai sus orice_liter_minuscul cu codul pentru orice


liter minuscul, se poate rescrie condiia de cutare sub forma:
^l^_Un^_^l
Asta nseamn c am putea edita n ferestrele Caut: i nlocuiete cu:
modificarea urmtoare:
^l^_Un^_^l >> ^l^_un^_^l
nregistrarea este incorect, este fals, iar nlocuirea este imposibil de realizat,
deoarece programul poate cuta foarte uor ^l [orice liter minuscul], dar nu trebuie
s nlocuiasc cu orice liter minuscul, ci doar cu cea pe care a gsit-o la fiecare
poziie n parte.
Condiia "Ignor marginile la nlocuire" poate rezolva aceast situaie.
Mai nti s clarificm ce nseamn i care sunt marginile cuvntului de cutat
Un:
marginea din stnga este format din dou caractere: ^l^_ adic, orice liter
mic urmat de un spaiu;
marginea din dreapta este format tot din dou caractere: ^_^l adic, un spaiu
urmat de orice liter mic.
A ignora marginile la nlocuire nseamn c programul, dup ce va gsi irul de
caractere care ndeplinete condiia impus la cutare, va face modificarea cuvntului
Un fr a mai modifica i marginile, ci doar cuvntul propriu zis, ; acest lucru
nseamn c ignor marginile.
Forma corect pentru nregistrarea modificrii propuse are forma:
^l^_Un^_^l >> un
Opiunea "Ignor marginile la nlocuire" are doi parametrii de setare:
primul parametru = numrul de caractere din care este compus marginea:
1 car [In1] nseamn c marginea este format dintr-un caracter;
2 car [In2] nseamn c marginea este format din 2 caractere;
3 car [In3] nseamn c marginea este format din 3 caractere.
al doilea parametru = marginile; acestea pot fi setate astfel:
stnga [Ims] nseamn numai marginea din stnga; rezult urmtoarele
variante de setare: [Ims In1] stnga 1 caracter, [Ims In2] stnga 2 caractere, [Ims In3]
stnga 3 caractere
dreapta [Imd] nseamn numai marginea din dreapta; rezult
urmtoarele variante de setare: [Imd In1] dreapta 1 caracter, [Imd In2] dreapta 2
caractere, [Imd In3] dreapta 3 caractere
ambele margini [Ima] nseamn att marginea din stnga, ct i cea din
dreapta; rezult urmtoarele variante de setare: [Ima In1] ambele margini 1 caracter,
[Ima In2] ambele margini 2 caractere, [Ima In3] ambele margini 3 caractere.
Se constat c numrul de caractere stabilit este acelai att la marginea din stnga
ct i la marginea din dreapta. Pentru a nu complica foarte tare setrile opiunii nu s-a
implementat varianta n care numrul de caractere s fie diferit la marginea din stnga
fa de cea din dreapta.