Documente Academic
Documente Profesional
Documente Cultură
Esta obra foi liberada sob uma Licena Creative Commons - Atribuio - Uso No-Comercial - Partilha nos Mesmos Termos 3.0 No Adaptada.
Sumrio
1 Introduo...............................................................................5 2 Escaneie com a interface Windows.......................................9
2.1 Escolha a interface do escaner.........................................................9 2.2 Inicie o escaneamento em lote........................................................10 2.3 Ajuste a numerao das imagens...................................................11 2.4 Vantagens.......................................................................................16 2.5 Desvantagens.................................................................................16 2.6 Finalizao......................................................................................16
4 Limpe as imagens................................................................45 5 Crie, por OCR, PDF copivel...............................................57 6 Crie, por OCR, texto editvel ..............................................67 7 Revise o texto.......................................................................71 8 Calcule o tempo de produo..............................................73 9 Faa OCR com software livre..............................................75
9.1 Instale os programas ......................................................................75 9.2 Use o gImageReader......................................................................77
10 Faa OCR com Google Docs.............................................81 11 Faa OCR em obras do Google Books..............................83
1 Introduo
Este manual ensina a escanear livros com qualidade e com reconhecimento ptico de caracteres (OCR), gerando arquivos nos formatos Comic Book, PDF com texto pesquisvel e copivel, RTF e TXT. O formato de imagem que recomendo para se produzir livros escaneados PNG ou TIFF preto e branco (profundidade de cor de um bit), 300 pontos por polegada (dpi). Esta escolha deve-se s seguintes caractersticas: PNG um formato de imagens aberto e verstil, com boa compresso sem perdas. TIFF um formato pioneiro da computao grfica, bem documentado e um dos mais usados para artes grficas digitais. A resoluo de 300 dpi mais adequada para o OCR e pode ser impressa em qualidade razovel (era a resoluo das primeiras impressoras laser). Imagens em preto & branco (profundidade de cor de um bit) geram arquivos menores, tm melhor contraste para leitura e tornam mais fcil a limpeza de sombras nas margens das pginas. Se a pgina a ser escaneada tiver imagens em tons de cinza, como fotografias, o espao de cor deve ser Imagem em escala de cinza, (profundidade de cor de 256 tons de cinza). Se a pgina tiver imagens coloridas, o formato deve ser Imagem colorida (profundidade de cor de 24 bits ou milhes de cores). Alm de escolher o formato de imagem, voc deve definir o grau ou o tipo de compresso. O formato PNG (Portable Network Graphic) tem nove graus de compresso. De 1 (processamento rpido mas pouco comprimido) a 9 (processamento lento mas bem comprimido).
J o TIFF (Tagged Image File Format) permite diferentes algoritmos de compresso. A tabela abaixo mostra uma mesma pgina de livro 26 x 20 cm, com profundidade de cor de um bit (preto e branco) gravada em diferentes formatos e tipos de compresso.
Arquivo
paginanone.tif pagina.tif paginalzw.tif paginapack.tif paginazip.tif pagina1.png pagina6.png pagina9.png paginahuf.tif paginaccitt3.tif paginaccitt4.tif pagina.jpg Arquivos de texto pagina.pdf pagina-bodytext.rtf pagina.odt paginaretained.rtf PDF TIFF CCITT4 RTF formatado ZIP RTF no formatado 163.025 4.666 25.805 5.135 19,70 0,56 3,12 0,62 Gerado pelo DPE OCR Gerado pelo DPE OCR Gerado pelo LibreOffice Gerado pelo DPE OCR
Tipo de Compresso
Nenhuma LZW LZW Pack Bits ZIP PNG 1 PNG 6 (default) PNG 9 Huffman RLE CCITT3 CCITT4 JPEG 80
Tamanho em bytes
827.596 176.867 168.248 270.440 142.458 158.274 137.651 130.902 153.900 155.362 78.424 1.205.704
% de compresso
100 21,37 20,33 32,68 17,21 19,12 16,63 15,82 18,60 18,77 9,48 145,69
Comentrio
Gerado pelo programa de escaner Gerado pelo programa de escaner Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView
Conforme pode ser visto pelos tamanhos de arquivos resultantes, o melhor formato em relao compresso, para arquivos em preto e branco, TIFF comprimido pelo padro CCITT Group4 fax
encoding, criado para fax. O arquivo comprimido fica com menos de 10% do tamanho de arquivo TIFF sem compresso. O segundo formato mais eficiente PNG com compresso mxima, que fica com 16% do tamanho do arquivo sem compresso. de se notar a ineficincia do formato JPEG para imagens em preto e branco: o arquivo fica 45% maior que o arquivo TIFF sem compresso. Ou seja: o JPEG timo para arquivos de meio-tons (tons de cinza ou coloridos), mas completamente inadequado para arquivos p&b. Os detalhes de compresso dos arquivos so definidos no IrfanView marcando-se a opo Show options dialog no dilogo de gravao de arquivos.
Baixe em http://www.irfanview.com/
10
11
1. Marque Multiple images 2. Em Output file name, d um nome para as imagens do livro ou do captulo do livro. Use letras se estiver escaneando livros com vrios captulos com numeraes de pginas diferentes. Por exemplo, alguns prefcios tm numerao em algarismos romanos. Nomeie tipo MidiasDigitais-A-, MidiasDigitais-B-, etc. Deixe um hfen no final.
12
3. EmStarting counter, coloque o nmero da primeira pgina par (da esquerda) do livro ou do captulo que voc vai escanear. Se for o livro todo, este nmero ser 2, em geral. Conte de trs para a frente, a partir da primeira pgina numerada, para descobrir o nmero das pginas iniciais sem numerao. Se o prefcio tiver numerao diferente do miolo, d outro Output file name para o miolo e coloque a numerao apropriada. Este nmero vai sempre dizer a voc qual pgina deve ser colocada no escaner. 4. Em Increment, coloque 2 se o livro for escaneado de duas em duas pginas, ou 1 se for de uma em uma pgina. 5. Em Number of digits, coloque 3. 6. Deixe sempre ligados Skip existing files (pule arquivos j existentes) e Remember last scan counter (relembre o ltimo contador de scan). 7. Em Destination directory: coloque Minhas imagens do Windows, em geral. 8. Save as: PNG 9. Options: Compression: 9
13
14
15
A imagem ser digitalizada, cortada automaticamente e gravada com nova numerao. Se o formato da imagem for em tons de cinza ou cores, o corte tende a ser feito automaticamente na rea errada e ter de ser ajustado mo para a rea da pgina do livro. Repita as operaes para todas as pginas do livro. A numerao das imagens ser incrementada automaticamente.
Assim, voc obter uma coleo de imagens na pasta Minhas Imagens do Windows. Dependendo da velocidade do escaner, o trabalho pode demorar de 30 a 90 segundo por pgina.
16
2.4 Vantagens
Voc no precisa do software da HP, que muito ruim nas novas verses. Voc pode usar com qualquer marca de escaner.
2.5 Desvantagens
As imagens no ficam do mesmo tamanho. Em imagens em tons de cinza ou coloridas, o corte automtico funciona erradamente. As margens ficam com sombras que sujam as pginas e precisam ser limpas. Demora um pouco, pois necessria uma prvia de cada pgina.
2.6 Finalizao
Depois de terminada esta parte do trabalho, faa um backup de todas as imagens, comprimindo-as num ZIP. No captulo 4, Limpe as imagens, pgina 45, aprenda a limpar as sombras que podem ter ficado nas imagens.
17
Aparecer o splash por uns instantes, depois a interface do escaner. A lmpada ficar esquentando durante uns 30 segundos, e o software escanear a imagem de prvia.
18
Ajuste a rea de escaneamento cortando um pouco as margens do livro, para no ficarem sombras pretas. Escolha alguma medida inteira para se lembrar, mais tarde. No exemplo, a rea foi de 19 x 25 cm. Clique em Nova digitalizao para testar com pginas de
19
diferentes posies do livro, para verificar se todas as pginas ficaro bem digitalizadas.
20
Clareie um pouco a imagem, diminuindo o limiar de branco, para que o OCR trabalhe melhor. Em imagens p&b, o valor automtico fica prximo de 150. Experimente um valor de 100.
Agora, grave estes ajustes com um nome. Isto chama-se perfil. Mude os modos para tons de cinza e grave outro perfil, mude para milhes de cores e grave um terceiro perfil, se o livro tiver fotos em tons de cinza ou coloridas.
21
22
Se o livro tiver fotos em tons de cinza ou coloridas, tambm crie um perfil para as pginas de fotos. Mude o tipo de sada para 256 tons de cinza.
Certifique-se de que a resoluo esteja em 300 dpi. A seguir, grave um novo perfil com o nome como Livro 19x26 cinza.
23
Se alguma pgina do livro tiver ilustraes coloridas, mude o tipo de sada para Milhes de cores, certifique-se de que a resoluo esteja em 200 dpi e crie um perfil como Livro 19x26 cor. Agora, vamos configurar o boto do escaner para usar estes perfis sem fazer a prvia da pgina.
24
Desligue a opo indicada para certificar-se de que o boto do escaner no vai pedir uma prvia.
25
26
27
Grave em formato TIFF nomeando o arquivo com o nmero da pgina escaneada. Assim, voc logo ficar sabendo se esqueceu de digitalizar alguma pgina. Se o livro for escaneado de duas em duas pginas, coloque o nmero da pgina par.
28
Clique em Digitalizar Imagem. Na verdade, voc no vai digitalizar nada, s gravar os perfis. O splash abrir rapidamente e a imagem ser escaneada.
29
Marque a rea a ser escaneada, cortando um pouco as margens que, de outra forma, apresentariam sombras.
30
31
Mude o modo da imagem para preto & branco (um bit de cor).
32
33
Grave o perfil.
34
Se o livro tiver fotos em tons de cinza, tambm crie um perfil para as pginas de fotos. Mude o tipo de sada para 256 tons de cinza.
Ajuste a rea de alta-luz. Clique no pequeno tringulo para salientar em preto a rea de alta-luz a rea que dever ficar totalmente branca. Se voc no fizer isto, o verso das pginas aparecer nas imagens, pois o escaner muito sensvel.
35
Mova o slider Realces (highlites altas-luzes) at que a rea branca fique marcada totalmente em preto. Tambm mova o slider Sombras para -100, deixando o preto totalmente preto. Assim, o verso das pginas no aparecer e o contraste ficar melhor. Mas teste estes ajustes em pginas com fotos, para verificar se elas no ficaro prejudicadas.
36
Grave o perfil com o nome cinza. Se o livro tiver fotos coloridas, mude o tipo de sada para Milhes de cores, coloque a resoluo em 200 dpi e deixe os ajustes de cor no automtico. Grave um perfil para cor.
37
Agora, configure a ao para o boto do escaner (ou para o boto Digitalizar Imagem da Central de solues HP, se voc quiser us-lo em vez do boto do escaner). Clique em Configuraes e Configurao de botes.
38
Escolha a aba Boto Digitalizar ou Boto Digitalizar foto (Centro de Solues). Escolha Imagem, Salvar em arquivo, Desligue Exibir visualizao ao digitalizar a partir do boto Digitalizar e Solicitar essas configuraes no momento da digitalizao.
39
40
Agora, cada vez que voc pressionar o boto de escaner ou clicar em Digitalizar Imagem na Central de Solues HP, aparecer o dilogo de Opes de gravao. Escolha Imagem em Tiff (compactada) (*.tif). No nome do arquivo, coloque o nmero da pgina inicial que voc digitalizar, seguido do sinal +. Escolha o local da gravao, em geral, pasta Minhas Digitalizaes. Clique em OK.
41
Depois de digitalizada a pgina, o software vai perguntar se voc quer digitalizar mais fotos.
Clique em Digitalizar ou use a tecla de espao ou Enter para aceitar a opo. Digitalize de dez em dez pginas para minimizar as chances de ter de renomear muitos arquivos, caso tenha pulado o escaneamento de uma pgina. Depois de escanear dez pginas, clique em Concludo e pressione novamente o boto de escanear, dando um novo nmero de pgina ao nome de imagem. Neste modo de escanear, as imagens ficaro com nomes como 198+0001.tif, 198+0002.tif... 208+0001.tif etc. Dessa forma, voc ir conferir se a imagem corresponde pgina correta somando o primeiro nmero com o segundo nmero do nome do arquivo.
42
43
Escolha Batch rename. Procure a pasta de imagens. Clique em Add all para adicionar todas ou selecione a primeira que interessa, segure a tecla SHIFT, clique na ltima que interessa, e escolha Add. Se necessrio, ordene os arquivos em Move up ou Move down. Clique em Use current directory para copiar as imagens renomeadas para a mesma pasta dos arquivos originais. Pelo boto Options, escolha como sero renumerados os arquivos de imagens. Em Name pattern, coloque o novo nome dos arquivos e ### para usar trs dgitos. Em Start counter, coloque o nmero da primeira pgina. Em Increment, coloque 1 para trabalhos com pgina nica por imagem, ou 2 para livros pequenos, escaneados de duas em duas pginas. O exemplo da ilustrao acima para a renumerao do miolo de um livro de duas pginas por imagem, com o primeiro captulo comeando na pgina 11.
44
3.3 Vantagens
a forma mais rpida de escanear. As imagens ficaro todas do mesmo tamanho. H necessidade de pouca limpeza das pginas digitalizadas, porque se corta as bordas onde ficariam sombras.
3.4 Desvantagens
Voc deve cuidar pessoalmente da numerao das imagens. Voc deve cuidar do bom posicionamento do livro sobre o vidro, pois estar digitalizando no escuro. Exige software antigo da HP, que pode ser incompatvel com novas verses do Windows ou pode ser difcil de obter, se voc perdeu o CD original.
3.5 Finalizao
Depois de terminada esta parte do trabalho, faa um backup de todas as imagens ainda sujas, comprimindo-as num ZIP. No captulo 4, Limpe as imagens, pgina 45, aprenda a limpar as sombras que podem ter ficado nas imagens.
45
4 Limpe as imagens
As imagens de livros escaneados apresentam sombras e margens pretas que devem ser limpas. Elas deixam o documento feio e gastam muita tinta se o trabalho for impresso.
Para apagar estas sombras, use o IrfanView. Configure o programa teclando P (para ver as Propriedades) e escolha Browsing/editing > Cut, Choose, cor branca para o fundo dos cortes. Isto deve ser feito apenas uma vez. A configurao fica gravada.
46
Carregue o primeiro arquivo e confira se o nmero da imagem corresponde ao nmero da pgina. Se no conferir, apague o arquivo de imagem e reescaneie a pgina correta.
47
Use a tecla R para girar a imagem 90 para a direita (Right). Verifique se o texto da imagem est sem defeitos. Qualquer escorregada durante o escaneamento vai prejudicar o posterior processamento por OCR. Se houver defeitos, apague-a e escaneie novamente a pgina com o nmero correto.
48
Marque a mancha preta entre as pginas abrindo um retngulo de alto a baixo, no sentido da seta vermelha. Depois, use CTRL+X para limpar a rea.
49
Repita a operao na margem de baixo, conforme o sentido da seta. Use CTRL+X para limpar a rea marcada.
50
51
Repita a operao na margem superior: marque a rea observe o incio da marcao e o sentido da seta e limpe com CTRL+X.
Utrapasse os limites da imagem. Pode deixar pequena rea com sujeira no incio da marcao.
52
E finalize com a margem direita. Selecione a rea observe o incio da marcao e o sentido da seta e limpe com CTRL+X.
53
Grave com CTRL+S. Se esquecer de gravar, voc vai perder o trabalho da pgina. O IrfanView vai usar as ltimas configuraes de gravao (escolha TIFF CCITT 4) e perguntar se voc quer gravar por cima da imagem existente.
54
Tecle S para dizer que sim, porque voc j fez backup das imagens originais.
Clique na seta Next file in directory ou tecle a barra de espao para ir prxima imagem na pasta de imagens escaneadas. Repita as operaes de limpeza at terminar as imagens do livro. Voc pode gravar rapidamente e ir para a prxima imagem com a sequncia: CTRL+S, ENTER, S, ESPAO. Se todas as imagens estiverem com boa qualidade e numeradas na sequncia correta, crie uma pasta comprimida com o boto da direita na janela de arquivos, menu Novo > pasta compactada (zipada). Depois, copie todas as imagens para esta pasta e renomeie-a trocando a terminao ZIP por CBZ.
55
Com isto, voc cria um Comic Book, um formato simples desenvolvido por piratas de gibis. apenas um arquivo ZIP ou RAR com as imagens guardadas em sequncia numerada. O formato CBR (comprimido com RAR) ou CBZ (comprimido com ZIP) pode ser lido com leitores de CBR, como o Comical (http://comical.sourceforge.net/ ). Conhea mais comic book readers em Five Best Desktop Comic Book Readers <http://lifehacker.com/5858906/five-best-desktopcomic-book-readers> O formato CBZ bem til e simples de ser criado, mas no permite a cpia de texto. Para isto, precisamos passar as imagens por um reconhecedor ptico de caracteres (OCR). Veja como se faz isto no captulo 5, Crie, por OCR, PDF copivel, pgina 57.
57
para o desktop. Este programa independente. Voc pode copiar toda esta pasta para outro computador.
58
Ao rodar, o programa DPE avisa que apenas para fins de debug. Ignore e clique em OK.
Na primeira vez que roda, o DPE executa um assistente (wizard) que pode ser seguido por comodidade. Ele primeiro pergunta se para rodar o wizard no incio. Deixe ligado se voc quiser manter a comodidade, ou desligue se quiser fazer o OCR manualmente.
59
A seguir, o DPE pergunta se voc quer imagens do escaner ou j escaneadas. Esta verso OEM do DPE no permite que se obtenha imagens diretamente do escaner, o que no nenhuma desvantagem, j que as imagens de escaner precisam sempre de uma limpeza. Escolha Image file.
O DPE tambm vai perguntar se voc quer que ele detecte a orientao das pginas (se esto viradas 90 graus ou normais). Como voc j virou as pginas, deixe desligada esta opo. A opo Page Deskewing, define se voc quer que ele alinhe perfeitamente, na horizontal, pginas ligeiramente giradas. O DPE faz um servio muito bom neste ajuste. Deixe ligado.
60
Depois, o DPE pedir para voc escolher a lngua do texto a ser reconhecido. Ele deve usar o default do sistema operacional. Mude se tiver texto em outras lnguas.
61
A seguir, o DPE pede o formato a ser gerado. No nosso caso, queremos PDF com a imagem e com o texto por baixo da imagem. um recurso do formato PDF que permite que se tenha uma imagem por cima de um texto pesquisvel e copivel. Clicando no boto Change, voc configura o formato de sada, conforme o dilogo abaixo. Existem dezenas de formatos de sada diferentes, como RTF para LibreOffice, mas queremos guardar em PDF pesquisvel (Adobe Acrobat/Reader - Image-text) por ser mais verstil e preservar a imagem original.
62
63
64
O DPE pede para voc escolher os arquivos a serem oceerrizados. Clique no primeiro arquivo, segure a tecla SHIFT e clique no ltimo arquivo, para selecionar todos. Ao clicar em Abrir, o DPE importa e j faz o OCR em todas as pginas automaticamente.
65
Depois de alguns segundos ou minutos (o trabalho relativamente rpido), o DPE apresenta o dilogo de salvar o PDF. Mude o nome do arquivo para algo bem descritivo, como autor e nome do livro. Mas, antes de salvar, defina algumas metainformaes necessrias para indexao do documento. Clique em Properties....
66
Escreva: O ttulo O autor O assunto As palavras chave O programa criador A pessoa que produziu o PDF. A instituio Etc Clique OK e grave o documento. Pronto, voc tem um belo PDF com texto pesquisvel e copivel. PDF um formato muito usado, bem documentado, compatvel com todos os sistemas operacionais e dispositivos, e com futuro garantido. O fato de ter texto copivel permitir que pesquisadores copiem citaes, poupando tempo e aumentando a produtividade. No entanto, o texto copivel no se presta ainda para ser usado por cegos que usam leitores de texto. Para isto, vamos ver no prximo captulo como extrair e formatar texto plano com o DPE.
67
68
69
71
7 Revise o texto
Depois de criado o texto em formato RTF, ele deve ser revisado e corrigido. O OCR no perfeito. Sempre existem palavras no reconhecidas ou reconhecidas erradamente. Se o livro tiver alguma diagramao especial, e o texto ficar muito embaralhado (empastelado), considere fazer o OCR mo, sem usar o wizard, indicando a sequncia correta dos blocos de texto. Abra o texto RTF pelo LibreOffice e grave como ODT, para preservar o arquivo bruto original. Primeiro, formate estilo de texto Padro (F11) conforme suas preferncias adicione espao abaixo dos pargrafos, por exemplo e aplique a todo o texto. Depois, utilize os recursos de correo ortogrfica do editor para corrigir todo o texto. Mas h erros que o corretor no pega. Entre os casos mais comuns que voc deve prestar ateno esto estes: Certas letras no so diferenciadas como maisculas e minsculas. S=s, C=c, O=o, por exemplo. O nmero 1 geralmente confundido com a letra l minscula, e vice-versa. A letra o confundida com o nmero zero, e vice-versa. Barras / so reconhecidas como l. Vrgulas so confundidas com pontos, e vice-versa.
72
As notas de rodap devem ser reinseridas ou inseridas no ponto exato do texto de forma a ficarem adequadas a cegos, no caso de texto no formato TXT. Como os nmeros ndices de notas de rodap so muito pequenos, em geral no so reconhecidos. Voc deve olhar o texto original para achar o ponto exato de insero. Os nmeros de pgina e rodaps ou cabealhos, se forem capturados (o que bom para voc localizar o texto no original), devem ser eliminados na verso corrigida do documento. Depois de revisado, o documento ODT pode ser gravado como TXT, para uso de cegos.
73
Total de pginas
200 200 200 200 200
Observe que, no caso de livros, so digitalizadas duas pginas ao mesmo tempo, em geral. Pela tabela, verifica-se que um livro de 200 pginas pode ser completamente digitalizado em um escaner HP Scanjet 2400C em seis horas de trabalho. Este manual, em sua distribuio hbrida PDF/ODT, contem embutida a verso do documento em formato ODT do LibreOffice este recurso no existe no pacote MS Office. Abra o PDF com o LibreOffice e, nas clulas salientadas acima, mude o nmero de pginas e seu tempo de produo em cada etapa, para calcular tempo total de produo.
75
76
Instale primeiro o executvel Tesseract (tesseract-ocr-setup-3.011.exe). Durante a instalao, escolha as lnguas que sero reconhecidas. Em geral, no Brasil, para uso acadmico, recomendvel se instalar alemo, francs, italiano, espanhol e portugus, alm do default ingls.
Depois, instale o gImageReader (gimagereader_0.9-1_win32.exe). Opcionalmente, instale corretores ortogrficos no gImageReader. Copie os arquivos *.AFF e *.DIC de correo do LibreOffice, que esto na pasta c:\Arquivos de programas\LibreOffice 3.5\share\extensions\dict-br\ (e pastas \dict-fr, \dict-it, \dict-de, \dict-es etc.), para a pasta c:\Arquivos de programas\gimagereader\share\myspell\dicts\.
77
Mas estes arquivos apenas ajudam a correo ortogrfica dentro do prprio gImageReader. Se voc fizer a correo dentro do LibreOffice, no so necessrios.
O escaneamento demorado: o gImageReader escaneia todo o vidro em cores. Ser mais produtivo escanear todo o material em tons de
78
cinza ou preto & branco no IrfanView e carregar as imagens pelo boto Open. Um bug do gImageReader no permite que se abram imagens cujos nomes de arquivos ou nome de qualquer pasta no caminho tipo \Minhas digitalizaes tenham acentos ou cedilhas. Escolhida a imagem, gire a pgina clicando no boto com a seta verde, se necessrio. Depois, escolha a linguagem, marque a rea a ser oceerrizada e clique no boto Recognize all (reconhea tudo).
79
O reconhecimento feito em uma rea por vez. Em pginas duplas de livros ou se o texto estiver em colunas, cada coluna deve ser reconhecida separadamente. Nos botes acima do terceiro painel, voc tem opo de: adicionar novo texto ao final de todo o texto j reconhecido; adicionar novo texto no ponto do cursor; ou substituir o trecho selecionado.
Neste painel, voc far a correo de texto. H algumas facilidades para isto: Se os corretores ortogrficos estiverem instalados, as palavras erradas aparecero marcadas. H um boto muito til para eliminao de quebras de pargrafos ao final de cada linha, para se reconstruir os pargrafos originais do texto. Uma opo deste boto permite que se mantenha a quebra de pargrafo depois de pontuaes (., !, ? e aspas).
80
Voc pode fazer procura e troca em todo o texto reconhecido. bom para trocar hfen+espao por nada depois de se reconstruir os pargrafos, em caso de texto hifenizado. Prossiga escaneando e reconhecendo at o final do livro. Terminado o trabalho, conserte o texto e salve como TXT. Em geral, melhor fazer este trabalho num editor de texto com mais recursos, como o LibreOffice. Se o reconhecimento for muito defeituoso, voc pode tentar modificar o brilho, o contraste, aumentar resoluo da imagem e refazer o reconhecimento. Ligue a barra de ajustes no cone indicado abaixo:
Alm de imagens escaneadas, com o gImageReader tambm possvel se fazer OCR em arquivos PDF.
81
Ad hoc uma expresso latina cuja traduo literal "para isto" ou "para esta finalidade" <http://pt.wikipedia.org/wiki/Ad_hoc >. No contexto deste manual, sinnimo de quebra-galho momentneo.
82
O Google Docs far o reconhecimento ptico de carcteres e criar um documento com a imagem e com o texto reconhecido abaixo. O resultado excelente! No exemplo abaixo, foi reconhecido o texto em colunas duas pginas de livro lado a lado e houve apenas dois ou trs erros: D0 em vez de Do, veZ em vez de vez... At a nota de rodap ficou perfeita.
83