Ocrrrrrrrrrrrrrrr

Este tutorial fu realizado para a BJA Biblioteca Jurdica Argentina, grupo dedicado a la digitalizacin de bibliografa Jurdica y de Ciencias Sociales.
http://bibliojuridica.my-webs.org El futuro del libro es electrnico. Y ya lleg. La masiva digitalizacin, almacenamiento y distribucin de libros en la red de redes es un hecho. Existen muchos sitios de libros electrnicos entre los que recomiendo:
Error! Referencia de hipervnculo no vlida.

Estos sitios son una referencia, existen miles de sitios, y todos los das aparecen nuevos. El punto es ... como aparecen los libros digitalizados ?. La respuesta es muy simple, la mayora son las ediciones digitales de los libros de papel distribuidas por las mismas editoras en formato electrnico, y por otra parte se encuentran los libros que son digitalizados \"manualmente\" por entusiastas de la digitalizacin. La digitalizacin manual si bien no es compleja, tiene sus trucos. Existen 2 tipos de digitalizacin manual, el OCR TEXTO y el OCR IMAGEN.
OCR TEXTO Este es un mtodo prehistrico, que se implement cuando se comenzaron a aparecer los scanners de puerto paralelo y bajo Win98, cuando el ancho de banda tambin era una gran limitacin. El mtodo implica los siguientes pasos: 1) Escanear el libro completamente. 2) Realizar el OCR. 3) Corregir a mano el resultado del OCR. 4) Convertir el resultado en archivo DOC, RTF, TXT, LIT o PDF. A FAVOR 1) Los libros ocupan pocos Kbs. EN CONTRA 1) El OCR no es 100% confiable, como el resultado de la edicin manual. 2) Demora muchsimo tiempo la correccin manual que implicar leer todo el libro para corregir errores. 3) No coincide la numeracin de pginas entre el libro original y el libro digital. Este mtodo es el utilizado por casi todos los grupos de digitalizacin, del IRC o YAHOO.
OCR IMAGEN Esta forma de digitalizacin, surge de un grupo dedicado a la digitalizacin de libros de derecho llamado Neopanopticum que luego se llam El_panoptico y que hoy se llama BJA - Biblioteca Jurdica Argentina. El problema para el grupo era que la correccin manual del OCR implicaba que se demoraba hasta 3 meses para tener listo un libro. Principalmente porque las notas al pi de pgina deban ser casi en todos los casos escritas desde cero. Esto es una norma para casi todos los libros cientficos en los que las citas al pi son varias y extensas. Ademas los profesionales debemos citar las fuentes, lo que obliga a indicar adems de la obra la pgina donde se encuentra el texto o referencia. La digitalizacin de OCR TEXTO no mantiene excatamente la correlacin de las pginas con las del libro original. En razon de este problema se cambi completamente el sistema de digitalizacin, optndose por este proceso: 1) Escanear el libro completamente. 2) Recortar las imgenes de cada pgina eliminando margenes intiles. 3) Realizar el OCR. 4) Convertir el resultado en PDF. A FAVOR 1) Los libros son una copia exacta del original. 2) No existe ningn tipo de error. 3) Los PDF permiten buscar rpidamente una palabra dentro del libro. EN CONTRA No tiene ninguna contra, pero podra decirse que los libros en OCR IMAGEN ocupan un poco ms que los de OCR TEXTO, pero eso hoy no es un inconveniente con el ancho de banda disponible.
OCR TEXTO PASO A PASO - Fuente: http://www.katarsis-net.com.ar Herramientas necesarias: * Scanner * Software OCR para reconocimiento de textos (esta gua est basada especficamente en el programa Abbyy Fine Reader versin 7 multilenguaje (en adelante FR) por su versatilidad para procesar y reconocer textos escaneados, aunque puedes utilizar cualquier otro -incluso el que ha venido seguramente con tu escnersalvando las diferencias entre uno y otro) * Procesador de textos Word 2000 1. Escaneando El primer paso es acceder a la interfase del scanner desde dentro del FR para luego comenzar a escanear las pginas a 300 dpi en modo solo texto (evitando los modos de escala de grises, RGB color, y cualquier filtro de destramado) con un rango tonal tirando a claro para evitar sombras e imperfecciones. Los 300 dpi son
para obtener un tamao de letra considerable, de modo que sea fcil de reconocer para el OCR. Lo ms recomendable es escanear todo el libro de un tirn, digitalizando varias imgenes consecutivas (Ctrol+Shift+K). FR comenzar a escanear una imagen detrs de otra -sin preview- haciendo el proceso mucho ms rpido que escaneando las pginas una por una manualmente. Pero antes de realizar ese paso, sera conveniente verificar algunas opciones del programa. A medida que se escanean las diferentes pginas, es imprescindible verificar que la imagen salga con buen contraste entre las letras y el fondo, y con la menor cantidad de imperfecciones posible. Para corregirlos en caso que sea necesario, te puedes valer de la interfaz de escaneo que trae incorporada el FR en lugar de la de tu escner. Para ello, accede a las Opciones del programa pulsando Ctrol+Shift+O y en la solapa de Digitalizar imagen marca la opcin Usar Interfaz de FR, y luego pulsa el botn de Configuracin del escner para hacer los ajustes necesarios, sobre todo el de Brillo (nivel de umbral). Si tu escaner es muy rpido, puedes dejar marcada la opcin de Pausa entre pginas y especificarle el tiempo que creas adecuado, de manera de tener el tiempo suficiente como para sacar el libro del escaner, pasar de pgina y volver a introducirlo entre escaneo y escaneo. En la solapa de Digitalizar tambin asegrate de marcar las casillas de Convertir imgenes en color o escala de grises a blanco y negro y Limpiar imagen. Haz las pruebas que creas convenientes hasta obtener un buen resultado de imagen y mantener el ritmo adecuado de escaneo. Si el tamao del libro lo permite, escanea de dos pginas a la vez en sentido horizontal a la cama del escner. FR tiene la opcin de escanear mltiples pginas, enumerando automticamente las imgenes. Para lograr esto, accede a las Opciones del programa, y en la solapa Digitalizar imagen marca la casilla de Separar pginas dobles. Marca tambin la opcin de Detectar orientacin de imagen, asegurndote de poner la pgina de numeracin inferior en el ngulo de inicio de escaneo (generalmente es la esquina superior izquierda de la cama del escner), con el fin de que FR ordene la numeracin de las imgenes adecuadamente.
Nota: si el FR encuentra dificultades para reconocer la orientacin de las pginas o tu mquina se vuelve muy lenta con esta opcin activada, se recomienda hacer lo siguiente luego de escanearlas a todas: utiliza la herramienta de Lote (proceso mltiple de imgenes) para darles un sentido horizontal a todas las imgenes automticamente. Luego creas otro Lote con la opcin de Separar pginas dobles para que FR separe todas las imgenes en pginas individuales con un solo click. 2. Controlando la paginacin A medida que se van escaneando las pginas, el FR va mostrando miniaturas (thumbnails) de las pginas escaneadas en la ventana izquierda, asignndole un nmero que le ha correspondido al pie de la misma. Al
finalizar el escaneo, asegrate de hacer coincidir el nmero de la primera pgina con el nmero de esa pgina en el libro; luego puedes hacer que el programa reenumere las dems pginas. Por ltimo, verifica que cada pgina se corresponda con el nmero de la miniatura correspondiente. Es indispensable controlar de que no te hayas salteado ninguna pgina (o que alguna la hayas escaneado, por distraccin, dos veces), como as tambin su correcto orden. 3. Definiendo los bloques del texto a reconocer Antes de indicarle al programa que reconozca el texto, hay que definir en cada pgina las reas o bloques de texto que se deseen reconocer (en caso contrario, el programa no las procesar). Esto puede hacerse manualmente pgina por pgina (men Procesar > Analizar distribucin; Ctrol+E), o automticamente y para todas las pginas (Ctrol+Shift+E). En el caso del anlisis automtico, una vez que FR ha definido las reas de reconocimiento se recomienda: * eliminar del mismo los nmeros de pgina, los cabezales y pies de pgina. * corregir aquellos errores que FR hubiera interpretado como dibujos o textos. * corregir los bloques de texto que FR hubiera podido saltearse. * verificar el orden de los bloques de texto a reconocer. Para ello, puedes valerte de la barra de herramientas lateral en la ventana de Imagen para agregar/corregir/eliminar bloques de texto e imagen. 4. Reconociendo el texto Para esta altura ya se le puede dar la orden al programa de reconocer (leer) todas las imgenes (Ctrol+Shift+R). Opcionalmente, se pueden reconocer pginas individuales (Ctrol+R) o un bloque de texto en particular (Ctrol+Shift+B). El proceso de cmo funciona es el siguiente: FR reconoce letra a letra segn su contorno y cuando se encuentra con un espacio en blanco, determina el final de una palabra. Esa palabra luego es chequeada contra su diccionario; si encuentra un error la reemplaza por la que figura en el diccionario y seala el cambio con un marcador celeste; si la palabra no figura en su diccionario la escribe segn el reconocimiento y la seala con el marcador. Una vez que FR termin de reconocer todo el texto, es necesario recorrer pgina por pgina revisando las marcas celestes. Puede que una palabra marcada con este color est bien escrita, en ese caso no es necesario hacer nada. Caso contrario, puedes verificar el error viendo la ampliacin de imagen que aparece en la ventana superior y corregirlo. Esta etapa es muy importante ya que el FR puede detectar errores que el Word no puede reconocer.
Vista general del Fine Reader: 1. Ventana de miniaturas (thumbnails); 2. Ventana de ampliacin de imagen; 3. Imagen completa y definicin de bloques de texto e imgenes dentro del documento 4. Texto reconocido Para realizar la tarea de correccin, conviene ampliar la ventana de la imagen ampliada y el texto reconocido y trabajar con ellas. Para modificar el factor de ampliacin, haz click derecho sobre esta ventana y luego seteas la escala. 5. Guardando el texto reconocido FR tiene varias opciones para guardar el texto. Lo ms conveniente es guardarlo en .rtf, o documento de word. 6. Afinando el texto en Word
Dilogo de Bsqueda avanzada en Word: 1. Botn para acceder a las opciones avanzadas de bsqueda; 2. Pulsando el botn Especial, podrs introducir entidades especiales para su bsqueda. Para la correccin de ciertos errores puedes utilizar la herramienta de bsqueda de Word (Men Editar >
Buscar), con el fin de detectarlos automticamente. En la ventana de dilogo de bsqueda, asegrate de que se muestren las opciones avanzadas pulsando el botn Ms. En Especial, encontrars una serie de opciones que usars para corregir algunos errores comunes de reconocimiento de texto. Prrafos interrumpidos Debido a que el libro tiene dimensiones diferentes a la de un documento en pantalla y usa diferentes tipografas y tamaos, el texto reconocido y cargado en Word se presentar con prrafos interrumpidos. Para detectarlos rpidamente puedes realizar una bsqueda avanzada. Presiona Ctrol+B para abrir el cuadro de Bsqueda, habilita las opciones avanzadas y pulsando Especial seleccionas el item de [cualquier letra] y luego el de [marca de prrafo]. En la lnea del buscador, aparecer lo siguiente: ^$^p Luego de eso, inicias la bsqueda. (explicacin: ^p indica el salto de prrafo; ^$ cualquier letra. Una vez ubicado el caso a corregir hay que detenerse y corregirlo manualmente.) Tambin deben buscarse las lneas truncas luego de una coma, punto y coma, y dos puntos, ingresando: ,^p ;^p :^p respectivamente. Saltos de pgina con corte de palabra. Los saltos de pgina con corte de palabra se pueden corregir automticamente buscando la secuencia guin + marca de salto de prrafo (-^p) y reemplazndola por nada. Esto suprimir todos los guiones y los salto de prrafo dejando las palabras nuevamente unidas. Diferenciar y jerarquizar los ttulos y subttulos para diferenciarlos del resto del texto La nica manera de chequear esto es recorrer el texto entero. Lo ms conveniente es asignarle un estilo a los ttulos y otro a los subttulos, definiendo un estilo diferente (por tipografa y tamao) al del texto general y al de cualquier otro estilo usado. Correccin de errores que a veces no son detectados por el corrector automtico En el OCR hay errores comunes que suelen aparecer frecuentemente. Estos son: * Confusin del nexo coordinante y por v : la solucin es Buscar y reemplazar todos los (espacio)v(espacio) por (espacio)y(espacio), ya que en la sintaxis castellana, la v corta no va suelta en ningn caso. * Reemplazo de letras por dgitos, y comprobacin de dgitos en el documento: la solucin es realizar una bsqueda avanzada seleccionando [cualquier nmero]. Conviene hacer esta comprobacin porque sucede a menudo que el texto original tiene defectos que hacen que el OCR confunda por ejemplo l con 61 o la letra l con 1 , etc. 7. Uso del corrector ortogrfico en Word
Dirgete al men Herramientas > Opciones, y en la solapa de Ortografa y gramtica, setea la opcin de Estilo de escritura a Verificacin exhaustiva. Luego inicia la correccin interactiva en Word de todo el documento pulsando F7. Tambin asegrate, habiendo previamente seleccionado todo el texto (Ctrol + E), de definir el idioma a espaol desde el men Herramientas > Idioma. Un problema frecuente es que Word muestre los nombres propios como errores, ya que por lo general no se encuentran en su diccionario. Para evitar esto, al llegar a un nombre propio, indicale la opcin de Omitir todos de manera que no vuelva a preguntar por lo mismo. Aplcalo tambin con palabras raras o propias del texto. 8. Correccin por lectura An en la actualidad, los programas no tienen la inteligencia suficiente como para comprender un texto; simplemente se rigen por sus diccionarios. Puede que exista un error pero al detectar que una determinada combinacin de letras corresponde a una palabra que figura en su diccionario, sencillamente la interpretar como correcta. Si el error est en el original impreso en papel (porque sucede que an en estos casos haya errores de tipeado, prrafos cortados y hasta incluso omisin de pginas), entonces la mquina no podr ayudarnos. En este sentido es importante hacer una correccin a conciencia, a pesar de que ello implique tiempo y dedicacin extra. Por eso es conveniente trabajar con libros ya ledos y que sepamos que no tengan grandes errores en su impresin, por lo que tranquilamente se podr saltear este paso. Notas finales Una vez que tienes listo el texto, guardalo preferentemente en formato .rtf. La ventaja de este tipo de archivos es que conservan el formato del documento original, pudindose abrir en prcticamente cualquier procesador de textos, independientemente de su versin e incluso en mltiples plataformas (PC/Mac). Tambin puedes convertirlo a formato .pdf para su publicacin, si es que tienes las herramientas necesarias y ests seguro de que el texto no contiene errores, ya que una vez publicado, este formato no admite modificaciones. Un ltimo consejo: lo mejor es organizarse con otras personas que tengan fines comunes y que cada una se ocupe de una tarea especfica. Es decir, que alguien se puede ocupar del escaneo y OCR, mientras que al finalizar algun otro puede hacerse cargo de la etapa de correccin, otro del trabajo en Word, revisin, etc. OCR IMAGEN PASO A PASO Para digitalizar un libro hacen falta el software Abby Fine reader 7 y paciencia. Nosotros establecimos un estandart a 300 dpi en blanco y negro. Con eso escaneamos todo el libros salvo las tapas que las escaneamos a color. Lo primero que haremos es crear un nuevo batch (lote en castellano), para que todo tu trabajo quede en una sola carpeta y no se te vayas a confundir con otras imgenes que puedas tener.
Guarda el batch, esto es muy importante para que no vayas a perder ningn archivo en el proceso. Si por alguna razn debes parar tu trabajo y seguir ms tarde u otro da, despus slo ser cosa de que abras este batch con el FR y recomenzar donde quedaste.
Ahora viene el momento de comenzar el scan. Lo primero que tienes que hacer es sealarle algunos parmetros a FR para que salga bien tu trabajo y sea ms fcil.
Selecciona Split dual pages, asi el programa dividir automticamente las pginas de los libros cuando estos los escanees de a dos pginas a la vez. Ojo: si el libro es muy grande y slo puedes escanear pgina a pgina no es necesario que selecciones esta opcin. Tambin selecciona Detect orientation (durant recognition), para que el FR enderece aquellas pginas que han quedado en una posicin distinta a la del libro al hacer el scan.
Guarda las opciones y comienza el scan. En este caso, la mejor opcin de trabajo es seleccionar en el cono que te aparece arriba scan multiple images, asi el programa comenzar automticamente a escanear todas las pginas que sea necesario, y slo se cerrar una vez que t manualmente se lo indiques cuando ya est todo el libro en formato de imgenes.
Las opciones de scan van a variar de acuerdo a las especificaciones de tu scanner. Aqu nosotros recomendamos usar el controlador propio de cada aparato. Si no sabes usarlo recurre a los manuales que deben haber venido con tu scanner. El scan debe realizarse: en blanco y negro, resolucin de 300 dpi, cuidando de que las imgenes no salgan ni muy claras (porque se pueden perder contenidos) ni muy oscuro (porque pueden aparecer muchas manchas)
VEAMOS COMO TRABAJAR CON EL LIBRO SOBRE EL SCANNER Primero ver si el libro se puede escanear a pgina doble sin que sobresalgan mrgenes. El libro debe encuadrarse prefectamente dentro del campo del scanner:
Veamos el margen Izquierdo:
Veamos el margen Derecho:
Veamos ahora como se debe trabajar con el lomo del libro. MUY MAL: queda muy abierto y genera una franja negra que puede superponer texto entre las dos pginas.
PERFECTO: No se deja espacio abierto y la digitalizacin es perfecta.
El libro siempre debe encuadrarse entre el angulo recto izquierdo del scanner. Tomndose la linea vertical izquierda y la base horizontal como referencias para encuadrar correctamente el libro en el scanner.
El lomo del libro tiene que estar siempre lo ms bajos posible, para evitar la franja negra que se produce por dejar espacio.
Los libros a escanearse a pgina simple. Son aquellos libros que no pueden escanearse a pgina doble por el formato propio del libro, ya que supera el formato A4, esto implica escanear hoja a hoja. Este proceso importa dubplicar el tiempo de escaneo, veamos la secuencia: Primero escaneamos una pgina:
hora rotamos el libro en el sentido de las agujas del reloj 360 y escaneamos la otra pgina:
Lo mejor es siempre sacarle la tapa al escanner o desarmarlo para trabajar con mayor comodidad. Una vez tengan todo el libro escaneado, guarden el lote por seguridad. CONSIDERACIONES PREVIAS A DIGITALIZAR
1) El tamao del libro. Resulta muy importante tener presente el tamao de la encuadernacin del libro a digitalizar, antes de iniciar el trabajo de digitalizacin se debe presentar el libro sobre el scanner para calcular si el mismo resulta apto para una rpida digitalizacin. La mayora de los escanners tienen una superficie de escaneo equivalente al tamao de hoja A4. Eso significa que presentando una hoja A4 sobre la superficie del libro abierto y vemos que superficie cubre el A4 sobre las dos hojas de libro. Lo ideal resultara que el libro abierto a doble pgina encaje perfectamente dentro del campo del scanner y de la hoja A4, sin que sobresalgan mrgenes laterales, inferiores o superiores. Lo ideal siempre resulta que se puedan escanear a pagina doble, pero en muchos casos no resulta posible ya que el tamao de las hojas del libro no lo permite, y el escaneo debe realizarse pgina a pgina. El standart para escanear libros a pgina doble es sobre un libro de 23 x 16 cm. si las dimensiones son mayores el libro debe escanearse pgina a pgina. 2) Que libro elegir para escanear primero ? Digitalizar un libro como todas las cosas implica un proceso de apredizaje, lo que nos lleva a sugerir que sus primeros libros digitales deben ser de pocas pginas, entre 100 y 300. Esto tiene su razn para familiarizarse con el escaner que utiliza y el tiempo que este demora entre pasada y pasada, y practicar constantemente la forma de encuadrar perfectamente el libro dentro de la superficie de escanner en el breve lapso de segundos que le toma al escanner hacer otra pasada para escanear. Sus primeras digitalizaciones tendran errores, hojas que no se ven bien por eso hay que practicar y practicar
hasta que Ud. pueda escanear un libro y al mismo tiempo leer otro en la pantalla, navegar por internet o ver un DVD, una vez que se familiarice con los libros y con su escanner, ver que no hay lmites para digitalizar, solamente el tiempo que desee invertir en ello. 3) Que es mejor un libro nuevo o uno viejo ? Lo mejor siempre es bibliografa actualizada, y de consulta constante. Hay textos clsicos indispensables y libros nuevos que casualmente no dicen nada nuevo. Cada profesional o estudiante conoce los autores de cita y las obras de referencia en su campo. Los libros nuevos suelen implicar un trabajo extra ya que para abrirlos bien a doble pgina sobre la superficie del escanner se debe aplicar un esfuerzo superior ya que su encuadernacin se encuentra virgen, sin aperturas, en cambio los libros ya usados y abiertos son muy fciles de exponer sobre el escanner. Existen editoriales con determinado tipo de encuadernacin que puede facilitar o complicar en ms o en menos la digitalizacin de un libro. 4) Porqu se deben evitar los libros subrayados ? Los libros con texto subrayado dificulta el reconocimiento de texto, y visualmente resulta molesto para leer. Si la obra vale la pena se debe recurrir a la goma de borrar y borrar los subrayados. Si el subrayado fu realizado con tinta, y el mismo permite la lectura y las hojas subrayadas no superan el 10% del total de hojas de la misma, se acepta, hasta que se consiga un obra sin subrayar o en mejor estado.
5) Cuanto tiempo toma escanear un libro ? Eso depende exclusivamente de la velocidad de su escaner y de la prctica. Su escanner puede ser muy rpido para sus manos y solo con la prctica se adquiere la velocidad para pasar las hojas y acomodar el libro sobre el escanner en forma correcta, la clave est en la prctica. Pero para hacer un clculo promedio un escanner demora entre cada pasada entre 12 y 20 segundos, demora el mismo tiempo ya sea una pgina simple o doble, ya que la pasada la realiza sobre toda la superficie expuesta del escanner. Existe una gra diferencia de velocidad entre los escanners que se conectan en puerto paralelo y los USB, la recomendacin es que se tenga instalado por sistema operativo Windows XP y un escanner USB con eso la velocidad aumenta considerablemente, utilizar Windows 98 o un escanner por puerto paralelo ralentiza todo el proceso. Una buena opcin es comprar un escanner HP 1410 que es muy rpida y econmica alrededor de los $ 200, una multifuncin que como impresora es un excelente escanner. No sirve como impresora pues consume
mucha tinta (que encima es costosa) pero el escanner no necesita de tinta
Tenemos entonces para empezar digamos en el peor de los casos 20 segundos por cada 2 pginas, eso hace 6 pginas por minuto, 60 pginas cada 10 minutos, y 360 por hora.
POR 12 SEGUNDOS: 002 pginas - 001 pasada ( 1 x 12) = 0012 segundos 010 pginas - 005 pasadas ( 5 x 12) = 0060 Segundos 050 pginas - 025 pasadas (25 x 12) = 0300 segundos 100 pginas - 050 pasadas (50 x 12) = 0600 segundos En una hora se digitalizan (3600/12) x 2 = 600 pginas
POR 16 SEGUNDOS: 002 pginas - 001 pasada ( 1 x 16) = 0016 segundos 010 pginas - 005 pasadas ( 5 x 16) = 0080 segundos 050 pginas - 025 pasadas (25 x 16) = 0400 segundos 100 pginas - 050 pasadas (50 x 16) = 0800 segundos En una hora se digitalizan (3600/16) x 2 = 450 pginas
POR 20 SEGUNDOS: 002 pginas - 001 pasada ( 1 x 20) = 0020 segundos 010 pginas - 005 pasadas ( 5 x 20) = 0100 segundos 050 pginas - 025 pasadas (25 x 20) = 0500 segundos 100 pginas - 050 pasadas (50 x 20) = 1000 segundos
En una hora se digitalizan (3600/20) x 2 = 360 pginas Esta tabla muestra claramente el tiempo que toma la digitalizacin de pginas y asimismo sirve de gua para calcular el tiempo \"optimo\" que puede tomar digitalizar un libro conforme la cantidad de pginas que tenga. Que en el peor de los casos se calcula que en una hora se pueden digitalizar 360 pginas. 9) Se debe escanear todo el libro ?. Si. Los libros se escanean desde su tapa a color hasta la ltima pgina, no importa que tenga pginas en blanco al principio o al final, la digitalizacin implica copias digitalies exactas del libro. Las copias deben ser exactas por el hecho que los libros son utilizados para realizar citas textuales, indicando en nmero de pgina, que de otra manera perderan su valor. 14) Cuales son las ventajas de la digitalizacin ? VELOCIDAD DE ACCESO Y CONSULTA: Acceso inmediato a la obra o articulo necesario, y consultar
tantos libros digitales al mismo tiempo como se necesite en la misma pantalla. COSTO CERO: La digitalizacin no implica un costo, salvo de tiempo no de dinero. AHORRO DE ESPACIO: Los libros digitales no ocupan espacio ni en el escritorio ni en la biblioteca. PRESERVACIN: Los libros digitales no se deterioran por el paso del tiempo, no se ponen amarillos con los aos, no son alergicos al agua, o la humedad y son inmunes a las ratas. Los libros digitales no necesitan mantenimiento ni reencuadernacin. EL Papel sufre un proceso natural de oxidacin por su exposicin al aire, lo que lo deteriora notablemente con el paso del tiempo. Que est esperando para digitalizar su primer libro ? Mis primeros libros digitalizados con el mtodo OCR IMAGEN
DESCARGAR - Felipe Pigna - Mitos de la Historia Argentina Tomos 1 y 2
ESCANEAR COMICS / Editando con Photoshop Fuente: http://lamansion-crg.net 01. captura ste es realmente el paso ms importante de todos. Para una pgina de tamao normal de comic, escanea la imagen a 300 dpi. Aunque la imagen luego se vaya a reducir el resultado es notablemente mejor de esta manera. Para cambiar el tamao de una imagen es necesario ir al men: image > image size. En resolution asegurarse de que el valor est en pixels/inch y cambiar donde pone 300 por 150. Al hacerlo es importante tambin comprobar que est activado resample image:bicubic, para que cambie el tamao en pixels y no slo en valores de impresin. Imagen escaneada a 150 dpi
Imagen escaneada a 300 dpi y reducida a 150 dpi
En el Canal Azul RGB se pueden apreciar mejor las diferencias
Mucha gente escoge el tamao del ancho del comic en base a la resolucin de su monitor para que coincidan, de manera que si tienen una resolucin de 1024x768 el tamao del ancho de la pgina del comic lo hacen de 1024. Esto es un error, ya que la resolucin del monitor es variable, y aunque 1024 es actualmente el ancho ms extendido, es mas que probable que no lo sea en el futuro, de la misma manera que antes la resolucin ms extendida era 800x600 (y sucesivamente...). De manera que lo ideal es escoger un tamao en el cual el comic se lea suficientemente bien sin perder detalles, sin un pixelado exagerado y sin que resulte un tamao de archivo final enorme. En general para un tamao de pgina normal entre 150 y 160 dpi suele ser suficiente. Es importante escanear con unos valores de brillo y contraste neutros, si el comic resulta claro u oscuro ya se utilizarn ms tarde herramientas para corregirlo, las herramientas de correccin de brillo y contraste automticas suelen dejar el comic demasiado contrastado y con detalles empastados. Otra razn de utilizar valores neutros es para que a la hora de corregir o mejorar la imagen se utilicen los mismos valores para todo
un comic en vez de hacerlo pgina por pgina, pero principalmente los niveles automticos o Autolevels quedan fatal especialmente en escaneos de papel normal. Una vez reducido el tamao se le puede aplicar un filtro que da muy buen resultado: el filtro unsharp Mask (Mscara de enfoque). Aplicado con los valores: cantidad: 50% y radio:1px 02.Giro y recorte El siguiente paso es girar la pgina. Normalmente es difcil escanear la pgina de manera que est completamente recta y realmente cuesta menos girarla en photoshop que procurar el escaneo perfecto. Para girar la pgina podemos seleccionar un rea o toda la pgina (ctrl+a) y luego girar la seleccin (ctrl+t) \"a ojo\". Un mtodo ms preciso es utilizar la herramienta Measure Tool (i). Seleccionamos la herramienta y pinchamos en una esquina del comic, mantenemos y arrastramos hasta otra esquina para indicar al programa la inclinacin que debe corregir: Al escoger la opcin de men: Image> rotate canvas > arbitrary... el valor que sale es exactamente el que necesitas para girar la pgina.
Tambin podemos utilizar la opcin de men rotate canvas sin aplicar el measure tool \"a ojo\" . Cuando llevamos unas cuantas decenas de comics es normal acertar con el ngulo aproximado. Lo siguiente ser recortar la imagen, para lo que utilizaremos la herramienta crop tool (c) y ya podemos guardar la pgina. Con la herramienta seleccionamos el rea y recortamos haciendo doble clic en el interior de rea seleccionada. Podemos tirar de los bordes para aumentar o disminuir el rea seleccionada. Con la herramienta Crop Tool podemos adems girar y recortar la imagen en un paso. Si acercamos el ratn a las esquinas nos aparecern unos tiradores con los que podremos girar la imagen, luego hacemos doble clic y la tenemos recortada y girada con un solo paso. 03. Correccin tonal. Photoshop ofrece una gran cantidad de herramientas destinadas al tratamiento de la imagen, conocindolas en profundidad y combinando unas y otras pueden dar unos resultados espectaculares, sumndolo a la capacidad de crear srcipts (acciones), que automatizan estas tareas hacen que el esfuerzo para conseguirlo sea mnimo,
unas pruebas en una pgina (o dos) creas una accin y la aplicas a todo un comic que previamente has escaneado. Muchas de las tcnicas son algo complejas y requieren muchos pasos, intentar ir de menos a ms. He ledo en tutoriales recomendar utilizar el automtico de Photoshop. Image > adjustments > Autolevels (ctrl+shift+l). En mi opinin es un error utilizar autolevels. No hay dos comics iguales y no se puede generalizar, pero normalmente usar autolevels tiene como consecuencia un resultado demasiado oscuro. En la mayora de los comics el color negro no llega al negro \"puro\", por lo que forzarlo supone un aumento del contraste, ruido etc. Un valioso consejo en este sentido es que siempre es mejor \"no llegar\" que \"pasarse\". Por no mencionar que alguna pgina que est planteada como especialmente clara u oscura aparecer con las tonalidades desvirtuadas. .
Antes de comprobar los niveles es muy importante asegurarse de que nuestro monitor est correctamente configurado. Una manera simple de saberlo es utilizando un par de imgenes de correccin de gamma. En la primera imagen tenemos que ver el cuadrado del centro de una tonalidad lo ms parecida posible al recuadro de fuera, en la segunda imagen debemos poder distinguir (aunque sea levemente) los cuadrados negros de los grises oscuros. stas imgenes y el programa de configuracin lo encontramos en el panel de control > adobe gamma siempre y cuando tengamos instalado Photoshop. Filtros de \"mejora\" Es importante dedicar unas palabras a los filtros desentramar (noise>despeckle) y desenfocar (Blur) en todas sus modalidades. Ya que las pginas editadas tienen una trama, es lgico acudir al filtro desentramar para que arregle ese pequeo problema, sin embargo despus de muchas pruebas y contrastar opiniones est muy claro el asunto, como dicen en algunos foros guiris \"Blur is evil\". Puede que en algunas ocasiones muy puntuales alguna de estas herramientas, especialmente smart blur puedan ser de ayuda, pero se deben utilizar con cuidado y a la menor duda desecharlos, adems de que consumen mucho procesador. Tambin es importante recalcar que no es muy buena idea aplicar el filtro para aumentar la saturacin, los filtros de niveles ya lo hacen de alguna manera, y es una manera fcil de perjudicar la pgina a la hora de guardar jpg, cuanto ms saturado est, mas informacin necesitar. Niveles Es aqu donde el programa echa el resto en capacidad de mejora de una imagen. Hay una regla principal: NADA DE AUTOLEVELS. El cuadro de dilogo niveles image > adjustments > levels (Ctrl+L) permite corregir la gama tonal y el equilibrio de color de una imagen ajustando la intensidad de las sombras, los medios tonos y las luces de una imagen, permite modificar la imagen en general (RGB), o cada canal de color por separado (Rojo, Verde, Azul). El histograma sirve como gua visual para ajustar la tonalidad.
En un comic de papel normal, la imagen aunque sea buena se puede mejorar aplicndole unos ajustes de niveles en un solo paso. Vamos a ver como trabajan los niveles sobre un ejemplo: Imagen Original
Modificada
En el canal RGB llevamos la flecha de la izquierda hacia la derecha (1) esto acerca los tonos oscuros al negro, no lo llega a alcanzar para no forzar los tonos. La flecha de en medio (2) la llevo ligeramente a la izquierda, esto aclara los tonos medios, que se han oscurecido en el paso (1). La flecha de la derecha (3) la llevo ligeramente a la izquierda, esto quita textura del papel, pero debe hacerse con cuidado, puedes quitar detalles del dibujo. Por ltimo en el canal Azul llevo la flecha de la derecha (4) hacia la izquierda para quitar un ligero tono amarillento tpico de ese papel. Vamos a ver un ejemplo de un comic antiguo amarilleado por el tiempo. El proceso sera el mismo, slo que habra que tratar un poco ms el canal azul Original
Modificando el canal azul y RGB
Modificado con autolevels
Vemos que el autolevels no ha eliminado por completo el tono amarillo y ha dejado la imagen oscura. 04.Acciones Una accin es una serie de comandos que puedes reproducir en un fichero o en varios. La mayora de comandos y herramientas se pueden grabar en acciones. De lo que se trata es de una vez capturada la pgina
podamos automatizar todas las tareas para que el trabajo de escaneo requiera el menor esfuerzo consiguiendo los mejores resultados. Lo primero de todo es planificar bien el trabajo con antelacin: escanear una pgina de ejemplo para comprobar la resolucin y si la imagen necesita mejorar la tonalidad, Los comic impresos en buenos papeles no suelen necesitar mucha correccin tonal. Un consejo para probar valores de correccin: puedes duplicar la capa (En la pestaa Layers pinchas en la capa y arrastras al botn create new layer.) aplicar valores y as comprobar fcilmente las diferencias haciendo clic en el ojo de la capa. Como mtodo personalmente prefiero escanear, corregir inclinacin, bajar resolucin, aplicar mascara de enfoque y guardar imgenes en formato TIFF, con las imgenes guardadas escojo los valores de correccin de niveles y curvas y aplico una accin a todo el directorio que corrige niveles y guarda JPG calidad 7-8 dependiendo del comic. Este mtodo permite comprobar todo el trabajo de una vez y corregirlo fcilmente sin tener que escanear de nuevo. Accin de ejemplo Para crear una accin capturamos una imagen, nos vamos a window>actions (F9) para que nos aparezca la pestaa de acciones le damos a la flechita (1) y a new set para crear una carpeta con las acciones que vamos a utilizar con el nombre comic.
Le damos al botn create new action (2) y automticamente se queda activado el botn de grabar, lo que hagamos a continuacin formar parte de la accin. Una vez rotada la imagen, le bajamos la resolucin, la recortamos con la herramienta crop, le aplicamos el filtro unsharp mask y la grabamos como Tiff. le damos al botn stop de la pestaa de acciones, para parar la grabacin, y a continuacin sealamos aquellos pasos de la accin (3) cuyos valores cambian con cada imagen, es decir: rotar, recortar y guardar, cuando la accin se reproduzca en una imagen, nos preguntar los valores, en el caso de crop nos aparecer el tamao de marco de la accin grabada, esto est muy bien, porque as todas las paginas de un comic tendrn el mismo tamao, si queremos, para guardar, nos preguntar el nombre del fichero. Si el comic no necesita correccin tonal, podemos guardar en jpg tal cual en este paso y no continuar, pero si al comic le viene bien un lavado de cara guardamos en tiff todo el comic, abrimos una pgina de ejemplo y le aplicamos las herramientas de correccin tonal grabndolas en una accin. Una vez hayamos creado todo un set de acciones y tengamos previamente guardado en una carpeta el comic en cuestin, nos vamos a File>automate>batch donde le decimos la accin que debe ejecutar en la carpeta seleccionada, la accin aplicar los ajustes en todo el directorio de imgenes grabndolas en el formato que hayamos escogido previamente en la accin. 05.Formatos de grabacin Entendiendo que vamos a grabar las imgenes para que se puedan ver con el Comic Display Reader hay tres formatos en los que se puede grabar una imagen: JPG, GIF y PNG. Para imgenes en color el JPG es el adecuado. El formato PNG y GIF son adecuados para imgenes en blanco y negro. Para escanear comics en blanco y negro es recomendable escanear en escala de grises, 256 bit de grises, nunca imagen en B/N de 1 bit de color. Corregimos niveles de la misma manera que lo hacemos como una imagen en color, procurando no contrastar mucho la imagen para que los bordes no se queden pixelados y para grabar podemos hacerlo de dos maneras: En Photoshop File > Save for Web escogemos el formato PNG-8 y guardamos la imagen. Para guardar en GIF convertimos la imagen de escala de grises a RBG y luego a indexado: image > mode > indexed color con los valores: palette: local (adaptive) colors: 16 forced: black and white, con tansparency desactivado y dither: diffusion, y guardamos en GIF, apenas hay diferencia de tamao entre GIF y PNG, lo
importante es no guardar una imagen sin color en JPG, porque ocupar mucho ms que en los otros dos formatos y no se ver mejor. Las imgenes que no contienen color, pero tienen muchas tonalidades distintas de grises es preferible grabarlas como JPG, ya que en esos casos el tamao del fichero GIF y PNG puede superar al JPG. Photoshop ofrece tres maneras de grabar el JPG: baseline (standard) baseline optimized y progressive. El progressive tiene un entrelazado que permite previsualizar la imagen antes de que termine de cargar, debe evitarse grabar en progressive por dos motivos: a) Hace el fichero de mayor tamao de lo que debera ser. cool.gif Es molesto ver la previsualizacin cuando te desplazas o cargas la imagen y tarda ms. 06.Otros procedimientos. Hay una serie de problemas comunes a los que nos enfrentamos los escaneadores, intentar aportar unas soluciones que te ofrece la aplicacin. A partir de ellas podremos afrontar nuevos problemas mucho mejor. Pginas dobles Para solucionar el problema de pginas dobles existen muchas soluciones y la ms adecuada depende de las caractersticas de la imagen en particular. La ms precisa probablemente sera utilizar una aplicacin de terceros de panoramas, pero para no liarnos con otras aplicaciones vamos a centrarnos en dos soluciones simples. Tenemos dos situaciones tpicas: a) Es un comic cuyos bordes estn perfectamente escaneados y el borde de la pgina coincide perfectamente con la otra. b) El borde no est bien escaneado por tratarse de un volumen grande o los bordes no coinciden bien. Para la situacin \"a\" pongamos que tienes las dos imgenes abiertas, seleccionas una (Ctrl+a) y la copias (Ctrl+c) vas a la otra imagen, maximizas la ventana, con la herramienta lupa (z) haces un zoom hacia atrs hasta que veas la imagen completa en pequeito (alt+click) y escoges la herramienta crop (c). Pinchas en uno de los tiradores hasta agrandar la imagen a ms del doble hacia el lado en el que quieres poner la segunda pgina. Pegas la pgina que tenas en el portapapeles (Ctrl+v) y con la herramienta move tool (v) vas ajustando. Con las flechas de direccin puedes mover pixel a pixel hasta que ajuste. Para la situacin \"b\" una solucin elegante es al ajustar dejar un espacio en blanco en medio para suavizar las diferencias. Bordes de pgina Cuando escaneamos volmenes es muy comn encontrar bordes oscurecidos porque se crea una distancia entre escner y pgina. Existe un procedimiento que corrige este error de manera eficaz, especialmente en una imagen en B/N, en una imagen de color es un poco ms complejo y con resultados mas dudosos, ya que adems de tonalidad la imagen pierde tambin color en los bordes. Voy a explicar el procedimiento slo para una pgina en B/N :
En primer lugar visualizamos la regla (Ctrl+R) pinchamos en uno de sus bordes verticales y arrastramos una gua hasta un poco ms all de donde acaba el gris no deseado. A continuacin visualizamos la pestaa de canales window > channels y creamos un canal nuevo dndole al botn create new channel. Nos aseguramos de que el color frontal es blanco y el color de fondo negro, en la barra de herramientas seleccionamos la herramienta gradient tool (G) y creamos un degradado desde el borde izquierdo hasta la lnea gua. Hacemos click en el canal RGB o Gray y seleccionamos el canal que acabamos de crear haciendo (Ctrl+click) en el canal o mediante el men selection>load selection.
Una vez que tenemos cargada la seleccin aplicamos niveles (Ctrl+L) arrastrando la flecha de la derecha hacia la izquierda hasta eliminar por completo el gris de fondo controlando tambin los tonos de la imagen para tratar de ajustar lo mejor posible el resultado.

Ocrrrrrrrrrrrrrrr

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ocrrrrrrrrrrrrrrr

Încărcat de

Drepturi de autor:

Formate disponibile

Este tutorial fu realizado para a BJA Biblioteca Jurdica Argentina, grupo dedicado a la digitalizacin de bibliografa Jurdica y de Ciencias Sociales.

Error! Referencia de hipervnculo no vlida.

Veamos el margen Izquierdo:

Veamos el margen Derecho:

PERFECTO: No se deja espacio abierto y la digitalizacin es perfecta.

mucha tinta (que encima es costosa) pero el escanner no necesita de tinta

DESCARGAR - Felipe Pigna - Mitos de la Historia Argentina Tomos 1 y 2

Imagen escaneada a 300 dpi y reducida a 150 dpi

En el Canal Azul RGB se pueden apreciar mejor las diferencias

Modificando el canal azul y RGB

Modificado con autolevels

S-ar putea să vă placă și