Sunteți pe pagina 1din 5

Deteccin y evaluacin de figuras manuscritas

Alberto Alejandro Fiel Martnez, Miguel Galante, Alberto Laudadio, Nicols Park, Gabriela Espern aigroup@palermo.edu
Resumen En el presente trabajo se exponen y describen diversas tcnicas empleadas para el procesamiento y la evaluacin de imgenes en el marco del Proyecto PROA que se lleva a cabo en el AIGroup1 de la Facultad de Ingeniera de la Universidad de Palermo. El objetivo del Proyecto PROA es disear un mecanismo de evaluacin implementado en un sistema automtico para la deteccin precoz de problemas en el aprendizaje. Dicho prototipo cuenta con un Sistema Experto que evala, con algortmicas inteligentes, si un nio de entre 3 y 6 aos tiene problemas potenciales de aprendizaje. A su vez, el Sistema Experto, tiene la capacidad de realizar sugerencias acerca de las reas en las cuales se podran presentar problemas. A tal fin se estn desarrollando distintos mdulos que forman parte del sistema: Procesamiento de Imgenes, Procesamiento de Sonido, Procesamiento Motor. Este trabajo se centra en descripcin del mdulo Procesamiento de Imgenes. Dicho mdulo evala y analiza figuras geomtricas dibujadas por nios de entre 3 y 6 aos en condiciones de test. Se presentan los resultados obtenidos mediante la aplicacin de algoritmos de clustering.

Resolucin: 50ppp (puntos por pulgada) Color: 256 bits en escala de grises. Profundidad: 8 bits Formato: PNG Con los parmetros arriba definidos se obtuvieron imgenes con dimensiones de 413x292 pixeles (Ancho x Alto), dando una cantidad de 120596 puntos por imagen. 3. PROCESAMIENTO DE IMGENES El anlisis al que se someten las imgenes consta de tres etapas: Pre-procesamiento: en esta instancia se busca eliminar toda la informacin no relevante de la imagen. Extraccin de datos caractersticos de la imagen Anlisis de las caractersticas extradas 3.1 PRE-PROCESAMIENTO En esta etapa se busca minimizar la cantidad de informacin irrelevante presente en la imagen como sombras producidas por el escaneo o manchas presentes en el dibujo as como preparar la imagen para el procesamiento posterior. Para ser procesada, una figura debe estar limpia, cerrada (Fig.1) y no ser un garabato (Fig. 4).

Keywords : Data Mining , Image processing 1. INTRODUCCIN A continuacin se presentan algunos de los procedimientos automticos implementados en el mdulo de Procesamiento de imgenes para la identificacin de figuras y generacin de informacin numrica para el mdulo de Anlisis de Datos. Cabe aclarar que los algoritmos matemticos fueron creados utilizando Matlab como herramienta de investigacin. Aqu se describe el procedimiento para la identificacin de figuras con vrtices (tringulos) e identificacin y anlisis de crculos dibujados por nios entre 3 y 6 aos bajo la consigna de copiar dichas figuras a partir de un modelo. 2. CAPTURA DE IMGENES Los dibujos son realizados por los nios en hojas A5 utilizando materiales estandarizados, con el fin de minimizar la influencia de factores externos a aquellos que se desea evaluar. Asimismo, las consignas son presentadas por las maestras, que son previamente capacitadas a los efectos de neutralizar alteraciones perturbadoras de las capturas. Para digitalizar los dibujos se utilizan scanners comunes, de los que se encuentran en el mercado. Luego de realizar numerosas pruebas con distintas configuraciones, se establecieron los siguientes valores como los ptimos respecto de la cantidad de informacin y tamao de archivo de la imagen escaneada.[1]

Fig. 1 Crculo abierto y luego cerrado Este proceso se realiza con un script Matlab que se detalla a continuacin: 1.- Se carga la imagen y se convierte a formato binario donde cada pxel estar representado por 1 o 0 2.- Se realiza la limpieza de la imagen contando la cantidad de pxeles negros tanto en imagen inicial como en la imagen final. La limpieza de la imagen se compone de los siguientes pasos: Eliminacin de parsitos: se eliminan conjuntos pequeos de pxeles. Obtencin de bordes para el conteo de pxeles mediante la funcin obtenerBordes. Conteo de la cantidad inicial de pxeles negros. Cierre de figuras abiertas mediante la unin de extremos no cerrados de las mismas. Eliminacin de lneas que no conforman figuras cerradas. Eliminacin de grupos de pxeles sueltos. Eliminacin de parsitos con menor tolerancia que en la primera aplicacin. Obtencin de bordes para el conteo de pxeles.

1 El AIGroup es un laboratorio de investigaciones de transferencia especializado en Inteligencia Computacional. Fue fundado en el ao 2005, como parte de la facultad de Ingeniera de la Universidad de Palermo.

Conteo de la cantidad final de pxeles negros. En la Fig. 2 se puede apreciar el algoritmo implementado. 3.- Se calcula y estandariza la diferencia de pxeles negros entre la imagen inicial y la procesada, de esta manera se busca detectar si el dibujo es un garabato compuesto por lneas que no conforman figuras. Una diferencia superior al 25% del valor inicial, indicara que en el proceso de limpieza se detect que gran parte de la imagen inicial estaba compuesta por trazos que no definiran una figura de las esperadas para la evaluacin. (Ver fig. 3)

Fig. 3. Clculo de distancia normalizada En la Fig. 5 se puede observar la imagen antes de ser ingresada al script; all se cuenta la cantidad de pxeles que la componen y, luego de realizada la limpieza y determinado el contorno exterior de la imagen (Fig. 6.) se realiza nuevamente el conteo de pxeles.

Fig. 4. Garabato

Fig. 5. Contorno del garabato La Fig. 6 muestra el valor de la diferencia de pxeles para dos figuras distintas. El clculo se realiza sobre la consideracin de que 0 significa que no hubo cambios en el proceso de limpieza y 1, que la imagen resultante es totalmente diferente.

Fig. 2. Limpieza de la imagen

Diferencia: 0.0044 Diferencia: 0.5021 Fig. 6. Diferencia entre la imagen original y la pre-procesada Este script da como resultado una imagen limpia y preparada para ser procesada por los distintos algoritmos de deteccin de figuras. 3.2 EXTRACCIN DE CARACTERSTICAS 3.2.1 EXTRACCIN CRCULOS DE CARACTERSTICAS DE

Para la deteccin de crculos, se aplica un script que automticamente rotula cada unas de las figuras identificadas en una imagen y extrae ciertas propiedades de las mismas. La fig. 7 muestra el algoritmo Matlab correspondiente.

original. Dichos puntos, adems se correspondern con los cambios de direccin de las lneas que componen la imagen. Para la deteccin se llevan a cabo los siguientes pasos: 3.2.3 REDUCCIN DE LA CANTIDAD DE PXELES A ANALIZAR Fig. 7. Rotulacin automtica Con los datos (Mayor longitud presente en un eje, Menor longitud presente en un eje, rea, permetro, centroide, excentricidad) que devuelve la funcin regionprops se procede a la comparacin entre el crculo dibujado y un circulo real que posea las mismas caractersticas.[2][3][4] En el proceso se emplean tres puntajes o scores que evalan las diferencias o similitudes entre ambos. Como se aprecia en la Fig. 8. El primer score corresponde a la comparacin de los dimetros ms corto y largo de la figura, en el caso del crculo perfecto, dicho score es igual a 1. Por lo tanto, cuanto ms cercano a 1 sea el valor calculado para la figura dibujada por el nio, ms caractersticas de crculo tendr la misma. El segundo score, compara el rea de la figura dibujada, con el rea de un crculo perfecto de radio igual al promedio entre el eje mayor y el menor de la misma. Para ello se emplea la formula A= _r2 Cuanto ms parecidas sean las reas de la figura dibujada y del circulo perfecto, ms cercana a 1 ser dicha puntuacin. El tercer score compara, el permetro de la figura dibujada por el nio, con el permetro del crculo perfecto calculado segn la formula P= 2_r Se realiza un recorrido de la imagen pixel a pixel con el fin de reducir la cantidad de puntos a analizar, en pruebas se comprob que la imagen puede ser redibujada correctamente tomando en cuenta 1 de cada 8 pxeles junto con la posicin de los mismos. El no tomar pxeles consecutivos tambin resuelve el problema que se da por la irregularidad de los mismos en una imagen, lo que puede llevar a clculos errneos. Por caso, la Fig. 9 muestra una lnea con puntos considerados consecutivos desde el punto de vista del algoritmo implementado.

Fig. 9 Amplificacin de una recta En las Figuras 10 y 11 se muestran, respectivamente, una imagen inicial ya limpia y la misma imagen redibujada utilizando 1 pxel de cada 8 originales. Como puede apreciarse, no se pierden las caractersticas principales de la imagen original.

Fig. 8 Mtricas de evaluacin de crculos El script adems genera un archivo con los datos numricos que caracterizan, a partir de este punto, a la figura original, puesto que esta, ahora es descartada del procesamiento y reemplazada por estos datos. Para cada imagen se almacena: Nombre Puntajes de las pruebas matemticas Coordenadas del centro Excentricidad Edad para ser analizadas en el mdulo de Anlisis de Estadsticas por medio de algoritmos de agrupamiento (clustering). 3.2.2 IDENTIFICACIN DE FIGURAS CON VRTICES En el caso del tringulo, dado que se busca una imagen con vrtices, se identifican los puntos relevantes puesto que stos son los mnimos necesarios para generar una figura igual a la

Fig. 10. Imagen original

-50

redibujada utilizando la mnima cantidad de puntos detectados como necesarios para su descripcin.
-50

-100

-100

-150
-150

-200

-200
-250

-250

-300 50

100

150

200

250

300

350

-80

-300 50

100

150

200

250

300

350

-100

-120

Fig. 11. Imagen con 1/8 de pxeles 3.2.4 COMPRESIN DE LA IMAGEN Se comprimen los datos obtenidos para descartar todos aquellos puntos no necesarios. El script de la Fig. 12 se utiliza para esta tarea.

-140

-160

-180

-200

-220

-240

-260

-280 150

200

250

300

350

400

Imagen limpia original Imagen redibujada Fig. 13 Imagen original y redibujada 4. ANLISIS DE LAS CARACTERSTICAS EXTRAIDAS DE LOS CRCULOS Para el anlisis de los crculos se tom un set de datos con 90 casos en los que se analizaron las variables: Score1, Score2, Score3, excentricidad y edad. Para dicho anlisis se opt por el algoritmo de clustering TwoStep, dado que este provee buenos resultados al procesar variables continuas y determina automticamente la cantidad de clusters. Otra de las razones para la eleccin de este algoritmo es que el mismo resulta robusto aun cuando no se cumpla alguna de las hiptesis [5][6][7]. Como se puede observar en la Fig.14 el algoritmo determin la existencia de 2 conglomerados.
% de combinados 95,5% 4,5% 100,0%

N Conglomerado 1 2 Combinados 85 4 89 1 90

Casos excluidos Total

% del total 94,4% 4,4% 98,9% 1,1% 100,0%

Fig. 12. Simplificacin y compresin de imgenes Para el procesamiento se proporcionan las coordenadas de cada uno de los puntos de la imagen y la tolerancia para la identificacin de los puntos necesarios. Como parte del algoritmo, se calcula la pendiente para la recta formada por cada punto y el punto siguiente siendo este la posicin del punto actual sumada a la variable que mide la separacin elegida. Si la diferencia entre la pendiente de una recta con la pendiente de la posterior es mayor a la tolerancia, el punto inicial correspondiente a esa recta debe ser tenido en cuenta. En la Fig. 13 se observan los resultados del procesamiento de las figuras, donde se muestra la imagen original, junto con la

Fig. 14 Distribucin de los conglomerados La Fig.15 muestra los centros para los conglomerados, en ella se puede observar la media y desviacin por cada una de las variables. Las medias del conglomerado 2, ubican a las imgenes all agrupadas como las que menos semejanza tienen a un crculo perfecto, presentando estas los valores ms cercanos a 0 para los primeros 3 scores y con mayores desviaciones. Con respecto a la excentricidad, donde un crculo perfecto posee un valor de 0 y una lnea recta un valor de 1, se puede observar un valor medio menor en el cluster uno aunque elevado para lo que sera un crculo perfecto, esto se debe a que los nios, especialmente entre los 3 y 4 aos tienden a dibujar elipses. Tambin se puede observar que el

conglomerado 1 contiene a los nios de mayor edad lo que es coherente con la informacin de las variables para este conglomerado.
SCORE1 Media Desv. tpica ,7510 ,12594 ,3202 ,17573 ,7317 ,15573 SCORE2 Media Desv. tpica ,9538 ,04298 ,4552 ,20835 ,9314 ,11847

[6] Brian S. Everitt, Graham Dunn. Multivariate Applied Data analisys. Wiley. 2001. ISBN 0340741228. [7] Witten, I. y Frank, E. Data Mining. Practical Machine Learning Tools and Techniques. San Francisco: Morgan Kaufmann Publishers. 2005. ISBN 0120884070

Conglomerado

1 2 Combinados

SCORE3 Media Desv. tpica ,9230 ,06275 ,7068 ,21640 ,9133 ,08593

ECCENTRI Media Desv. tpica ,6308 ,15019 ,9335 ,06308 ,6444 ,16014

EDAD Media Desv. tpica 3,96 ,851 3,50 ,577 3,94 ,844

Fig. 15 Perfiles de los conglomerados El anlisis de los resultados arrojados por el algoritmo de clustering confirma que la seleccin de variables Score1, Score2 y excentricidad son adecuadas para evaluar las caractersticas que se desea estudiar. Sin embargo, el Score3 y la edad no se revelan como las variables de mayor importancia. Dado que la figura analizada es un crculo, figura que los nios pueden reproducir desde los 3 aos, tiene sentido que la edad no sea una variable determinante. 5. CONCLUSIONES Y TRABAJO A FUTURO El proceso de clasificacin demostr que los parmetros tenidos en cuenta para los clculos resultan adecuados para evaluar las caractersticas de las imgenes analizadas y las variables escogidas son significativas. (Score1, Score2 y excentricidad) estos resultados estn en concordancia con los que se conocen desde la psicologa evolutiva. Para la futura evaluacin de figuras con vrtices se deben establecer los parmetros a evaluar, basndose en las caractersticas geomtricas de las mismas. El procedimiento ser similar al efectuado con los crculos, utilizando para ello las figuras obtenidas luego de la simplificacin a sus coordenadas caractersticas. Queda pendiente, entre otras cosas, la adaptacin de los mtodos descriptos para el procesamiento de otras figuras, ya que constituyen algoritmos genricos y parametrizables de manera bastante sencilla. 6. REFERENCIAS [1] Fiel Martnez A. A., Espern G., Porreca C., Decunto M., Lpez De Luise D., Laurito F., Scanavino L., Laudadio A., Burgos M. Sistema para la deteccin precoz de problemas en el aprendizaje. X Workshop de Investigadores en Ciencias de la Computacin 2008. [2] Mark Nixon, Alberto S Aguado Feature Extraction and Image Processing. Newnes. 2002. ISBN 0750650788 [3] Rafael C. Gonzalez, Richard E. Woods, Steven L. Eddins Digital Image Processing Using MATLAB ISBN 0130085197. [4] Moore, Holly Matlab para Ingenieros. Editorial Pearson. ISBN: 970-26-1082-6. [5] Johann Bacher, Knut Wenzig, Melanie Vogler SPSS Twostep Cluster A First Evaluation". Sixth International Conference on Social Science Methodology. 2004.

S-ar putea să vă placă și