Documente Academic
Documente Profesional
Documente Cultură
Septiembre, 2009
173
seven writers with 50 traces of each English character. The global recognition
rate when using the three recognition strategies varied between 98 and 98.7
%.
----- Keywords: Character recognition, RNA, SVM, GMM.
Introduccin
La escritura es uno de los medios de comunicacin ms conocidos. El reconocimiento de escritura en lnea gana nuevamente inters, no solo
por el nmero de aplicaciones donde este recurso
es utilizado, sino por el aumento de nuevos dispositivos de captura que han sido desarrollados
en la actualidad [1]. Las metodologas generales
en reconocimiento de patrones y procesamiento
de imgenes se analizan en [2], mientras que las
empleadas en el reconocimiento de caracteres en
lnea se revisan en [3,4]. La mayora de los investigadores han elegido los caracteres numricos
para su investigacin [5,6]. Por lo que se puede
observar que existe una cierta madurez para el
reconocimiento aislado de dgitos. Sin embargo,
cuando se habla del reconocimiento de caracteres
alfabticos, el problema llega a ser ms complicado. Uno de los problemas que se tiene es el
nmero de las clases que se pueden llegar a tener,
en el caso del alfabeto ingls es 52 caracteres, dependiendo si es mayscula (A-Z) o minsculas
(a-z). Debido a esto, existe un nmero ms grande de caracteres alfabticos ambiguos que de nmeros. En el reconocimiento de caracteres se presentan otros problemas como: mltiples patrones
para representar un solo carcter, la representacin intrnseca de la letra cursiva, y el nmero
de trazos para realizar un carcter [7]. Este tema
se ha explorado poco por ser complicado, por lo
que se dice que el reconocimiento de caracteres
es an un problema de frontera [8].
Existen dos tipos de sistemas de reconocimiento: Los sistemas fuera de lnea y los sistemas en
lnea. En este trabajo se estudia el desempeo
de un sistema en lnea. Los trazos se capturan
durante el proceso de escritura. Esto permite obtener informacin como: el orden de los trazos,
momentos grficos, presin, velocidad, entre
174
otras [9-11]. Cuando un escritor realiza el trazo de un carcter: 1) Tiene en mente el carcter
que se va a escribir, 2) Conoce el orden de los
movimientos del carcter, 3) Sabe la realizacin
del trazo y 4) Tiene una imagen de dicho carcter. El proceso de reconocimiento puede ser
realizado en orden inverso al de la generacin,
es decir del ltimo paso al primero. Sin embargo la realizacin de este proceso inverso es muy
complicada. Los sistemas de reconocimiento de
caracteres manuscritos son equivalentes en forma inversa cuando el escritor realiza un carcter
(tiene en mente el smbolo que se va a escribir,
el orden de los movimientos del carcter y la
realizacin del trazo). Los sistemas de reconocimiento fuera de lnea, por otro lado, equivalen al
proceso inverso completo es decir adems de los
tres pasos anteriores se tiene la imagen del carcter. Muchos sistemas para el reconocimiento
de caracteres en lnea han sido reportados en la
literatura. Algunos de estos se describen brevemente a continuacin. Namboodiri et. al [9]
propusieron un sistema para clasificar palabras
y lneas en un documento manuscrito en lnea en
uno de los seis alfabetos ms antiguos: rabe,
Cirlico, Hebreo, Romano, Devnagari (Hind),
Chino. La clasificacin se bas en 11 caractersticas espaciales y temporales. El sistema propuesto alcanza un porcentaje de clasificacin
de 87,1 % a nivel palabra para el caso de una
base de datos de 13379 palabras. El porcentaje
sube a un 95% conforme el nmero de palabras
en la muestra fue aumentado a cinco. El desempeo sube a 95,5% para el caso de lneas de
texto completo que consta de una media de siete
palabras. Kato et al [12], describen un mtodo
para recuperar el orden del trazo de una imagen
esttica 2D. El trazo se debe realizar en un solo
movimiento y puede incluir lneas doblemente
trazadas. El mtodo de reconstruccin consiste
en 2 fases: en la primera fase se analiza el grafo
Experimentacin
El reconocimiento de cualquier tipo de patrones:
caracteres pticos, olores, objetos en el espacio,
rostros, voz, etc., queda englobado en el reconocimiento de patrones. La diferencia estriba principalmente en el captor utilizado, as como, en las
tcnicas empleadas para extraer las caractersticas del patrn a reconocer. Para el reconocimiento de caracteres manuscritos especficamente se
propone utilizar la arquitectura que se muestra en
la figura 1.
Figura 1
175
nadas, generalmente los datos capturados contienen componentes de alta frecuencia introducidos
por una pequea vibracin de la mano durante el
trazado del carcter. Una vez que se tienen los
caracteres capturados, se propone el siguiente
pre-procesamiento:
1
Filtrado, y
Normalizacin (posicin, tamao y tiempo).
Wavelets
La teora de las wavelets se basa en una repre- Figura 1
sentacin local de frecuencias de la seal. Esto
permite localizar, e identificar, tal acumulacin
de ondas pequeas y ayuda a entender mejor las
razones de los fenmenos estadsticos. Adems
de las propiedades de localizacin, las wavelets
poseen tambin excelentes propiedades para su
suavizado. Como se propuso en [16], en donde
se observ que la seal, an despus del filtrado
no era tan suave. Por esta razn se le aplic una
wavelet Daubechies 1 para suavizarla. Se utiliz
solo la aproximacin para su reconstruccin. La
figura 2 muestra el carcter u despus de su captura en la tableta digital y despus de aplicarle la
wavelet db1.
Pre-procesamiento
Figura 2
176
Figura 3
Figura 3
Figura 3 a) Carcter u filtrado b) Carcter u
normalizado en tamao, posicin y tiempo
Obtencin de nodos ptimos
Para obtener los nodos ptimos de cada carcter
se realiza el proceso que se muestra en la figura 4.
Extraccin de caractersticas
La extraccin de caractersticas se refiere al proceso que consiste en formar rasgos que permiten
Los datos del trazo del carcter son valores positivos y continuos, por lo que se pueden derivar
177
y mantener su continuidad. Para conocer las posiciones donde se cambia la direccin de la escritura de cada carcter (en el eje x de derecha
a izquierda o de izquierda a derecha, en el eje y
de arriba a abajo o de abajo a arriba), se calcula
la primera derivada de la seal de cada eje. Los
datos de la segunda derivada de las seales del
carcter en el eje x e y nos da la informacin acerca de los cambios de la velocidad (aceleracin)
de la escritura, ya que escribimos con diferentes
velocidades, es decir, los valores positivos de la
segunda derivada significa que la velocidad de la
escritura est aumentando y los valores negativos
significa que va disminuyendo. La figura 5 nos
muestra las formas de onda del carcter u que
son los valores que arroja la tableta x(t), y(t).
Como podemos observar son datos positivos y
continuos; posteriormente se muestra la segunda
derivada del carcter u. La seal obtenida de la
segunda derivada, muestra pequeos cambios de
velocidad que puede ser ruido producido por la
vibracin de las manos. Para evitar esto y obtener
una seal ms suave se necesita un filtrado, que
se lleva a cabo mediante un filtro pasa-bajas, que
se muestra en la figura 5.
2
punto final de cada carcter con respecto al tiempo. Estos se toman como el nodo inicial y final
de cada carcter al agregar los nodos locales ya
obtenidos, obtenindose as los nodos iniciales.
2
Estos nodos iniciales no son ptimos, ya que los
errores entre las seales reconstruidas usando estos nodos y seales originales son considerables. Figura 4
Figura 4
Figura 5
Figura 4
Figura 4
caractersticas
178
Figura 6
Figura 4
Figura 5
Mtodo de Slalom
Es comn que un gran nmero de datos puedan
ajustarse a una nica curva suave. La interpolacin Spline permite esto. Al usar el mtodo de
Slalom y los nodos iniciales se realiza la interpolacin obtenindose como resultado una funcin
suave del carcter, es decir, se reconstruye el carcter. Se calcula el error entre la seal original y
la funcin Spline mediante la siguiente ecuacin:
E f ,s =
1
N
( f ( x ) s( x )
i =1
(1)
donde:
Ef,s es el error cuadrtico medio entre la funcin
Figura 5
Spline s (x ) y la seal original f (x )
N es el nmero de datos del carcter manuscrito.
Figura 6
Figura
Figura
6 6 a) Divisin de la seal y nodos locales del
Para obtener los nodos ptimos se aplica el mtodo de bsqueda de gradiente descendente. Este
mtodo como se sabe permite ajustar los nodos
locales antes obtenidos. En la figura 7 se muestran los nodos ya ajustados con el mtodo de bsqueda de gradiente descendente, y la interpolacin de los nodos (slalom).
de slalom,
Nodos ptimos
Se obtuvieron los nodos ptimos para cada carcter que para la mayora de los caracteres en cantidad son menores de los nodos iniciales (nodos en
x, nodos en y, valor de los nodos de x y valores de
los nodos de y). En trabajos anteriores utilizba-
179
Reconocimiento de caracteres
manuscritos
En la etapa de reconocimiento el sistema propuesto de esta investigacin se evala con tres
clasificadores: red neuronal entrenada con regla
de propagacin hacia atrs (BNN), mquina de
vector soporte (MVS) y el modelo de mezclas
gaussianas (MMG).
Red Neuronal con propagacin hacia atrs
En esta investigacin se usa la red neuronal con
regla de aprendizaje tipo propagacin hacia atrs.
Esta red, como se sabe, es una de las ms confiables para el reconocimiento de caracteres, esto
debido a su capacidad de generalizacin. La regla
de propagacin del error hacia atrs es una regla
de aprendizaje que se puede aplicar en modelos
de redes con ms de dos capas de clulas. Una
caracterstica importante de este algoritmo es la
representacin interna del conocimiento que es
capaz de organizar en la capa intermedia de las
clulas para conseguir cualquier correspondencia
entre la entrada y la salida de la red. La estructura
de la BNN utilizada se muestra en la figura 9.
El nmero de neuronas de entrada se fij en 40
neuronas (20 por X y 20 por y), mientras que el
nmero en la capa oculta fue de 48 neuronas. Este
nmero fue el mejor que se encontr por prueba
y error, ya que como se sabe todava no existe un
mtodo sistemtico para conocer el nmero pti-
180
(2)
i =1
181
R = log10 ( p( X t / ))
(5)
t =1
r
bi ( x ) =
1
(2 ) D / 2 i
1/ 2
1 r r '
r r
exp ( x i ) i1 ( x i )
2
(3)
Resultados
Para el primer caso del clasificador BNN en la
fase de entrenamiento se utilizaron 6370 caracteres obteniendo un 99,95% de reconocimiento,
mientras que en la fase de prueba en donde se
utilizaron 2730 se obtuvo un reconocimiento del
98,01%. En la figura 11 se muestra detalladamente el porcentaje de reconocimiento de cada
carcter.
p( X / (r ) ) p( X / (r 1) )
(4)
Cada T elementos se deben de actualizar los parmetros del modelo como en [20]. Durante la fase
de prueba se estima la probabilidad de que un carcter bajo anlisis corresponda al modelo dado
que es Pr ( X / ) , por lo que usamos el teorema
de Bayes, obteniendo:
182
Carcter
BNN
MVS
MMG
ME
97,14
98,09
100
90,47
95,23
97,14
98,09
93,33
100
100
91,42
93,33
100
100
100
85,71
100
99,04
99,04
81,90
100
100
100
89,52
95,23
98,09
99,04
90,47
98,09
99,04
98,09
89,52
100
100
100
95,23
98,09
100
100
90,47
99,04
99,04
99,04
91,42
100
100
100
90,47
97,14
98,09
100
90,47
100
100
94,28
94,28
96,19
96,19
100
90,47
97,14
99,04
100
80,95
98,09
99,04
96,19
83,80
97,14
97,14
97,14
90,47
100
100
98,09
90,47
94,28
98,09
100
93,33
98,09
100
99,04
90,47
99,04
99,04
97,14
94,28
99,04
98,09
98,09
82,85
97,14
98,09
99,04
93,33
96,19
96,19
100
90,47
96,19
95,23
100
91,42
183
Conclusiones
En este trabajo se describi con detalle una metodologa para el reconocimiento de caracteres manuscritos para letras de tipo cursiva. Las wavelet
se usaron para mejorar los problemas de suavizado de el trazo. El mtodo de SLALOM se utiliz
para obtener los nodos ptimos de cada carcter.
Estos nodos ptimos se consideran como las caractersticas que describen a cada carcter, que
son utilizadas como un vector de entrada en los
3 clasificadores (BNN, MVS, MMG). Los resultados de la evaluacin demuestran que el sistema
propuesto proporciona una buena taza de reconocimiento, para los tres clasificadores. Estos resultados pueden ser considerados como muy buenos, pensando que los caracteres reconocidos son
cursivos y tienen cierto grado de deformacin.
El porcentaje del reconocimiento de este sistema
propuesto es bastante bueno contra los porcentajes reportados en la literatura que oscilan entre
el 85% y el 98% para caracteres manuscritos de
diferentes idiomas.
Referencias
1
184