Sunteți pe pagina 1din 42

CAPTULO 2.

CARACTERIZACIN
Y NORMALIZACIN DE IMGENES
PERCIBIDAS EN CONDICIONES
ADVERSAS
Se ha expresado que el objetivo de la investigacin es proporcionar un
modelo para tratar los problemas de la visin realista. De la revisin del
estado del arte se concluye el inters de la generalidad de dicho modelo; se
observa la conveniencia de tratar el problema a nivel medio y bajo con
transformaciones de segmentacin, etiquetado y sntesis y se aprecia la
ausencia de consideracin de los parmetros del entorno y la cmara en la
solucin. En consecuencia, se ha formulado un modelo en trminos de estos
parmetros y se ha propuesto una solucin basada en la utilizacin de
conocimiento previamente adquirido sobre el entorno. Este modelo se
concreta en la propuesta de transformacin basada en consultas a bases
de conocimiento que permitir diferenciar imgenes de motivos distintos
que la cmara percibe como similares. Tomando como base el modelo de
transformacin , se hace una propuesta de arquitectura para el sistema de
visin contemplando aspectos de rendimiento y robustez del sistema. Se
propone la utilizacin de metodologa conexionista para la realizacin de
las bases de datos como ncleo de una arquitectura cuya reconfiguracin
permitir el tratamiento sistemtico de diferentes problemas.

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

1. APROXIMACIN AL PROCESO DE
PERCEPCIN VISUAL
Se describen inicialmente los rasgos del proceso de visin; esto es, el
proceso de transmisin de la seal luminosa, desde la fuente generadora
hasta la plasmacin en una imagen, pasando por todas las modulaciones
intermedias y los procesos de adquisicin e interpretacin. Como esta
revisin tiene por objeto identificar y situar los parmetros que intervienen
en el proceso, podr hacerse una clasificacin basada en la cual se
propondrn las tcnicas de resolucin del problema. Se identifican los
parmetros relacionados con los controles de la cmara (calibrado) y los
vinculados con el entorno, cuyas relaciones sern de inters para tratar su
repercusin en las propiedades geomtricas y radiomtricas de la imagen.

1.1. Descripcin del proceso de percepcin


La percepcin visual culmina en informacin elaborada, al estilo de como
ocurre con la captacin de informacin lumnica por el sentido biolgico
especializado, es decir, la vista. El proceso de transmisin de luz y
percepcin visual es extenso y durante el mismo intervienen un conjunto de
factores cuya aportacin al resultado de la imagen finalmente percibida ser
deseable en la medida que enriquezca el valor semntico o indeseable en
caso contrario. En este ltimo caso cabe operar en la lnea de las siguientes
directrices: impidiendo la modulacin no deseada, suprimiendo su efecto
mediante filtrado, compensndolo mediante realzados, distinguiendo su
efecto mediante conocimiento especfico, etc.
Slo algunos casos podrn ser abordados con tcnicas de impedir la
ocurrencia de los efectos no deseables. En general sern simples y,
frecuentemente, requerirn mecanismos costosos. Por ejemplo, la
incertidumbre derivada de la captacin mediante un fotograma de una
escena tridimensional ser esencialmente de profundidad. El tratamiento
que convencionalmente se da para que este efecto no se produzca es el
empleo de sistemas binoculares de captacin.
El nivel semntico a que se realiza el tratamiento de los efectos no deseados
sugiere, al menos en parte, las tcnicas a utilizar. Por ejemplo, en la visin
de bajo nivel, lo coherente es utilizar operaciones morfolgicas, gradientes,
etc. (Sonka et al, 1998). Como se ha planteado al enunciar los objetivos, el
inters de esta investigacin se orienta a los niveles medio y bajo, afectando
a los objetos de la escena como entidades semnticas, lo cual sugiere
42

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

procesos y operaciones al nivel de segmentacin, caracterizacin,


etiquetado, etc. Por ejemplo, la incertidumbre en la profundidad de los
objetos de una escena podr resolverse caracterizando el tamao relativo de
sus componentes. No obstante, el planteamiento general introduce la idea
de utilizar las bases de datos para sintetizar imagen en condiciones
normalizadas a partir de una imagen obtenida en condiciones adversas, a
modo de filtro de bajo nivel.
El proceso de visin puede representarse grficamente como muestra la
Figura 2.1. Se observa una parte inicial del proceso, correspondiente a la
transmisin de la luz y la modulacin del entorno y otra donde el sistema de
visin interviene para percibir e interpretar las propiedades de ese entorno
por medio de la seal luminosa.
Visin bajo nivel
Etapa de
modulacin

Contribucin del
entorno
e

Visin alto nivel

Etapa de adquisicin

Etapa de interpretacin

SISTEMA DE VISIN
Magnitudes de
la escena que
contribuyen a I
i ( m, e, c )
= ( 1 , 2 ,..., m )
Vector de calibrado

m
Contribucin del
motivo

I = F ( i ( m, e, c ) )

Salida de la
cmara

Procesos
intermedios
F ( i ( m, e, c ) )

Interpretacin

c
Contribucin de
la cmara
sintonizacin

Figura 2.1. El proceso de visin

La luz sufre, desde su salida del foco o focos emisores, modulaciones


debidas al entorno que son, en ocasiones, deseables por constituir el motivo
de la interpretacin del sistema de visin e indeseables en otras por
incorporar distorsiones (polvo, niebla, intensidad luminosa, distancia a la
escena, etc). La Figura 2.2 muestra un esquema indicativo de la naturaleza
de los fenmenos moduladores de la seal luminosa.
Como todas las modulaciones se superponen, la seal luminosa acaba
conteniendo informacin valiosa (debida a la modulacin producida por el
motivo de inters) y valores de seal debidos a modulacin no deseable. La
dificultad radica en separar la componente en la imagen I correspondiente a
la contribucin del motivo de la componente correspondiente a las
contribuciones del entorno y la cmara. Como se ha expresado en la
formulacin, imgenes similares pueden corresponder a combinaciones
diferentes de las componentes correspondientes al motivo y las
contribuciones del entorno y la cmara (1.8,1.9).
43

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

Intensidad y
naturaleza de los
focos
Posicin relativa
escena / dispositivo de visin
Moduladores por
Transmisin (humo,
transparencias...)
Moduladores por reflexin
(coeficiente de reflexin de
la superficie)

Figura 2.2 Modulaciones debidas al entorno y al motivo

En lo que sigue se considerar que el inters est en la captacin e


interpretacin de motivos visuales en los trminos en que son percibidos.
Es decir, el nivel de generalidad que se considera no excluye de antemano
ningn caso. La interpretacin que finalmente haya de realizarse constituir
el criterio de calidad de la modulacin. Por ejemplo, la observacin de la
proyeccin de una transparencia puede producir en un observador el mismo
efecto que la modulacin producida por el entorno reflejado en la
transparencia. Este ejemplo de tan elevada complejidad semntica sugiere
calificar como buena la modulacin producida por la transparencia sobre la
seal luminosa cuando se trata de crear ilusin. Si se tratara de interpretar la
realidad, esa misma informacin debera ser considerada de mala calidad.
En muchos casos, este nivel de interpretacin est condicionado a la
pretensin de actuar sobre el entorno con diversos objetivos: guiar (robot,
vehculo,...), clasificar (letra, gesto, matrcula,...), operar (cortar,
desplazar...). Estos objetivos condicionan el ms general de interpretacin
interpretar para actuar (Krotkow, 1987) (Aloimonos et al, 1988) (Bajcsy,
1988) (Ballard, 1991). Por ejemplo, si el objetivo es la clasificacin de
texto, la interpretacin podra tener como dominio de salida una cadena de
caracteres. Dado el objetivo inicial generalista y puesto que el anlisis de
detalle se centrar en etapas tempranas del proceso de visin, se deja abierta
la concrecin de este nivel de interpretacin an conscientes de que las
posibilidades de instanciacin de dicha funcin son altsimas y de que la
concrecin de esa funcin condicionar los criterios de calidad. La Figura
2.3 muestra un esquema de las etapas del sistema de visin. Cada una de las
etapas somete a los datos a un proceso con objeto de proporcionar
informacin progresivamente de ms calidad.

44

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas


Visin de bajo nivel

Visin de nivel medio

Visin de alto nivel

e, c
contribucin
del entorno y
la cmara

m
contribucin
del motivo

Magnitud de
la escena
i ( m, e, c )

I = F ( i ( m , e, c ) )
F ( i ( m, e, c ) )
Salida sensor

Adquisicin

I = F ( i ( m , e, c ) )
Imagen normalizada

Normalizacin
Sntesis
Segmentacin
Caracterizacin

Interpretacin

Figura 2.3 Etapas del proceso de visin

Es conocido que habitualmente la interpretacin no se realiza sobre los


datos adquiridos sino que intervienen procesos intermedios que transforman
los datos con el objetivo de obtener informacin progresivamente ms
representativa o encaminada al objetivo final. Estos procesos de
segmentacin, etiquetado, caracterizacin y sntesis mejorarn el objetivo
final de interpretacin que tendr mayor xito actuando sobre imgenes
previamente mejoradas, como refleja la Figura 2.3. Esta etapa intermedia es
la que se pretende modelar de forma genrica mediante la transformacin
que proporciona un mtodo para tratar los problemas de la percepcin
visual en condiciones donde el calibrado puede no ser el idneo.

1.2. Caracterizacin del sistema de percepcin


En este punto se propone, una vez desarrollado el marco general, una
revisin ms detallada de los parmetros para clasificarlos y observar
posibles relaciones que puedan resultar de inters. Las contribuciones del
entorno y la cmara, previamente definidas, representan los puntos de
trabajo y sintonizacin, es decir, las condiciones de calibrado en las que se
produce la percepcin de una imagen. Cada uno de los parmetros
representados por e y c expresan el valor de alguna magnitud que interviene
en la percepcin relacionada con el entorno y los controles de la cmara.
Como se ha expresado en el estado del arte la calibracin de un dispositivo
de visin se refiere a la obtencin de los parmetros =(1,2,,m) que
inciden en la formacin de la imagen a nivel geomtrico, as como
radiomtrico (Forsyth y Ponce, 2002). Haremos una revisin de los
parmetros de calibrado y su relacin con los del entorno que permitir
establecer los puntos de sintonizacin. Adems la vinculacin al entorno o
al sensor permitir diferenciar su dependencia o independencia respecto de
las coordenadas de la escena y la imagen proyectada. Por otra parte, se
45

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

considera la naturaleza, geomtrica o radiomtrica, de la repercusin de


estas variables que en muchos casos es simultnea. Por ejemplo, la
perspectiva o la distancia focal tienen repercusiones tanto geomtricas
como radiomtricas.

1.2.1 Parmetros del entorno


Son parmetros ej que influyen en la sensibilidad del sensor y representan
propiedades del entorno. Los valores de estas variables constituyen el punto
de trabajo. La Figura 2.4 muestra un esquema en el que aparecen algunas de
estas variables en su punto de intervencin en la modulacin de la luz. En
cualquier caso, los parmetros del entorno, por pertenecer a ste, se
caracterizan por tener una distribucin espacial en la escena (x,y,z) que se
corresponder con una distribucin espacial en la imagen I proyectada con
coordenadas (x,y). En el presente trabajo vamos a simplificar el problema
prescindiendo del tratamiento de la correspondencia de las coordenadas
tridimensionales del mundo real en coordenadas bidimensionales de la
imagen proyectada. En consecuencia, magnitudes del entorno como la
intensidad de iluminacin o la distancia de enfoque podrn representarse
como funcin de unas coordenadas ej(x,y). De la misma forma, las
magnitudes del motivo en la escena tambin podr expresarse como funcin
de unas coordenadas m(x,y).
Intensidad y
naturaleza de los
focos
a

e1 , a e2 ,....., a en
Posicin relativa
escena / dispositivo
de visin

Moduladores por
Transmisin (humo,
transparencias...)
b

e1 , e2 ,....., en

e1 , d e2 ,....., d en

Moduladores por
reflexin (coeficiente de
reflexin de la superficie)

Figura 2.4 Contribucin del entorno y del motivo

Dentro de las variables del entorno vamos a distinguir las relacionadas con
la intensidad y naturaleza de los focos, los moduladores por transmisin,
los moduladores por reflexin y la posicin relativa de la escena y el
dispositivo de visin.

46

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

Las variables relacionadas con la intensidad y naturaleza de los focos


constituyen un factor de incertidumbre de alta complejidad. Nmero de
focos, naturaleza puntual, parpadeo, ngulo de incidencia, intensidad
luminosa, son algunas de las variables relevantes relacionadas con las
fuentes de iluminacin de la escena. Se estudia la incidencia de la variacin
de la intensidad de iluminacin el(x,y) del entorno abarcando las
condiciones de iluminacin ms extremas (saturacin y penumbra).
Los moduladores por transmisin someten a la luz a una modulacin
habitualmente no deseada: humo, transparencias, etc. Su efecto es
frecuentemente tratado como ruido aditivo (Flusser y Suk, 1998) (Biemond
et al, 1990) y los algoritmos que actan como filtros eliminando de la
imagen la componente sobrante los hemos clasificado en el estado del arte
como mtodos de mejora o restauracin.
Los moduladores por reflexin representan propiedades del entorno sobre
las que el sistema de visin habitualmente infiere. Los cambios de estas
variables deben incidir en cambios en la interpretacin para un
funcionamiento correcto del sistema. Caractersticas de la escena como
distribucin espacial de los coeficientes de reflexin de la superficie de los
objetos, estructuras tridimensionales de estos, posiciones relativas de los
objetos son algunas de las que frecuentemente condicionan directamente la
interpretacin. El cambio en la interpretacin generado por el cambio de
estas variables es el comportamiento deseado para el sistema. Dada esta
vinculacin con la interpretacin del sistema de visin se ha considerado a
este tipo de variables como el motivo m. El resto de variables e del entorno
cuantifican propiedades que influyen en el resultado de la interpretacin
pero no suelen ser objeto central de esta.
Los sistemas de visin pueden estar ubicados en plataformas mviles.
Adems los objetos de las escenas pueden ocupar posiciones variables. Este
dinamismo de posiciones de la escena y el sistema de visin introduce la
complejidad de la variacin de la perspectiva que puede dificultar la
interpretacin constituyendo un factor de incertidumbre. Los parmetros
que intervienen estn relacionados con la distancia y el ngulo entre la
escena y el sistema de visin. Puesto que estas variables tienen distribucin
espacial en la escena las hemos clasificado en esta categora. Se estudia la
distancia entre la escena y el sistema de visin ef(x,y) (distancia de
enfoque), cuyas repercusiones en la escala de percepcin motivan este
especial inters. El ngulo entre las superficies de la escena y el sistema de
visin tiene repercusiones radiomtricas y geomtricas.

47

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

1.2.2 Parmetros del sistema


Una vez revisados los parmetros del entorno, nos centraremos en el
estudio de los parmetros del sistema de visin que contribuyen a la
formacin de la imagen I. Los parmetros del vector de calibrado del
dispositivo =(1,2,,m) estn relacionados con magnitudes de la escena, de
forma que para un valor del vector de calibrado existe un valor del vector
, cuyas componentes son las correspondientes magnitudes de la escena
=(1,2,,m), para el que la sensibilidad de la cmara ser ptima, lo
hemos llamado punto de sintonizacin s. Esto permitir trasladar el
dominio del calibrado (magnitudes de los controles de la cmara) al
dominio de la sintonizacin (magnitudes de los parmetros de la escena
relacionados). Por ejemplo, en lugar de hablar de calibrar la cmara con
valores de la magnitud apertura del diafragma d, podremos hablar de
sintonizar la cmara a la intensidad luminosa deseada cl. Si la cmara esta
sintonizada para un nivel de iluminacin cl distinto del nivel de iluminacin
del entorno el, la distancia entre el punto de trabajo y sintonizacin
producirn percepciones en condiciones adversas. Estas relaciones
permitirn establecer el punto de sintonizacin s para un calibrado dado
y en consecuencia la distancia del punto de sintonizacin respecto del de
trabajo , se expresar esta distancia mediante el trmino desafino d.
La ptica recoge las ondas de luz de la imagen incidente y las transfiere al
sensor. Podemos encontrar desde pticas sencillas, que permiten modular la
cantidad de luz en la entrada o la relacin de tamao entre el plano
enfocado del espacio y el tamao de la imagen incidente en el sensor, hasta
las ms complicadas que incorporan varias lentes con diferentes
perspectivas y movilidad (ngulos horizontal y vertical). En cualquier caso,
los parmetros de calibrado ms frecuentes en la ptica son el zoom z, el
enfoque f y el diafragma d. De las relaciones concretas de estos
parmetros respecto a otros de la escena de forma individual y /o conjunta
trataremos en el estudio de los casos particulares.
En la propuesta de solucin se utilizarn bases de datos con los diferentes
motivos percibidos con diferentes valores de desafino, por lo tanto la
particularidad de la relacin entre las variables tendr inters para la
realizacin de las bases de datos. Una vez realizadas, las consultas se
referiran a un motivo percibido con un desafino determinado. La
particularidad de los diferentes valores de los parmetros de la cmara y la
escena que producen ese desafino no ser utilizada en el modelo. Por
ejemplo, se almacenarn diferentes superficies percibidas con diferentes
valores del zoom z, es decir diferentes escalas. Durante la clasificacin, se
estimar la escala utilizando el tamao relativo de los motivos de la escena,
es decir se estima el desafino sin interes en la combinacin particular de
valores del punto de trabajo y de sintonizacin que producen ese desafino.
48

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

2. MODELO PARA VISIN


ARTIFICIAL REALISTA
En el planteamiento general del problema del realismo, se observa una lnea
diferenciada de actuacin sobre los parmetros de calibrado de la cmara o
los del entorno que permite mejorar la calidad de la adquisicin de la
imagen. La implicacin de discernibilidad de las imgenes, objetivo de la
transformacin , se basa en que la diferencia entre punto de trabajo y
sintonizacin pueda hacerse suficientemente pequea. La operacin de
modificar el punto de trabajo y la de modificar el punto de sintonizacin
son duales a efectos de la discernibilidad de los motivos. En consecuencia,
se identifican dos lneas complementarias para el tratamiento del problema
del realismo: una lnea de actuacin sobre los parmetros de calibrado del
dispositivo y del entorno y otra de transformacin de la imagen capturada;
en cualquier caso se persigue la mejora de la calidad. En cuanto a la
alternativa de actuacin sobre los parmetros, no siempre es posible y
requiere del conocimiento especfico de las relaciones de los parmetros
pticos, algunas de las cuales se revisarn en el anexo 1 con carcter
fundamentalmente complementario.
La normalizacin propuesta transforma la imagen percibida para
distancias arbitrariamente grandes de desafino en una imagen percibida en
condiciones mejoradas. Esta transformacin podr regenerar las imgenes
en condiciones normalizadas para despus segmentar y etiquetar con las
tcnicas de la visin idealizada o segmentar y etiquetar directamente en el
punto de trabajo. Por lo tanto, se podrn plantear diferentes instancias de la
transformacin segn su dominio de salida:
Se podr aspirar a obtener una imagen I en la que la distancia de desafino
entre el punto de sintonizacin cj y el de trabajo eh sea suficientemente
pequea en aras de la discernibilidad. En este caso el dominio de salida de
la transformacin I (2.1) es una nueva imagen mejorada. Por lo tanto, esta
transformacin sintetiza imagen filtrando la contribucin no deseada del
entorno e y de la cmara c, y situndose por analoga con los mtodos de
preprocesamiento de imagen en el nivel bajo de los sistemas de visin.

F ( i (mk , eh , c j ))) = I ( F ( i (mk , e j , c j )))

2.1

Otra posibilidad es etiquetar la imagen con el motivo m con independencia


del punto de trabajo y de sintonizacin de la percepcin. El dominio de
salida de esta transformacin 2.2 ser la etiqueta del motivo m. Esta ser la
transformacin abordada directamente en este trabajo. El propsito de esta
transformacin est en la lnea de la caracterizacin situndose en el nivel
medio de los sistemas de visin.
49

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

m = m ( F ( i (m, e, c)))

2.2

Se ha expresado en la propuesta de solucin que se har necesaria la


estimacin del desafino d. En consecuencia una transformacin de inters
ser el etiquetado de una imagen de entrada con el correspondiente desafino
(2.3). Esta transformacin ser utilizada en el modelo para simplificar la
expresada en 2.2.

d = d ( F ( i (m, e, c)))

2.3

El problema se resuelve obteniendo la expresin concreta de en cada


caso. Sin embargo el objetivo de proporcionar solucin de carcter general
motiva la decisin de recurrir a formas explcitas de relacin para plasmar
el conocimiento contenido en . La propuesta de solucin consiste en
utilizar bases de datos conteniendo las imgenes de una coleccin de
motivos para sucesivos valores de la diferencia entre el punto de
sintonizacin y el punto de trabajo. La base de datos de conocimiento del
sistema podr elaborarse, para los sucesivos valores de la diferencia entre
punto de trabajo y punto de sintonizacin, modificando el calibrado de la
cmara. En tareas de clasificacin, las imgenes problema se habrn
obtenido con calibrado conocido y el problema ser el punto de trabajo.
Ser necesario estimar la diferencia entre el punto de sintonizacin y el de
trabajo (lo cual podr hacerse mediante heursticas basadas en la
especificidad de las imgenes), tamaos relativos de los motivos de la
escena, tonalidades relativas, etc.

2.1. Transformacin basada en conocimiento


En la propuesta se plantea el contraste con bases de conocimiento, con
objeto de extraer informacin que permita la realizacin de las
transformaciones: sintetizar imagen mejorada (2.1), etiquetar motivos de
imgenes (2.2), estimar condiciones de calibrado (2.3). El planteamiento de
las consultas a bases de conocimiento introduce la necesidad de una etapa
de aprendizaje en el modelo donde la base de conocimiento incorpora la
informacin extrada de las imgenes de entrada. Esta etapa de extraccin
de conocimiento puede plantearse de forma supervisada o no supervisada.
En est investigacin no se aborda la automatizacin del aprendizaje. En la
transformacin de la imagen, utiliza la informacin obtenida de las bases
de conocimiento para inferir condiciones de calibrado, etiquetar motivos de
las imgenes y sintetizar imgenes mejoradas.

50

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

En aras de la generalidad, este trabajo se basa en el empleo de descriptores


sencillos, de amplio espectro de utilizacin. La sntesis de imagen mejorada
(2.1), el etiquetado por motivos (2.2) y la estimacin del desafino (2.3) se
obtienen comparando el descriptor de una imagen incgnita con los
descriptores almacenados previamente en una base de datos para distintos
motivos y para distintos valores de la distancia entre el punto de trabajo y el
de sintonizacin. En cualquiera de los perfiles de las transformaciones
propuestas se plantea la inferencia, a partir de una imagen I y conocidas las
imgenes I de diferentes motivos m para diferentes valores del desafino. Se
denotan estas bases de datos como DB(I,m,d). Por lo tanto, las expresiones
se pueden formular incorporando esta notacin, centrndonos en 2.2 y 2.3
por ser las transformaciones que se abordarn experimentalmente.

m = mDB( I ,m,d ) ( I )

2.4

d = dDB( I ,m , d ) ( I )

2.5

La complejidad de la obtencin de la transformacin , est relacionada


con la posibilidad de encontrar imgenes prximas en las consultas a la
base de datos correspondientes a motivos diferentes. El problema en este
caso es el de la distincin de motivos de imgenes percibidas con iguales o
similares desafinos (2.6), aadidas las situaciones de similitud para
distancias de desafino distintas (2.7).
> 0, (m j mk ) (d j = d k ), i /

2.6

F ( i (m j , e j , c j )) F ( i (mk , ek , ck ))
> 0, (m j mk ) ((d j d k )), i /

2.7

F ( i (m j , e j , c j )) F ( i (mk , ek , ck ))
Por ejemplo, la imagen de dos superficies puede ser muy similar en
condiciones adversas de iluminacin (penumbra o saturacin). Sin recurrir
a situaciones extremas, dos maderas de tonalidad diferente pueden parecer
iguales si la ms oscura se somete a iluminacin ms intensa. Planteando el
problema de la escala, los razonamientos son anlogos: una pared blanca
vista en alta resolucin, puede parecer un paisaje montaoso nevado visto
en baja resolucin. Este problema convierte la solucin en indecidible en
situaciones lmite.

51

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

2.2. Estimacin de los datos del entorno


Asumido el problema de la dificultad de distinguir dos imgenes en cuya
formacin contribuyen diferentes parmetros desconocidos (m y d), una
solucin es simplificar el problema mediante la obtencin de informacin
de contexto que permita restringir los rangos de los parmetros. Se ha
expresado que tanto el motivo como los parmetros del entorno tienen
distribucin espacial, esta distribucin espacial en la escena tiene su
correspondencia en una distribucin en la imagen proyectada (x,y). La
obtencin de informacin del contexto supone asumir que la dispersin del
desafino en una regin determinada de la imagen d(x,y), as como el motivo
en esa misma regin m(x,y), est restringida a un rango de valores dentro
del intervalo de existencia de estas variables.
La obtencin de informacin del contexto que restrinja el dominio de las
variables d y/o m, permite descartar soluciones a la ecuacin simplificando
el problema de las consultas a las bases de datos. Obtenida la informacin
del contexto, si se asume que el rango de d y m esta restringido y en
consecuencia se puede afirmar que una de las combinaciones de valores de
dk y mk no es solucin a la ecuacin, el problema esta resuelto.
Si se puede afirmar que el valor del desafino en una imagen o regin de la
imagen est acotado entre unos valores, las consultas a las bases de datos
para esa regin slo precisarn de la informacin de la base de datos
correspondiente a los valores de desafino dentro de las cotas expresadas. De
la misma forma, si la informacin de contexto puede ser til para restringir
el nmero de motivos en la base de datos que sern necesarios en un
momento dado, el problema se simplifica. Por ejemplo, cuando el escenario
es una habitacin cerrada, eliminar de la base de datos motivos
correspondientes a exteriores (csped, tierra,) puede resolver el
problema.
Transformacin T

Imagen de entrada

Preprocesamiento
Informacin de
contexto.
Estimacin del valor
medio del desafino.

Rango desafino
motivos

Procesamiento
Consulta a la vista parcial de la
base de datos conocido el rango del
desafino y las superficies de la
escena.

Seleccin de los
motivos comunes en
el entorno

Figura 2.5 Modelo general de transformacin

52

Etiquetado
motivos
Etiquetado
desafino

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

Por lo tanto el mtodo general propuesto tendr dos etapas (Figura 2.5).
1. Preprocesamiento. Obtencin de informacin de contexto:
Obtener informacin de contexto para limitar los rangos de las
variables que indexan la base de datos m, d.
2. Procesamiento. Consultas a las vistas de la base de datos:
Obtenida la vista parcial de la base de datos, consultar para etiquetar
por motivos o por desafino.
La certeza de las asunciones que permiten restringir los rangos de las
variables depender de la complejidad de los escenarios estudiados. En
consecuencia, la decisin sobre los rangos de las vistas parciales de la base
de datos ser dependiente del problema, pudiendo conducir a diferentes
alternativas de diseo. En situaciones donde el problema que se pretenda
tratar sea el de regiones del mundo real con distribuciones homogneas de
los motivos m y variacin alta del desafino, tendremos la posibilidad de
limitar la base de datos en cuanto a los motivos, estando obligados a
mantener en la base de datos informacin sobre un amplio rango de valores
del desafino. Si, por el contrario, las escenas son complejas en cuanto a la
configuracin de los motivos manteniendo valores relativamente estables
del desafino, proceder mantener ms motivos en la base de datos acotando
ms el rango del desafino. Ser este ltimo caso de estabilidad relativa del
desafino y distribucin ms compleja de los motivos el que centre el
trabajo, por representar situaciones realistas y enfatizar la componente de
estudio del contexto en la repercusin del desafino.
Para solucionar el problema de limitar el conjunto de motivos posibles en
una escena puede plantearse la divisin de la base de datos en diferentes
contextos formando subconjuntos con diferentes motivos en cada uno de
ellos. Posteriormente, detectada uno o varios de los motivos en la escena, se
proceder a activar su contexto correspondiente. El carcter
fundamentalmente heurstico de esta solucin motiva desviar el inters al
estudio del contexto en lo que a desafino se refiere. En consecuencia, el
problema de obtener informacin de contexto relacionada con el desafino
es central en este trabajo, limitando supervisadamente el nmero de
motivos a las presentes en entornos concretos. Por otro lado, se enfatiza lo
que parece el caso ms interesante por habitual, que es asumir que el
desafino vara menos dentro de la escena que su configuracin de motivos.
Por ejemplo, escenas con diferentes motivos donde el nivel de iluminacin
es relativamente homogneo o la variacin de la escala se mantiene en
rangos asumibles.

53

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

El clculo del valor del desafino en una regin, es dependiente de los


parmetros a tratar, sin perjuicio de la existencia de mtodos genricos de
estimacin de los factores, que junto a su carcter genrico presentarn
menor nivel de precisin que los mtodos de estimacin especficos. Se
propondr un esquema de estimacin general que se basa en la utilizacin
de un etiquetado previo de motivos para la estimacin ms precisa del
desafino. El carcter especfico del preprocesamiento para la estimacin del
desafino configura un modelo general que se observa en la Figura 2.6:
Mtodo
estimacin
escala
CONSULTAS A BASES DE
CONOCIMIENTO
Mtodo
Vistas parciales de las Bases
estimacin
de conocimiento con
iluminacin Nivel
caractersticas de imgenes
medio
............ desafino con diferentes valores de
desafino.
Mtodo
estimacin
ngulo

Etiquetado de escala.
Etiquetado motivos
Imagen normalizada

Etiquetado ilumina.
Etiquetado motivos
Imagen normalizada

............
Etiquetado ngulo.
Etiquetado motivos
Imagen normalizada

Figura 2.6 Modelo de transformacin mediante estimacin del desafino

En el esquema observamos la particularidad del mtodo de estimacin del


desafino, el esquema general de consultas a bases de conocimiento y, por
ltimo, la obtencin de resultados mejorados. La imagen mejorada
proporcionada por el mtodo se basar en la incorporacin a la imagen del
etiquetado de motivos y el etiquetado de desafino, que sern utilizados por
las funciones de caracterizacin e interpretacin de niveles superiores,
mejorando el funcionamiento del sistema de visin, evitando sobre
segmentaciones, caracterizaciones errneas, etc.
Se ha razonado previamente sobre las consultas a las bases de datos de las
expresiones 2.4 y 2.5 y las posibilidades de simplificacin, mediante la
estimacin previa de los rangos del desafino d y/o los motivos m y la
consulta posterior a la vista parcial de la base de datos para los rangos
acotados de d y m. Llamaremos DBd(I,m,d) y DBm(I,m,d) a dichas vistas
parciales.
Sean infdj<dj<supdj los rangos de las diferentes componentes dj j=1..m del
vector de desafinos d correspondientes a los diferentes parmetros del
problema. Si podemos afirma que en una regin de la imagen I(x,y) /
xa<x<xb yc<y<yd, los valores de las componentes del desafino estn
acotadas entre los valores idj<dj<sdj, siendo infdj<idj<dj<sdj<supdj, podemos
54

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

afirmar que en esa regin slo necesitamos consultar la vista parcial de la


base de datos correspondiente a dichos rangos DBd(I,m,d), con (d(id1<d1<
s
d1,, idm<dm< sdm)).
En consecuencia, procede la estimacin previa del desafino d respecto del
parmetro o parmetros dj, que permitir la obtencin ms precisa de la
funcin de etiquetado de regiones m, mediante la consulta de la vista
parcial de la base de datos DBd(I,m,d). La expresin 2.8 es una extensin de
la 2.4 de etiquetado de motivos, incorporando la consulta a las vistas
parciales de la base de datos para el desafino conocido o acotado.

m = mDBd ( I ,m ,d ),d ( I , d )

2.8

La dimensin de los rangos de las componentes del desafino para la


divisin de la base de datos ser dependiente del problema, y se har de
acuerdo con la estimacin de la desviacin de dicho parmetro en diferentes
regiones de la escena. Una forma de abordar el problema de la divisin de
la base de datos en vistas parciales es analizar la desviacin tpica de las
componentes del desafino en cada regin de la escena. Conocida la media
de esta desviacin tpica en diferentes regiones, se podr asumir como
suceso improbable, que en una regin de la escena la distancia de una
componente del desafino respecto a su valor medio sea superior a dicha
desviacin. En consecuencia, se dividir la base de datos en vistas parciales
para los diferentes rangos del desafino, de dimensin acorde a esta
desviacin. En caso de que la desviacin tpica sea cercana al rango total
del parmetro, no se podr proceder a la divisin de la base de datos,
teniendo que consultar la base de datos completa. Denotaremos a los
subrangos con d 1 ,..., d ,..., d c (se observan los subrangos para el

Procesamiento

Etiquetado de motivos m
Consulta a la base de datos conocido dj

(d1,, dn)

ngulo Enfoque
dn-1
dn
Escala Iluminacin
d1
dj

Pre-procesamiento

Imagen
Entrada

Estimacin del desafino dj

desafino de un parmetro).

m1
dc

DBd(I,d,m)

d DBd(I,d,m)

d1

ms

DBd(I,d,m)

Figura 2.7 Esquema general de transformacin


55

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

En la Figura 2.7 se refleja el esquema general de la transformacin . En la


etapa de preprocesamiento se calculan los valores de los desafinos de cada
parmetro y en el procesamiento se consulta a la vista parcial de la base de
datos para el desafino conocido.
Por lo tanto, los pasos del modelo centrando el preproceso en el desafino
son los siguientes:
1. Preprocesamiento. Estimacin del desafino. 2.5
- Barrer la imagen incgnita con una ventana y clasificar cada elemento
de la imagen del tamao de la ventan segn la mejor concordancia
hallada en la base de datos. Etiquetar la regin con el desafino dj del
elemento de la base de datos DB(I,m,d).

- A partir de los desafinos elementales, estimar el desafino de la imagen


o las diferentes regiones de la imagen. Si pueden hacerse asunciones
sobre uniformidad del desafino en toda la imagen o en algunas partes, el
desafino general o de las partes podr estimarse como algn parmetro
estadstico de los desafinos elementales obtenidos para cada posicin de
la ventana de barrido.
2. Procesamiento. Etiquetado de motivos. 2.4
- Barrer nuevamente la imagen incgnita con una ventana y clasificar
cada elemento de la imagen del tamao de la ventan segn la mejor
concordancia hallada en la vista de la base de datos para ese calibrado
DBd(I,m,d).
Figura 2.8 Algoritmo general para la transformacin
La estimacin del desafino es una tarea dependiente del parmetro concreto
a estimar. No obstante de la experiencia obtenida en la experimentacin se
infiere la dificultad general de estimar el desafino sin el conocimiento del
motivo de la imagen. Estimar la escala media de una imagen sin
informacin respecto de los motivos presentes es complejo. Anlogamente
se puede decir de la iluminacin media cuya estimacin sin conocimiento
de los motivos de la imagen tambin es difcil.
De lo expuesto previamente surge una paradoja respecto al preprocesamiento. Por un lado, se enuncia la conveniencia en el modelo de
conocer el valor medio del desafino, para limitar las vistas de la base de
datos y estimar posteriormente el motivo. Por otro lado, se afirma que en el
preprocesamiento, para la estimacin del valor medio del desafino es
importante el conocimiento del motivo. Por lo tanto, a la asuncin respecto
a la homogeneidad del desafino en la escena, cuya dispersin limita las
posibilidades de divisin de la base de datos, se aade otra respecto al
inters de disponer en la escena de algn o algunos motivos que sean
fcilmente separables con independencia del desafino y que permitan la
estimacin precisa de este.
56

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

Se propone, en consecuencia, un mtodo para el pre-procesamiento que


utiliza la base de datos completa para separar los motivos claramente
distinguidos independientemente del desafino y seguidamente estimar el
nivel medio del desafino, conocidos dichos motivos. La parte central de
procesamiento utilizara el nivel medio del desafino estimado, para mejorar
el etiquetado de motivos preliminar, que se realiz con la base de datos
completa, en este caso utilizando vistas parciales de la base de datos para el
desafino conocido.
Como consecuencia de las restricciones aadidas, este mtodo ser
aplicable para resolver aquellos problemas en los que exista algn motivo
identificable independientemente del desafino, siendo este suficientemente
homogneo para permitir la divisin de la base de datos. Se utilizarn estos
motivos fcilmente identificables para estimar a partir de ellos el desafino
y, finalmente, con el valor conocido se resolvern las posibles confusiones
para los motivos que no han podido ser separados.
No obstante el estudio de mtodos para la estimacin del valor del desafino
con independencia de la estimacin del motivo puede resultar interesante,
sobre todo en aquellos problemas donde no existan motivos separados en la
base de datos completa que permitan la estimacin.

Etiquetado de motivos final


BD parcial estimado d

Procesamiento

(d1,, dn)

Iluminacin ngulo Enfoque


dn
d2
dn-1
Escala
d1

Mapa
motivos
inicial

Estimacin del desafino,


conocido el motivo.

Etiquetado de motivos
preliminar. Utilizando la base
de datos completa

Img

Preprocesamiento

Por lo tanto el refinamiento que se propone del modelo, incluyendo el


preprocesamiento es el que se observa en la Figura 2.9.

Mapa
motivos
final
m

Figura 2.9 Modelo de transformacin incluido el preprocesamiento

La formulacin general del modelo, incorporando el preprocesamiento,


quedara de la siguiente forma:

57

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

1. Preprocesamiento: Obtencin del desafino de una regin.


1.1 Etiquetado inicial de motivos: Obtencin del etiquetado de motivos
mediante la base de datos completa, para identificar correctamente aquellas
que estn separadas independientemente del desafino.

1.1.1 - Barrer la imagen incgnita con una ventana y clasificar cada


ventan segn la mejor concordancia hallada en la base de datos.
Etiquetar la ventana con el motivo del elemento de la base de datos
DB(I,m,d) (2.4).
1.2 Clculo del desafino: Con los motivos etiquetados en las diferentes
ventanas de la imagen, se calcula el desafino consultando las bases de datos
para las vistas parciales conocido el motivo. Finalmente se calcula el
desafino del contexto en las diferentes regiones de una particin de la
imagen (o la imagen completa).

1.2.1 - Barrer la imagen incgnita con la ventana del paso 1.1.1 y


clasificar cada elemento segn la mejor concordancia hallada en la vista
parcial de la base de datos para el motivo conocido. Etiquetar la ventana
con el desafino del elemento de la base de datos DBm(I,m,d).

d = dDBm ( I ,m,d ),m ( I , m )

2.9

1.2.2 - Para cada regin de una particin de la imagen (o la imagen


completa) asignar un desafino nico siguiendo el siguiente esquema de
votacin. Para todas las ventanas incluidas en la regin (o la imagen
completa), etiquetadas con el desafino en el paso previo, calcular el
nmero de votos para cada valor del desafino (d1,d2 dc), asumiendo
que el valor del voto de cada ventana est ponderado segn el motivo.
Los motivos claramente discriminados independientemente del desafino,
y cuya capacidad de estimacin de dicho desafino sea alta tendrn un
valor del voto superior. Etiquetar toda la regin (o la imagen completa)
con el desafino ganador de la votacin.
2. Procesamiento: Etiquetado final de motivos. Una vez estimado el
desafino se refina el etiquetado de motivos inicial, corrigiendo los errores
con las vistas parciales de la base de datos separada por desafino. 2.8.

2.1.1 - Barrer la imagen incgnita con la misma ventana del paso 1.1.1 y
clasificar cada ventan segn la mejor concordancia hallada en la vista
parcial de la base de datos para el desafino conocido DBd(I,m,d).
Etiquetar la ventana con el motivo del elemento de la base de datos.
Figura 2.10 Algoritmo general para la transformacin incluido el
preprocesamiento
58

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

En cuanto a las caractersticas extradas de las imgenes de entrada, con


objeto de consultar las bases de datos, de su naturaleza depender en gran
parte la calidad de los resultados, mostrndose en ocasiones capaces de
separar los diferentes motivos m o desafinos d, de la escena de forma
directa. Sin embargo, el nfasis del trabajo no se hace en el estudio de
caracterizadores con capacidad de discriminacin y por lo tanto invariantes
o tolerantes, sino en la utilizacin de caracterizadores sencillos de amplio
espectro, que proporcionan soluciones generales y de bajo coste de
implementacin. La efectividad de estos caracterizadores genricos se
conseguir mediante la aplicacin del modelo, obteniendo informacin de
contexto para simplificar las consultas. En el trabajo se recurre a
caracterizadores tan sencillos como histogramas de tonalidades, lo que
repercutir en una mejora de las posibilidades de paralelizacin. En
cualquier caso, la particularidad de las caractersticas que se almacenan en
las bases de datos, as como el mtodo para organizarlas, constituyen una
alternativa de implementacin del sistema que ser tratado en la propuesta
concreta de arquitectura del prximo apartado y sobre la que se desarrollar
la experimentacin.
En trminos generales, el coste computacional del modelo ser el coste de
cada una de las transformaciones que intervienen de forma secuencial
(2.10). El coste de cada clasificador depender del modelo seleccionado
para la clasificacin. Concretaremos estos costes en el apartado de
arquitecturas donde se toman las decisiones sobre clasificadores y
caracterizadores.

T ( ) = T ( mDB ) + T ( dDB ,m ) + T ( mDB ,d )

2.10

2.3. Casos particulares


Se revisa la particularizacin del modelo para algunos parmetros del
entorno y el sistema. Conscientes de la prdida de generalidad consecuencia
de la incorporacin en este punto de un apartado de particularizacin, la
ventaja de su tratamiento es la clarificacin de la propuesta presentada
previamente y la concrecin de aspectos en vistas al apartado siguiente de
arquitecturas, que teniendo cierta componente de generalidad requiere la
toma de decisiones concretas de organizacin que dependen del
conocimiento de los problemas particulares. Se estudian los parmetros
escala e iluminacin que sern, adems, tratados a nivel experimental en los
captulos correspondientes.

59

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

2.3.1 Reconstruccin y caracterizacin de imgenes


mal iluminadas
La intensidad de iluminacin reflejada es una magnitud del mundo real i
que contribuye a la formacin de los tonos de gris de cada punto de I. Los
valores de esta magnitud son funcin de la contribucin del motivo m, el
entorno e y la cmara c i(m,e,c). La contribucin del motivo m es su
coeficiente de reflexin, la del entorno es la intensidad de iluminacin del
foco emisor el y la de la cmara es la apertura del diafragma d.
Supongamos un entorno en el que la variable que contribuye el (intensidad
de iluminacin del foco emisor) y el parmetro de calibrado del sistema d
(diafragma) pueden cambiar. Se ha mencionado previamente que nuestra
pretensin es la aplicacin del modelo en entornos donde las fuentes de luz
no son puntuales eliminando los brillos y el ngulo entre las superficies de
la escena y el sistema de visin varia en rangos que permiten prescindir del
efecto de esta variable. Se centra, por lo tanto, el estudio en las condiciones
de iluminacin cuyas variables directamente relacionadas son la intensidad
de la fuente de emisin de luz el y la posicin del diafragma de la ptica d,
cuyo correspondiente punto de sintonizacin cl estar en el dominio de la
intensidad luminosa el.
el
intensidad de
iluminacin del foco
emisor

d
diafragma
Intensidad de
iluminacin reflejada
i

m
Coeficiente de reflexin del
motivo

Intensidad de iluminacin adquirida

I = F ( i ( mk , el , cl ) ) ; d cl

Figura 2.11 Contribucin de los parmetros del entorno el y la cmara d

Del modelo BRDF referido en los anexos se infiere una relacin entre el
parmetro de calibrado diafragma d y el parmetro del entorno intensidad
de iluminacin el, de forma que para un valor del diafragma d existir un
valor de la intensidad de iluminacin del entorno el para la cual la
sensibilidad ser mxima, lo hemos llamado el punto de sintonizacin cl. Es
decir el desafino por iluminacin dl o distancia entre el punto de trabajo el y
sintonizacin cl ser mnimo.
El problema que se plantea a la hora de inferir la naturaleza del motivo m es
que los mismos o similares niveles de iluminacin adquiridos para la
60

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

imagen I pueden proceder de motivos diferentes en condiciones diferentes


de las variables el y cl, es decir para desafinos dl distintos, incluso para
valores elevados de desafinos dl iguales, es decir situaciones de saturacin y
penumbra (2.6,2.7).
Se podr aspirar a reconstruir las imgenes mal iluminadas mediante la
sntesis de una nueva imagen percibida en condiciones mejoradas como se
expresa en 2.1, sin embargo el estudio se centra en la caracterizacin de
imgenes percibidas en condiciones reales. Prescindiendo de los aspectos
de calibrado que se estudian en los anexos y permiten relacionar los valores
de el y d para realizar la bases de datos, en el estudio nos centramos en la
estimacin del desafino por iluminacin dl en la escena. La solucin
planteada en el modelo se basa en la obtencin de informacin de contexto,
que permita acotar el rango de la variable dl y simplificar las consultas a las
bases de datos. Por lo tanto en el caso de la iluminacin procederemos
estimando el nivel de iluminacin dl y a continuacin se realizar el
etiquetado de regiones.
Cuando el desafino es por iluminacin dl, la estimacin del nivel medio del
entorno a partir de la informacin adquirida por el sistema de visin, est
condicionada por la superficie sobre la que se realiza dicha estimacin. La
estimacin del nivel medio de iluminacin del entorno a partir de la luz
reflejada ser dependiente de la superficie. En los casos extremos de una
pared blanca o una tela negra los comportamientos de los tonos reflejados
en relacin al nivel de iluminacin del entorno son muy distintos. Una
situacin anloga ser descrita para el nivel de escala. En consecuencia
siguiendo el modelo general para el pre-procesamiento se realiza un
etiquetado inicial de motivos (2.4), conocido el motivo se procede a la
estimacin del desafino dl (2.9) y finalmente se refina el etiquetado de
motivos con el desafino conocido (2.8).

2.3.2 Caracterizacin independiente del plano de


enfoque y zoom artificial
Una de las magnitudes del mudo real que contribuyen a I es la dimensin
de las proyecciones de los motivos de la escena. En los valores de
contribuyen el motivo m, el entorno e y la cmara c i(m,e,c). La
contribucin de m representa el tamao real de los motivos. La
contribucin del entorno e representa la distancia de enfoque ef. Finalmente,
la contribucin de la cmara c es el parmetro de calibrado de la cmara
zoom z. La imagen adquirida I depende de la escala (dimensin del rea de
proyeccin frente a la real). En este caso la cantidad de rea real reflejada
en el sensor depende del parmetro de calibrado zoom z y del parmetro
61

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

del entorno distancia de enfoque ef. Se expresa en los anexos que del
modelo de lente delgada se infiere una relacin entre el parmetro de
calibrado zoom z y el parmetro del entorno distancia de enfoque ef, de
forma que para un valor del zoom z existir un valor de la distancia de
enfoque ef para la cual la sensibilidad ser ptima (escala de percepcin
ptima para un entorno determinado), lo hemos llamado el punto de
sintonizacin cf. Es decir el desafino por distancia de enfoque de o distancia
entre el punto de trabajo ef y sintonizacin cf ser mnimo.
En el caso de la escala, el problema de separabilidad de las componentes es
el mismo que fue descrito para la iluminacin. Se podrn obtener imgenes
similares procedentes de motivos distintos en condiciones de escala
diferentes o iguales.
z
Tamao de la
proyeccin
i

mk

zoom

ef
distancia de enfoque

I = F i ( mk , e f , c f ) ;

z cf

Tamao del motivo

Figura 2.12 Contribucin de los parmetros ef z.y m en la formacin de I

El modelo plantea la posibilidad de reconstruir imgenes, en este caso en


condiciones de escala mejoradas (zoom artificial). Sin embargo el estudio
se centra en la caracterizacin independiente de la escala. De acuerdo con el
modelo, en el caso de la escala se estima en preprocesamiento el desafino
por distancia de enfoque medio de en la escena. Conocida el desafino de
medio, en procesamiento se realizar el etiquetado de regiones, consultando
las vistas parciales de la base de datos para el valor de de conocido.
En este caso la estimacin idnea del nivel de escala medio, ser tambin
dependiente de la superficie sobre la que se realice dicha estimacin.
Pretender estimar la escala a partir de la visualizacin de una pared lisa es
una tarea compleja. Sin embargo, otras superficies que muestran figuras
cuya dimensin depende de la escala podrn ser utilizadas para estimarla
con mayor precisin. An en el caso de utilizar superficies con textura, la
dimensin de las formas de estas texturas depender tanto de la escala como
de la naturaleza de las formas. En consecuencia, ser interesante conocer la
superficie (2.4) para estimar seguidamente la escala (2.9), sin perjuicio de la
existencia de mtodos de estimacin de la escala que prescindan del
conocimiento de la superficie.
62

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

3. ARQUITECTURA DEL SISTEMA DE


VISIN REALISTA
Se ha propuesto un modelo para el tratamiento del los problemas
relacionados con la visin realista, analizndolos desde la entrada donde
intervienen los parmetros del entorno y del sistema, incidiendo en el nivel
medio y bajo de los sistemas de visin mediante la incorporacin de
transformaciones para la mejora de la imagen. El inters de los apartados
precedentes era la propuesta del modelo general y no tanto la consideracin
de aspectos organizativos y de rendimiento. En este punto se tratan estos
aspectos no abordados previamente en aras de la generalidad. Se toman
decisiones concretas respecto a los mtodos para la implementacin de las
bases de datos, los caracterizadores utilizados, as como sobre la etapa de
preprocesamiento, obteniendo una arquitectura que podr ser evaluada en
aspectos relacionados con la correccin y rendimiento. Aunque la
arquitectura que se propone tiene el objetivo de poder aplicarse
sistemticamente para el tratamiento de diferentes parmetros, las
decisiones concretas sobre los caracterizadores para la implementacin de
las bases de datos sern probadas finalmente para el tratamiento de la escala
e iluminacin particularizados previamente.
Nivel alto
Interpretacin y Caracterizacin

Imagen
Interpretada

Nivel Medio.
Transformacin de la imagen

Imagen
segmentada
etiquetada
m, d

Nivel Bajo.
Sntesis de imagen mejora

Imagen
mejorada
I

Nivel de adquisicin
Mejora de la adquisicin mediante calibrado

cielo
vegetacin
via

Imagen
adquirida
I

Figura 2.13 Arquitectura completa para visin realista

Como paso previo al estudio de la arquitectura concreta, vamos a


proporcionar la perspectiva de los sistemas de capas relacionando cada una
de ellas con las diferentes etapas estudiadas previamente para los sistemas
de visin. La arquitectura de visin que se observa en la Figura 2.13,
organiza las funciones en los diferentes niveles, de forma que las
transformaciones propuestas estaran ubicadas en el nivel medio y bajo,
63

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

mejorando la calidad de las imgenes del nivel de adquisicin para facilitar


las tareas de las funciones del nivel de interpretacin y caracterizacin.
La jerarqua que muestra la Figura 2.13 corresponde a un sistema de visin
de propsito general, por supuesto sta puede simplificarse o complicarse
de acuerdo con los requerimientos de alto nivel del problema concreto. En
este punto se podra estudiar, aunque no es inters central del presente
trabajo, las secuencias de funciones anidadas y como estos anidamientos
influyen en el resultado final. Esto permitira analizar la idoneidad de la
combinacin de diferentes funciones en cada nivel, desde el punto de vista
de la minimizacin del error de cada nivel y en consecuencia del de
interpretacin. Por ejemplo, la conexin de una funcin de caracterizacin
basada en un mtodo de esqueletizacin con una de segmentacin, ofrecer
una tolerancia al error en la segmentacin (sobre segmentacin) de forma
que en caso de presencia de altos niveles de dicho error, las caractersticas
extradas sern de menor precisin induciendo un error en la interpretacin.
En cualquier caso, el modelo se centra en el tratamiento del problema del
realismo y por lo tanto interesa la profundizacin en el nivel medio y bajo.
Se estudia el nivel medio desde el punto de vista del inters de proporcionar
mejoras de la calidad de la imagen mediante etiquetados de motivos y de
desafino. Las mejoras de la calidad se entienden como mejoras del
resultado final del proceso de visin. En los anlisis previos se han ofrecido
diferentes posibilidades para el tratamiento de la incertidumbre:
Mejora mediante calibrado: Se propone como solucin peor la captura de
informacin mejorada en caso de situaciones extremas del desafino. Se han
revisado algunas relaciones entre parmetros de calibrado y del entorno y
las posibilidades de sintonizacin. Se ha comentado previamente que la
particularidad de estas relaciones no ser tratada en este trabajo ms que
para abordar la realizacin de las bases de datos, su utilizacin como
esquema de mejora de la imagen requiere la captura de informacin nueva.
Sntesis de imgenes: Se plantea utilizar I para sintetizar imgenes con
valores del desafino optimizados. Se propone como lnea futura la
posibilidad de consultar las bases de datos para transformar la imagen de
entrada en otra obtenida en condiciones mejoradas.
Etiquetado de motivos y de desafino: Se plantea proporcionar etiquetados
mediante m y d con la distribucin espacial del desafino d y de regiones
m. Estos etiquetados podrn ser utilizados en niveles superiores de la
jerarqua para mejorar la respuesta. La ausencia de aplicacin definida de la
arquitectura de visin hace difcil contrastar esta mejora en un amplio rango
de casos. Sin embargo, la idea de proporcionar segmentaciones y etiquetado
de calidad en entornos reales, como ayuda para caracterizaciones e
interpretaciones ha sido ampliamente utilizada.
64

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

3.1. Motor de inferencia SOM


Para abordar la tarea de clasificacin de las ventanas de barrido de la
imagen incgnita por comparacin con las diferentes imgenes
almacenadas en la base de datos, es necesario seleccionar algn
clasificador. Como se ha visto en el estado del arte, la literatura ofrece
multitud de posibilidades de esquemas de clasificacin que podran ser
utilizados en esta arquitectura (template matching, clasificacin estadstica,
matching estructural o sintctico y redes neuronales) (Jain et al, 1999a)
(Jain et al, 1999b). Entre los paradigmas mencionados se han elegido las
redes neuronales por el paralelismo inherente y las posibilidades de
implementacin a bajo nivel. No obstante, la investigacin se centra en la
correccin y validez del modelo y no tanto en la seleccin del mejor
mtodo de clasificacin especfico. El criterio bsico para la eleccin del
modelo autoorganizativo de Kohonen (Kohonen, 1995) ha sido su amplia
consolidacin y aceptacin, adems de su capacidad discriminante, el alto
grado de paralelismo y las capacidades de reconfiguracin inherentes a las
metodologas conexionistas. A pesar de las ventajas del modelo que
exponemos, la consciencia de las posibles mejoras de resultados derivadas
de la utilizacin de modelos diferentes, abre una lnea de investigacin que
se plantear como trabajo futuro. El objetivo es validar el modelo en un
amplio conjunto de casos, siendo conscientes de que su utilizacin en
aplicaciones con requerimientos especficos podra indicar la utilizacin de
clasificadores diferentes que optimizasen los resultados.
La utilizacin de mapas autoorganizativos ha permitido la evaluacin de la
capacidad discriminante de diferentes caracterizadores extrados de las
imgenes, es decir su idoneidad para agrupar las imgenes incgnita
atendiendo a diferentes criterios de clasificacin (etiquetado de motivos o
valor del desafino) en fase de adiestramiento. Por otro lado, estos mapas
autoorganizativos se plantean como base de una arquitectura general para el
sistema de visin en condiciones realistas. La posibilidad de
implementacin de los diferentes mapas (Hammerstrom y Nguyen, 1991)
(Ienne et al, 1997) (Pino et al, 1994) (Rping et al, 1998) mediante la
reconfiguracin de la arquitectura neuronal, permite abordar el tratamiento
de los diferentes problemas de calibrado utilizando como base la misma
arquitectura. Para ello se hace uso de la capacidad de prototipado del
hardware reconfigurable cuyas caractersticas son idneas para cubrir los
requerimientos planteados, proporcionando implementaciones de bajo
nivel, con alto grado de paralelismo y con capacidad de reconfiguracin
(Ratha y Jain, 1999).
Los mapas autoorganizativos se han construido a partir de caractersticas
extradas de las imgenes (I) de la base de datos DB(I,m,d) (diferentes
65

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

motivos m para distintos valores del desafino d). Segn el criterio de


clasificacin de este conjunto de caractersticas (I) se obtienen mapas
autoorganizativos distintos; clasificados por materiales mSOM((I),m,d) o
por valores de las funcin de calibrado dSOM((I),m,d).
El etiquetado de los mapas autoorganizativos por motivo mSOM((I),m,d)
puede mostrar niveles de acierto que indiquen la suficiencia, en ocasiones,
de la parte central de procesamiento para implementar el etiquetado de
motivos m (2.11).

m = mm SOM ( ( I ), m,d ) ( I )

2.11

Como se ha expresado previamente, las consultas a las bases de datos se


pueden simplificar mediante la estimacin previa de los valores del
desafino d y la consulta posterior a la vista parcial de la base de datos
DBd(I,m,d). Estas vistas parciales de la base de datos se clasificarn por
materiales mSOMd((I),m,d). Una vez estimado el valor del desafino d, se
activa el mapa correspondiente a este valor. Estos mapas parciales
separados por niveles de desafino d eliminan el solapamiento de algunos
patrones pudiendo ofrecer mejores resultados (2.12).
En cualquiera de los dos casos expresados en las ecuaciones 2.11 y 2.12 el
caracterizador propuesto (I) es el histograma de tonalidades cuya
generalidad, tolerancia ante transformaciones y facilidad de computo es
conocida (Hadjidemetriou et al, 2001a).

Valor del
desafino
d

d1

SOM d1 ( ( I ) , m, d )

d2

SOM d 2 ( ( I ) , m, d )

mrmol

2.12

tela

Procesamiento

corcho

madera

Pre-procesamiento
Estimacin del valor del
desafino

m = mm SOM ( ( I ), m, d ),d ( I , d )
d

d c-1

SOM d c 1 ( ( I ) , m, d )

dc

SOM d c ( ( I ) , m, d )
Arquitectura SOM
reconfigurable

Figura 2.14 Arquitectura basada en SOM

66

Etiquetado
de motivos
m

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

En la Figura 2.14 se observa el proceso completo con los mapas


autoorganizativos separados por niveles del desafino y ordenados por
motivos. En la fase de preprocesamiento se estima el desafino d, tambin
mediante consultas a la base de datos DB(I,m,d). Es posible utilizar,
tambin, mapas autoorganizativos etiquetados por valores de desafino
d
SOM((I),m,d) en este caso (2.13).

d = dd SOM ( ( I ), m, d ) ( I )

2.13

En el preprocesamiento, las consultas a las bases de datos se pueden


simplificar mediante la estimacin previa, en este caso de los motivos m y
la consulta posterior a la vista parcial de la base de datos para los motivos
conocidos m. Adems, no todos los materiales muestran la misma
idoneidad para permitir la estimacin del desafino. Como se ha expresado
previamente, la estimacin de la escala en base a una superficie lisa o la
iluminacin mediante una blanco o negra puede ser compleja.
El esquema utiliza la base de datos completa para realizar un etiquetado
previo de motivos m, tras el cual se seleccionarn los motivos idneas para
estimar el desafino d. Para ello se utilizan las bases de datos separadas, en
este caso, por motivos DBm(I,m,d) que facilitan el etiquetado por desafino,
seleccionando aquellos motivos que presenten mayor ndice de xito. Para
la implementacin de las consultas a las vistas parciales de la base de datos
separada por motivos para la estimacin del desafino, se pueden utilizar
mapas autoorganizativos (2.14).

d = dd SOM ( ( I ), m, d ),m ( I , m )
m

2.14

No obstante, la simplicidad de la consulta en algunos casos (como ocurre


con el nivel de iluminacin) permitir la utilizacin de esquemas simples de
interpolacin de funciones, que representaremos como consultas directas a
las bases de datos Interpolam(I,m,d) (2.13).

d = dInterpolam ( ( I ),m ,d ),m ( I , m )

2.15

La Figura 2.15 muestra el esquema de la fase de preprocesamiento. En


primer lugar se utiliza el mapa autoorganizativo de la base de datos
completa 2.11 y a continuacin los mapas autoorganizativos o los esquemas
de interpolacin de la base de datos separada por motivos (2.14, 2.15).

67

d c 1 d c

d1 d 2
d

SOM m ( ( I ) , m, d )

SOM m ( ( I ) , m, d )

desafino

SOM ( ( I ) , m, d )
mrmol tela

Interpretacin
motivos inicial

corcho

Preprocesamiento

madera

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

SOM m ( ( I ) , m, d )

SOM m ( ( I ) , m, d )

Arquitectura SOM
reconfigurable
Figura 2.15 Preprocesamiento basado en SOM

SOM m ( ( I ) , m, d )

desafino

SOM m ( ( I ) , m, d )

SOM m ( ( I ) , m, d )

Valor
desafino
d
d c-1
d

tela

mrmol

d1

corcho

SOM m ( ( I ) , m, d )

SOM d 1 ( ( I ) , m, d )

SOM d 2 ( ( I ) , m, d )

SOM d c 1 ( ( I ) , m, d )

SOM d c ( ( I ) , m, d )

Etiquetado
motivos m

d c 1 d c

madera

Procesamiento

d1 d 2

SOM ( ( I ) , m, d )
mrmol tela

Interpretacin
motivos inicial

corcho

Preprocesamiento

madera

En la Figura 2.16 se observa el proceso completo con los diferentes mapas


autoorganizativos utilizados en cada una de las etapas.

Arquitectura SOM reconfigurable

Figura 2.16 Arquitectura completa basado en SOM

3.2. Normalizacin conjunta de iluminacin y


escala
El modelo y la arquitectura propuestos contemplan la posibilidad de la
consideracin de desafinos procedentes de diferentes relaciones entre
parmetros de calibrado y del entorno (d1,,dn). En el punto de
particularizacin del modelo se abord el caso concreto de la iluminacin y
la escala como variables separadas. En el estudio conjunto de variables, la
base de datos deber almacenar imgenes para todas las combinaciones
necesarias de desafinos a estudiar. Esto plantea un problema de coste
68

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

espacial que podr ser mejorado mediante la utilizacin de caracterizadores


sencillos, as como mediante la reduccin en las frecuencias de muestreo de
las variables.
Un caso particular de especial inters es el de variacin conjunta de dos
parmetros (d1, d2). Esta instancia del modelo dar cabida a la aplicacin en
el caso de la variacin conjunta de la escala y las condiciones de
iluminacin, de cuyos parmetros se ha hablado previamente y cuyo inters
es consecuencia de su frecuente incidencia en situaciones realistas. Se
observa en la Figura 2.17 la base de datos para la variacin conjunta de dos
distancias de desafinos.
El modelo se inicia con el preprocesamiento estimando el valor del
desafino. En el caso del estudio conjunto de dos distancias de desafino es
posible la estimacin de las dos, para etiquetar por motivos con el desafino
conocido. Se podrn seguir dos estrategias no excluyentes en la
particularizacin del modelo para el etiquetado de motivos m: consultar las
vistas parciales de las bases de datos para los valores de los desafinos por
separado o de forma conjunta.
d1 sup
d1 sup-1

Corcho

Terrazo Madera 1

d1.
d1 5
d1 4
d1 3
d1 2
d11
d1 inf
d2 inf

d2 sup-1

d2 sup

Figura 2.17 Base de datos conjunta

En la Figura 2.18 se observa la vista parcial de la base de datos para el valor


conocido de una de las componentes del desafinos d1. En la arquitectura se
propone la utilizacin de mapas autoorganizativos etiquetados por motivos
para estas vistas parciales.

69

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura
d1 sup
d1 sup-1
d1 estimado 3

Corcho

Terrazo

Madera 1

d1.

SOM d1 =3 ( ( I ) , m, d )

d1 5
d1 4

d1 = 3

d1 3
d1 2
d1 inf
d1 0
d2 inf

d2 sup-1

d2 sup

Figura 2.18 Vista parcial de la base de datos conjunta conocido d1

Alternativamente se podr estimar el valor de la segunda componente de


desafino d2. En la Figura 2.19 aparece la vista parcial de la base de datos
para un valor conocido de la distancia d2. Se dispondr, as mismo, de
mapas autoorganizativos etiquetados por motivo para estas vistas parciales.
d1 sup
d1 sup-1

Tela 1

Corcho

Terrazo

Madera 1

SOM d2 =sup 1 ( ( I ) , m, d )

d1 .
d1 5
d1 4
d1 3
d1 2
d1 inf
d1 0
d2 inf

d2 sup-1

d2 sup

Escala 154

d2 estimado sup-1

d2 =sup-1

Figura 2.19 Vista parcial de la base de datos conjunta conocido d2

Por ltimo, en la Figura 2.20 se observa la vista parcial de la base de datos


para los valores conocidos de los desafinos d1 y d2 de forma conjunta. Se
dispondr, de mapas autoorganizativos etiquetados por motivos para la
vista parcial conjunta. En la figura se observa el caso particular de los
desafinos de iluminacin y escala.

70

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas


NI 89
NI 88

Nivel de
iluminacin
estimado 3

Corcho

Terrazo Madera 1

NI .
NI 5
NI 4
NI 3
NI 2

NI 1

NI 0
Escala 0

SOM dl ,de ( ( I ) , m, d )
NI 3

Escala 149
Escala 149

Escala 150

Valor de escala
estimado 149

Figura 2.20 Vista parcial de la base de datos conocido d1 y d2

madera
corcho

Pre-procesamiento
Estimacin de los desafinos
d1, d2

d1

tela
mrmol

A continuacin en la Figura 2.21 se observa la arquitectura propuesta en el


caso de la consideracin conjunta de dos desafinos. Esta situacin aconseja
la estimacin de los dos desafinos, para permitir diferentes vistas parciales
segn la consideracin individual o conjunta de las estimaciones.
m

d2

SOM d1 ( ( I ) , m, d )

SOM d1,d2 ( ( I ) , m, d )

etiquetado

SOM d2 ( ( I ) , m, d )

Figura 2.21 Arquitectura basada en SOM para la base de datos conjunta

El motivo del inters de la instancia del modelo en el estudio de dos


parmetros es consecuencia de la frecuente incidencia en situaciones
realistas de la escala e iluminacin. La obtencin de caracterizadores
sencillos para la estimacin de la escala es compleja, en consecuencia se
recurrir a propiedades de forma, concretamente histograma de coeficientes
morfolgicos esc(I) y SOM como clasificadores 2.14. En cuanto a los
caracterizadores para la estimacin de la iluminacin ilu(I) se utilizar un
esquema simple de interpolacin de funciones que relacione el nivel de
iluminacin con el tono medio de la imagen de una superficie 2.15.
Pasos de ejecucin

A continuacin aparecen los pasos de ejecucin de la arquitectura, en


particular para el estudio conjunto de la escala y la iluminacin.
71

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

1. Preprocesamiento: Obtencin del desafino en una regin o la imagen


1.1 Etiquetado inicial de motivos: Obtencin del etiquetado de motivos
mediante el mSOM(1(I),m,d), para identificar correctamente aquellos que
estn completamente separadas independientemente del desafino.

1.1.1 - Barrer la imagen incgnita con una ventana.


- Para cada ventana calcular el caracterizador para el etiquetado de
motivos mot(I). En nuestra arquitectura se propone la utilizacin de
histogramas de tonalidades Hist(I).
- Para cada ventana clasificarla segn la mejor concordancia hallada en
m
SOM(hist(I),m,d). Etiquetar la ventana con el motivo m.

m = mm SOM (

hist

( I ), m , d )

(I )

2.16

1.2 Clculo del desafino: Con los motivos etiquetados previamente se


calcula el desafino consultando las bases de datos para las vistas parciales
conocido el motivo. Finalmente se calcula el desafino del contexto en las
diferentes regiones de una particin de la imagen (o la imagen completa).

1.2.1 - Barrer la imagen incgnita con la ventana del paso 1.1.1


- Para cada ventana calcular 1(I)n(I). Un caracterizador para cada
desafino. En el caso de escala de e iluminacin dl, esc(I)=HCM(I)
(Histograma de Coeficientes Morfolgicos), ilu(I)=TM(I) (tono medio).
- Para cada ventana clasificarla segn la mejor concordancia hallada en
d
SOMm(HCM(I),m,d) y Interpolam(TM(I),m,d). Etiquetar la ventana con
el desafino d.

d e = dd SOM ( ( I ), m, d ),m ( I , m )
m HCM
d
dl = Interpolam ( TM ( I ),m, d ),m ( I , m )

2.17
2.18

1.2.2 Para cada parmetro del desafino y para cada regin de una
particin de la imagen (o la imagen completa) asignar un desafino nico
siguiendo el siguiente esquema de votacin.
- Barrer la regin (o la imagen completa) con la ventana del paso 1.1.1
- Para cada ventana calcular el valor del voto segn: La separacin del
motivo que etiqueta la ventana en mSOM(sup(I),m,d). Segn la
capacidad del motivo de estimar el desafino en dSOMm(i(I),m,d) y
Interpolam(TM(I),m,d).
- Para cada ventana incrementa, con el valor previamente calculado, el
nmero de votos del calibrado correspondiente a su etiqueta de entre los
posibles para cada parmetro (d1d2 dc).
- Etiquetar toda la regin (o la imagen completa) con el desafino
ganador de la votacin.

72

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

2. Procesamiento: Etiquetado final de motivos. Una vez estimado el


desafino se refina el etiquetado de motivos inicial, corrigiendo los errores
mediante las vistas parciales de la base de datos separada por desafino.
2.1.1 - Barrer la imagen incgnita con la ventana del paso 1.1.1
- Para cada ventana calcular hist(I).
- Para cada ventana clasificarla segn la mejor concordancia hallada en
m
SOMd(hist(I),m,d). Etiquetar la ventana con el motivo m.

m = mm SOM ( ( I ),m ,d ), d ( I , d )
d hist

2.19

Figura 2.22 Algoritmo para la escala e iluminacin

Etiquetado de ventana y de punto

El modelo descrito realiza un barrido de la imagen de entrada utilizando


ventanas y asignndoles diferentes etiquetas, segn la etapa del proceso.
Tanto el tamao de la ventana como el nmero de ventanas utilizadas para
el muestreo influyen en la calidad de la respuesta. Los valores de estos
parmetros pueden conducir al solapamiento de las ventanas de muestreo,
en cuyo caso la etiqueta asignada a cada punto depender de las asignadas a
las ventanas de muestreo que incluyen dicho punto.
Suponiendo que se est realizando un etiquetado de motivos con una base
de datos con motivos (m1..ms). Sea p el nmero de ventanas etiquetadas que
contienen a un punto, y sea d la distancia eucldea en la ventana del punto a
su centro. El algoritmo de votacin para cada punto, acumular para cada
ventana votos de valor v (2.20) en cada motivo (m1..ms). El punto ser
etiquetado con el motivo ganador.

v=e

2 2

2.20

En cuanto al tamao de la ventana, el problema ser tratado en el estudio de


los casos del captulo siguiente. La utilizacin de ventanas de pequeo
tamao tiene el problema de la falta de representatividad de las
caractersticas extradas. Las ventanas de barrido grandes representan con
ms precisin las regiones pero en el proceso de barrido aumentan las
posibilidades de ubicacin en zonas frontera, induciendo al error. En los
captulos de experimentacin tendremos ocasin de ver ejemplos de estos
casos.

73

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

3.3. Arquitectura segmentada para el


tratamiento de la iluminacin
Planteada la arquitectura del sistema de visin realista es posible abordar el
problema del rendimiento con ms concrecin. Es necesario hacer la
consideracin de que los niveles medio y bajo de la jerarqua obligan a
trabajar sobre conjuntos de datos poco elaborados y por otro lado las
restricciones temporales en este nivel son las ms severas. Estas
consideraciones aconsejan el estudio desde la perspectiva del rendimiento,
planteando en consecuencia los mtodos para la implementacin a bajo
nivel del sistema. Partiendo del coste del modelo expresado en 2.10 y en
concreto para la arquitectura propuesta el coste de la transformacin ser el
expresado en 2.21.

T ( ) = T ( mSOM ) + T ( dDB ,m ) + T ( mSOM ,d )

2.21

El coste temporal de estas transformaciones depender del coste de las


consultas a las bases de datos y el del clculo del caracterizador
correspondiente en cada caso, que para la escala e iluminacin mencionadas
previamente ser el siguiente:

T ( mSOM ) = T ( Hist ( I ) ) + T ( m SOM )

e
T dSOM
, m = T ( HCM ( I ) ) + T

dl
T int
erpol , m = T ( TM ( I ) ) + T

T mSOM ,( dl ,de ) = T ( Hist ( I ) ) + T

de

dl

SOM m

2.22

Interpolm

2.23

SOM ( dl ,de )

2.24

2.25

Los caracterizadores pueden calcularse inicialmente y de forma


independiente entre ellos. Por otro lado, el clculo de los SOM y la
interpolacin podr comenzar secuencialmente finalizado el de sus
caracterizadores. Por tanto, el coste general de la arquitectura estar acotado
por:

T ( ) = Max T ( Hist ( I ) ) , T ( HCM ( I ) ) , T ( TM ( I ) ) +

+T ( m SOM ) + Max T ( d SOM m ) , T ( d Interpolm ) + T ( m SOM d )


74

2.26

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

En la Figura 2.23 se observan los pasos de la arquitectura. El paso 1 de


clculo de caracterizadores, el paso 2 con el mSOM para el etiquetado
inicial superficial, el paso 3 con el dSOMm para la escala, as como el
mtodo de interpolacin para evaluar el nivel de iluminacin y el paso 4
con los mSOMd para el etiquetado superficial final.
Imagen entrada. RAM

Paso 1
Ventana 1
Ventana 2

Paso 3
T1T2T3

Paso 2

EP Hist 1
EP Hist 2
EP Hist 3

SOM

Sup 1
Sup 2
Sup 3

Hist 1
Hist 2
Hist 3

Tonos medios
Tn

T on o medio

NI 1
NI 2
NI 3

250

Global regin. Media

200

......

T on o medio 17 5 . Par ed

15 0

10 0

50

Hist n-2
Hist n-1
Hist n

Paso 3
Sup 1 Sup 2 Sup 3

EP Hcm 1
EP Hcm 2
EP Hcm 3

......

Hcm1
Hcm2
Hcm3

Hcm n-2
Hcm n-1
Hist n
EP Hcm n-2
EP Hcm n-1
EP Hcm n

Nivel u
li min aci n 4

Tela 1
99.71

Tela 2
83.51

0
0

10

20

30

40

50

60

70

80

Nivelde u
li min aci n

90

NI n-2
NI n-1
NI n

Sup n-2 Sup n-1 Sup n

Tela 3
83.06

Terrazo
80.22

Tela 7
73.82

Tela 5
60.80

Tela 6
57.51

Madera 3
57.37

Madera
31.91

Tela 4
23.55

Gres 2
22.26

Gres
21.75

Mrmol
20.31

Pared
15.64

Madera 2
15.31

Corcho
13.71

NE 1
NE 2
NE 3

Paso 4

NE n-2
NE n-1
NE n

Nivel esc0
ilu1

Nivel esc0
ilu0
Global regin. Media

Ventana n

EP Hist n-2
EP Hist n-1
EP Hist n

Sup n-1
Sup n

Nivel esc0
ilu2

Nivel esc0
ilu3
Sup 1
Sup 2
Sup 3

80,5 %
Nivel esc1
ilu0

93,2 %
Nivel esc1
ilu1

96,6 %
Nivel esc1
ilu2

97,7 %
Nivel esc1
ilu3

83,0 %
Nivel esc2
ilu0

93,0 %
Nivel esc2
ilu1

95,0 %
Nivel esc2
ilu2

95,8 %
Nivel esc2
ilu3

76,6 %

89,7 %

94,13 %

Hist 1

Sup n-2
Sup n-1
Sup n

94,13 %
Hist n

Histogramas

Figura 2.23 Mdulos de una instancia de la arquitectura

Las posibilidades de paralelizacin dependen tanto de los caracterizadores


concretos como de los recursos utilizados para implementar la arquitectura.
La casustica que se plantea es demasiado amplia para abordar todos los
casos. Por lo tanto, a continuacin vamos a plantear una arquitectura para
una instancia concreta del modelo, cuya implementacin con hardware
reconfigurable detallamos en los anexos.
En los casos de estudio cuyos resultados se detallan en los siguientes
captulos se propone el etiquetado de escenarios de interiores y exteriores.
En algunos de estos casos concretos, no se hace necesario contemplar la
influencia de la escala y si la de la iluminacin. Esta simplificacin afecta
fundamentalmente a los caracterizadores, que se reducen al clculo del
histograma de tonalidades. Adems, en estos casos no es necesario realizar
continuamente el preprocesamiento para estimar el valor del desafino por
iluminacin, puesto que los valores reales slo cambian transcurridos
ciertos intervalos de tiempo. De esta forma la arquitectura procesa en dos
pasos: el preprocesamiento slo se ejecuta transcurrido cierto intervalo de
tiempo predeterminado segn el problema especfico, para provocar, si es el
caso, la reconfiguracin del hardware necesaria en la parte central del
procesamiento.
75

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

Paso1: Preprocesamiento: Obtencin del desafino por iluminacin: Este


paso deber repetirse slo transcurridos los intervalos de tiempo
predeterminados, en cuyo caso se reconfigurar el hardware de la parte
central del proceso. En preprocesamiento se calcula el histograma y el tono
medio de cada ventana, se consulta el mSOM y se interpola la funcin
correspondiente a la superficie conocida m.

T ( mSOM ) = T histograma ( I ) + T ( m SOM )


normalizado

T dDBl ,m = T tono ( I ) + T dl Interpolam


medio

2.27

2.28

El coste de la arquitectura en fase de preprocesamiento se expresa en 2.29.



T ( pre pro ) = Max T histograma ( I ) , T tono ( I ) +


medio

normalizado
+T ( m SOM ) + T

dl

2.29

Interpolam =

T histograma ( I ) + T ( m SOM ) + T
normalizado

dl

Interpolam

Paso 2: Procesamiento: Etiquetado de motivos: Conocido el desafino por


iluminacin la arquitectura calcula el histograma y consulta el mSOMd.

El coste de la arquitectura en fase de procesamiento se expresa en 2.30.

T mSOM ,dl = T histogrma ( I ) + T


normalizado

SOM dl

2.30

Nos vamos a centrar en la arquitectura para el procesamiento por ser la


etapa que se ejecuta continuamente a diferencia del preprocesamiento. En el
prototipo que se detalla en los anexos el preprocesamiento se implementa
en software. Por lo tanto, para el procesamiento y a la vista del algoritmo de
la Figura 2.24 los costes son los siguientes. Para la implementacin del
SOM se ha recurrido a la utilizacin de la distancia Manhattan para evitar
las multiplicaciones y races cuadradas de la distancia eucldea (Porrmann
et al, 2001).

T histograma ( I ) = n ( tk1 + mk2 )


normalizado

m
T SOM dl = n ( 2k1 + r ( k1 + tk3 + k4 ) )

T ( m ) = n ( tk1 + mk2 + 2k1 + r ( k1 + tk3 + k4 ) )

76

2.31
2.32
2.33

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

Para cada ventana de muestreo V1Vn


Para cada componente del Hist i=1..t
Hist[i]=0 (k1) (Asignacin)
Finpara
Para cada punto de la ventana P1 Pm
++Hist[Pi] (k2) (Incremento)
Finpara
DistManhatanGana= (k1) (Asignacin)
Para cada neurona del mapa N1 Nr
DistManhattan=0 (k1) (Asignacin)
Para cada componente del Hist 1..t
DistManhatan+=|Ni[j]-Hist[j]| (k3) (Distancia)
Fin para
Si DistManhatan<DistManhatanGana (k4) (Compara)
DistManhatanGana=DistManhatan
Ganadora=Ni
Finpara
Eiqueta[Vi] = Ganadora (k1) (Asignacin)
Finpara
Figura 2.24 Algoritmo para el procesamiento

Puesto que el algoritmo procesa largas secuencias de ventanas (tantas como


ventanas de muestreo por imagen y asumiendo la captura de sucesivas
imgenes), se justifica una arquitectura segmentada que realice diferentes
partes del proceso sobre sucesivas ventanas de la imagen (Hwang y Briggs,
1993). La divisin en etapas del proceso deber integrar el clculo del
histograma y la consulta al mapa autoorganizativo. Una posible divisin del
histograma es que cada mdulo se ocupe de h de las m componentes de
cada ventana, con cualquier criterio de separacin de las componentes en
m/h subconjuntos que constituyan una particin. En cuanto al mapa
autoorganizativo, se puede dividir el proceso en mdulos que calculan la
distancia mnima y la neurona ganadora de un subconjunto de s neuronas de
las r totales del mapa.
Vm= ventana tamao m

RI

RI

Ng

Dg,Ng

Mdulo neurona
s neuronas SOM

Ht

Mdulo neurona
s neuronas SOM

Ht

Dg,Ng
RI

Ht

Ht
RI

Mdulo
histograma
h pts

Ht

Vm

Vm

Ht

Vm
Ht

Mdulo
histograma
h pts

Dg,Ng

Dg= Distancia ganadora


Ng= neurona ganadora

Ht= histograma tamao t

RI

RI

Figura 2.25 Arquitectura segmentada para el sistema de visin realista

77

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

La tarea concreta que implementa el mdulo histograma es la que se detalla


a continuacin.
Mdulo Histograma Etapa i

His = His Ei-1 (k1) (Asignacin)


Ven = Ven Ei-1 (k1) (Asignacin)
Para cada punto de la ventana P1 Ph
++His [Pi] (k2) (Incremento)
Finpara
His Ei+1 = His (k1) (Asignacin)
Ven Ei+1 = Ven (k1) (Asignacin)
Figura 2.26 Operaciones del mdulo histograma

Un inconveniente de la arquitectura planteada es la necesidad de transferir


las ventanas y los histogramas de una etapa a otra de la arquitectura. Esto
implicara la incorporacin en los registros intermedios (RI) de registros
para el almacenamiento de los puntos de las ventanas. El caso habitual es
que la dimensin de las ventanas sea bastante alta, lo que provoca unas
necesidades de almacenamiento en los RI elevadas. Si se pretende
segmentar el proceso en un nmero elevado de etapas este problema se ve
agravado. Suponiendo ventanas de 40x40 y 1 byte por punto, cada RI
tendra que almacenar ms de 1kbyte (1600 bytes).
Puesto que las necesidades de almacenamiento en RI dificultan la
segmentacin en un nmero elevado de etapas para el mdulo histograma,
se ha optado por un esquema matricial para dicho mdulo. En consecuencia
se plantea una arquitectura hbrida, como se observa en la Figura 2.27, con
los mdulos histograma actuando con esquema SIMD y los mdulos
neurona procesando de forma segmentada. Esto permitir equilibrar la
duracin de los mdulos histograma y neurona para amoldarla al ciclo de la
segmentacin.
Como se detallar en el captulo que trata la iluminacin, el histograma que
se utiliza como caracterizador est centrado en el tono medio.
Concretamente, el tono medio del histograma de cada ventana se centra en
el rango de tonos (por ejemplo centrado en el 128). A esta operacin la
llamamos normalizacin. Adems, se le aade una componente al
histograma que representa su tono medio para compensar la prdida de
informacin de la normalizacin. Las consecuencias de esta operacin de
normalizacin sern tratadas en los captulos de experimentacin. En
cualquier caso, esta operacin de normalizacin es suficientemente costosa
como para constituir una etapa diferenciada. La posibilidad de integrar el
clculo del histograma y la normalizacin incrementa el tamao del ciclo de
reloj. Por lo tanto se plantea una arquitectura con dos etapas para el clculo
78

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

del histograma de una ventana y a continuacin una sucesin de etapas que


calculan la neurona ganadora de la ventana (Figura 2.27).

SHt

Mdulo
histograma m/h
h pts

RI

RI

RI

Ht

RI

Mdulo
neurona r/s
s neuronas
SOM

Ng

Dg,Ng

Ng

Mdulo
neurona 2
s neuronas
SOM

Ht

Dg,Ng
Ht

Dg,Ng

Mdulo
neurona 1
s neuronas
SOM

Ht

Ht

Ht
Normalizador de histogramas

SVh
SVh

Sumador de histogramas

SHt
SHt

Mdulo
histograma 2
h pts

Etapa
Neuronas r/s

Etapa
Neuronas 2

Dg= Dist ganadora


Ng= neurona gana

SHt= Subhist tamao t


Mdulo
histograma 1
h pts

Etapa
Neuronas 1

Etapa
Normalizacin

Ht

Etapa
Histograma
SVh=Subvent tamao h

SVh

Vm= ventana de muestreo tamao m

RI

Figura 2.27 Arquitectura hbrida para el sistema de visin realista

Las tareas implementadas por las etapas histograma y normalizacin


aparece en la Figura 2.28 y Figura 2.29 respectivamente. Los
correspondientes costes se expresan en 2.34 y 2.35.
Etapa Histograma
En paralelo para cada mdulo Mj (j=1..m/h)
VenMj = Ven (k1) (Asignacin)
Para cada componente del HisMj i=1..t
HisMj[i]=0 (k1) (Asignacin)
Finpara
Med Mj=0 (k1) (Asignacin)
Para cada punto de la ventana VenMj P1 Ph
++ HisMj [Pi] (k2) (Incremento)
Med Mj+=Pi (k2) (Incremento)
Finpara
Fin en paralelo
Figura 2.28 Algoritmo para el mdulo histograma

T ( hist ( I ) ) = hk2 + k1

2.34

79

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

Etapa Normalizacin
Para cada componente del His i=1..t
His [i] = 0 (k1) (Asignacin)
Para cada mdulo Mj (j=1..m/h)
His [i]+=HisMj [i] (k2) (Incremento)
Finpara
Finpara
Med=0 (k1) (Asignacin)
Para cada mdulo Mj (j=1..m/h)
Med += MedMj (k2) (Incremento)
FinPara
Med/=m (K5) (Divisin)
Para cada comoponente del His i=1..t
His [(t/2+i) mod t] = His [(Med+i) mod t] (k6) (Asigna cclica)
Finpara
Hist[t]=Med (k1) (Asignacin)
Figura 2.29 Algoritmo para el mdulo normalizacin

m ( t + 1)
+ 1 k2 + ( t + 1) k1 + k5 + tk6
T norma ( hist ( I ) ) =
h

2.35

La tarea implementada por las etapas neurona aparece en la Figura 2.30 y el


coste correspondiente se expresa en 2.36.
Mdulo Neurona Etapa i

DistManhatanEtapa= DistManhatanGana Etapa i-1 (k1) (Asigna)


GanadoraEtapa=Ganadora Etapa i-1 (k1) (Asigna)
Para cada neurona del mdulo N1 Ns
DistManhattan=0 (k1) (Asignacin)
Para cada componente del Hist 1..t
DistManhatan+=|Ni[j]-Hist[j]| (k3) (Distancia)
Fin para
Si DistManhatan<DistManhatanEtapa (k4) (Compara)
DistManhatanEtapa=DistManhatan
GanadoraEtapa=Ni
Finpara
DistManhatanGana Etapa i+1= DistManhatanEtapa (k1) (Asigna)
Ganadora Etapa i+1= GanadoraEtapa (k1) (Asigna)
Figura 2.30 Algoritmo para el mdulo neurona

80

Captulo 2. Caracterizacin y normalizacin de imgenes percibidas en condiciones realistas

T ( m SOM ) = k1 + s ( k1 + tk3 + k4 )

2.36

El nmero de etapas de la segmentacin es igual al nmero de etapas


neurona ms las dos etapas del clculo y normalizacin del histograma:

r
e ( n etapas ) = + 2
s

2.37

Etapas equilibradas

El nmero de componentes h que calcula cada mdulo histograma y el


nmero de neuronas s que calcula cada mdulo neurona se debe equilibrar.
El coste temporal de las etapas correspondientes al mdulo histograma debe
ser igual o prximo al coste temporal de las etapas correspondientes al
mdulo neurona y tambin a la etapa de normalizacin.

T ( hist ( I ) ) = T norma ( hist ( I ) ) = T ( m SOM )

2.38

Puesto que las etapas de clculo del histograma y las etapas neurona tienen
una duracin que podemos amoldar segn el nmero de componentes h
procesadas y el nmero de neuronas s, nos centraremos en ellas para
establecer el ciclo de reloj de la segmentacin.

clk = hk2 + k1 = k1 + s ( k1 + tk3 + k4 )


h=s

2.39

( k1 + tk3 + k4 )
k2

En el prototipo detallado en el anexo 2 veremos que el ciclo de la


segmentacin que llamaremos phase en ese contexto (se utilizar clk para
representar al ciclo de las operaciones bsicas) se puede expresar como un
mltiplo del nmero de puntos de cada mdulo histograma h, adems de ser
un mltiplo del nmero de neuronas de cada mdulo s por el nmero de
componentes del histograma t (expresin A2.1).
Para conseguir el menor ciclo posible con una neurona en cada mdulo
neurona s=1, h valdr lo indicado en la expresin siguiente:

h=

( k1 + tk3 + k4 )

2.40

k2

81

Modelado de sistemas para visin realista en condiciones adversas y escenas sin estructura

Estudiaremos el valor del ciclo de reloj de la segmentacin en el caso


concreto de implementacin que se detalla en el anexo 2 donde tambin se
realizarn consideraciones de espacio disponible para la implementacin de
los mdulos.
Cuando el nmero de ventanas n la ganancia del caso segmentado
respecto al secuencial equivalente est acotada por el nmero de etapas.
Cuando el nmero de ventanas n la productividad est acotada por
1/clk, es decir una nueva tarea cada ciclo de reloj. Por lo tanto,
despreciando el tiempo de llenado del cauce, el tiempo de procesamiento de
una imagen ser funcin del ciclo de reloj y del nmero de ventanas de
muestreo n en dicha imagen 2.41.

proceso
T
= niclk
imagen

2.41

Considerando el tiempo de llenado del cauce el tiempo para procesar una


imagen con n ventanas de muestreo ser:

proceso
T
= ( e + n 1)iclk
imagen

2.42

En la implementacin sobre FPGAs las posibilidades de ubicacin de


recursos hardware limitan adicionalmente la duracin de este ciclo. En los
anexos detallamos el prototipo de la arquitectura utilizando este tipo de
tecnologa.

82

S-ar putea să vă placă și