Sunteți pe pagina 1din 4

TEORA DE LA VISIN DE D.

MARR
La obra y programa de investigacin desarrollada entre 1973-80 por el neurofisilogo D. Marr
puede considerarse prototpica de la investigacin en Ciencia Cognitiva por varias razones, entre
las que destacamos:

Asume la metfora computacional (mente-ordenador) hasta el extremo de disenar un modelo


informtico de visin artificial que opere segn los procedimientos utilizados por el sistema visual
humano.
Acepta el nivel explicativo representacional, en cuanto recurre a descripciones simblicas de los
objetos que componen las escenas.
Concibe un abordaje, de los problemas relativos a la percepcin, desde una perspectiva
interdisciplinaria, que considera tanto las aportaciones de la neurofisiologa y psicologa como los
algoritmos computacionales, integrando sus hallazgos en un modelo de la percepcin visual.
David Marr se form como neurofisilogo en Cambridge (Inglaterra), terreno en el que
public un trabajo sobre el funcionamiento del cerebelo en 1969. No tard mucho tiempo en
reconocer que con el enfoque parcial de la neurofisiologa no podan explicarse los procesos
bsicos del comportamiento humano, por lo que en 1973 inici sus investigaciones en el AI Lab. of
M.I.T. (Laboratorio de Inteligencia Artificial del Instituto de Tecnologia de Massachusset)
ininterrumpidamente durante los siete anos que precedieron a su temprano fallecimiento por
leucemia en 1980.
La necesidad de un enfoque multidisciplinar, as como el enfoque adoptado y las metas que
pretende nos la explica Marr (1975) en los siguientes trminos:

"La situacin de la neurofisiologa moderna es que la gente est intentando entender cmo
un mecanismo particular ejecuta una computacin que ni siquiera es capaz de formular, mucho
menos de suministrar, un conciso resumen de las maneras de hacerla. Para rectificar la situacin,
necesitamos invertir un esfuerzo considerable en el estudio del fondo computacional para las
cuestiones que pueden ser abordadas en los experimentos neurofisiolgicos. Por consiguiente,
aunque [mi obra] se origina en un profundo compromiso con los fines de la neurofisiologa, la obra
no versa directamente sobre la neurofisiologa, ni sobre la simulacin de mecanismos
neurofisiolgicos: versa sobre el estudio de la visin. Equivale a una serie de experimentos
computacionales, inspirados en algunos hallazgos de la neurofisiologa visual. La necesidad de
ellos surge de que, hasta que no intentamos procesar una imagen o hacer que un brazo artificial
enhebre una aguja, tenemos poca idea de los problemas que realmente se originan al intentar
estas cosas. Los experimentos computacionales nos permiten estudiar con detalle qu
combinacin de factores causa que un mtodo, o un grupo de mtodos, tenga xito o fracase en

una variedad de circunstancias particulares que originan los datos del mundo real. La fuerza de
este enfoque es que el conocimiento obtenido se refiere a hechos que son inherentes a la tarea,
no a los detalles estructurales del mecanismo que la realiza".

En la concepcin de la visin se muestra partidario de un lisis de las imgenes que, en las primeras
fases del procesamiento avanza de lo particular a lo general (procesamiento de abajo-arriba o
guiado por los datos sensoriales), existiendo una gran cantidad de procesamiento y numerosas
representaciones simblicas; sin embargo, en las etapas finales el lisis va de lo general,
conocimientos almacenados, a lo particular, datos informacionales (procesamiento de arribaabajo o guiado conceptualmente).

Los fundamentos de la teora de la visin de Marr (1982) parten de la necesidad de abordar la


comprensin sobre los requerimientos de la descripcin de escenas.

Consider ineludibles tres planos de lisis:

Nivel Computacional. Una teora computacional de la visin que pretenda extraer las propiedades
de los objetos a partir de las imgenes debe de clarificar: ?Qu funcin cumple?, "qu hace", qu
es lo que computa (imagen, descripcin, etc.), y "por qu" razn lo hace. Es decir, dada una
informacin contenida en una imagen bidimensional, que propiedades permiten interpretarla
como si fuera una imagen tridimensional. A la pregunta de qu funcin cumple, Marr responde:
transformar entradas (inputs) en forma de imgenes en salidas (outputs) en forma descriptiva.
Nivel Algortmico. Debe establecer "cules son las operaciones fundamentales encargadas de
realizar las funciones de transformadoras", "cmo" realizar las operaciones, esto es, que formato
representacional utilizar cada una de las entidades significativas. Marr responde a esta cuestin
que el clculo se produce mediante procesos y representaciones, los cuales deben ser
especificados.
Nivel Instrumental (hardware). Especificar en qu dispositivo tendr lugar el proceso: mquina
mecnica, ordenador, o cerebro. Es decir, si tendr lugar sobre los mecanismos neuronales del
sistema visual o sobre los mecanismos electrnicos de un ordenador. Este nivel senalar el alcance
y los lmites, es decir, las restricciones, del soporte fsico en el que tiene lugar el procesamiento.
Marr se hallaba interesado en la realizacin de programas de ordenador que fueran capaces de
analizar escenas de modo eficaz, haciendo uso de los procedimientos que se supone utiliza el
sistema visual humano. La teora de la visin que postula tiene como meta explicar mediante un

modelo computacional de lisis de escenas qu etapas tienen lugar para lograr reconocer una
imagen o interpretar una escena.
Desde el punto de vista computacional de D. Marr, la visin es el clculo (realizado por diversos
mdulos del S.V.) de representaciones simblicas sucesivas de la escena presentada al observador.
Dichas representaciones deben entenderse en el sentido de descripciones explcitas de la imagen
en cuestin.
Segn la Teora de la visin de D. Marr y colaboradores (Marr, 1982) el clculo (procesamiento) se
realiza a travs de dos etapas sucesivas y slo en la segunda etapa intervienen los sistemas de
conocimiento (memoria, razonamiento, etc.). Estas son:

Procesamiento inicial o temprano, que consiste en un conjunto de procesos que intentan


recuperar las propiedades fsicas de la escena 3-D visible a partir de la matriz de intensidades de
luminancia de la imagen digitalizada. [ Obsrvese cierta analoga con el concepto de 'validez
ecolgica' de Brunswik (1956): correlacin entre el estmulo proximal y el estmulo distal]. En esta
etapa se producen dos tipos de representaciones:

FIGURA 1.- Imagen original (a la izquierda). Y la imagen de


bordes fsicos (a la derecha).
Esbozo primario (o bosquejo primario). Consiste en lograr una descripcin constituida por un
amplio nmero de caractersticas (lneas, bordes, manchas) tal como haran los analizadores
descubiertos por Hubel y Wiesel (1959). Vase Figura 1.

FIGURA 2.- Esbozo 2 y ? D de un cubo (a) y de dos cilindros acoplados (b).


Esbozo 2 ?-D (o cuasi tridimensional), obtenido mediante lisis del bosquejo primario, agrupando
los elementos de ste (lneas, puntos, bordes, manchas) a fin de descubrir las propiedades de las
superficies que forman la imagen o escena. Vase Figura 2a y 2b.

FIGURA 3.- Representacin 3D de una figura humana. (Tomado de Marr y Nishihara, 1978, figura
3).
Procesamiento tardo, que transforma el bosquejo 2 ? D en una representacin identificable del
objeto y sus partes constitutivas. El objetivo de esta etapa es la obtencin de un modelo 3-D
(Representacin 3D) de la imagen bidimensional original, haciendo uso del procesamiento de alto
nivel. Vase Figura 3.

Veamos, a continuacin, como sintetiza Marr el proceso de lisis de escenas en sus propias
palabras:
"En un principio, el sujeto selecciona elementos ms o menos similares [de la imagen] y los
agrupa y rene formando lneas, curvas, manchas mayores, grupos y pequenos fragmentos, en la
medida en que lo permite la estructura inherente de la imagen. Repitiendo esto una y otra vez, se
van creando indicadores o elementos primitivos en cada una de las escalas, que captan la
estructura espacial de esa escala. As, si la imagen es la de un gato en primer plano, el bosquejo
primario en bruto dar fundamentalmente descripciones en la escala de los pelos del gato. En el
nivel siguiente podrn aparecer las marcas de su pelaje -que tambin pueden ser detectadas en
forma directa por los cambios de intensidad, y en un nivel todava superior, aparecer la
estructura en forma de franjas paralelas de dichas marcas (...) En cada etapa, los elementos
primitivos utilizados son smbolos cualitativamente similares -bordes, trazos, manchas,
terminaciones o discontinuidades, pero todos ellos se refieren a propiedades cada vez ms
abstractas de la imagen" (1982, pag.91).

Mediante su enfoque del estudio de los fenmenos perceptivos, D. Marr estableci los
fundamentos de una metodologa de trabajo, cimentada en el pluralismo terico integrado,
sentando las bases para orientar futuras investigaciones, o incluso, desplegar el esfuerzo
investigador para someter a prueba sus presupuestos tericos, especialmente el que sostiene que
en las etapas tempranas del procesamiento no intervienen los conocimientos de alto nivel. En
otros trminos, el modelo terico propuesto por Marr, para el lisis de escenas parece partir de un
procesamiento guiado por los datos (bottom-up) en sus fases iniciales, para finalmente admitir el
procesamiento guiado conceptualmente (top-down), premisa que 'a priori' no parece universal a
algunos autores.

Aqu vamos a centrarnos en el procesamiento inicial, cuyo fin es obtener el esbozo primario en
bruto de la imagen estimular. En dicho esbozo se representan los bordes fsicos y su geometra,
mediante la localizacin y caracterizacin de los cambios bruscos y significativos de luminancia
presentes en la imagen. Pero primero definamos operacionalmente qu es una imagen.

S-ar putea să vă placă și