Sunteți pe pagina 1din 4

PROCESAMIENTO DIGITAL DE IMAGENES,

2009

Diseno de un clasificador estocastico de texturas


para la deteccion de tumores en mamogramas
Juan David Zapata Pulido, y Rodrigo Javier Herrera Garca, miembro, IEEE
ResumenMammogram analysis is a powerful tool in early cancer detection. However, image interpretation and diagnosis differs from expert to
expert due to similarities between tumor and surrrounding tissue. This document describes a stochastic-based automated image analysis algorithm
to segment circumscribed tumors from a digitalized mammogram. The algortihm can be easily modified to segment another abnormalities in mammograms, allowing the research community to improve tumor detection.
Index TermsDeteccion automatica de cancer, procesamiento estocastico de imagenes, muestreador de Gibbs, maximizacion de las marginales
posteriores, algoritmo de esperanza-maximizacion.

I. I NTRODUCCI ON

A segmentacion de tumores en mamogramas digitales


ha sido previamente tratada con diversos enfoques[1]
[2][3][5][6]. El metodo que se expone en este documento para
la segmentacion del mamograma es conocido como muestreador de Gibbs[7][8], usado en sus comienzos como algoritmo de
restauracion de imagenes y posteriormente como algoritmo de
segmentacion[9][10].
El funcionamiento de este metodo se basa en la clasificacion
de cada pxel de la imagen de acuerdo con su brillo y a la clase a la cual pertenecen los pxeles adyacentes mas cercanos.
Sin embargo, se pueden agregar otras caractersticas al criterio
de clasificacion tales como la pertenencia del pxel a un borde y la pertenencia de los pxeles adyacentes a escalas de mayor tamano. Los modelos propuestos para el mamograma y su
correspondiente segmentacion pueden ser tan complejos como
se quiera, agregando mas caractersticas a la clasificacion.

II. M ODELOS DE LAS IM AGENES


Se asumen dos modelos, uno para el mamograma y otro para la imagen segmentada. Cada imagen es un campo aleatorio,
donde cada pxel es representado por una variable aleatoria. En
este documento se hara referencia al mamograma como Y y a
la imagen segmentada como X. Se usara y o x para representar
un pxel especfico perteneciente a X o Y , respectivamente.
A. Imagen X

caso de estudio, el vecindario, denotado por , esta compuesto


por los ocho pxeles mas cercanos (criterio de 8-conectividad).
Tambien es necesario definir una funcion potencial, que es la
responsable de relacionar los pxeles vecinos con el pxel de interes. Se puede demostrar[10] que para minimizar la cantidad
de pxeles erroneamente clasificados, la funcion potencial debe
estar dada por:

0, si xr = xs
t(xr , xs ) =
(1)
1, si xs 6= xr
Donde xs es el pxel de interes y xr es un pxel que pertenece
al vecindario de xs . Teniendo esto en cuenta, la probabilidad de
un pxel de X tome un valor x esta dada por:
p(x) =



X
1
exp
t(xr , x)
Z

Donde es un parametro que modela la fuerza de la dependencia de los pxeles adyacentes, y Z es una constante
de normalizacion. Esta distribucion de probabilidad es un caso especial de la distribucion de Gibbs, que segun el teorema
Hammersley-Clifford[11] es la distribucion de un campo aleatorio de Markov. Este es el modelo mas sencillo, en el que solo
se tiene en cuenta la dependencia de los pxeles mas cercanos.
Para mejorar el modelo se incluyen las siguientes caractersticas: informacion de bordes, dependencia de pxeles a diferentes
escalas espaciales e informacion a priori del problema.
Para tratar diferentes escalas espaciales es necesario obtener
una representacion multiresolucion de las imagenes X y Y . Para esto, se filtra y submuestrea Y obteniendo una imagen de
menor resolucion. Esto se hace iterativamente para obtener una
piramide multiresolucion como la mostrada en Fig1. Posteriormente, se genera un campo aleatorio de Markov multiresolucion
del mismo tamano que la piramide de Y , en el que ademas de
la dependencia de los pxeles mas cercanos, se agrega la dependencia de los pxeles entre diferentes resoluciones. Los diferentes niveles de la piramide multiresolucion de Y y de X se
denotan como Y {n} y X {n} respectivamente con n = 1, 2, 3 . . .

Cada pxel de X representa la clase a la cual pertenece su


correspondiente pxel de Y . Las diferentes clases son tejido circundante a la piel, tejido mamario, musculo pectoral y tejido
canceroso. La imagen X se modela como un campo aleatorio
de Markov, debido a que este modelo tiene en cuenta la dependencia de los pxeles adyacentes. Para este modelo hay que
definir un vecindario, que esta formado por un conjunto de pxeles cercanos al pxel de interes (sin incluir este u ltimo); en este
Juan Zapata es estudiante de ingeniera electronica, Universidad Distrital
Francisco Jose de Caldas, Bogota, Colombia, Telefono: 311 484 40 92, email:
zdivadnauj@gmail.com
Rodrigo Herrera es profesor de procesamiento digital de senales en ingeniera
electronica, Universidad Distrital Francisco Jose de Caldas, Bogota, Colombia

(2)

xr

Figura 1. Piramide multiresolucion de un mamograma.


PROCESAMIENTO DIGITAL DE IMAGENES,
2009

La informacion de bordes se introduce al modelo de un modo sencillo como se vera mas adelante. Esta informacion es u til
debido a que se ha observado que la mayora de tumores circunscritos son estructuras isodensas, por lo que no contienen
bordes internos. Por el contrario el tejido mamario es abundante en bordes por su textura, conductos sanguineos y conductos
lacteos presentes.
Teniendo en cuenta las caractersticas adicionales, el modelo
completo esta dado por:

p(x) =


X
1
{n}
t(x{n}
)
exp
r ,x
Z
{n}
xr

t(x{n1} , x{n} ) E(y)

DE PAR AMETROS

IV. E STIMACI ON
(3)

Donde representa la fuerza de la dependencia entre el pxel


de interes y su pxel correspondiente dentro de la piramide en el
nivel anterior de menor resolucion, E(y) es la imagen de bordes
de Y evaluada en el pxel de interes, y modela la importancia
que se le asigna a la informacion de bordes.
B. Imagen Y
El modelo empleado supone que los pxeles de cada tejido
dentro del mamograma se distribuyen independientemente en
forma de una Gaussiana. De este modo:
x
(y x )2
p(y|x) = p
exp(
)
2x2
2x2

Esta expresion se obtuvo luego de aplicar el teorema de Bayes


y teniendo en cuenta que X(t 1) es un campo aleatorio de
Markov, su aporte en (5) se limita solo al vecindario.
Para obtener los x que maximizan P (X|Y ), se escoge un
numero de muestras grande de X(t). Si t es lo suficientemente
grande, las muestras seran de P (X|Y ). Ahora, si se observa el
mismo pxel para todas las muestras, habra un valor de x que
se repita mas que los demas, e ste es el valor buscado. Este estimativo es llamado maximizacion de los margenes posteriores,
tambien conocido como MPM (Maximization of the posterior
marginals)[9][10][14].

(4)

Donde x y x son los parametros de las diferentes distribuciones Gaussianas, y x son los pesos con los que se ponderan
las distribuciones, teniendo as en cuenta el tamano de cada objeto en la imagen.

En la expresion (5), se puede observar que se requiere conocer los parametros x y x para poder obtener muestras. Para
esto, es necesario analizar el histograma del mamograma. En
Fig2 se ven cuatro zonas importantes. La primera es un pico a
la izquierda, generado por el extenso fondo oscuro. La segunda
es una region plana, consecuencia de la porcion del seno que
limita con el fondo, en donde hay un cambio de brillo porgresivo. La tercera zona es una moda ancha que representa el tejido
mamario. Finalmente, la cuarta zona es una pequena moda generada por el musculo pectoral y por etiquetas que indican la
toma y el posicionamiento correcto de la imagen. Los posibles
tumores se ubican entre la tercera y cuarta zona sin una moda
definida.
En el preprocesamiento de la imagen se suprime el fondo,
etiquetas y musculo pectoral para disminuir la cantidad de pxeles analizados por el algoritmo. De este modo se conservan las
regiones de interes.

III. A LGORITMO DE SEGMENTACI ON


La segmentacion se puede ver como un problema de optimizacion, donde se busca minimizar el numero de pxeles mal
clasificados. En [9] se demuestra que esto es equivalente a la
maximizacion de P (x|Y ) para todo x. Estos x son los pxeles de la segmentacion buscada. El calculo exacto de P (x|Y )
es imposible en la practica[9][7][10]. Sin embargo, Geman y
Geman[7] proponen un algoritmo para maximizar esa probabilidad, llamado muestreador de Gibbs. Este algoritmo obtiene una cadena de Markov X(t), que converge a la distribucion
P (X|Y ). De este modo, X(t) es una secuencia de imagenes indexadas por t, donde X(t) y X(t 1) solo cambian en un pxel
y cuya distribucion para t muy grande, tendera a ser P (X|Y ).
El muestreador de Gibbs recibe su nombre gracias a que para
pasar del estado X(t 1) al estado X(t) toma una muestra de
la distibucion P (x|Y, X(t 1)) que tambien es una distribucion
de Gibbs dada por:
 (y )2
x
x
x
p
exp
2x2
Zp(y) 2x2

X
{n}

t(x{n}
) t(x{n1} , x{n} ) E(y) (5)
r ,x

P (x|Y, X(t 1)) =

{n}

xr

Figura 2. Histograma de un mamograma: azul antes y rojo despues del preprocesamiento.

Para estimar los parametros, se infiere, del modelo de Y , que


el histograma es la suma de distribuciones Gaussianas. Debido a que un posible tumor no genera un pico apreciable en
el histograma, este se aproxima a la suma de 2 Gaussianas
(ver Fig2). Teniendo esto, se aplica el algoritmo de esperanzamaximizacion para suma de Gaussianas descrito en [12], el cual
obtiene los parametros de las distribuciones maximizando la verosimilitud o parecido entre el histograma y la suma de Gaus-

Juan Zapata: PAPER DE TESIS DE JUAN ZAPATA

sianas resultante. Las ecuaciones que determinan las medias y


varianzas del modelos son:
(t+1)

(t+1)
j

(t+1)

1 X (t)
=
hz i
N n jn

(6)

(t)
n hzjn iyn
P (t)
n hzjn i

(7)

P
=

(t)
(t) 2
n hzjn i(yn j )
P (t)
n hzjn i

P
=

(t)

(t)

(8)

(t)

j N (yn : j , j )
(t)
hzjn i = P (t)
(t)
(t)
j j N (yn : j , j )

(9)

Donde j indica la Gaussiana a la que pertenecen los parametros, n recorre todos los pxeles de y, N (x : , ) representa la
distribucion Gaussiana de la variable x con parametros y ,
y j son pesos que se le asignan a cada Gaussiana para caracterizar el tamano de las regiones en el histograma. Empleando
estas ecuaciones iterativamente, se puede lograr un muy buen
estimativo como se ve en Fig3.

V. P REPROCESAMIENTO
Debido a que el mamograma contiene etiquetas y muchos de
sus pxeles son fondo, es necesario generar una mascara que
indique cuales son las zonas de interes para el algoritmo de segmentacion. Ademas, debido al brillo del musculo pectoral, el
algoritmo de segmentacion puede ignorar un posible tumor y
lograr convergencia sobre este musculo, por lo que su eliminacion es necesaria. A continuacion se describen los metodos
usados para generar la mascara.
Para eliminar el fondo, se emplea un umbral adaptativo generado por el metodo de Otsu, ya que e ste separa la moda del
fondo y la moda del tejido mamario. Los pxeles por debajo de
este umbral son includos en la mascara. Los pxeles por encima del umbral son sometidos a un algoritmo de clasificacion de
componentes conectadas para separar los objetos en la imagen.
Se escoge el objeto mas grande como el objeto de interes y los
demas se incluyen en la mascara. De este modo, se eliminan
etiquetas y otros objetos irrelevantes.
Para eliminar el musculo pectoral, se emplea una version simplificada del algoritmo de segmentacion previamente explicado.
Dado que el musculo pectoral generalmente se encuentra ubicado en una de las esquinas de la region de interes del mamograma, es facil detectarlo. Sin embargo, a causa del a ngulo de vista,
algunos mamogramas presentan solapamiento entre el musculo
pectoral y otros objetos brillantes (tumor o tejido glandular denso), por lo que la eliminacion directa no es viable.
Teniendo en cuenta que el musculo pectoral tiene una forma aproximadamente triangular, se aplica descriptores de forma
para su eliminacion[13], conservando as cualquier otro objeto
superpuesto con el musculo. En Fig4 se muestran las etapas de
formacion de la mascara.

Figura 3. Negro histograma, azul y verde su aproximacion a Gaussianas, y rojo


Gaussiana de hipotesis.

Sin embargo, este algoritmo no proporciona los parametros


del posible tumor, porque como es un objeto pequeno en la imagen, no aporta una moda al histograma. Por eso, es necesario
ubicar una tercera Gaussiana, cerca de la cola superior de la segunda Gaussiana, que simule la presencia del tumor. Si el mamograma contiene un tumor, sus pxeles tendran mas probabilidad de pertenecer a esta tercera clase que a la segunda, gracias
a que estan aglomerados. Si no hay tumor, el muestreador de
Gibbs se encarga de eliminar los pxeles que pertenencen a esta
tercera clase, ya que estan dispersos por la imagen. Es por eso,
que esta Gaussiana adicional recibe el nombre de Gaussiana de
hipotesis. La media de esta tercera Gaussiana se situa en donde
el histograma ha acumulado el 95 % de su energa, la varianza
tiene un valor de ((3 2 )/6)2 y un peso igual a 0,52 3 /2 .
Estos valores fueron ajustados experimentalmente. En Fig3 se
puede ver la Gaussiana de hipotesis en rojo.

Figura 4. Etapas de formacion de la mascara, arriba imagen sin procesar, abajo izquiera eliminacion de etiqueta y fondo, arriba izquierda eliminacion de
musculo.


PROCESAMIENTO DIGITAL DE IMAGENES,
2009

VI. R ESULTADOS EXPERIMENTALES


Se usaron las imagenes de la base de datos MIAS[15] para
las pruebas, ya que cada imagen estan diagnosticadoas por un
experto. En Fig5 se muestran 2 casos anormales y un caso normal. Se puede observar que la segmentacion es coherente con
la imagen. Tambien se observa que en la segmentacion del caso
normal, no hay regiones que pertenezcan a la clase del tumor;
esto demuestra aunque existe la Gaussiana de hipotesis, es posible que ningun pxel pertenezca a la clase que representa.

Figura 5. Resultados.Izquierda mamogramas, derecha segmentaciones resultantes

VII. C ONCLUSIONES
Este trabajo muestra que dentro de un campo aleatorio de
Markov se puede incluir tanta informacion u til como se quiera para segmentar una imagen. Ademas no es necesario que el
objeto a segmentar genere una moda apreciable en el histograma, como en trabajos anteriores donde se usa procesamiento
estocastico sobre texturas. Aunque este procesamiento se basa
en tomar muestras de distribuciones de probabilidad, los resultados de la segmentacion no varan visiblemente al segmentar
varias veces una misma imagen.
Aun queda mucho trabajo en esta aplicacion. Por ejemplo,
segmentar tumores en mamogramas donde el tejido mamario es

bastante denso (los tumores son dficiles de percibir por expertos en esta clase de casos) y diferenciar por la forma objetos que
son segmentados erroneamente como tumor; e incluso extender
el modelo para segmentar otras anormalidades en el mamograma.
R EFERENCIAS
[1] Heath, Bowyer, Mass detection by relative image intensity, Universidad de Florida del Sur, Base de datos de mamografas,
http://marathon.csee.usf.edu/Mammography/Database.html
[2] Seshandri, Kandaswamy Detection of breast cancer by mammogram image segmentation, J Can Res Ther 2005;1:232-4
[3] Sampat, Bovik, Detection of spiculated lesions in mammograms, Proceedings of the 25th Annual International Conference of the IEEE EMBS Cancun, Mexico - Septiembre 2003

[4] Alvarez,
Guevara, Garca, Santamara,Velez, Metodologa para la deteccion de micrcalcificaciones en mamografas digitales utilizando wavelets

[5] Alvarez,Guevara,Holgu
n, Procesamiento de imagenes aplicadas a mamografas digitales, Scientia et Technica Ano XII, No 31, Agosto de 2006
UTP. ISSN 0122-1701
[6] M. Wirth, D. Nikitenko, J. Lyon, Segmentation of the Breast Region in
Mammograms using a Rule-Based Fuzzy Reasoning Algorithm, ICGSTGVIP Journal, Vol 5, No 2, Enero 2005
[7] Geman, Geman, Stochastic relaxation, Gibbs distributions and Bayesian
restoration, IEEE Transactions on pattern analysis and machine intelligence Vol. PAMI6, Noviembre 1984
[8] S.G. Hoggar, Mathematics of digital images, Cambridge University Press
2006
[9] Comer, Delph, Segmentation of textured iamges using a multiresolution
Gaussian autoregressive model, IEEE Transaction on image procesing, Vol
8, No 3, Marzo 1999
[10] Comer, Delph, The EM/MPM Algorithm for Segmentation of Textured
Images: Analysis and Further Experimental Results, IEEE Transaction on
image procesing, Vol. 9, NO. 10, OCTOBER 2000
[11] Maria Petrou, Pedro Sevilla, Image processing: Dealing with textures,
John Wiley & sons Ltd. 2006
[12] Tzikas, Likas, Galatsanos The variational approximation for Bayesian
inference, IEEE Signal processing magazine, November 2008
[13] Gonzalez, Woods, Digital image processing Addison-Wesley (1993)
[14] Marroquin, Mitter, Poggio, Probabilistic solution of ill-posed problems
in computational vision, Joint America Statistic Association, Vol 82, pg
76, Marzo 1987
[15] J Suckling et al, The Mammographic Image Analysis Society Digital
Mammogram Database, Exerpta Medica. International Congress Series
1069 pp375-378 (1994)

S-ar putea să vă placă și