Sunteți pe pagina 1din 3

Author (s): Shoon Lei Win, Zaw Zaw Htike, Faridah Yusof, Ibrahim A.

Noorbatcha
Títle of paper: Cancer Recurrence Prediction Using Machine Learning
Journal: International Journal of Computational Science and Information Technology (IJCSITY)
Volume (issue): Vol.2
pag – pag (year): No.2, May 2014

Estado del arte que hace el autor


El objetivo de la predicción de la recurrencia del cáncer es predecir, dado un conjunto de datos de
expresión génetica, si un cáncer en particular se repetirá dentro de un marco temporal determinado
ya que algunos cánceres tienen un patrón de recurrencia predecible y distinguible que puede ser
recogido por reconocimiento de patrones y técnicas de machine learning. En este paper se propone
una estructura de tres capas que consiste en la selección de genes basados en entropía,
discretización y predicción de minimización de entropía. Entonces se emplea un proceso de
selección de genes para seleccionar los genes pronósticos relevantes de una manera no supervisada
y un proceso de discretización basada en entropía para discretizar los niveles de expresión génica.
Primero describe el proceso de selección de genes encontrar el mejor subconjunto del conjunto de
genes que pueden predecir suficientemente la recurrencia del cáncer. Idealmente, se elige el mejor
subconjunto que contiene el menor número de genes que más contribuyen a la precisión de la
predicción, mientras descartan el resto de los genes. Para hacer esta selección hay dos técnicas
comunes: selección hacia adelante y selección hacia atrás. Aquí se emplea la selección hacia
adelante. Aquí se empleara un proceso de selección de genes basado en un concepto teórico de la
entropía.
Luego se describe el proceso de discretización. La técnica de discretizacion adaptada aquí es EMD
(Entropy Minimización Discretización) debido a su reputación en la discretización de datos de alta
dimensionalidad. Después de la reducción de la dimensionalidad, se propone realizar la predicción
de la recurrencia del cáncer utilizando los estimadores de una dependencia media con resolución de
subsumption (AODEsr).
Finalmente se describe el proceso de predicción, para esto se utiliza el clasificador (AODEsr)
llamado el promedio de una dependencia de los estimadores con subsumption resolución. El
AODEsr mejora el AODE(otro clasificador) con una resolución de subsumption detectando
especializaciones entre los valores de los atributos en el tiempo de clasificación y eliminando el
valor del atributo de generalización. Debido a que el AODEsr tiene una suposición de
independencia muy débil, tiene un buen desempeño en la clasificación.
Motivación del autor (críticas del autor a otros trabajos)
En este artículo, abordar el problema de reconocer el cáncer de ADN de microarrays de datos de
expresión génica. Reconocimiento de patrones y técnicas de machine learning también se han
popularizado recientemente en el ámbito del análisis de la expresión génica de microarrays.
Ha habido algunos intentos de predecir la recurrencia del cáncer utilizando técnicas de machine
learning. Peterson et al. aplico las redes neuronales artificiales anticuadas (RNAs) para predecir la
recurrencia del cáncer de próstata de los pacientes después de prostatectomía. Después de la
detección y optimización de los genes, afirmaron haber alcanzado una sensibilidad y una
especificidad diagnósticas de 0,99 a 1,0. Las técnicas de Ensemble se han popularizado
recientemente en la predicción de la recurrencia del cáncer. Ford et al. propuso un Conjunto de
Oracle de la Red Neuronal de Regresión General (GRNN) combinando varios modelos de mínimos
cuadrados parciales (PLS) que fueron entrenados individualmente para predecir la recurrencia del
cáncer de pulmón a partir de 12 redes de genes diferentes, llegando a la conclusion que era posible
clasificar correctamente la recurrencia mediante la combinación de los resultados basados en sus
modelos de red genética propuesta. Del mismo modo, Norris et al. aplicó el mismo oráculo GRNN
para predecir la recurrencia del cáncer, afirmando que GRNN llevó a una alta precisión de
predicción. Lizuka et al. aplicó Fisher clasificador lineal para predecir la recurrencia del carcinoma
hepatocelular después de la resección curativa. Su sistema obtuvo una precisión del 93% en la
predicción de recurrencia intrahepática temprana. Este artículo describe un enfoque basado en una
técnica de aprendizaje de última generación llamada estimador de dependencia media con una
resolución de subsunción para abordar el problema de reconocer la recurrencia del cáncer.
Descripción del aporte del autor
A pesar de que el cáncer es prevenible y curable en etapas tempranas, la gran mayoría de los
pacientes son diagnosticados con cáncer muy tarde. Además, no es infrecuente que el cáncer vuelva
después de años de tratamiento. El cáncer se repite porque una pequeña porción de las células
cancerosas puede permanecer sin ser detectada en el cuerpo después del tratamiento. Con el
tiempo, estas células pueden proliferar y crecer lo suficiente como para ser identificadas por
pruebas convencionales. Dependiendo del tipo de cáncer, la recidiva puede ocurrir semanas, meses
o incluso muchos años después de que el cáncer primario fue tratado. Es extremadamente difícil
para los médicos saber qué pacientes con cáncer experimentarán recurrencia. La probabilidad de
que un cáncer se repita y el momento probable y la ubicación de una recurrencia dependen del tipo
de cáncer primario. Algunos cánceres tienen un patrón de recurrencia predecible y distinguible que
puede ser recogido por reconocimiento de patrones y técnicas de aprendizaje de máquina. Por lo
tanto, un sistema computarizado de predicción de la recurrencia del cáncer es necesario para evitar
que la gente muera como consecuencia de esta desafortunada enfermedad. Técnicamente, el cáncer
es una familia de enfermedades que implican un crecimiento celular incontrolado en el que las
células se dividen y crecen exponencialmente, generando tumores malignos y extendiéndose a otras
partes del cuerpo. El poder destructivo del cáncer es que no sólo puede propagarse a los tejidos
vecinos, sino también a todo el cuerpo a través del sistema linfático o el torrente sanguíneo. Hay
algunos cientos de cánceres conocidos que se encuentran en los seres humanos. Debido a que hay
un número astronómico de las causas del cáncer, los investigadores todavía están tratando de
entender las bases del cáncer que todavía siguen siendo sólo parcialmente entendido. Sin embargo,
una cosa que es evidente es que para que una célula sana transmutar en una célula cancerosa, los
genes que regulan el crecimiento celular y la diferenciación debe ser modificado. Se sabe que los
cánceres son causados por una cadena de mutaciones en la secuencia genética. El desarrollo de una
célula cancerosa es causado por una serie de mutaciones que hacen que la célula prolifere más que
sus vecinos inmediatos mediante un proceso que transforma una célula sana normal en una célula
microinvasiva a nivel genético.

El marco propuesto fue implementado en lenguaje de programación C # 5.0 usando IKVM. Se


prueba el sistema propuesto utilizando 3 recopilación de datos de cáncer. Cada conjunto de datos
contiene muestras con más de 7000 genes. Hemos llevado a cabo de una sola vez crossvalidations
(LOOCV), donde un tamaño N-conjunto de datos fue dividido en N de igual tamaño sub-datasets.
De los N sub-conjuntos de datos, un único sub-dataset se conservó como la validación de datos
para probar el modelo, y el resto de N-1 sub-conjuntos de datos se utilizaron como datos de
formación. Todo el proceso de validación cruzada se repitió N - 1 más veces de tal manera que
cada uno de los N sub-datasets se utilizó exactamente una vez como los datos de validación. Los
resultados se promediaron entonces sobre todos los ensayos de N. Se utilizó un valor crítico de 1,
límite de frecuencia de 250, un valor de peso M-estimación de 0,03 para el modelo AODEsr para
todos los senderos.

Para cada conjunto de datos, se realizó un experimento LOOCV para variar el número de genes
seleccionados que van de 1 a 150. Los genes de cada rastro se seleccionaron utilizando la entropía
basada en la técnica descrita El hallazgo más sorprendente fue que el sistema alcanzó una precisión
del 100% en la predicción de la recurrencia del cáncer de próstata para cualquier número de genes
seleccionados. Esto implica que sólo hay un gen que actúa como biomarcador pronóstico del
cáncer de próstata. En otras palabras, usar un gen es suficiente para predecir si el cáncer de próstata
se repetirá. El sistema alcanzó un 100% de precisión en la predicción del cáncer de mama con el
número de genes superiores a 88. Esto implica que el número de biomarcadores pronósticos son
más altos para el cáncer de mama que para el cáncer de próstata. El sistema obtuvo la menor
precisión en la predicción de la recurrencia del cáncer del SNC.
Los resultados muestran que la precisión de predicción aumenta con el número de genes
seleccionados, aunque sin una monotonicidad perfecta. Los resultados también muestran que en
ciertos casos la exactitud disminuye con un aumento en el número de genes. Esto puede no ser
debido al clasificador porque AODEsr, al igual que cualquier otro clasificador Bayesiano, no es
sensible a características irrelevantes. Por lo tanto, la adición de un gen adicional no debería
degradar teóricamente la precisión. Las interrupciones en la monotonicidad podría ser debido a la
imperfección intrínseca en el procedimiento de selección de genes.
Debido a que nuestro sistema propuesto es capaz de predecir la recurrencia del cáncer con
precisión, incluso con muy pocos genes, los resultados refuerzan la creencia clínica de que sólo hay
unos pocos biomarcadores pronósticos para la recurrencia del cáncer. La máxima exactitud
LOOCV de nuestro clasificador de cáncer es de 100% para dos de cada tres conjuntos de datos. La
precisión máxima promedio de LOOCV de nuestro clasificador de cáncer en los tres conjuntos de
datos es de 98.9%. Vale la pena repetir el hecho de que utilizamos el clasificador AODEsr con
exactamente el mismo conjunto de parámetros (valor crítico de 1, límite de frecuencia de 250, valor
de peso M de estimación de 0,03) a lo largo de todos los experimentos con el fin de evitar sesgos.
A su leal saber y entender, la exactitud del sistema de predicción de recurrencia de cáncer
propuesto utilizando el clasificador AODEsr con el proceso de selección basado en entropía parece
ser significativamente mayor que la de otros sistemas de recurrencia de cáncer reportados en la
literatura.

Observaciones y/o críticas suyas


Es cierto que mucha gente sucumbe al cáncer cada día. Aunque el cáncer puede ser tratado si se
detecta temprano, el cáncer puede reaparecer después de años de tratamiento. El trabajo descrito
aquí me parece excelente, porque utiliza un sistema de predicción automática de la recurrencia del
cáncer y tiene un enfoque basado en machine learning para predecir la recurrencia del cáncer a
partir de datos de expresión génica de microarrays. El empleo de un método de machine learning
de última generación denominado estimador de dependencia de promedio con resolución de
subsunción (AODEsr) para abordar el problema de predecir la recurrencia del cáncer también me
parece una gran idea ya que dado un conjunto de datos de expresión génica, el sistema predice si un
cáncer en particular se repetirá dentro de un marco temporal determinado.
Aquí se realizó experimentos en tres conjuntos de datos de cáncer. Este sistema propuesto ha
logrado una precisión del 98,9% en la predicción de la recurrencia del cáncer, pero otra buena idea
sería analizar otros conjuntos de datos, para canceres con la piel, el colon, etc; para así poder
analizar más que tan eficiente es éste método de machine learning.

S-ar putea să vă placă și