Sunteți pe pagina 1din 119

Aplicación de redes neuronales convolucionales y

recurrentes al diagnóstico de autismo a partir de


resonancias magnéticas funcionales

Pablo Rodrı́guez-Sahagún Alesanco

Tutor : José Manuel Mira McWilliams

Escuela Técnica Superior de Ingenieros Industriales


Universidad Politécnica de Madrid
Madrid, España
Febrero de 2018
Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Agradecimientos
Me gustarı́a en primer lugar mostrar mi agradecimiento a aquellas personas que me apoyan dia a
dia: mis padres, Gonzalo y Marita (por sus valiosos consejos), mis hermanos, Cristóbal y Bruno, que son
fuente de inspiración para mi en este proyecto, Merche, Rosa y Galia.

También me gustarı́a agradecer su ayuda a Silvia San Román, que me apoya y ayuda diariamente siempre
con cariño y una sonrisa.

Por último, me gustarı́a agradecer de manera especial a mi tutor, José Manuel Mira McWilliams, por
todo su apoyo en este tiempo, que ha sido fundamental.

Pablo Rodrı́guez-Sahagún Alesanco 3


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Cita

Necesito más orden del que tú necesitas, más


predictibilidad en el medio que la que tú
requieres.
Tenemos que negociar mis rituales para
convivir.

Ángel Rivière

Pablo Rodrı́guez-Sahagún Alesanco 5


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

1. Resumen ejecutivo
Introducción
El autismo o trastorno del espectro autista engloba un grupo de complejos desórdenes del cerebro
humano. Estos desórdenes se caracterizan por la dificultad a la hora de interaccionar de manera social,
comunicarse verbal y no verbalmente, ası́ como una tendencia a la repetición de comportamientos.
Según estadı́sticas recientes, en Estados Unidos 1 de cada 70 niños aproximadamente padece algún tras-
torno relacionado con el trastorno del espectro autista.
El presente Trabajo de Fin de Grado surge de la idea de aplicar las herramientas propias del área del Deep
Learning en la investigación y estudio de un área en constante innovación como el análisis de imagen
médico, para efectuar un posterior diagnóstico. Más concretamente, el estudio se centra en la iniciati-
va ABIDE (Autism Brain Imaging Data Exchange), una base de datos formada por 1112 resonancias
magnéticas funcionales cerebrales, de las cuales 539 pertenecen a personas autistas, y 573 a personas
que ejercen la labor de control.

Objetivos
El principal objetivo de este proyecto es conseguir aplicar una red neuronal con una arquitectura
novedosa, a la que se denominará de aquı́ en adelante hı́brida, que consistirá en la combinación de una
red neuronal de tipo convolucional y una red neuronal de tipo recurrente para, mediante el análisis de las
resonancias magnéticas funcionales cerebrales de pacientes, ser capaces de distinguir entre aquellos que
presentan trastorno del espectro autista y aquellos que no. De manera adicional se presentará la utilidad
de los ı́ndices ALFF y fALFF en la caracterización del autismo. Estos ı́ndices miden las oscilaciones es-
pontaneas de baja frecuencia del cerebro, y han resultado ser una alternativa a las resonancias magnéticas
funcionales cerebrales sin procesamiento alguno.
Con el fin de estructurar este Trabajo de Fin de Grado, este objetivo global se conseguirá cuando se con-
cluyan con éxito cada una de las fases en las que se ha decidido subdividir el proyecto. Estas fases son
las siguientes:

• Descarga de Amazon Web Services y posterior almacenamiento de los datos de los ı́ndices ALFF
y fALFF de las resonancias magnéticas funcionales de los pacientes, ası́ como la base de datos con
sus fenotipos asociados.
• Estudio preliminar de los fenotipos de los pacientes (distribución por autista o control, sexo, edad
y IQ).
• Preprocesamiento de los datos y formación de cadenas de vı́deo, donde los fotogramas serán cortes
cerebrales según el eje z de coordenadas ascendente.
• Desarrollo de la arquitectura de la red neuronal hı́brida, y posterior simulación y elección de los
parámetros de la red.
• Obtención de resultados de clasificación y comparación con estudios similares.

Base de datos ABIDE


La base de datos ABIDE es una cooperativa conjunta de mas de 25 universidades y centros de inves-
tigación a lo largo de todo el mundo. La distribución en términos de pacientes con autismo o no, y sexo
es la siguiente:

Pablo Rodrı́guez-Sahagún Alesanco 7


1 RESUMEN EJECUTIVO

Figura 1: Distribución por pacientes con autismo y control(izquierda) y sexo(derecha). Elaboración propia

La propia iniciativa ABIDE ofrece varias métricas asociadas a las resonancias magnéticas funcio-
nales cerebrales de los sujetos participantes en el estudio. Como se ha mencionado anteriormente, en el
presente Trabajo de Fin de Grado se ha utilizado la métrica ALFF, ya que es con la que mejor resultados
se han obtenido.Se define el ı́ndice ALFF mediante la siguiente expresión matemática:
s
a2k ( f ) + b2k ( f )
ALFF = ∑
k: f ∈[0,01,0,1]
N
k

donde ak y bk son los coeficientes de la transformada de Fourier para las fluctuaciones cerebrales cuyo
rango de frecuencias se encuentra entre 0,01 y 0,1 Hertzios.

Metodologı́a
En primer lugar, se ha procedido a la descarga de los datos de la iniciativa ABIDE (las resonancias
magnéticas funcionales cerebrales de los pacientes y una base de datos en Microsoft Excel de sus fe-
notipos asociados), mediante un programa desarrollado en Python para descargar de manera automática
los datos, ya que la plataforma Amazon Web Services, en la que se encontraban alojados los datos, solo
permitı́a descargar los datos de los pacientes de uno en uno.

Posteriormente se ha procedido al estudio de las diferentes opciones existentes de lenguajes de pro-


gramación con librerı́as orientadas al desarrollo de modelos de Deep Learning, eligiéndose Python como
lenguaje de programación debido a la amplia comunidad de usuarios que lo soporta, además de la canti-
dad de funcionalidades que permite.
Como framework de Deep Learning se ha optado por Tensorflow, una librerı́a especializada en Deep
Learning desarrollada por Google, y que aunque no es la que mayor rendimiento aporta, es la que tiene
más perspectivas de futuro.

A continuación se ha realizado una revisión de estudios cientı́ficos sobre modelos de Deep Learning
aplicados al estudio de la iniciativa ABIDE. La mayorı́a de los estudios optan por utilizar una red neuro-
nal convolucional, realizando las convoluciones en 2 dimensiones o en 3 dimensiones. Una red neuronal
convolucional es un tipo de red neuronal especialmente recomendado para su uso en datos con una topo-
logı́a de mallado o grid. Ésto las hace especialmente útiles en el tratamiento de imágenes.
La entrada a la red convolucional será un tensor de datos (por ejemplo una imagen), y se utilizará un
kernel o tensor móvil formado por pesos que se modificaran a lo largo del aprendizaje de la red, para
obtener el resultado de la operación de convolución de ambos.
Sin embargo, las redes convolucionales en tres dimensiones requieren de una gran capacidad compu-

8 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

tacional para su utilización, lo que supone un gran inconveniente, ya que el equipo del que se dispone no
es especialmente potente.

Realizando una búsqueda más en profundidad, se han encontrado referencias al uso de redes neuro-
nales recurrentes, más en concreto del tipo LSTM, debido a la dimensión temporal que presentan los
escáneres por resonancia magnética funcional. Las redes neuronales recurrentes son otro tipo de redes
neuronales cuya principal tarea es la de tratar con datos en forma de serie o secuencia. Los estados de la
red en el instante temporal t se ven afectados por los estados anteriores. Sin embargo, las redes neurona-
les recurrentes sufren un fenómeno llamado desaparición del gradiente, por el cual la información entre
estados temporales muy separados se pierde.
Para remediar este problema de las dependencias temporales a largo plazo surgen un tipo especial de
redes neuronales recurrentes llamadas LSTM y GRU.

Nace ası́ la idea de utilizar los dos tipos de redes neuronales juntas, tomando las 3 dimensiones es-
paciales (dirección x, dirección, dirección z), y transformándolas en 2 dimensiones espaciales que serán
las que gestione la parte convolucional de la red, y una dimensión temporal, que se corresponderá con
la dirección z, y que será gestionada por la parte recurrente. La arquitectura de la red neuronal es la
siguiente, donde están señalados de color verde el primer bloque convolucional, de color azul oscuro el
segundo bloque convolucional, y de color rojo el bloque recurrente y final.

Figura 2: Arquitectura hı́brida de red neuronal elegida para el desarrollo del proyecto. Elaboración propia

De manera más intuitiva, la nueva estructura de los datos podrı́a asimilarse a la de una secuencia
de video, donde los fotogramas son cada uno de los cortes cerebrales en el eje z, con sentido del eje z
creciente. Cada fotograma de la secuencia de vı́deo (imágenes en dos dimensiones) pasará por separado
a través de los dos bloques convolucionales de la red neuronal. La salida de estos bloques será dispuesta
en forma de secuencia, y esta secuencia será analizada por el bloque recurrente de la red neuronal. La
intención es que para la red sea más fácil clasificar las resonancias magnéticas funcionales con una se-
cuencia, ya que dispondrá de un contexto, que con fotogramas individuales sin conexión alguna.

Para conseguir la estructura de datos deseada, se han realizado varias operaciones de procesamiento
de los datos. Primero se ha especificado un formato de numero en coma flotante con 32 decimales de
precisión. Posteriormente se han formado las secuencias de datos de las resonancias magnéticas fun-
cionales, obteniéndose un tensor de cuatro dimensiones (número de sujetos, coordenadas dirección x,
coordenadas dirección y, coordenadas dirección z) de un tamaño muy grande (1008 sujetos * 61 voxeles
dirección x * 73 voxeles dirección y * 61 voxeles dirección z).

Pablo Rodrı́guez-Sahagún Alesanco 9


1 RESUMEN EJECUTIVO

Figura 3: Secuencia de diferentes cortes cerebrales de un paciente de la iniciativa ABIDE en el sentido ascendente
del eje z de coordenadas.Elaboración propia.

Por último, se han realizado numerosas simulaciones con la arquitectura hı́brida previamente expues-
ta para elegir los parámetros de la red que consigan el máximo rendimiento. Entre estos parámetros
destacan la elección del ratio de aprendizaje, del valor del término de regularización, la elección de la
probabilidad de dropout o que cortes cerebrales formarán las secuencias de vı́deo a analizar entre otros.

Resultados

Para la evaluación de los resultados es una práctica común el dividir el número total de datos en
datos para entrenamiento y datos para test. La red neuronal hı́brida va aprendiendo y entrenándose con
los datos de entrenamiento, para posteriormente ponerse a prueba con los datos reservados para el test.
Los resultados han sido especialmente buenos, ya que son parecidos, e incluso en ocasiones superiores,
a los obtenidos por otros estudios de investigación en el mismo campo.

El principal problema que se ha experimentado en el desarrollo del proyecto ha sido la aparición del
fenómeno de sobreajuste u overfitting, por el cual la red neuronal aprende de memoria los datos de en-
trenamiento, no consiguiendo generalizar de manera correcta a datos vistos por primera vez.
Para intentar solucionar este problema se han llevado a cabo las siguientes acciones:

• Se ha utilizado un valor relativamente alto para el termino de regularización L2. Este término
impone una penalización a los pesos con valores altos, lo que previene la aparición del sobreajuste.

• Se ha aplicado un dropout muy agresivo, mediante el cual se consigue reducir de manera notable
el sobreajuste. El dropout es una técnica del Deep Learning mediante la cual se obvian de manera
aleatoria nodos y sus respectivas conexiones dentro de la red neuronal, lo que evita que la red se
adapte demasiado a los ejemplos provistos durante el entrenamiento.

• Por último se han realizado ensembles de diferentes modelos, de cara a reducir la variabilidad de
las simulaciones debida a numerosos factores, obteniendo ası́ modelos finales más robustos.

Por último, se ha realizado un k-fold cross validation con k=6, donde se subdividen la totalidad de los
datos en paquetes (en este caso 6 paquetes), y se va rotando que paquetes forman los datos de entrena-
miento y que paquete forma el de test, realizando un total de 6 combinaciones diferentes. Se han obtenido
las siguientes precisiones en los datos de test:

NUM 1 2 3 4 5 6
PRECISION 64,90 % 66,10 % 69,10 % 61,30 % 67,30 % 65,50 %

10 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

De forma añadida se adjunta la gráfica de la evolución de la precisión en la clasificación para datos


de entrenamiento (izquierda) y para datos de test (derecha). La gráfica fucsia representa la evolución
cuando se utilizan 10 cortes cerebrales equiespaciados entre sı́, mientras que la gráfica marrón emplea
30 cortes cerebrales.

Figura 4: Evolucion de las graficas del modelo final de la red neuronal hı́brida.Elaboración propia

Conclusiones
Las conclusiones que se pueden extraer tras completar este Trabajo de Fin de Grado son varias.
En primer lugar, se ha mostrado la utilidad de aplicación de ı́ndices y medidas asociadas (ALFF y fALFF)
a las resonancias magnéticas funcionales de los pacientes, en vez de las resonancias magnéticas sin
ningún tipo de procesamiento.
En segundo lugar, se ha corroborado la eficacia y buen rendimiento de las herramientas englobadas en el
deep learning para la resolución de problemas complejos, siendo las aplicaciones posibles para el deep
learning inimaginables.
Por último, se introduce el uso de redes neuronales hı́bridas al campo del análisis de imagen médico,
exponiendo que este tipo de redes conllevan una mejorı́a en términos de precisión en la clasificación, lo
que abre un enorme abanico de posibilidades.

Palabras clave
Autismo, resonancias magnéticas funcionales cerebrales, ABIDE, Deep Learning, redes neuronales,
redes convolucionales, redes recurrentes, redes hı́bridas.

Codigos UNESCO
1203.04 - INTELIGENCIA ARTIFICIAL ; 1203.23 - LENGUAJES DE PROGRAMACION ; 1209.14
- TÉCNICAS DE PREDICCIÓN ESTADÍSTICA .

Pablo Rodrı́guez-Sahagún Alesanco 11


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Índice
1. Resumen ejecutivo 7

2. Introducción 17

3. Objetivos 19

4. Autismo o TEA (Trastorno del Espectro Autista) 21


4.1. Datos sobre el autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Causas del autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3. Sintomas del autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1. Sı́ntomas sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.2. Dificultades comunicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.3. Comportamientos repetitivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.4. Habilidades únicas asociadas al autismo . . . . . . . . . . . . . . . . . . . . . . 23
4.4. Problemas médicos y fı́sicos asociados al autismo . . . . . . . . . . . . . . . . . . . . . 23
4.4.1. Epilepsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.2. Desordenes genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.3. Desordenes gastrointestinales . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.4. Alteración del sueño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.5. Disfunción de la integración sensorial . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.6. Pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4.7. Salud mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5. MRI - Imagen por Resonancia Magnética 27


5.1. Historia de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Fundamentos fisicomatemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.2. T1 - Tiempo de relajación longitudinal . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.3. T2 - Tiempo de relajación transversal . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.4. Eco del spin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.5. Diagramas de secuencias de pulso . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.6. Secuencias de pulso básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Ventajas y desventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.1. Ventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.2. Desventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.5. La MRI funcional - fMRl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.5.1. Historia breve de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.5.2. Funcionamiento de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.3. Limitaciones técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.4. Seguridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.5. Consideraciones neuroéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.5.6. Aplicaciones de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.5.7. Futuro y desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Pablo Rodrı́guez-Sahagún Alesanco 13


ÍNDICE

6. La iniciativa ABIDE 41
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2. Análisis estadı́stico de la iniciativa ABIDE . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3. Metricas derivadas del analisis de las R-fMRI . . . . . . . . . . . . . . . . . . . . . . . 43
6.4. ALFF y fALFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.2. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.3. Método de obtención de los ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . 45

7. Introduccion al Deep Learning 49


7.1. Definición e historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2. Concepto básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.1. Tareas - Clasificación vs Regresión . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2. Aprendizaje supervisado, no supervisado y semisupervisado . . . . . . . . . . . 51
7.2.3. Overfitting y Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.3. Redes neuronales artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.3.1. Algoritmo de propagacion hacia delante o forward propagation . . . . . . . . . . 54
7.3.2. Funciones de perdida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3.3. Funciones de activacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3.4. Gradiente descendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.3.5. Algoritmo de propagación inversas o backpropagation . . . . . . . . . . . . . . 58
7.4. Optimización de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

8. Redes neuronales convolucionales 61


8.1. Historia y desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.2. La operación de convolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8.3. Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4. Utilidad y motivación de uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4.1. Interacciones dispersas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4.2. Reparto de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.4.3. Representaciones equivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . 64

9. Redes neuronales recurrentes : LSTM y GRU 67


9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2. Redes recurrentes bidireccionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.3. Cálculo del gradiente en una RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
9.4. Problemas asociados a las dependencias temporales a largo plazo . . . . . . . . . . . . . 68
9.5. LSTM - Long Short Term Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.6. GRU - Gated Recurrent Unit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

10. Conceptos adicionales 71


10.1. Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
10.2. Regularización L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
10.3. Normalización del Batch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

14 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

11. El entorno de trabajo 73


11.1. Elección del lenguaje de programación . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.1.1. Introducción de los diferentes lenguajes de programación . . . . . . . . . . . . . 73
11.1.2. Análisis y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.2. Capacidad computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
11.2.1. Importancia de la utilización de una GPU . . . . . . . . . . . . . . . . . . . . . 74
11.2.2. Historia de las GPUs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.2.3. GPU vs CPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.2.4. NVIDIA y CuDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
11.3. Elección del framework de deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . 76
11.3.1. Introducción de los distintos frameworks . . . . . . . . . . . . . . . . . . . . . 76
11.3.2. Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
11.3.3. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
11.4. Librerı́as adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

12. Modelo propuesto y resultados 79


12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
12.1.1. Estocasticidad de las redes neuronales . . . . . . . . . . . . . . . . . . . . . . . 79
12.2. Trabajos previos y justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
12.3. Preprocesamiento de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
12.3.1. Generación adicional de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
12.4. Tensorboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
12.4.1. Interpretación de gráficos escalares . . . . . . . . . . . . . . . . . . . . . . . . 82
12.4.2. Interpretación de gráficos de distribución . . . . . . . . . . . . . . . . . . . . . 83
12.4.3. Interpretación de histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
12.5. Resultados y análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
12.5.1. Primer análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
12.5.2. Variacion numero unidades capa GRU . . . . . . . . . . . . . . . . . . . . . . . 88
12.5.3. Análisis del término de regularización . . . . . . . . . . . . . . . . . . . . . . . 89
12.5.4. Funciones de activacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
12.5.5. Variacion del dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
12.5.6. Target replication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.5.7. Bidireccionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.5.8. Ensemble y modelos definitivos . . . . . . . . . . . . . . . . . . . . . . . . . . 93
12.5.9. Validación k-fold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

13. Conclusiones 95

14. Lı́neas futuras 97

15. Planificación temporal y presupuesto 99


15.1. Estructura de descomposición del proyecto . . . . . . . . . . . . . . . . . . . . . . . . 99
15.2. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
15.3. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

14. Referencias 106

Pablo Rodrı́guez-Sahagún Alesanco 15


ÍNDICE

15. Índice de figuras 108

16. Anexo 112

16. Anexo II 116


16.1. Evolución pesos y bias primera capa convolucional . . . . . . . . . . . . . . . . . . . . 116
16.2. Evolución pesos y bias segunda capa convolucional . . . . . . . . . . . . . . . . . . . . 117
16.3. Evolución pesos y bias tercera capa convolucional . . . . . . . . . . . . . . . . . . . . . 118
16.4. Evolución pesos y bias cuarta capa convolucional . . . . . . . . . . . . . . . . . . . . . 119

16 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

2. Introducción
El autismo o trastorno del espectro autista (TEA) engloba un grupo de complejos desórdenes del
cerebro humano. Estos desórdenes se caracterizan por la dificultad a la hora de interaccionar de manera
social, comunicarse verbal y no verbalmente, ası́ como una tendencia a la repetición de comportamien-
tos.
Según estadı́sticas recientes, en Estados Unidos 1 de cada 70 niños aproximadamente padece algún
trastorno relacionado con el trastorno del espectro autista, siendo cada vez más elevado el número de
personas afectadas.

El diagnóstico precoz en el caso de personas con autismo es fundamental de cara a iniciar su estimu-
lación. El inicio temprano de las terapias adecuadas supondrá una mejora sustancial en la autonomı́a y la
calidad de la vida de las personas afectadas y de su entorno.
El presente Trabajo de Fin de Grado surge de la idea de aplicar las herramientas propias del área del Deep
Learning en la investigación y estudio de un área en constante innovación como el análisis de imagen
médico, para efectuar un posterior diagnóstico. Más concretamente, el estudio se centra en la iniciati-
va ABIDE (Autism Brain Imaging Data Exchange), una base de datos formada por 1112 resonancias
magnéticas funcionales cerebrales, de las cuales 539 pertenecen a personas autistas, y 573 a personas
que ejercen la labor de control.

A lo largo del documento se desarrollarán los conceptos teóricos utilizados en el desarrollo del proyecto,
tanto teorı́a de resonancia magnética nuclear como de modelos de Deep Learning y redes neuronales.
Posteriormente, se expondrá una elección justificada del entorno de trabajo utilizado en el desarrollo
del proyecto, ası́ como la importancia de la utilización de unidades de procesamiento gráfico para los
cálculos propios del entrenamiento de la red neuronal. Por último, se expondrán los resultados y las
conclusiones, ası́ como las lı́neas futuas del proyecto.

Pablo Rodrı́guez-Sahagún Alesanco 17


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

3. Objetivos
El principal objetivo de este proyecto es conseguir aplicar una red neuronal con una arquitectura
novedosa, a la que se denominará de aquı́ en adelante hı́brida, que consistirá en la combinación de una
red neuronal de tipo convolucional y una red neuronal de tipo recurrente para, mediante el análisis de las
resonancias magnéticas funcionales cerebrales de pacientes, ser capaces de distinguir entre aquellos que
presentan trastorno del espectro autista y aquellos que no. De manera adicional se presentará la utilidad
de los ı́ndices ALFF y fALFF en la caracterización del autismo. Estos ı́ndices miden las oscilaciones es-
pontaneas de baja frecuencia del cerebro, y han resultado ser una alternativa a las resonancias magnéticas
funcionales cerebrales sin procesamiento alguno.
Con el fin de estructurar este Trabajo de Fin de Grado, este objetivo global se conseguirá cuando se con-
cluyan con éxito cada una de las fases en las que se ha decidido subdividir el proyecto. Estas fases son
las siguientes:

• Descarga de Amazon Web Services y posterior almacenamiento de los datos de los ı́ndices ALFF
y fALFF de las resonancias magnéticas funcionales de los pacientes, ası́ como la base de datos con
sus fenotipos asociados. El servidor de Amazon Web Services sólo permite descargar los datos de
paciente en paciente y de manera manual, por lo que se ha desarrollado un programa en Python
que lo realice de manera automática.
• Estudio preliminar de los fenotipos de los pacientes (distribución por autista o control, sexo, edad y
IQ). Para ello se ha utilizado el lenguaje de programación R y la interfaz RStudio, ya que posibili-
tan multitud de funcionalidades muy útiles en el análisis de bases de datos, además de herramientas
de visualización muy avanzadas como ggplot2.
• Preprocesamiento de los datos y formación de cadenas de vı́deo, donde los fotogramas serán cortes
cerebrales según el eje z de coordenadas ascendente. De esta manera se dispondran formando
cadenas o secuencias de fotogramas ordenados, que serán entregados a la red, primero durante su
entrenamiento para que aprenda, y posteriormente, para evaluar su rendimiento.
• Desarrollo de la arquitectura de la red neuronal hı́brida, y posterior simulación y elección de los
parámetros de la red.
• Obtención de resultados de clasificación y comparación con estudios similares.

Pablo Rodrı́guez-Sahagún Alesanco 19


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

4. Autismo o TEA (Trastorno del Espectro Autista)

Los términos autismo y TEA (Trastorno del Espectro Autista) engloban un grupo de complejos des-
ordenes del cerebro humano. Estos desordenes se caracterizan, con la existencia de distintos grados, por
presentar dificultades a la hora de interaccionar socialmente hablando, comunicarse verbal y no verbal-
mente, ası́ como la repetición de comportamientos.
Tras la publicación del Manual Estadı́stico y de Diagnosis de Desórdenes Mentales de la Asociación Psi-
quiátrica Americana (DSM-5), todos los desórdenes autistas han sido agrupados bajo un único termino
(TEA).
Atendiendo al manual mencionado, el diagnóstico del autismo requiere que al menos seis caracterı́sticas
psicólogo-conductuales descritas en dicho manual sean observadas, que los problemas estén presentes
antes de los 3 años y que no haya evidencia de otros desordenes similares.

4.1. Datos sobre el autismo

Estadı́sticas recientes sobre el autismo elaboradas por el Centro de Control y Prevención de Enfer-
medades de los Estados Unidos (CDC) establece que aproximadamente 1 de cada 70 niños americanos
poseen el trastorno del espectro autista.
El estudio muestra un gran crecimiento en casos de autismo en los últimos años, si bien probablemente se
deba a un crecimiento en la conciencia social sobre el autismo y la mejorı́a en las técnicas de diagnóstico.
Resulta interesante que la presencia de casos de autismo sea entre 4 y 5 veces más común en chicos que
en chicas.
A nivel absoluto, hay 2 millones de personas afectadas con el desorden del espectro autista solo en los
Estados Unidos, y decenas de millones en todo el mundo.

4.2. Causas del autismo

Hasta hace no mucho tiempo la respuesta a la pregunta qué causa el autismo era que no se tenı́a idea
alguna. A mediados del siglo XX se pensaba que el autismo estaba provocado por madres poco cariñosas,
que demostraran poco afecto a sus hijos. Hoy en dı́a esa concepción está profundamente rebatida.
Investigaciones recientes están arrojando luz poco a poco. Lo primero de todo es que no hay una única
causa de autismo, ası́ como no hay un único tipo de autismo.
En los últimos cinco años se han identificado más de 100 genes de riesgo asociados con el autismo, lo
que provoca que se pueda identificar una causa genética de autismo en aproximadamente el 15 % de los
casos.
Sin embargo, en la gran mayorı́a de los casos están involucrados una gran y compleja serie de factores
genéticos y de entorno que influencian el desarrollo temprano del cerebro.
Dentro de los factores de riesgo del entorno, los considerados más influyentes son aquellos que se dan
durante el embarazo y el nacimiento del niño, como pueden ser avanzada edad de la madre y/o el padre,
enfermedades de la madre durante el embarazo o falta de oxı́geno en el cerebro del bebe durante el parto.
Es importante tener en cuenta que estos riesgos por si solos no causan autismo, pero en combinación con
factores genéticos, pueden incrementar el riesgo.
Recientemente las investigaciones sobre el autismo se están centrando en el estudio del sistema inmu-
nológico de los pacientes con autismo, aunque aún queda un largo camino por recorrer.

Pablo Rodrı́guez-Sahagún Alesanco 21


4 AUTISMO O TEA (TRASTORNO DEL ESPECTRO AUTISTA)

4.3. Sintomas del autismo

El autismo afecta a la manera en que el individuo percibe la realidad, lo que dificulta la comunicación
e interacción social. Las personas con autismo se enfrentan a diario con numerosos desafı́os, sobre todo
aquellos con sı́ntomas más severos como pueden ser la falta de habla o comportamientos repetitivos.
Aunque el autismo resulta ser frecuentemente una condición que se mantiene durante toda la vida, in-
tervenciones y terapias concretas pueden reducir los sı́ntomas e incrementar las habilidades de manera
considerable, siendo un factor clave la intervención temprana.

4.3.1. Sı́ntomas sociales

Los bebes y niños a temprana edad son sociables por naturaleza. Son capaces de agarrar un dedo
e incluso sonreı́r con solo 2 o 3 meses de vida. En cambio, la mayorı́a de las personas autistas tienen
grandes dificultades a la hora de lidiar con este tipo de interacciones diarias.
Hacia los 10 meses de vida, muchos niños con autismo no responden a su nombre, muestran un muy
reducido interés por las personas y sufren un retardo a la hora de empezar a balbucear.
Con una edad un poco más avanzada, los niños autistas tienen dificultad a la hora de jugar a juegos que
impliquen socializar, les cuesta imitar las acciones de otras personas, y frecuentemente prefieren jugar
ellos solos.
Estudios muestran que los niños autistas están vinculados a sus padres, pero la manera de mostrar ese
vı́nculo puede ser bastante inusual, lo que puede hacer pensar a los padres que su hijo esta desconectado.
La mayorı́a de personas con autismo experimentan dificultades a la hora ver las cosas desde la pers-
pectiva de otra persona. Los niños de 5 años entienden que otras personas pueden tener pensamientos o
sentimientos diferentes a los suyos, pero los niños con autismo tienden a no poseer dicho entendimiento,
lo que interfiere con la habilidad de predecir y entender las acciones de otros.
A su vez, es bastante común que las personas con autismo presenten dificultades a la hora de gestionar y
controlar sus emociones, experimentando de manera muy frecuente situaciones de frustración, pudiendo
incluso llegar a tener comportamientos auto-lesivos.
Afortunadamente los niños con autismo pueden ser enseñados a interactuar socialmente, ası́ como captar
matices sociales más sutiles, como los gestos o las expresiones faciales, además de aprender a sobrellevar
su frustración.

4.3.2. Dificultades comunicativas

Personas jóvenes con autismo tienden a presentar un retraso temporal a la hora de balbucear, hablar
o expresarse mediante gestos. Sin embargo, mediante terapia, bastantes personas que padecen autismo
pueden aprender una lengua hablada y la gran mayorı́a pueden comunicarse.
Además, muchos adultos y niños no parlantes pueden aprender a usar sistemas de comunicación como
imágenes, lengua de signos, procesadores de texto electrónicos o incluso dispositivos generadores de
voz.
A medida que se va desarrollando la capacidad del lenguaje, las personas con autismo numerosas veces
utilizaran el lenguaje de manera muy inusual, como por ejemplo decir solo palabras sueltas o repetir la
misma frase durante un periodo de tiempo.
Es necesaria también la diferenciación entre el lenguaje expresivo y el lenguaje receptivo, ya que se
tiende a pensar que son lo mismo y no es ası́, pudiendo personas autistas experimentar problemas con
solo una de las dos capacidades.

22 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Patrones de comportamiento comunes son el uso de monólogos sobre el tema favorito de la persona con
autismo, dejando poco margen para la intervención del resto de personas en la conversación. También
presentan dificultad en el entendimiento del lenguaje corporal, el tono de la voz o las expresiones que no
deben ser interpretadas de manera literal (especial dificultad con bromas, ironı́a...).
Por ultimo, a medida que va surtiendo efecto la terapia, estos patrones irán poco a poco disminuyendo o
suavizándose, y la persona autista aprenderá de manera paulatina a comunicarse de mejor manera.

4.3.3. Comportamientos repetitivos

Comportamientos repetitivos inusuales o una tendencia a limitar la actividad a un rango restringido


de actividades son otras de las principales caracterı́sticas de las personas con autismo.
Los comportamientos repetitivos pueden variar desde saltar, coger y dejar objetos hasta repetir sonidos,
palabras o frases. Algunas veces el comportamiento repetitivo puede ser autoestimulante. Un caso muy
concreto de la restricción de actividades presente en las personas autistas podrı́a ser un niño que pasa
horas colocando sus juguetes en lı́nea en vez de jugar con ellos. De la misma manera, muchos adultos
autistas muestran preocupación con la posición de objetos de la casa en la misma posición determinada,
siendo bastante molesto para ellos que se altere dicho orden.
Además de lo anterior, una gran cantidad de personas necesitan mucha consistencia y repetitividad en su
entorno y rutina diaria, pudiendo los pequeños cambios suponer una fuente de gran estrés.
Frecuentemente, los comportamientos repetitivos pueden adoptar la forma de obsesiones y preocupacio-
nes intensas, como pueden ser objetos muy concretos, o temas como los sı́mbolos, las matemáticas, las
fechas o la ciencia.

4.3.4. Habilidades únicas asociadas al autismo

Ası́ como muchas personas autistas muestran considerables problemas a la hora de enfrentarse a los
desafı́os del dı́a a dı́a, muchas personas autistas pueden presentar áreas en las que muestran un rendi-
miento muy alto. Es muy común encontrar a niños autistas con gran talento para las matemáticas, la
música o el arte, entre otras muchas actividades.
Estas áreas en las que el niño autista se va volviendo un experto pueden ser fuente de gran satisfacción y
orgullo para el propio niño, por lo que se recomienda que se incluyan estas actividades en la rutina diaria
del niño.
También es muy común observar como niños autistas muy pequeños son capaces de realizar actividades
muy complejas como cambiar un DVD o aprender a utilizar el mando de la televisión de manera autóno-
ma para ver su pelı́cula favorita, siendo la motivación la fuerza que guı́a este estilo de aprendizaje tan
único.

4.4. Problemas médicos y fı́sicos asociados al autismo

Se presentan a continuación los problemas médicos y fı́sicos más comunes que pueden estar asocia-
dos al desorden del espectro autista.

4.4.1. Epilepsia

La epilepsia se encuentra presente en aproximadamente un tercio de los casos de personas con au-
tismo. La epilepsia es un desorden del cerebro caracterizado por convulsiones recurrentes de la persona

Pablo Rodrı́guez-Sahagún Alesanco 23


4 AUTISMO O TEA (TRASTORNO DEL ESPECTRO AUTISTA)

que la padece. La explicación actual que proponen los expertos en la materia es que alguna de las anor-
malidades cerebrales asociadas al autismo pueden contribuir a la presencia de la epilepsia.
Las anormalidades pueden causar cambios en la actividad cerebral debido a variaciones de la activi-
dad neuronal. Sobrecargas o perturbaciones de la actividad neuronal pueden desembocar en episodios
epilépticos.
La epilepsia es mas común también en aquellos niños que poseen déficits cognitivos. Los episodios
epilépticos relacionados con el autismo suelen darse en la niñez o en la adolescencia temprana, pero
pueden ocurrir en cualquier instante.
El tratamiento tı́pico de los niños y adultos con episodios epilépticos se realiza con anticonvulsivos, me-
dicamentos cuyo objetivo final es la reducción o eliminación de episodios epilépticos. El tipo exacto de
anticonvulsivo debe ser seleccionado por un neurólogo en base al examen de la persona que padezca
los episodios y en base a pruebas neurológicas como pueden ser una imagen por resonancia magnética
(MRI) o una tomografı́a computerizada (CT).

4.4.2. Desordenes genéticos

Algunos niños con autismo presentan una condición genética identificable que afecta al desarrollo
cerebral. Algunos ejemplos de estos desordenes genéticos son el sı́ndrome Fragile X, sı́ndrome Angel-
man, sı́ndrome de la duplicación del cromosoma 15 y otro tipo de desórdenes.
Aunque es necesario un estudio más profundo y extenso, parece ser que trastornos monogenéticos afectan
entre al 15 % y 20 % de las personas con autismo.

4.4.3. Desordenes gastrointestinales

Los desórdenes gastrointestinales están estrechamente relacionados con el autismo. Varios estudios
relacionan el autismo con problemas gastrointestinales como por ejemplo la gastritis, la colitis o la eso-
faguitis en un 50 %-70 %de los casos.
El dolor provocado por estos desordenes gastrointestinales puede provocar un cambio en el comporta-
miento de los niños ya que se siente frustrados ante el dolor. Existe evidencia débilmente probada de
que una dieta baja en azucares y gluten puede influir positivamente sobre las personas con autismo,
produciéndose una mejora en sus condiciones de vida y su comportamiento.

4.4.4. Alteración del sueño

Las alteraciones del sueño son muy comunes en niños y adolescentes con autismo. Muchas veces
estas alteraciones pueden estar provocadas por problemas médicos como por ejemplo apnea del sueño o
reflujo gastroesofagal, por lo que resolver estos problemas médicos puede aliviar la alteración del sueño.
En otros muchos casos en los que no existe un factor médico, intervenciones en la rutina diaria del niño
como limitar el tiempo que se duerme durante el dı́a y establecer horas fijos de acostarse puede ayudar a
reducir la alteración del sueño.

4.4.5. Disfunción de la integración sensorial

Una gran cantidad de niños con autismo experimentan respuestas inusuales a estı́mulos sensoriales.
Pueden sestar afectados la vista, el oı́do, el tacto, el olfato, el gusto, la sensación de movimiento (sistema
vestibular) y la sensación de propiocepción.

24 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

4.4.6. Pica

La pica es un desorden alimenticio en el cual la persona afectada come cosas que no se consideran
alimentos. Los niños entre año y medio y dos años comen objetos que no son alimentos de manera fre-
cuente, siendo esto una parte normal del desarrollo.
Algunos niños con autismo y otras discapacidades continúan mas allá del tiempo normal con este tras-
torno, siendo los elementos más tı́picos por circunstancias de la rutina diaria de los niños trozos de tiza,
barro o pintura.

4.4.7. Salud mental

Frecuentemente un niño diagnosticado con autismo puede ser también diagnosticado con TDAH
(Trastorno de Déficit de Atención e Hiperactividad). Estudios recientes muestran que uno de cada cinco
niños con espectro autista tienen también TDAH, y que uno de cada tres tienen un trastorno de ansiedad
como puede ser fobias de muchos tipos.
Debido a esto, es de vital importancia que en estos casos el autismo sea tratado conjuntamente con las
otras patologı́as presentes, bien sea TDAH o ansiedad.

Pablo Rodrı́guez-Sahagún Alesanco 25


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

5. MRI - Imagen por Resonancia Magnética

La imagen por resonancia magnética o MRI (Magnetic Resonance Imaging) es una técnica de diagnósti-
co que utiliza como fundamento el fenómeno de la resonancia magnética nuclear de forma no invasiva
para producir imágenes de alta calidad del interior del cuerpo humano. Aporta información de tipo mor-
fológica y funcional. La técnica fue denominada imagen por resonancia magnética (MRI) en vez de
imagen por resonancia magnética nuclear (NMRI) debido a la connotación negativa de la palabra nu-
clear a finales de los años 70.
La técnica producı́a al principio rebanadas en dos dimensiones del volumen total, pero hoy en dı́a ha
avanzado hasta convertirse en una técnica de representación de volúmenes.

Figura 5: Ejemplo de una imagen por resonancia magnética del cerebro, separadas en un
conjunto de imagenes en dos dimensiones

5.1. Historia de la MRI

La historia de la imagen por resonancia magnética se remonta a finales del siglo XX, cuando el
cientı́fico Wilhelm Roentgen mostro por primera vez la creación de imágenes por medio de rayos X,
descubrimiento por el que fue galardonado con un premio Nobel en el año 1901.
En el año 1938 se realiza uno de los estudios fı́sicos fundamentales que posibilitan la resonancia magnéti-
ca nuclear, en el que Isidor Isaac Rabi hizo pasar un rayo de moléculas a través de un campo magnético
y comprobó que podı́an emitir ondas de radio a frecuencias especı́ficas, ganando otro premio Nobel en
fı́sica en el año 1944.
Mas adelante, a finales de los años 40, George Ludwig aplica por primera vez ultrasonidos con propósitos
médicos. Continuando con el trabajo desarrollado por Rabi, Felix Bloch y Edward Mills Purcell extien-
den el experimento a la utilización de sólidos y lı́quidos.
20 años más tarde Raymond Damadian sugirió que las resonancias magnéticas podrı́an ser utilizadas
para distinguir tejidos cancerosos de tejidos sanos.
En el año 1973, Paul Lauterbur mostro que era posible crear una imagen a partir de una resonancia
magnética nuclear, publicándose cuatro años más tarde las primeras imágenes por resonancia magnética
realizadas en humanos.
El desarrollo y la extensión de su uso ha sido vertiginoso, existiendo en el año 2003 unas 10.000 unidades
y realizándose más de 75 millones de escáneres en todo el mundo.

Pablo Rodrı́guez-Sahagún Alesanco 27


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

5.2. Fundamentos fisicomatemáticos

A continuación, se detallan aquellos conceptos matemáticos y fı́sicos que posibilitan la obtención


de imágenes por resonancia magnética. Para aquellas personas que deban trabajar con escáneres creados
por resonancia magnética, es de vital importancia entender los mecanismos que posibilitan la creación
de las imágenes.

5.2.1. Conceptos basicos

• Producción del campo magnético: En el viaje de un electrón a lo largo de un cable, se produce un


campo magnético alrededor del electrón. Si el cable tiene forma circular, se producirá un campo
magnético perpendicular a dicho cable (Figura 2a).

• Resonancia: El fenómeno de resonancia ayuda a la correcta y eficiente transmisión de la energı́a.


Este fenómeno se puede explicar de manera clara con un ejemplo: al empujar a un niño en un
columpio es muy importante que le demos energı́a en el momento adecuado, de forma que el niño
pueda llegar más alto.

• Protones de hidrogeno: Es necesario la disponibilidad de una fuente de protones de hidrogeno de


cara a poder formar la señal de la resonancia magnética. El protón de hidrogeno está cargado de
forma positiva y gira alrededor de su eje. Este protón actúa como un pequeño imán. Los protones
de hidrogeno dentro de nuestro cuerpo, actúan, por tanto, como un conjunto de pequeños imanes.

• Campo magnético principal: Proviene de una gran corriente eléctrica a lo largo de cables que
forman un solenoide (Figura 2b). Un valor tı́pico de campo magnético para sistemas de resonancia
magnética será 1,5 Teslas.
Los cables se encuentran inmersos en helio lı́quido, de cara a que grandes corrientes puedan ser
usadas. Debido a la existencia del campo magnético algunos de los protones de nuestro cuerpo se
alinearán en dirección del campo magnético, y otros en contra.
Los campos magnéticos de una gran cantidad de protones se cancelarán entre ellos, pero existirá
un pequeño exceso de protones alineados con el campo magnético, lo que producirá una magne-
tización. Esta magnetización es la fuente de la señal usada para la producción de imágenes por
resonancia magnética.

(a) Figura 6a (b) Figura 6b

Figura 6: Campos magneticos en el caso de electrones en cables simples y un solenoide

28 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

• Sistema de coordenadas: Denominaremos a la dirección paralela al campo magnético principal


dirección longitudinal o eje z. Normalmente este eje es un eje horizontal y se corresponde con la
dirección cabeza-pies.
Adicionalmente definiremos el eje x como la dirección que va de izquierda a derecha del paciente,
y el eje y como la dirección anterior-posterior. El plano que contiene a x e y se denomina plano
transversal.

• Precesión: La acción del espı́n de los protones sumada a la acción del campo magnético provoca
la precesión de los protones. Teniendo en cuenta el fenómeno de resonancia, es de vital importan-
cia conocer la frecuencia de este movimiento de precesión. Esta frecuencia se puede determinar
gracias a la ecuación de Larmor:

f = γBo (1)
donde f es la frecuencia de precesion,γ es una constante denominada radio giromagnetico y Bo es
la fuerza del campo magnetico principal. Para protones de hidrogeno, el valor de γ es igual a 42,6
MHz/T, por lo que para un sistema tipico de resonancia magnetica (Bo = 1,5 T) la frecuencia seria
64 MHz.

• Energı́a de radiofrecuencia: La energı́a de radiofrecuencia se produce por el rápido cambio de


los campos eléctricos y magnéticos existentes. Las estaciones de radio y televisión emiten en fre-
cuencias parecidas a las de la resonancia magnética, y afectan a estas últimas, lo que constituye la
razón por la que los equipos de resonancia magnética deben estar protegidos.
Tı́picamente, la radiofrecuencia es transmitida en un corto periodo de tiempo llamado pulso de ra-
diofrecuencia. Este pulso debe estar a la misma frecuencia que la frecuencia de precesión calculada
con la ecuación de Larmor para que se produzca el fenómeno de resonancia.

• Absorción de la energı́a de radiofrecuencia: A medida que se absorbe energı́a del pulso de ra-
diofrecuencia, la magnetización rotara separándose del eje z. La cantidad de rotación dependerá de
la fuerza y duración del pulso de radiofrecuencia. En función del ángulo que rote la magnetización
encontraremos diferentes pulsos, destacando los pulsos de 90º y 180º.

5.2.2. T1 - Tiempo de relajación longitudinal

Después de la presentación de los conceptos fı́sicos fundamentales de la resonancia magnética se van


a presentar una serie de conceptos más avanzados.
Después de la aplicación de un pulso de radiofrecuencia de 90º la magnetización longitudinal pasa a ser
magnetización transversal, siendo el valor de la magnetización longitudinal. Pasado un tiempo después
del pulso, la magnetización longitudinal vuelve a crecer. Surge ası́ la definición del tiempo T1 o tiempo
de relajación longitudinal como el tiempo que tarda en reestablecerse la magnetización longitudinal (Fi-
gura 3a). La definición exacta de T1 es el tiempo que tarda la magnetización longitudinal en alcanzar el
63 % de su valor máximo, asumiendo que ha sufrido un pulso de 90º. Diferentes tejidos poseerán dife-
rentes valores de T1 y crecerá su magnetización longitudinal a distinta velocidad.
La materia blanca tiene un T1 muy corto y se relaja rápidamente, mientras que el fluido cerebroespinal
posee un T1 largo y se relaja de manera lenta. Por otro lado, la materia gris posee un T1 intermedio,
relajándose en un tiempo intermedio. Por lo tanto, los pixeles más claros corresponderán a la materia

Pablo Rodrı́guez-Sahagún Alesanco 29


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

blanca, mientras que el fluido cerebroespinal aparecerá más oscuro, siendo la materia gris correspon-
diente con los tonos grises intermedios (Figura 3b).
Este mecanismo de contraste se denomina contraste T1. Si las curvas de la figura 3b no estuvieran muy
separadas entre sı́, se dirı́a que la imagen no tiene mucho contraste - T1.

(a) Figura 7a (b) Figura 7b

Figura 7: Relajacion longitudinal (T1) tras la aplicacion de un pulso de radiofrecuencia de 90º

5.2.3. T2 - Tiempo de relajación transversal

La descripción de este parámetro comienza con la magnetización alineada con el eje z y la aplicación
de un pulso de radiofrecuencia de 90º que rota la magnetización hasta que pertenece al plano transversal.
Durante el pulso los protones realizan el movimiento de precesión en fase, pero después del pulso em-
piezan a desfasarse debido a cuatro factores distintos.
Uno de los principales factores es la presencia de zonas no homogéneas en el campo magnético, lo que se
traduce en distintas frecuencias de precesión para distintos protones, lo que provocara después del pulso
un ligero desfase.
Tres de los cuatro efectos que crean el desfase pueden ser revertidos gracias a un truco que se explica-
ra más adelante. En este caso, el desfase estará provocado por el efecto restante, llamado interacciones
spin-spin. Este desfase recibe el nombre de relajación T2. Este parámetro es especifico de cada tejido y
parametriza la velocidad de desfase de los protones asociados a ese tejido.
Es posible medir la magnetización transversal, ya que, al ser un campo magnético, induce una corriente
en una espira de cable. Esta corriente eléctrica se digitaliza y es procesada por un ordenador para su pos-
terior reconstrucción. La señal recibida es máxima al estar la magnetización transversal en fase, mientras
que si está completamente desfasada la señal recibida será igual a cero.
Surge ası́, de manera muy parecida al parámetro T1, la definición del parámetro T2. La definición exacta
del parámetro T2 es el tiempo que tarda la magnetización transversal en caer hasta el 37 % de su valor
inicial.
De forma parecida a lo que pasaba con el parámetro T1, diferentes tejidos poseen distintos tiempos de
relajación transversal. La materia blanca tiene un T2 corto y se desfasa rápidamente, mientras que el
fluido cerebroespinal tiene un T2 largo y se desfasa lentamente. De la misma forma la materia gris tiene
un tiempo de relajación transversal intermedio.
Cabe destacar como apunte final que los procesos de relajación de T1 y T2 se producen de manera
simultánea, aunque con diferencias en cada uno de ellos.

30 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

5.2.4. Eco del spin

El spin echo es el truco al que se ha hecho referencia anteriormente de cara a eliminar tres de los
cuatro factores que provocan desfase en la magnetización después de la aplicación de un pulso de radio-
frecuencia de 90º.
Después de un tiempo determinado, si se aplica un pulso de radiofrecuencia de 180º los spines dejaran
de desfasarse, y en cambio, volverán paulatinamente a estar en fase.
Al volver los spines a estar en fase, nuestro medidor de señal registrara un valor máximo. La vuelta a
estar en fase de los spines provoca un eco denominado spin echo. A su vez, el tiempo que existe entre el
pico del pulso de radiofrecuencia de 90º y el de 180º se denomina tiempo de eco(TE).
Mediante el eco del spin se consigue anular el efecto de tres de las cuatro interacciones que afectan
al desfase de los protones. Mientras que estos tres efectos son lineales, el cuarto efecto (interacciones
spin-spin) es un efecto aleatorio, por lo que su control y atenuación es muy complicado

Figura 8: Tabla en la que se recogen los distintos efectos que influyen en el desfase de los
protones. Se define T2* como T2 sin aplicacion de pulso de 180º(spin echo)

5.2.5. Diagramas de secuencias de pulso

Una vez expuestos los conceptos fundamentales, ası́ como los tiempos de relajación y contrastes T1
y T2, es necesario explicar cómo crear y controlar este contraste.
Esto se consigue gracias a la descripción de la secuencia de pulsos de la resonancia magnética, que
muestra los tiempos de ciertos eventos durante la resonancia magnética. Estos eventos engloban tanto a
los pulsos de radiofrecuencia como a la señal formada por dichos pulsos. Los eventos mas importantes
se señalan en la figura

Figura 9: Diagrama de secuencias de pulso donde se recoge la informacion temporal de los


eventos mas importantes

Apoyándose en la figura 5, se procede a la descripción de dos parámetros muy importantes de las

Pablo Rodrı́guez-Sahagún Alesanco 31


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

resonancias magnéticas, TE y TR.


TE ya ha sido previamente definido al hablar del eco del spin. TR se define como el tiempo necesario
para realizar la secuencia de pulso una vez. Como ejemplo básico, se supone que se quiere obtener
una imagen de 128 pixeles por 128 pixeles, lo que equivale a una matriz de datos de 128 filas por 128
columnas. Mediante una secuencia de pulso obtendrı́amos la primera fila de la matriz de datos, por lo
que se deberı́a repetir la secuencia de pulso 128 veces, siendo el tiempo total de adquisición de los datos
128 por TR.
Como apunte final cabe destacar que los tiempos TE y TR permiten controlar el efecto de las relajaciones
T1 y T2 expuestas anteriormente. 5..

5.2.6. Secuencias de pulso básicas

Por ultimo se presentan una serie de secuencias de pulso básicas tomando como referencia la secuen-
cia de eco de spin.

• Eco spin: La secuencia de pulso de eco spin se corresponde con la figura numero 5 previamente
mostrada. Esta secuencia es capaz de producir imágenes basadas en ponderaciones respecto a T1 y
a T2. TE y TR serán seleccionados de manera adecuada para conseguir la mejor calidad de imagen
posible. Valores tı́picos de TE y TR cuando se utiliza como ponderación T1 y un campo magnético
de 1,5 T son TE = 20 msec y TR = 500 msec, mientras que si la ponderación utilizada es referente
a T2 se utilizan tı́picamente TE = 80 msec y TR = 2000 msec.

• Multieco eco spin:La secuencia de pulso multieco eco spin utiliza múltiples pulsos de radiofre-
cuencia de 180º, produciéndose cada eco a un tiempo TE diferente (Figura 6a). Valores tı́picos
para esta secuencia de pulso son TR = 2000 msec, TE1 = 20 msec y TE2 = 80 msec. Este ti-
po de secuencia disminuye notablemente los tiempos de adquisición de la imagen por resonancia
magnética, aunque sacrificando un poco de detalle y calidad.

• Turbo eco spin:Este tipo de secuencia se parece en su disposición a la secuencia multieco, con la
diferencia de que en la secuencia multieco se obtienen diferentes paquetes de datos que deberán ser
combinados e interpretados, mientras que en la secuencia turbo spin se obtiene un único paquete
de datos a mayor velocidad que en la secuencia eco spin básica.

(a) Figura 10a (b) Figura 10b

Figura 10: Diagrama de secuencia de pulso de Multi eco spin (Figura 6a) y Turbo eco spin (Figura 6b)

32 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

5.3. Funcionamiento

Una vez vistos los conceptos fı́sicos que se utilizan para la obtención de imágenes por resonancia
magnética se plantea un esquema del proceso completo de funcionamiento de una maquina MRI. Se
comenzará con la creación del campo magnético, ası́ como la excitación de los protones mediante pulsos
de radiofrecuencia, los cuales posteriormente se relajarán liberando energı́a. Aplicando pulsos según las
distintas secuencias de pulso (eco, multieco, turbo-eco...) se obtendrá una señal, la cual será codificada,
almacenada y procesada por un ordenador, y, cuyo resultado final será la imagen deseada. (Ver figura 7)

Figura 11: Diagrama de proceso de obtencion de imagen por resonancia magnetica

5.4. Ventajas y desventajas de la MRI

A continuación, se presentan ventajas e inconvenientes de la utilización de la obtención de imágenes


por resonancia magnética nuclear de manera breve.

5.4.1. Ventajas de la MRI

• 1: La RMI tiene la habilidad de producir imágenes sin el empleo de rayos-x ionizantes, en contra-
posición a la tomografı́a computarizada.

• 2: Las imágenes pueden ser obtenidas en multitud de planos y orientaciones sin la necesidad de
mover al paciente durante la prueba.

• 3: Las imágenes obtenidas por MRI poseen un contraste en los tejidos blandos superior a otros
tipos de métodos de obtención de imágenes médicas, posicionándose como método ideal en la
examinación del cerebro, articulaciones, ası́ como otras partes del cuerpo formadas por tejidos
blandos.

• 4: Algunos tipos de imágenes pueden ser obtenidos sin la introducción de una sustancia que au-
mente el contraste.

Pablo Rodrı́guez-Sahagún Alesanco 33


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

• 5: Técnicas avanzadas dentro de la resonancia magnética como la difusión, la espectroscopia o


la perfusión permiten una caracterización precisa del tejido, mas allá de una mera representación
macroscópica.

• 6: La MRI funcional permite la visualización tanto de la estructura cerebral, ası́ como de las partes
activas del cerebro durante la ejecución de distintas actividades. Este tipo de imagen por resonancia
magnética será discutida en profundidad más adelante.

5.4.2. Desventajas de la MRI

• 1: Los escáneres MRI son más caros que los escáneres por tomografı́a computarizada y requieren
más tiempo, lo que influye claramente en la comodidad del paciente en la prueba.

• 2: Los escáneres por resonancia magnética no son seguros para pacientes con implantes de metal
y cuerpos externos implantados. Se debe prestar especial atención a las medidas de seguridad de
cara a evitar lesiones graves tanto a los pacientes como a los profesionales que están manejando el
equipo médico.

34 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

5.5. La MRI funcional - fMRl

La imagen por resonancia magnética funcional (fMRI) ha revolucionado el estudio del órgano más
complejo del ser humano, el cerebro. Se trata de un procedimiento médico y clı́nico que permite observar
en imágenes las regiones del cerebro que se activan en la realización de una tarea determinada.
Se presenta a continuación el contexto de esta técnica de neuroimagen desde diversos puntos de vista: de
la historia a las aplicaciones futuras, pasando por su funcionamiento y las consideraciones éticas

Figura 12: Coleccion de imagenes del cerebro obtenidas mediante la tecnica de imagen por
resonancia magnetica funcional, donde se asocian diversas intensidades de actividad cerebral
con el color

5.5.1. Historia breve de la fMRI

La imagen por resonancia magnética funcional es un tipo de resonancia magnética cuyo origen da-
ta de hace unos 20 años, y que se basa en el comportamiento de tejidos biológicos bajo influencia de
campos magnéticos, en la que se utiliza el fenómeno de la resonancia magnética nuclear para medir la
oxigenación de sangre en los tejidos.
En el año 1936, el cientı́fico Linus Pauling ya expuso que la susceptibilidad magnética de la hemoglobi-
na cambiaba en función del nivel de oxigeno presente. No es hasta el año 1990, al realizar el cientı́fico
japonés Ogawa experimentos con cerebros de roedores en campos magnéticos, que se empezó a desa-
rrollar el concepto actual de resonancia magnética funcional. Ogawa introdujo entonces el efecto BOLD
(Blood Oxygenation Level Dependent contrast), que es el proceso de oxigenación por el cual el oxı́geno
se liga de manera reversible al ion férrico de la hemoglobina de los glóbulos rojos. Ogawa hipnotizo que
este efecto estaba relacionado con los estados funcionales del cerebro.
La aplicación de la técnica BOLD la neuroimagen humana fue mencionada y desarrollada por Bandettini
y Ogawa en el año 1992. A partir de este momento los avances en la resonancia magnética funcional
han consistido en desarrollo de los componentes fı́sicos de ordenadores (hardware), en los métodos de
obtención de imágenes y en software de obtención y muestra de imágenes.
Estas técnicas y métodos siguen en constante evolución, ya que aún queda mucho por hacer en temas de
resolución espacial y temporal, ası́ como sensibilidad de los escáneres.

Pablo Rodrı́guez-Sahagún Alesanco 35


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

5.5.2. Funcionamiento de la fMRI

Como ya se ha expuesto anteriormente, la imagen por resonancia magnética (MRI) hace uso del
fenómeno de la resonancia magnética nuclear bajo la acción de un campo magnético, utilizando las pro-
piedades magnéticas de los protones del hidrogeno del cuerpo humano que se encuentran en abundancia
en el agua y grasa de los tejidos corporales.
En cambio, la resonancia magnética funcional se aprovecha de las propiedades de moléculas biológicas,
en este caso la hemoglobina. La diferencia de susceptibilidades magnéticas en la hemoglobina en sus
diferentes estados de oxigenación explican el mecanismo que basa el contraste BOLD.
Cuando realizamos cualquier actividad (hablar, movernos, pensar o incluso en reposo) ciertas áreas del
cerebro se ven involucradas en la realización de estas tareas. Para esto las neuronas involucradas en di-
chas tareas demandan una mayor cantidad de energı́a a nivel local, lo que se traduce en un aumento local
de flujo de sangre, y por tanto, el aumento de oxigeno presente en la hemoglobina, incrementándose la
señal de la resonancia magnética.
Estructurando la recogida de datos cada ciertos intervalos de tiempo, la resonancia magnética funcional
es capaz de proveer datos temporales de cada vóxel del cerebro (equivalente a un pı́xel pero en tres di-
mensiones).
La calidad de imagen y resolución conseguida por una resonancia magnética funcional es menor que
la de una resonancia magnética convencional, ya que la primera necesita una muestra del cerebro cada
pocos segundos (en una resonancia magnética convencional pueden ser minutos), siendo aun ası́ mejor
que otras técnicas existentes como el electroencefalocardiograma.
Para explicar de manera más clara y concisa el funcionamiento de la fMRI se va a utilizar como ejemplo
la ejecución de una tarea motora por parte del sujeto. Una vez dentro del campo magnético del escáner
el sujeto abrirá y cerrará la mano cada 30 segundos. La mayorı́a de las funciones estudiadas necesitan de
entre veinte y cuarenta minutos para la realización de la prueba.
Posteriormente son necesarias complejas técnicas de procesamiento de imagen para definir la actividad
de cada bóxer determinado en los intervalos de tiempo que correspondan. Una de las grandes dificultades
a la hora de realizar este tipo de escáner es la manera en la que los estı́mulos son presentados al paciente
de cara a activar ciertas regiones del cerebro.
Los estı́mulos usados dependerán de que funciones quieren ser estudiadas, y podrán ser muy diver-
sos: motores, sensoriales, relacionados con el lenguaje o cognitivos. Las estructuras de presentación de
estı́mulos más utilizadas son el diseño en bloque y el diseño basado en eventos (Figura 9). asociadas.

Figura 13: Figura que iliustra los dos patrones de interacciones de pacientes con esti-
mulos utilizados en experimentos con resonancia magnetica funcional

36 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

El diseño en bloque consiste alternar periodos de entre veinte y treinta segundos de dos (algunas
veces tres) estados, comúnmente estimulo y descanso, para ser capaces de determinar las diferencias
existentes entre los estados estudiados.
Por otro lado, el diseño basado en eventos presenta los estı́mulos de manera individual con duraciones
de unos pocos segundos, de manera aleatoria y con una duración variable entre los diferentes estı́mulos.
Esta técnica es especialmente recomendable para tareas de tipo cognitivo.
En los últimos años ha surgido también un diseño denominado Resting State fMRI, que es el tipo de
diseño predominante de los datos que dispondremos para realizar el estudio de este trabajo de fin de
grado. En este tipo de diseño no se presentan estı́mulos al paciente, sino que se analiza la actividad
espontanea del cerebro, siendo actualmente el más extendido.

5.5.3. Limitaciones técnicas

Se han identificado varias limitaciones relacionadas con la técnica fMRI, como pueden ser el diseño
de los experimentos, el movimiento de la cabeza del paciente, cambios estructurales en el cerebro, el
registro de la imagen, la resolución temporal y espacial ya comentada, la fuerza del campo magnético,
las técnicas estadı́sticas asociadas al proceso de creación de imagen (análisis de las regiones de interés,
tamaño de la muestra a analizar, inferencia a toda la población), las influencias cultural y antropológica
del paciente en la interpretación de los datos, la diversidad de hardware y software a la hora de realizar
el escáner y una falta de procedimientos estandarizados.
Muchos de estos problemas genera diferentes preguntas y consideraciones a la hora de tener que inter-
pretar los datos obtenidos.
En un estudio analı́tico reciente sobre el aprendizaje sobre técnicas de resonancia magnética funcional,
el cientı́fico Robert Savoy hace hincapié en las dificultades a las que hacen frente aquellas personas que
quieren convertirse en expertos en el área de las imágenes médicas, necesitándose una gran cantidad de
practica en el análisis de los datos, ası́ como en la capacidad de diagnóstico, resultando en un proceso de
aprendizaje lento y complicado.

5.5.4. Seguridad

Los riesgos derivados de un escáner fMRI no distan mucho de aquellos relacionados con los escáne-
res MRI convencionales, con la excepción de posibles riesgos o incomodidades derivadas de la presen-
tación de estı́mulos a los pacientes.
Los pacientes que serán sometidos a escáneres de tipo fMRI están expuestos tanto a campos magnéticos
estáticos, como a campos magnéticos variables (campos de gradiente y de radiofrecuencia).

• Campos magnéticos estáticos: Los efectos más frecuentes que pueden sufrir los pacientes debido
al campo magnético estático son parecidos al vértigo, sobre todo si existe movimiento dentro del
fuerte campo magnético del escáner.
A medida que se incrementa la fuerza del campo magnético, como por ejemplo los escáneres re-
sonancia magnética con campo magnético ultra-high que tienen una fuerza de campo magnético
mayor o igual a 7 Teslas, se observan un mayor número de pacientes con vértigo y nauseas. Se ha
estudiado también el efecto de los campos magnéticos de los escáneres fMRI en recién nacidos y
niños, sin observarse efectos adversos en el desarrollo de funciones de éstos.
Adicionalmente existe riesgo de desplazamiento, vibración o daño de implantes de metal que sean

Pablo Rodrı́guez-Sahagún Alesanco 37


5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA

conductores, especialmente aquellos que contengan elementos ferromagnéticos, siendo los escáne-
res fMRI contraindicados para pacientes con este tipo de implantes.

• Campos magnéticos de gradiente: Los gradient coils son usados para producir variaciones en
el campo magnético estático principal. Existen normalmente tres gradient coils , una para cada
dirección del espacio (x, y, z). Los campos magnéticos de gradiente están involucrados en la se-
lección del plano de representación, ası́ como en la codificación de la señal MRI detectada, siendo
un factor de vital importancia para la calidad de imagen.
Cambian de manera rápida durante tanto en amplitud como en polaridad y pueden causar corrien-
tes en implantes metálicos, provocando su deterioro. Personas con epilepsia o que tomen drogas
habitualmente deben someterse a las pruebas con especial cuidado.
Los campos magnéticos variables son también responsables de ruido acústico, siendo mayor su
intensidad cuando más fuerte sea el campo magnético. Aunque el riesgo de pérdida auditiva per-
manente es muy bajo, puede ser muy molesto para los pacientes.

• Campos de radiofrecuencia: Las bobinas de radiofrecuencia se comportan como las antenas del
sistema MRI al enviar una señal de radiofrecuencia y/o recibirla de vuelta. La exposición a campos
de radiofrecuencia de suficiente intensidad pueden inducir el calentamiento de los tejidos biológi-
cos. Debido a esta causa, hay restricciones de exposición a campos de radiofrecuencia durante los
escáneres MRI.
Es necesario tener extremada precaución con niños pequeños y mujeres embarazadas, ası́ como
personas que resultado de la edad presenten algún tipo de problema asociado a la temperatura
corporal.

5.5.5. Consideraciones neuroéticas

La neuroética es la ciencia que trata con aquellas cuestiones éticas, legales y sociales asociadas a
la práctica clı́nica de la neurociencia, ası́ como de las investigaciones y estudios relacionados con ésta.
Analizando el caso de la fMRI como parte de la neurotecnologia surgen varias incógnitas, algunas propias
de esta prueba y otras comunes al campo de la neurociencia, como pueden ser la aplicación de la prueba
a niños pequeños que no puedan dar su consentimiento, niños con algún tipo de discapacidad la cual
no requiere este tipo de prueba pero resultarı́a interesante desde un punto de vista de investigación o la
aplicación de la prueba a personas embarazadas y que ésto pueda afectar al desarrollo del feto, entre otras
muchas situaciones.

5.5.6. Aplicaciones de la fMRI

La resonancia magnética funcional ha tenido un impacto cientı́fico comparable al de otros descu-


brimientos biomédicos. En la actualidad se encuentra más asentada en investigación en el campo de la
neurociencia, en particular la neurociencia cognitiva, más que en la aplicación clı́nica diaria.
Entre sus muchas contribuciones al avance cientı́fico resaltan la contribución al entendimiento de cómo
funciona la memoria humana o el comportamiento social. En el entorno clı́nico, la fMRI es mayoritaria-
mente utilizada para la planificación de intervenciones quirúrgicas.
Sin embargo, aun teniendo un rol muy importante en la investigación y comprensión de enfermedades
psiquiátricas y neurológicas, no lo tienen en el diagnóstico de estas mismas patologı́as. La fMRI también
se ha extendido al estudio de áreas más controvertidas a nivel ético y filosófico, como pueden ser la toma
de decisiones, la percepción moral o la conciencia, y facultades humanas complejas como la percepción

38 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

de la música o el arte.
Se presentan, a su vez, numerosos desafı́os asociados con la investigación de aplicaciones, ası́ como sus
componentes éticos, en un rango a nivel social más amplio como podrı́a ser el ámbito legal: detección de
mentiras, determinación de estados mentales, memoria y culpabilidad asociada a la conducta.

5.5.7. Futuro y desarrollo

Mirando al futuro, el desarrollo de la fMRI pasa primero por un mayor rigor a la hora de la realización
del escáner, ası́ como la creación y aplicación de un marco normativo de escaneo común. Adicionalmente,
en vez de centrarse en la localización de una función cerebral concreta, se mostrara un mayor interés y
esfuerzo en el estudio de la conectividad cerebral entre distintas regiones de éste, ası́ como patrones de
activación.
Uno de los proyectos más interesantes es el Proyecto del Conectoma Humano, cuyo objetivo principal es
el uso de las técnicas más avanzadas de neuroimagen, incluyendo la fMRI en reposo y la fMRI realizando
diversas actividades, a un gran número de personas alrededor del mundo para crear enormes bases de
datos que favorezcan el estudio y la investigación cientı́fica.
En el ámbito de la medicina clı́nica la resonancia magnética funcional ira adquiriendo más peso. La
realización de una fMRI en reposo no necesita de ninguna actividad por parte del paciente, y no conlleva
más tiempo que un escáner MRI convencional. Las pruebas fMRI en reposo están siendo utilizadas
ampliamente para el estudio de múltiples patologı́as, por lo que podrı́an ser usadas en un futuro para el
diagnóstico de las mismas.
Los sistemas con fuerza de campo magnético mayor que tres Teslas comenzaran a ser adoptados, ya que
permiten una resolución espacial tanto temporal mucho mayor. No obstante, el incremento de la fuerza
de los campos magnéticos también comporta limitaciones (económicas, biológicas y tecnológicas) que
deben ser tenidas en cuenta.

Pablo Rodrı́guez-Sahagún Alesanco 39


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

6. La iniciativa ABIDE
6.1. Introducción
Como ya se ha comentado anteriormente, aproximadamente uno de cada setenta niños americanos
sufren el trastorno del espectro autista. El crecimiento en los casos de autismo son fruto, al menos par-
cialmente, de la adopción de métodos estandarizados de evaluación y diagnóstico de la enfermedad.
Mas allá de la utilidad médica, la adopción de métodos estandarizados facilitan enormemente la com-
paración y la sı́ntesis entre diversos estudios e investigaciones sobre el autismo a lo largo de todo el
mundo. Se han producido grandes cantidades de datos asociados a la investigación del autismo mediante
fenotipos, sin embargo, no existen gran cantidad de datos de neuroimagen y escáneres cerebrales, que
son de vital importancia para el entendimiento de los mecanismos neurofisiológicos propios del autismo.
Como respuesta a esta falta de datos, surge la iniciativa ABIDE (Autism Brain Imaging Data Exchange)
o intercambio de datos de imágenes del cerebro autista en castellano. ABIDE es un esfuerzo conjunto
global de investigadores y cientı́ficos dedicado a compartir datos de imágenes por resonancia magnética
funcional en reposo de personas con autismo y pacientes de control de la misma edad que los primeros.
La razón de escoger R-fMRI como método de obtención de los datos está motivada por diferentes facto-
res:

• Estudios relacionados con el análisis de imágenes medicas de pacientes con autismo muestran
anormalidades en la conectividad entre regiones del cerebro, más que anormalidades de tipo fun-
cional o a la hora de realizar una tarea determinada.

• La dificultad que significa el diseñar experimentos y tareas a realizar por los pacientes que sean
capaces de mostrar los comportamientos y capacidades tı́picas de las personas autistas.

• Como ha sido demostrado con otros proyectos del mismo tipo, como pueden ser el Proyecto del
Conectoma Humano o la iniciativa ADNI (base de datos de imágenes de escáneres cerebrales de
personas que padecen Alzheimer), los datos resultantes de R-fMRI obtenidos de diversos centros
de investigación pueden ser juntados con éxito para su investigación.

Los directores de la iniciativa ABIDE hipotizaron que la utilización de protocolos estandarizados se refle-
jarı́a en una mayor homogeneidad de los datos. Se pretendı́a ser también un precursor de la armonización
de procedimientos de cara a estudios futuros relacionados con el autismo.

6.2. Análisis estadı́stico de la iniciativa ABIDE


En total, la base de datos ABIDE se compone de un total de 1112 personas, 539 que sufren el tras-
torno del espectro autista y 573 que son controles. Los datos proporcionados por la iniciativa son una
combinación de resonancias magnéticas funcionales en reposo y una gran cantidad de datos y fenotipos
asociados al paciente en forma de hoja de Excel separada por comas (CSV).
Se realiza un estudio estadı́stico básico de los pacientes con el lenguaje de programación R para todas las
manipulaciones de datos y la librerı́a ggplot2 para la visualización de los diferentes diagramas estadı́sti-
cos.
El eje x o de abscisas de todos los diagramas no varı́a , significando cada valor la universidad o cen-
tro de investigación de procedencia de los datos. Las instituciones involucradas en la obtención de los
datos han sido las siguientes: CALTECH (California Institute of Technology), CMU ( Carneige Me-
llon University), KKI ( Kennedy Krieger Institute), LEUVEN1 y LEUVEN2 (University of Leuven),

Pablo Rodrı́guez-Sahagún Alesanco 41


6 LA INICIATIVA ABIDE

MAXMUN ( Ludwig Maximilians University Munich), NYU ( NYU Langone Medical Center), OH-
SU ( Oregon Health and Science University), OLIN ( Olin neuropsychiatric research center al Hatford
Hospital), PITT ( University of Pittsburgh),SBL (Social Brain Lab, Groningen(Netherlands)), ( SDSU (
San Diego State University), STANFORD ( Stanford University), TRINITY ( Trinity Center for Health
Sciences), UCLA1 y UCLA2 ( University of California, Los Angeles), UM1 y UM2 ( University of Mi-
chigan) y YALE ( Yale Child Study Center).
El primer gráfico que se presenta es el número de personas que presentan trastorno del espectro autista
(en verde) frente a las personas de control (en morado). Resaltan las aportaciones en términos de cantidad
de personas de NYU y UCLA.

Figura 14: Grafico que muestra la proporcion entre personas con el trastorno del
espectro autista (verdes) y aquellas que son controles (morado).Elaboración propia.

En el siguiente grafico se presenta la distribución entre hombres y mujeres de las muestras de pacien-
tes según su universidad o centro de investigación, observándose que aproximadamente el noventa por
ciento de las muestras pertenecen a varones, siendo las muestras pertenecientes a mujeres muy pocas en
comparación.

Figura 15: Grafico que muestra la proporcion entre mujeres (azul) y hombres (rosa)
de entre todas las muestras de la iniciativa ABIDE.Elaboración propia.

42 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

A continuación se muestra la distribución de las edades en el momento en el que se tomó el escáner


en los distintos centros de investigación, obteniéndose los siguientes diagramas de caja o boxplots:

Figura 16: Diagrama de caja o boxplot de las edades de los participantes en la inicia-
tiva ABIDE.Elaboración propia.

Por último, se muestran dos graficas comparativas de la puntuación obtenida por los pacientes en un
test de inteligencia (FIQ) separándose en personas que sufren el trastorno del espectro autista y aquellas
que no.
Cada circulo representa una observación, y las lı́neas de color negro horizontales muestran la puntuación
media obtenida para cada centro de investigación

(a) Figura 17a (b) Figura 17b

Figura 17: Puntuacion de test de inteligencia (FIQ) para las personas participantes en la iniciativa ABIDE con
trastorno del aspectro autista (Figura 13a) y para personas de control (Figura 13b). Notese que debido a los rangos
de observaciones distintos entre una grafica y otra, los limites en los ejes difieren, por lo que a la hora de comparar
ambas graficas es necesario comprobar los limites del eje de ordenadas.Elaboración propia.

6.3. Metricas derivadas del analisis de las R-fMRI


Además de los datos de las imágenes propiamente dichos, se proporcionan también datos y medidas
relacionadas con la conectividad funcional de áreas del cerebro, la cual, según varios estudios sobre el

Pablo Rodrı́guez-Sahagún Alesanco 43


6 LA INICIATIVA ABIDE

autismo, esta ı́ntimamente relacionada con la patologı́a. Las medidas aportadas por la iniciativa son las
cuatro siguientes:

• ReHo: representa la media de la correlación de Tau de Kendall entre una serie temporal asociada
a un voxel (pixel en tres dimensiones) y sus 26 voxeles vecinos adyacentes.

• VMHC: representa la correlación entre un voxel y su simétrico en el hemisferio opuesto.

• DC: degree of centrality o grado de centralización, que mide el número de conexiones directas
entre vóxeles.

• fALFF: ratio entre las amplitudes de las fluctuaciones entre la banda de frecuencias de 0.01 a 0.1
Hertzios y la amplitud total para un escáner determinado. Esta medida ha resultado de gran interés
para el desarrollo del proyecto, por lo que se dedicara un apartado más adelante con un mayor
nivel de profundidad.

Figura 18: Figura comparativa en relacion a las 4 metricas propueestas realizadas con
los datos de las resonancias magneticas funcionales de la iniciativa ABIDE. A la iz-
quierda se encuentran los valores de conectividad medios en un volumen cerebral en
tres dimensiones, mientras que en la parte derecha del grafico se muestran las diferen-
cias entre aquellas personas con autismo y aquellas personas de control en terminos
de conectividad cerebral.

44 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

6.4. ALFF y fALFF


6.4.1. Introducción

El cerebro humano es un sistema dinámico muy complejo el cual genera una gran cantidad de ondas
oscilatorias. Para la caracterización de las diferentes oscilaciones, Buzsáki presenta una clasificación ba-
sada en diez bandas de frecuencia distintas, denominadas clases de oscilación, cuyo rango abarca desde
0,02 hasta 600 Hertzios.
El mismo Buzsaki refleja que las oscilaciones dentro de clases de oscilación especificas están ı́ntima-
mente relacionadas con procesos neuronales, ası́ como funciones cognitivas (regulación de las emocio-
nes, atención o memoria). De manera reciente, han ganado mucha importancia las que se denominan
oscilaciones de baja frecuencia (LFO por sus siglas en inglés, definidas normalmente como aquellas fre-
cuencias menores que 0,1 Hertzios), ya que a través del análisis de resonancias magnéticas funcionales
los investigadores han identificado fluctuaciones entre 0,01 y 0,1 Hertzios que se piensa son un reflejo de
la excitación cortical y la sincronización neuronal de larga distancia.
Resulta de gran interés el análisis de la amplitud de las LFO. Los pocos estudios de las LFO sobre datos
de fMRI han descubierto diferencias notables entre regiones del cerebro y entre poblaciones clı́nicas. Por
ejemplo, se ha descubierto que las amplitudes de las LFO son mayores en la materia gris cerebral que en
la materia blanca, y se ha conseguido diferenciar áreas cerebrales (visual, motora, auditiva) en función
de las amplitudes de las LFO de dichas regiones.
Más allá de la diferenciación en regiones cerebrales basadas en amplitudes de LFO, se ha mostrado en
trabajos recientes que las amplitudes de LFO difieren en personas con patologı́as de aquellas que ejercen
la labor de control. De manera más especı́fica, en el estudio del trastorno de déficit de atención e hiper-
actividad (TDAH) se han encontrado amplitudes más grandes en el córtex sensomotor, y más pequeñas
en el córtex frontal inferior.
También se han demostrado variaciones en la amplitud de las LFO en la realización de actividades. Sin
embargo, también se han encontrado indicios de que factores externos, como puede ser el porcentaje de
dióxido de carbono en sangre.

6.4.2. Definición

Surgen dos ı́ndices de la amplitud de las LFO basados en la Transformada de Fourier Rápida, siendo
el primero el ı́ndice ALFF (Amplitude of Low Frequency Fluctuations) o Amplitud de las Fluctuaciones
de Baja Frecuencia en castellano, y el segundo el ı́ndice fALFF (fractional Amplitude of Low Frequency
Fluctuations) o Amplitud fraccional de las Fluctuaciones de Baja Frecuencia.
El ı́ndice ALFF se define como la potencia total entre el rango de frecuencias de 0,01-0,1 Hertzios.
Resultando el ı́ndice ALFF útil a la hora de detectar fluctuaciones de las LFO, las fluctuaciones detectadas
pueden sobrepasar la frecuencia de los 0,1 Hertzios. En contraposición surge el ı́ndice fALFF, el cual es
definido como la potencia total en el rango de frecuencias de 0,01-0,1 Hertzios dividido entre la potencia
total en el rango de frecuencias detectable. Al ser un ı́ndice normalizado de ALFF, el ı́ndice fALFF
resulta ser una medida mucho más especı́fica de los fenómenos oscilatorios de baja frecuencia.

6.4.3. Método de obtención de los ı́ndices

Por cada escáner y participante, se realiza un análisis para identificar aquellos voxeles con una am-
plitud de LFO detectable. Como muestra la ecuación 2, primero se realiza la descomposición de la
señal mediante la transformada de Fourier rápida. Para una determinada serie temporal de imágenes que

Pablo Rodrı́guez-Sahagún Alesanco 45


6 LA INICIATIVA ABIDE

conforman el escáner por resonancia magnética funcional, el ı́ndice ALFF se calcula como la suma de
amplitudes en un rango especifico de baja frecuencia, siendo éste casi siempre 0,01-0,1 Hertzios (ver
ecuación 3).
El ı́ndice fALFF es el ı́ndice ALFF partido por la suma de amplitudes a lo largo de todas las frecuencias
detectables en una señal dada. El proceso de obtención de ambos ı́ndices se detalla en la figura 15.

Figura 19: Figura que muestra el proceso seguido desde la recepcion de la señal de la reso-
nancia magnetica funcional hasta que se consigue el indice fALFF

Las dos magnitudes reflejan diferentes aspectos de la amplitud de las LFO: el ı́ndice ALFF expresa
la fuerza o intensidad de las LFO, mientras que el ı́ndice fALFF representa la contribución relativa de las
LFO al rango total detectable de frecuencia.
De hecho, como se muestra en la ecuación número 4, el ı́ndice fALFF puede ser considerado como un
ALFF normalizado, usando para la normalización toda la energı́a en el rango de frecuencias detectable.

N
x(t) = ∑ [ak cos(2π fkt) + bk sen(2π fkt)] (2)
k=1

s
a2k ( f ) + b2k ( f )
ALFF = ∑ (3)
k: fk ∈[0,01,0,1]
N

q
k a2 ( f )+b2k ( f )
∑k: fk ∈[0,01,0,1] N
f ALFF = q (4)
N a2k ( f )+b2k ( f )
∑k=1 N

Se procede al cálculo de los ı́ndices ALFF y fALFF para cada voxel en el cerebro. Previamente a
cualquier análisis, se realiza una estandarización de los ı́ndices (se resta la media del ı́ndice ALFF de
todos los voxeles y se divide por la desviación tı́pica). En la figura 16 se muestran los ı́ndices ALFF y
fALFF que resultan significativos (ver mapa de colores de las figuras).
Los datos del ı́ndice de cada voxel de cada escáner por resonancia magnética en reposo de cada pa-

46 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

ciente serán los que daremos a nuestra red neuronal hibrida para que pueda aprender de manera correcta
como clasificar los fMRI de las personas que participan en el estudio. Esto se explicará en detalle más
en el capı́tulo Resultados y Conclusiones.

Figura 20: Mapa estadistico en el que se muestran indices ALFF y fALFF de un escaner
fMRI.

Pablo Rodrı́guez-Sahagún Alesanco 47


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

7. Introduccion al Deep Learning


Desde el primer momento en el que los ordenadores programables fueron concebidos, las personas
se han preguntado cual es el lı́mite en términos de inteligencia y complejidad al que van a poder llegar
las maquinas. Hoy en dı́a la inteligencia oficial (IA) es un campo en constante desarrollo, con numerosas
aplicaciones prácticas y muchas áreas de investigación.
Sin embargo, las dificultades encontradas por los sistemas de inteligencia artificial sugieren que éstos
necesitan la habilidad de poder conseguir su propio conocimiento a través de la extracción de patrones
de datos. Esta habilidad se conoce como machine learning. La introducción del machine learning supuso
un cambio muy grande, ya que los computadores empezaron a poder resolver problemas del mundo real
y tomar decisiones frente a ellos.
Algoritmos simples como la regresión logı́stica pueden recomendar o no la realización de una cesárea,
separar email de spam entre otros. Estos algoritmos sufren una fuerte dependencia respecto del tipo de
representación de datos del que son provistos. Ası́, por ejemplo, en el caso de la recomendación del
procedimiento de cesárea, el algoritmo no examina directamente al paciente, sino que es dado cierta
información relevante sobre el paciente que le hará tomar una decisión u otra.
A la hora de diseñar un algoritmo o seleccionar las caracterı́sticas de los datos más influyentes, el objetivo
tı́pico suele ser identificar los factores de variación o caracterı́sticas más importantes que puedan explicar
los datos observados. Una de las grandes dificultades a la hora de afrontar problemas del mundo real
es que muchos de los factores de influencia tienen efecto sobre las muestras de datos que poseemos,
y extraer caracterı́sticas abstractas o patrones de los datos puede ser muy complicado. Muchos de los
factores de variación, como puede ser el acento de una persona en tareas de reconocimiento de voz, solo
pueden ser identificados mediante un entendimiento extremadamente sofisticado de los datos.
El deep learning soluciona este problema central ya que los patrones más complejos son expresados
automáticamente en función de otros muchos más simples, como por ejemplo una imagen de un coche
o un animal, donde el sistema de deep learning representa estos conceptos como combinación de otros
muchos más simples como pueden ser lı́neas, contornos y esquinas.

7.1. Definición e historia


El deep learning se puede definir como un enfoque a la inteligencia artificial. De manera más es-
pecı́fica, es un tipo de machine learning, una técnica que permite a los ordenadores el poder mejorar de
manera sustancial con datos y experiencia.
Es un tipo particular de machine learning que obtiene unos muy buenos resultados, en términos de fle-
xibilidad y posibilidades, gracias a que representa problemas del mundo real como una estructura jerar-
quizada de conceptos, siendo los conceptos más complejos definidos en función de aquellos más simples.

La historia del Deep Learning se remonta a los años 40, y a partir de entonces ha sido llamado de
muchas maneras. Algunos de los algoritmos del deep learning más antiguos y que a dı́a de hoy se siguen
utilizando son un intento de simulación computacional de cómo funciona el aprendizaje y las funciones
biológicas, bien sea la visión, la memoria o la simple propagación de impulsos nerviosos entre neuronas.
Como resultado de esto último surgen las redes neuronales artificiales o ANN por sus siglas en ingles.
A partir de los años 40 surgieron modelos de la función cerebral, desde la neurona de McCulloch-Pitts,
que reconocı́a dos tipos distintos de categorı́as de entrada aunque habı́a que realizar numerosos ajustes
manuales a la red neuronal, hasta el perceptrón, o primer modelo de red neuronal que podı́a aprender de
manera autónoma dada una serie de datos y ejemplos.

Pablo Rodrı́guez-Sahagún Alesanco 49


7 INTRODUCCION AL DEEP LEARNING

Sin embargo, estos modelos son modelos lineales, lo que conlleva una gran cantidad de limitaciones, ya
que solo pueden aproximar funciones y relaciones lineales, cuando la mayorı́a de los problemas de la
vida real son problemas no lineales.
En el año 1980 Fukushima introdujo el neocognitron, un modelo muy interesante que podı́a procesar
imágenes inspirado en la estructura del sistema visual de los mamı́feros, el cual serı́a la base para el
posterior desarrollo de la red neuronal convolucional moderna desarrollada por LeCun.Otro logro muy
importante del ya mencionado LeCun fue el éxito en el uso del algoritmo de propagación inversa en el
entrenamiento de redes neuronales.
Durante los años 90, los investigadores realizaron numerosos avances en relación al tratamiento de se-
cuencias con redes neuronales. En el añom1997, Hochreiter y Schmidhuber introdujeron las redes de
memoria de largo y corto plazo (LSTM - Long Short Term Memory), que hoy en dı́a siguen siendo usa-
das por ejemplo en traductores de textos como DeepL o por el mismo Google.
A dı́a de hoy los algoritmos de deep learning obtienen mejores resultados en numerosas aplicaciones que
cualquier otro algoritmo perteneciente al machine learning, siendo las principales áreas de investigación
la clasificación de imágenes, el tratamiento natural del lenguaje o los coches autoguiados.

7.2. Concepto básicos

Se ha presentado el deep learning como un tipo particular de machine learning, por lo que resulta
lógico que para conseguir entender bien los conceptos del deep learning primero se deben presentar los
conceptos propios de machine learning.
Un algoritmo de machine learning es un algoritmo capaz de aprender automáticamente gracias a el
análisis de datos. Se dice que un ordenador o programa informático aprende de unos determinados datos
o experiencias E, con respecto a una determinada tarea T, y un medidor de eficiencia EF de la realización
de dicha tarea, si su rendimiento al realizar la tarea T, medida por EF, mejora con la experiencia E.

7.2.1. Tareas - Clasificación vs Regresión

Haciendo referencia a la definición de machine learning aportada en el apartado anterior existen nu-
merosos tipos de tareas abordadas por el machine learning. A continuación, se presenta una descripción
breve de alguna de ellas:

• Clasificación: En este tipo de tarea el ordenador debe especificar a cuál de las x categorı́as posibles
pertenecen los datos de entrada. Para solventar esta tarea, normalmente el algoritmo de aprendizaje
produce una función del tipo y=f(x), donde la entrada o input corresponde a la x y la y corresponde
a una categorı́a identificada por un código numérico. En este tipo de tareas se engloba el presente
trabajo de fin de grado, ası́ como pueden ser la clasificación de la base de datos de dı́gitos MNIST
o la de imágenes CIFAR.

• Regresión: El programa informático debe predecir un valor numérico en vez de una categorı́a
como variable de salida. Un ejemplo claro de regresión puede ser el precio futuro de activos del
mercado de valores en función de los valores antiguos.

• Traducción: La entrada al programa informático consiste en una secuencia de sı́mbolos en algún


lenguaje, debiendo el programa convertir esta secuencia en otra de otro lenguaje. Aquı́ se pueden
englobar traductores como DeepL o Google Traductor.

50 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

• Detección de anomalı́as: En este tipo de tarea el programa informático rastrea una serie de eventos
u objetos señalando los que considera que son inusuales o atı́picos. Este tipo de tarea podrı́a ser la
detección de fraudes en la utilización de tarjetas de crédito mediante el análisis de los hábitos de
compra del dueño de la tarjeta.

• Estimación de la función de densidad de probabilidad: El algoritmo de machine learning debe


aprender una función de probabilidad p, donde p(x) puede ser interpretado como una función de
densidad de probabilidad (si x es una variable continua). Para realizar esta tarea el algoritmo debe
aprender la estructura de los datos que ha visto. Debe ser capaz de saber cuándo los ejemplos son
propensos a ocurrir o no.

(a) Figura 21a (b) Figura 21b

Figura 21: Representación de una tarea de clasificación obtenida de Tensorflow playground, la cual emplea redes
neuronales artificiales para tareas de clasificación de datos (Figura 21a), y un empleo de regresión lineal (Figura
21b)

7.2.2. Aprendizaje supervisado, no supervisado y semisupervisado

Basándonos otra vez en la definición del apartado de conceptos básicos, la experiencia E que es
permitida durante el proceso de aprendizaje del algoritmo puede ser de distintos tipos:

• Aprendizaje supervisado: Los algoritmos que utilizan este tipo de aprendizaje utilizan datos que
contienen caracterı́sticas, pero que llevan asociadas una etiqueta. El termino proviene de que al
algoritmo se le enseña la etiqueta correcta para cada paquete de datos determinado, supervisándolo.

• Aprendizaje no supervisado:Este tipo de algoritmos analiza una serie de datos que pueden con-
tener numerosas caracterı́sticas, y debe el propio algoritmo aprender las propiedades de la serie de
datos. Un ejemplo de este tipo de aprendizaje podrı́a ser el denominado clustering, que consiste en
dividir un conjunto de datos en conjuntos de observaciones similares.

• Aprendizaje semisupervisado: Este tipo de aprendizaje ha experimentado un boom en los últimos


dos o tres años debido a la publicación en el año 2014 de un tipo muy especı́fico de arquitectura de-
nominada GAN (Generative Adversarial Network) la cual combina una pequeña porción de datos
con etiquetas asociadas (lo que serı́a aprendizaje supervisado) con una gran parte ( normalmente
mucho mayor que la parte con etiquetas) de datos sin etiquetas, cuya estructura tiene que apren-
der el algoritmo. La estructura especı́fica de las redes GAN se discutirá más adelante en mayor
profundidad.

Pablo Rodrı́guez-Sahagún Alesanco 51


7 INTRODUCCION AL DEEP LEARNING

(a) Figura 22a (b) Figura 22b

Figura 22: En la figura 22a se aprecia un tipo especifico de clustering expuesto como ejemplo de la libreria scikit-
learn, mientras que en la figura 22b se observa un ejemplo de aprendizaje mediante el algoritmo de funcion de
densidad de probabilidad DBSCAN

7.2.3. Overfitting y Underfitting

El desafı́o central del machine learning es que el algoritmo sepa rendir bien frente a datos de entrada
nuevos, no solo con los cuales el algoritmo ha sido entrenado. La habilidad para obtener un buen rendi-
miento con datos no observados durante la etapa de entrenamiento se denomina generalización.
Tı́picamente, cuando un algoritmo propio del machine learning aprende y se entrena, éste tiene acceso
a una parte de los datos llamado set de entrenamiento, obteniendo un error de entrenamiento, siendo el
objetivo primordial reducir dicho error.
A su vez también se busca reducir el error al generalizar, también denominado error de test. Esto se
consigue normalmente dividiendo el set inicial de datos en datos de entrenamiento y datos de test, de
manera que el algoritmo solo se entrena con el primer paquete de datos, y luego se pone a prueba con el
segundo.

Los factores determinantes de lo bien que funciona un algoritmo son el ser capaz de hacer que el error
durante el entrenamiento sea pequeño, y a su vez ser capaz de hacer que la diferencia entre el error en el
entrenamiento y en el test sean pequeñas.
Estos dos factores están ı́ntimamente ligados a los dos desafı́os centrales del machine learning: overfit-
ting y underfitting. El parámetro principal del modelo que afecta a estos dos desafı́os es su capacidad
o complejidad, de manera que si el modelo es demasiado simple se tendera a alcanzar un escenario de
underfitting, donde tanto el error de entrenamiento como el de generalización o test se mantienen altos,
y si el modelo resulta ser demasiado complejo para el problema o tarea dada, se observara la situación
de overfitting, donde el error en los datos de entrenamiento seguirá disminuyendo, pero el del test ira
aumentando, lo que quiere decir que el modelo se está adaptando extremadamente bien a los datos de
entrenamiento, pero que su capacidad para generalizar a nuevas observaciones no es muy buena.
Este ha sido uno de los grandes problemas a la hora de desarrollar este proyecto, y se discutirá más
adelante en el apartado de Resultados.

7.3. Redes neuronales artificiales


Las redes neuronales propagadas hacia delante también llamadas perceptrones multicapa (MLP en
inglés) son los modelos más renombrados dentro del deep learning. El objetivo de los MLP es aproximar

52 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Figura 23: Diferentes situaciones simples en las que se muestran underfitting (parte izquierda
de la figura), un ajuste a los datos bueno (parte central de la figura) y overfitting (parte derecha
de la figura)

una función f. Por ejemplo, en el caso de una tarea de clasificación, y = f (x) asocia un dato de entrada x
con una categorı́a y. Un MLP define una función y = f (x, θ ) y aprende los valores de θ que aproximan
de una mejor manera la función.
Las redes neuronales son la base de muchı́simas aplicaciones muy útiles, como pueden ser las redes con-
volucionales, las cuales son usadas por Facebook para la detección de rostros en fotografı́as y facilitar
el etiquetado en las mismas, o las redes neuronales recurrentes, que son las que permiten la traducción
automática entre idiomas.
Los MLP son llamados redes porque están compuestos por diversas capas con nodos conectados en-
tre ellos, lo que determina la profundidad de la red, surgiendo de aquı́ el termino deep learning. Una
estructura tı́pica de un MLP es la aportada en la siguiente figura:

Figura 24: Arquitectura tipica de una red neuronal artificial profunda.

De manera breve, la red neuronal profunda o MLP realiza predicciones mediante multiplicaciones
y sumas. Los datos (x) entran en los nodos de la capa de entrada. A continuación se va propagando la
información hacia delante de la red neuronal mediante el algoritmo de forward propagation, donde los

Pablo Rodrı́guez-Sahagún Alesanco 53


7 INTRODUCCION AL DEEP LEARNING

valores de los nodos de entrada son multiplicados por los pesos asociados a cada flecha unida entre nodos
resultando en un valor, para posteriormente sumarse todos los valores entrantes a un nodo.
A este valor se le aplicara lo que se denomina una función de activación, que modificara el valor que
habı́a a la entrada del nodo, dando otro a la salida del mismo. Se repetirá el algoritmo hasta llegar a la
última capa o capa de salida, donde mediante el mismo mecanismo de forward propagation se elaborara
la predicción de la red.
Comparando el valor predicho por la red con el valor verdadero, la red sabrá cuanto de lejos del valor
real ha estado y buscando reducir el valor de la función de perdida asociada, mediante el método del
gradiente descendente y el algoritmo de back propagation conseguirá modificar los valores de los pesos
asociados a todas las flechas de la red neuronal, lo que constituye el aprendizaje y adaptación de la red.
Los algoritmos involucrados en todo este proceso de aprendizaje serán descritos de manera más detallada
a continuación.

7.3.1. Algoritmo de propagacion hacia delante o forward propagation

Se explicara el algortimo de forward propagation mediante un ejemplo:

Figura 25: Ejemplo basico de aplicacion del algoritmo de forward propagation.

Un ejemplo tı́pico que puede ser aplicado a nuestra arquitectura de red de la figura anterior, es el de
intentar estimar la calificación obtenida por un niño en función de las horas de sueño del dı́a anterior al
examen, y de las horas que haya dedicado al estudio.
Teniendo en cuenta que los valores no son realistas, sino explicativos, se introducirán los datos de entrada
en la capa de entrada y sus respectivos nodos. Por ejemplo, se decidirá que 2 sean las horas de estudio
mientras que 3 serán las horas de sueño. A continuación, se propagará hacia delante esta información,
multiplicándose el valor de los nodos de entrada por cada número en cada flecha, comúnmente denomi-
nado peso (weight en inglés.
Por lo tanto, en el nodo superior de la capa intermedia obtendremos (2 ∗ 1) + (3 ∗ 1) = 5, y en el nodo
inferior se obtendrá (2 ∗ −1) + (3 ∗ 1) = 1. De la misma manera, la predicción final de la red neuronal se
obtendrá multiplicando los valores de la capa intermedia por los respectivos pesos para producir una pre-
dicción final de salida. En nuestro caso (5 ∗ 2) + (1 ∗ −1) = 9. El trabajo de entrenamiento, o aprendizaje

54 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

de la red neuronal consistirá en modificar el valor de sus pesos, de cara a obtener el mejor rendimiento
posible en la tarea que le asignemos.

7.3.2. Funciones de perdida

Un aspecto critico a la hora de diseñar una red neuronal es la elección de la función de coste o
perdida. En la mayorı́a de los modelos, incluyendo este trabajo de fin de grado aunque se comentaran
algunas cosas respecto a la función de coste en el apartado de lı́neas futuras, se usa el principio de máxima
verosimilitud.
Esto significa que se utiliza como función de coste o perdida la entropı́a cruzada (cross-entropy) entre
los datos de entrenamiento y las predicciones del modelo.
La forma de la función de coste será la siguiente:

J(θ ) = −Ex,y∼ p̂datos log(pmodelo (y|x)) (5)


La forma especifica de la funcion de perdida varia de modelo a modelo, dependiendo de la forma espe-
cifica de log pmodelo .

7.3.3. Funciones de activacion

Los valores de entrada a los nodos de la red neuronal pueden variar desde menos infinito a más infi-
nito. Para controlar un poco los valores que se dan en la red neuronal surgen las funciones de activación,
de manera análoga a como se activan las neuronas en el cerebro humano.
Estas funciones de activación son las que deciden si la información en forma de valor numérico a la
entrada de un determinado nodo es propagada a través de las capas intermedias y final de la red neuronal
o no.
Durante muchı́simos años las funciones más ampliamente utilizadas han sido la función sigmoide, y la
función tangente hiperbólica. Esto se debe principalmente al valor acotado que presentan estas funcio-
nes, lo que acotara a su vez los valores que existirán en la red neuronal, ası́ como la variación suave de
la pendiente. Las expresiones matemáticas de estas funciones de activación son las siguientes

ex
Sigmoide(x) = (6)
ex + 1
ex − e−x
tanh(x) = (7)
ex + e−x
De manera añadida, el cálculo de la derivada de estas funciones (la cual será necesaria para realizar
el algoritmo de propagación inversa) es fácilmente calculable.
Por último, el hecho de que las funciones de activación sean funciones no lineales permite a la red
neuronal aproximar problemas con soluciones no lineales, que son aquellos más frecuentes:
El dominio de las funciones sigmoide y tangente hiperbólica en términos de funciones de activación
fue largo, pero en el año 2000 surgió otro tipo de función que las reemplazo, y es la más usada actualmen-
te. Esta función de activación se denomina Rectifier Linear Unit o (Relu), cuya expresión matemática es
la siguiente:

Pablo Rodrı́guez-Sahagún Alesanco 55


7 INTRODUCCION AL DEEP LEARNING

(a) Figura 26a (b) Figura 26b

Figura 26: Graficas que muestran las funciones de activacion sigmoide y tangente hiperbolica.Notese que la fun-
cion tangente hiperbolica es una funcion sigmoide escalada cuyo rango varia entre -1 y 1.Elaboración propia


0 x<0
Relu(x) = (8)
x x>0

A primera vista se puede pensar que aparecerán problemas de linealidad ya que la función es lineal en
su semieje x positivo. Sin embargo, la función Relu es una función no lineal, y combinaciones de Relus
tampoco lo son. La mayor ventaja de la función de activación Relu es la mayor velocidad de cálculo
computacional que proporciona, ya que las operaciones a realizar son muchı́simo más simples que las
que hay que hacer con una función tangente hiperbólica o sigmoide.

Figura 27: Funcion de activacion Rectified Linear Unit.Elaboración propia.

De todas formas, que la función haga cero las entradas negativas, sumado al hecho de que la parte
horizontal de la función Relu puede hacer que el gradiente, y por lo tanto el cambio en los pesos de la
red neuronal tienda a cero, se han investigado funciones de activación similares a Relu, pero con ligeras
modificaciones, surgiendo ası́ las funciones de activación PRelu y ELU. La función PRelu (Parametric

56 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Rectifier Linear Unit) se basa en la siguiente expresión matemática:



αx x < 0
PRelu(x) = (9)
x x>0

siendo α un parámetro que la red ira modificando durante el entrenamiento, aprendiendo que valor
del mismo es mejor para el rendimiento de la red neuronal.
Por otro lado, encontramos la función ELU (Exponential Linear Unit), cuya idea principal consiste en
suavizar poco a poco la pendiente de la función en el semieje x negativo mediante el uso de una función
exponencial, lo que en teorı́a, según sus autores, reduce el tiempo de entrenamiento de la red neuronal
de manera notable, ası́ como que incrementa el rendimiento.


eαx − 1 x<0
ELU(x) = (10)
x x>0

Para concluir con el apartado dedicado a las funciones de activación, se aportan las gráficas de la
función PRelu y ELU, para proporcionar una idea visual de la forma de las funciones.

(a) Figura 28a (b) Figura 28b

Figura 28: Grafica que muestra las diferentes formas de las variaciones de la funcion de activacion Relu, mostran-
dose en la parte izquierda de la figura la funcion Prelu, y en la derecha la funcion ELU.Elaboración propia.

7.3.4. Gradiente descendiente

En la mayorı́a de los algoritmos de deep learning está involucrado un proceso de optimización de


un modo u otro. La optimización es la tarea de o bien minimizar, o bien maximizar una función f(x)
mediante la alteración de x.
La función que queremos optimizar es llamada función objetivo, o función de pérdida o coste, que ya
definimos en un apartado anterior.
El proveniente de optimización se realiza a través de la derivada de la función. Esta derivada informa de
cómo hay que cambiar la variable x para logar una pequeña mejorı́a de rendimiento en la variable y. Por lo
tanto, podemos reducir f(x) mediante el cambio de la variable x en pequeños pasos con el signo opuesto
a la derivada. Esta técnica o mecanismo es lo que se denomina gradiente descendente. Obtendremos el
nuevo valor de x mediante la siguiente expresión:

Pablo Rodrı́guez-Sahagún Alesanco 57


7 INTRODUCCION AL DEEP LEARNING

x0 = x − ε∇x f (x) (11)


El parámetro ε se denomina ratio de aprendizaje o learning rate, y es un escalar positivo el cual
determina el tamaño del paso que da el método del gradiente descendiente.
La elección de este parámetro es muy importante porque condiciona el aprendizaje de la red neuronal.

Figura 29: Descripcion en un caso extremadamente simple del metodo del gradiente descen-
diente

En el subapartado de optimización de redes neuronales se describirán variantes del método del gra-
diente descendiente que mejorar en proceso de optimización de manera notable.

7.3.5. Algoritmo de propagación inversas o backpropagation

Durante el entrenamiento de la red neuronal, los datos de entrada x proporcionan la información


inicial que es propagada a lo largo de la red neuronal gracias al algoritmo de forward propagation para
producir una predicción final ŷ. Se generan a su vez valores de la función de coste o perdida J(θ ). El
algoritmo de propagación hacia atrás o backpropagation permite que la información dada por la función
de coste o perdida fluya hacia atrás a través de la red neuronal de cara a calcular el gradiente y optimizar
la red.
Realmente, el termino propagación hacia atrás se refiere solo al método que calcula el gradiente, mientras
que otro algoritmo, como podrı́a ser el gradiente descendente estocástico (un tipo concreto de gradiente
descendente), se encargarı́a de utilizar el gradiente para realizar el aprendizaje.
En los algoritmos de aprendizaje, el gradiente que se necesita normalmente es el de la función de coste
o perdida respecto de los parámetros de la red neuronal ∇θ J(θ ).
Tomando como referencia la figura número 26, un ejemplo muy básico de como funcionaria el al-
goritmo de propagación hacia atrás de manera que se transmita la información de la función de coste o

58 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

perdida desde el nodo z, hasta el nodo de entrada w, seria representado por las siguientes ecuaciones, que
en definitiva resulta ser la aplicación de la regla de la cadena:

∂z
(12)
∂w
∂z ∂y ∂x
= (13)
∂y ∂x ∂w
= f 0 (y) f 0 (x) f 0 (w) (14)

Figura 30: Ejmplo basico del algoritmo de propagacion hacia atras o backpropagation

Por supuesto, el algoritmo de propagación hacia atrás utilizado en la práctica mediante el uso de
librerı́as programadas resulta más complejo, y los ejemplos de redes neuronales a los que se aplica dicho
algoritmo implican decenas de miles de operaciones más que este caso.

7.4. Optimización de redes neuronales


Explicar los algoritmos de optimización de redes neuronales de manera detallada excede el alcance
del presente Trabajo de fin de grado, por lo que se describirá de manera breve el algoritmo de optimiza-
ción que mejores resultados ha dado, RMSprop.
El algoritmo RMSProp surge en el año 2012 (Hinton,2012) como una variación de un algoritmo anterior
denominado AdaGrad. Adagrad adapta el ratio de aprendizaje ajustándolo de manera inversamente pro-
porcional a la raı́z cuadrada de la suma de todos los valores históricos del gradiente elevados al cuadrado.
Esto provoca que aquellos parámetros de la red neuronal con una derivada parcial mayor sufran un de-
crecimiento más pronunciado en su ratio de aprendizaje, mientras que aquellos parámetros con derivadas
parciales más pequeñas sufrirán cambios más pequeños.
El algoritmo RMSProp modifica AdaGrad mejorando su rendimiento mediante el cambio de la acumula-
ción de gradiente por una media móvil ponderada exponencialmente. RMSProp resulta actualmente uno
de los algoritmos de optimización más extendidos en numerosas aplicaciones relacionadas con el deep
learning.

Pablo Rodrı́guez-Sahagún Alesanco 59


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

8. Redes neuronales convolucionales

Las redes neuronales convolucionales o CNNs por sus siglas en ingles son un tipo especializado de
redes neuronales recomendadas para el procesamiento de data con una topologı́a en forma de mallado o
grid. El tipo de datos más utilizado con este tipo de redes son las imágenes (mallas de x e y pixeles), aun-
que también se utilizan series temporales (datos en una dimensión con una dimensión adicional que serı́a
la dimensión temporal), datos en tres dimensiones como podrı́an ser escáneres de resonancia magnética
o videos (dos dimensiones asociadas a las imágenes más una dimensión asociada al desarrollo temporal
del video).

Figura 31: Arquitectura tipica de una red neuronal convolucional profunda

Las CNN han sido aplicadas a numerosas tareas con mucho éxito. Recientemente se ha sobrepasado
el nivel de la vista humana en términos de reconocimiento de imágenes gracias al empleo de una red
neuronal convolucional profunda.

8.1. Historia y desarrollo

Las redes neuronales convolucionales han jugado un papel muy importante en la historia y el desarro-
llo de las redes neuronales artificiales. Son un claro ejemplo de emplear el estudio biológico y fisiológico
del cerebro (las CNNs presentan similitudes con la visión humana) para el desarrollo de algoritmos arti-
ficiales dentro del área del machine learning, y más concretamente el deep learning.
Fueron además uno de los primeros modelos de redes neuronales en obtener buenos resultados y ren-
dimiento, utilizándose ya a finales del siglo pasado para el desarrollo de aplicaciones comerciales. Por
ejemplo, en el año 1990, un grupo de investigación de AT&T desarrollo una aplicación para leer facturas
que utilizaba redes neuronales convolucionales. Para finales de los años 90, aproximadamente el 10 por
ciento de las facturas de los Estados Unidos eran leı́das por este sistema.
Años después, modelos para el reconocimiento de la escritura a mano de personas fueron creados por
Microsoft. Uno de los mayores y recientes logros en la aplicación de redes neuronales convolucionales
fue en el año 2012, cuando Krizhevsky ganó el concurso de recogimiento de objetos ImageNet , donde
hay que clasificar una gran cantidad de imágenes en aproximadamente mil clases diferentes.

Pablo Rodrı́guez-Sahagún Alesanco 61


8 REDES NEURONALES CONVOLUCIONALES

8.2. La operación de convolución

En su forma más general, una convolución es una operación aplicada a dos funciones con números
reales como argumentos. Se define la operación de convolución mediante la siguiente expresión ma-
temática:

Z
s(t) = x(a)w(t − a)da (15)

Comunmente la operación de convolución se simboliza con un asterisco:


s(t) = (x ∗ w)(t) (16)
Empleando la terminologı́a asociada a las redes neuronales convolucionales, el primer término (en este
caso (x)) de la operación de convolución se denomina frecuentemente entrada, mientras que el segundo
argumento (en nuestro caso w) se llama kernel. A la salida o resultado de la operación o convolución se
le suele llamar mapa de caracterı́sticas o feature map en inglés.
Al trabajar con un ordenador, se dispondrá de datos discretos, por lo que lo que antes era una integral
de funciones .analógicasçontinuas, tendrá que pasar a ser un sumatorio de funciones ”discretas”tambien
continuas, de la siguiente forma:

s(t) = (x ∗ w)(t) = ∑ x(a)w(t − a) (17)
a=−∞

En las aplicaciones de deep learning, la entrada es normalmente un vector de varias dimensiones


(tensor), y el kernel es frecuentemente un vector multidimensional de parámetros que son modificados
por el algoritmo de aprendizaje. Por ejemplo, si se usa como datos de entrada, una imagen I, lo más
frecuente es que se utilice un kernel de dos dimensiones, que en este caso denotaremos como K:

S(i, j) = (I ∗ K)(i, j) = ∑ ∑ I(i − m, j − n)K(m, n) (18)


m n

En la práctica, la convolución discreta puede ser considerada como una multiplicación por una matriz:

Figura 32: Operacion realizada por una capa convolucional de dos dimensiones de una red
neuronal convolucional - CNN

62 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Teniendo como referencia la figura anterior, se observa como se mantiene fija la entrada de dos
dimensiones I (el tipo más común serı́a una imagen), mientras que el kernel K, que también es una
matriz de dos dimensiones, se mueve a lo largo de la entrada I, realizando operaciones de multiplicación
elemento a elemento y sumando el total, obteniendo el resultado de la convolución (I*K).
Como nota final, de manera general el tamaño del kernel es mucho más pequeño que el tamaño de la
imagen. Por ejemplo, en este trabajo de fin de grado se utilizan imágenes de 61x73 pixeles, mientras que
el tamaño de los kernels que aparecen en las capas convolucionales son de 3x3.

8.3. Pooling
Una red neuronal convolucional esta tı́picamente formada por tres niveles. En la primera capa de
la red, se producen las operaciones de convolución sobre los datos de entrada. En la segunda etapa,
cada caracterı́stica extraı́da mediante la operación de convolución es pasada a una función de activación,
siendo la más usada la función de activación Relu (Rectified linear activation).Esta etapa es a veces
llamada la etapa detectora.
En la última etapa se realiza lo que se conoce como función pooling, la cual reemplaza la salida o output
de la red con un resumen estadı́stico hecho por zonas de la capa anterior de la red neuronal. Resulta
mucho más fácil de entender con la siguiente figura:
En la figura se observa como la operación de pooling se aplica en zonas de 2x2 (lo que podrı́an ser 2
pixeles de ancho por dos pixeles de alto en imágenes), existiendo dos tipos de operaciones posibles:

Max-pooling: En esta operación se escoge el mayor valor dentro de todos los posibles, por lo que
la reducción de caracterı́sticas o valores es de un factor cuatro.

Average-pooling: En esta operación se escoge la media aritmética de los valores dentro de la


región a aplicar la operación, obteniéndose también un factor de reducción de datos de 4.

8.4. Utilidad y motivación de uso


Las redes neuronales convolucionales mezclan tres ideas importantes que ayudan a mejorar un algo-
ritmo de machine learning y que las convierten en un tipo de red neuronal muy útil para el desarrollo de
ciertas tareas.

8.4.1. Interacciones dispersas

En las redes neuronales tradicionales, la salida de una capa de nodos o neuronas es afectada por todas
y cada una de las entradas de una manera más o menos pronunciada, dependiendo del valor de los pesos
asociados.
En contraposición, las redes neuronales convolucionales presentan interacciones dispersas, por ejemplo
en el caso de una imagen la entrada puede tener miles o millones de pixeles, pero la red convolucional
puede detectar caracterı́sticas muy importantes de la imagen como bordes, o zonas de activación de in-
terés en entornos muy pequeños, de decenas o centenas de pixeles.

Esto tiene un doble efecto, por un lado hace que las redes neuronales convolucionales sean más eficientes
al tener que realizar menos operaciones matemáticas que en las redes neuronales convencionales, lo que
resulta en menores tiempos de entrenamiento y menores necesidades en términos de memoria. Además,
está comprobado que se aumenta la precisión y eficiencia estadı́stica en numerosas aplicaciones.

Pablo Rodrı́guez-Sahagún Alesanco 63


8 REDES NEURONALES CONVOLUCIONALES

Figura 33: Funcion de pooling, donde en la parte izquierda se observa un max-pooling y en


la parte derecha se observa un average-pooling

8.4.2. Reparto de parámetros

El reparto de parámetros se refiere a usar el mismo parámetro para más de una función en un modelo.
En una red neuronal convencional el valor de cada peso se usa una única vez cuando se calcula la salida
de una capa de la red. En cambio, en una red neuronal convolucional, cada valor del kernel es usado en
todos los datos de entrada, realizando un ”barrido”.

8.4.3. Representaciones equivariantes

Por último, una de las caracterı́sticas más distintivas de las redes neuronales convoluciones es la
equivarianza traslacional. Esto significa que si se efectúa una operación de traslación sobre la entrada,
por ejemplo trasladar un objeto dentro de la imagen, su representación creada por la red convolucional
sufrirá también la traslación.

Esto no es aplicable sin embargo a otras transformaciones, como pueden ser el aumento, la reducción o
la rotación. Esto se discutirá más adelante en detalle en la sección de Resultados cuando se expliquen las
técnicas de aumento de datos de imágenes adoptadas.

64 Escuela Técnica Superior de Ingenieros Industriales (UPM)


(a) Figura 30a (b) Figura 30b

Figura 34: En la figura de la izquierda se observan las conexiones entre nodos despues de una capa convlucional
reflejandose las interacciones dispersas, mientras que en la figura de la derecha se muestran las conexiones de una
red neuronal convencional.
Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

9. Redes neuronales recurrentes : LSTM y GRU

9.1. Introducción

Las redes neuronales recurrentes o RNNs (Recurrent Neural Networks), son un tipo de redes neuro-
nales cuya principal tarea es la de tratar con datos en forma de serie o secuencia. Este tipo de redes son
las usadas por traductores como DeepL o Google Translator, además del asistente de voz de IPhone Siri.
Ası́ como en el capı́tulo anterior se explicó que las redes neuronales convolucionales son un tipo de red
neuronal especialmente indicadas para imágenes, las redes neuronales recurrentes se especializan en tra-
tar con cadenas o secuencias de valores.
Como caracterı́stica importante de las redes neuronales recurrentes destaca la posibilidad de procesar
secuencias o cadenas de valores de longitud variable. La idea que subyace en las redes neuronales re-
currentes es que información o caracterı́sticas extraı́das por la red neuronal en un instante de tiempo t
afectan a los instantes t + 1,2,3...
La estructura de una red neuronal recurrente es la siguiente:

Figura 35: Estructura en forma de grafica de nodos de una red neuronal recurrente simple

9.2. Redes recurrentes bidireccionales

Las redes neuronales recurrentes previamente mostradas consideran una relación causal, en el senti-
do de que un instante de tiempo t solo se ve afectado por los eventos acontecidos en el pasado.
Sin embargo, en numerosas aplicaciones se desea que la predicción de la red depende de la secuencia
de entrada completa. El ejemplo más claro puede ser en aplicaciones de reconocimiento de habla, donde
la interpretación correcta de un sonido con su correspondiente fonema puede depender de los sonidos
siguientes al mismo. Si se tienen dos interpretaciones de una palabra que pueden ser posibles y lógicas, a
lo mejor es necesario mirar las palabras siguientes en una búsqueda de contexto, que nos permita decidir
cuál es la palabra correcta en ese caso concreto.
Como un remedio a la necesidad expuesta anteriormente surgen las redes neuronales recurrentes bidirec-
cionales, en las que se combina una red de tipo RNN que se mueve hacia delante en el tiempo, y otra red
también de tipo RNN que se mueve hacia atrás en el tiempo.

Pablo Rodrı́guez-Sahagún Alesanco 67


9 REDES NEURONALES RECURRENTES : LSTM Y GRU

Figura 36: Estructura tipo de una red neuronal recurrente bidireccional

9.3. Cálculo del gradiente en una RNN

El cálculo del gradiente y la propagación hacia atrás para conseguir la actualización de los pesos de
una red neuronal recurrente se realiza de manera parecida a la descrita en el apartado propio del algoritmo
de backpropagation del capı́tulo 4.
Lo único que se debe es ser muy cuidadoso, ya que no se transmite el gradiente para el cambio de pesos
solo a través de la dimensión de profundidad de la red neuronal, sino también a través de la dimensión
temporal propia de la red neuronal recurrente.
Esta idea se observa de manera mucho más clara gracias a la siguiente imagen:

Figura 37: Esquema del algoritmo de backpropagation a traves del tiempol

Este tipo especı́fico de algoritmo de propagación hacia atrás es también conocido como propagación
hacia atrás a través del tiempo o bptt (back propagation through time.

9.4. Problemas asociados a las dependencias temporales a largo plazo

Uno de los mayores problemas que experimentan las redes neuronales reside en la propagación del
gradiente. Los gradientes propagados a través de varios niveles o pasos temporales tienden a desaparecer
con el tiempo, en lo que se conoce en inglés como el vanishing gradient problem.
De manera mucho menos frecuente, el gradiente de una red neuronal recurrente puede explotar a lo largo

68 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

de su propagación, lo que supone una enorme dificultad para el algoritmo de optimización encargado del
entrenamiento de la red neuronal.
Además, aunque supongamos que los parámetros se mantienen estables y que el gradiente de la red
neuronal recurrente no explota, aun ası́ surge un problema con las dependencias temporales entre pasos
o niveles muy alejados, ya que estas interacciones tienen unos pesos asociados mucho menores que
aquellas con pasos temporales o niveles más cercanos.
Surgen como respuesta a este problema de la desaparición del efecto de las interacciones a largo plazo
las redes neuronales recurrentes LSTM y GRU, que se describen en los siguientes subapartados. La idea
detrás de este tipo de redes neuronales es que se crean caminos a través del tiempo cuyas derivadas o
gradientes no desaparecen ni explotan, lo que soluciona el problema expuesto anteriormente.

9.5. LSTM - Long Short Term Memory


LSTM (Long Short Term Memory) es un tipo de red recurrente presentada en el año 1997 por Ho-
chreiter y Schmidhuber diseñada para solucionar los problemas relacionados con el gradiente y su pro-
pagación descritos en el apartado anterior. Presentan un gran rendimiento en numerosas tareas.
Las redes LSTM poseen también una estructura de cadena o secuencia al igual que las RNN, pero lo que
ocurre en cada paso temporal es mucho más complejo.

Figura 38: Esquema interno de una celula LSTM

La lı́nea marcada en la figura podrı́a entenderse como una cinta transportadora (señalada en azul en
la figura), con ciertas interacciones a lo largo de la célula LSTM. La célula LSTM posee la habilidad de
bien añadir o quitar información, la cual esta cuidadosamente regulada mediante estructuras denominadas
puertas.
Estas puertas son un camino para dejar pasar de manera opcional la información. Una LSTM posee tres
de estas puertas:

• La puerta de olvidar o forget gate (señalada en rojo en la figura), que decide que información debe
desechar la célula.

• La puerta de entrada o input gate en inglés, señalada en verde en la figura, que es la que decide
que valores se deben actualizar.

• Por último, la célula producirá un valor de salida u output.

Pablo Rodrı́guez-Sahagún Alesanco 69


9 REDES NEURONALES RECURRENTES : LSTM Y GRU

9.6. GRU - Gated Recurrent Unit


Las GRU o Gated Recurrent Unit son un tipo de arquitectura reciente de red recurrente que se plantea
que partes de la red LSTM son realmente necesarias. La principal diferencia con las LSTM es que en
las GRU una única puerta es la encargada de controlar la información que se olvida, y decidir que
información actualizar.
Este tipo de arquitectura, aun siendo en el fondo más simple que la arquitectura LSTM, ha resultado ser
más efectiva que la LSTM en el presente Trabajo de Fin de Grado.

70 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

10. Conceptos adicionales


Se presentan dentro de este capı́tulo tres conceptos adicionales que han sido de enorme utilidad
en su aplicación al desarrollo del modelo final de la red neuronal hı́brida. Son conceptos relativamente
innovadores cuyo principal objetivo es conseguir reducir el sobreajuste u overfitting, además de aumentar
la precisión de la red y disminuir los tiempos de entrenamiento de la misma.

10.1. Dropout
Las redes neuronales profundas son herramientas muy poderosas que pueden aprender relaciones
muy complejas entre unas entradas y salidas dadas. Sin embargo, en numerosas ocasiones, debido a la
escasez de datos de entrenamiento entre otros factores, los modelos propios del deep learning tienden a
sufrir la situación de sobreajuste u overfitting.
Surge ası́ el concepto del dropout, cuyo principio de actuación es el de aleatoriamente obviar nodos y sus
respectivas conexiones de la red neuronal durante la fase de entrenamiento de la misma.

Figura 39: Dos ejemplos de arquitectura de red neuronal sin aplicar dropout (izquierda) y aplicando dropout
(derecha)

Esto previene que la red se adapte demasiado a los ejemplos provistos durante el entrenamiento,
favoreciendo la disminución del overfitting. A su vez provoca que durante el entrenamiento se entrenen
muchı́simos pequeños modelos formados por los nodos y conexiones que no hayan sido obviados en la
fase pertinente del entrenamiento, por lo que a la hora de realizar predicciones en los datos de test el
dropout se puede aproximar como un ensemble de muchı́simos pequeños modelos de redes neuronales.

Figura 40: Diferencia en los pesos de la red neuronal en la fase de entrenamiento (izquierda) y test (dere-
cha).

Como se puede observar de manera clara en la figura anterior, los pesos de la red cuando ésta se

Pablo Rodrı́guez-Sahagún Alesanco 71


10 CONCEPTOS ADICIONALES

encuentra en la fase de test se multiplicarán por la probabilidad de que estén presentes los nodos y
conexiones asociados a dichos pesos.

10.2. Regularización L2
La regularización es otra técnica desarrollada para prevenir la aparición del sobreajuste. Normalmen-
te, cuando las redes neuronales experimentan overfitting tienden a tener unos valores de sus pesos muy
altos. La técnica de regularización intenta combatir el overfitting aplicando una penalización a los pesos
altos de una red, mediante la inclusión de un termino con el valor del peso al cuadrado en la función de
coste o perdida a optimizar.
En un intento de minimizar la función de coste, se tendera a hacer menores los valores de los pesos para,
de la misma manera, reducir el error. El termino añadido al error en una regularización L2 será de la
forma siguiente:
λ
reg = ∗ w2 (19)
2 ∑ i
donde λ será un parámetro a determinar, el cual llamaremos termino de regularización, y wi será el valor
de cada uno de los pesos de la red.

10.3. Normalización del Batch


El entrenamiento de las redes neuronales es complicado ya que la distribución de las entradas y sa-
lidas de cada capa cambia a lo largo de la red neuronal. Este hecho resulta en un velocidad menor en
el entrenamiento de la red, necesitando unos ratios de aprendizaje bajos, ası́ como un gran cuidado a la
hora de inicializar los parámetros de la red.
Surge ası́ la normalización del Batch, o Batch Normalization, método que normaliza los datos perte-
necientes a cada minipaquete durante la fase de entrenamiento, restando cada dato por la media de su
minipaquete, y dividiendo por la desviación tı́pica.
Aplicando esta técnica, los tiempos de entrenamiento se reducen considerablemente, además de aumentar
la precisión de la red neuronal.

72 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

11. El entorno de trabajo


De cara a afrontar el Trabajo de Fin de Grado una vez se conocen los conceptos teóricos mostrados
anteriormente resulta de vital importancia la elección de con que herramientas se llevara a cabo la labor
de programación.
Una correcta o errónea elección puede suponer más de un quebradero de cabeza, por lo que se presenta un
estudio de los diferentes lenguajes de programación más extendidos, y cual puede resultar más idóneo
para el desarrollo de experimentos relacionados con el Deep Learning, y una vez seleccionado, que
librerı́as servirán de apoyo para conseguir un mejor desempeño en la tarea. A su vez se presenta la
importancia de la utilización de una unidad de procesamiento grafico (GPU en inglés) y las caracterı́sticas
de la utilizada en la realización del proyecto.

11.1. Elección del lenguaje de programación


11.1.1. Introducción de los diferentes lenguajes de programación

En primer lugar, se van a presentar las opciones que se barajan, siendo estos los lenguajes de progra-
mación más extendidos a nivel de uso:

• Python: Python se define a sı́ mismo como un lenguaje de programación muy potente y fácil de
aprender. Es un lenguaje open-source y dispone de multitud de librerı́as para una gran variedad
de tareas. Su sintaxis sencilla y elegante, unido al simple pero efectivo enfoque que tiene hacia la
programación orientada a objetos lo hace un candidato ideal para el desarrollo rápido y efectivo de
aplicaciones en multitud de áreas.

• R: R es un lenguaje diseñado para la realización de estadı́stica computacional y graficas estadı́sti-


cas. Fue desarrollado en los Bell Laboratories por John Chambers. Una de las mayores ventajas
de R reside en la facilidad de manipulación y gestión de los datos, ası́ como la creación de gráficos
de muy alta calidad con muy pocas lı́neas de código.

• C++: C++ es un lenguaje de programación desarrollado a mediados de los años 80 por Bjarne
Stroustrup. Surge como una extensión al lenguaje de programación C, añadiendo a éste el concepto
de programación orientada a objetos.

• Java: Java se presenta como un lenguaje de programación genérico y orientado a objetos. Su


principal objetivo es que el código una vez ya compilado pueda ejecutarse en cualquiera de las
plataformas soportadas por Java sin necesidad de una recopilación.

11.1.2. Análisis y conclusiones

Analizando una encuesta sobre el uso de lenguajes de programación aplicados al Deep Learning
realizada a más de 2000 personas dedicadas al mundo de la gestión y manipulación de datos por la página
web towardsdatascience, se observa que la mayorı́a (57 por ciento) utiliza el lenguaje de programación
Python. Esto se debe en gran parte a la gran evolución que han experimentado las librerı́as de Deep
Learning asociadas a Python en los últimos años, destacando el lanzamiento de la librerı́a Tensorflow
R se sitúa como cuarto en la cuesta, aunque numerosos expertos lo utilizan como un lenguaje de segunda
opción para tareas muy especı́ficas. C++ aparece como segundo en la lista, mientras que Java se queda
en la tercera posición.

Pablo Rodrı́guez-Sahagún Alesanco 73


11 EL ENTORNO DE TRABAJO

Otros lenguajes de programación como pueden ser Octave, Ruby o MATLAB utilizados ampliamente en
multitud de tareas computacionales no suman entre ellos ni un 15 por ciento de utilización en la encuesta.
Los datos recogidos por la encuesta también muestran que el factor decisivo a la hora de escoger lenguaje
de aplicación es el área de aplicación en el que vamos a usarlo. Java se prioriza en el desarrollo de
seguridad de redes y detección de fraude, mientras que Python es el claro vencedor en cuanto tiene que
ver con machine learning. C++ es ampliamente usado para la creación de inteligencia artificial en juegos,
ası́ como para la locomoción de robots. Por ultimo R es priorizado en áreas como la bioingenierı́a y la
bioinformática.
Se opta por realizar el proyecto en Python, debido a su gran versatilidad, el gran soporte que tiene
en términos de librerı́as de deep learning, ası́ como actividad de sus usuarios en Internet, sumado a la
facilidad y elegancia de la sintaxis del lenguaje.
El único punto en el que Python no ha resultado adecuado ha sido en el análisis estadı́stico de los datos
de la iniciativa ABIDE (capitulo 3), ya que aunque Python posee librerı́as que pueden manejar grandes
cantidades de datos (pandas) o realizar gráficos estadı́sticos de calidad (matplotlib, seaborn), R hace
que todo sea mucho más fácil, intuitivo, y los resultados, a mi entender, son mejores. Por lo tanto se
ha utilizado Python para el preprocesamiento de los datos de las imágenes de las fMRI, el diseño de la
arquitectura de la red neuronal hibrida, ası́ como su entrenamiento y posterior prueba, y R para el análisis
estadı́stico de los fenotipos de las personas de la iniciativa ABIDE.

11.2. Capacidad computacional

Diferentes tareas a la hora de crear un modelo de redes neuronales pueden requerir de una gran capa-
cidad computacional. Entre ellas figuran el almacenamiento y preprocesamiento de los datos a utilizar,
el entrenamiento de la red neuronal, o el almacenamiento de la misma. Estos procesos suponen la utili-
zación de una gran cantidad de recursos, a nivel de hardware, software y tiempo, por lo que la mayorı́a
de las veces es necesario más que la CPU del ordenador para poder llevar a cabo los modelos de Deep
Learning.

11.2.1. Importancia de la utilización de una GPU

De las tareas mencionadas anteriormente, la que es por mucho más intensiva a nivel computacional
es el entrenamiento de la red neuronal. Las unidades centrales de procesamiento (CPU) realizan una
operación detrás de otra, aunque serı́a deseable que se pudieran realizar varias operaciones a la vez.
Surge ası́ la utilización de la GPU (unidad de procesamiento gráfico) como alternativa a la CPU para
realizar el entrenamiento de las redes neuronales.
Como muestra de la importancia del uso de GPU se presenta un ejemplo comparativo de hace unos
años entre Google y la universidad de Stanford, donde Google utilizaba CPUs para el entrenamiento de
sus modelos de redes neuronales. Contaba con aproximadamente 1000 CPUs, lo que equivalı́a a 16000
núcleos, con un coste de 5 billones americanos de dólares, mientras que Stanford opto por usar unidades
de procesamiento grafico (GPUs) para el entrenamiento de sus redes neuronales. En concreto, contaban
con 3 GPUs con un total de 18000 núcleos que conseguı́an el mismo tiempo de entrenamiento que
Google, pero con un coste de 33000 dólares.

74 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

11.2.2. Historia de las GPUs

Las unidades de procesamiento grafico fueron creadas para conseguir un mejor y más general proce-
samiento gráfico, descubriéndose posteriormente que funcionaban muy bien con la computación cientı́fi-
ca. Esto se debe a que la mayorı́a de los procesos gráficos implican la utilización de matrices enormes y
la realización de operaciones entre ellas.
El uso de las GPUs para computación cientı́fica comenzó a principios de los años 2000, destacando por
ejemplo la implementación de la factorización LU en el año 2005. Sin embargo, en esa época los usuarios
de GPU necesitaban tener unos conocimientos avanzados de procesamiento gráfico, lo cual complicaba
el uso extendido de las unidades de procesamiento gráfico.
En el año 2006, una compañı́a llamada NVIDIA presento un lenguaje de alto nivel ( con una sintaxis y
unos conocimientos necesarios mucho mas fáciles) que sirve para escribir programas con unidades de
procesamiento gráfico.

11.2.3. GPU vs CPU

Las principales diferencias entre una GPU y una CPU son que la primera posee cientos de núcleos
muy simples y miles de hilos de computación al mismo tiempo, mientras que la CPU posee unos pocos
pero complejos núcleos, y un funcionamiento optimizado para un único hilo de trabajo.
A nivel experimental propio, el realizar el entrenamiento del modelo entero en una GPU hace que el
entrenamiento de la red neuronal sea aproximadamente unas 10 veces más rápido que en una CPU, lo
que supone una gran diferencia en términos de tiempo.
Como opción adicional, han surgido servidores en la nube que permiten entrenar los modelos de deep
learning a una velocidad muy alta, pero su coste a largo plazo y cuando hay que realizar un gran número
de simulación es muy alto.

Figura 41: Comparacion de la eficiencia de GPU y CPU en diferentes campos cientificos y computaciona-
les.

Pablo Rodrı́guez-Sahagún Alesanco 75


11 EL ENTORNO DE TRABAJO

11.2.4. NVIDIA y CuDNN

Fundada en el año 1993, NVIDIA se posiciona hoy en dı́a como pionera en el cambio constante
que se está dando en el mundo cientı́fico y computacional. Las unidades de procesamiento grafico siguen
evolucionando a un ritmo vertiginoso, prediciéndose que en el año 2025 serán capaces de funcionar 1000
veces más rápido que las CPU para tareas computacionales cientı́ficas.
Surge también ası́ la librerı́a CuDNN escrita en el lenguaje de programación propio de las GPU de NVI-
DIA, CUDA. Es una librerı́a muy eficiente que permite comunicación directa con la GPU. La mayorı́a
de entornos de trabajo de deep learning permiten integración con la librerı́a CuDNN.
Por último se presentan las especificaciones y la unidad de procesamiento grafico utilizada para la reali-
zación del proyecto, la tarjeta gráfica NVIDIA GEFORCE GTX 960.

(a) Figura 42a (b) Figura 42b

Figura 42: Especificaciones de la unidad de procesamiento grafico GPU utilizada en el desarrollo del proyecto,
asi cmo una imagen externa de la misma (NVIDIA GEFORCE GTX 960)

11.3. Elección del framework de deep learning

A medida que se ha ido incrementando la popularidad del deep learning, una multitud de entornos
de trabajo han aparecido en un intento de hacer posible una implementación y desarrollo eficientes de
redes neuronales complejas. Surge ası́ la pregunta de qué entorno de trabajo es el más propicio para el
proyecto.

11.3.1. Introducción de los distintos frameworks

A continuación se presenta una descripción breve de los entornos de trabajo más extendidos a dı́a de
hoy para el desarrollo de modelos de deep learning:

• Caffe: Herramienta de desarrollo de modelos de deep learning desarrollada por el Centro de Visión
y Aprendizaje de Berkeley escrita en C++ con caracterı́sticas como la velocidad o la modularidad
en mente, que usa CUDA para la computación en GPU.

• TensorFlow: Entorno de trabajo de deep learning desarrollado por Google basado en C++, pe-
ro con interfaces de programación de aplicaciones (API) en Python. Tensorflow utiliza gráficos
de flujos de datos formados por nodos y flechas, donde los nodos representan operaciones ma-
temáticas y las flechas representan vectores de datos multidimensionales o tensores. Posee una

76 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

arquitectura flexible la cual permite realizar las operaciones bien en CPU o GPU, en ordenadores
fijos o terminales móviles.

• Theano: Theano es una librerı́a para Python la cual implementa numerosas funciones y rutinas en
C y CUDA lo que le permite alcanzar unos tiempos de entrenamiento de redes neuronales muy
buenos.

• Torch: Entorno de trabajo escrito en un lenguaje de programación llamado Lua. Resulta especial-
mente eficiente a la hora de realizar operaciones convolucionales, además de proveer soporte para
el uso de varias unidades de procesamiento grafico a la vez.

• Neon: Herramienta para Python desarrollada por Nervana. Como punto en contra, ha sido lanzada
hace menos tiempo que el resto, por lo que su comunidad de usuarios es más pequeña, estando aun
la librerı́a en un proceso de maduración y desarrollo.

11.3.2. Comparativa

Se muestra el siguiente análisis comparativo en forma de tabla entre los distintos entornos de tra-
bajo de deep learning. Se valora muy positivamente que sea un entorno compatible con Python, que
tenga una amplia comunidad de usuarios, y capacidades de arquitecturas CNN (convolucionales) y
RNN(recurrentes) ası́ como la velocidad conseguida por cada uno de ellos.
Se descarta de esta manera Neon, por ser un entorno de trabajo reciente y aun poco desarrollado, ası́
como Caffe al ser un entorno de trabajo destinado al lenguaje de programación C++ y Torch, ya que
aunque incorpora interfaz con Python, es relativamente nueva y trabaja mucho mejor en Lua.
De los dos entornos de trabajo restantes, analizando su funcionamiento en el entrenamiento de redes
convolucionales según este estudio, observamos que Theano es bastante más rápido que Tensorflow. Sin
embargo, el hecho de que Theano ha dejado de ser desarrollado y se ha estancado en su versión 1.0,
mientras que Tensorflow está siendo constantemente desarrollado por Google, hace inclinarse la balanza
hacia Tensorflow.

(a) Figura 43a (b) Figura 43b

Figura 43: Comparacion de las caracteristicas de los diferentes entornos de trabajo disponibles de deep learning,
asi como su rendimiento en las operaciones de forward propagation y gradiente.

Pablo Rodrı́guez-Sahagún Alesanco 77


11 EL ENTORNO DE TRABAJO

11.3.3. Conclusion

Como conclusión, se utilizará para el análisis estadı́stico de los fenotipos de los pacientes R junto
a la librerı́a de visualización ggplot2, mientras que, para el preprocesamiento de datos, desarrollo de la
red neuronal hibrida y entrenamiento se utilizará Python con Tensorflow programado en la unidad de
procesamiento grafico (GPU).

11.4. Librerı́as adicionales


De manera breve, como librerı́as adicionales que han sido de gran importancia en el desarrollo del
presente trabajo de fin de grado se presentan las siguientes:

• Nibabel y Nilearn: Librerı́as para Python que permiten la manipulación de formatos de tipo NIFTI
(.nii o .nii.gz) que es el formato más ampliamente usado en términos de imágenes médicas.

• numpy: Librerı́a básica de Python que permite operar con vectores y tensores de manera muy
eficiente para operaciones relacionadas con el preprocesamiento de imágenes.

• scikit-learn: Librerı́a focalizada en el área del machine-learning, la cual ha sido muy útil para
desarrollar modelos simples básicos y realizar las particiones de datos deseadas en entrenamiento
y test.

• mayavi: Librerı́a de visualización en 3 dimensiones para la visualización del volumen de resonan-


cia magnética funcional de diferentes pacientes.

• keras: Librerı́a situada encima de Tensorflow que permite experimentar con distintas arquitecturas
de redes neuronales de manera sencilla y rápida.

78 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

12. Modelo propuesto y resultados


12.1. Introducción
Una vez presentados todos los conceptos teóricos que se usan en el intento de elaborar un algoritmo
clasificador de personas con autismo y controles mediante el análisis de sus resonancias magnéticas
funcionales cerebrales, se van a presentar los resultados obtenidos, ası́ como la metodologı́a que se ha
adoptado.

12.1.1. Estocasticidad de las redes neuronales

Como nota introductoria cabe destacar que múltiples factores hacen que la red a veces tenga un
comportamiento un poco estocástico. Por ejemplo, a la hora de inicializar los pesos se utiliza un algoritmo
llamado glorot uniforme, propuesto por Xavier Glorot, de la Universidad Politécnica de Montreal, el cual
asigna a los pesos valores diferentes en cada simulación distinta, lo que constituye una de las causas de
que varı́an los resultados de clasificación de la red.
Además, los datos de entrenamiento no son presentados siempre en el mismo orden a la red, sino que
se mezclan, lo que provoca que ciertas redes alcancen mejores resultados que otras, y sobre todo más
rápido.

12.2. Trabajos previos y justificación


Se han presentado varios estudios sobre la iniciativa ABIDE y la clasificación del autismo. De ma-
nera reciente, ha sido publicado un estudio por parte de un grupo de investigación de Rio Grande, en
Brasil. Utilizan datos de las regiones de interés más importantes del cerebro, ası́ como información de
los fenotipos asociados a los pacientes para realizar la clasificación. Obtienen una puntuación media de
casi un 70 % de precisión en sus clasificaciones, con una puntuación máxima de un 71 % en la clasifica-
ción, realizando un cross-validation con 10 paquetes.
Por otro lado, dos cientı́ficos de Livermore (California), han desarrollado unas redes neuronales convo-
lucionales que analizan las matrices de correlación entre diferentes regiones del cerebro para la clasifi-
cación de los pacientes.

De manera innovadora, el presente trabajo de fin de grado introduce el uso de los ı́ndices ALFF y fALFF
en vez de las resonancias magnéticas funcionales sin tratar. Sin embargo, no se añade ningún tipo de
fenotipo a la red para ayudarla en la tarea de clasificación, lo que seguramente aumentarı́a la precision.
Un caso muy claro por ejemplo seria la diferenciación entre resonancias magnéticas cerebrales de mu-
jeres u hombres, o adultos y niños. Conociendo la red neuronal este tipo de información ,además de las
resonancias magnéticas, podrı́a elaborar predicciones más ajustadas y, en definitiva, mejores.
A su vez, solo se han encontrado referencias al uso de redes neuronales convolucionales o recurrentes a
este tipo de problemática, pero siempre por separado, siendo este trabajo de fin de grado el primer estudio
que combina las dos en el estudio del autismo, y más concretamente de la base de datos de la iniciativa
ABIDE.
Los ı́ndices ALFF y fALFF ya eliminan la dimensión temporal al realizar la media de todas las obser-
vaciones temporales, reduciendo la dimensión total de los datos de 5 dimensiones a 4 dimensiones (5D
: sujetos, coordenadas x, coordenadas y, coordenadas z, tiempo t ; 4D: sujetos, coordenadas x, coorde-
nadas y, coordenadas z).Lo natural seria utilizar redes neuronales convolucionales en tres dimensiones
que analizaran todo el volumen cerebral compuesto por los ı́ndices fALFF, siendo la cantidad de datos

Pablo Rodrı́guez-Sahagún Alesanco 79


12 MODELO PROPUESTO Y RESULTADOS

de entrenamiento correspondiente con una fracción de los sujetos de estudio. Sin embargo este tipo de
redes en tres dimensiones ya han sido previamente usadas, y además necesitan muchı́simos recursos
computacionales, tanto a la hora de realizar las operaciones matematico-logicas propias de la red, como
las necesarias de memoria en el propio equipo y sistema.
En trabajos de este tipo se disponen de superordenadores con una velocidad de computación muy alta y
unas prestaciones de memoria desorbitadas pudiendo llegar a 60 GB de memoria solo en la combinación
de tarjetas gráficas, lo que en el equipo utilizado en el desarrollo de este trabajo no es ası́ (solo 2 GB de
memoria en la unidad grafica de procesamiento).

La idea por lo tanto ha sido la de tratar la secuencia de cortes de la resonancia magnética funcional
a lo largo del eje z como una secuencia de video, de cara a que la red neuronal la trate como un todo, y la
ausencia de alguna caracterı́stica, o valores dados de fluctuaciones puedan servir para clasificar correcta-
mente la secuencia en perteneciente a una persona con autismo o a un control.
En la siguiente figura se muestran ocho cortes en el eje z de la resonancia magnética funcional de un
paciente del estudio (cortes 15,20,25,30,35,40,45 y 50 de izquierda a derecha y de arriba a abajo). Cada
escáner tiene dimensiones de 61 de ancho por 73 de largo por 61 de alto, lo que hacen un total de 271633
vóxeles que reflejan las fluctuaciones medidas por los ı́ndices fALFF y ALFF por paciente.

Figura 45: Visualizacion de ocho diferentes cortes ascendentes de la resonancia magnetica funcional de un mismo
paciente a lo largo del eje z de coordenadas.Elaboración propia.

12.3. Preprocesamiento de los datos


Se han utilizado datos de 1008 pacientes en total, 490 pacientes con autismo y 518 pacientes de
control. Esto ha sido debido a que algunos datos han presentado problemas bien en su descarga o en su
procesamiento, por lo que para alterar lo menos posible el resto de las muestras se ha decidido excluir
los datos problemáticos.
Al haber sido procesados y filtrados los datos, además de haber sido calculados ya los ı́ndices por la
iniciativa ABIDE no se han hecho cambios muy grandes en la forma de los datos, solo los siguientes:

• Se ha especificado la forma de los datos de las resonancias magnéticas funcionales a que sean

80 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

números en coma flotante con precisión de 32 decimales (numpy. float32).

• Siempre se recomienda normalizar todos los datos restando cada dato por la media y dividiendo por
su desviación tı́pica, ya que normalmente aumenta el rendimiento de la red neuronal y facilita los
cálculos. Sin embargo, en este caso en particular, esta normalización suponı́a una clara desventaja
ya que los resultados eran bastante peores.
Se probo, de manera accidental con dividir todos los datos por un valor constante de 255, que es el
que se suele usar en tratamiento de imágenes para limitar las intensidades de los pixeles entre 0 y
1, obteniendo mucho mejores resultados que con la normalización estándar y sin normalización.
Sin embargo, al contrario que las intensidades de pixeles de imágenes, los valores de los ı́ndices
ALFF no varı́an entre 0 y 255, por lo que no se entiende exactamente la mejorı́a de resultados
aplicando este valor.

• Se han formado las cadenas o secuencias temporales que necesita la red neuronal, donde los datos
son de 4 dimensiones: número sujetos, coordenadas x, coordenadas y, y coordenadas z en lo que
la red considera como la dimensión temporal.

• A su vez, ha sido necesario cambiar las etiquetas propias de la iniciativa ABIDE, donde en el
campo de diagnóstico un 1 significa paciente con autismo y un 2 paciente de control. La red
necesita un formato conocido como one hot encoding, que consiste en una secuencia de ceros y un
uno señalando la categorı́a a la que pertenece la etiqueta. Por lo tanto, los pacientes con autismo
tendrán una etiqueta formada por el vector [1 0] mientras que los pacientes de control tendrán la
etiqueta [0 1].

12.3.1. Generación adicional de datos

De manera adicional a los datos de los que se dispone, se ha probado a aumentar los datos de entre-
namiento de la red neuronal mediante técnicas de aumento de datos. Estas técnicas son la traslación, la
rotación y la combinación de ambas. A continuación, se muestran los efectos de dichas transformaciones
sobre la imagen original.

Figura 46: Visualizacion de las diferentes trasnformaciones de imagen para la generacion de un mayor numero
datos (traslacion, rotacion, traslacion y rotacion).Elaboración propia.

Para realizar la traslación de la imagen debemos multiplicar los datos asociados a la imagen por la
matriz de traslación cuya forma será la siguiente:
" #
1 0 tx
Mtraslacion = (20)
0 1 ty

Los parametros tx y ty son los desplazamientos en el eje x y en el eje y respectivamente. Valores positivos
de tx produciran desplazamientos a la derecha y valores positivos de ty produciran desplazamientos hacia

Pablo Rodrı́guez-Sahagún Alesanco 81


12 MODELO PROPUESTO Y RESULTADOS

abajo, provocando valores negativos el efecto contrario.


De manera similar, para realizar la operacion de rotacion habra que multiplicar los datos matriciales de
la imagen por la siguiente matriz de transformacion:
" #
cosθ −sinθ
Mrotacion = (21)
sinθ cosθ

Para conseguir la transformación de rotación y traslación a la vez, basta con multiplicar los datos
de la imagen primero por una de las matrices y después por la otra. Aunque son abundantes los casos
de aplicaciones de deep learning en los que se utilizan este tipo de técnicas para conseguir una mayor
precisión, en nuestro caso concreto no es ası́. Esto se puede deber a que la red no está formada solo
por capas convolucionales, sino que tiene también una capa recurrente o de células de memoria, la cual
puede ser la causante de la inefectividad de este tipo de técnicas.

12.4. Tensorboard

Tensorboard es una plataforma desarrollada por Google, vinculada a la librerı́a de deep learning
Tensorflow, la cual se utiliza de manera frecuente en este proyecto. Proporciona herramientas de visua-
lización de numerosos gráficos y parámetros. A continuación, se exponen brevemente los gráficos que
más se utilizaran para exponer los resultados obtenidos.

12.4.1. Interpretación de gráficos escalares

Este tipo de gráficos muestran la evolución de cuatro magnitudes de vital importancia para el desa-
rrollo de la red, los cuales son el valor de la función de coste o perdida utilizada en el entrenamiento de
la red neuronal aplicada a los datos y predicciones de entrenamiento, la función de coste aplicada a los
datos de test, la precisión en las predicciones de los datos de entrenamiento y la precisión en los datos de
test.
Cada simulación y entrenamiento que lleve a cabo el ordenador quedara registrada en forma de grafica en
Tensorboard. De manera adicional se pueden representar más magnitudes, pero conlleva una dificultad
asociada de programación relativamente alta. Lo que se ha conseguido es poder programar de manera
manual los valores de los diferentes ensembles o asociaciones de varios modelos a la vez, y ser capaz de
representarlo en la gráfica.
Se adjuntan a continuación dos graficas de cara a mostrar lo que significa cada magnitud que aparece
en las gráficas. La primera grafica corresponde a una comparativa de la función de coste para los datos
de entrenamiento para cinco simulaciones diferentes, mientras que la segunda refleja la precisión en los
datos de test de las mismas cinco simulaciones.
El eje de abscisas de las figuras representa la época asociada al valor de la gráfica, entendiéndose
como época una ronda completa de entrenamiento, y el eje y representa el valor de la función de coste
en la primera gráfica y la precisión en la segunda.
Por ultimo cabe destacar que, para poder distinguir mejor las tendencias de entrenamiento, la plataforma
Tensorboard permite aplicar un valor de suavizado, el cual hace que las gráficas no tengan tanta forma
de pico y se pueda observar mejor la evolución del entrenamiento de la red neuronal.

82 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Figura 47: Comparacion de la funcion de coste en los datos de entrenamientoElaboración propia.

Figura 48: Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración propia.

12.4.2. Interpretación de gráficos de distribución

Apoyándonos en las siguientes dos figuras se va a proceder a la explicación de los diagramas de


distribución. Los diagramas de distribución sirven para tener una idea de cómo y de qué manera varia la
distribución de los valores de los pesos y las bias (constantes añadidas a los pesos) de las capas de la red
neuronal (en este caso, estos pesos y bias se corresponden a una capa convolucional de dos dimensiones).
De fuera hacia adentro, las lı́neas más exteriores que se ven más transparentes indican el valor máxi-
mo y mı́nimo del diagrama (eje y) para una época del entrenamiento dada (eje x). Si se avanza más hacia
adentro del diagrama las siguientes lı́neas por arriba y por abajo marcan el 93 % de los pesos totales.
Avanzando un poco más, las siguientes lı́neas marcan el 84 %, y las siguientes el 69 %.
Por último, la lı́nea más central corresponde a la mediana. Este diagrama se puede entender como un tipo
especial de box-plot para cada época dentro del entrenamiento, por lo que da información bastante útil
de en qué rangos se mueven los pesos y bias de las diferentes capas de una red neuronal y como varı́an.

12.4.3. Interpretación de histogramas

De manera similar a los diagramas de distribución presentados anteriormente, Tensorboard permite


analizar la distribución de los pesos de las capas de una red neuronal a través de otro tipo de diagramas
llamados histogramas.

Pablo Rodrı́guez-Sahagún Alesanco 83


12 MODELO PROPUESTO Y RESULTADOS

(a) Figura 49a (b) Figura 49b

Figura 49: Representacion en diagramas de distribucion de diferentes medidas estadisticas de los pesos de una
capa convolucional de una red neuronal.Elaboración propia

En ellos se observan un gráfico en tres dimensiones, siendo su eje frontal o eje x el valor de los pesos,
el eje y o lateral el número de época de entrenamiento, y el eje z o la altura la frecuencia de repetición
de los valores del eje x, la distribución de los pesos como tal. Este grafico permite observar de manera
clara como se modifican los valores de los pesos y las bias según va avanzando el entrenamiento de la
red neuronal.

(a) Figura 50a (b) Figura 50b

Figura 50: Representacion en diagramas de tipo histograma de diferentes medidas estadisticas de los pesos de una
capa convolucional de una red neuronal.Elaboración propia.

subsection Arquitectura elegida Se presenta a continuación la arquitectura elegida de la red neuronal


para el desarrollo final del clasificador. Esta elección está basada mayoritariamente en la combinación
de simulaciones y pruebas realizadas en el ordenador con diferentes arquitecturas. Sin embargo, es im-
posible poder probar todas las combinaciones de parámetros y arquitecturas, por lo que varias de las
elecciones en términos de arquitectura y parámetros se han realizado basándose en trabajos de investiga-
ción de otras personas, y en casos muy contados en la intuición propia.
Se ha decidido subdividir la red en tres bloques distintos para facilitar la explicación (Ver Figura Anexo
I):

84 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Primer bloque: El primer bloque es un bloque convolucional tı́pico formado por dos capas con-
volucionales de 32 filtros cada una (número no especialmente grande ya que disponemos de pocas
muestras de datos, solo 1000 sujetos). Posteriormente se aplica una capa que realiza una operación
de max-pooling con un entorno de actuación de 2x2.
Por último se aplica una capa de Batch Normalization, la cual estandariza los datos que le llegan,
lo que teóricamente resulta en una mejora tanto en la velocidad de entrenamiento de la red como en
su precisión de clasificación. De manera experimental aplicado a este caso concreto se ha compro-
bado que la velocidad de entrenamiento aumenta considerablemente, y la precisión ligeramente.

Segundo bloque:El segundo bloque es muy parecido al primero, con dos capas convolucionales,
sin embargo se duplica el número de filtros a 64, el cual sigue siendo un número pequeño. Poste-
riormente se aplica una capa de max-pooling y para finalizar una capa de Batch Normalization.

Tercer bloque: Este tercer bloque está formado por una capa de memoria GRU (Gated Recurrent
Unit), con 64 unidades, la cual es la encargada de analizar la secuencia temporal provista por los
bloques convolucionales anteriores.
Las caracterı́sticas obtenidas por la capa de memoria pasan después por dos capas convencionales
o completamente conectadas que elaboran la predicción final. Esta predicción es pasada a una
capa final con dos unidades, con una función de activación especial denominada softmax, la cual
se encarga de transformar la salida de la red neuronal en probabilidades (todos los valores suman
uno).

El funcionamiento de la red no es exactamente a través de los tres bloques de manera seguida, sino
que pasan todas las imágenes que componen la secuencia de video, y a todas las imágenes se les aplican
las dos operaciones de los dos bloques convolucionales.
Las caracterı́sticas y datos resultado de estas operaciones son los que se meten todos juntos y ya en
forma de secuencia en el bloque de memoria, para que la capa recurrente de tipo GRU, y las dos capas
convencionales o completamente conectadas siguientes traten la secuencia como un todo, y sean capaces
de detectar anomalı́as en la secuencia que permita diferenciar con una mayor precisión las resonancias
magnética funcionales.
La arquitectura descrita en este apartado será la utilizada en el proyecto, y en el apartado siguiente se
realizaran numerosas simulaciones y análisis para decidir los parámetros óptimos de la red neuronal.

12.5. Resultados y análisis


A continuación se presentan los resultados y simulaciones de la red neuronal utilizada en el proyecto,
mostrando los gráficos de la evolución según la elección de parámetros, justificando su elección, de cara
a presentar un modelo final cuya finalidad sea obtener la mayor precisión de clasificación posible.
El principal problema que se ha tenido a lo largo del proyecto ha sido el sobreajuste u overfitting, en el
que la red neuronal, a partir de un determinado número de épocas en el entrenamiento deja de aprender
caracterı́sticas útiles para clasificar los ejemplos del test, y en cambio empieza a memorizar las imágenes
del entrenamiento, aprendiéndoselas de memoria.
Las técnicas que se utilizan para regular esto son el dropout, la regularización (en nuestro caso de tipo
L2) y el bacth normalization. Además, que el modelo experimente sobreajuste puede ser también porque
hay muy pocos datos de entrenamiento, o porque el modelo es demasiado complejo para la cantidad de
datos existente. Reduciendo la complejidad se seguı́a observando sobreajuste, si bien se producı́a mucho
más tarde en la fase de entrenamiento.

Pablo Rodrı́guez-Sahagún Alesanco 85


12 MODELO PROPUESTO Y RESULTADOS

Como última medida, en algunos casos se ha aplicado una técnica que se denomina Early Stopping, y
que consiste en parar el entrenamiento en el momento que se empieza a producir sobreajuste.
Como nota final remarcar que, aunque minimizar la función de perdida es importante y es lo que permite
que la red neuronal aprenda y mejore, lo que se pretende es alcanzar la precisión máxima posible en los
datos de test, por lo tanto, se priorizara una mayor precisión en datos de test frente a una función de coste
menor.
Para todos los análisis se ha realizado una partición de datos de siete octavos para datos de entrenamiento
(880 sujetos) y un octavo para test (128 sujetos), seleccionado la misma semilla (123) siempre para una
comparación justa de los resultados.

12.5.1. Primer análisis

Para un primer análisis, se ha pensado que resulta de vital importancia la selección de los fotogramas,
imágenes o cortes cerebrales que compondrán la secuencia que analizara la red neuronal.
Se ha visualizado todos los cortes de la resonancia de un paciente, y se ha visto que los cinco o seis
primeros y últimos cortes no contienen información cerebral, sino que son fotogramas en blanco, por
lo que se ha decidido no utilizarlos en el entrenamiento de la red, ya que no proporcionan información
alguna a ésta.
Cada escáner se compone de 61 cortes, y restándole los primeros y últimos cortes mencionados ante-
riormente, quedan aproximadamente 50 cortes. Para que a la red le sea más sencillo se piensa que las
imágenes de las secuencias deberán estar un poco espaciadas entre ellas, para que haya cambios per-
cibirles entre fotograma y fotograma. La solución que se adopta es dividir los 50 fotogramas en cinco
secuencias equiespaciadas de 10 fotogramas cada uno.
Se simulan 100 épocas de entrenamiento para cada una, y se proyectan en la misma grafica para facilitar
la comparación. La simulación uno es de color naranja y tiene los fotogramas 8-13-18-23-28-33-38-
43-48-53, la simulación dos es azul oscuro y tiene los fotogramas 9-14-19-24-29-34-39-44-49-54 y ası́
sucesivamente con las otras tres simulaciones, siendo la tercera de color marrón, la cuarta de color azul
claro, y la quinta de color morado.

Lo primero que se observa es la gráfica de la evolución de la precisión en las predicciones para los da-
tos de entrenamiento donde se observan tres fases relativamente diferenciadas, las cuales se mantendrán
para las gráficas de las otras métricas estadı́sticas estudiadas. Las diferencias entre fases se observan con
cambios en la curvatura de las gráficas, ası́ como cambios bruscos en las pendientes.
En la primera fase la red se encuentra en un estado de inicialización, donde la precisión no crece
de manera demasiado rápida, y a la red le cuesta extraer caracterı́sticas de los datos de cara a elaborar
precisiones más precisas. La primera fase dura aproximadamente desde el principio del entrenamiento
hasta la época número 15.
En la siguiente fase la red va aprendiendo a mejor ritmo a clasificar las distintas resonancias magnéticas
cerebrales funcionales de los pacientes, observándose un aumento de pendiente, pudiendo situar esta fase
entre las épocas 15 y 30 aproximadamente.
De la época 30 en adelante se observa que la gráfica vuelve a experimentar un cambio de curvatura, y
la red estarı́a empezando a experimentar un sobreajuste u overfitting, donde se ve que la precisión de
entrenamiento aumenta hasta alcanzar un 100 % de precisión, ya que la red se aprende de memoria los
datos de entrenamiento. Ésto no es necesariamente malo, ya que, aunque se produzca sobreajuste, se
observa que la precisión en los datos de test también aumenta, aunque ligeramente.

86 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Figura 51: Comparacion de la precision en los datos de entrenamiento entre simulaciones diferentes.Elaboración propia.

De manera parecida, al observar la función de coste o perdida asociada a los datos de entrenamiento,
se ven también las mismas tres fases descritas anteriormente, y que muestran la inicialización de la red,
el proceso de aprendizaje inicial, y el sobreajuste de esta, asociados también a los cambios de curvatura
de la gráfica.

Figura 52: Comparacion de la funcion de coste en los datos de entrenamiento.Elaboración propia.

En cuanto a la precisión de la red en las predicciones sobre los datos de test, se ve que existe una
cierta variación entre las simulaciones, debida en parte a la componente estocástica que presenta la
inicialización de la red neuronal, ası́ como que en cada simulación no se están cogiendo los mismos
datos.
Cabe destacar el buen rendimiento de todas las simulaciones, situándose algunas en un 68 %, que es
una puntuación muy cercana a la mejor obtenida hasta la fecha, y de lejos mucho mejor que cualquier
puntuación obtenida por cualquier modelo sin utilización de técnicas de asociación de modelos, como
bagging o bootstrapping.

Por último se muestra la función de perdida de los datos de test, donde se ve que a partir de la época de
entrenamiento numero 30 va aumentando hasta alcanzar valores bastante altos. Esto no necesariamente
supone que la red este haciéndolo peor, sino que significa que las predicciones de la red son cada vez

Pablo Rodrı́guez-Sahagún Alesanco 87


12 MODELO PROPUESTO Y RESULTADOS

Figura 53: Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración propia.

más categóricas, penalizando de mayor manera la función de coste o perdida las predicciones erróneas.

Figura 54: Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración propia.

12.5.2. Variacion numero unidades capa GRU

El principal fenómeno que ha surgido en la gran mayorı́a de simulaciones, y que se ha querido


combatir a toda costa, es el denominado sobreajuste u overfitting. Para ello los primeros cambios respecto
a las primeras simulaciones que se proponen es la variación de la complejidad de la red, mediante de
disminución del número de parámetros de esta.
Se probo la disminución del número de filtros de las redes convolucionales, ası́ como una disminución
del número de parámetros total de la red convolucional. En el caso de la disminución de parámetros, se
obtuvo el caso contrario al sobreajuste, el underfitting, donde el modelo no era capaz de extraer ninguna
caracterı́stica de los datos.
La lı́nea de color verde tiene 16 nodos en la capa GRU o recurrente, la gris 32, la morada 64 y la
naranja 128. Al observar las gráficas de la función de coste o perdida, se ve que en el caso de 128 nodos
la función de perdida en los datos de test aumenta de manera mucho más rápida, sin provocar una mejorı́a
en la precisión, por lo que se descarta este número de nodos.
En el resto de graficas los resultados son relativamente parecidos, por lo que se decide utilizar 64 nodos
en la capa de memoria, de cara a que la red mantenga la mayor capacidad posible.

88 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

(a) Figura 55a - Entrenamiento (b) Figura 55b - Test

Figura 55: Comparaciones de las funciones de coste o perdida al variar el numero de nodos de la capa de memoria
de la red neuronal.Elaboración propia.

(a) Figura 56a - Entrenamiento (b) Figura 56b - Test

Figura 56: Comparacion de la precision al variar el numero de nodos de la capa de memoria de la red neuro-
nal.Elaboración propia.

12.5.3. Análisis del término de regularización

El termino de regularización, como es habitual en muchas otras aplicaciones del Deep Learning, se
ha aplicado a las capas convolucionales de la red, y ha sido de tipo L2, el cual ya se explicó en un capı́tulo
previo.
Los distintos valores iniciales de las funciones de coste se explican precisamente por la adición del
término regularizador desde un principio. La lı́nea fucsia no tiene regularización, la azul marino presenta
una regularización de 0,05; la verde de 0,1; la gris de 0,2 y la naranja de 3.

Como se puede apreciar, cuanto mayor es el termino de regularización más se retrasa la aparición del
fenómeno del sobreajuste. Sin embargo, también se observa que la gráfica de la función de coste para
los datos del test de los términos de regularización con valor 0,1; 0,2 y 0,3 presentan evoluciones muy
similares.
Además, la simulación con mejor resultado en términos de precisión en los datos del test es aquella que
tiene un término de regularización igual a 0,1; por lo que se decide emplear este valor en el modelo
final de red neuronal. Queda claro que un término de regularización, por pequeño que sea, es necesario
y mejora de manera clara los resultados.

Pablo Rodrı́guez-Sahagún Alesanco 89


12 MODELO PROPUESTO Y RESULTADOS

(a) Figura 57a - Entrenamiento (b) Figura 57b - Test

Figura 57: Comparacion de la funcion de coste al variar el valor del termino de regularizacion.Elaboración propia.

(a) Figura 58a - Entrenamiento (b) Figura 58b - Test

Figura 58: Comparacion de la precision al variar el termino de regularizacion.Elaboración propia.

12.5.4. Funciones de activacion

A continuación, se procede a comparar tres funciones de activación distintas, para ver si suponen un
cambio en la respuesta de la red neuronal. Se prueba con la función de activación Relu, PRelu y ELU.
La grafica de color marrón es la que tiene la función de activación Relu, siendo la gráfica verde oscuro y
azul clarito las correspondientes a la función de activación PRelu y ELU respectivamente.

(a) Figura 59a - Entrenamiento (b) Figura 59b - Test

Figura 59: Comparacion de la funcion de coste al variar la funcion de activacion.Elaboración propia.

A la vista de los gráficos los resultados son extremadamente parecidos, por lo que el factor que ha
hecho decantarse por la función de activación Relu, es el tiempo de entrenamiento de la red, el cual, al
contrario que lo establecido por algún estudio sobre deep learning, ha sido considerablemente menor que

90 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

con las otras dos funciones de activación.


Esto puede deberse en parte a que la función de activación Relu es más simple que las otras dos, en el
sentido de que todo aquel valor negativo entrante a la función de activación se convierte en cero, siendo
éste un cálculo relativamente simple a nivel computacional.
Por otro lado, la función de activación PRelu debe a su vez entrenar y probar la pendiente de la parte
negativa de la gráfica, y ajustarla a los datos, lo que significa un mayor costo computacional, que, en este
caso, no se ve traducido en resultados.

(a) Figura 60a - Entrenamiento (b) Figura 60b - Test

Figura 60: Comparacion de la precision al variar la funcion de activacion.Elaboración propia.

12.5.5. Variacion del dropout

En un intento más de conseguir paliar el sobreajuste de la red sin obtener un perjuicio en la precisión
de esta, se presentan dos simulaciones con valores de dropout muy diferentes. La primera es la gráfica
de color marrón, la cual tiene una probabilidad de dropout de las capas convolucionales de 0.25, y de la
última capa completamente conectada de 0,5.
La grafica de color verde oscuro presenta un dropout mucho más agresivo, habiendo una probabilidad de
dropout en las capas convolucionales de 0.45, y de 0.7 en la capa completamente conectada.

(a) Figura 61a - Entrenamiento (b) Figura 61b - Test

Figura 61: Comparacion de la funcion de perdida o coste al variar el dropout.Elaboración propia.

Se observa de manera clara que un dropout más agresivo causa un retraso en el overfitting y una
generalización mejor a los datos de test por por parte del modelo. Además, no se obtiene una penalización
en la precisión en los datos de test (ver figura 52, página siguiente), por lo que se decide utilizar estos
valores de dropout más agresivo en el modelo final de la red neuronal profunda.

Pablo Rodrı́guez-Sahagún Alesanco 91


12 MODELO PROPUESTO Y RESULTADOS

(a) Figura 62a - Entrenamiento (b) Figura 62b - Test

Figura 62: Comparacion de la precision al variar el dropout.Elaboración propia.

12.5.6. Target replication

El concepto de target replication surge de comparar las predicciones de todos y cada uno de los
intervalos temporales con la etiqueta final, no solo el último paso temporal de la serie.
En otros estudios, este método ha demostrado provocar una disminución del sobreajuste, ası́ como un
incremento de la precisión de las redes de varios puntos porcentuales.
Sin embargo, bien por la dificultad de programación asociada, o a que se utiliza un tipo de red neuronal
distinta al que comúnmente se utiliza esta técnica, los resultados no han sido especialmente buenos, por
lo que se ha decidido no utilizar target replication en el modelo final.

12.5.7. Bidireccionalidad

El concepto de bidireccionalidad aplicado a redes neuronales recurrentes implica que la predicción


de la red no se verá afectada solo por eventos pasados, sino que también se verá afectada por eventos
futuros.Este concepto se sometió a prueba con la utilización de redes de tipo GRU bidireccionales, o
B-GRU, obteniéndose peores resultados que con redes neuronales recurrentes unidireccionales.
Desde un punto de vista fı́sico, este resultado tan pobre puede tener sentido, ya que la serie de cortes
cerebrales se asemeja a una serie de fotogramas que conforman un video, siendo indiferente para la red
si se recorren de atrás hacia adelante, o de adelante hacia atrás.

(a) Figura 63a - Test - Funcion de coste (b) Figura 63b - Test - Precision

Figura 63: Comparacion entre una arquitectura unidireccional y bidireccional.Elaboración propia.

La grafica de color marrón es la simulación con una arquitectura unidireccional, mientras que la
gráfica azul clarito es una arquitectura bidireccional. Los resultados tanto entre la función de coste para

92 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

los datos de entrenamiento, como la precisión en los mismos son extremadamente parecidos en ambas
simulaciones.

12.5.8. Ensemble y modelos definitivos

Como modelo definitivo se junta todo lo explicado y razonado anteriormente: el número de nodos en
la capa recurrente, el termino de regularización o la arquitectura definitiva de la red entre otros.
Además, se ha probado a añadir los datos de las tres simulaciones que obtenı́an un mejor rendimiento
sobre las demás, obteniendo una serie de 30 cortes cerebrales en vez de 10. Esto aumenta la precisión
de manera considerable, además de reducir la función de coste en los datos de test. La grafica de color
marrón es la correspondiente a la que tiene 30 cortes, mientras que la fucsia tiene solo 10.

(a) Figura 64a - Entrenamiento - Funcion de coste (b) Figura 64b - Test - Funcion de coste

Figura 64: Comparacion de la funcion de coste entre un modelo con 10 y 30 cortes cerebrales.Elaboración propia.

Con este modelo se consigue alcanzar una precisión máxima de un 71,1 %, que es una precisión de
clasificación en los datos de test muy alta para este tipo de datos. El añadir todos los cortes resulta en un
peor rendimiento.

(a) Figura 65a - Entrenamiento - Precision (b) Figura 65b - Test - Precision

Figura 65: Comparacion de la precision entre un modelo con 10 cortes cerebrales y otro con 30.Elaboración
propia.Elaboración propia.

Como último modelo, se propone un ensemble de simulaciones, en el que se escoge el valor máximo
elemento por elemento de las predicciones de las redes neuronales, de manera que se premia que una red
este muy segura de que el sujeto pertenece a una clase o a otra.
Con este método no se consiguen grandes mejoras en términos de precisión, pero se consigue reducir
drásticamente la varianza de las simulaciones, obteniendo un modelo final mucho más robusto que los
modelos individuales.

Pablo Rodrı́guez-Sahagún Alesanco 93


12 MODELO PROPUESTO Y RESULTADOS

12.5.9. Validación k-fold

Por último, para finalizar la exposición de los resultados del Trabajo de Fin de Grado se ha optado
por realizar un cross-validation de nuestro modelo de red neuronal final, de cara a que todos y cada uno
de los sujetos formen en algún momento parte del entrenamiento o del test.
Esta prueba es la que se suele realizar en estudios parecidos, y sirve para conseguir una comparación lo
más justa posible de la precisión entre estudios.

Figura 66: Principio y mecanismo del cross-validation.Elaboración propia.

Debido a la estructura de los datos, se ha decidido hacer un cross-validation con seis subpaquetes,
obteniendose los siguientes resultados en las diferentes particiones:

Cuadro 1: Tabla comparativa con las diferentes precisiones en los datos de test para cada paquete de datos

NUM 1 2 3 4 5 6
PRECISION 64,90 % 66,10 % 69,10 % 61,30 % 67,30 % 65,50 %

Comparando los resultados con los obtenidos por otros estudios cientı́ficos, se observa que los resul-
tados del presente Trabajo de Fin de Grado son bastante buenos, siendo mejores que cualquier resultado
obtenido por cualquier modelo de deep learning simple (sin ensemble) aplicado a la base de datos ABI-
DE, y ligeramente menor que los resultados obtenidos por combinación de modelos (ensemble).
Sin embargo, la comparación no es del todo justa, ya que el presente estudio se ha realizado sobre 1008
pacientes de la iniciativa ABIDE , mientras que otros estudios se han realizado sobre solo 850 pacientes,
cuyas resonancias magnéticas cerebrales funcionales han pasado unos protocolos y exámenes de calidad.
Además, en muchos experimentos y simulaciones de otros estudios, solo se utilizan datos de varones, o
de varones diestros, lo que reduce drásticamente la variedad de datos dentro del conjunto de datos, lo que
facilita enormemente el trabajo de clasificación de una red neuronal.

De manera añadida se adjunta un anexo (Anexo II) con la evolución de los pesos y las bias de una
simulación completa del modelo final de red neuronal hı́brida para sus cuatro capas convolucionales (dos
en cada bloque convolucional)

94 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

13. Conclusiones
Las conclusiones que se pueden extraer tras completar este Trabajo de Fin de Grado son varias.
En primer lugar, se ha mostrado la utilidad de aplicación de ı́ndices y medidas asociadas a las resonan-
cias magnéticas funcionales de los pacientes, en vez de las resonancias magnéticas sin ningún tipo de
procesamiento. Ésto ha provocado que se consigan unos mejores resultados, además de reducir drástica-
mente los tiempos de entrenamiento y desarrollo de los modelos de redes neuronales, al dividir por cien
aproximadamente el número de datos totales, al eliminar una dimensión de los datos.

En segundo lugar, se ha mostrado la eficacia y buen rendimiento de las herramientas englobadas en


el deep learning para la resolución de problemas complejos, siendo las aplicaciones posibles para el
deep learning inimaginables.

Por último, se introduce el uso de redes neuronales hı́bridas al campo del análisis de imagen médico,
al combinar redes neuronales convolucionales con redes neuronales recurrentes. Ha sido expuesto, y
constatado por los resultados obtenidos, que la combinación de ambos tipos de redes implican una clara
mejorı́a en términos de precisión en la clasificación, lo que abre un enorme abanico de posibilidades.

Pablo Rodrı́guez-Sahagún Alesanco 95


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

14. Lı́neas futuras


Al ser el presente estudio una combinación de dos campos en constante investigación y estudio
como son el análisis de imágenes médicas y el deep learning, surgen numerosas vı́as de desarrollo y
continuación del proyecto. A continuación, se describen aquellas que se consideran de mayor interés:

• Una de las grandes ventajas del deep learning es que por regla general obtiene mejores resultados
cuantos más datos de entrenamiento tenga. En este sentido se podrı́an incorporar los datos de los
pacientes pertenecientes a la iniciativa ABIDE II (aproximadamente 1200 pacientes más), lo que
se presupone incrementarı́a la precisión de la red.
Ésto no se ha realizado en el presente proyecto ya que estos datos requerı́an de numerosos pasos
de procesamiento bastante complejo.

• Se podrı́a realizar un bootstrapping de redes neuronales como ya se ha propuesto en otros escritos


de investigación, donde se entrenan un gran número de redes neuronales con fracciones reducidas
de los datos de entrenamiento, para posteriormente realizar un ensemble de modelos.
Esta técnica aplicada a redes convolucionales supone una mejorı́a en la precisión del orden del
5 %, si bien todavı́a no ha sido probada en redes neuronales hibridas.

• Por último, y lo que puede parecer más interesante, serı́a la generación artificial de datos mediante
el empleo de redes GAN (Generative Adversarial Networks). Este tipo de redes consisten en dos
redes neuronales, una de la cual generar nuevos datos o imitaciones a partir de datos dados, y
otra cuya tarea es juzgar y dar un feedback de lo buenas que son las imitaciones mencionadas
anteriormente.
Esto genera un proceso de aprendizaje conjunto, consiguiéndose al final un modelo de red neuronal
complejo que permite aumentar de manera artificial la cantidad de datos disponible.

Pablo Rodrı́guez-Sahagún Alesanco 97


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

15. Planificación temporal y presupuesto


15.1. Estructura de descomposición del proyecto
En el siguiente apartado se incluye la Estructura de Descomposición del Proyecto (EDP) mediante
la cual se han fragmentado todas las actividades relacionadas con el proyecto. Estas actividades pueden
solaparse en el tiempo y se organizan de manera jerárquica de tal modo que hay actividades principales
y otras consecuencia de la división de las primeras.
El primer nivel de la EDP de este proyecto se compone de las siguientes actividades:

• Trabajo de estudio: esta actividad está relacionada con el estudio de herramientas de programación
y repaso de conceptos estadı́sticos. Ha sido necesario el aprendizaje de lenguajes como Python
y R, y de librerı́as especı́ficas asociadas a los lenguajes de programación anteriores como Keras,
Tensorflow o ggplot2. De la misma forma, ha sido necesaria la lectura de numerosos papers y
estudios cientı́ficos y del libro The Deep Learning Book de lan GoodFellow, el cual ha sido de gran
ayuda para comprender todos los conceptos propios del Deep Learning utilizados en el proyecto.

• Desarrollo del proyecto: esta actividad incluye la preparación de los datos de partida, creación
de un programa para facilitar la obtención de los datos iniciales (Python), la generación de los
algoritmos de programación en R para manipular la base de datos de los fenotipos y Python para la
manipulación de las resonancias magnéticas y la combinación de estas con los fenotipos. También
el análisis de los resultados obtenidos, mediante gráficas con Tensorboard, comparación de los
resultados para determinar los mejores parámetros y arquitectura. Por último, la elaboración de la
memoria y del presupuesto.

• Presentación oral: en esta actividad se encuentran englobadas las actividades de elaboración de la


presentación y la defensa del TFG.

De manera adicional, se presenta en forma de gráfico la parte relacionada con el desarrollo del proyecto,
que ha sido la que más recursos, sobre todo a nivel temporal, ha consumido.

Pablo Rodrı́guez-Sahagún Alesanco 99


15 PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

100 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

15.2. Diagrama de Gantt


Para la realización del Diagrama de Gantt, se han considerado las actividades reflejadas anterior-
mente en la Estructura de Descomposición del Proyecto (EDP) . El Diagrama de Gantt asocia a estas
actividades una duración temporal y unas relaciones de precedencia entre ellas (unas deben anteceder a
otras). La relación de las actividades consideradas, con sus fechas de inicio y fin, su duración temporal y
las relaciones de precedencia existentes entre cada actividad se muestran en la siguiente tabla:

Pablo Rodrı́guez-Sahagún Alesanco 101


15 PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

102 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Pablo Rodrı́guez-Sahagún Alesanco 103


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

15.3. Presupuesto

En este punto de la memoria pretende exponerse cuál es el coste total asociado al proyecto.

Los principales costes asociados al proyecto son los correspondientes al tiempo empleado por el
alumno y por el tutor. Este coste se calcula partiendo del salario medio de alumno y tutores multiplicados
por el número de horas dedicadas por cada uno a este Trabajo de Fin de Grado. Entonces, se consideran
los costes de las licencias de los programas utilizados:

• La utilización de Python y R es gratuita ya que éstos son softwares abiertos al uso público u
opensource.

• Acceso a DataCamp: necesario para el aprendizaje de Python.

• Microsoft Office, necesario para la realización de la memoria del TFG, de la presentación del
mismo y de los informes intermedios de seguimiento para los tutores, tiene un coste de 149 euros.

• Amortización del ordenador personal utilizado para el desarrollo de este Trabajo Fin de Grado, se
ha considerado un precio del mismo de 800 euros, que se amortiza en 4 años y que se ha utilizado
unas 830 horas.

Pablo Rodrı́guez-Sahagún Alesanco 105


15 PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

• Energı́a eléctrica consumida durante la realización de este trabajo. Para ello, se parte de la esti-
mación inicial de que el ordenador personal utilizado consume 70 W de potencia y del número de
horas de utilización del mismo señaladas en el párrafo anterior.

• Finalmente, se obtiene el coste total sin IVA como suma de todos los costes considerados. El
coste total con IVA se calcula sumando al valor anterior un 21 % extra que se asocia al IVA. En
conclusión, el presupuesto total asociado al proyecto resulta ser de 8.156,81 euros.

106 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Referencias
[1] Autism Speaks About Autism, Diagnosis, Causes and Symptoms. [En lı́nea]
https://www.autismspeaks.org/sites/default/files/docs/about autism 0.pdf

[2] Radiological Society of North America (RSNA) The History of MR Imaging as Seen through the
Pages of Radiology . [En lı́nea] http://pubs.rsna.org/doi/full/10.1148/radiol.14140706

[3] Radiological Society of North America (RSNA) Fundamental Physics of MR Imaging [En lı́nea]
http://pubs.rsna.org/doi/full/10.1148/rg.254055027

[4] Radiopaedia An introduction to MRI [En lı́nea] https://radiopaedia.org/articles/mri-introduction

[5] Gore JC. Principles and practice of functional MRI of the human brain. Journal of Clinical Investi-
gation. 2003;112(1):4-9. doi:10.1172/JCI200319010.

[6] European Comission Functional Magnetic Resonance Imaging [En lı́nea]


http://ec.europa.eu/research/participants/data/ref/h2020/other/hi/ethics-guide-fmri en.pdf

[7] Di Martino A, Yan C-G, Li Q, et al. The Autism Brain Imaging Data Exchange: Towards Large-Scale
Evaluation of the Intrinsic Brain Architecture in Autism. Molecular psychiatry. 2014;19(6):659-667.
doi:10.1038/mp.2013.78.

[8] Zuo XN, Di Martino A, Kelly C, Shehzad ZE, Gee DG, Klein DF, et al. The oscillating brain:
complex and reliable. Neuroimage. 2010;49(2):1432–1445.

[9] Ian Goodfellow and Yoshua Bengio and Aaron Courville The Deep Learning Textbook. MIT Press.
[En lı́nea] http://www.deeplearningbook.org/

[10] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp Fast and Accurate Deep Network
Learning by Exponential Linear Units (ELUs). eprint arXiv:1511.07289

[11] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian Delving Deep into Rectifiers: Surpassing
Human-Level Performance on ImageNet Classification. eprint arXiv:1502.01852

[12] Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua Empirical Evaluation of
Gated Recurrent Neural Networks on Sequence Modeling eprint arXiv:1412.3555

[13] Sepp Hochreiter and Jürgen Schmidhuber.1997. Long Short-Term Memory. Neural Comput. 9, 8
(November 1997), 1735-1780. DOI=http://dx.doi.org/10.1162/neco.1997.9.8.1735

[14] Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and
Ruslan Salakhutdinov Dropout: A Simple Way to Prevent Neural Networks from Over-
fitting Journal of Machine Learning Research, 2014, Volume 15, pages 1929-1958,
http://jmlr.org/papers/v15/srivastava14a.html

[15] Ioffe, Sergey; Szegedy, Christian Batch Normalization: Accelerating Deep Network Training by
Reducing Internal Covariate Shift eprint arXiv:1502.03167

[16] Bahrampour, Soheil; Ramakrishnan, Naveen; Schott, Lukas; Shah, Mohak Comparative Study of
Deep Learning Software Frameworks eprint arXiv:1511.06435

Pablo Rodrı́guez-Sahagún Alesanco 107


REFERENCIAS

[17] Vicky Kalogeiton, Stéphane Lathuilière, Pauline Luc, Tho-


mas Lucas, Konstantin Shmelkov Deep Learning Frameworks [En
lı́nea]https://project.inria.fr/deeplearning/files/2016/05/DLFrameworks.pdf

[18] NVIDIA [En lı́nea]http://www.nvidia.es/page/home.html

[19] Mart´ın Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S.
Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew
Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath
Kudlur, Josh Levenberg, Dan Mane, Rajat Monga, Sherry Moore, Derek Murray, ´ Chris Olah, Mi-
ke Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent
Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, ´ Pete Warden, Martin Wattenberg,
Martin Wicke, Yuan Yu, and Xiaoqiang Zheng
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems

[20] Heinsfeld AS, Franco AR, Craddock RC, Buchweitz A, Meneguzzi F. Identification of autism spec-
trum disorder using deep learning and the ABIDE dataset. NeuroImage: Clinical. 2018;17:16-23.
doi:10.1016/j.nicl.2017.08.017.

[21] Anirudh, Rushil; Thiagarajan, Jayaraman J. Bootstrapping Graph Convolutional Neural Networks
for Autism Spectrum Disorder Classification eprint arXiv:1704.07487

[22] Dvornek NC, Ventola P, Pelphrey KA, Duncan JS. Identifying Autism from Resting-State fMRI
Using Long Short-Term Memory Networks. Machine learning in medical imaging MLMI (Works-
hop). 2017;10541:362-370. doi:10.1007/978-3-319-67389-9 42.

108 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

Índice de figuras

1. Distribución por pacientes con autismo y control(izquierda) y sexo(derecha). Elabora-


ción propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Arquitectura hı́brida de red neuronal elegida para el desarrollo del proyecto. Elaboración
propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Secuencia de diferentes cortes cerebrales de un paciente de la iniciativa ABIDE en el
sentido ascendente del eje z de coordenadas.Elaboración propia. . . . . . . . . . . . . . 10
4. Evolucion de las graficas del modelo final de la red neuronal hı́brida.Elaboración propia . 11
5. Ejemplo de una imagen por resonancia magnética del cerebro, separadas en un conjunto
de imagenes en dos dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6. Campos magneticos en el caso de electrones en cables simples y un solenoide . . . . . . 28
7. Relajacion longitudinal (T1) tras la aplicacion de un pulso de radiofrecuencia de 90º . . . 30
8. Tabla en la que se recogen los distintos efectos que influyen en el desfase de los protones.
Se define T2* como T2 sin aplicacion de pulso de 180º(spin echo) . . . . . . . . . . . . 31
9. Diagrama de secuencias de pulso donde se recoge la informacion temporal de los eventos
mas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10. Diagrama de secuencia de pulso de Multi eco spin (Figura 6a) y Turbo eco spin (Figura 6b) 32
11. Diagrama de proceso de obtencion de imagen por resonancia magnetica . . . . . . . . . 33
12. Coleccion de imagenes del cerebro obtenidas mediante la tecnica de imagen por reso-
nancia magnetica funcional, donde se asocian diversas intensidades de actividad cerebral
con el color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
13. Figura que iliustra los dos patrones de interacciones de pacientes con estimulos utilizados
en experimentos con resonancia magnetica funcional . . . . . . . . . . . . . . . . . . . 36
14. Grafico que muestra la proporcion entre personas con el trastorno del espectro autista
(verdes) y aquellas que son controles (morado).Elaboración propia. . . . . . . . . . . . . 42
15. Grafico que muestra la proporcion entre mujeres (azul) y hombres (rosa) de entre todas
las muestras de la iniciativa ABIDE.Elaboración propia. . . . . . . . . . . . . . . . . . . 42
16. Diagrama de caja o boxplot de las edades de los participantes en la iniciativa ABI-
DE.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
17. Puntuacion de test de inteligencia (FIQ) para las personas participantes en la iniciativa
ABIDE con trastorno del aspectro autista (Figura 13a) y para personas de control (Figu-
ra 13b). Notese que debido a los rangos de observaciones distintos entre una grafica y
otra, los limites en los ejes difieren, por lo que a la hora de comparar ambas graficas es
necesario comprobar los limites del eje de ordenadas.Elaboración propia. . . . . . . . . 43
18. Figura comparativa en relacion a las 4 metricas propueestas realizadas con los datos de
las resonancias magneticas funcionales de la iniciativa ABIDE. A la izquierda se encuen-
tran los valores de conectividad medios en un volumen cerebral en tres dimensiones,
mientras que en la parte derecha del grafico se muestran las diferencias entre aquellas
personas con autismo y aquellas personas de control en terminos de conectividad cerebral. 44
19. Figura que muestra el proceso seguido desde la recepcion de la señal de la resonancia
magnetica funcional hasta que se consigue el indice fALFF . . . . . . . . . . . . . . . . 46
20. Mapa estadistico en el que se muestran indices ALFF y fALFF de un escaner fMRI. . . . 47

Pablo Rodrı́guez-Sahagún Alesanco 109


ÍNDICE DE FIGURAS

21. Representación de una tarea de clasificación obtenida de Tensorflow playground, la cual


emplea redes neuronales artificiales para tareas de clasificación de datos (Figura 21a), y
un empleo de regresión lineal (Figura 21b) . . . . . . . . . . . . . . . . . . . . . . . . . 51
22. En la figura 22a se aprecia un tipo especifico de clustering expuesto como ejemplo de la
libreria scikit-learn, mientras que en la figura 22b se observa un ejemplo de aprendizaje
mediante el algoritmo de funcion de densidad de probabilidad DBSCAN . . . . . . . . . 52
23. Diferentes situaciones simples en las que se muestran underfitting (parte izquierda de la
figura), un ajuste a los datos bueno (parte central de la figura) y overfitting (parte derecha
de la figura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
24. Arquitectura tipica de una red neuronal artificial profunda. . . . . . . . . . . . . . . . . 53
25. Ejemplo basico de aplicacion del algoritmo de forward propagation. . . . . . . . . . . . 54
26. Graficas que muestran las funciones de activacion sigmoide y tangente hiperbolica.Notese
que la funcion tangente hiperbolica es una funcion sigmoide escalada cuyo rango varia
entre -1 y 1.Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
27. Funcion de activacion Rectified Linear Unit.Elaboración propia. . . . . . . . . . . . . . 56
28. Grafica que muestra las diferentes formas de las variaciones de la funcion de activacion
Relu, mostrandose en la parte izquierda de la figura la funcion Prelu, y en la derecha la
funcion ELU.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
29. Descripcion en un caso extremadamente simple del metodo del gradiente descendiente . 58
30. Ejmplo basico del algoritmo de propagacion hacia atras o backpropagation . . . . . . . 59
31. Arquitectura tipica de una red neuronal convolucional profunda . . . . . . . . . . . . . . 61
32. Operacion realizada por una capa convolucional de dos dimensiones de una red neuronal
convolucional - CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
33. Funcion de pooling, donde en la parte izquierda se observa un max-pooling y en la parte
derecha se observa un average-pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
34. En la figura de la izquierda se observan las conexiones entre nodos despues de una ca-
pa convlucional reflejandose las interacciones dispersas, mientras que en la figura de la
derecha se muestran las conexiones de una red neuronal convencional. . . . . . . . . . . 65
35. Estructura en forma de grafica de nodos de una red neuronal recurrente simple . . . . . . 67
36. Estructura tipo de una red neuronal recurrente bidireccional . . . . . . . . . . . . . . . . 68
37. Esquema del algoritmo de backpropagation a traves del tiempol . . . . . . . . . . . . . 68
38. Esquema interno de una celula LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
39. Dos ejemplos de arquitectura de red neuronal sin aplicar dropout (izquierda) y aplicando
dropout (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
40. Diferencia en los pesos de la red neuronal en la fase de entrenamiento (izquierda) y test
(derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
41. Comparacion de la eficiencia de GPU y CPU en diferentes campos cientificos y compu-
tacionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
42. Especificaciones de la unidad de procesamiento grafico GPU utilizada en el desarrollo
del proyecto, asi cmo una imagen externa de la misma (NVIDIA GEFORCE GTX 960) . 76
43. Comparacion de las caracteristicas de los diferentes entornos de trabajo disponibles de
deep learning, asi como su rendimiento en las operaciones de forward propagation y
gradiente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
45. Visualizacion de ocho diferentes cortes ascendentes de la resonancia magnetica funcional
de un mismo paciente a lo largo del eje z de coordenadas.Elaboración propia. . . . . . . 80

110 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

46. Visualizacion de las diferentes trasnformaciones de imagen para la generacion de un


mayor numero datos (traslacion, rotacion, traslacion y rotacion).Elaboración propia. . . . 81
47. Comparacion de la funcion de coste en los datos de entrenamientoElaboración propia. . . 83
48. Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
49. Representacion en diagramas de distribucion de diferentes medidas estadisticas de los
pesos de una capa convolucional de una red neuronal.Elaboración propia . . . . . . . . . 84
50. Representacion en diagramas de tipo histograma de diferentes medidas estadisticas de
los pesos de una capa convolucional de una red neuronal.Elaboración propia. . . . . . . 84
51. Comparacion de la precision en los datos de entrenamiento entre simulaciones diferen-
tes.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
52. Comparacion de la funcion de coste en los datos de entrenamiento.Elaboración propia. . 87
53. Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
54. Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
55. Comparaciones de las funciones de coste o perdida al variar el numero de nodos de la
capa de memoria de la red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . 89
56. Comparacion de la precision al variar el numero de nodos de la capa de memoria de la
red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
57. Comparacion de la funcion de coste al variar el valor del termino de regularizacion.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
58. Comparacion de la precision al variar el termino de regularizacion.Elaboración propia. . 90
59. Comparacion de la funcion de coste al variar la funcion de activacion.Elaboración propia. 90
60. Comparacion de la precision al variar la funcion de activacion.Elaboración propia. . . . . 91
61. Comparacion de la funcion de perdida o coste al variar el dropout.Elaboración propia. . . 91
62. Comparacion de la precision al variar el dropout.Elaboración propia. . . . . . . . . . . . 92
63. Comparacion entre una arquitectura unidireccional y bidireccional.Elaboración propia. . 92
64. Comparacion de la funcion de coste entre un modelo con 10 y 30 cortes cerebrales.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
65. Comparacion de la precision entre un modelo con 10 cortes cerebrales y otro con 30.Ela-
boración propia.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
66. Principio y mecanismo del cross-validation.Elaboración propia. . . . . . . . . . . . . . . 94
67. Representación esquemática (izquierda) y completa (derecha) de la arquitectura hı́brida
de la red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
68. Evolución de las bias de la primera capa convolucional del primer bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
69. Evolución de los pesos de la primera capa convolucional del primer bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
70. Evolución de las bias de la segunda capa convolucional del primer bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
71. Evolución de los pesos de la segunda capa convolucional del primer bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
72. Evolución de las bias de la primera capa convolucional del segundo bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

Pablo Rodrı́guez-Sahagún Alesanco 111


ÍNDICE DE FIGURAS

73. Evolución de los pesos de la primera capa convolucional del segundo bloque convolu-
cional.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
74. Evolución de las bias de la segunda capa convolucional del segundo bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
75. Evolución de los pesos de la segunda capa convolucional del segundo bloque convolu-
cional.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

112 Escuela Técnica Superior de Ingenieros Industriales (UPM)


ÍNDICE DE FIGURAS

Anexo

(a) Figura 67a (b) Figura 67b

Figura 67: Representación esquemática (izquierda) y completa (derecha) de la arquitectura hı́brida de la red neu-
ronal.Elaboración propia.

114 Escuela Técnica Superior de Ingenieros Industriales (UPM)


16 ANEXO II

16. Anexo II
16.1. Evolución pesos y bias primera capa convolucional

Figura 68: Evolución de las bias de la primera capa convolucional del primer bloque convolucional.Elaboración propia.

Figura 69: Evolución de los pesos de la primera capa convolucional del primer bloque convolucional.Elaboración propia.

116 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

16.2. Evolución pesos y bias segunda capa convolucional

Figura 70: Evolución de las bias de la segunda capa convolucional del primer bloque convolucional.Elaboración propia.

Figura 71: Evolución de los pesos de la segunda capa convolucional del primer bloque convolucional.Elaboración propia.

Pablo Rodrı́guez-Sahagún Alesanco 117


16 ANEXO II

16.3. Evolución pesos y bias tercera capa convolucional

Figura 72: Evolución de las bias de la primera capa convolucional del segundo bloque convolucional.Elaboración propia.

Figura 73: Evolución de los pesos de la primera capa convolucional del segundo bloque convolucional.Elaboración
propia.

118 Escuela Técnica Superior de Ingenieros Industriales (UPM)


Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI

16.4. Evolución pesos y bias cuarta capa convolucional

Figura 74: Evolución de las bias de la segunda capa convolucional del segundo bloque convolucional.Elaboración propia.

Figura 75: Evolución de los pesos de la segunda capa convolucional del segundo bloque convolucional.Elaboración
propia.

Pablo Rodrı́guez-Sahagún Alesanco 119

S-ar putea să vă placă și