TFG Pablo Rodriguez Sahagun Alesanco PDF

Aplicación de redes neuronales convolucionales y
recurrentes al diagnóstico de autismo a partir de

resonancias magnéticas funcionales
Pablo Rodrı́guez-Sahagún Alesanco
Tutor : José Manuel Mira McWilliams
Escuela Técnica Superior de Ingenieros Industriales

Universidad Politécnica de Madrid
Madrid, España
Febrero de 2018
Aplicacion de Redes neuronales hı́bridas al diagnóstico del autismo a partir de f-MRI
Agradecimientos
Me gustarı́a en primer lugar mostrar mi agradecimiento a aquellas personas que me apoyan dia a
dia: mis padres, Gonzalo y Marita (por sus valiosos consejos), mis hermanos, Cristóbal y Bruno, que son
fuente de inspiración para mi en este proyecto, Merche, Rosa y Galia.
También me gustarı́a agradecer su ayuda a Silvia San Román, que me apoya y ayuda diariamente siempre
con cariño y una sonrisa.
Por último, me gustarı́a agradecer de manera especial a mi tutor, José Manuel Mira McWilliams, por
todo su apoyo en este tiempo, que ha sido fundamental.
Pablo Rodrı́guez-Sahagún Alesanco 3

Cita
Necesito más orden del que tú necesitas, más

predictibilidad en el medio que la que tú
requieres.
Tenemos que negociar mis rituales para
convivir.
Ángel Rivière

1. Resumen ejecutivo
Introducción
El autismo o trastorno del espectro autista engloba un grupo de complejos desórdenes del cerebro
humano. Estos desórdenes se caracterizan por la dificultad a la hora de interaccionar de manera social,
comunicarse verbal y no verbalmente, ası́ como una tendencia a la repetición de comportamientos.
Según estadı́sticas recientes, en Estados Unidos 1 de cada 70 niños aproximadamente padece algún tras-
torno relacionado con el trastorno del espectro autista.
El presente Trabajo de Fin de Grado surge de la idea de aplicar las herramientas propias del área del Deep
Learning en la investigación y estudio de un área en constante innovación como el análisis de imagen
médico, para efectuar un posterior diagnóstico. Más concretamente, el estudio se centra en la iniciati-
va ABIDE (Autism Brain Imaging Data Exchange), una base de datos formada por 1112 resonancias
magnéticas funcionales cerebrales, de las cuales 539 pertenecen a personas autistas, y 573 a personas
que ejercen la labor de control.
Objetivos
El principal objetivo de este proyecto es conseguir aplicar una red neuronal con una arquitectura
novedosa, a la que se denominará de aquı́ en adelante hı́brida, que consistirá en la combinación de una
red neuronal de tipo convolucional y una red neuronal de tipo recurrente para, mediante el análisis de las
resonancias magnéticas funcionales cerebrales de pacientes, ser capaces de distinguir entre aquellos que
presentan trastorno del espectro autista y aquellos que no. De manera adicional se presentará la utilidad
de los ı́ndices ALFF y fALFF en la caracterización del autismo. Estos ı́ndices miden las oscilaciones es-
pontaneas de baja frecuencia del cerebro, y han resultado ser una alternativa a las resonancias magnéticas
funcionales cerebrales sin procesamiento alguno.
Con el fin de estructurar este Trabajo de Fin de Grado, este objetivo global se conseguirá cuando se con-
cluyan con éxito cada una de las fases en las que se ha decidido subdividir el proyecto. Estas fases son
las siguientes:
• Descarga de Amazon Web Services y posterior almacenamiento de los datos de los ı́ndices ALFF
y fALFF de las resonancias magnéticas funcionales de los pacientes, ası́ como la base de datos con
sus fenotipos asociados.
• Estudio preliminar de los fenotipos de los pacientes (distribución por autista o control, sexo, edad
y IQ).
• Preprocesamiento de los datos y formación de cadenas de vı́deo, donde los fotogramas serán cortes
cerebrales según el eje z de coordenadas ascendente.
• Desarrollo de la arquitectura de la red neuronal hı́brida, y posterior simulación y elección de los
parámetros de la red.
• Obtención de resultados de clasificación y comparación con estudios similares.
Base de datos ABIDE

La base de datos ABIDE es una cooperativa conjunta de mas de 25 universidades y centros de inves-
tigación a lo largo de todo el mundo. La distribución en términos de pacientes con autismo o no, y sexo
es la siguiente:

1 RESUMEN EJECUTIVO
Figura 1: Distribución por pacientes con autismo y control(izquierda) y sexo(derecha). Elaboración propia
La propia iniciativa ABIDE ofrece varias métricas asociadas a las resonancias magnéticas funcio-
nales cerebrales de los sujetos participantes en el estudio. Como se ha mencionado anteriormente, en el
presente Trabajo de Fin de Grado se ha utilizado la métrica ALFF, ya que es con la que mejor resultados
se han obtenido.Se define el ı́ndice ALFF mediante la siguiente expresión matemática:
s
a2k ( f ) + b2k ( f )
ALFF = ∑
k: f ∈[0,01,0,1]
N
k
donde ak y bk son los coeficientes de la transformada de Fourier para las fluctuaciones cerebrales cuyo
rango de frecuencias se encuentra entre 0,01 y 0,1 Hertzios.
Metodologı́a
En primer lugar, se ha procedido a la descarga de los datos de la iniciativa ABIDE (las resonancias
magnéticas funcionales cerebrales de los pacientes y una base de datos en Microsoft Excel de sus fe-
notipos asociados), mediante un programa desarrollado en Python para descargar de manera automática
los datos, ya que la plataforma Amazon Web Services, en la que se encontraban alojados los datos, solo
permitı́a descargar los datos de los pacientes de uno en uno.
Posteriormente se ha procedido al estudio de las diferentes opciones existentes de lenguajes de pro-

gramación con librerı́as orientadas al desarrollo de modelos de Deep Learning, eligiéndose Python como
lenguaje de programación debido a la amplia comunidad de usuarios que lo soporta, además de la canti-
dad de funcionalidades que permite.
Como framework de Deep Learning se ha optado por Tensorflow, una librerı́a especializada en Deep
Learning desarrollada por Google, y que aunque no es la que mayor rendimiento aporta, es la que tiene
más perspectivas de futuro.
A continuación se ha realizado una revisión de estudios cientı́ficos sobre modelos de Deep Learning
aplicados al estudio de la iniciativa ABIDE. La mayorı́a de los estudios optan por utilizar una red neuro-
nal convolucional, realizando las convoluciones en 2 dimensiones o en 3 dimensiones. Una red neuronal
convolucional es un tipo de red neuronal especialmente recomendado para su uso en datos con una topo-
logı́a de mallado o grid. Ésto las hace especialmente útiles en el tratamiento de imágenes.
La entrada a la red convolucional será un tensor de datos (por ejemplo una imagen), y se utilizará un
kernel o tensor móvil formado por pesos que se modificaran a lo largo del aprendizaje de la red, para
obtener el resultado de la operación de convolución de ambos.
Sin embargo, las redes convolucionales en tres dimensiones requieren de una gran capacidad compu-
8 Escuela Técnica Superior de Ingenieros Industriales (UPM)

tacional para su utilización, lo que supone un gran inconveniente, ya que el equipo del que se dispone no
es especialmente potente.
Realizando una búsqueda más en profundidad, se han encontrado referencias al uso de redes neuro-
nales recurrentes, más en concreto del tipo LSTM, debido a la dimensión temporal que presentan los
escáneres por resonancia magnética funcional. Las redes neuronales recurrentes son otro tipo de redes
neuronales cuya principal tarea es la de tratar con datos en forma de serie o secuencia. Los estados de la
red en el instante temporal t se ven afectados por los estados anteriores. Sin embargo, las redes neurona-
les recurrentes sufren un fenómeno llamado desaparición del gradiente, por el cual la información entre
estados temporales muy separados se pierde.
Para remediar este problema de las dependencias temporales a largo plazo surgen un tipo especial de
redes neuronales recurrentes llamadas LSTM y GRU.
Nace ası́ la idea de utilizar los dos tipos de redes neuronales juntas, tomando las 3 dimensiones es-
paciales (dirección x, dirección, dirección z), y transformándolas en 2 dimensiones espaciales que serán
las que gestione la parte convolucional de la red, y una dimensión temporal, que se corresponderá con
la dirección z, y que será gestionada por la parte recurrente. La arquitectura de la red neuronal es la
siguiente, donde están señalados de color verde el primer bloque convolucional, de color azul oscuro el
segundo bloque convolucional, y de color rojo el bloque recurrente y final.
Figura 2: Arquitectura hı́brida de red neuronal elegida para el desarrollo del proyecto. Elaboración propia
De manera más intuitiva, la nueva estructura de los datos podrı́a asimilarse a la de una secuencia
de video, donde los fotogramas son cada uno de los cortes cerebrales en el eje z, con sentido del eje z
creciente. Cada fotograma de la secuencia de vı́deo (imágenes en dos dimensiones) pasará por separado
a través de los dos bloques convolucionales de la red neuronal. La salida de estos bloques será dispuesta
en forma de secuencia, y esta secuencia será analizada por el bloque recurrente de la red neuronal. La
intención es que para la red sea más fácil clasificar las resonancias magnéticas funcionales con una se-
cuencia, ya que dispondrá de un contexto, que con fotogramas individuales sin conexión alguna.
Para conseguir la estructura de datos deseada, se han realizado varias operaciones de procesamiento
de los datos. Primero se ha especificado un formato de numero en coma flotante con 32 decimales de
precisión. Posteriormente se han formado las secuencias de datos de las resonancias magnéticas fun-
cionales, obteniéndose un tensor de cuatro dimensiones (número de sujetos, coordenadas dirección x,
coordenadas dirección y, coordenadas dirección z) de un tamaño muy grande (1008 sujetos * 61 voxeles
dirección x * 73 voxeles dirección y * 61 voxeles dirección z).

1 RESUMEN EJECUTIVO
Figura 3: Secuencia de diferentes cortes cerebrales de un paciente de la iniciativa ABIDE en el sentido ascendente
del eje z de coordenadas.Elaboración propia.
Por último, se han realizado numerosas simulaciones con la arquitectura hı́brida previamente expues-
ta para elegir los parámetros de la red que consigan el máximo rendimiento. Entre estos parámetros
destacan la elección del ratio de aprendizaje, del valor del término de regularización, la elección de la
probabilidad de dropout o que cortes cerebrales formarán las secuencias de vı́deo a analizar entre otros.
Resultados
Para la evaluación de los resultados es una práctica común el dividir el número total de datos en
datos para entrenamiento y datos para test. La red neuronal hı́brida va aprendiendo y entrenándose con
los datos de entrenamiento, para posteriormente ponerse a prueba con los datos reservados para el test.
Los resultados han sido especialmente buenos, ya que son parecidos, e incluso en ocasiones superiores,
a los obtenidos por otros estudios de investigación en el mismo campo.
El principal problema que se ha experimentado en el desarrollo del proyecto ha sido la aparición del
fenómeno de sobreajuste u overfitting, por el cual la red neuronal aprende de memoria los datos de en-
trenamiento, no consiguiendo generalizar de manera correcta a datos vistos por primera vez.
Para intentar solucionar este problema se han llevado a cabo las siguientes acciones:
• Se ha utilizado un valor relativamente alto para el termino de regularización L2. Este término
impone una penalización a los pesos con valores altos, lo que previene la aparición del sobreajuste.
• Se ha aplicado un dropout muy agresivo, mediante el cual se consigue reducir de manera notable
el sobreajuste. El dropout es una técnica del Deep Learning mediante la cual se obvian de manera
aleatoria nodos y sus respectivas conexiones dentro de la red neuronal, lo que evita que la red se
adapte demasiado a los ejemplos provistos durante el entrenamiento.
• Por último se han realizado ensembles de diferentes modelos, de cara a reducir la variabilidad de
las simulaciones debida a numerosos factores, obteniendo ası́ modelos finales más robustos.
Por último, se ha realizado un k-fold cross validation con k=6, donde se subdividen la totalidad de los
datos en paquetes (en este caso 6 paquetes), y se va rotando que paquetes forman los datos de entrena-
miento y que paquete forma el de test, realizando un total de 6 combinaciones diferentes. Se han obtenido
las siguientes precisiones en los datos de test:
NUM 1 2 3 4 5 6
PRECISION 64,90 % 66,10 % 69,10 % 61,30 % 67,30 % 65,50 %

De forma añadida se adjunta la gráfica de la evolución de la precisión en la clasificación para datos

de entrenamiento (izquierda) y para datos de test (derecha). La gráfica fucsia representa la evolución
cuando se utilizan 10 cortes cerebrales equiespaciados entre sı́, mientras que la gráfica marrón emplea
30 cortes cerebrales.
Figura 4: Evolucion de las graficas del modelo final de la red neuronal hı́brida.Elaboración propia
Conclusiones
Las conclusiones que se pueden extraer tras completar este Trabajo de Fin de Grado son varias.
En primer lugar, se ha mostrado la utilidad de aplicación de ı́ndices y medidas asociadas (ALFF y fALFF)
a las resonancias magnéticas funcionales de los pacientes, en vez de las resonancias magnéticas sin
ningún tipo de procesamiento.
En segundo lugar, se ha corroborado la eficacia y buen rendimiento de las herramientas englobadas en el
deep learning para la resolución de problemas complejos, siendo las aplicaciones posibles para el deep
learning inimaginables.
Por último, se introduce el uso de redes neuronales hı́bridas al campo del análisis de imagen médico,
exponiendo que este tipo de redes conllevan una mejorı́a en términos de precisión en la clasificación, lo
que abre un enorme abanico de posibilidades.
Palabras clave
Autismo, resonancias magnéticas funcionales cerebrales, ABIDE, Deep Learning, redes neuronales,
redes convolucionales, redes recurrentes, redes hı́bridas.
Codigos UNESCO
1203.04 - INTELIGENCIA ARTIFICIAL ; 1203.23 - LENGUAJES DE PROGRAMACION ; 1209.14
- TÉCNICAS DE PREDICCIÓN ESTADÍSTICA .

Índice
1. Resumen ejecutivo 7
2. Introducción 17
3. Objetivos 19
4. Autismo o TEA (Trastorno del Espectro Autista) 21

4.1. Datos sobre el autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Causas del autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3. Sintomas del autismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1. Sı́ntomas sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.2. Dificultades comunicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.3. Comportamientos repetitivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3.4. Habilidades únicas asociadas al autismo . . . . . . . . . . . . . . . . . . . . . . 23
4.4. Problemas médicos y fı́sicos asociados al autismo . . . . . . . . . . . . . . . . . . . . . 23
4.4.1. Epilepsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.2. Desordenes genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.3. Desordenes gastrointestinales . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.4. Alteración del sueño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.5. Disfunción de la integración sensorial . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.6. Pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4.7. Salud mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5. MRI - Imagen por Resonancia Magnética 27

5.1. Historia de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Fundamentos fisicomatemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.2. T1 - Tiempo de relajación longitudinal . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.3. T2 - Tiempo de relajación transversal . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.4. Eco del spin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.5. Diagramas de secuencias de pulso . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.6. Secuencias de pulso básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Ventajas y desventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.1. Ventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.2. Desventajas de la MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.5. La MRI funcional - fMRl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.5.1. Historia breve de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.5.2. Funcionamiento de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.3. Limitaciones técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.4. Seguridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.5. Consideraciones neuroéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.5.6. Aplicaciones de la fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.5.7. Futuro y desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

ÍNDICE
6. La iniciativa ABIDE 41
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2. Análisis estadı́stico de la iniciativa ABIDE . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3. Metricas derivadas del analisis de las R-fMRI . . . . . . . . . . . . . . . . . . . . . . . 43
6.4. ALFF y fALFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.2. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.4.3. Método de obtención de los ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . 45
7. Introduccion al Deep Learning 49

7.1. Definición e historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.2. Concepto básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.1. Tareas - Clasificación vs Regresión . . . . . . . . . . . . . . . . . . . . . . . . 50
7.2.2. Aprendizaje supervisado, no supervisado y semisupervisado . . . . . . . . . . . 51
7.2.3. Overfitting y Underfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.3. Redes neuronales artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.3.1. Algoritmo de propagacion hacia delante o forward propagation . . . . . . . . . . 54
7.3.2. Funciones de perdida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3.3. Funciones de activacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3.4. Gradiente descendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.3.5. Algoritmo de propagación inversas o backpropagation . . . . . . . . . . . . . . 58
7.4. Optimización de redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8. Redes neuronales convolucionales 61

8.1. Historia y desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.2. La operación de convolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8.3. Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4. Utilidad y motivación de uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4.1. Interacciones dispersas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.4.2. Reparto de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.4.3. Representaciones equivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9. Redes neuronales recurrentes : LSTM y GRU 67

9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2. Redes recurrentes bidireccionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.3. Cálculo del gradiente en una RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
9.4. Problemas asociados a las dependencias temporales a largo plazo . . . . . . . . . . . . . 68
9.5. LSTM - Long Short Term Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.6. GRU - Gated Recurrent Unit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
10. Conceptos adicionales 71

10.1. Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
10.2. Regularización L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
10.3. Normalización del Batch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

11. El entorno de trabajo 73

11.1. Elección del lenguaje de programación . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.1.1. Introducción de los diferentes lenguajes de programación . . . . . . . . . . . . . 73
11.1.2. Análisis y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.2. Capacidad computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
11.2.1. Importancia de la utilización de una GPU . . . . . . . . . . . . . . . . . . . . . 74
11.2.2. Historia de las GPUs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.2.3. GPU vs CPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.2.4. NVIDIA y CuDNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
11.3. Elección del framework de deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . 76
11.3.1. Introducción de los distintos frameworks . . . . . . . . . . . . . . . . . . . . . 76
11.3.2. Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
11.3.3. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
11.4. Librerı́as adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
12. Modelo propuesto y resultados 79

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
12.1.1. Estocasticidad de las redes neuronales . . . . . . . . . . . . . . . . . . . . . . . 79
12.2. Trabajos previos y justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
12.3. Preprocesamiento de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
12.3.1. Generación adicional de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
12.4. Tensorboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
12.4.1. Interpretación de gráficos escalares . . . . . . . . . . . . . . . . . . . . . . . . 82
12.4.2. Interpretación de gráficos de distribución . . . . . . . . . . . . . . . . . . . . . 83
12.4.3. Interpretación de histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
12.5. Resultados y análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
12.5.1. Primer análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
12.5.2. Variacion numero unidades capa GRU . . . . . . . . . . . . . . . . . . . . . . . 88
12.5.3. Análisis del término de regularización . . . . . . . . . . . . . . . . . . . . . . . 89
12.5.4. Funciones de activacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
12.5.5. Variacion del dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
12.5.6. Target replication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.5.7. Bidireccionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
12.5.8. Ensemble y modelos definitivos . . . . . . . . . . . . . . . . . . . . . . . . . . 93
12.5.9. Validación k-fold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
13. Conclusiones 95
14. Lı́neas futuras 97
15. Planificación temporal y presupuesto 99

15.1. Estructura de descomposición del proyecto . . . . . . . . . . . . . . . . . . . . . . . . 99
15.2. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
15.3. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
14. Referencias 106

ÍNDICE
15. Índice de figuras 108
16. Anexo 112
16. Anexo II 116

16.1. Evolución pesos y bias primera capa convolucional . . . . . . . . . . . . . . . . . . . . 116
16.2. Evolución pesos y bias segunda capa convolucional . . . . . . . . . . . . . . . . . . . . 117
16.3. Evolución pesos y bias tercera capa convolucional . . . . . . . . . . . . . . . . . . . . . 118
16.4. Evolución pesos y bias cuarta capa convolucional . . . . . . . . . . . . . . . . . . . . . 119

2. Introducción
El autismo o trastorno del espectro autista (TEA) engloba un grupo de complejos desórdenes del
cerebro humano. Estos desórdenes se caracterizan por la dificultad a la hora de interaccionar de manera
social, comunicarse verbal y no verbalmente, ası́ como una tendencia a la repetición de comportamien-
tos.
Según estadı́sticas recientes, en Estados Unidos 1 de cada 70 niños aproximadamente padece algún
trastorno relacionado con el trastorno del espectro autista, siendo cada vez más elevado el número de
personas afectadas.
El diagnóstico precoz en el caso de personas con autismo es fundamental de cara a iniciar su estimu-
lación. El inicio temprano de las terapias adecuadas supondrá una mejora sustancial en la autonomı́a y la
calidad de la vida de las personas afectadas y de su entorno.
El presente Trabajo de Fin de Grado surge de la idea de aplicar las herramientas propias del área del Deep
Learning en la investigación y estudio de un área en constante innovación como el análisis de imagen
médico, para efectuar un posterior diagnóstico. Más concretamente, el estudio se centra en la iniciati-
va ABIDE (Autism Brain Imaging Data Exchange), una base de datos formada por 1112 resonancias
magnéticas funcionales cerebrales, de las cuales 539 pertenecen a personas autistas, y 573 a personas
que ejercen la labor de control.
A lo largo del documento se desarrollarán los conceptos teóricos utilizados en el desarrollo del proyecto,
tanto teorı́a de resonancia magnética nuclear como de modelos de Deep Learning y redes neuronales.
Posteriormente, se expondrá una elección justificada del entorno de trabajo utilizado en el desarrollo
del proyecto, ası́ como la importancia de la utilización de unidades de procesamiento gráfico para los
cálculos propios del entrenamiento de la red neuronal. Por último, se expondrán los resultados y las
conclusiones, ası́ como las lı́neas futuas del proyecto.

3. Objetivos
El principal objetivo de este proyecto es conseguir aplicar una red neuronal con una arquitectura
novedosa, a la que se denominará de aquı́ en adelante hı́brida, que consistirá en la combinación de una
red neuronal de tipo convolucional y una red neuronal de tipo recurrente para, mediante el análisis de las
resonancias magnéticas funcionales cerebrales de pacientes, ser capaces de distinguir entre aquellos que
presentan trastorno del espectro autista y aquellos que no. De manera adicional se presentará la utilidad
de los ı́ndices ALFF y fALFF en la caracterización del autismo. Estos ı́ndices miden las oscilaciones es-
pontaneas de baja frecuencia del cerebro, y han resultado ser una alternativa a las resonancias magnéticas
funcionales cerebrales sin procesamiento alguno.
Con el fin de estructurar este Trabajo de Fin de Grado, este objetivo global se conseguirá cuando se con-
cluyan con éxito cada una de las fases en las que se ha decidido subdividir el proyecto. Estas fases son
las siguientes:
• Descarga de Amazon Web Services y posterior almacenamiento de los datos de los ı́ndices ALFF
y fALFF de las resonancias magnéticas funcionales de los pacientes, ası́ como la base de datos con
sus fenotipos asociados. El servidor de Amazon Web Services sólo permite descargar los datos de
paciente en paciente y de manera manual, por lo que se ha desarrollado un programa en Python
que lo realice de manera automática.
• Estudio preliminar de los fenotipos de los pacientes (distribución por autista o control, sexo, edad y
IQ). Para ello se ha utilizado el lenguaje de programación R y la interfaz RStudio, ya que posibili-
tan multitud de funcionalidades muy útiles en el análisis de bases de datos, además de herramientas
de visualización muy avanzadas como ggplot2.
• Preprocesamiento de los datos y formación de cadenas de vı́deo, donde los fotogramas serán cortes
cerebrales según el eje z de coordenadas ascendente. De esta manera se dispondran formando
cadenas o secuencias de fotogramas ordenados, que serán entregados a la red, primero durante su
entrenamiento para que aprenda, y posteriormente, para evaluar su rendimiento.
• Desarrollo de la arquitectura de la red neuronal hı́brida, y posterior simulación y elección de los
parámetros de la red.
• Obtención de resultados de clasificación y comparación con estudios similares.

4. Autismo o TEA (Trastorno del Espectro Autista)
Los términos autismo y TEA (Trastorno del Espectro Autista) engloban un grupo de complejos des-
ordenes del cerebro humano. Estos desordenes se caracterizan, con la existencia de distintos grados, por
presentar dificultades a la hora de interaccionar socialmente hablando, comunicarse verbal y no verbal-
mente, ası́ como la repetición de comportamientos.
Tras la publicación del Manual Estadı́stico y de Diagnosis de Desórdenes Mentales de la Asociación Psi-
quiátrica Americana (DSM-5), todos los desórdenes autistas han sido agrupados bajo un único termino
(TEA).
Atendiendo al manual mencionado, el diagnóstico del autismo requiere que al menos seis caracterı́sticas
psicólogo-conductuales descritas en dicho manual sean observadas, que los problemas estén presentes
antes de los 3 años y que no haya evidencia de otros desordenes similares.
4.1. Datos sobre el autismo
Estadı́sticas recientes sobre el autismo elaboradas por el Centro de Control y Prevención de Enfer-
medades de los Estados Unidos (CDC) establece que aproximadamente 1 de cada 70 niños americanos
poseen el trastorno del espectro autista.
El estudio muestra un gran crecimiento en casos de autismo en los últimos años, si bien probablemente se
deba a un crecimiento en la conciencia social sobre el autismo y la mejorı́a en las técnicas de diagnóstico.
Resulta interesante que la presencia de casos de autismo sea entre 4 y 5 veces más común en chicos que
en chicas.
A nivel absoluto, hay 2 millones de personas afectadas con el desorden del espectro autista solo en los
Estados Unidos, y decenas de millones en todo el mundo.
4.2. Causas del autismo
Hasta hace no mucho tiempo la respuesta a la pregunta qué causa el autismo era que no se tenı́a idea
alguna. A mediados del siglo XX se pensaba que el autismo estaba provocado por madres poco cariñosas,
que demostraran poco afecto a sus hijos. Hoy en dı́a esa concepción está profundamente rebatida.
Investigaciones recientes están arrojando luz poco a poco. Lo primero de todo es que no hay una única
causa de autismo, ası́ como no hay un único tipo de autismo.
En los últimos cinco años se han identificado más de 100 genes de riesgo asociados con el autismo, lo
que provoca que se pueda identificar una causa genética de autismo en aproximadamente el 15 % de los
casos.
Sin embargo, en la gran mayorı́a de los casos están involucrados una gran y compleja serie de factores
genéticos y de entorno que influencian el desarrollo temprano del cerebro.
Dentro de los factores de riesgo del entorno, los considerados más influyentes son aquellos que se dan
durante el embarazo y el nacimiento del niño, como pueden ser avanzada edad de la madre y/o el padre,
enfermedades de la madre durante el embarazo o falta de oxı́geno en el cerebro del bebe durante el parto.
Es importante tener en cuenta que estos riesgos por si solos no causan autismo, pero en combinación con
factores genéticos, pueden incrementar el riesgo.
Recientemente las investigaciones sobre el autismo se están centrando en el estudio del sistema inmu-
nológico de los pacientes con autismo, aunque aún queda un largo camino por recorrer.

4 AUTISMO O TEA (TRASTORNO DEL ESPECTRO AUTISTA)
4.3. Sintomas del autismo
El autismo afecta a la manera en que el individuo percibe la realidad, lo que dificulta la comunicación
e interacción social. Las personas con autismo se enfrentan a diario con numerosos desafı́os, sobre todo
aquellos con sı́ntomas más severos como pueden ser la falta de habla o comportamientos repetitivos.
Aunque el autismo resulta ser frecuentemente una condición que se mantiene durante toda la vida, in-
tervenciones y terapias concretas pueden reducir los sı́ntomas e incrementar las habilidades de manera
considerable, siendo un factor clave la intervención temprana.
4.3.1. Sı́ntomas sociales
Los bebes y niños a temprana edad son sociables por naturaleza. Son capaces de agarrar un dedo
e incluso sonreı́r con solo 2 o 3 meses de vida. En cambio, la mayorı́a de las personas autistas tienen
grandes dificultades a la hora de lidiar con este tipo de interacciones diarias.
Hacia los 10 meses de vida, muchos niños con autismo no responden a su nombre, muestran un muy
reducido interés por las personas y sufren un retardo a la hora de empezar a balbucear.
Con una edad un poco más avanzada, los niños autistas tienen dificultad a la hora de jugar a juegos que
impliquen socializar, les cuesta imitar las acciones de otras personas, y frecuentemente prefieren jugar
ellos solos.
Estudios muestran que los niños autistas están vinculados a sus padres, pero la manera de mostrar ese
vı́nculo puede ser bastante inusual, lo que puede hacer pensar a los padres que su hijo esta desconectado.
La mayorı́a de personas con autismo experimentan dificultades a la hora ver las cosas desde la pers-
pectiva de otra persona. Los niños de 5 años entienden que otras personas pueden tener pensamientos o
sentimientos diferentes a los suyos, pero los niños con autismo tienden a no poseer dicho entendimiento,
lo que interfiere con la habilidad de predecir y entender las acciones de otros.
A su vez, es bastante común que las personas con autismo presenten dificultades a la hora de gestionar y
controlar sus emociones, experimentando de manera muy frecuente situaciones de frustración, pudiendo
incluso llegar a tener comportamientos auto-lesivos.
Afortunadamente los niños con autismo pueden ser enseñados a interactuar socialmente, ası́ como captar
matices sociales más sutiles, como los gestos o las expresiones faciales, además de aprender a sobrellevar
su frustración.
4.3.2. Dificultades comunicativas
Personas jóvenes con autismo tienden a presentar un retraso temporal a la hora de balbucear, hablar
o expresarse mediante gestos. Sin embargo, mediante terapia, bastantes personas que padecen autismo
pueden aprender una lengua hablada y la gran mayorı́a pueden comunicarse.
Además, muchos adultos y niños no parlantes pueden aprender a usar sistemas de comunicación como
imágenes, lengua de signos, procesadores de texto electrónicos o incluso dispositivos generadores de
voz.
A medida que se va desarrollando la capacidad del lenguaje, las personas con autismo numerosas veces
utilizaran el lenguaje de manera muy inusual, como por ejemplo decir solo palabras sueltas o repetir la
misma frase durante un periodo de tiempo.
Es necesaria también la diferenciación entre el lenguaje expresivo y el lenguaje receptivo, ya que se
tiende a pensar que son lo mismo y no es ası́, pudiendo personas autistas experimentar problemas con
solo una de las dos capacidades.

Patrones de comportamiento comunes son el uso de monólogos sobre el tema favorito de la persona con
autismo, dejando poco margen para la intervención del resto de personas en la conversación. También
presentan dificultad en el entendimiento del lenguaje corporal, el tono de la voz o las expresiones que no
deben ser interpretadas de manera literal (especial dificultad con bromas, ironı́a...).
Por ultimo, a medida que va surtiendo efecto la terapia, estos patrones irán poco a poco disminuyendo o
suavizándose, y la persona autista aprenderá de manera paulatina a comunicarse de mejor manera.
4.3.3. Comportamientos repetitivos
Comportamientos repetitivos inusuales o una tendencia a limitar la actividad a un rango restringido

de actividades son otras de las principales caracterı́sticas de las personas con autismo.
Los comportamientos repetitivos pueden variar desde saltar, coger y dejar objetos hasta repetir sonidos,
palabras o frases. Algunas veces el comportamiento repetitivo puede ser autoestimulante. Un caso muy
concreto de la restricción de actividades presente en las personas autistas podrı́a ser un niño que pasa
horas colocando sus juguetes en lı́nea en vez de jugar con ellos. De la misma manera, muchos adultos
autistas muestran preocupación con la posición de objetos de la casa en la misma posición determinada,
siendo bastante molesto para ellos que se altere dicho orden.
Además de lo anterior, una gran cantidad de personas necesitan mucha consistencia y repetitividad en su
entorno y rutina diaria, pudiendo los pequeños cambios suponer una fuente de gran estrés.
Frecuentemente, los comportamientos repetitivos pueden adoptar la forma de obsesiones y preocupacio-
nes intensas, como pueden ser objetos muy concretos, o temas como los sı́mbolos, las matemáticas, las
fechas o la ciencia.
4.3.4. Habilidades únicas asociadas al autismo
Ası́ como muchas personas autistas muestran considerables problemas a la hora de enfrentarse a los
desafı́os del dı́a a dı́a, muchas personas autistas pueden presentar áreas en las que muestran un rendi-
miento muy alto. Es muy común encontrar a niños autistas con gran talento para las matemáticas, la
música o el arte, entre otras muchas actividades.
Estas áreas en las que el niño autista se va volviendo un experto pueden ser fuente de gran satisfacción y
orgullo para el propio niño, por lo que se recomienda que se incluyan estas actividades en la rutina diaria
del niño.
También es muy común observar como niños autistas muy pequeños son capaces de realizar actividades
muy complejas como cambiar un DVD o aprender a utilizar el mando de la televisión de manera autóno-
ma para ver su pelı́cula favorita, siendo la motivación la fuerza que guı́a este estilo de aprendizaje tan
único.
4.4. Problemas médicos y fı́sicos asociados al autismo
Se presentan a continuación los problemas médicos y fı́sicos más comunes que pueden estar asocia-
dos al desorden del espectro autista.
4.4.1. Epilepsia
La epilepsia se encuentra presente en aproximadamente un tercio de los casos de personas con au-
tismo. La epilepsia es un desorden del cerebro caracterizado por convulsiones recurrentes de la persona

4 AUTISMO O TEA (TRASTORNO DEL ESPECTRO AUTISTA)
que la padece. La explicación actual que proponen los expertos en la materia es que alguna de las anor-
malidades cerebrales asociadas al autismo pueden contribuir a la presencia de la epilepsia.
Las anormalidades pueden causar cambios en la actividad cerebral debido a variaciones de la activi-
dad neuronal. Sobrecargas o perturbaciones de la actividad neuronal pueden desembocar en episodios
epilépticos.
La epilepsia es mas común también en aquellos niños que poseen déficits cognitivos. Los episodios
epilépticos relacionados con el autismo suelen darse en la niñez o en la adolescencia temprana, pero
pueden ocurrir en cualquier instante.
El tratamiento tı́pico de los niños y adultos con episodios epilépticos se realiza con anticonvulsivos, me-
dicamentos cuyo objetivo final es la reducción o eliminación de episodios epilépticos. El tipo exacto de
anticonvulsivo debe ser seleccionado por un neurólogo en base al examen de la persona que padezca
los episodios y en base a pruebas neurológicas como pueden ser una imagen por resonancia magnética
(MRI) o una tomografı́a computerizada (CT).
4.4.2. Desordenes genéticos
Algunos niños con autismo presentan una condición genética identificable que afecta al desarrollo
cerebral. Algunos ejemplos de estos desordenes genéticos son el sı́ndrome Fragile X, sı́ndrome Angel-
man, sı́ndrome de la duplicación del cromosoma 15 y otro tipo de desórdenes.
Aunque es necesario un estudio más profundo y extenso, parece ser que trastornos monogenéticos afectan
entre al 15 % y 20 % de las personas con autismo.
4.4.3. Desordenes gastrointestinales
Los desórdenes gastrointestinales están estrechamente relacionados con el autismo. Varios estudios
relacionan el autismo con problemas gastrointestinales como por ejemplo la gastritis, la colitis o la eso-
faguitis en un 50 %-70 %de los casos.
El dolor provocado por estos desordenes gastrointestinales puede provocar un cambio en el comporta-
miento de los niños ya que se siente frustrados ante el dolor. Existe evidencia débilmente probada de
que una dieta baja en azucares y gluten puede influir positivamente sobre las personas con autismo,
produciéndose una mejora en sus condiciones de vida y su comportamiento.
4.4.4. Alteración del sueño
Las alteraciones del sueño son muy comunes en niños y adolescentes con autismo. Muchas veces
estas alteraciones pueden estar provocadas por problemas médicos como por ejemplo apnea del sueño o
reflujo gastroesofagal, por lo que resolver estos problemas médicos puede aliviar la alteración del sueño.
En otros muchos casos en los que no existe un factor médico, intervenciones en la rutina diaria del niño
como limitar el tiempo que se duerme durante el dı́a y establecer horas fijos de acostarse puede ayudar a
reducir la alteración del sueño.
4.4.5. Disfunción de la integración sensorial
Una gran cantidad de niños con autismo experimentan respuestas inusuales a estı́mulos sensoriales.
Pueden sestar afectados la vista, el oı́do, el tacto, el olfato, el gusto, la sensación de movimiento (sistema
vestibular) y la sensación de propiocepción.

4.4.6. Pica
La pica es un desorden alimenticio en el cual la persona afectada come cosas que no se consideran
alimentos. Los niños entre año y medio y dos años comen objetos que no son alimentos de manera fre-
cuente, siendo esto una parte normal del desarrollo.
Algunos niños con autismo y otras discapacidades continúan mas allá del tiempo normal con este tras-
torno, siendo los elementos más tı́picos por circunstancias de la rutina diaria de los niños trozos de tiza,
barro o pintura.
4.4.7. Salud mental
Frecuentemente un niño diagnosticado con autismo puede ser también diagnosticado con TDAH
(Trastorno de Déficit de Atención e Hiperactividad). Estudios recientes muestran que uno de cada cinco
niños con espectro autista tienen también TDAH, y que uno de cada tres tienen un trastorno de ansiedad
como puede ser fobias de muchos tipos.
Debido a esto, es de vital importancia que en estos casos el autismo sea tratado conjuntamente con las
otras patologı́as presentes, bien sea TDAH o ansiedad.

5. MRI - Imagen por Resonancia Magnética
La imagen por resonancia magnética o MRI (Magnetic Resonance Imaging) es una técnica de diagnósti-
co que utiliza como fundamento el fenómeno de la resonancia magnética nuclear de forma no invasiva
para producir imágenes de alta calidad del interior del cuerpo humano. Aporta información de tipo mor-
fológica y funcional. La técnica fue denominada imagen por resonancia magnética (MRI) en vez de
imagen por resonancia magnética nuclear (NMRI) debido a la connotación negativa de la palabra nu-
clear a finales de los años 70.
La técnica producı́a al principio rebanadas en dos dimensiones del volumen total, pero hoy en dı́a ha
avanzado hasta convertirse en una técnica de representación de volúmenes.
Figura 5: Ejemplo de una imagen por resonancia magnética del cerebro, separadas en un
conjunto de imagenes en dos dimensiones
5.1. Historia de la MRI
La historia de la imagen por resonancia magnética se remonta a finales del siglo XX, cuando el
cientı́fico Wilhelm Roentgen mostro por primera vez la creación de imágenes por medio de rayos X,
descubrimiento por el que fue galardonado con un premio Nobel en el año 1901.
En el año 1938 se realiza uno de los estudios fı́sicos fundamentales que posibilitan la resonancia magnéti-
ca nuclear, en el que Isidor Isaac Rabi hizo pasar un rayo de moléculas a través de un campo magnético
y comprobó que podı́an emitir ondas de radio a frecuencias especı́ficas, ganando otro premio Nobel en
fı́sica en el año 1944.
Mas adelante, a finales de los años 40, George Ludwig aplica por primera vez ultrasonidos con propósitos
médicos. Continuando con el trabajo desarrollado por Rabi, Felix Bloch y Edward Mills Purcell extien-
den el experimento a la utilización de sólidos y lı́quidos.
20 años más tarde Raymond Damadian sugirió que las resonancias magnéticas podrı́an ser utilizadas
para distinguir tejidos cancerosos de tejidos sanos.
En el año 1973, Paul Lauterbur mostro que era posible crear una imagen a partir de una resonancia
magnética nuclear, publicándose cuatro años más tarde las primeras imágenes por resonancia magnética
realizadas en humanos.
El desarrollo y la extensión de su uso ha sido vertiginoso, existiendo en el año 2003 unas 10.000 unidades
y realizándose más de 75 millones de escáneres en todo el mundo.

5 MRI - IMAGEN POR RESONANCIA MAGNÉTICA
5.2. Fundamentos fisicomatemáticos
A continuación, se detallan aquellos conceptos matemáticos y fı́sicos que posibilitan la obtención

de imágenes por resonancia magnética. Para aquellas personas que deban trabajar con escáneres creados
por resonancia magnética, es de vital importancia entender los mecanismos que posibilitan la creación
de las imágenes.
5.2.1. Conceptos basicos
• Producción del campo magnético: En el viaje de un electrón a lo largo de un cable, se produce un

campo magnético alrededor del electrón. Si el cable tiene forma circular, se producirá un campo
magnético perpendicular a dicho cable (Figura 2a).
• Resonancia: El fenómeno de resonancia ayuda a la correcta y eficiente transmisión de la energı́a.

Este fenómeno se puede explicar de manera clara con un ejemplo: al empujar a un niño en un
columpio es muy importante que le demos energı́a en el momento adecuado, de forma que el niño
pueda llegar más alto.
• Protones de hidrogeno: Es necesario la disponibilidad de una fuente de protones de hidrogeno de

cara a poder formar la señal de la resonancia magnética. El protón de hidrogeno está cargado de
forma positiva y gira alrededor de su eje. Este protón actúa como un pequeño imán. Los protones
de hidrogeno dentro de nuestro cuerpo, actúan, por tanto, como un conjunto de pequeños imanes.
• Campo magnético principal: Proviene de una gran corriente eléctrica a lo largo de cables que
forman un solenoide (Figura 2b). Un valor tı́pico de campo magnético para sistemas de resonancia
magnética será 1,5 Teslas.
Los cables se encuentran inmersos en helio lı́quido, de cara a que grandes corrientes puedan ser
usadas. Debido a la existencia del campo magnético algunos de los protones de nuestro cuerpo se
alinearán en dirección del campo magnético, y otros en contra.
Los campos magnéticos de una gran cantidad de protones se cancelarán entre ellos, pero existirá
un pequeño exceso de protones alineados con el campo magnético, lo que producirá una magne-
tización. Esta magnetización es la fuente de la señal usada para la producción de imágenes por
resonancia magnética.
(a) Figura 6a (b) Figura 6b
Figura 6: Campos magneticos en el caso de electrones en cables simples y un solenoide

• Sistema de coordenadas: Denominaremos a la dirección paralela al campo magnético principal

dirección longitudinal o eje z. Normalmente este eje es un eje horizontal y se corresponde con la
dirección cabeza-pies.
Adicionalmente definiremos el eje x como la dirección que va de izquierda a derecha del paciente,
y el eje y como la dirección anterior-posterior. El plano que contiene a x e y se denomina plano
transversal.
• Precesión: La acción del espı́n de los protones sumada a la acción del campo magnético provoca
la precesión de los protones. Teniendo en cuenta el fenómeno de resonancia, es de vital importan-
cia conocer la frecuencia de este movimiento de precesión. Esta frecuencia se puede determinar
gracias a la ecuación de Larmor:
f = γBo (1)
donde f es la frecuencia de precesion,γ es una constante denominada radio giromagnetico y Bo es
la fuerza del campo magnetico principal. Para protones de hidrogeno, el valor de γ es igual a 42,6
MHz/T, por lo que para un sistema tipico de resonancia magnetica (Bo = 1,5 T) la frecuencia seria
64 MHz.
• Energı́a de radiofrecuencia: La energı́a de radiofrecuencia se produce por el rápido cambio de

los campos eléctricos y magnéticos existentes. Las estaciones de radio y televisión emiten en fre-
cuencias parecidas a las de la resonancia magnética, y afectan a estas últimas, lo que constituye la
razón por la que los equipos de resonancia magnética deben estar protegidos.
Tı́picamente, la radiofrecuencia es transmitida en un corto periodo de tiempo llamado pulso de ra-
diofrecuencia. Este pulso debe estar a la misma frecuencia que la frecuencia de precesión calculada
con la ecuación de Larmor para que se produzca el fenómeno de resonancia.
• Absorción de la energı́a de radiofrecuencia: A medida que se absorbe energı́a del pulso de ra-
diofrecuencia, la magnetización rotara separándose del eje z. La cantidad de rotación dependerá de
la fuerza y duración del pulso de radiofrecuencia. En función del ángulo que rote la magnetización
encontraremos diferentes pulsos, destacando los pulsos de 90º y 180º.
5.2.2. T1 - Tiempo de relajación longitudinal
Después de la presentación de los conceptos fı́sicos fundamentales de la resonancia magnética se van

a presentar una serie de conceptos más avanzados.
Después de la aplicación de un pulso de radiofrecuencia de 90º la magnetización longitudinal pasa a ser
magnetización transversal, siendo el valor de la magnetización longitudinal. Pasado un tiempo después
del pulso, la magnetización longitudinal vuelve a crecer. Surge ası́ la definición del tiempo T1 o tiempo
de relajación longitudinal como el tiempo que tarda en reestablecerse la magnetización longitudinal (Fi-
gura 3a). La definición exacta de T1 es el tiempo que tarda la magnetización longitudinal en alcanzar el
63 % de su valor máximo, asumiendo que ha sufrido un pulso de 90º. Diferentes tejidos poseerán dife-
rentes valores de T1 y crecerá su magnetización longitudinal a distinta velocidad.
La materia blanca tiene un T1 muy corto y se relaja rápidamente, mientras que el fluido cerebroespinal
posee un T1 largo y se relaja de manera lenta. Por otro lado, la materia gris posee un T1 intermedio,
relajándose en un tiempo intermedio. Por lo tanto, los pixeles más claros corresponderán a la materia

blanca, mientras que el fluido cerebroespinal aparecerá más oscuro, siendo la materia gris correspon-
diente con los tonos grises intermedios (Figura 3b).
Este mecanismo de contraste se denomina contraste T1. Si las curvas de la figura 3b no estuvieran muy
separadas entre sı́, se dirı́a que la imagen no tiene mucho contraste - T1.
Figura 7: Relajacion longitudinal (T1) tras la aplicacion de un pulso de radiofrecuencia de 90º
5.2.3. T2 - Tiempo de relajación transversal
La descripción de este parámetro comienza con la magnetización alineada con el eje z y la aplicación
de un pulso de radiofrecuencia de 90º que rota la magnetización hasta que pertenece al plano transversal.
Durante el pulso los protones realizan el movimiento de precesión en fase, pero después del pulso em-
piezan a desfasarse debido a cuatro factores distintos.
Uno de los principales factores es la presencia de zonas no homogéneas en el campo magnético, lo que se
traduce en distintas frecuencias de precesión para distintos protones, lo que provocara después del pulso
un ligero desfase.
Tres de los cuatro efectos que crean el desfase pueden ser revertidos gracias a un truco que se explica-
ra más adelante. En este caso, el desfase estará provocado por el efecto restante, llamado interacciones
spin-spin. Este desfase recibe el nombre de relajación T2. Este parámetro es especifico de cada tejido y
parametriza la velocidad de desfase de los protones asociados a ese tejido.
Es posible medir la magnetización transversal, ya que, al ser un campo magnético, induce una corriente
en una espira de cable. Esta corriente eléctrica se digitaliza y es procesada por un ordenador para su pos-
terior reconstrucción. La señal recibida es máxima al estar la magnetización transversal en fase, mientras
que si está completamente desfasada la señal recibida será igual a cero.
Surge ası́, de manera muy parecida al parámetro T1, la definición del parámetro T2. La definición exacta
del parámetro T2 es el tiempo que tarda la magnetización transversal en caer hasta el 37 % de su valor
inicial.
De forma parecida a lo que pasaba con el parámetro T1, diferentes tejidos poseen distintos tiempos de
relajación transversal. La materia blanca tiene un T2 corto y se desfasa rápidamente, mientras que el
fluido cerebroespinal tiene un T2 largo y se desfasa lentamente. De la misma forma la materia gris tiene
un tiempo de relajación transversal intermedio.
Cabe destacar como apunte final que los procesos de relajación de T1 y T2 se producen de manera
simultánea, aunque con diferencias en cada uno de ellos.

5.2.4. Eco del spin
El spin echo es el truco al que se ha hecho referencia anteriormente de cara a eliminar tres de los
cuatro factores que provocan desfase en la magnetización después de la aplicación de un pulso de radio-
frecuencia de 90º.
Después de un tiempo determinado, si se aplica un pulso de radiofrecuencia de 180º los spines dejaran
de desfasarse, y en cambio, volverán paulatinamente a estar en fase.
Al volver los spines a estar en fase, nuestro medidor de señal registrara un valor máximo. La vuelta a
estar en fase de los spines provoca un eco denominado spin echo. A su vez, el tiempo que existe entre el
pico del pulso de radiofrecuencia de 90º y el de 180º se denomina tiempo de eco(TE).
Mediante el eco del spin se consigue anular el efecto de tres de las cuatro interacciones que afectan
al desfase de los protones. Mientras que estos tres efectos son lineales, el cuarto efecto (interacciones
spin-spin) es un efecto aleatorio, por lo que su control y atenuación es muy complicado
Figura 8: Tabla en la que se recogen los distintos efectos que influyen en el desfase de los
protones. Se define T2* como T2 sin aplicacion de pulso de 180º(spin echo)
5.2.5. Diagramas de secuencias de pulso
Una vez expuestos los conceptos fundamentales, ası́ como los tiempos de relajación y contrastes T1
y T2, es necesario explicar cómo crear y controlar este contraste.
Esto se consigue gracias a la descripción de la secuencia de pulsos de la resonancia magnética, que
muestra los tiempos de ciertos eventos durante la resonancia magnética. Estos eventos engloban tanto a
los pulsos de radiofrecuencia como a la señal formada por dichos pulsos. Los eventos mas importantes
se señalan en la figura
Figura 9: Diagrama de secuencias de pulso donde se recoge la informacion temporal de los

eventos mas importantes
Apoyándose en la figura 5, se procede a la descripción de dos parámetros muy importantes de las

resonancias magnéticas, TE y TR.

TE ya ha sido previamente definido al hablar del eco del spin. TR se define como el tiempo necesario
para realizar la secuencia de pulso una vez. Como ejemplo básico, se supone que se quiere obtener
una imagen de 128 pixeles por 128 pixeles, lo que equivale a una matriz de datos de 128 filas por 128
columnas. Mediante una secuencia de pulso obtendrı́amos la primera fila de la matriz de datos, por lo
que se deberı́a repetir la secuencia de pulso 128 veces, siendo el tiempo total de adquisición de los datos
128 por TR.
Como apunte final cabe destacar que los tiempos TE y TR permiten controlar el efecto de las relajaciones
T1 y T2 expuestas anteriormente. 5..
5.2.6. Secuencias de pulso básicas
Por ultimo se presentan una serie de secuencias de pulso básicas tomando como referencia la secuen-
cia de eco de spin.
• Eco spin: La secuencia de pulso de eco spin se corresponde con la figura numero 5 previamente
mostrada. Esta secuencia es capaz de producir imágenes basadas en ponderaciones respecto a T1 y
a T2. TE y TR serán seleccionados de manera adecuada para conseguir la mejor calidad de imagen
posible. Valores tı́picos de TE y TR cuando se utiliza como ponderación T1 y un campo magnético
de 1,5 T son TE = 20 msec y TR = 500 msec, mientras que si la ponderación utilizada es referente
a T2 se utilizan tı́picamente TE = 80 msec y TR = 2000 msec.
• Multieco eco spin:La secuencia de pulso multieco eco spin utiliza múltiples pulsos de radiofre-
cuencia de 180º, produciéndose cada eco a un tiempo TE diferente (Figura 6a). Valores tı́picos
para esta secuencia de pulso son TR = 2000 msec, TE1 = 20 msec y TE2 = 80 msec. Este ti-
po de secuencia disminuye notablemente los tiempos de adquisición de la imagen por resonancia
magnética, aunque sacrificando un poco de detalle y calidad.
• Turbo eco spin:Este tipo de secuencia se parece en su disposición a la secuencia multieco, con la
diferencia de que en la secuencia multieco se obtienen diferentes paquetes de datos que deberán ser
combinados e interpretados, mientras que en la secuencia turbo spin se obtiene un único paquete
de datos a mayor velocidad que en la secuencia eco spin básica.
Figura 10: Diagrama de secuencia de pulso de Multi eco spin (Figura 6a) y Turbo eco spin (Figura 6b)

5.3. Funcionamiento
Una vez vistos los conceptos fı́sicos que se utilizan para la obtención de imágenes por resonancia
magnética se plantea un esquema del proceso completo de funcionamiento de una maquina MRI. Se
comenzará con la creación del campo magnético, ası́ como la excitación de los protones mediante pulsos
de radiofrecuencia, los cuales posteriormente se relajarán liberando energı́a. Aplicando pulsos según las
distintas secuencias de pulso (eco, multieco, turbo-eco...) se obtendrá una señal, la cual será codificada,
almacenada y procesada por un ordenador, y, cuyo resultado final será la imagen deseada. (Ver figura 7)
Figura 11: Diagrama de proceso de obtencion de imagen por resonancia magnetica
5.4. Ventajas y desventajas de la MRI
A continuación, se presentan ventajas e inconvenientes de la utilización de la obtención de imágenes

por resonancia magnética nuclear de manera breve.
5.4.1. Ventajas de la MRI
• 1: La RMI tiene la habilidad de producir imágenes sin el empleo de rayos-x ionizantes, en contra-
posición a la tomografı́a computarizada.
• 2: Las imágenes pueden ser obtenidas en multitud de planos y orientaciones sin la necesidad de
mover al paciente durante la prueba.
• 3: Las imágenes obtenidas por MRI poseen un contraste en los tejidos blandos superior a otros
tipos de métodos de obtención de imágenes médicas, posicionándose como método ideal en la
examinación del cerebro, articulaciones, ası́ como otras partes del cuerpo formadas por tejidos
blandos.
• 4: Algunos tipos de imágenes pueden ser obtenidos sin la introducción de una sustancia que au-
mente el contraste.

• 5: Técnicas avanzadas dentro de la resonancia magnética como la difusión, la espectroscopia o

la perfusión permiten una caracterización precisa del tejido, mas allá de una mera representación
macroscópica.
• 6: La MRI funcional permite la visualización tanto de la estructura cerebral, ası́ como de las partes
activas del cerebro durante la ejecución de distintas actividades. Este tipo de imagen por resonancia
magnética será discutida en profundidad más adelante.
5.4.2. Desventajas de la MRI
• 1: Los escáneres MRI son más caros que los escáneres por tomografı́a computarizada y requieren
más tiempo, lo que influye claramente en la comodidad del paciente en la prueba.
• 2: Los escáneres por resonancia magnética no son seguros para pacientes con implantes de metal
y cuerpos externos implantados. Se debe prestar especial atención a las medidas de seguridad de
cara a evitar lesiones graves tanto a los pacientes como a los profesionales que están manejando el
equipo médico.

5.5. La MRI funcional - fMRl
La imagen por resonancia magnética funcional (fMRI) ha revolucionado el estudio del órgano más
complejo del ser humano, el cerebro. Se trata de un procedimiento médico y clı́nico que permite observar
en imágenes las regiones del cerebro que se activan en la realización de una tarea determinada.
Se presenta a continuación el contexto de esta técnica de neuroimagen desde diversos puntos de vista: de
la historia a las aplicaciones futuras, pasando por su funcionamiento y las consideraciones éticas
Figura 12: Coleccion de imagenes del cerebro obtenidas mediante la tecnica de imagen por
resonancia magnetica funcional, donde se asocian diversas intensidades de actividad cerebral
con el color
5.5.1. Historia breve de la fMRI
La imagen por resonancia magnética funcional es un tipo de resonancia magnética cuyo origen da-
ta de hace unos 20 años, y que se basa en el comportamiento de tejidos biológicos bajo influencia de
campos magnéticos, en la que se utiliza el fenómeno de la resonancia magnética nuclear para medir la
oxigenación de sangre en los tejidos.
En el año 1936, el cientı́fico Linus Pauling ya expuso que la susceptibilidad magnética de la hemoglobi-
na cambiaba en función del nivel de oxigeno presente. No es hasta el año 1990, al realizar el cientı́fico
japonés Ogawa experimentos con cerebros de roedores en campos magnéticos, que se empezó a desa-
rrollar el concepto actual de resonancia magnética funcional. Ogawa introdujo entonces el efecto BOLD
(Blood Oxygenation Level Dependent contrast), que es el proceso de oxigenación por el cual el oxı́geno
se liga de manera reversible al ion férrico de la hemoglobina de los glóbulos rojos. Ogawa hipnotizo que
este efecto estaba relacionado con los estados funcionales del cerebro.
La aplicación de la técnica BOLD la neuroimagen humana fue mencionada y desarrollada por Bandettini
y Ogawa en el año 1992. A partir de este momento los avances en la resonancia magnética funcional
han consistido en desarrollo de los componentes fı́sicos de ordenadores (hardware), en los métodos de
obtención de imágenes y en software de obtención y muestra de imágenes.
Estas técnicas y métodos siguen en constante evolución, ya que aún queda mucho por hacer en temas de
resolución espacial y temporal, ası́ como sensibilidad de los escáneres.

5.5.2. Funcionamiento de la fMRI
Como ya se ha expuesto anteriormente, la imagen por resonancia magnética (MRI) hace uso del
fenómeno de la resonancia magnética nuclear bajo la acción de un campo magnético, utilizando las pro-
piedades magnéticas de los protones del hidrogeno del cuerpo humano que se encuentran en abundancia
en el agua y grasa de los tejidos corporales.
En cambio, la resonancia magnética funcional se aprovecha de las propiedades de moléculas biológicas,
en este caso la hemoglobina. La diferencia de susceptibilidades magnéticas en la hemoglobina en sus
diferentes estados de oxigenación explican el mecanismo que basa el contraste BOLD.
Cuando realizamos cualquier actividad (hablar, movernos, pensar o incluso en reposo) ciertas áreas del
cerebro se ven involucradas en la realización de estas tareas. Para esto las neuronas involucradas en di-
chas tareas demandan una mayor cantidad de energı́a a nivel local, lo que se traduce en un aumento local
de flujo de sangre, y por tanto, el aumento de oxigeno presente en la hemoglobina, incrementándose la
señal de la resonancia magnética.
Estructurando la recogida de datos cada ciertos intervalos de tiempo, la resonancia magnética funcional
es capaz de proveer datos temporales de cada vóxel del cerebro (equivalente a un pı́xel pero en tres di-
mensiones).
La calidad de imagen y resolución conseguida por una resonancia magnética funcional es menor que
la de una resonancia magnética convencional, ya que la primera necesita una muestra del cerebro cada
pocos segundos (en una resonancia magnética convencional pueden ser minutos), siendo aun ası́ mejor
que otras técnicas existentes como el electroencefalocardiograma.
Para explicar de manera más clara y concisa el funcionamiento de la fMRI se va a utilizar como ejemplo
la ejecución de una tarea motora por parte del sujeto. Una vez dentro del campo magnético del escáner
el sujeto abrirá y cerrará la mano cada 30 segundos. La mayorı́a de las funciones estudiadas necesitan de
entre veinte y cuarenta minutos para la realización de la prueba.
Posteriormente son necesarias complejas técnicas de procesamiento de imagen para definir la actividad
de cada bóxer determinado en los intervalos de tiempo que correspondan. Una de las grandes dificultades
a la hora de realizar este tipo de escáner es la manera en la que los estı́mulos son presentados al paciente
de cara a activar ciertas regiones del cerebro.
Los estı́mulos usados dependerán de que funciones quieren ser estudiadas, y podrán ser muy diver-
sos: motores, sensoriales, relacionados con el lenguaje o cognitivos. Las estructuras de presentación de
estı́mulos más utilizadas son el diseño en bloque y el diseño basado en eventos (Figura 9). asociadas.
Figura 13: Figura que iliustra los dos patrones de interacciones de pacientes con esti-
mulos utilizados en experimentos con resonancia magnetica funcional

El diseño en bloque consiste alternar periodos de entre veinte y treinta segundos de dos (algunas
veces tres) estados, comúnmente estimulo y descanso, para ser capaces de determinar las diferencias
existentes entre los estados estudiados.
Por otro lado, el diseño basado en eventos presenta los estı́mulos de manera individual con duraciones
de unos pocos segundos, de manera aleatoria y con una duración variable entre los diferentes estı́mulos.
Esta técnica es especialmente recomendable para tareas de tipo cognitivo.
En los últimos años ha surgido también un diseño denominado Resting State fMRI, que es el tipo de
diseño predominante de los datos que dispondremos para realizar el estudio de este trabajo de fin de
grado. En este tipo de diseño no se presentan estı́mulos al paciente, sino que se analiza la actividad
espontanea del cerebro, siendo actualmente el más extendido.
5.5.3. Limitaciones técnicas
Se han identificado varias limitaciones relacionadas con la técnica fMRI, como pueden ser el diseño
de los experimentos, el movimiento de la cabeza del paciente, cambios estructurales en el cerebro, el
registro de la imagen, la resolución temporal y espacial ya comentada, la fuerza del campo magnético,
las técnicas estadı́sticas asociadas al proceso de creación de imagen (análisis de las regiones de interés,
tamaño de la muestra a analizar, inferencia a toda la población), las influencias cultural y antropológica
del paciente en la interpretación de los datos, la diversidad de hardware y software a la hora de realizar
el escáner y una falta de procedimientos estandarizados.
Muchos de estos problemas genera diferentes preguntas y consideraciones a la hora de tener que inter-
pretar los datos obtenidos.
En un estudio analı́tico reciente sobre el aprendizaje sobre técnicas de resonancia magnética funcional,
el cientı́fico Robert Savoy hace hincapié en las dificultades a las que hacen frente aquellas personas que
quieren convertirse en expertos en el área de las imágenes médicas, necesitándose una gran cantidad de
practica en el análisis de los datos, ası́ como en la capacidad de diagnóstico, resultando en un proceso de
aprendizaje lento y complicado.
5.5.4. Seguridad
Los riesgos derivados de un escáner fMRI no distan mucho de aquellos relacionados con los escáne-
res MRI convencionales, con la excepción de posibles riesgos o incomodidades derivadas de la presen-
tación de estı́mulos a los pacientes.
Los pacientes que serán sometidos a escáneres de tipo fMRI están expuestos tanto a campos magnéticos
estáticos, como a campos magnéticos variables (campos de gradiente y de radiofrecuencia).
• Campos magnéticos estáticos: Los efectos más frecuentes que pueden sufrir los pacientes debido
al campo magnético estático son parecidos al vértigo, sobre todo si existe movimiento dentro del
fuerte campo magnético del escáner.
A medida que se incrementa la fuerza del campo magnético, como por ejemplo los escáneres re-
sonancia magnética con campo magnético ultra-high que tienen una fuerza de campo magnético
mayor o igual a 7 Teslas, se observan un mayor número de pacientes con vértigo y nauseas. Se ha
estudiado también el efecto de los campos magnéticos de los escáneres fMRI en recién nacidos y
niños, sin observarse efectos adversos en el desarrollo de funciones de éstos.
Adicionalmente existe riesgo de desplazamiento, vibración o daño de implantes de metal que sean

conductores, especialmente aquellos que contengan elementos ferromagnéticos, siendo los escáne-
res fMRI contraindicados para pacientes con este tipo de implantes.
• Campos magnéticos de gradiente: Los gradient coils son usados para producir variaciones en
el campo magnético estático principal. Existen normalmente tres gradient coils , una para cada
dirección del espacio (x, y, z). Los campos magnéticos de gradiente están involucrados en la se-
lección del plano de representación, ası́ como en la codificación de la señal MRI detectada, siendo
un factor de vital importancia para la calidad de imagen.
Cambian de manera rápida durante tanto en amplitud como en polaridad y pueden causar corrien-
tes en implantes metálicos, provocando su deterioro. Personas con epilepsia o que tomen drogas
habitualmente deben someterse a las pruebas con especial cuidado.
Los campos magnéticos variables son también responsables de ruido acústico, siendo mayor su
intensidad cuando más fuerte sea el campo magnético. Aunque el riesgo de pérdida auditiva per-
manente es muy bajo, puede ser muy molesto para los pacientes.
• Campos de radiofrecuencia: Las bobinas de radiofrecuencia se comportan como las antenas del
sistema MRI al enviar una señal de radiofrecuencia y/o recibirla de vuelta. La exposición a campos
de radiofrecuencia de suficiente intensidad pueden inducir el calentamiento de los tejidos biológi-
cos. Debido a esta causa, hay restricciones de exposición a campos de radiofrecuencia durante los
escáneres MRI.
Es necesario tener extremada precaución con niños pequeños y mujeres embarazadas, ası́ como
personas que resultado de la edad presenten algún tipo de problema asociado a la temperatura
corporal.
5.5.5. Consideraciones neuroéticas
La neuroética es la ciencia que trata con aquellas cuestiones éticas, legales y sociales asociadas a
la práctica clı́nica de la neurociencia, ası́ como de las investigaciones y estudios relacionados con ésta.
Analizando el caso de la fMRI como parte de la neurotecnologia surgen varias incógnitas, algunas propias
de esta prueba y otras comunes al campo de la neurociencia, como pueden ser la aplicación de la prueba
a niños pequeños que no puedan dar su consentimiento, niños con algún tipo de discapacidad la cual
no requiere este tipo de prueba pero resultarı́a interesante desde un punto de vista de investigación o la
aplicación de la prueba a personas embarazadas y que ésto pueda afectar al desarrollo del feto, entre otras
muchas situaciones.
5.5.6. Aplicaciones de la fMRI
La resonancia magnética funcional ha tenido un impacto cientı́fico comparable al de otros descu-

brimientos biomédicos. En la actualidad se encuentra más asentada en investigación en el campo de la
neurociencia, en particular la neurociencia cognitiva, más que en la aplicación clı́nica diaria.
Entre sus muchas contribuciones al avance cientı́fico resaltan la contribución al entendimiento de cómo
funciona la memoria humana o el comportamiento social. En el entorno clı́nico, la fMRI es mayoritaria-
mente utilizada para la planificación de intervenciones quirúrgicas.
Sin embargo, aun teniendo un rol muy importante en la investigación y comprensión de enfermedades
psiquiátricas y neurológicas, no lo tienen en el diagnóstico de estas mismas patologı́as. La fMRI también
se ha extendido al estudio de áreas más controvertidas a nivel ético y filosófico, como pueden ser la toma
de decisiones, la percepción moral o la conciencia, y facultades humanas complejas como la percepción

de la música o el arte.
Se presentan, a su vez, numerosos desafı́os asociados con la investigación de aplicaciones, ası́ como sus
componentes éticos, en un rango a nivel social más amplio como podrı́a ser el ámbito legal: detección de
mentiras, determinación de estados mentales, memoria y culpabilidad asociada a la conducta.
5.5.7. Futuro y desarrollo
Mirando al futuro, el desarrollo de la fMRI pasa primero por un mayor rigor a la hora de la realización
del escáner, ası́ como la creación y aplicación de un marco normativo de escaneo común. Adicionalmente,
en vez de centrarse en la localización de una función cerebral concreta, se mostrara un mayor interés y
esfuerzo en el estudio de la conectividad cerebral entre distintas regiones de éste, ası́ como patrones de
activación.
Uno de los proyectos más interesantes es el Proyecto del Conectoma Humano, cuyo objetivo principal es
el uso de las técnicas más avanzadas de neuroimagen, incluyendo la fMRI en reposo y la fMRI realizando
diversas actividades, a un gran número de personas alrededor del mundo para crear enormes bases de
datos que favorezcan el estudio y la investigación cientı́fica.
En el ámbito de la medicina clı́nica la resonancia magnética funcional ira adquiriendo más peso. La
realización de una fMRI en reposo no necesita de ninguna actividad por parte del paciente, y no conlleva
más tiempo que un escáner MRI convencional. Las pruebas fMRI en reposo están siendo utilizadas
ampliamente para el estudio de múltiples patologı́as, por lo que podrı́an ser usadas en un futuro para el
diagnóstico de las mismas.
Los sistemas con fuerza de campo magnético mayor que tres Teslas comenzaran a ser adoptados, ya que
permiten una resolución espacial tanto temporal mucho mayor. No obstante, el incremento de la fuerza
de los campos magnéticos también comporta limitaciones (económicas, biológicas y tecnológicas) que
deben ser tenidas en cuenta.

6. La iniciativa ABIDE
6.1. Introducción
Como ya se ha comentado anteriormente, aproximadamente uno de cada setenta niños americanos
sufren el trastorno del espectro autista. El crecimiento en los casos de autismo son fruto, al menos par-
cialmente, de la adopción de métodos estandarizados de evaluación y diagnóstico de la enfermedad.
Mas allá de la utilidad médica, la adopción de métodos estandarizados facilitan enormemente la com-
paración y la sı́ntesis entre diversos estudios e investigaciones sobre el autismo a lo largo de todo el
mundo. Se han producido grandes cantidades de datos asociados a la investigación del autismo mediante
fenotipos, sin embargo, no existen gran cantidad de datos de neuroimagen y escáneres cerebrales, que
son de vital importancia para el entendimiento de los mecanismos neurofisiológicos propios del autismo.
Como respuesta a esta falta de datos, surge la iniciativa ABIDE (Autism Brain Imaging Data Exchange)
o intercambio de datos de imágenes del cerebro autista en castellano. ABIDE es un esfuerzo conjunto
global de investigadores y cientı́ficos dedicado a compartir datos de imágenes por resonancia magnética
funcional en reposo de personas con autismo y pacientes de control de la misma edad que los primeros.
La razón de escoger R-fMRI como método de obtención de los datos está motivada por diferentes facto-
res:
• Estudios relacionados con el análisis de imágenes medicas de pacientes con autismo muestran
anormalidades en la conectividad entre regiones del cerebro, más que anormalidades de tipo fun-
cional o a la hora de realizar una tarea determinada.
• La dificultad que significa el diseñar experimentos y tareas a realizar por los pacientes que sean
capaces de mostrar los comportamientos y capacidades tı́picas de las personas autistas.
• Como ha sido demostrado con otros proyectos del mismo tipo, como pueden ser el Proyecto del
Conectoma Humano o la iniciativa ADNI (base de datos de imágenes de escáneres cerebrales de
personas que padecen Alzheimer), los datos resultantes de R-fMRI obtenidos de diversos centros
de investigación pueden ser juntados con éxito para su investigación.
Los directores de la iniciativa ABIDE hipotizaron que la utilización de protocolos estandarizados se refle-
jarı́a en una mayor homogeneidad de los datos. Se pretendı́a ser también un precursor de la armonización
de procedimientos de cara a estudios futuros relacionados con el autismo.
6.2. Análisis estadı́stico de la iniciativa ABIDE

En total, la base de datos ABIDE se compone de un total de 1112 personas, 539 que sufren el tras-
torno del espectro autista y 573 que son controles. Los datos proporcionados por la iniciativa son una
combinación de resonancias magnéticas funcionales en reposo y una gran cantidad de datos y fenotipos
asociados al paciente en forma de hoja de Excel separada por comas (CSV).
Se realiza un estudio estadı́stico básico de los pacientes con el lenguaje de programación R para todas las
manipulaciones de datos y la librerı́a ggplot2 para la visualización de los diferentes diagramas estadı́sti-
cos.
El eje x o de abscisas de todos los diagramas no varı́a , significando cada valor la universidad o cen-
tro de investigación de procedencia de los datos. Las instituciones involucradas en la obtención de los
datos han sido las siguientes: CALTECH (California Institute of Technology), CMU ( Carneige Me-
llon University), KKI ( Kennedy Krieger Institute), LEUVEN1 y LEUVEN2 (University of Leuven),

6 LA INICIATIVA ABIDE
MAXMUN ( Ludwig Maximilians University Munich), NYU ( NYU Langone Medical Center), OH-
SU ( Oregon Health and Science University), OLIN ( Olin neuropsychiatric research center al Hatford
Hospital), PITT ( University of Pittsburgh),SBL (Social Brain Lab, Groningen(Netherlands)), ( SDSU (
San Diego State University), STANFORD ( Stanford University), TRINITY ( Trinity Center for Health
Sciences), UCLA1 y UCLA2 ( University of California, Los Angeles), UM1 y UM2 ( University of Mi-
chigan) y YALE ( Yale Child Study Center).
El primer gráfico que se presenta es el número de personas que presentan trastorno del espectro autista
(en verde) frente a las personas de control (en morado). Resaltan las aportaciones en términos de cantidad
de personas de NYU y UCLA.
Figura 14: Grafico que muestra la proporcion entre personas con el trastorno del
espectro autista (verdes) y aquellas que son controles (morado).Elaboración propia.
En el siguiente grafico se presenta la distribución entre hombres y mujeres de las muestras de pacien-
tes según su universidad o centro de investigación, observándose que aproximadamente el noventa por
ciento de las muestras pertenecen a varones, siendo las muestras pertenecientes a mujeres muy pocas en
comparación.
Figura 15: Grafico que muestra la proporcion entre mujeres (azul) y hombres (rosa)
de entre todas las muestras de la iniciativa ABIDE.Elaboración propia.

A continuación se muestra la distribución de las edades en el momento en el que se tomó el escáner

en los distintos centros de investigación, obteniéndose los siguientes diagramas de caja o boxplots:
Figura 16: Diagrama de caja o boxplot de las edades de los participantes en la inicia-
tiva ABIDE.Elaboración propia.
Por último, se muestran dos graficas comparativas de la puntuación obtenida por los pacientes en un
test de inteligencia (FIQ) separándose en personas que sufren el trastorno del espectro autista y aquellas
que no.
Cada circulo representa una observación, y las lı́neas de color negro horizontales muestran la puntuación
media obtenida para cada centro de investigación
Figura 17: Puntuacion de test de inteligencia (FIQ) para las personas participantes en la iniciativa ABIDE con
trastorno del aspectro autista (Figura 13a) y para personas de control (Figura 13b). Notese que debido a los rangos
de observaciones distintos entre una grafica y otra, los limites en los ejes difieren, por lo que a la hora de comparar
ambas graficas es necesario comprobar los limites del eje de ordenadas.Elaboración propia.
6.3. Metricas derivadas del analisis de las R-fMRI

Además de los datos de las imágenes propiamente dichos, se proporcionan también datos y medidas
relacionadas con la conectividad funcional de áreas del cerebro, la cual, según varios estudios sobre el

autismo, esta ı́ntimamente relacionada con la patologı́a. Las medidas aportadas por la iniciativa son las
cuatro siguientes:
• ReHo: representa la media de la correlación de Tau de Kendall entre una serie temporal asociada
a un voxel (pixel en tres dimensiones) y sus 26 voxeles vecinos adyacentes.
• VMHC: representa la correlación entre un voxel y su simétrico en el hemisferio opuesto.
• DC: degree of centrality o grado de centralización, que mide el número de conexiones directas
entre vóxeles.
• fALFF: ratio entre las amplitudes de las fluctuaciones entre la banda de frecuencias de 0.01 a 0.1
Hertzios y la amplitud total para un escáner determinado. Esta medida ha resultado de gran interés
para el desarrollo del proyecto, por lo que se dedicara un apartado más adelante con un mayor
nivel de profundidad.
Figura 18: Figura comparativa en relacion a las 4 metricas propueestas realizadas con
los datos de las resonancias magneticas funcionales de la iniciativa ABIDE. A la iz-
quierda se encuentran los valores de conectividad medios en un volumen cerebral en
tres dimensiones, mientras que en la parte derecha del grafico se muestran las diferen-
cias entre aquellas personas con autismo y aquellas personas de control en terminos
de conectividad cerebral.

6.4. ALFF y fALFF

6.4.1. Introducción
El cerebro humano es un sistema dinámico muy complejo el cual genera una gran cantidad de ondas
oscilatorias. Para la caracterización de las diferentes oscilaciones, Buzsáki presenta una clasificación ba-
sada en diez bandas de frecuencia distintas, denominadas clases de oscilación, cuyo rango abarca desde
0,02 hasta 600 Hertzios.
El mismo Buzsaki refleja que las oscilaciones dentro de clases de oscilación especificas están ı́ntima-
mente relacionadas con procesos neuronales, ası́ como funciones cognitivas (regulación de las emocio-
nes, atención o memoria). De manera reciente, han ganado mucha importancia las que se denominan
oscilaciones de baja frecuencia (LFO por sus siglas en inglés, definidas normalmente como aquellas fre-
cuencias menores que 0,1 Hertzios), ya que a través del análisis de resonancias magnéticas funcionales
los investigadores han identificado fluctuaciones entre 0,01 y 0,1 Hertzios que se piensa son un reflejo de
la excitación cortical y la sincronización neuronal de larga distancia.
Resulta de gran interés el análisis de la amplitud de las LFO. Los pocos estudios de las LFO sobre datos
de fMRI han descubierto diferencias notables entre regiones del cerebro y entre poblaciones clı́nicas. Por
ejemplo, se ha descubierto que las amplitudes de las LFO son mayores en la materia gris cerebral que en
la materia blanca, y se ha conseguido diferenciar áreas cerebrales (visual, motora, auditiva) en función
de las amplitudes de las LFO de dichas regiones.
Más allá de la diferenciación en regiones cerebrales basadas en amplitudes de LFO, se ha mostrado en
trabajos recientes que las amplitudes de LFO difieren en personas con patologı́as de aquellas que ejercen
la labor de control. De manera más especı́fica, en el estudio del trastorno de déficit de atención e hiper-
actividad (TDAH) se han encontrado amplitudes más grandes en el córtex sensomotor, y más pequeñas
en el córtex frontal inferior.
También se han demostrado variaciones en la amplitud de las LFO en la realización de actividades. Sin
embargo, también se han encontrado indicios de que factores externos, como puede ser el porcentaje de
dióxido de carbono en sangre.
6.4.2. Definición
Surgen dos ı́ndices de la amplitud de las LFO basados en la Transformada de Fourier Rápida, siendo
el primero el ı́ndice ALFF (Amplitude of Low Frequency Fluctuations) o Amplitud de las Fluctuaciones
de Baja Frecuencia en castellano, y el segundo el ı́ndice fALFF (fractional Amplitude of Low Frequency
Fluctuations) o Amplitud fraccional de las Fluctuaciones de Baja Frecuencia.
El ı́ndice ALFF se define como la potencia total entre el rango de frecuencias de 0,01-0,1 Hertzios.
Resultando el ı́ndice ALFF útil a la hora de detectar fluctuaciones de las LFO, las fluctuaciones detectadas
pueden sobrepasar la frecuencia de los 0,1 Hertzios. En contraposición surge el ı́ndice fALFF, el cual es
definido como la potencia total en el rango de frecuencias de 0,01-0,1 Hertzios dividido entre la potencia
total en el rango de frecuencias detectable. Al ser un ı́ndice normalizado de ALFF, el ı́ndice fALFF
resulta ser una medida mucho más especı́fica de los fenómenos oscilatorios de baja frecuencia.
6.4.3. Método de obtención de los ı́ndices
Por cada escáner y participante, se realiza un análisis para identificar aquellos voxeles con una am-
plitud de LFO detectable. Como muestra la ecuación 2, primero se realiza la descomposición de la
señal mediante la transformada de Fourier rápida. Para una determinada serie temporal de imágenes que

conforman el escáner por resonancia magnética funcional, el ı́ndice ALFF se calcula como la suma de
amplitudes en un rango especifico de baja frecuencia, siendo éste casi siempre 0,01-0,1 Hertzios (ver
ecuación 3).
El ı́ndice fALFF es el ı́ndice ALFF partido por la suma de amplitudes a lo largo de todas las frecuencias
detectables en una señal dada. El proceso de obtención de ambos ı́ndices se detalla en la figura 15.
Figura 19: Figura que muestra el proceso seguido desde la recepcion de la señal de la reso-
nancia magnetica funcional hasta que se consigue el indice fALFF
Las dos magnitudes reflejan diferentes aspectos de la amplitud de las LFO: el ı́ndice ALFF expresa
la fuerza o intensidad de las LFO, mientras que el ı́ndice fALFF representa la contribución relativa de las
LFO al rango total detectable de frecuencia.
De hecho, como se muestra en la ecuación número 4, el ı́ndice fALFF puede ser considerado como un
ALFF normalizado, usando para la normalización toda la energı́a en el rango de frecuencias detectable.
N
x(t) = ∑ [ak cos(2π fkt) + bk sen(2π fkt)] (2)
k=1
s
a2k ( f ) + b2k ( f )
ALFF = ∑ (3)
k: fk ∈[0,01,0,1]
N
q
k a2 ( f )+b2k ( f )
∑k: fk ∈[0,01,0,1] N
f ALFF = q (4)
N a2k ( f )+b2k ( f )
∑k=1 N
Se procede al cálculo de los ı́ndices ALFF y fALFF para cada voxel en el cerebro. Previamente a
cualquier análisis, se realiza una estandarización de los ı́ndices (se resta la media del ı́ndice ALFF de
todos los voxeles y se divide por la desviación tı́pica). En la figura 16 se muestran los ı́ndices ALFF y
fALFF que resultan significativos (ver mapa de colores de las figuras).
Los datos del ı́ndice de cada voxel de cada escáner por resonancia magnética en reposo de cada pa-

ciente serán los que daremos a nuestra red neuronal hibrida para que pueda aprender de manera correcta
como clasificar los fMRI de las personas que participan en el estudio. Esto se explicará en detalle más
en el capı́tulo Resultados y Conclusiones.
Figura 20: Mapa estadistico en el que se muestran indices ALFF y fALFF de un escaner
fMRI.

7. Introduccion al Deep Learning

Desde el primer momento en el que los ordenadores programables fueron concebidos, las personas
se han preguntado cual es el lı́mite en términos de inteligencia y complejidad al que van a poder llegar
las maquinas. Hoy en dı́a la inteligencia oficial (IA) es un campo en constante desarrollo, con numerosas
aplicaciones prácticas y muchas áreas de investigación.
Sin embargo, las dificultades encontradas por los sistemas de inteligencia artificial sugieren que éstos
necesitan la habilidad de poder conseguir su propio conocimiento a través de la extracción de patrones
de datos. Esta habilidad se conoce como machine learning. La introducción del machine learning supuso
un cambio muy grande, ya que los computadores empezaron a poder resolver problemas del mundo real
y tomar decisiones frente a ellos.
Algoritmos simples como la regresión logı́stica pueden recomendar o no la realización de una cesárea,
separar email de spam entre otros. Estos algoritmos sufren una fuerte dependencia respecto del tipo de
representación de datos del que son provistos. Ası́, por ejemplo, en el caso de la recomendación del
procedimiento de cesárea, el algoritmo no examina directamente al paciente, sino que es dado cierta
información relevante sobre el paciente que le hará tomar una decisión u otra.
A la hora de diseñar un algoritmo o seleccionar las caracterı́sticas de los datos más influyentes, el objetivo
tı́pico suele ser identificar los factores de variación o caracterı́sticas más importantes que puedan explicar
los datos observados. Una de las grandes dificultades a la hora de afrontar problemas del mundo real
es que muchos de los factores de influencia tienen efecto sobre las muestras de datos que poseemos,
y extraer caracterı́sticas abstractas o patrones de los datos puede ser muy complicado. Muchos de los
factores de variación, como puede ser el acento de una persona en tareas de reconocimiento de voz, solo
pueden ser identificados mediante un entendimiento extremadamente sofisticado de los datos.
El deep learning soluciona este problema central ya que los patrones más complejos son expresados
automáticamente en función de otros muchos más simples, como por ejemplo una imagen de un coche
o un animal, donde el sistema de deep learning representa estos conceptos como combinación de otros
muchos más simples como pueden ser lı́neas, contornos y esquinas.
7.1. Definición e historia

El deep learning se puede definir como un enfoque a la inteligencia artificial. De manera más es-
pecı́fica, es un tipo de machine learning, una técnica que permite a los ordenadores el poder mejorar de
manera sustancial con datos y experiencia.
Es un tipo particular de machine learning que obtiene unos muy buenos resultados, en términos de fle-
xibilidad y posibilidades, gracias a que representa problemas del mundo real como una estructura jerar-
quizada de conceptos, siendo los conceptos más complejos definidos en función de aquellos más simples.
La historia del Deep Learning se remonta a los años 40, y a partir de entonces ha sido llamado de
muchas maneras. Algunos de los algoritmos del deep learning más antiguos y que a dı́a de hoy se siguen
utilizando son un intento de simulación computacional de cómo funciona el aprendizaje y las funciones
biológicas, bien sea la visión, la memoria o la simple propagación de impulsos nerviosos entre neuronas.
Como resultado de esto último surgen las redes neuronales artificiales o ANN por sus siglas en ingles.
A partir de los años 40 surgieron modelos de la función cerebral, desde la neurona de McCulloch-Pitts,
que reconocı́a dos tipos distintos de categorı́as de entrada aunque habı́a que realizar numerosos ajustes
manuales a la red neuronal, hasta el perceptrón, o primer modelo de red neuronal que podı́a aprender de
manera autónoma dada una serie de datos y ejemplos.

7 INTRODUCCION AL DEEP LEARNING
Sin embargo, estos modelos son modelos lineales, lo que conlleva una gran cantidad de limitaciones, ya
que solo pueden aproximar funciones y relaciones lineales, cuando la mayorı́a de los problemas de la
vida real son problemas no lineales.
En el año 1980 Fukushima introdujo el neocognitron, un modelo muy interesante que podı́a procesar
imágenes inspirado en la estructura del sistema visual de los mamı́feros, el cual serı́a la base para el
posterior desarrollo de la red neuronal convolucional moderna desarrollada por LeCun.Otro logro muy
importante del ya mencionado LeCun fue el éxito en el uso del algoritmo de propagación inversa en el
entrenamiento de redes neuronales.
Durante los años 90, los investigadores realizaron numerosos avances en relación al tratamiento de se-
cuencias con redes neuronales. En el añom1997, Hochreiter y Schmidhuber introdujeron las redes de
memoria de largo y corto plazo (LSTM - Long Short Term Memory), que hoy en dı́a siguen siendo usa-
das por ejemplo en traductores de textos como DeepL o por el mismo Google.
A dı́a de hoy los algoritmos de deep learning obtienen mejores resultados en numerosas aplicaciones que
cualquier otro algoritmo perteneciente al machine learning, siendo las principales áreas de investigación
la clasificación de imágenes, el tratamiento natural del lenguaje o los coches autoguiados.
7.2. Concepto básicos
Se ha presentado el deep learning como un tipo particular de machine learning, por lo que resulta
lógico que para conseguir entender bien los conceptos del deep learning primero se deben presentar los
conceptos propios de machine learning.
Un algoritmo de machine learning es un algoritmo capaz de aprender automáticamente gracias a el
análisis de datos. Se dice que un ordenador o programa informático aprende de unos determinados datos
o experiencias E, con respecto a una determinada tarea T, y un medidor de eficiencia EF de la realización
de dicha tarea, si su rendimiento al realizar la tarea T, medida por EF, mejora con la experiencia E.
7.2.1. Tareas - Clasificación vs Regresión
Haciendo referencia a la definición de machine learning aportada en el apartado anterior existen nu-
merosos tipos de tareas abordadas por el machine learning. A continuación, se presenta una descripción
breve de alguna de ellas:
• Clasificación: En este tipo de tarea el ordenador debe especificar a cuál de las x categorı́as posibles
pertenecen los datos de entrada. Para solventar esta tarea, normalmente el algoritmo de aprendizaje
produce una función del tipo y=f(x), donde la entrada o input corresponde a la x y la y corresponde
a una categorı́a identificada por un código numérico. En este tipo de tareas se engloba el presente
trabajo de fin de grado, ası́ como pueden ser la clasificación de la base de datos de dı́gitos MNIST
o la de imágenes CIFAR.
• Regresión: El programa informático debe predecir un valor numérico en vez de una categorı́a
como variable de salida. Un ejemplo claro de regresión puede ser el precio futuro de activos del
mercado de valores en función de los valores antiguos.
• Traducción: La entrada al programa informático consiste en una secuencia de sı́mbolos en algún

lenguaje, debiendo el programa convertir esta secuencia en otra de otro lenguaje. Aquı́ se pueden
englobar traductores como DeepL o Google Traductor.

• Detección de anomalı́as: En este tipo de tarea el programa informático rastrea una serie de eventos
u objetos señalando los que considera que son inusuales o atı́picos. Este tipo de tarea podrı́a ser la
detección de fraudes en la utilización de tarjetas de crédito mediante el análisis de los hábitos de
compra del dueño de la tarjeta.
• Estimación de la función de densidad de probabilidad: El algoritmo de machine learning debe

aprender una función de probabilidad p, donde p(x) puede ser interpretado como una función de
densidad de probabilidad (si x es una variable continua). Para realizar esta tarea el algoritmo debe
aprender la estructura de los datos que ha visto. Debe ser capaz de saber cuándo los ejemplos son
propensos a ocurrir o no.
Figura 21: Representación de una tarea de clasificación obtenida de Tensorflow playground, la cual emplea redes
neuronales artificiales para tareas de clasificación de datos (Figura 21a), y un empleo de regresión lineal (Figura
21b)
7.2.2. Aprendizaje supervisado, no supervisado y semisupervisado
Basándonos otra vez en la definición del apartado de conceptos básicos, la experiencia E que es
permitida durante el proceso de aprendizaje del algoritmo puede ser de distintos tipos:
• Aprendizaje supervisado: Los algoritmos que utilizan este tipo de aprendizaje utilizan datos que
contienen caracterı́sticas, pero que llevan asociadas una etiqueta. El termino proviene de que al
algoritmo se le enseña la etiqueta correcta para cada paquete de datos determinado, supervisándolo.
• Aprendizaje no supervisado:Este tipo de algoritmos analiza una serie de datos que pueden con-
tener numerosas caracterı́sticas, y debe el propio algoritmo aprender las propiedades de la serie de
datos. Un ejemplo de este tipo de aprendizaje podrı́a ser el denominado clustering, que consiste en
dividir un conjunto de datos en conjuntos de observaciones similares.
• Aprendizaje semisupervisado: Este tipo de aprendizaje ha experimentado un boom en los últimos

dos o tres años debido a la publicación en el año 2014 de un tipo muy especı́fico de arquitectura de-
nominada GAN (Generative Adversarial Network) la cual combina una pequeña porción de datos
con etiquetas asociadas (lo que serı́a aprendizaje supervisado) con una gran parte ( normalmente
mucho mayor que la parte con etiquetas) de datos sin etiquetas, cuya estructura tiene que apren-
der el algoritmo. La estructura especı́fica de las redes GAN se discutirá más adelante en mayor
profundidad.

Figura 22: En la figura 22a se aprecia un tipo especifico de clustering expuesto como ejemplo de la libreria scikit-
learn, mientras que en la figura 22b se observa un ejemplo de aprendizaje mediante el algoritmo de funcion de
densidad de probabilidad DBSCAN
7.2.3. Overfitting y Underfitting
El desafı́o central del machine learning es que el algoritmo sepa rendir bien frente a datos de entrada
nuevos, no solo con los cuales el algoritmo ha sido entrenado. La habilidad para obtener un buen rendi-
miento con datos no observados durante la etapa de entrenamiento se denomina generalización.
Tı́picamente, cuando un algoritmo propio del machine learning aprende y se entrena, éste tiene acceso
a una parte de los datos llamado set de entrenamiento, obteniendo un error de entrenamiento, siendo el
objetivo primordial reducir dicho error.
A su vez también se busca reducir el error al generalizar, también denominado error de test. Esto se
consigue normalmente dividiendo el set inicial de datos en datos de entrenamiento y datos de test, de
manera que el algoritmo solo se entrena con el primer paquete de datos, y luego se pone a prueba con el
segundo.
Los factores determinantes de lo bien que funciona un algoritmo son el ser capaz de hacer que el error
durante el entrenamiento sea pequeño, y a su vez ser capaz de hacer que la diferencia entre el error en el
entrenamiento y en el test sean pequeñas.
Estos dos factores están ı́ntimamente ligados a los dos desafı́os centrales del machine learning: overfit-
ting y underfitting. El parámetro principal del modelo que afecta a estos dos desafı́os es su capacidad
o complejidad, de manera que si el modelo es demasiado simple se tendera a alcanzar un escenario de
underfitting, donde tanto el error de entrenamiento como el de generalización o test se mantienen altos,
y si el modelo resulta ser demasiado complejo para el problema o tarea dada, se observara la situación
de overfitting, donde el error en los datos de entrenamiento seguirá disminuyendo, pero el del test ira
aumentando, lo que quiere decir que el modelo se está adaptando extremadamente bien a los datos de
entrenamiento, pero que su capacidad para generalizar a nuevas observaciones no es muy buena.
Este ha sido uno de los grandes problemas a la hora de desarrollar este proyecto, y se discutirá más
adelante en el apartado de Resultados.
7.3. Redes neuronales artificiales

Las redes neuronales propagadas hacia delante también llamadas perceptrones multicapa (MLP en
inglés) son los modelos más renombrados dentro del deep learning. El objetivo de los MLP es aproximar

Figura 23: Diferentes situaciones simples en las que se muestran underfitting (parte izquierda
de la figura), un ajuste a los datos bueno (parte central de la figura) y overfitting (parte derecha
de la figura)
una función f. Por ejemplo, en el caso de una tarea de clasificación, y = f (x) asocia un dato de entrada x
con una categorı́a y. Un MLP define una función y = f (x, θ ) y aprende los valores de θ que aproximan
de una mejor manera la función.
Las redes neuronales son la base de muchı́simas aplicaciones muy útiles, como pueden ser las redes con-
volucionales, las cuales son usadas por Facebook para la detección de rostros en fotografı́as y facilitar
el etiquetado en las mismas, o las redes neuronales recurrentes, que son las que permiten la traducción
automática entre idiomas.
Los MLP son llamados redes porque están compuestos por diversas capas con nodos conectados en-
tre ellos, lo que determina la profundidad de la red, surgiendo de aquı́ el termino deep learning. Una
estructura tı́pica de un MLP es la aportada en la siguiente figura:
Figura 24: Arquitectura tipica de una red neuronal artificial profunda.
De manera breve, la red neuronal profunda o MLP realiza predicciones mediante multiplicaciones
y sumas. Los datos (x) entran en los nodos de la capa de entrada. A continuación se va propagando la
información hacia delante de la red neuronal mediante el algoritmo de forward propagation, donde los

valores de los nodos de entrada son multiplicados por los pesos asociados a cada flecha unida entre nodos
resultando en un valor, para posteriormente sumarse todos los valores entrantes a un nodo.
A este valor se le aplicara lo que se denomina una función de activación, que modificara el valor que
habı́a a la entrada del nodo, dando otro a la salida del mismo. Se repetirá el algoritmo hasta llegar a la
última capa o capa de salida, donde mediante el mismo mecanismo de forward propagation se elaborara
la predicción de la red.
Comparando el valor predicho por la red con el valor verdadero, la red sabrá cuanto de lejos del valor
real ha estado y buscando reducir el valor de la función de perdida asociada, mediante el método del
gradiente descendente y el algoritmo de back propagation conseguirá modificar los valores de los pesos
asociados a todas las flechas de la red neuronal, lo que constituye el aprendizaje y adaptación de la red.
Los algoritmos involucrados en todo este proceso de aprendizaje serán descritos de manera más detallada
a continuación.
7.3.1. Algoritmo de propagacion hacia delante o forward propagation
Se explicara el algortimo de forward propagation mediante un ejemplo:
Figura 25: Ejemplo basico de aplicacion del algoritmo de forward propagation.
Un ejemplo tı́pico que puede ser aplicado a nuestra arquitectura de red de la figura anterior, es el de
intentar estimar la calificación obtenida por un niño en función de las horas de sueño del dı́a anterior al
examen, y de las horas que haya dedicado al estudio.
Teniendo en cuenta que los valores no son realistas, sino explicativos, se introducirán los datos de entrada
en la capa de entrada y sus respectivos nodos. Por ejemplo, se decidirá que 2 sean las horas de estudio
mientras que 3 serán las horas de sueño. A continuación, se propagará hacia delante esta información,
multiplicándose el valor de los nodos de entrada por cada número en cada flecha, comúnmente denomi-
nado peso (weight en inglés.
Por lo tanto, en el nodo superior de la capa intermedia obtendremos (2 ∗ 1) + (3 ∗ 1) = 5, y en el nodo
inferior se obtendrá (2 ∗ −1) + (3 ∗ 1) = 1. De la misma manera, la predicción final de la red neuronal se
obtendrá multiplicando los valores de la capa intermedia por los respectivos pesos para producir una pre-
dicción final de salida. En nuestro caso (5 ∗ 2) + (1 ∗ −1) = 9. El trabajo de entrenamiento, o aprendizaje

de la red neuronal consistirá en modificar el valor de sus pesos, de cara a obtener el mejor rendimiento
posible en la tarea que le asignemos.
7.3.2. Funciones de perdida
Un aspecto critico a la hora de diseñar una red neuronal es la elección de la función de coste o
perdida. En la mayorı́a de los modelos, incluyendo este trabajo de fin de grado aunque se comentaran
algunas cosas respecto a la función de coste en el apartado de lı́neas futuras, se usa el principio de máxima
verosimilitud.
Esto significa que se utiliza como función de coste o perdida la entropı́a cruzada (cross-entropy) entre
los datos de entrenamiento y las predicciones del modelo.
La forma de la función de coste será la siguiente:
J(θ ) = −Ex,y∼ p̂datos log(pmodelo (y|x)) (5)

La forma especifica de la funcion de perdida varia de modelo a modelo, dependiendo de la forma espe-
cifica de log pmodelo .
7.3.3. Funciones de activacion
Los valores de entrada a los nodos de la red neuronal pueden variar desde menos infinito a más infi-
nito. Para controlar un poco los valores que se dan en la red neuronal surgen las funciones de activación,
de manera análoga a como se activan las neuronas en el cerebro humano.
Estas funciones de activación son las que deciden si la información en forma de valor numérico a la
entrada de un determinado nodo es propagada a través de las capas intermedias y final de la red neuronal
o no.
Durante muchı́simos años las funciones más ampliamente utilizadas han sido la función sigmoide, y la
función tangente hiperbólica. Esto se debe principalmente al valor acotado que presentan estas funcio-
nes, lo que acotara a su vez los valores que existirán en la red neuronal, ası́ como la variación suave de
la pendiente. Las expresiones matemáticas de estas funciones de activación son las siguientes
ex
Sigmoide(x) = (6)
ex + 1
ex − e−x
tanh(x) = (7)
ex + e−x
De manera añadida, el cálculo de la derivada de estas funciones (la cual será necesaria para realizar
el algoritmo de propagación inversa) es fácilmente calculable.
Por último, el hecho de que las funciones de activación sean funciones no lineales permite a la red
neuronal aproximar problemas con soluciones no lineales, que son aquellos más frecuentes:
El dominio de las funciones sigmoide y tangente hiperbólica en términos de funciones de activación
fue largo, pero en el año 2000 surgió otro tipo de función que las reemplazo, y es la más usada actualmen-
te. Esta función de activación se denomina Rectifier Linear Unit o (Relu), cuya expresión matemática es
la siguiente:

Figura 26: Graficas que muestran las funciones de activacion sigmoide y tangente hiperbolica.Notese que la fun-
cion tangente hiperbolica es una funcion sigmoide escalada cuyo rango varia entre -1 y 1.Elaboración propia

0 x<0
Relu(x) = (8)
x x>0
A primera vista se puede pensar que aparecerán problemas de linealidad ya que la función es lineal en
su semieje x positivo. Sin embargo, la función Relu es una función no lineal, y combinaciones de Relus
tampoco lo son. La mayor ventaja de la función de activación Relu es la mayor velocidad de cálculo
computacional que proporciona, ya que las operaciones a realizar son muchı́simo más simples que las
que hay que hacer con una función tangente hiperbólica o sigmoide.
Figura 27: Funcion de activacion Rectified Linear Unit.Elaboración propia.
De todas formas, que la función haga cero las entradas negativas, sumado al hecho de que la parte
horizontal de la función Relu puede hacer que el gradiente, y por lo tanto el cambio en los pesos de la
red neuronal tienda a cero, se han investigado funciones de activación similares a Relu, pero con ligeras
modificaciones, surgiendo ası́ las funciones de activación PRelu y ELU. La función PRelu (Parametric

Rectifier Linear Unit) se basa en la siguiente expresión matemática:


αx x < 0
PRelu(x) = (9)
x x>0
siendo α un parámetro que la red ira modificando durante el entrenamiento, aprendiendo que valor
del mismo es mejor para el rendimiento de la red neuronal.
Por otro lado, encontramos la función ELU (Exponential Linear Unit), cuya idea principal consiste en
suavizar poco a poco la pendiente de la función en el semieje x negativo mediante el uso de una función
exponencial, lo que en teorı́a, según sus autores, reduce el tiempo de entrenamiento de la red neuronal
de manera notable, ası́ como que incrementa el rendimiento.

eαx − 1 x<0
ELU(x) = (10)
x x>0
Para concluir con el apartado dedicado a las funciones de activación, se aportan las gráficas de la
función PRelu y ELU, para proporcionar una idea visual de la forma de las funciones.
Figura 28: Grafica que muestra las diferentes formas de las variaciones de la funcion de activacion Relu, mostran-
dose en la parte izquierda de la figura la funcion Prelu, y en la derecha la funcion ELU.Elaboración propia.
7.3.4. Gradiente descendiente
En la mayorı́a de los algoritmos de deep learning está involucrado un proceso de optimización de

un modo u otro. La optimización es la tarea de o bien minimizar, o bien maximizar una función f(x)
mediante la alteración de x.
La función que queremos optimizar es llamada función objetivo, o función de pérdida o coste, que ya
definimos en un apartado anterior.
El proveniente de optimización se realiza a través de la derivada de la función. Esta derivada informa de
cómo hay que cambiar la variable x para logar una pequeña mejorı́a de rendimiento en la variable y. Por lo
tanto, podemos reducir f(x) mediante el cambio de la variable x en pequeños pasos con el signo opuesto
a la derivada. Esta técnica o mecanismo es lo que se denomina gradiente descendente. Obtendremos el
nuevo valor de x mediante la siguiente expresión:

x0 = x − ε∇x f (x) (11)

El parámetro ε se denomina ratio de aprendizaje o learning rate, y es un escalar positivo el cual
determina el tamaño del paso que da el método del gradiente descendiente.
La elección de este parámetro es muy importante porque condiciona el aprendizaje de la red neuronal.
Figura 29: Descripcion en un caso extremadamente simple del metodo del gradiente descen-
diente
En el subapartado de optimización de redes neuronales se describirán variantes del método del gra-
diente descendiente que mejorar en proceso de optimización de manera notable.
7.3.5. Algoritmo de propagación inversas o backpropagation
Durante el entrenamiento de la red neuronal, los datos de entrada x proporcionan la información

inicial que es propagada a lo largo de la red neuronal gracias al algoritmo de forward propagation para
producir una predicción final ŷ. Se generan a su vez valores de la función de coste o perdida J(θ ). El
algoritmo de propagación hacia atrás o backpropagation permite que la información dada por la función
de coste o perdida fluya hacia atrás a través de la red neuronal de cara a calcular el gradiente y optimizar
la red.
Realmente, el termino propagación hacia atrás se refiere solo al método que calcula el gradiente, mientras
que otro algoritmo, como podrı́a ser el gradiente descendente estocástico (un tipo concreto de gradiente
descendente), se encargarı́a de utilizar el gradiente para realizar el aprendizaje.
En los algoritmos de aprendizaje, el gradiente que se necesita normalmente es el de la función de coste
o perdida respecto de los parámetros de la red neuronal ∇θ J(θ ).
Tomando como referencia la figura número 26, un ejemplo muy básico de como funcionaria el al-
goritmo de propagación hacia atrás de manera que se transmita la información de la función de coste o

perdida desde el nodo z, hasta el nodo de entrada w, seria representado por las siguientes ecuaciones, que
en definitiva resulta ser la aplicación de la regla de la cadena:
∂z
(12)
∂w
∂z ∂y ∂x
= (13)
∂y ∂x ∂w
= f 0 (y) f 0 (x) f 0 (w) (14)
Figura 30: Ejmplo basico del algoritmo de propagacion hacia atras o backpropagation
Por supuesto, el algoritmo de propagación hacia atrás utilizado en la práctica mediante el uso de
librerı́as programadas resulta más complejo, y los ejemplos de redes neuronales a los que se aplica dicho
algoritmo implican decenas de miles de operaciones más que este caso.
7.4. Optimización de redes neuronales

Explicar los algoritmos de optimización de redes neuronales de manera detallada excede el alcance
del presente Trabajo de fin de grado, por lo que se describirá de manera breve el algoritmo de optimiza-
ción que mejores resultados ha dado, RMSprop.
El algoritmo RMSProp surge en el año 2012 (Hinton,2012) como una variación de un algoritmo anterior
denominado AdaGrad. Adagrad adapta el ratio de aprendizaje ajustándolo de manera inversamente pro-
porcional a la raı́z cuadrada de la suma de todos los valores históricos del gradiente elevados al cuadrado.
Esto provoca que aquellos parámetros de la red neuronal con una derivada parcial mayor sufran un de-
crecimiento más pronunciado en su ratio de aprendizaje, mientras que aquellos parámetros con derivadas
parciales más pequeñas sufrirán cambios más pequeños.
El algoritmo RMSProp modifica AdaGrad mejorando su rendimiento mediante el cambio de la acumula-
ción de gradiente por una media móvil ponderada exponencialmente. RMSProp resulta actualmente uno
de los algoritmos de optimización más extendidos en numerosas aplicaciones relacionadas con el deep
learning.

8. Redes neuronales convolucionales
Las redes neuronales convolucionales o CNNs por sus siglas en ingles son un tipo especializado de
redes neuronales recomendadas para el procesamiento de data con una topologı́a en forma de mallado o
grid. El tipo de datos más utilizado con este tipo de redes son las imágenes (mallas de x e y pixeles), aun-
que también se utilizan series temporales (datos en una dimensión con una dimensión adicional que serı́a
la dimensión temporal), datos en tres dimensiones como podrı́an ser escáneres de resonancia magnética
o videos (dos dimensiones asociadas a las imágenes más una dimensión asociada al desarrollo temporal
del video).
Figura 31: Arquitectura tipica de una red neuronal convolucional profunda
Las CNN han sido aplicadas a numerosas tareas con mucho éxito. Recientemente se ha sobrepasado
el nivel de la vista humana en términos de reconocimiento de imágenes gracias al empleo de una red
neuronal convolucional profunda.
8.1. Historia y desarrollo
Las redes neuronales convolucionales han jugado un papel muy importante en la historia y el desarro-
llo de las redes neuronales artificiales. Son un claro ejemplo de emplear el estudio biológico y fisiológico
del cerebro (las CNNs presentan similitudes con la visión humana) para el desarrollo de algoritmos arti-
ficiales dentro del área del machine learning, y más concretamente el deep learning.
Fueron además uno de los primeros modelos de redes neuronales en obtener buenos resultados y ren-
dimiento, utilizándose ya a finales del siglo pasado para el desarrollo de aplicaciones comerciales. Por
ejemplo, en el año 1990, un grupo de investigación de AT&T desarrollo una aplicación para leer facturas
que utilizaba redes neuronales convolucionales. Para finales de los años 90, aproximadamente el 10 por
ciento de las facturas de los Estados Unidos eran leı́das por este sistema.
Años después, modelos para el reconocimiento de la escritura a mano de personas fueron creados por
Microsoft. Uno de los mayores y recientes logros en la aplicación de redes neuronales convolucionales
fue en el año 2012, cuando Krizhevsky ganó el concurso de recogimiento de objetos ImageNet , donde
hay que clasificar una gran cantidad de imágenes en aproximadamente mil clases diferentes.

8 REDES NEURONALES CONVOLUCIONALES
8.2. La operación de convolución
En su forma más general, una convolución es una operación aplicada a dos funciones con números
reales como argumentos. Se define la operación de convolución mediante la siguiente expresión ma-
temática:
Z
s(t) = x(a)w(t − a)da (15)
Comunmente la operación de convolución se simboliza con un asterisco:

s(t) = (x ∗ w)(t) (16)
Empleando la terminologı́a asociada a las redes neuronales convolucionales, el primer término (en este
caso (x)) de la operación de convolución se denomina frecuentemente entrada, mientras que el segundo
argumento (en nuestro caso w) se llama kernel. A la salida o resultado de la operación o convolución se
le suele llamar mapa de caracterı́sticas o feature map en inglés.
Al trabajar con un ordenador, se dispondrá de datos discretos, por lo que lo que antes era una integral
de funciones .analógicasçontinuas, tendrá que pasar a ser un sumatorio de funciones ”discretas”tambien
continuas, de la siguiente forma:
∞
s(t) = (x ∗ w)(t) = ∑ x(a)w(t − a) (17)
a=−∞
En las aplicaciones de deep learning, la entrada es normalmente un vector de varias dimensiones

(tensor), y el kernel es frecuentemente un vector multidimensional de parámetros que son modificados
por el algoritmo de aprendizaje. Por ejemplo, si se usa como datos de entrada, una imagen I, lo más
frecuente es que se utilice un kernel de dos dimensiones, que en este caso denotaremos como K:
S(i, j) = (I ∗ K)(i, j) = ∑ ∑ I(i − m, j − n)K(m, n) (18)

m n
En la práctica, la convolución discreta puede ser considerada como una multiplicación por una matriz:
Figura 32: Operacion realizada por una capa convolucional de dos dimensiones de una red
neuronal convolucional - CNN

Teniendo como referencia la figura anterior, se observa como se mantiene fija la entrada de dos
dimensiones I (el tipo más común serı́a una imagen), mientras que el kernel K, que también es una
matriz de dos dimensiones, se mueve a lo largo de la entrada I, realizando operaciones de multiplicación
elemento a elemento y sumando el total, obteniendo el resultado de la convolución (I*K).
Como nota final, de manera general el tamaño del kernel es mucho más pequeño que el tamaño de la
imagen. Por ejemplo, en este trabajo de fin de grado se utilizan imágenes de 61x73 pixeles, mientras que
el tamaño de los kernels que aparecen en las capas convolucionales son de 3x3.
8.3. Pooling
Una red neuronal convolucional esta tı́picamente formada por tres niveles. En la primera capa de
la red, se producen las operaciones de convolución sobre los datos de entrada. En la segunda etapa,
cada caracterı́stica extraı́da mediante la operación de convolución es pasada a una función de activación,
siendo la más usada la función de activación Relu (Rectified linear activation).Esta etapa es a veces
llamada la etapa detectora.
En la última etapa se realiza lo que se conoce como función pooling, la cual reemplaza la salida o output
de la red con un resumen estadı́stico hecho por zonas de la capa anterior de la red neuronal. Resulta
mucho más fácil de entender con la siguiente figura:
En la figura se observa como la operación de pooling se aplica en zonas de 2x2 (lo que podrı́an ser 2
pixeles de ancho por dos pixeles de alto en imágenes), existiendo dos tipos de operaciones posibles:
Max-pooling: En esta operación se escoge el mayor valor dentro de todos los posibles, por lo que
la reducción de caracterı́sticas o valores es de un factor cuatro.
Average-pooling: En esta operación se escoge la media aritmética de los valores dentro de la

región a aplicar la operación, obteniéndose también un factor de reducción de datos de 4.
8.4. Utilidad y motivación de uso

Las redes neuronales convolucionales mezclan tres ideas importantes que ayudan a mejorar un algo-
ritmo de machine learning y que las convierten en un tipo de red neuronal muy útil para el desarrollo de
ciertas tareas.
8.4.1. Interacciones dispersas
En las redes neuronales tradicionales, la salida de una capa de nodos o neuronas es afectada por todas
y cada una de las entradas de una manera más o menos pronunciada, dependiendo del valor de los pesos
asociados.
En contraposición, las redes neuronales convolucionales presentan interacciones dispersas, por ejemplo
en el caso de una imagen la entrada puede tener miles o millones de pixeles, pero la red convolucional
puede detectar caracterı́sticas muy importantes de la imagen como bordes, o zonas de activación de in-
terés en entornos muy pequeños, de decenas o centenas de pixeles.
Esto tiene un doble efecto, por un lado hace que las redes neuronales convolucionales sean más eficientes
al tener que realizar menos operaciones matemáticas que en las redes neuronales convencionales, lo que
resulta en menores tiempos de entrenamiento y menores necesidades en términos de memoria. Además,
está comprobado que se aumenta la precisión y eficiencia estadı́stica en numerosas aplicaciones.

8 REDES NEURONALES CONVOLUCIONALES
Figura 33: Funcion de pooling, donde en la parte izquierda se observa un max-pooling y en

la parte derecha se observa un average-pooling
8.4.2. Reparto de parámetros
El reparto de parámetros se refiere a usar el mismo parámetro para más de una función en un modelo.
En una red neuronal convencional el valor de cada peso se usa una única vez cuando se calcula la salida
de una capa de la red. En cambio, en una red neuronal convolucional, cada valor del kernel es usado en
todos los datos de entrada, realizando un ”barrido”.
8.4.3. Representaciones equivariantes
Por último, una de las caracterı́sticas más distintivas de las redes neuronales convoluciones es la
equivarianza traslacional. Esto significa que si se efectúa una operación de traslación sobre la entrada,
por ejemplo trasladar un objeto dentro de la imagen, su representación creada por la red convolucional
sufrirá también la traslación.
Esto no es aplicable sin embargo a otras transformaciones, como pueden ser el aumento, la reducción o
la rotación. Esto se discutirá más adelante en detalle en la sección de Resultados cuando se expliquen las
técnicas de aumento de datos de imágenes adoptadas.

Figura 34: En la figura de la izquierda se observan las conexiones entre nodos despues de una capa convlucional
reflejandose las interacciones dispersas, mientras que en la figura de la derecha se muestran las conexiones de una
red neuronal convencional.
9. Redes neuronales recurrentes : LSTM y GRU
9.1. Introducción
Las redes neuronales recurrentes o RNNs (Recurrent Neural Networks), son un tipo de redes neuro-
nales cuya principal tarea es la de tratar con datos en forma de serie o secuencia. Este tipo de redes son
las usadas por traductores como DeepL o Google Translator, además del asistente de voz de IPhone Siri.
Ası́ como en el capı́tulo anterior se explicó que las redes neuronales convolucionales son un tipo de red
neuronal especialmente indicadas para imágenes, las redes neuronales recurrentes se especializan en tra-
tar con cadenas o secuencias de valores.
Como caracterı́stica importante de las redes neuronales recurrentes destaca la posibilidad de procesar
secuencias o cadenas de valores de longitud variable. La idea que subyace en las redes neuronales re-
currentes es que información o caracterı́sticas extraı́das por la red neuronal en un instante de tiempo t
afectan a los instantes t + 1,2,3...
La estructura de una red neuronal recurrente es la siguiente:
Figura 35: Estructura en forma de grafica de nodos de una red neuronal recurrente simple
9.2. Redes recurrentes bidireccionales
Las redes neuronales recurrentes previamente mostradas consideran una relación causal, en el senti-
do de que un instante de tiempo t solo se ve afectado por los eventos acontecidos en el pasado.
Sin embargo, en numerosas aplicaciones se desea que la predicción de la red depende de la secuencia
de entrada completa. El ejemplo más claro puede ser en aplicaciones de reconocimiento de habla, donde
la interpretación correcta de un sonido con su correspondiente fonema puede depender de los sonidos
siguientes al mismo. Si se tienen dos interpretaciones de una palabra que pueden ser posibles y lógicas, a
lo mejor es necesario mirar las palabras siguientes en una búsqueda de contexto, que nos permita decidir
cuál es la palabra correcta en ese caso concreto.
Como un remedio a la necesidad expuesta anteriormente surgen las redes neuronales recurrentes bidirec-
cionales, en las que se combina una red de tipo RNN que se mueve hacia delante en el tiempo, y otra red
también de tipo RNN que se mueve hacia atrás en el tiempo.

9 REDES NEURONALES RECURRENTES : LSTM Y GRU
Figura 36: Estructura tipo de una red neuronal recurrente bidireccional
9.3. Cálculo del gradiente en una RNN
El cálculo del gradiente y la propagación hacia atrás para conseguir la actualización de los pesos de
una red neuronal recurrente se realiza de manera parecida a la descrita en el apartado propio del algoritmo
de backpropagation del capı́tulo 4.
Lo único que se debe es ser muy cuidadoso, ya que no se transmite el gradiente para el cambio de pesos
solo a través de la dimensión de profundidad de la red neuronal, sino también a través de la dimensión
temporal propia de la red neuronal recurrente.
Esta idea se observa de manera mucho más clara gracias a la siguiente imagen:
Figura 37: Esquema del algoritmo de backpropagation a traves del tiempol
Este tipo especı́fico de algoritmo de propagación hacia atrás es también conocido como propagación
hacia atrás a través del tiempo o bptt (back propagation through time.
9.4. Problemas asociados a las dependencias temporales a largo plazo
Uno de los mayores problemas que experimentan las redes neuronales reside en la propagación del
gradiente. Los gradientes propagados a través de varios niveles o pasos temporales tienden a desaparecer
con el tiempo, en lo que se conoce en inglés como el vanishing gradient problem.
De manera mucho menos frecuente, el gradiente de una red neuronal recurrente puede explotar a lo largo

de su propagación, lo que supone una enorme dificultad para el algoritmo de optimización encargado del
entrenamiento de la red neuronal.
Además, aunque supongamos que los parámetros se mantienen estables y que el gradiente de la red
neuronal recurrente no explota, aun ası́ surge un problema con las dependencias temporales entre pasos
o niveles muy alejados, ya que estas interacciones tienen unos pesos asociados mucho menores que
aquellas con pasos temporales o niveles más cercanos.
Surgen como respuesta a este problema de la desaparición del efecto de las interacciones a largo plazo
las redes neuronales recurrentes LSTM y GRU, que se describen en los siguientes subapartados. La idea
detrás de este tipo de redes neuronales es que se crean caminos a través del tiempo cuyas derivadas o
gradientes no desaparecen ni explotan, lo que soluciona el problema expuesto anteriormente.
9.5. LSTM - Long Short Term Memory

LSTM (Long Short Term Memory) es un tipo de red recurrente presentada en el año 1997 por Ho-
chreiter y Schmidhuber diseñada para solucionar los problemas relacionados con el gradiente y su pro-
pagación descritos en el apartado anterior. Presentan un gran rendimiento en numerosas tareas.
Las redes LSTM poseen también una estructura de cadena o secuencia al igual que las RNN, pero lo que
ocurre en cada paso temporal es mucho más complejo.
Figura 38: Esquema interno de una celula LSTM
La lı́nea marcada en la figura podrı́a entenderse como una cinta transportadora (señalada en azul en
la figura), con ciertas interacciones a lo largo de la célula LSTM. La célula LSTM posee la habilidad de
bien añadir o quitar información, la cual esta cuidadosamente regulada mediante estructuras denominadas
puertas.
Estas puertas son un camino para dejar pasar de manera opcional la información. Una LSTM posee tres
de estas puertas:
• La puerta de olvidar o forget gate (señalada en rojo en la figura), que decide que información debe
desechar la célula.
• La puerta de entrada o input gate en inglés, señalada en verde en la figura, que es la que decide
que valores se deben actualizar.
• Por último, la célula producirá un valor de salida u output.

9 REDES NEURONALES RECURRENTES : LSTM Y GRU
9.6. GRU - Gated Recurrent Unit

Las GRU o Gated Recurrent Unit son un tipo de arquitectura reciente de red recurrente que se plantea
que partes de la red LSTM son realmente necesarias. La principal diferencia con las LSTM es que en
las GRU una única puerta es la encargada de controlar la información que se olvida, y decidir que
información actualizar.
Este tipo de arquitectura, aun siendo en el fondo más simple que la arquitectura LSTM, ha resultado ser
más efectiva que la LSTM en el presente Trabajo de Fin de Grado.

10. Conceptos adicionales

Se presentan dentro de este capı́tulo tres conceptos adicionales que han sido de enorme utilidad
en su aplicación al desarrollo del modelo final de la red neuronal hı́brida. Son conceptos relativamente
innovadores cuyo principal objetivo es conseguir reducir el sobreajuste u overfitting, además de aumentar
la precisión de la red y disminuir los tiempos de entrenamiento de la misma.
10.1. Dropout
Las redes neuronales profundas son herramientas muy poderosas que pueden aprender relaciones
muy complejas entre unas entradas y salidas dadas. Sin embargo, en numerosas ocasiones, debido a la
escasez de datos de entrenamiento entre otros factores, los modelos propios del deep learning tienden a
sufrir la situación de sobreajuste u overfitting.
Surge ası́ el concepto del dropout, cuyo principio de actuación es el de aleatoriamente obviar nodos y sus
respectivas conexiones de la red neuronal durante la fase de entrenamiento de la misma.
Figura 39: Dos ejemplos de arquitectura de red neuronal sin aplicar dropout (izquierda) y aplicando dropout
(derecha)
Esto previene que la red se adapte demasiado a los ejemplos provistos durante el entrenamiento,
favoreciendo la disminución del overfitting. A su vez provoca que durante el entrenamiento se entrenen
muchı́simos pequeños modelos formados por los nodos y conexiones que no hayan sido obviados en la
fase pertinente del entrenamiento, por lo que a la hora de realizar predicciones en los datos de test el
dropout se puede aproximar como un ensemble de muchı́simos pequeños modelos de redes neuronales.
Figura 40: Diferencia en los pesos de la red neuronal en la fase de entrenamiento (izquierda) y test (dere-
cha).
Como se puede observar de manera clara en la figura anterior, los pesos de la red cuando ésta se

10 CONCEPTOS ADICIONALES
encuentra en la fase de test se multiplicarán por la probabilidad de que estén presentes los nodos y
conexiones asociados a dichos pesos.
10.2. Regularización L2
La regularización es otra técnica desarrollada para prevenir la aparición del sobreajuste. Normalmen-
te, cuando las redes neuronales experimentan overfitting tienden a tener unos valores de sus pesos muy
altos. La técnica de regularización intenta combatir el overfitting aplicando una penalización a los pesos
altos de una red, mediante la inclusión de un termino con el valor del peso al cuadrado en la función de
coste o perdida a optimizar.
En un intento de minimizar la función de coste, se tendera a hacer menores los valores de los pesos para,
de la misma manera, reducir el error. El termino añadido al error en una regularización L2 será de la
forma siguiente:
λ
reg = ∗ w2 (19)
2 ∑ i
donde λ será un parámetro a determinar, el cual llamaremos termino de regularización, y wi será el valor
de cada uno de los pesos de la red.
10.3. Normalización del Batch

El entrenamiento de las redes neuronales es complicado ya que la distribución de las entradas y sa-
lidas de cada capa cambia a lo largo de la red neuronal. Este hecho resulta en un velocidad menor en
el entrenamiento de la red, necesitando unos ratios de aprendizaje bajos, ası́ como un gran cuidado a la
hora de inicializar los parámetros de la red.
Surge ası́ la normalización del Batch, o Batch Normalization, método que normaliza los datos perte-
necientes a cada minipaquete durante la fase de entrenamiento, restando cada dato por la media de su
minipaquete, y dividiendo por la desviación tı́pica.
Aplicando esta técnica, los tiempos de entrenamiento se reducen considerablemente, además de aumentar
la precisión de la red neuronal.

11. El entorno de trabajo

De cara a afrontar el Trabajo de Fin de Grado una vez se conocen los conceptos teóricos mostrados
anteriormente resulta de vital importancia la elección de con que herramientas se llevara a cabo la labor
de programación.
Una correcta o errónea elección puede suponer más de un quebradero de cabeza, por lo que se presenta un
estudio de los diferentes lenguajes de programación más extendidos, y cual puede resultar más idóneo
para el desarrollo de experimentos relacionados con el Deep Learning, y una vez seleccionado, que
librerı́as servirán de apoyo para conseguir un mejor desempeño en la tarea. A su vez se presenta la
importancia de la utilización de una unidad de procesamiento grafico (GPU en inglés) y las caracterı́sticas
de la utilizada en la realización del proyecto.
11.1. Elección del lenguaje de programación

11.1.1. Introducción de los diferentes lenguajes de programación
En primer lugar, se van a presentar las opciones que se barajan, siendo estos los lenguajes de progra-
mación más extendidos a nivel de uso:
• Python: Python se define a sı́ mismo como un lenguaje de programación muy potente y fácil de
aprender. Es un lenguaje open-source y dispone de multitud de librerı́as para una gran variedad
de tareas. Su sintaxis sencilla y elegante, unido al simple pero efectivo enfoque que tiene hacia la
programación orientada a objetos lo hace un candidato ideal para el desarrollo rápido y efectivo de
aplicaciones en multitud de áreas.
• R: R es un lenguaje diseñado para la realización de estadı́stica computacional y graficas estadı́sti-

cas. Fue desarrollado en los Bell Laboratories por John Chambers. Una de las mayores ventajas
de R reside en la facilidad de manipulación y gestión de los datos, ası́ como la creación de gráficos
de muy alta calidad con muy pocas lı́neas de código.
• C++: C++ es un lenguaje de programación desarrollado a mediados de los años 80 por Bjarne
Stroustrup. Surge como una extensión al lenguaje de programación C, añadiendo a éste el concepto
de programación orientada a objetos.
• Java: Java se presenta como un lenguaje de programación genérico y orientado a objetos. Su

principal objetivo es que el código una vez ya compilado pueda ejecutarse en cualquiera de las
plataformas soportadas por Java sin necesidad de una recopilación.
11.1.2. Análisis y conclusiones
Analizando una encuesta sobre el uso de lenguajes de programación aplicados al Deep Learning
realizada a más de 2000 personas dedicadas al mundo de la gestión y manipulación de datos por la página
web towardsdatascience, se observa que la mayorı́a (57 por ciento) utiliza el lenguaje de programación
Python. Esto se debe en gran parte a la gran evolución que han experimentado las librerı́as de Deep
Learning asociadas a Python en los últimos años, destacando el lanzamiento de la librerı́a Tensorflow
R se sitúa como cuarto en la cuesta, aunque numerosos expertos lo utilizan como un lenguaje de segunda
opción para tareas muy especı́ficas. C++ aparece como segundo en la lista, mientras que Java se queda
en la tercera posición.

11 EL ENTORNO DE TRABAJO
Otros lenguajes de programación como pueden ser Octave, Ruby o MATLAB utilizados ampliamente en
multitud de tareas computacionales no suman entre ellos ni un 15 por ciento de utilización en la encuesta.
Los datos recogidos por la encuesta también muestran que el factor decisivo a la hora de escoger lenguaje
de aplicación es el área de aplicación en el que vamos a usarlo. Java se prioriza en el desarrollo de
seguridad de redes y detección de fraude, mientras que Python es el claro vencedor en cuanto tiene que
ver con machine learning. C++ es ampliamente usado para la creación de inteligencia artificial en juegos,
ası́ como para la locomoción de robots. Por ultimo R es priorizado en áreas como la bioingenierı́a y la
bioinformática.
Se opta por realizar el proyecto en Python, debido a su gran versatilidad, el gran soporte que tiene
en términos de librerı́as de deep learning, ası́ como actividad de sus usuarios en Internet, sumado a la
facilidad y elegancia de la sintaxis del lenguaje.
El único punto en el que Python no ha resultado adecuado ha sido en el análisis estadı́stico de los datos
de la iniciativa ABIDE (capitulo 3), ya que aunque Python posee librerı́as que pueden manejar grandes
cantidades de datos (pandas) o realizar gráficos estadı́sticos de calidad (matplotlib, seaborn), R hace
que todo sea mucho más fácil, intuitivo, y los resultados, a mi entender, son mejores. Por lo tanto se
ha utilizado Python para el preprocesamiento de los datos de las imágenes de las fMRI, el diseño de la
arquitectura de la red neuronal hibrida, ası́ como su entrenamiento y posterior prueba, y R para el análisis
estadı́stico de los fenotipos de las personas de la iniciativa ABIDE.
11.2. Capacidad computacional
Diferentes tareas a la hora de crear un modelo de redes neuronales pueden requerir de una gran capa-
cidad computacional. Entre ellas figuran el almacenamiento y preprocesamiento de los datos a utilizar,
el entrenamiento de la red neuronal, o el almacenamiento de la misma. Estos procesos suponen la utili-
zación de una gran cantidad de recursos, a nivel de hardware, software y tiempo, por lo que la mayorı́a
de las veces es necesario más que la CPU del ordenador para poder llevar a cabo los modelos de Deep
Learning.
11.2.1. Importancia de la utilización de una GPU
De las tareas mencionadas anteriormente, la que es por mucho más intensiva a nivel computacional
es el entrenamiento de la red neuronal. Las unidades centrales de procesamiento (CPU) realizan una
operación detrás de otra, aunque serı́a deseable que se pudieran realizar varias operaciones a la vez.
Surge ası́ la utilización de la GPU (unidad de procesamiento gráfico) como alternativa a la CPU para
realizar el entrenamiento de las redes neuronales.
Como muestra de la importancia del uso de GPU se presenta un ejemplo comparativo de hace unos
años entre Google y la universidad de Stanford, donde Google utilizaba CPUs para el entrenamiento de
sus modelos de redes neuronales. Contaba con aproximadamente 1000 CPUs, lo que equivalı́a a 16000
núcleos, con un coste de 5 billones americanos de dólares, mientras que Stanford opto por usar unidades
de procesamiento grafico (GPUs) para el entrenamiento de sus redes neuronales. En concreto, contaban
con 3 GPUs con un total de 18000 núcleos que conseguı́an el mismo tiempo de entrenamiento que
Google, pero con un coste de 33000 dólares.

11.2.2. Historia de las GPUs
Las unidades de procesamiento grafico fueron creadas para conseguir un mejor y más general proce-
samiento gráfico, descubriéndose posteriormente que funcionaban muy bien con la computación cientı́fi-
ca. Esto se debe a que la mayorı́a de los procesos gráficos implican la utilización de matrices enormes y
la realización de operaciones entre ellas.
El uso de las GPUs para computación cientı́fica comenzó a principios de los años 2000, destacando por
ejemplo la implementación de la factorización LU en el año 2005. Sin embargo, en esa época los usuarios
de GPU necesitaban tener unos conocimientos avanzados de procesamiento gráfico, lo cual complicaba
el uso extendido de las unidades de procesamiento gráfico.
En el año 2006, una compañı́a llamada NVIDIA presento un lenguaje de alto nivel ( con una sintaxis y
unos conocimientos necesarios mucho mas fáciles) que sirve para escribir programas con unidades de
procesamiento gráfico.
11.2.3. GPU vs CPU
Las principales diferencias entre una GPU y una CPU son que la primera posee cientos de núcleos
muy simples y miles de hilos de computación al mismo tiempo, mientras que la CPU posee unos pocos
pero complejos núcleos, y un funcionamiento optimizado para un único hilo de trabajo.
A nivel experimental propio, el realizar el entrenamiento del modelo entero en una GPU hace que el
entrenamiento de la red neuronal sea aproximadamente unas 10 veces más rápido que en una CPU, lo
que supone una gran diferencia en términos de tiempo.
Como opción adicional, han surgido servidores en la nube que permiten entrenar los modelos de deep
learning a una velocidad muy alta, pero su coste a largo plazo y cuando hay que realizar un gran número
de simulación es muy alto.
Figura 41: Comparacion de la eficiencia de GPU y CPU en diferentes campos cientificos y computaciona-
les.

11.2.4. NVIDIA y CuDNN
Fundada en el año 1993, NVIDIA se posiciona hoy en dı́a como pionera en el cambio constante
que se está dando en el mundo cientı́fico y computacional. Las unidades de procesamiento grafico siguen
evolucionando a un ritmo vertiginoso, prediciéndose que en el año 2025 serán capaces de funcionar 1000
veces más rápido que las CPU para tareas computacionales cientı́ficas.
Surge también ası́ la librerı́a CuDNN escrita en el lenguaje de programación propio de las GPU de NVI-
DIA, CUDA. Es una librerı́a muy eficiente que permite comunicación directa con la GPU. La mayorı́a
de entornos de trabajo de deep learning permiten integración con la librerı́a CuDNN.
Por último se presentan las especificaciones y la unidad de procesamiento grafico utilizada para la reali-
zación del proyecto, la tarjeta gráfica NVIDIA GEFORCE GTX 960.
Figura 42: Especificaciones de la unidad de procesamiento grafico GPU utilizada en el desarrollo del proyecto,
asi cmo una imagen externa de la misma (NVIDIA GEFORCE GTX 960)
11.3. Elección del framework de deep learning
A medida que se ha ido incrementando la popularidad del deep learning, una multitud de entornos
de trabajo han aparecido en un intento de hacer posible una implementación y desarrollo eficientes de
redes neuronales complejas. Surge ası́ la pregunta de qué entorno de trabajo es el más propicio para el
proyecto.
11.3.1. Introducción de los distintos frameworks
A continuación se presenta una descripción breve de los entornos de trabajo más extendidos a dı́a de
hoy para el desarrollo de modelos de deep learning:
• Caffe: Herramienta de desarrollo de modelos de deep learning desarrollada por el Centro de Visión
y Aprendizaje de Berkeley escrita en C++ con caracterı́sticas como la velocidad o la modularidad
en mente, que usa CUDA para la computación en GPU.
• TensorFlow: Entorno de trabajo de deep learning desarrollado por Google basado en C++, pe-
ro con interfaces de programación de aplicaciones (API) en Python. Tensorflow utiliza gráficos
de flujos de datos formados por nodos y flechas, donde los nodos representan operaciones ma-
temáticas y las flechas representan vectores de datos multidimensionales o tensores. Posee una

arquitectura flexible la cual permite realizar las operaciones bien en CPU o GPU, en ordenadores
fijos o terminales móviles.
• Theano: Theano es una librerı́a para Python la cual implementa numerosas funciones y rutinas en
C y CUDA lo que le permite alcanzar unos tiempos de entrenamiento de redes neuronales muy
buenos.
• Torch: Entorno de trabajo escrito en un lenguaje de programación llamado Lua. Resulta especial-
mente eficiente a la hora de realizar operaciones convolucionales, además de proveer soporte para
el uso de varias unidades de procesamiento grafico a la vez.
• Neon: Herramienta para Python desarrollada por Nervana. Como punto en contra, ha sido lanzada
hace menos tiempo que el resto, por lo que su comunidad de usuarios es más pequeña, estando aun
la librerı́a en un proceso de maduración y desarrollo.
11.3.2. Comparativa
Se muestra el siguiente análisis comparativo en forma de tabla entre los distintos entornos de tra-
bajo de deep learning. Se valora muy positivamente que sea un entorno compatible con Python, que
tenga una amplia comunidad de usuarios, y capacidades de arquitecturas CNN (convolucionales) y
RNN(recurrentes) ası́ como la velocidad conseguida por cada uno de ellos.
Se descarta de esta manera Neon, por ser un entorno de trabajo reciente y aun poco desarrollado, ası́
como Caffe al ser un entorno de trabajo destinado al lenguaje de programación C++ y Torch, ya que
aunque incorpora interfaz con Python, es relativamente nueva y trabaja mucho mejor en Lua.
De los dos entornos de trabajo restantes, analizando su funcionamiento en el entrenamiento de redes
convolucionales según este estudio, observamos que Theano es bastante más rápido que Tensorflow. Sin
embargo, el hecho de que Theano ha dejado de ser desarrollado y se ha estancado en su versión 1.0,
mientras que Tensorflow está siendo constantemente desarrollado por Google, hace inclinarse la balanza
hacia Tensorflow.
Figura 43: Comparacion de las caracteristicas de los diferentes entornos de trabajo disponibles de deep learning,
asi como su rendimiento en las operaciones de forward propagation y gradiente.

11.3.3. Conclusion
Como conclusión, se utilizará para el análisis estadı́stico de los fenotipos de los pacientes R junto
a la librerı́a de visualización ggplot2, mientras que, para el preprocesamiento de datos, desarrollo de la
red neuronal hibrida y entrenamiento se utilizará Python con Tensorflow programado en la unidad de
procesamiento grafico (GPU).
11.4. Librerı́as adicionales

De manera breve, como librerı́as adicionales que han sido de gran importancia en el desarrollo del
presente trabajo de fin de grado se presentan las siguientes:
• Nibabel y Nilearn: Librerı́as para Python que permiten la manipulación de formatos de tipo NIFTI
(.nii o .nii.gz) que es el formato más ampliamente usado en términos de imágenes médicas.
• numpy: Librerı́a básica de Python que permite operar con vectores y tensores de manera muy
eficiente para operaciones relacionadas con el preprocesamiento de imágenes.
• scikit-learn: Librerı́a focalizada en el área del machine-learning, la cual ha sido muy útil para
desarrollar modelos simples básicos y realizar las particiones de datos deseadas en entrenamiento
y test.
• mayavi: Librerı́a de visualización en 3 dimensiones para la visualización del volumen de resonan-

cia magnética funcional de diferentes pacientes.
• keras: Librerı́a situada encima de Tensorflow que permite experimentar con distintas arquitecturas
de redes neuronales de manera sencilla y rápida.

12. Modelo propuesto y resultados

12.1. Introducción
Una vez presentados todos los conceptos teóricos que se usan en el intento de elaborar un algoritmo
clasificador de personas con autismo y controles mediante el análisis de sus resonancias magnéticas
funcionales cerebrales, se van a presentar los resultados obtenidos, ası́ como la metodologı́a que se ha
adoptado.
12.1.1. Estocasticidad de las redes neuronales
Como nota introductoria cabe destacar que múltiples factores hacen que la red a veces tenga un
comportamiento un poco estocástico. Por ejemplo, a la hora de inicializar los pesos se utiliza un algoritmo
llamado glorot uniforme, propuesto por Xavier Glorot, de la Universidad Politécnica de Montreal, el cual
asigna a los pesos valores diferentes en cada simulación distinta, lo que constituye una de las causas de
que varı́an los resultados de clasificación de la red.
Además, los datos de entrenamiento no son presentados siempre en el mismo orden a la red, sino que
se mezclan, lo que provoca que ciertas redes alcancen mejores resultados que otras, y sobre todo más
rápido.
12.2. Trabajos previos y justificación

Se han presentado varios estudios sobre la iniciativa ABIDE y la clasificación del autismo. De ma-
nera reciente, ha sido publicado un estudio por parte de un grupo de investigación de Rio Grande, en
Brasil. Utilizan datos de las regiones de interés más importantes del cerebro, ası́ como información de
los fenotipos asociados a los pacientes para realizar la clasificación. Obtienen una puntuación media de
casi un 70 % de precisión en sus clasificaciones, con una puntuación máxima de un 71 % en la clasifica-
ción, realizando un cross-validation con 10 paquetes.
Por otro lado, dos cientı́ficos de Livermore (California), han desarrollado unas redes neuronales convo-
lucionales que analizan las matrices de correlación entre diferentes regiones del cerebro para la clasifi-
cación de los pacientes.
De manera innovadora, el presente trabajo de fin de grado introduce el uso de los ı́ndices ALFF y fALFF
en vez de las resonancias magnéticas funcionales sin tratar. Sin embargo, no se añade ningún tipo de
fenotipo a la red para ayudarla en la tarea de clasificación, lo que seguramente aumentarı́a la precision.
Un caso muy claro por ejemplo seria la diferenciación entre resonancias magnéticas cerebrales de mu-
jeres u hombres, o adultos y niños. Conociendo la red neuronal este tipo de información ,además de las
resonancias magnéticas, podrı́a elaborar predicciones más ajustadas y, en definitiva, mejores.
A su vez, solo se han encontrado referencias al uso de redes neuronales convolucionales o recurrentes a
este tipo de problemática, pero siempre por separado, siendo este trabajo de fin de grado el primer estudio
que combina las dos en el estudio del autismo, y más concretamente de la base de datos de la iniciativa
ABIDE.
Los ı́ndices ALFF y fALFF ya eliminan la dimensión temporal al realizar la media de todas las obser-
vaciones temporales, reduciendo la dimensión total de los datos de 5 dimensiones a 4 dimensiones (5D
: sujetos, coordenadas x, coordenadas y, coordenadas z, tiempo t ; 4D: sujetos, coordenadas x, coorde-
nadas y, coordenadas z).Lo natural seria utilizar redes neuronales convolucionales en tres dimensiones
que analizaran todo el volumen cerebral compuesto por los ı́ndices fALFF, siendo la cantidad de datos

12 MODELO PROPUESTO Y RESULTADOS
de entrenamiento correspondiente con una fracción de los sujetos de estudio. Sin embargo este tipo de
redes en tres dimensiones ya han sido previamente usadas, y además necesitan muchı́simos recursos
computacionales, tanto a la hora de realizar las operaciones matematico-logicas propias de la red, como
las necesarias de memoria en el propio equipo y sistema.
En trabajos de este tipo se disponen de superordenadores con una velocidad de computación muy alta y
unas prestaciones de memoria desorbitadas pudiendo llegar a 60 GB de memoria solo en la combinación
de tarjetas gráficas, lo que en el equipo utilizado en el desarrollo de este trabajo no es ası́ (solo 2 GB de
memoria en la unidad grafica de procesamiento).
La idea por lo tanto ha sido la de tratar la secuencia de cortes de la resonancia magnética funcional
a lo largo del eje z como una secuencia de video, de cara a que la red neuronal la trate como un todo, y la
ausencia de alguna caracterı́stica, o valores dados de fluctuaciones puedan servir para clasificar correcta-
mente la secuencia en perteneciente a una persona con autismo o a un control.
En la siguiente figura se muestran ocho cortes en el eje z de la resonancia magnética funcional de un
paciente del estudio (cortes 15,20,25,30,35,40,45 y 50 de izquierda a derecha y de arriba a abajo). Cada
escáner tiene dimensiones de 61 de ancho por 73 de largo por 61 de alto, lo que hacen un total de 271633
vóxeles que reflejan las fluctuaciones medidas por los ı́ndices fALFF y ALFF por paciente.
Figura 45: Visualizacion de ocho diferentes cortes ascendentes de la resonancia magnetica funcional de un mismo
paciente a lo largo del eje z de coordenadas.Elaboración propia.
12.3. Preprocesamiento de los datos

Se han utilizado datos de 1008 pacientes en total, 490 pacientes con autismo y 518 pacientes de
control. Esto ha sido debido a que algunos datos han presentado problemas bien en su descarga o en su
procesamiento, por lo que para alterar lo menos posible el resto de las muestras se ha decidido excluir
los datos problemáticos.
Al haber sido procesados y filtrados los datos, además de haber sido calculados ya los ı́ndices por la
iniciativa ABIDE no se han hecho cambios muy grandes en la forma de los datos, solo los siguientes:
• Se ha especificado la forma de los datos de las resonancias magnéticas funcionales a que sean

números en coma flotante con precisión de 32 decimales (numpy. float32).
• Siempre se recomienda normalizar todos los datos restando cada dato por la media y dividiendo por
su desviación tı́pica, ya que normalmente aumenta el rendimiento de la red neuronal y facilita los
cálculos. Sin embargo, en este caso en particular, esta normalización suponı́a una clara desventaja
ya que los resultados eran bastante peores.
Se probo, de manera accidental con dividir todos los datos por un valor constante de 255, que es el
que se suele usar en tratamiento de imágenes para limitar las intensidades de los pixeles entre 0 y
1, obteniendo mucho mejores resultados que con la normalización estándar y sin normalización.
Sin embargo, al contrario que las intensidades de pixeles de imágenes, los valores de los ı́ndices
ALFF no varı́an entre 0 y 255, por lo que no se entiende exactamente la mejorı́a de resultados
aplicando este valor.
• Se han formado las cadenas o secuencias temporales que necesita la red neuronal, donde los datos
son de 4 dimensiones: número sujetos, coordenadas x, coordenadas y, y coordenadas z en lo que
la red considera como la dimensión temporal.
• A su vez, ha sido necesario cambiar las etiquetas propias de la iniciativa ABIDE, donde en el
campo de diagnóstico un 1 significa paciente con autismo y un 2 paciente de control. La red
necesita un formato conocido como one hot encoding, que consiste en una secuencia de ceros y un
uno señalando la categorı́a a la que pertenece la etiqueta. Por lo tanto, los pacientes con autismo
tendrán una etiqueta formada por el vector [1 0] mientras que los pacientes de control tendrán la
etiqueta [0 1].
12.3.1. Generación adicional de datos
De manera adicional a los datos de los que se dispone, se ha probado a aumentar los datos de entre-
namiento de la red neuronal mediante técnicas de aumento de datos. Estas técnicas son la traslación, la
rotación y la combinación de ambas. A continuación, se muestran los efectos de dichas transformaciones
sobre la imagen original.
Figura 46: Visualizacion de las diferentes trasnformaciones de imagen para la generacion de un mayor numero
datos (traslacion, rotacion, traslacion y rotacion).Elaboración propia.
Para realizar la traslación de la imagen debemos multiplicar los datos asociados a la imagen por la
matriz de traslación cuya forma será la siguiente:
" #
1 0 tx
Mtraslacion = (20)
0 1 ty
Los parametros tx y ty son los desplazamientos en el eje x y en el eje y respectivamente. Valores positivos
de tx produciran desplazamientos a la derecha y valores positivos de ty produciran desplazamientos hacia

abajo, provocando valores negativos el efecto contrario.

De manera similar, para realizar la operacion de rotacion habra que multiplicar los datos matriciales de
la imagen por la siguiente matriz de transformacion:
" #
cosθ −sinθ
Mrotacion = (21)
sinθ cosθ
Para conseguir la transformación de rotación y traslación a la vez, basta con multiplicar los datos
de la imagen primero por una de las matrices y después por la otra. Aunque son abundantes los casos
de aplicaciones de deep learning en los que se utilizan este tipo de técnicas para conseguir una mayor
precisión, en nuestro caso concreto no es ası́. Esto se puede deber a que la red no está formada solo
por capas convolucionales, sino que tiene también una capa recurrente o de células de memoria, la cual
puede ser la causante de la inefectividad de este tipo de técnicas.
12.4. Tensorboard
Tensorboard es una plataforma desarrollada por Google, vinculada a la librerı́a de deep learning
Tensorflow, la cual se utiliza de manera frecuente en este proyecto. Proporciona herramientas de visua-
lización de numerosos gráficos y parámetros. A continuación, se exponen brevemente los gráficos que
más se utilizaran para exponer los resultados obtenidos.
12.4.1. Interpretación de gráficos escalares
Este tipo de gráficos muestran la evolución de cuatro magnitudes de vital importancia para el desa-
rrollo de la red, los cuales son el valor de la función de coste o perdida utilizada en el entrenamiento de
la red neuronal aplicada a los datos y predicciones de entrenamiento, la función de coste aplicada a los
datos de test, la precisión en las predicciones de los datos de entrenamiento y la precisión en los datos de
test.
Cada simulación y entrenamiento que lleve a cabo el ordenador quedara registrada en forma de grafica en
Tensorboard. De manera adicional se pueden representar más magnitudes, pero conlleva una dificultad
asociada de programación relativamente alta. Lo que se ha conseguido es poder programar de manera
manual los valores de los diferentes ensembles o asociaciones de varios modelos a la vez, y ser capaz de
representarlo en la gráfica.
Se adjuntan a continuación dos graficas de cara a mostrar lo que significa cada magnitud que aparece
en las gráficas. La primera grafica corresponde a una comparativa de la función de coste para los datos
de entrenamiento para cinco simulaciones diferentes, mientras que la segunda refleja la precisión en los
datos de test de las mismas cinco simulaciones.
El eje de abscisas de las figuras representa la época asociada al valor de la gráfica, entendiéndose
como época una ronda completa de entrenamiento, y el eje y representa el valor de la función de coste
en la primera gráfica y la precisión en la segunda.
Por ultimo cabe destacar que, para poder distinguir mejor las tendencias de entrenamiento, la plataforma
Tensorboard permite aplicar un valor de suavizado, el cual hace que las gráficas no tengan tanta forma
de pico y se pueda observar mejor la evolución del entrenamiento de la red neuronal.

Figura 47: Comparacion de la funcion de coste en los datos de entrenamientoElaboración propia.
Figura 48: Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración propia.
12.4.2. Interpretación de gráficos de distribución
Apoyándonos en las siguientes dos figuras se va a proceder a la explicación de los diagramas de

distribución. Los diagramas de distribución sirven para tener una idea de cómo y de qué manera varia la
distribución de los valores de los pesos y las bias (constantes añadidas a los pesos) de las capas de la red
neuronal (en este caso, estos pesos y bias se corresponden a una capa convolucional de dos dimensiones).
De fuera hacia adentro, las lı́neas más exteriores que se ven más transparentes indican el valor máxi-
mo y mı́nimo del diagrama (eje y) para una época del entrenamiento dada (eje x). Si se avanza más hacia
adentro del diagrama las siguientes lı́neas por arriba y por abajo marcan el 93 % de los pesos totales.
Avanzando un poco más, las siguientes lı́neas marcan el 84 %, y las siguientes el 69 %.
Por último, la lı́nea más central corresponde a la mediana. Este diagrama se puede entender como un tipo
especial de box-plot para cada época dentro del entrenamiento, por lo que da información bastante útil
de en qué rangos se mueven los pesos y bias de las diferentes capas de una red neuronal y como varı́an.
12.4.3. Interpretación de histogramas
De manera similar a los diagramas de distribución presentados anteriormente, Tensorboard permite

analizar la distribución de los pesos de las capas de una red neuronal a través de otro tipo de diagramas
llamados histogramas.

Figura 49: Representacion en diagramas de distribucion de diferentes medidas estadisticas de los pesos de una
capa convolucional de una red neuronal.Elaboración propia
En ellos se observan un gráfico en tres dimensiones, siendo su eje frontal o eje x el valor de los pesos,
el eje y o lateral el número de época de entrenamiento, y el eje z o la altura la frecuencia de repetición
de los valores del eje x, la distribución de los pesos como tal. Este grafico permite observar de manera
clara como se modifican los valores de los pesos y las bias según va avanzando el entrenamiento de la
red neuronal.
Figura 50: Representacion en diagramas de tipo histograma de diferentes medidas estadisticas de los pesos de una
capa convolucional de una red neuronal.Elaboración propia.
subsection Arquitectura elegida Se presenta a continuación la arquitectura elegida de la red neuronal

para el desarrollo final del clasificador. Esta elección está basada mayoritariamente en la combinación
de simulaciones y pruebas realizadas en el ordenador con diferentes arquitecturas. Sin embargo, es im-
posible poder probar todas las combinaciones de parámetros y arquitecturas, por lo que varias de las
elecciones en términos de arquitectura y parámetros se han realizado basándose en trabajos de investiga-
ción de otras personas, y en casos muy contados en la intuición propia.
Se ha decidido subdividir la red en tres bloques distintos para facilitar la explicación (Ver Figura Anexo
I):

Primer bloque: El primer bloque es un bloque convolucional tı́pico formado por dos capas con-
volucionales de 32 filtros cada una (número no especialmente grande ya que disponemos de pocas
muestras de datos, solo 1000 sujetos). Posteriormente se aplica una capa que realiza una operación
de max-pooling con un entorno de actuación de 2x2.
Por último se aplica una capa de Batch Normalization, la cual estandariza los datos que le llegan,
lo que teóricamente resulta en una mejora tanto en la velocidad de entrenamiento de la red como en
su precisión de clasificación. De manera experimental aplicado a este caso concreto se ha compro-
bado que la velocidad de entrenamiento aumenta considerablemente, y la precisión ligeramente.
Segundo bloque:El segundo bloque es muy parecido al primero, con dos capas convolucionales,
sin embargo se duplica el número de filtros a 64, el cual sigue siendo un número pequeño. Poste-
riormente se aplica una capa de max-pooling y para finalizar una capa de Batch Normalization.
Tercer bloque: Este tercer bloque está formado por una capa de memoria GRU (Gated Recurrent
Unit), con 64 unidades, la cual es la encargada de analizar la secuencia temporal provista por los
bloques convolucionales anteriores.
Las caracterı́sticas obtenidas por la capa de memoria pasan después por dos capas convencionales
o completamente conectadas que elaboran la predicción final. Esta predicción es pasada a una
capa final con dos unidades, con una función de activación especial denominada softmax, la cual
se encarga de transformar la salida de la red neuronal en probabilidades (todos los valores suman
uno).
El funcionamiento de la red no es exactamente a través de los tres bloques de manera seguida, sino
que pasan todas las imágenes que componen la secuencia de video, y a todas las imágenes se les aplican
las dos operaciones de los dos bloques convolucionales.
Las caracterı́sticas y datos resultado de estas operaciones son los que se meten todos juntos y ya en
forma de secuencia en el bloque de memoria, para que la capa recurrente de tipo GRU, y las dos capas
convencionales o completamente conectadas siguientes traten la secuencia como un todo, y sean capaces
de detectar anomalı́as en la secuencia que permita diferenciar con una mayor precisión las resonancias
magnética funcionales.
La arquitectura descrita en este apartado será la utilizada en el proyecto, y en el apartado siguiente se
realizaran numerosas simulaciones y análisis para decidir los parámetros óptimos de la red neuronal.
12.5. Resultados y análisis

A continuación se presentan los resultados y simulaciones de la red neuronal utilizada en el proyecto,
mostrando los gráficos de la evolución según la elección de parámetros, justificando su elección, de cara
a presentar un modelo final cuya finalidad sea obtener la mayor precisión de clasificación posible.
El principal problema que se ha tenido a lo largo del proyecto ha sido el sobreajuste u overfitting, en el
que la red neuronal, a partir de un determinado número de épocas en el entrenamiento deja de aprender
caracterı́sticas útiles para clasificar los ejemplos del test, y en cambio empieza a memorizar las imágenes
del entrenamiento, aprendiéndoselas de memoria.
Las técnicas que se utilizan para regular esto son el dropout, la regularización (en nuestro caso de tipo
L2) y el bacth normalization. Además, que el modelo experimente sobreajuste puede ser también porque
hay muy pocos datos de entrenamiento, o porque el modelo es demasiado complejo para la cantidad de
datos existente. Reduciendo la complejidad se seguı́a observando sobreajuste, si bien se producı́a mucho
más tarde en la fase de entrenamiento.

Como última medida, en algunos casos se ha aplicado una técnica que se denomina Early Stopping, y
que consiste en parar el entrenamiento en el momento que se empieza a producir sobreajuste.
Como nota final remarcar que, aunque minimizar la función de perdida es importante y es lo que permite
que la red neuronal aprenda y mejore, lo que se pretende es alcanzar la precisión máxima posible en los
datos de test, por lo tanto, se priorizara una mayor precisión en datos de test frente a una función de coste
menor.
Para todos los análisis se ha realizado una partición de datos de siete octavos para datos de entrenamiento
(880 sujetos) y un octavo para test (128 sujetos), seleccionado la misma semilla (123) siempre para una
comparación justa de los resultados.
12.5.1. Primer análisis
Para un primer análisis, se ha pensado que resulta de vital importancia la selección de los fotogramas,
imágenes o cortes cerebrales que compondrán la secuencia que analizara la red neuronal.
Se ha visualizado todos los cortes de la resonancia de un paciente, y se ha visto que los cinco o seis
primeros y últimos cortes no contienen información cerebral, sino que son fotogramas en blanco, por
lo que se ha decidido no utilizarlos en el entrenamiento de la red, ya que no proporcionan información
alguna a ésta.
Cada escáner se compone de 61 cortes, y restándole los primeros y últimos cortes mencionados ante-
riormente, quedan aproximadamente 50 cortes. Para que a la red le sea más sencillo se piensa que las
imágenes de las secuencias deberán estar un poco espaciadas entre ellas, para que haya cambios per-
cibirles entre fotograma y fotograma. La solución que se adopta es dividir los 50 fotogramas en cinco
secuencias equiespaciadas de 10 fotogramas cada uno.
Se simulan 100 épocas de entrenamiento para cada una, y se proyectan en la misma grafica para facilitar
la comparación. La simulación uno es de color naranja y tiene los fotogramas 8-13-18-23-28-33-38-
43-48-53, la simulación dos es azul oscuro y tiene los fotogramas 9-14-19-24-29-34-39-44-49-54 y ası́
sucesivamente con las otras tres simulaciones, siendo la tercera de color marrón, la cuarta de color azul
claro, y la quinta de color morado.
Lo primero que se observa es la gráfica de la evolución de la precisión en las predicciones para los da-
tos de entrenamiento donde se observan tres fases relativamente diferenciadas, las cuales se mantendrán
para las gráficas de las otras métricas estadı́sticas estudiadas. Las diferencias entre fases se observan con
cambios en la curvatura de las gráficas, ası́ como cambios bruscos en las pendientes.
En la primera fase la red se encuentra en un estado de inicialización, donde la precisión no crece
de manera demasiado rápida, y a la red le cuesta extraer caracterı́sticas de los datos de cara a elaborar
precisiones más precisas. La primera fase dura aproximadamente desde el principio del entrenamiento
hasta la época número 15.
En la siguiente fase la red va aprendiendo a mejor ritmo a clasificar las distintas resonancias magnéticas
cerebrales funcionales de los pacientes, observándose un aumento de pendiente, pudiendo situar esta fase
entre las épocas 15 y 30 aproximadamente.
De la época 30 en adelante se observa que la gráfica vuelve a experimentar un cambio de curvatura, y
la red estarı́a empezando a experimentar un sobreajuste u overfitting, donde se ve que la precisión de
entrenamiento aumenta hasta alcanzar un 100 % de precisión, ya que la red se aprende de memoria los
datos de entrenamiento. Ésto no es necesariamente malo, ya que, aunque se produzca sobreajuste, se
observa que la precisión en los datos de test también aumenta, aunque ligeramente.

Figura 51: Comparacion de la precision en los datos de entrenamiento entre simulaciones diferentes.Elaboración propia.
De manera parecida, al observar la función de coste o perdida asociada a los datos de entrenamiento,
se ven también las mismas tres fases descritas anteriormente, y que muestran la inicialización de la red,
el proceso de aprendizaje inicial, y el sobreajuste de esta, asociados también a los cambios de curvatura
de la gráfica.
Figura 52: Comparacion de la funcion de coste en los datos de entrenamiento.Elaboración propia.
En cuanto a la precisión de la red en las predicciones sobre los datos de test, se ve que existe una
cierta variación entre las simulaciones, debida en parte a la componente estocástica que presenta la
inicialización de la red neuronal, ası́ como que en cada simulación no se están cogiendo los mismos
datos.
Cabe destacar el buen rendimiento de todas las simulaciones, situándose algunas en un 68 %, que es
una puntuación muy cercana a la mejor obtenida hasta la fecha, y de lejos mucho mejor que cualquier
puntuación obtenida por cualquier modelo sin utilización de técnicas de asociación de modelos, como
bagging o bootstrapping.
Por último se muestra la función de perdida de los datos de test, donde se ve que a partir de la época de
entrenamiento numero 30 va aumentando hasta alcanzar valores bastante altos. Esto no necesariamente
supone que la red este haciéndolo peor, sino que significa que las predicciones de la red son cada vez

más categóricas, penalizando de mayor manera la función de coste o perdida las predicciones erróneas.
12.5.2. Variacion numero unidades capa GRU
El principal fenómeno que ha surgido en la gran mayorı́a de simulaciones, y que se ha querido

combatir a toda costa, es el denominado sobreajuste u overfitting. Para ello los primeros cambios respecto
a las primeras simulaciones que se proponen es la variación de la complejidad de la red, mediante de
disminución del número de parámetros de esta.
Se probo la disminución del número de filtros de las redes convolucionales, ası́ como una disminución
del número de parámetros total de la red convolucional. En el caso de la disminución de parámetros, se
obtuvo el caso contrario al sobreajuste, el underfitting, donde el modelo no era capaz de extraer ninguna
caracterı́stica de los datos.
La lı́nea de color verde tiene 16 nodos en la capa GRU o recurrente, la gris 32, la morada 64 y la
naranja 128. Al observar las gráficas de la función de coste o perdida, se ve que en el caso de 128 nodos
la función de perdida en los datos de test aumenta de manera mucho más rápida, sin provocar una mejorı́a
en la precisión, por lo que se descarta este número de nodos.
En el resto de graficas los resultados son relativamente parecidos, por lo que se decide utilizar 64 nodos
en la capa de memoria, de cara a que la red mantenga la mayor capacidad posible.

(a) Figura 55a - Entrenamiento (b) Figura 55b - Test
Figura 55: Comparaciones de las funciones de coste o perdida al variar el numero de nodos de la capa de memoria
de la red neuronal.Elaboración propia.
Figura 56: Comparacion de la precision al variar el numero de nodos de la capa de memoria de la red neuro-
nal.Elaboración propia.
12.5.3. Análisis del término de regularización
El termino de regularización, como es habitual en muchas otras aplicaciones del Deep Learning, se
ha aplicado a las capas convolucionales de la red, y ha sido de tipo L2, el cual ya se explicó en un capı́tulo
previo.
Los distintos valores iniciales de las funciones de coste se explican precisamente por la adición del
término regularizador desde un principio. La lı́nea fucsia no tiene regularización, la azul marino presenta
una regularización de 0,05; la verde de 0,1; la gris de 0,2 y la naranja de 3.
Como se puede apreciar, cuanto mayor es el termino de regularización más se retrasa la aparición del
fenómeno del sobreajuste. Sin embargo, también se observa que la gráfica de la función de coste para
los datos del test de los términos de regularización con valor 0,1; 0,2 y 0,3 presentan evoluciones muy
similares.
Además, la simulación con mejor resultado en términos de precisión en los datos del test es aquella que
tiene un término de regularización igual a 0,1; por lo que se decide emplear este valor en el modelo
final de red neuronal. Queda claro que un término de regularización, por pequeño que sea, es necesario
y mejora de manera clara los resultados.

Figura 57: Comparacion de la funcion de coste al variar el valor del termino de regularizacion.Elaboración propia.
Figura 58: Comparacion de la precision al variar el termino de regularizacion.Elaboración propia.
12.5.4. Funciones de activacion
A continuación, se procede a comparar tres funciones de activación distintas, para ver si suponen un
cambio en la respuesta de la red neuronal. Se prueba con la función de activación Relu, PRelu y ELU.
La grafica de color marrón es la que tiene la función de activación Relu, siendo la gráfica verde oscuro y
azul clarito las correspondientes a la función de activación PRelu y ELU respectivamente.
Figura 59: Comparacion de la funcion de coste al variar la funcion de activacion.Elaboración propia.
A la vista de los gráficos los resultados son extremadamente parecidos, por lo que el factor que ha
hecho decantarse por la función de activación Relu, es el tiempo de entrenamiento de la red, el cual, al
contrario que lo establecido por algún estudio sobre deep learning, ha sido considerablemente menor que

con las otras dos funciones de activación.

Esto puede deberse en parte a que la función de activación Relu es más simple que las otras dos, en el
sentido de que todo aquel valor negativo entrante a la función de activación se convierte en cero, siendo
éste un cálculo relativamente simple a nivel computacional.
Por otro lado, la función de activación PRelu debe a su vez entrenar y probar la pendiente de la parte
negativa de la gráfica, y ajustarla a los datos, lo que significa un mayor costo computacional, que, en este
caso, no se ve traducido en resultados.
Figura 60: Comparacion de la precision al variar la funcion de activacion.Elaboración propia.
12.5.5. Variacion del dropout
En un intento más de conseguir paliar el sobreajuste de la red sin obtener un perjuicio en la precisión
de esta, se presentan dos simulaciones con valores de dropout muy diferentes. La primera es la gráfica
de color marrón, la cual tiene una probabilidad de dropout de las capas convolucionales de 0.25, y de la
última capa completamente conectada de 0,5.
La grafica de color verde oscuro presenta un dropout mucho más agresivo, habiendo una probabilidad de
dropout en las capas convolucionales de 0.45, y de 0.7 en la capa completamente conectada.
Figura 61: Comparacion de la funcion de perdida o coste al variar el dropout.Elaboración propia.
Se observa de manera clara que un dropout más agresivo causa un retraso en el overfitting y una
generalización mejor a los datos de test por por parte del modelo. Además, no se obtiene una penalización
en la precisión en los datos de test (ver figura 52, página siguiente), por lo que se decide utilizar estos
valores de dropout más agresivo en el modelo final de la red neuronal profunda.

Figura 62: Comparacion de la precision al variar el dropout.Elaboración propia.
12.5.6. Target replication
El concepto de target replication surge de comparar las predicciones de todos y cada uno de los
intervalos temporales con la etiqueta final, no solo el último paso temporal de la serie.
En otros estudios, este método ha demostrado provocar una disminución del sobreajuste, ası́ como un
incremento de la precisión de las redes de varios puntos porcentuales.
Sin embargo, bien por la dificultad de programación asociada, o a que se utiliza un tipo de red neuronal
distinta al que comúnmente se utiliza esta técnica, los resultados no han sido especialmente buenos, por
lo que se ha decidido no utilizar target replication en el modelo final.
12.5.7. Bidireccionalidad
El concepto de bidireccionalidad aplicado a redes neuronales recurrentes implica que la predicción

de la red no se verá afectada solo por eventos pasados, sino que también se verá afectada por eventos
futuros.Este concepto se sometió a prueba con la utilización de redes de tipo GRU bidireccionales, o
B-GRU, obteniéndose peores resultados que con redes neuronales recurrentes unidireccionales.
Desde un punto de vista fı́sico, este resultado tan pobre puede tener sentido, ya que la serie de cortes
cerebrales se asemeja a una serie de fotogramas que conforman un video, siendo indiferente para la red
si se recorren de atrás hacia adelante, o de adelante hacia atrás.
(a) Figura 63a - Test - Funcion de coste (b) Figura 63b - Test - Precision
Figura 63: Comparacion entre una arquitectura unidireccional y bidireccional.Elaboración propia.
La grafica de color marrón es la simulación con una arquitectura unidireccional, mientras que la
gráfica azul clarito es una arquitectura bidireccional. Los resultados tanto entre la función de coste para

los datos de entrenamiento, como la precisión en los mismos son extremadamente parecidos en ambas
simulaciones.
12.5.8. Ensemble y modelos definitivos
Como modelo definitivo se junta todo lo explicado y razonado anteriormente: el número de nodos en
la capa recurrente, el termino de regularización o la arquitectura definitiva de la red entre otros.
Además, se ha probado a añadir los datos de las tres simulaciones que obtenı́an un mejor rendimiento
sobre las demás, obteniendo una serie de 30 cortes cerebrales en vez de 10. Esto aumenta la precisión
de manera considerable, además de reducir la función de coste en los datos de test. La grafica de color
marrón es la correspondiente a la que tiene 30 cortes, mientras que la fucsia tiene solo 10.
(a) Figura 64a - Entrenamiento - Funcion de coste (b) Figura 64b - Test - Funcion de coste
Figura 64: Comparacion de la funcion de coste entre un modelo con 10 y 30 cortes cerebrales.Elaboración propia.
Con este modelo se consigue alcanzar una precisión máxima de un 71,1 %, que es una precisión de
clasificación en los datos de test muy alta para este tipo de datos. El añadir todos los cortes resulta en un
peor rendimiento.
(a) Figura 65a - Entrenamiento - Precision (b) Figura 65b - Test - Precision
Figura 65: Comparacion de la precision entre un modelo con 10 cortes cerebrales y otro con 30.Elaboración
propia.Elaboración propia.
Como último modelo, se propone un ensemble de simulaciones, en el que se escoge el valor máximo
elemento por elemento de las predicciones de las redes neuronales, de manera que se premia que una red
este muy segura de que el sujeto pertenece a una clase o a otra.
Con este método no se consiguen grandes mejoras en términos de precisión, pero se consigue reducir
drásticamente la varianza de las simulaciones, obteniendo un modelo final mucho más robusto que los
modelos individuales.

12.5.9. Validación k-fold
Por último, para finalizar la exposición de los resultados del Trabajo de Fin de Grado se ha optado
por realizar un cross-validation de nuestro modelo de red neuronal final, de cara a que todos y cada uno
de los sujetos formen en algún momento parte del entrenamiento o del test.
Esta prueba es la que se suele realizar en estudios parecidos, y sirve para conseguir una comparación lo
más justa posible de la precisión entre estudios.
Figura 66: Principio y mecanismo del cross-validation.Elaboración propia.
Debido a la estructura de los datos, se ha decidido hacer un cross-validation con seis subpaquetes,
obteniendose los siguientes resultados en las diferentes particiones:
Cuadro 1: Tabla comparativa con las diferentes precisiones en los datos de test para cada paquete de datos
NUM 1 2 3 4 5 6
PRECISION 64,90 % 66,10 % 69,10 % 61,30 % 67,30 % 65,50 %
Comparando los resultados con los obtenidos por otros estudios cientı́ficos, se observa que los resul-
tados del presente Trabajo de Fin de Grado son bastante buenos, siendo mejores que cualquier resultado
obtenido por cualquier modelo de deep learning simple (sin ensemble) aplicado a la base de datos ABI-
DE, y ligeramente menor que los resultados obtenidos por combinación de modelos (ensemble).
Sin embargo, la comparación no es del todo justa, ya que el presente estudio se ha realizado sobre 1008
pacientes de la iniciativa ABIDE , mientras que otros estudios se han realizado sobre solo 850 pacientes,
cuyas resonancias magnéticas cerebrales funcionales han pasado unos protocolos y exámenes de calidad.
Además, en muchos experimentos y simulaciones de otros estudios, solo se utilizan datos de varones, o
de varones diestros, lo que reduce drásticamente la variedad de datos dentro del conjunto de datos, lo que
facilita enormemente el trabajo de clasificación de una red neuronal.
De manera añadida se adjunta un anexo (Anexo II) con la evolución de los pesos y las bias de una
simulación completa del modelo final de red neuronal hı́brida para sus cuatro capas convolucionales (dos
en cada bloque convolucional)

13. Conclusiones
Las conclusiones que se pueden extraer tras completar este Trabajo de Fin de Grado son varias.
En primer lugar, se ha mostrado la utilidad de aplicación de ı́ndices y medidas asociadas a las resonan-
cias magnéticas funcionales de los pacientes, en vez de las resonancias magnéticas sin ningún tipo de
procesamiento. Ésto ha provocado que se consigan unos mejores resultados, además de reducir drástica-
mente los tiempos de entrenamiento y desarrollo de los modelos de redes neuronales, al dividir por cien
aproximadamente el número de datos totales, al eliminar una dimensión de los datos.
En segundo lugar, se ha mostrado la eficacia y buen rendimiento de las herramientas englobadas en

el deep learning para la resolución de problemas complejos, siendo las aplicaciones posibles para el
deep learning inimaginables.
Por último, se introduce el uso de redes neuronales hı́bridas al campo del análisis de imagen médico,
al combinar redes neuronales convolucionales con redes neuronales recurrentes. Ha sido expuesto, y
constatado por los resultados obtenidos, que la combinación de ambos tipos de redes implican una clara
mejorı́a en términos de precisión en la clasificación, lo que abre un enorme abanico de posibilidades.

14. Lı́neas futuras

Al ser el presente estudio una combinación de dos campos en constante investigación y estudio
como son el análisis de imágenes médicas y el deep learning, surgen numerosas vı́as de desarrollo y
continuación del proyecto. A continuación, se describen aquellas que se consideran de mayor interés:
• Una de las grandes ventajas del deep learning es que por regla general obtiene mejores resultados
cuantos más datos de entrenamiento tenga. En este sentido se podrı́an incorporar los datos de los
pacientes pertenecientes a la iniciativa ABIDE II (aproximadamente 1200 pacientes más), lo que
se presupone incrementarı́a la precisión de la red.
Ésto no se ha realizado en el presente proyecto ya que estos datos requerı́an de numerosos pasos
de procesamiento bastante complejo.
• Se podrı́a realizar un bootstrapping de redes neuronales como ya se ha propuesto en otros escritos

de investigación, donde se entrenan un gran número de redes neuronales con fracciones reducidas
de los datos de entrenamiento, para posteriormente realizar un ensemble de modelos.
Esta técnica aplicada a redes convolucionales supone una mejorı́a en la precisión del orden del
5 %, si bien todavı́a no ha sido probada en redes neuronales hibridas.
• Por último, y lo que puede parecer más interesante, serı́a la generación artificial de datos mediante
el empleo de redes GAN (Generative Adversarial Networks). Este tipo de redes consisten en dos
redes neuronales, una de la cual generar nuevos datos o imitaciones a partir de datos dados, y
otra cuya tarea es juzgar y dar un feedback de lo buenas que son las imitaciones mencionadas
anteriormente.
Esto genera un proceso de aprendizaje conjunto, consiguiéndose al final un modelo de red neuronal
complejo que permite aumentar de manera artificial la cantidad de datos disponible.

15. Planificación temporal y presupuesto

15.1. Estructura de descomposición del proyecto
En el siguiente apartado se incluye la Estructura de Descomposición del Proyecto (EDP) mediante
la cual se han fragmentado todas las actividades relacionadas con el proyecto. Estas actividades pueden
solaparse en el tiempo y se organizan de manera jerárquica de tal modo que hay actividades principales
y otras consecuencia de la división de las primeras.
El primer nivel de la EDP de este proyecto se compone de las siguientes actividades:
• Trabajo de estudio: esta actividad está relacionada con el estudio de herramientas de programación
y repaso de conceptos estadı́sticos. Ha sido necesario el aprendizaje de lenguajes como Python
y R, y de librerı́as especı́ficas asociadas a los lenguajes de programación anteriores como Keras,
Tensorflow o ggplot2. De la misma forma, ha sido necesaria la lectura de numerosos papers y
estudios cientı́ficos y del libro The Deep Learning Book de lan GoodFellow, el cual ha sido de gran
ayuda para comprender todos los conceptos propios del Deep Learning utilizados en el proyecto.
• Desarrollo del proyecto: esta actividad incluye la preparación de los datos de partida, creación
de un programa para facilitar la obtención de los datos iniciales (Python), la generación de los
algoritmos de programación en R para manipular la base de datos de los fenotipos y Python para la
manipulación de las resonancias magnéticas y la combinación de estas con los fenotipos. También
el análisis de los resultados obtenidos, mediante gráficas con Tensorboard, comparación de los
resultados para determinar los mejores parámetros y arquitectura. Por último, la elaboración de la
memoria y del presupuesto.
• Presentación oral: en esta actividad se encuentran englobadas las actividades de elaboración de la

presentación y la defensa del TFG.
De manera adicional, se presenta en forma de gráfico la parte relacionada con el desarrollo del proyecto,
que ha sido la que más recursos, sobre todo a nivel temporal, ha consumido.

15 PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

15.2. Diagrama de Gantt

Para la realización del Diagrama de Gantt, se han considerado las actividades reflejadas anterior-
mente en la Estructura de Descomposición del Proyecto (EDP) . El Diagrama de Gantt asocia a estas
actividades una duración temporal y unas relaciones de precedencia entre ellas (unas deben anteceder a
otras). La relación de las actividades consideradas, con sus fechas de inicio y fin, su duración temporal y
las relaciones de precedencia existentes entre cada actividad se muestran en la siguiente tabla:



15.3. Presupuesto
En este punto de la memoria pretende exponerse cuál es el coste total asociado al proyecto.
Los principales costes asociados al proyecto son los correspondientes al tiempo empleado por el
alumno y por el tutor. Este coste se calcula partiendo del salario medio de alumno y tutores multiplicados
por el número de horas dedicadas por cada uno a este Trabajo de Fin de Grado. Entonces, se consideran
los costes de las licencias de los programas utilizados:
• La utilización de Python y R es gratuita ya que éstos son softwares abiertos al uso público u
opensource.
• Acceso a DataCamp: necesario para el aprendizaje de Python.
• Microsoft Office, necesario para la realización de la memoria del TFG, de la presentación del
mismo y de los informes intermedios de seguimiento para los tutores, tiene un coste de 149 euros.
• Amortización del ordenador personal utilizado para el desarrollo de este Trabajo Fin de Grado, se
ha considerado un precio del mismo de 800 euros, que se amortiza en 4 años y que se ha utilizado
unas 830 horas.

• Energı́a eléctrica consumida durante la realización de este trabajo. Para ello, se parte de la esti-
mación inicial de que el ordenador personal utilizado consume 70 W de potencia y del número de
horas de utilización del mismo señaladas en el párrafo anterior.
• Finalmente, se obtiene el coste total sin IVA como suma de todos los costes considerados. El
coste total con IVA se calcula sumando al valor anterior un 21 % extra que se asocia al IVA. En
conclusión, el presupuesto total asociado al proyecto resulta ser de 8.156,81 euros.

Referencias
[1] Autism Speaks About Autism, Diagnosis, Causes and Symptoms. [En lı́nea]
https://www.autismspeaks.org/sites/default/files/docs/about autism 0.pdf
[2] Radiological Society of North America (RSNA) The History of MR Imaging as Seen through the
Pages of Radiology . [En lı́nea] http://pubs.rsna.org/doi/full/10.1148/radiol.14140706
[3] Radiological Society of North America (RSNA) Fundamental Physics of MR Imaging [En lı́nea]
http://pubs.rsna.org/doi/full/10.1148/rg.254055027
[4] Radiopaedia An introduction to MRI [En lı́nea] https://radiopaedia.org/articles/mri-introduction
[5] Gore JC. Principles and practice of functional MRI of the human brain. Journal of Clinical Investi-
gation. 2003;112(1):4-9. doi:10.1172/JCI200319010.
[6] European Comission Functional Magnetic Resonance Imaging [En lı́nea]

http://ec.europa.eu/research/participants/data/ref/h2020/other/hi/ethics-guide-fmri en.pdf
[7] Di Martino A, Yan C-G, Li Q, et al. The Autism Brain Imaging Data Exchange: Towards Large-Scale
Evaluation of the Intrinsic Brain Architecture in Autism. Molecular psychiatry. 2014;19(6):659-667.
doi:10.1038/mp.2013.78.
[8] Zuo XN, Di Martino A, Kelly C, Shehzad ZE, Gee DG, Klein DF, et al. The oscillating brain:
complex and reliable. Neuroimage. 2010;49(2):1432–1445.
[9] Ian Goodfellow and Yoshua Bengio and Aaron Courville The Deep Learning Textbook. MIT Press.
[En lı́nea] http://www.deeplearningbook.org/
[10] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp Fast and Accurate Deep Network
Learning by Exponential Linear Units (ELUs). eprint arXiv:1511.07289
[11] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian Delving Deep into Rectifiers: Surpassing
Human-Level Performance on ImageNet Classification. eprint arXiv:1502.01852
[12] Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua Empirical Evaluation of
Gated Recurrent Neural Networks on Sequence Modeling eprint arXiv:1412.3555
[13] Sepp Hochreiter and Jürgen Schmidhuber.1997. Long Short-Term Memory. Neural Comput. 9, 8
(November 1997), 1735-1780. DOI=http://dx.doi.org/10.1162/neco.1997.9.8.1735
[14] Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and
Ruslan Salakhutdinov Dropout: A Simple Way to Prevent Neural Networks from Over-
fitting Journal of Machine Learning Research, 2014, Volume 15, pages 1929-1958,
http://jmlr.org/papers/v15/srivastava14a.html
[15] Ioffe, Sergey; Szegedy, Christian Batch Normalization: Accelerating Deep Network Training by
Reducing Internal Covariate Shift eprint arXiv:1502.03167
[16] Bahrampour, Soheil; Ramakrishnan, Naveen; Schott, Lukas; Shah, Mohak Comparative Study of
Deep Learning Software Frameworks eprint arXiv:1511.06435

REFERENCIAS
[17] Vicky Kalogeiton, Stéphane Lathuilière, Pauline Luc, Tho-

mas Lucas, Konstantin Shmelkov Deep Learning Frameworks [En
lı́nea]https://project.inria.fr/deeplearning/files/2016/05/DLFrameworks.pdf
[18] NVIDIA [En lı́nea]http://www.nvidia.es/page/home.html
[19] Mart´ın Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S.
Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew
Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath
Kudlur, Josh Levenberg, Dan Mane, Rajat Monga, Sherry Moore, Derek Murray, ´ Chris Olah, Mi-
ke Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent
Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, ´ Pete Warden, Martin Wattenberg,
Martin Wicke, Yuan Yu, and Xiaoqiang Zheng
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems
[20] Heinsfeld AS, Franco AR, Craddock RC, Buchweitz A, Meneguzzi F. Identification of autism spec-
trum disorder using deep learning and the ABIDE dataset. NeuroImage: Clinical. 2018;17:16-23.
doi:10.1016/j.nicl.2017.08.017.
[21] Anirudh, Rushil; Thiagarajan, Jayaraman J. Bootstrapping Graph Convolutional Neural Networks
for Autism Spectrum Disorder Classification eprint arXiv:1704.07487
[22] Dvornek NC, Ventola P, Pelphrey KA, Duncan JS. Identifying Autism from Resting-State fMRI
Using Long Short-Term Memory Networks. Machine learning in medical imaging MLMI (Works-
hop). 2017;10541:362-370. doi:10.1007/978-3-319-67389-9 42.

Índice de figuras
1. Distribución por pacientes con autismo y control(izquierda) y sexo(derecha). Elabora-

ción propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Arquitectura hı́brida de red neuronal elegida para el desarrollo del proyecto. Elaboración
propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Secuencia de diferentes cortes cerebrales de un paciente de la iniciativa ABIDE en el
sentido ascendente del eje z de coordenadas.Elaboración propia. . . . . . . . . . . . . . 10
4. Evolucion de las graficas del modelo final de la red neuronal hı́brida.Elaboración propia . 11
5. Ejemplo de una imagen por resonancia magnética del cerebro, separadas en un conjunto
de imagenes en dos dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6. Campos magneticos en el caso de electrones en cables simples y un solenoide . . . . . . 28
7. Relajacion longitudinal (T1) tras la aplicacion de un pulso de radiofrecuencia de 90º . . . 30
8. Tabla en la que se recogen los distintos efectos que influyen en el desfase de los protones.
Se define T2* como T2 sin aplicacion de pulso de 180º(spin echo) . . . . . . . . . . . . 31
9. Diagrama de secuencias de pulso donde se recoge la informacion temporal de los eventos
mas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10. Diagrama de secuencia de pulso de Multi eco spin (Figura 6a) y Turbo eco spin (Figura 6b) 32
11. Diagrama de proceso de obtencion de imagen por resonancia magnetica . . . . . . . . . 33
12. Coleccion de imagenes del cerebro obtenidas mediante la tecnica de imagen por reso-
nancia magnetica funcional, donde se asocian diversas intensidades de actividad cerebral
con el color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
13. Figura que iliustra los dos patrones de interacciones de pacientes con estimulos utilizados
en experimentos con resonancia magnetica funcional . . . . . . . . . . . . . . . . . . . 36
14. Grafico que muestra la proporcion entre personas con el trastorno del espectro autista
(verdes) y aquellas que son controles (morado).Elaboración propia. . . . . . . . . . . . . 42
15. Grafico que muestra la proporcion entre mujeres (azul) y hombres (rosa) de entre todas
las muestras de la iniciativa ABIDE.Elaboración propia. . . . . . . . . . . . . . . . . . . 42
16. Diagrama de caja o boxplot de las edades de los participantes en la iniciativa ABI-
DE.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
17. Puntuacion de test de inteligencia (FIQ) para las personas participantes en la iniciativa
ABIDE con trastorno del aspectro autista (Figura 13a) y para personas de control (Figu-
ra 13b). Notese que debido a los rangos de observaciones distintos entre una grafica y
otra, los limites en los ejes difieren, por lo que a la hora de comparar ambas graficas es
necesario comprobar los limites del eje de ordenadas.Elaboración propia. . . . . . . . . 43
18. Figura comparativa en relacion a las 4 metricas propueestas realizadas con los datos de
las resonancias magneticas funcionales de la iniciativa ABIDE. A la izquierda se encuen-
tran los valores de conectividad medios en un volumen cerebral en tres dimensiones,
mientras que en la parte derecha del grafico se muestran las diferencias entre aquellas
personas con autismo y aquellas personas de control en terminos de conectividad cerebral. 44
19. Figura que muestra el proceso seguido desde la recepcion de la señal de la resonancia
magnetica funcional hasta que se consigue el indice fALFF . . . . . . . . . . . . . . . . 46
20. Mapa estadistico en el que se muestran indices ALFF y fALFF de un escaner fMRI. . . . 47

ÍNDICE DE FIGURAS
21. Representación de una tarea de clasificación obtenida de Tensorflow playground, la cual

emplea redes neuronales artificiales para tareas de clasificación de datos (Figura 21a), y
un empleo de regresión lineal (Figura 21b) . . . . . . . . . . . . . . . . . . . . . . . . . 51
22. En la figura 22a se aprecia un tipo especifico de clustering expuesto como ejemplo de la
libreria scikit-learn, mientras que en la figura 22b se observa un ejemplo de aprendizaje
mediante el algoritmo de funcion de densidad de probabilidad DBSCAN . . . . . . . . . 52
23. Diferentes situaciones simples en las que se muestran underfitting (parte izquierda de la
figura), un ajuste a los datos bueno (parte central de la figura) y overfitting (parte derecha
de la figura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
24. Arquitectura tipica de una red neuronal artificial profunda. . . . . . . . . . . . . . . . . 53
25. Ejemplo basico de aplicacion del algoritmo de forward propagation. . . . . . . . . . . . 54
26. Graficas que muestran las funciones de activacion sigmoide y tangente hiperbolica.Notese
que la funcion tangente hiperbolica es una funcion sigmoide escalada cuyo rango varia
entre -1 y 1.Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
27. Funcion de activacion Rectified Linear Unit.Elaboración propia. . . . . . . . . . . . . . 56
28. Grafica que muestra las diferentes formas de las variaciones de la funcion de activacion
Relu, mostrandose en la parte izquierda de la figura la funcion Prelu, y en la derecha la
funcion ELU.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
29. Descripcion en un caso extremadamente simple del metodo del gradiente descendiente . 58
30. Ejmplo basico del algoritmo de propagacion hacia atras o backpropagation . . . . . . . 59
31. Arquitectura tipica de una red neuronal convolucional profunda . . . . . . . . . . . . . . 61
32. Operacion realizada por una capa convolucional de dos dimensiones de una red neuronal
convolucional - CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
33. Funcion de pooling, donde en la parte izquierda se observa un max-pooling y en la parte
derecha se observa un average-pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
34. En la figura de la izquierda se observan las conexiones entre nodos despues de una ca-
pa convlucional reflejandose las interacciones dispersas, mientras que en la figura de la
derecha se muestran las conexiones de una red neuronal convencional. . . . . . . . . . . 65
35. Estructura en forma de grafica de nodos de una red neuronal recurrente simple . . . . . . 67
36. Estructura tipo de una red neuronal recurrente bidireccional . . . . . . . . . . . . . . . . 68
37. Esquema del algoritmo de backpropagation a traves del tiempol . . . . . . . . . . . . . 68
38. Esquema interno de una celula LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
39. Dos ejemplos de arquitectura de red neuronal sin aplicar dropout (izquierda) y aplicando
dropout (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
40. Diferencia en los pesos de la red neuronal en la fase de entrenamiento (izquierda) y test
(derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
41. Comparacion de la eficiencia de GPU y CPU en diferentes campos cientificos y compu-
tacionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
42. Especificaciones de la unidad de procesamiento grafico GPU utilizada en el desarrollo
del proyecto, asi cmo una imagen externa de la misma (NVIDIA GEFORCE GTX 960) . 76
43. Comparacion de las caracteristicas de los diferentes entornos de trabajo disponibles de
deep learning, asi como su rendimiento en las operaciones de forward propagation y
gradiente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
45. Visualizacion de ocho diferentes cortes ascendentes de la resonancia magnetica funcional
de un mismo paciente a lo largo del eje z de coordenadas.Elaboración propia. . . . . . . 80

46. Visualizacion de las diferentes trasnformaciones de imagen para la generacion de un

mayor numero datos (traslacion, rotacion, traslacion y rotacion).Elaboración propia. . . . 81
47. Comparacion de la funcion de coste en los datos de entrenamientoElaboración propia. . . 83
48. Comparacion de la precision en los datos de test entre simulaciones diferentes.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
49. Representacion en diagramas de distribucion de diferentes medidas estadisticas de los
pesos de una capa convolucional de una red neuronal.Elaboración propia . . . . . . . . . 84
50. Representacion en diagramas de tipo histograma de diferentes medidas estadisticas de
los pesos de una capa convolucional de una red neuronal.Elaboración propia. . . . . . . 84
51. Comparacion de la precision en los datos de entrenamiento entre simulaciones diferen-
tes.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
52. Comparacion de la funcion de coste en los datos de entrenamiento.Elaboración propia. . 87
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
55. Comparaciones de las funciones de coste o perdida al variar el numero de nodos de la
capa de memoria de la red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . 89
56. Comparacion de la precision al variar el numero de nodos de la capa de memoria de la
red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
57. Comparacion de la funcion de coste al variar el valor del termino de regularizacion.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
58. Comparacion de la precision al variar el termino de regularizacion.Elaboración propia. . 90
59. Comparacion de la funcion de coste al variar la funcion de activacion.Elaboración propia. 90
60. Comparacion de la precision al variar la funcion de activacion.Elaboración propia. . . . . 91
61. Comparacion de la funcion de perdida o coste al variar el dropout.Elaboración propia. . . 91
62. Comparacion de la precision al variar el dropout.Elaboración propia. . . . . . . . . . . . 92
63. Comparacion entre una arquitectura unidireccional y bidireccional.Elaboración propia. . 92
64. Comparacion de la funcion de coste entre un modelo con 10 y 30 cortes cerebrales.Elaboración
propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
65. Comparacion de la precision entre un modelo con 10 cortes cerebrales y otro con 30.Ela-
boración propia.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
66. Principio y mecanismo del cross-validation.Elaboración propia. . . . . . . . . . . . . . . 94
67. Representación esquemática (izquierda) y completa (derecha) de la arquitectura hı́brida
de la red neuronal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
68. Evolución de las bias de la primera capa convolucional del primer bloque convolucio-
nal.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
69. Evolución de los pesos de la primera capa convolucional del primer bloque convolucio-
70. Evolución de las bias de la segunda capa convolucional del primer bloque convolucio-
71. Evolución de los pesos de la segunda capa convolucional del primer bloque convolucio-
72. Evolución de las bias de la primera capa convolucional del segundo bloque convolucio-

ÍNDICE DE FIGURAS
73. Evolución de los pesos de la primera capa convolucional del segundo bloque convolu-
cional.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
74. Evolución de las bias de la segunda capa convolucional del segundo bloque convolucio-
75. Evolución de los pesos de la segunda capa convolucional del segundo bloque convolu-
cional.Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

ÍNDICE DE FIGURAS
Anexo
Figura 67: Representación esquemática (izquierda) y completa (derecha) de la arquitectura hı́brida de la red neu-
ronal.Elaboración propia.

16 ANEXO II
16. Anexo II
16.1. Evolución pesos y bias primera capa convolucional
Figura 68: Evolución de las bias de la primera capa convolucional del primer bloque convolucional.Elaboración propia.
Figura 69: Evolución de los pesos de la primera capa convolucional del primer bloque convolucional.Elaboración propia.

16.2. Evolución pesos y bias segunda capa convolucional
Figura 70: Evolución de las bias de la segunda capa convolucional del primer bloque convolucional.Elaboración propia.
Figura 71: Evolución de los pesos de la segunda capa convolucional del primer bloque convolucional.Elaboración propia.

16 ANEXO II
16.3. Evolución pesos y bias tercera capa convolucional
Figura 72: Evolución de las bias de la primera capa convolucional del segundo bloque convolucional.Elaboración propia.
Figura 73: Evolución de los pesos de la primera capa convolucional del segundo bloque convolucional.Elaboración
propia.

16.4. Evolución pesos y bias cuarta capa convolucional
Figura 74: Evolución de las bias de la segunda capa convolucional del segundo bloque convolucional.Elaboración propia.
Figura 75: Evolución de los pesos de la segunda capa convolucional del segundo bloque convolucional.Elaboración
propia.

TFG Pablo Rodriguez Sahagun Alesanco PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

TFG Pablo Rodriguez Sahagun Alesanco PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Aplicación de redes neuronales convolucionales y

recurrentes al diagnóstico de autismo a partir de

Pablo Rodrı́guez-Sahagún Alesanco

Tutor : José Manuel Mira McWilliams

Escuela Técnica Superior de Ingenieros Industriales

Pablo Rodrı́guez-Sahagún Alesanco 3

Necesito más orden del que tú necesitas, más

Pablo Rodrı́guez-Sahagún Alesanco 5

Base de datos ABIDE

Pablo Rodrı́guez-Sahagún Alesanco 7

Posteriormente se ha procedido al estudio de las diferentes opciones existentes de lenguajes de pro-

8 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Pablo Rodrı́guez-Sahagún Alesanco 9

10 Escuela Técnica Superior de Ingenieros Industriales (UPM)

De forma añadida se adjunta la gráfica de la evolución de la precisión en la clasificación para datos

Pablo Rodrı́guez-Sahagún Alesanco 11

4. Autismo o TEA (Trastorno del Espectro Autista) 21

5. MRI - Imagen por Resonancia Magnética 27

Pablo Rodrı́guez-Sahagún Alesanco 13

7. Introduccion al Deep Learning 49

8. Redes neuronales convolucionales 61

9. Redes neuronales recurrentes : LSTM y GRU 67

10. Conceptos adicionales 71

14 Escuela Técnica Superior de Ingenieros Industriales (UPM)

11. El entorno de trabajo 73

12. Modelo propuesto y resultados 79

14. Lı́neas futuras 97

15. Planificación temporal y presupuesto 99

14. Referencias 106

Pablo Rodrı́guez-Sahagún Alesanco 15

15. Índice de figuras 108

16. Anexo 112

16. Anexo II 116

16 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Pablo Rodrı́guez-Sahagún Alesanco 17

Pablo Rodrı́guez-Sahagún Alesanco 19

4. Autismo o TEA (Trastorno del Espectro Autista)

4.1. Datos sobre el autismo

4.2. Causas del autismo

Pablo Rodrı́guez-Sahagún Alesanco 21

4.3. Sintomas del autismo

4.3.1. Sı́ntomas sociales

4.3.2. Dificultades comunicativas

22 Escuela Técnica Superior de Ingenieros Industriales (UPM)

4.3.3. Comportamientos repetitivos

Comportamientos repetitivos inusuales o una tendencia a limitar la actividad a un rango restringido

4.3.4. Habilidades únicas asociadas al autismo

4.4. Problemas médicos y fı́sicos asociados al autismo

Pablo Rodrı́guez-Sahagún Alesanco 23

4.4.2. Desordenes genéticos

4.4.3. Desordenes gastrointestinales

4.4.4. Alteración del sueño

4.4.5. Disfunción de la integración sensorial

24 Escuela Técnica Superior de Ingenieros Industriales (UPM)

4.4.7. Salud mental

Pablo Rodrı́guez-Sahagún Alesanco 25

5. MRI - Imagen por Resonancia Magnética

5.1. Historia de la MRI

Pablo Rodrı́guez-Sahagún Alesanco 27

5.2. Fundamentos fisicomatemáticos

A continuación, se detallan aquellos conceptos matemáticos y fı́sicos que posibilitan la obtención

5.2.1. Conceptos basicos

• Producción del campo magnético: En el viaje de un electrón a lo largo de un cable, se produce un