Mesa 1 JJFG

Juan José Fuenzalida González
Diseño e Implementación de un sistema

de seguridad mediante Deep Learning.
Informe 1 Seminario de Proyecto de Ingeniero Civil Electrónico
Escuela de Ingeniería Eléctrica

Facultad de Ingeniería
Valparaíso, 24 de abril de 2019
Diseño e Implementación de un sistema de serguridad
mediante Deep Learning
Juan José Fuenzalida González
Informe 1 para optar al título de Ingeniero Civil Electrónico,

aprobada por la comisión de la
Escuela de Ingeniería Eléctrica de la
Facultad de Ingeniería de la
Pontificia Universidad Católica de Valparaíso
conformada por
Sr. Gabriel Enrique Hermosilla Vigneau.

Profesor Guía
Sr. Gonzalo Farías Castro

Profesor Correferente
Sr. Sebastián Fingerhuth Massmann

Secretario Académico
Valparaíso, 24 de abril del 2019

1 Resumen
En este informe se comenzará explicando las distintas áreas en la cual se implementará nuestro
proyecto, para lograr introducir al lector. Posteriormente, se expondrá la problemática existente, la
delincuencia. Para ello se darán a conocer algunas encuestas que realizaron distintas entidades para
dar a conocer que tanto crece o desciende la delincuencia en nuestro país y de qué manera se intenta
combatir hoy en día este tema tan sensible en nuestra sociedad.
Luego de haber introducido al lector en el tema, se dará a conocer el estado del arte que se utilizará
para atacar el problema. En esta etapa se explicará el área de la Inteligencia Artificial y sus distintos
campos, Machine Learning y Deep Learning, este último será el centro de atención de nuestro informe,
ya que con él combatiremos el problema.
Posteriormente se darán a conocer tanto los objetivos específicos como el objetivo general. Estos
objetivos deben ser logrados al final del proyecto, y para poder controlar que estos se cumplen en el
plazo determinado, se evaluarán por medio de una carta Gantt, la cual abarca los temas a tratar durante
todo el año.
Como ya se ha realizado las investigaciones previas para llevar a cabo este proyecto, se procederá a
explicar los distintos modelos a considerar y a evaluar para la mesa 2. En esta etapa del informe se
comenzará explicando la red neuronal convolucional CNN, la cual consta de tres etapas destacadas, la
convolución, capa de agrupación y clasificación. Estas serán explicadas a fondo en el informe.
Posteriormente, se continuará exponiendo la red neuronal convolucional basada en regiones R-CNN,

esta es muy parecida a la anterior, con la diferencia que se agrega un proceso, denominado búsqueda
selectiva. Continuamos con la Fast R-CNN, esta también agrega búsqueda selectiva, pero es más rápida
que la anterior, ya que utiliza otro método más eficiente.
Además, de estas tres redes esta la Faster R-CNN, la cual elimina este tipo de propuesta y para
compensar este cambio agrega un proceso denominado "Region Proposal Network", o RPN. Para
complementar más esta familia, también se explicara la Mask R-CNN.
Para finalizar este informe se analizara unas de las mejores redes neuronales convolucionales,
MobileNet y SSD, la cuales trabajando juntas se convierte en un mecanismo para analizar imágenes muy
poderoso.
Índice general
1 Resumen .................................................................................................................................................. 3
Introducción .............................................................................................................................................. 1
1. Sistema de Seguridad.................................................................................................................. 2
1.1 Área a desarrollar. .............................................................................................................................................................. 2
1.2 Contextos y problemas. .................................................................................................................................................... 2
1.2.1 Cámara de comercio, servicios y turismo de Chile (CNC): Victimización del comercio del
primer semestre del 2018. ........................................................................................................................................... 3
1.2.2 Encuesta Nacional Urbana de Seguridad Ciudadana 2017 ................................................................. 3
1.3 Como atacar el problema................................................................................................................................................. 3
2 Estado del arte ...................................................................................................................................... 4

2.1 Introducción al Deep Learning. .................................................................................................................................... 4
2.1.1 Inteligencia Artificial............................................................................................................................................ 4
2.1.2 Machine Learning. ................................................................................................................................................. 4
2.1.3 Deep Learning ......................................................................................................................................................... 5
2.2 Entradas .................................................................................................................................................................................. 5
2.3 Avances tecnológicos del Deep Learning. ................................................................................................................ 6
2.3.1 Reconocimiento facial en aeropuertos ........................................................................................................ 6
2.3.2 Utilizacion de reconociemiento facial para verificar asistencia en Universidad de Medicina
de Hyogo, en Japón. .......................................................................................................................................................... 6
2.3.3 Instagram permitirá leer las fotografías a través de inteligencia artificial ................................. 6
2.4 Objetivos. ................................................................................................................................................................................ 6
2.5 Planificación .......................................................................................................................................................................... 8
2.5.1 Carta Gantt para el primer semestre. ........................................................................................................... 8
2.5.2 Carta Gantt para el segundo semestre. ........................................................................................................ 9
3 Modelos de redes neuronales convolucionales..................................................................... 10

3.1 Redes Neuronales Convolucionales (CNN) ...........................................................................................................10
3.1.1 Operación de convolucion. ..............................................................................................................................11
3.1.2 Agrupacion o pooling .........................................................................................................................................12
3.1.3 Clasificador .............................................................................................................................................................12
3.2 Red neuronal convolucional basada en regiones (R-CNN) ............................................................................13
Índice general
3.2.1 Problemas de la RCNN (no se si ponerlo) ................................................................................................13

3.3 Fast R-CNN ...........................................................................................................................................................................14
3.3.1 Problemas de la Fast R-CNN ...........................................................................................................................14
3.4 Faster R-CNN ......................................................................................................................................................................14
3.4.1 Detalles de la Red de Propuestas de Región (RPN) .............................................................................15
3.4.2 Problemas con una Faster R-CNN ................................................................................................................15
3.5 Mask R-CNN.........................................................................................................................................................................16
3.6 Detector multibox de disparo único SSD ................................................................................................................16
3.6.1 Red neuronal convolucional VGG-16 ..........................................................................................................16
3.6.2 SSD .............................................................................................................................................................................17
3.7 MobileNet .............................................................................................................................................................................19
3.8 ¿Qué es una MobileNet-SSD? .......................................................................................................................................21
Conclusiones........................................................................................................................................... 22
4 Referencias .......................................................................................................................................... 23
Introducción
Durante los últimos años, tecnologías tales como, las redes neuronales artificiales, Machine Learning y
Deep Learning se han masificado de manera exponencial. Utilizándose en gran parte en empresas
reconocidas como Facebook, Google, Microsoft, Amazon, Apple y muchas otras para analizar grandes
cantidades de datos.
El Deep Learning y en general, el procesamiento de grandes cantidades de datos, está siendo muy
utilizados en los últimos años, debido al alto crecimiento tecnológico que existe hoy en día. Las
máquinas son más rápidas y más eficientes para poder desarrollar esta tarea, debido a que poseen más
capacidad de almacenamiento. Su GPU está más capacitada para el procesamiento de grandes
cantidades de datos.
Los distintos algoritmos de redes neuronales convolucionales, toman gran importancia en el Deep
Learning, debido a que son el corazón de esta. Cuando una de estas redes es capaz de procesar una gran
cantidad de datos en tiempos muy cortos, se vuelve un método a considerar para ser implementado en
el procesamiento de videos en tiempo real. De esta manera se debe analizar que el método combine alta
velocidad de procesamiento, como también precisión al momento de realizar una predicción de la tarea
encomendada.
Este tipo de tecnología está abarcando distintas áreas de la electrónica, por esta razón es necesario ir
creciendo con ella e ir aprendiendo nuevas metodologías para complementarla. Como se mencionó
anteriormente, en este informe se darán a conocer distintos algoritmos que pueden ser usados para la
detección de personas y se optará por el más apropiado para la aplicación a trabajar.
Para avanzar en términos de seguridad como sociedad, es imprescindible usar la tecnología.

Particularmente la detección de personas u objetos en tiempo real se puede usar en diversas
aplicaciones. Para ello, se pueden usar variados métodos de aprendizaje profundo.
Como todos saben, la delincuencia está creciendo cada vez más en distintos sectores de la sociedad,
especialmente en los sectores más vulnerables. Como bien se muestra en distintas encuestas realizadas
por algunas entidades, ya sean privadas o del gobierno. De esta manera se vuelve necesario que esta
área sea combatida con distintos métodos. Aquí toma gran importancia el avance tecnológico que ha
ido creciendo día a día.
1
1. Sistema de Seguridad
1.1 Área a desarrollar.
Este trabajo se enfocará principalmente en la detección de distintos elementos, personas o acciones
que pueden llevar a cabo alguna tarea delictiva que afecte a la seguridad de la población. De esta
manera, se enfocará principalmente en los sectores en donde el delito pueda ser detectado por una
cámara, por ejemplo: en los locales comerciales, vía pública, condominios, universidades, estadios de
futbol, etc.
Para llevar a cabo este propósito se usará un subconjunto de la inteligencia artificial y del Machine
Learning denominado Deep Learning, el cual los últimos años ha tomado gran importancia en el
aprendizaje de las máquinas, en la interacción proactiva con el entorno, la inferencia y la deducción, el
reconocimiento del habla, la resolución de problemas, la representación de conocimiento, la
percepción, y muchos otros temas que ha abarcado el Deep Learning.
1.2 Contextos y problemas.

Como bien se mencionó, hoy en día en nuestro país y en todo el mundo existe un gran problema que es
realmente complejo poder solucionar, la delincuencia y los distintos ámbitos que esta posee. En
diferentes partes se implementan distintos tipos de seguridad para erradicar o poder aportar en
reducir estos tipos de actos delictivos. La tecnología obviamente ha aportado en ello, implementando
distintos dispositivos como sensores de movimientos, cámaras fijas, cámaras móviles, cercos eléctricos,
hasta softwares más complejos e integrados.
Cada vez se desarrollan más y más las ciudades inteligentes y el internet de las cosas son las tendencias
que enmarcan el desarrollo de la seguridad pública. En nuestro caso se implementarán distintas formas
para la detección de personas, objetos o acciones por medio de cámaras que ayudarán a combatir esta
área. Incluso puede ser usada en investigaciones policiales, en la cual se necesita detectar a las personas
involucradas en un delito.
A continuación se verán algunas encuestas realizadas por distintas entidades, para analizar que tanto
ha subido o bajado la delincuencia, con respecto a otros años.
2
Error! Use the Home tab to apply Título 1 to the text that you want to appear here.
1.2.1 Cámara de comercio, servicios y turismo de Chile (CNC): Victimización del

comercio del primer semestre del 2018.
Santiago, 23 de octubre de 2018.- Un 52,4% de los establecimientos comerciales, hoteles y restoranes
del país fueron víctimas de uno o más delitos durante el primer semestre de 2018, según la XVIII
Encuesta de Victimización del Comercio, realizada por la Cámara Nacional de Comercio, Servicios y
Turismo de Chile (CNC).
Los establecimientos de Valparaíso-Viña del Mar (65,1%), Gran Santiago (59,5%) y Puerto Montt
(51%) son los que reportan mayor nivel de victimización. En el caso de este último, registra un alza
significativa de 15 puntos porcentuales respecto a igual período de 2017. Por el contrario, Temuco
retrocede en 20 puntos, reportando una tasa de 40% de victimización, mientras que Concepción-
Talcahuano lo hace en 11,6 puntos porcentuales, para situarse en 46%.
Los delitos que tienen una alta tasa de re victimización durante el primer semestre de 2018, con
ocurrencia de más de una vez, fueron hurto hormiga (93,5%), seguido por el rayado no autorizado
(72,3%), hurto (64,3%), delito económico (58,6%) y robo con violencia (38,9%).
¿Qué medidas implementó el primer semestre de 2018? Ante esta pregunta, los encuestados
respondieron que un 61,4% adquirió cámaras de seguridad; un 24,5% alarmas; un 20,4% contrató
servicio de guardias; y un 12,1% instaló rejas exteriores.
1.2.2 Encuesta Nacional Urbana de Seguridad Ciudadana 2017

De acuerdo al sondeo, realizado por el Instituto Nacional de Estadísticas (INE), son 236.316 hogares
los que se suman a ser víctimas de la delincuencia en comparación con 2013, lo que significa un
aumento de 1.019.895 de delitos de mayor connotación social.
Si bien no son datos del todo comparables, de acuerdo a la ENUSC, alrededor del 75% de los delitos
ocurren fuera del barrio de residencia, mientras que de acuerdo al Índice de Paz Ciudadana, más o
menos el 75% de robos o intentos de robo ocurren dentro de la comuna de residencia, y el 83% en la
vía pública. Aparentemente, la vía pública dentro de la comuna pero fuera de lo que la persona
considera su barrio estaría concentrando la victimización.
1.3 Como atacar el problema.

Para poder atacar este problema se usará Deep Learning, principalmente los algoritmos SSD y
MobileNet, los cuales se explicarán a fondo a lo largo del informe. Primero por medio de una cámara se
generará una base de datos de imágenes que contengan diferentes elementos delictivos a clasificar,
luego se entrenará una máquina para que pueda detectar un elemento y clasificarlo. Si la maquina
detecta este elemento como sospechoso el sistema generará una alarma, advirtiendo a los usuarios que
su seguridad está en peligro.
3
2 Estado del arte
2.1 Introducción al Deep Learning.

Como bien se mencionó anteriormente, el Deep Learning es una sub-área de la inteligencia artificial y
del machine Learning. Estas áreas denotan los siguientes aspectos:
2.1.1 Inteligencia Artificial

A simples rasgos la inteligencia artificial abarca cualquier actividad en la que las máquinas imiten
comportamientos inteligentes que suelen mostrar los seres humanos. Una máquina inteligente es un
agente que percibe su entorno y lleva a cabo un objetivo o tarea encomendada con el fin de ser realizada
con la mayor precisión posible.
2.1.2 Machine Learning.

Machine Learning es un sub-campo de la inteligencia artificia, el cual se encarga de entregar a la
máquina la capacidad de poder aprender sin ser explícitamente programados, sino que se basan en
patrones e inferencias.
En resumen, lo que hace Machine Learning es clasificar mediante la detección de una curva. Para poder
realizar estas inferencias, necesita antes aprender y esto lo realiza por diferentes tipos de aprendizajes.
Uno de ellos es el aprendizaje supervisado, es el más básico que se puede realizar, este proceso consiste
en entregar a la máquina distintas características sobre un objetos, correos, animales, autos, celulares
etc. pero para que esta entienda se debe indicar a que corresponde esas características (etiquetar cada
objeto) y de tal manera pueda ser bien clasificado.
Otro tipo de aprendizaje es el aprendizaje no supervisado, en este caso a la maquina se le entregan

diferente características, pero no se indica a que objeto corresponden. Por lo tanto, los algoritmos
aprenden de los datos de prueba que no se han etiquetado, clasificado o categorizado.
4
El último tipo de aprendizaje es el aprendizaje por refuerzo, es un área del aprendizaje automático que
se encarga de como el algoritmo realiza un estudio del entorno y la maquina aprende por un proceso
de prueba y error. Cuando una acción este bien realizada esta representará un tipo de recompensa
acumulada.
2.1.3 Deep Learning

Deep Learning realiza el proceso de Machine Learning, usando una red neuronal artificial que se
compone por un número definido de capas (el número de capas los define el usuario). En la primera
capa recibe una entrada, puede ser una imagen. Luego están las capas ocultas, con diferentes niveles,
los primeros niveles de estas capas aprenden algo simple de la imagen, esto podría ser que pueda
diferenciar entre las zonas claras y oscuras para saber dónde están los bordes de la imagen, para
después pasar al siguiente nivel. El siguiente nivel toma esta información sencilla y la combina,
compone una información algo más compleja, ahora estos bordes construyen formas simples, como una
línea diagonal o un ángulo recto y se pasa al siguiente nivel, el siguiente nivel podría combinar los óvalos
y rectángulos, formando barbas, patas o colas rudimentarias y así sucesivamente. Este proceso continúa
hasta que la red logra aprender a identificar lo que se quiere encontrar. En la figura 1, se muestra la
estructura del Deep learning.
Figura 1. Estructura del Deep Learning.
2.2 Entradas
Esta etapa es la primera de nuestra red neuronal, aquí se analiza todas las imágenes que contenga el
video al cual se le quiere realizar la detección de personas u objetos. Se debe mencionar que las entradas
pueden ser variadas, con esto se refiere a que existen múltiples algoritmos para la detección de
personas los cuales pueden emplear diferentes formatos de entrada como secuencias de video,
imágenes en blanco y negro, en color, imágenes en 2D o 3D, etc.
En este proyecto nuestra entrada tendrá diversas dificultades para ser detectada, debido a que una de
las finalidades de crear este sistema es poder detectar una persona. Estas problemáticas existentes es
la escena en donde se realiza la detección de la persona, ya que en una imagen puede haber una multitud
de personas dificultando rigurosamente la detección. Otra de las dificultades son las determinadas
poses que puede tomar la persona a localizar puesto que no siempre puede ser la misma, puede estar
sentada, de pie, en silla de ruedas, tumbada, etc.
5
2.3 Avances tecnológicos del Deep Learning.

Las redes neuronales convolucionales fueron muy utilizadas en la década de 1980, pero hubo un
decaimiento, ya que no existían los medios computacionales para realizar este procesamiento. Luego
en la década del 2000, se volvió a utilizar, debido al algoritmo de aprendizaje rápido propuesto por G.
Hinton y la introducción de GPU. Aproximadamente en el 2011, se volvió a utilizar para el cálculo
numérico masivo. Gracias a esto existen distintas aplicaciones en el reconocimiento de imágenes, como:
2.3.1 Reconocimiento facial en aeropuertos

Los aeropuertos australianos han comenzado a instalar sistemas de reconocimiento facial en el trámite
del control de pasaportes como variable biométrica de seguridad. Japón incluyo un nuevo modelo de
reconocimiento facial para aquellos extranjeros que llegasen al país como medida de seguridad
antiterrorista por los Juegos Olímpicos de 2020. El objetivo es comparar los rostros de extranjeros con
una base de datos de presuntos terroristas.
2.3.2 Utilizacion de reconociemiento facial para verificar asistencia en Universidad de

Medicina de Hyogo, en Japón.
La universidad de medicina de Hyogo se convirtió en la primera universidad de Japón que utiliza un
sistema de reconocimiento facial para verificar la asistencia de los alumnos. Todo esto se realizó a
principios de este mes. El cual consiste que al inicio de cada clase, el estudiante registra su asistencia
poniendo su cara frente a una Tablet. La tecnología compara el rostro con el que previamente tiene
almacenado en la base de datos para verificar que coincidan y dar el visto bueno.
2.3.3 Instagram permitirá leer las fotografías a través de inteligencia artificial

Instagram ha sorprendido con un sistema capaz de describir una fotografía, además de enumerar los
objetos. Por ejemplo, Instagram podrá tomar una imagen con un camino de tierra en plena naturaleza
con algunas asteráceas amarillas y un esplendoroso cielo azul. El sistema de inteligencia artificial
convierte esta imagen en un texto único: «Una ruta para andar bordeada de girasoles en un bonito día».
2.4 Objetivos.
La detección de personas es fundamental en cualquier sistema de vídeo seguridad. La complejidad de
la detección de personas se encuentra, principalmente, en la dificultad para definir un modelo de las
mismas, debido a la gran variabilidad en la apariencia física, poses, puntos de vista, movimiento e
interacción entre las personas.
6
Actualmente se ha extendido el uso de grandes cantidades de datos de entrenamiento o big data para
modelar cualquier tipo de objeto y su detección. En concreto, el uso de redes convolucionales, con la
capacidad de aprender de forma automática las características más importantes de los modelos,
presenta en muchos casos mejoras considerables en la tarea de detección de cualquier tipo de objeto,
y en este caso, personas.
Los objetivos específicos, abarcan todos los aspectos para poder llevar a cabo el proyecto, estos son:
1. Estudiar el estado del arte de Deep Learning. Además de las redes neuronales convolucionales,
R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, Mobilnet, SSD.
2. Crear el ambiente de trabajo e implementar algoritmos de Deep Learning en Keras.
3. Aplicar el algoritmo seleccionado en videos para obtener resultados preliminares.
4. Aplicar algoritmos de detección/clasificación en streaming en tiempo real obtenidos de
cámaras de seguridad de la EIE (u otros).
5. Revisión final del proyecto, evaluaciones, medidas, tasa de acierto, precisión, etc.
6. Realización del informe final, para posteriormente defender.
Todos estos objetivos específicos, tienen como finalidad poder cumplir con el objetivo general, el cual
es: Generar e implementar un sistema computacional que permita detectar personas (posibles
ladrones) en cámaras de seguridad utilizando Deep Learning
Como se mencionó anteriormente, para cumplir con los plazos de cada objetivo, nos guiaremos por
una carta Gantt, en la cual se pueden apreciar los aspectos más relevantes en la realización de este
proyecto.
La planificación de este proyecto consta de 6 mesas, en las cuales abra un plazo aproximado de un mes
para preparar cada exposición. En ella se propondrán distintos objetivos que se deben llevar a cabo en
el plazo establecido por la carta Gantt, de tal manera, poder ser ordenado a lo largo de la realización del
proyecto, para así cumplir con todas las tareas encomendadas.
7
2.5 Planificación
2.5.1 Carta Gantt para el primer semestre.
MES MARZO-ABRIL MAYO JUNIO

ACTIVIDAD / SEMANA 1 2 3 4 1 2 3 4 1 2 3 4
Selección Proyecto
Introduccion al Deep Learning
Estudio redes neuronales CNN
Estudio redes neuronales R-CNN

Estudio redes neuronales FAST R-
CNN
Estudio redes neuronales
FASTER R-CNN y Mask R-CNN
Estudio redes neuronales VGG-
16
Estudio redes neuronales SSD
Estudio redes neuronales
MobileNet
Preparación Informe/Disertación
MESA 1
Instalacion del ambiente de
trabajo
Implementacion algoritmos de
Deep Learning en Keras
MESA 2
Aplicar el algoritmo
seleccionado en videos para
obtener resultados preliminares
MESA 3
8
2.5.2 Carta Gantt para el segundo semestre.
MES Septiembre Octubre Nobiembre Diciembre

ACTIVIDAD / SEMANA 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Aplicar algoritmos de
detección/clasificación en
streaming en tiempo real
obtenidos de cámaras de
seguridad de la EIE (u otros).
Mesa 4
Revisión final del proyecto,
evaluaciones, medidas, tasa de
acierto, precisión
Mesa 5
Realización del informe final,
para posteriormente defender
Mesa 6
9
3 Modelos de redes neuronales
convolucionales.
EL objetivo de la detección en el campo de la Inteligencia Artificial, es poder reconocer o clasificar uno
o más objetos dentro de una imagen o video, y a la vez poder localizar a estos dentro de un cuadro en
la imagen. Entregando el porcentaje en cuanto a la probabilidad de que este sea el objeto que el detector
reconoció.
Esto se logra a través de una gran Red Neuronal Convolucional (RNC). La principal ventaja de las RNC,
es que cada parte de la red se le entrena para realizar una tarea. De esta forma en el sistema de detección
se diferencian dos procesos, la EXTRACCIÓN de características y la DETECCIÓN de los objetos dentro de
la imagen.
A continuación se analizarán varios algoritmos que pueden ser usados para detectar objetos. Se
comenzará con los algoritmos que pertenecen a la familia CNN, RCNN, Fast RCNN, Faster RCNN, Mask
R-CNN. Y posteriormente, con el algoritmo MobileNet y SSD con los cuales se desarrollará este proyecto.
3.1 Redes Neuronales Convolucionales (CNN)

Las redes neuronales convolucionales están conformadas por una capa de input, una capa de output y
varias capas hidden, en si cada capa se forma por neuronas que tienen parámetros en forma de pesos y
bias que se pueden aprender. Pero un rasgo diferencial de las CNN es que hacen la suposición explícita
de que las entradas son imágenes, esto permite codificar ciertas propiedades en la arquitectura para
reconocer elementos concretos en las imágenes. Además, una de las principales ventajas es que cada
parte de la red se le entrena para realizar una tarea, esto reduce significativamente el número de capas
ocultas, por lo que el entrenamiento es más rápido.
En la figura 2, se aprecia internamente una CNN, la cual está compuesta por una capa de entrada, luego
se encuentran capas de convolución seguidas de capas de reducción y finalmente capas de clasificación
o capas totalmente conectadas, la cual toma como entrada la imagen completamente modificada por las
convoluciones y devuelve la predicción. Por ejemplo, si la imagen es más un perro o un gato. Por lo
tanto, es el corazón del algoritmo CNN, el resto es más como el procesamiento de imágenes.
10
Figura 2. Arquitectura de una CNN.
A continuación se mencionarán las componentes básicas de una red neuronal convolucional, de tal
manera que el lector pueda comprender de manera más detallada de cómo funciona una CNN
3.1.1 Operación de convolucion.

En la capa de entrada se ingresa la imagen a analizar, luego esta se pasa a la capa convolucional, la cual
se puede ver como una pequeña red neuronal que va ir procesando parches de la imagen, entonces
como no está procesando la imagen completa el número de conexiones entre neuronas es mucho
menor. Cada convolución va ir pasando por toda la imagen y se va ir generando nuevas imágenes de
salida, las cuales van a ser más pequeña en longitud y en altura, pero va aumentar la profundidad. Estas
imágenes de salidas son denominadas mapas de características, las cuales pueden tener bordes,
texturas, colores, figuras, aristas, etc. En sí, son distintas características de la imagen original.
La ventaja es que los filtros que procesan los parches de la imagen, sirven para extraer la misma
característica en cualquier parte de la entrada, con esto se consigue reducir el número de conexiones y
el número de parámetros a entrenar en comparación con una red multicapa de conexión total.
La función que realizan los filtros en una etapa de convolución es fundamental, ya que toman nuestra
imagen y el filtro la recorre por todos los pixeles, generándose así una nueva imagen, como se ve en la
figura 3. Después sobre la imagen original, se pasará otro nuevo filtro, este va encontrar otros patrones
que el primer filtro no encontró (quizás el primero encontró bordes y el otro sombras). Después de
muchos filtros se tendrá una imagen en la cual se identifican bordes, otra imagen en la que se identifican
sombras y contrastes. Y así se recorrerá la imagen original con una cierta cantidad de filtros, todo esto
va aumentar la profundidad de la imagen.
Figura 3. Etapa de convolución
11
Después de aplicar la convolución se le aplica a los mapas de características una función de activación,
la función de activación recomendada es signoide ReLu.
Luego estos mapas de características se envían a la etapa de Pooling, esta se va encargar de hacer aún
más pequeña la iºmagen en altura y en longitud, pero la profundidad queda intacta.
Los parámetros importantes de nuestra capa convolucional son los siguientes:
A) El tamaño del filtro: Es el tamaño del parche que se va ir paseando por nuestra imagen (se
defina con una cierta altura y una cierta longitud)
B) Profundidad de nuestra capa convolucional: Es el número de filtros que se aplicará a la imagen.
C) Stride o paso: Es el número de píxeles desplazados sobre la matriz de entrada. Por ejemplo: si
queremos que nuestro filtro recorra la imagen de un pixel en un pixel, el stride es 1. Mientras
más alto sea el tamaño de nuestro paso, más vamos a reducir el tamaño de nuestra imagen.
3.1.2 Agrupacion o pooling

Además de las capas convolucionales que se acaba de describir, las capa de convolución son
acompañadas por capas Pooling, que suelen ser aplicadas inmediatamente después de las capas
convolucionales, como se mencionó anteriormente. Esta etapa se realiza para quitar el número de
conexiones, de esta manera la red neuronal logre procesar todo lo que se le está pidiendo. Existen dos
tipos de Pooling:
A) Max Pooling: Consiste en ir recorriendo un filtro de cierta altura y cierta longitud sobre la
imagen. Este filtro se ubica sobre un grupo de pixeles y este va elegir el número mayor, lo va
tomar y lo ubicará en una matriz más pequeña. Después se va deslizar hacia la derecha y
realizará la misma operación.
B) Average Pooling: Realiza la misma operación que Max Pooling, pero en este caso se obtiene el
promedio del grupo de pixeles.
3.1.3 Clasificador
El final de las capas convolucional y de reducción, se suele utilizar capas completamente conectadas en
la que cada pixel se considera como una neurona separada al igual que en un perceptrón multicapa.
La última capa de esta red es una capa clasificadora o Softmax, que tendrá tantas neuronas como el
número de clases a predecir.
Es una función matemática bastante simple (exponencial normal) que toma varios números como
entrada y que da salida a estos números en "más pequeños" para que su suma valga 1. Por ejemplo, si
tenemos una entrada de 0.1 y 0.2, entonces Softmax dará 0.48 y 0.52. Softmax se usa a menudo en la
salida de algoritmos para tener "probabilidades" (la imagen parece 52% para un perro y 48% para un
lobo, por ejemplo).
12
3.2 Red neuronal convolucional basada en regiones (R-CNN)

La red neuronal convolucional basada en regiones, es muy similar a la CNN, con la diferencia de que
esta no trabaja con una gran cantidad de regiones, sino que ubica una cierta cantidad de cuadros en la
imagen como se ve en la figura 4, y revisa si uno de estos cuadros posee algún objeto de interés. RCNN
encuentra estos cuadros, utilizando búsqueda selectiva, para extraer solo 2000 regiones de la imagen,
a estas se les denomino Regiones de Interés (RoI). Por lo tanto, ahora, en lugar de tratar de clasificar
una gran cantidad de regiones, solo se trabajará con 2000.
Pero ¿Qué es búsqueda selectiva?, Primero se toma una imagen como entrada, luego se inspecciona las
similitudes de colores, de textura, el tamaño de región y el relleno de la región, todas estas
características de la imagen se utilizan para generar una segmentación no basada en objetos. Por lo
tanto, se obtienen muchas áreas pequeñas segmentadas como se muestra en la parte inferior izquierda
de la figura 4. Posteriormente las pequeñas regiones segmentadas se combinan para formar regiones
segmentadas más grandes. Finalmente, estas regiones producen las ubicaciones de los objetos finales
(Región de interés).
Figura 4. Redes neuronales convolucionales basada en regiones.
Cuando se tienen las 2000 regiones de interés, estas se incorporan a la Red neuronal convolucional. La
CNN realiza el mismo proceso mencionado anteriormente, la cual recibe las 2000 regiones para
procesarlas por las capas de convolución y agrupamiento, las cuales funcionan como extractoras de
características. Estas características extraídas, se incorporan a un algoritmo de la Maquina de Vectores
de Soporte (SVM), el que tiene como objetivo encontrar un hiperplano en un espacio de n-dimensiones,
que clasifique claramente el objeto según su etiqueta. Además, de predecir un objeto dentro de la región
de interés, el algoritmo también entrena un modelo de regresión lineal, para poder generar cuadros
delimitadores más ajustados, para cada objeto identificado en la imagen.
3.2.1 Problemas de la RCNN (no se si ponerlo)

Hemos visto que R-CNN es muy útil para la detección de objetos. Pero esta red posee sus propias
limitaciones. Una de ella es que al combinar búsqueda selectiva y extracción de características usando
CNN, el proceso se vuelve demasiado lento, esto es debido a las siguientes razones:
 Extracción de 2,000 regiones para cada imagen basada en búsqueda selectiva.
 Extraer características usando CNN para cada región de la imagen. Supongamos que se tiene N
imágenes, entonces el número de características de CNN será N * 2,000
13
3.3 Fast R-CNN

Como se observó en los dos detectores antes mencionados, el problema siempre es que no logran
procesar todo lo que se piden en un tiempo acorde. Por esta razón es que Fast RCNN, propone que en
lugar de ejecutar una CNN 2000 veces por cada imagen, solo la ejecutemos una vez, para así poder
obtener todas las regiones de interés. ¿Pero cómo podemos realizar esto? Fast R-CNN propone lo
siguiente. Primero se alimenta la CNN con una imagen de entrada, como se ve en la figura 6, al igual que
en los algoritmos anteriores, esta etapa realiza convoluciones y extrae mapas de características. Usando
estos mapas se extraen regiones de interés, usando búsqueda selectiva. Luego, se usa una capa de
agrupación RoI, el cual se encargará de cambiar todas las regiones a un tamaño fijo, para que puedan
ser ingresadas a una capa totalmente conectada. Luego como se ve en la figura 5, las regiones obtenidas
se envían a una capa de Softmax, la cual se encarga de asignar probabilidades decimales a cada clase, lo
que permite poder clasificar el objeto. Esas probabilidades decimales deben sumar 1.0. Esta restricción
adicional permite que el entrenamiento converja más rápido. Además de ingresar estar regiones de
interés a una capa Softmax, estas son enviadas a una capa de regresión lineal, la que es usada para
generar las coordenadas del cuadro delimitador para las clases predichas.
Figura 5. Proceso de una Fast R-CNN.
3.3.1 Problemas de la Fast R-CNN

La razón por la que Fast R-CNN es más rápida que R-CNN, es porque no tiene que enviar propuestas de
2000 regiones a la red neuronal convolucional en todo momento. Sin embargo, aunque consideremos
esta gran ventaja, este detector sigue siendo demasiado lento debido a que también utiliza búsqueda
selectiva como método de propuesta para encontrar las regiones de interés. Este proceso se demora
alrededor de 2 segundos por imagen, podríamos decir que es poco tiempo. Pero cuando se consideran
grandes conjuntos de datos, este detector ya no parece tan rápido.
3.4 Faster R-CNN

Como se vio anteriormente, los dos algoritmos R-CNN y Fast R-CNN, usan búsqueda selectiva el cual
logra buenos resultados, pero este es un proceso lento que afecta al rendimiento de la red. De esta
manera Faster R-CNN, usa "Region Proposal Network", también conocido como RPN, lo cual hace que
se vuelva un proceso mucho más rápido.
14
Este detector funciona de la siguiente manera, toma una imagen como entrada a una red convolucional
que proporciona un mapa de características convolucional. Luego la RPN toma este mapa de
características como entrada y genera un conjunto de propuestas de objetos, cada una con una
puntuación de objetividad como salida. Posteriormente, se envían todas estas regiones de propuesta a
una capa de agrupación RoI, para que reduzca todas las propuestas al mismo tamaño. Finalmente, se
realiza el mismo procedimiento que en los detectores anteriores, las propuestas se pasan a una capa
totalmente conectada que tiene una capa de Softmax y una capa de regresión lineal, para clasificar y
generar los cuadros delimitadores para los objetos, respectivamente.
3.4.1 Detalles de la Red de Propuestas de Región (RPN)

Su función es proponer múltiples objetos que son identificables en una imagen en particular. Como se
observa en la figura 8, al mapa de características de la red neuronal convolucional se le aplica una serie
de redes pequeñas llamadas ventanas deslizantes, las cuales poseen anclas, definidas como el centro de
la ventana deslizante.
Para cada imagen, la escala y la relación de aspectos son parámetros muy importantes, relación de
aspecto = ancho de la imagen / altura de la imagen y la escala es el tamaño de la imagen. En este caso
eligieron la escala 3 y la relación de aspecto 3. Entonces, un total de 9 propuestas son posibles para cada
píxel, así es como se decide el valor de k, K = 9 para este caso.
Luego a cada una de estas ventanas deslizantes se le asignará una característica de menor dimensión,
representada en la figura 6 como la capa intermedia. Luego esta capa alimentará paralelamente a dos
capas conectadas, una capa de clasificación de la caja, cls, y la otra con las regresiones de caja, reg. Al
mismo tiempo la ventana deslizante se ira moviendo y cada localización que esta tome se calcularán
posibles regiones de interés, siendo K el número máximo de regiones. Por lo tanto, la capa reg contendrá
las coordenadas de las posibles regiones, mientras que la capa cls contendrá las probabilidades de que
dichas regiones sean objeto o no.
Figura 6. Red de Propuestas de Región (RPN).
3.4.2 Problemas con una Faster R-CNN

Existen diferentes grupos de trabajos en los cuales uno depende del anterior, entonces el rendimiento
del sistema dependerá de cómo funcionó el sistema anterior.
15
Al utilizar las regiones para detectar objetos, el algoritmo requiere analizar muchas veces una imagen
para extraer todos los objetos.
3.5 Mask R-CNN

Mask R-CNN es muy parecido al funcionamiento del Faster R-CNN, ya que ambos utilizan RPN para
encontrar un conjunto de propuestas de objetos. Mask R-CNN construye la rama de máscara
correctamente. Por lo que se obtiene un programa más fácil de implementar y con mejores porcentajes
de aceptación.
Se dividirá este proceso en dos etapas. En el primer proceso, la RPN explora de arriba hacia abajo todos
los mapas de características y propone regiones que pueden obtener objetos. RPN usa anclajes,
mencionados en la explicación del Faster R-CNN, para determinar dónde del mapa de características
debería obtener un objeto y qué tamaño de su cuadro delimitador es.
En esta segunda etapa, otra red neuronal toma las regiones propuestas en la primera etapa, y las asigna
a varias áreas específicas de un nivel de mapa de características, escanea estas áreas y genera clases de
objetos, cuadros delimitadores y máscaras. Este es un procedimiento muy parecido al que se realiza en
RPN, pero en este caso se utiliza una técnica llamada ROIAlign, para ubicar las áreas relevantes del
mapa de características. Paralelamente, hay una rama que genera máscaras para cada objeto en el nivel
de píxeles.
3.6 Detector multibox de disparo único SSD

Para comprender mejor el detector Multibox de disparo único, se analizará primero el modelo de red
convolucional VGG-16, el cual construye gran parte del SSD.
3.6.1 Red neuronal convolucional VGG-16

Es un modelo de red neuronal convolucional, el cual alcanza el 92.7% de precisión. Posee algunas
mejoras con respecto a otras redes neuronales convolucionales, como el reemplazo de los filtros
grandes, por múltiples filtros de tamaño 3x3.
Figura 7. Red neuronal convolucional VGG-16.
16
En la figura 7, se puede observar la arquitectura de la VGG-16. La entrada a la capa conv1 es una imagen
fija de 224x224 RGB. Luego la imagen pasa por varias capas convolucionales (casillas negras), en las
cuales destacan la conv4 y conv5. Al pasar la imagen por estas capas se usa un filtro muy pequeño de
3x3. La capa conv4, entrega mapas de características beneficiosos para detectar objetos a larga
distancia. Además, la capa conv5, extrae características más representativas presentes en la imagen, de
esta manera entrega mejores resultados para objetos a corta distancia.
Posteriormente, la agrupación espacial se lleva a cabo mediante cinco capas Max Pooling (casillas en
rojo), que siguen algunas de las capas convolucionales. Esta agrupación se realiza en una ventana de
2x2 pixeles.
Después de las capas convolucionales y Max Pooling, siguen tres capas totalmente conectadas (FC).
Todas las capas ocultas están equipadas con una función de activación ReLu (casillas en azul).
Debido a su profundidad y la cantidad de nodos totalmente conectados, VGG-16 se hace una tarea muy
difícil de implementar, a causa de un largo entrenamiento. VGG-16 se usa en muchos problemas de
clasificación de imágenes de aprendizaje profundo.
3.6.2 SSD
Como ya se conoce el funcionamiento del modelo VGG-16, se podrá comprender mejor este detector, el
cual esta diseño para detectar objetos en tiempo real. Como bien se vio anteriormente, Faster R-CNN
utiliza el proceso RPN para proponer regiones de interés. SSD elimina este proceso y compensa esta
caída en precisión, aplicando algunas mejoras que incluyen características de escala múltiple y cuadros
predeterminados. Además, utiliza imágenes de resolución más baja.
La detección de objetos SSD se compone de 2 etapas:
- Extraer mapas de características.

- Aplicar filtros de convolución para detectar objetos.
Como se mencionó anteriormente, SSD utiliza VGG-16 para extraer mapas de características. Luego,
detecta objetos utilizando la capa conv4. Para cada celda realiza 4 predicciones de objetos, como se
observa en la figura 8. Cada predicción se compone de un cuadro de límite. SSD reserva una clase 0 para
indicar que no tiene objetos. En cada cuadro de límites seleccionamos la puntuación más alta como la
clase para el objeto delimitado.
Hacer múltiples predicciones que contienen cuadros de límites y puntuaciones de confianza se llama
Multibox.
Como SSD no usa RPN, en lugar de esto, calcula la ubicación de las clases utilizando filtros de
convolución pequeños. Al usar VGG-16, se aplican 3x3 filtros de convolución para cada celda, y
posteriormente realiza las predicciones. En el caso de la capa conv4, se aplican cuatro filtros de 3x3,
para asignar 512 canales de entrada a 25 canales de salida.
17
Figura 8. Predicción de objetos.
Mapa de características de escala múltiple
SSD utiliza varias capas para detectar objetos de forma independiente. Como bien se mencionó
anteriormente SSD usa capas de resolución más baja para detectar objetos de mayor escala. Por
ejemplo, los mapas de característica de 4x4 se utilizan para objetos de mayor escala.
Figura 9. Arquitectura de una VGG-16.
En la figura 9, se puede observar la arquitectura. Además de la VGG-16, SSD agrega 6 capas de

convolución. Cinco serán utilizadas para la detección de objetos. En tres de esas capas se hacen 6
predicciones en lugar de 4. En total SSD hace 8732 predicciones usando 6 capas.
Cuadro de límites predeterminados.
Al principio para predecir los cuadros límites, se puede usar el descenso de gradiente para optimizar el
modelo. Los resultados empíricos indican que el entrenamiento temprano puede ser muy inestable.
SSD posee una ventaja, en la que si las predicciones cubren varias formas en una celda, el modelo podrá
detectar más tipos de objetos. Esto hace que el entrenamiento sea mucho más fácil y estable.
En la vida real, los cuadros de límites no tienen formas y tamaños arbitrarios. En general los cuadros
de límites se pueden dividir en grupos de cada clase, para que cada clase esté representada por un
18
cuadro de límite predeterminado. Estos cuadros predeterminados se preseleccionan manualmente y

con cuidado para cubrir un amplio espectro de objetos de la vida real.
Para cada capa de mapa de característica SSD elige un cuadro de límites predeterminado, según la
escala de esta capa. Por ejemplo, conv4 detecta objetos en la escala más pequeña, por ende, según la
relación entre la escala con los aspectos del objeto, se podrá determinar la altura y el ancho de los
cuadros predeterminados.
De aquí, los mapas de características de mayor resolución son responsables de detectar objetos
pequeños. La primera capa para la detección de objetos conv4_3 tiene una dimensión espacial de 38 ×
38, una reducción bastante grande de la imagen de entrada. Por lo tanto, el SSD generalmente funciona
mal para objetos pequeños en comparación con otros métodos de detección. Si es un problema,
podemos mitigarlo utilizando imágenes con mayor resolución.
3.7 MobileNet
Es una nueva familia de la red neuronal convolucional. MobileNet es muy utilizado en el análisis de
videos en tiempo real, ya que posee una alta eficiencia. Su funcionamiento es muy parecido a una CNN,
excepto la etapa de convolución.
En la primera capa se aplica un filtro a todos los canales de la imagen de entrada (para una imagen RGB,
serán 3 canales). Desliza este filtro a través de los 3 canales de entrada de la imagen, para extraer
características y para combinar todos los canales entradas. ¿Pero de qué manera la combina? Si la
imagen tiene 3 canales de entrada, al ejecutar un solo filtro de convolución a través de esta imagen se
obtiene una imagen de salida con solo 1 canal por píxel, como se observa en la figura 10.
Por lo tanto, para cada píxel de entrada, sin importar cuántos canales tenga, la convolución escribe un
nuevo píxel de salida con un solo canal. (En la práctica, se ejecutan muchos filtros de convolución a
través de la imagen de entrada. Cada filtro tiene su propio canal en la salida).
Figura 10. Convolución normal.
Luego de realizar esta convolución en la primera capa, vienen las siguientes convoluciones
denominadas como convolución profunda y convolución puntual, las cuales consisten en:
- Convolución profunda: A diferencia de una convolución normal (de CNN), no combina los
canales de entrada, sino que realiza la convolución en cada canal por separado. Para una
19
imagen con 3 canales, una convolución en profundidad crea una imagen de salida que también
tiene 3 canales, como se ve en la figura 11. Cada canal tiene su propio conjunto de pesos. El
propósito de la convolución en profundidad es filtrar los canales de entrada. Piense en la
detección de bordes, el filtrado de colores, etc.
Figura 11. Convolución profunda.
- Convolución puntual: Viene después de la convolución profunda. esto realmente es lo mismo

que una convolución normal pero con un filtro de 1 × 1, como se ve en la figura 12. En otras
palabras, esto simplemente suma todos los canales (como una suma ponderada), la cual tiene
el propósito de combinar los canales de salida de la convolución profunda para crear nuevas
funciones.
Figura 12. Convolución puntual
Cuando se juntan estas dos cosas, una convolución en profundidad seguida de una convolución puntual,
el resultado se denomina convolución separable en profundidad. Una convolución normal de CNN
realiza tanto el filtrado como la combinación de una sola vez, pero con una convolución separable en
profundidad, estas dos operaciones las realiza como pasos separados. Además, se debe mencionar que
todas las capas convolucionales están seguidas por una función de activación ReLU.
Estas convoluciones separables continúan por un tiempo hasta que la imagen original de 224 × 224 se
reduce a 7 × 7 píxeles pero ahora tiene 1024 canales. Después de esto, hay una capa de agrupamiento
promedio que funciona en toda la imagen, de modo que terminamos con una imagen de 1 × 1 × 1024,
que en realidad es solo un vector de 1024 elementos.
Este proceso que realiza la convolución separable tiene el efecto de reducir drásticamente el cálculo y
el tamaño del módulo.
20
Si se utiliza MobileNets como un clasificador, por ejemplo, en ImageNet que tiene 1000 categorías
posibles, entonces la capa final es una capa completamente conectada con un Softmax y 1000 salidas.
Si se quisiera usar MobileNets en un conjunto de datos diferente, o como un extractor de características
en lugar de un clasificador, se usaría otra capa final en su lugar.
3.8 ¿Qué es una MobileNet-SSD?

Al combinar los dos algoritmos, se tiene que SSD coloca cuadros en toda la imagen, con esta detección
de objetos, se quiere saber no solo las características de alto nivel sino también las de nivel inferior.
Dado que la detección de objetos es más complicada que la clasificación, SSD agrega muchas capas
convolucionales adicionales en la parte superior de la red base. Por eso es importante contar con un
extractor de características que sea rápido, y eso es exactamente lo que es MobileNet.
Luego, el trabajo de las capas de MobileNet es convertir los píxeles de la imagen de entrada en
características que describen el contenido de la imagen y pasarlos a las otras capas. Por lo tanto,
MobileNet se utiliza aquí como un extractor de características. Además de realizar esta extracción
MobileNet se puede usar para realiza la clasificación.
La combinación de estos dos algoritmos hace este mecanismo sea muy poderoso y útil. Para usar este
modelo utilizaremos distintas librerías, dependientes de PYTHON. Las cuales son:
-Pillow es una biblioteca de manipulación de imágenes que le permite trabajar de manera

eficiente.
-Lxml permite trabajar en xml y html.
-Jupyter es una aplicación para ejecutar código Python (lo usaremos como ejemplo)
-Matplotlib permite dibujar gráficos y es usado por muchas otras bibliotecas. Como en matlab.
-OpenCV es una de las bibliotecas de análisis de imágenes más utilizadas. Muy potente y
robusto, implementa muchos algoritmos recientes.
-Tensorflow es la biblioteca de aprendizaje profundo de Google.
21
Conclusiones
Como bien se sabe hoy en día, la sociedad está pasando por un difícil momento en el área de la
delincuencia, por esta razón es muy importante que se generen distintos mecanismos para combatir
este tema. La implementación del Deep Learning será fundamental, ya que el reconocimiento de
personas en tiempo real, puede ser usado en variados sectores de investigación y de esta manera
reducir drásticamente la delincuencia.
Debido a la larga investigación que se realizó respecto al uso de los distintos modelos a implementar,
se puede observar claramente que la mejor opción para adaptarse a nuestros recursos computacionales
es la del Modelo MobileNet-SSD. Ya que este presenta un buen equilibrio en cuanto a precisión y
velocidad, además del poco costo computacional que requiere.
Para los trabajos a realizar en el futuro, serán difíciles de implementar, debido a la dificultad que
presenta el reconocimiento de personas, ya que esta puede tomar diferentes posiciones, formas,
contrastes y en algunos casos confundir diferentes objetos.
Analizando las diversas aplicaciones en donde está siendo utilizado el reconocimiento de imágenes y
este largo proceso computacional que se realiza para llevar a cabo este proceso, es que comprendemos
lo valioso que es un ser humano, debido a que este puede realizar el mismo proceso, con una alta
precisión en tiempos muy cortos
22
4 Referencias
[1] C. K. Alexander y M. Sadiku, Circuits, Fundamentals of Electric, McGraw-Hill College, 2003.
[2] E. S. Atienza, «TRABAJO FIN DE GRADO: DETECCIÓN DE PERSONAS MEDIANTE REDES

CONVOLUCIONALES,» UNIVERSIDAD AUTÓNOMA DE MADRID, 2017.
[3] I. n. d. e. INE, «Encuesta Nacional Urbana de Seguridad Ciudadana 2017,» Mayo 2018.
[4] s. y. t. d. C. C. Camara nacional de comercio, «VICTIMIZACIÓN DEL COMERCIO DEL PRIMER

SEMESTRE 2018,» 2018.
[5] J. hui, «Detección de objetos SSD: Detector MultiBox de disparo único para procesamiento en
tiempo real,» 2018.
[6] L. R., «Enfoque: MobileNet-SSD, para identificar objetos con una cámara de teléfono inteligente!,»
2018.
[7] P. sharma, «Una introducción paso a paso a los algoritmos básicos de detección de objetos,» 2018.
[8] X. Zhang, «Entendimiento simple de la Mask RCNN,» 2018.
[9] M. u. Hassan, «VGG16 - Red Convolucional para Clasificación y Detección,» 2018.
[10] J. Xu, «Uso de aprendizaje profundo para el reconocimiento de objetos,» 2018.
[11] «Por primera vez en japón, una universidad usa tecnología de reconocimiento facial para verificar
asistencia.,» International Press, 12 abril 2019.
23

Mesa 1 JJFG

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Mesa 1 JJFG

Încărcat de

Drepturi de autor:

Formate disponibile

Juan José Fuenzalida González

Diseño e Implementación de un sistema

Escuela de Ingeniería Eléctrica

Juan José Fuenzalida González

Informe 1 para optar al título de Ingeniero Civil Electrónico,

Sr. Gabriel Enrique Hermosilla Vigneau.

Sr. Gonzalo Farías Castro

Sr. Sebastián Fingerhuth Massmann

Valparaíso, 24 de abril del 2019

Posteriormente, se continuará exponiendo la red neuronal convolucional basada en regiones R-CNN,

2 Estado del arte ...................................................................................................................................... 4

3 Modelos de redes neuronales convolucionales..................................................................... 10

3.2.1 Problemas de la RCNN (no se si ponerlo) ................................................................................................13

Para avanzar en términos de seguridad como sociedad, es imprescindible usar la tecnología.

1.2 Contextos y problemas.

1.2.1 Cámara de comercio, servicios y turismo de Chile (CNC): Victimización del

1.2.2 Encuesta Nacional Urbana de Seguridad Ciudadana 2017

1.3 Como atacar el problema.

2.1 Introducción al Deep Learning.

2.1.1 Inteligencia Artificial

2.1.2 Machine Learning.

Otro tipo de aprendizaje es el aprendizaje no supervisado, en este caso a la maquina se le entregan

2.1.3 Deep Learning

Figura 1. Estructura del Deep Learning.

2.3 Avances tecnológicos del Deep Learning.

2.3.1 Reconocimiento facial en aeropuertos

2.3.2 Utilizacion de reconociemiento facial para verificar asistencia en Universidad de

2.3.3 Instagram permitirá leer las fotografías a través de inteligencia artificial

2.5.1 Carta Gantt para el primer semestre.

MES MARZO-ABRIL MAYO JUNIO

Estudio redes neuronales R-CNN

2.5.2 Carta Gantt para el segundo semestre.

MES Septiembre Octubre Nobiembre Diciembre

3.1 Redes Neuronales Convolucionales (CNN)

Figura 2. Arquitectura de una CNN.

3.1.1 Operación de convolucion.

Figura 3. Etapa de convolución

Los parámetros importantes de nuestra capa convolucional son los siguientes:

3.1.2 Agrupacion o pooling

3.2 Red neuronal convolucional basada en regiones (R-CNN)

Figura 4. Redes neuronales convolucionales basada en regiones.

3.2.1 Problemas de la RCNN (no se si ponerlo)

 Extracción de 2,000 regiones para cada imagen basada en búsqueda selectiva.

3.3 Fast R-CNN

Figura 5. Proceso de una Fast R-CNN.

3.3.1 Problemas de la Fast R-CNN

3.4 Faster R-CNN

3.4.1 Detalles de la Red de Propuestas de Región (RPN)

Figura 6. Red de Propuestas de Región (RPN).

3.4.2 Problemas con una Faster R-CNN

3.5 Mask R-CNN

3.6 Detector multibox de disparo único SSD

3.6.1 Red neuronal convolucional VGG-16

Figura 7. Red neuronal convolucional VGG-16.

La detección de objetos SSD se compone de 2 etapas:

- Extraer mapas de características.

Figura 8. Predicción de objetos.

Mapa de características de escala múltiple

Figura 9. Arquitectura de una VGG-16.

En la figura 9, se puede observar la arquitectura. Además de la VGG-16, SSD agrega 6 capas de

Cuadro de límites predeterminados.

cuadro de límite predeterminado. Estos cuadros predeterminados se preseleccionan manualmente y

Figura 10. Convolución normal.