Sunteți pe pagina 1din 3

Evaluación de técnicas de aprendizaje de maquina

para la identificación de imágenes de edificios


históricos de la ciudad del Cusco basado en
Bag-Of-Words y Redes Neuronales Convolucionales
Jeanfranco David Farfan-Escobedo
Escuela Profesional de Ingenierı́a Informática y de Sistemas
Universidad Nacional de San Antonio Abad del Cusco, Peru
Email: jeanfrancodfe@gmail.com

Abstract—Actualmente existen muchas técnicas de aprendizaje decir, objetos transitorios(personas, vehı́culos y otros) ocultan
de máquina efectivas durante la tarea de clasificación. Sin la imagen de análisis.
embargo, existe la necesidad de identificar que técnica destaca Por lo visto anteriormente se muestra que los métodos más
por encima del resto. Por consiguiente, es necesario evaluar un
conjunto de técnicas de aprendizaje de máquina en un escenario utilizados al abordar problemas como el estilo arquitectonico,
desafiante. En particular, el escenario seleccionado en este trabajo reconocimiento visual de lugares y el reconocimiento de
corresponde al reconocimiento de edificios a partir de imágenes, objetos a partir de la base de datos ImageNet son Bag-of-
para ello es necesario evaluar técnicas de aprendizaje de máquina words y Redes Neuronales Convolucionales. Ası́ mismo, para
que resuelvan este tipo de problemas de una manera más precisa. identificar de forma precisa edificios históricos de la ciudad
Se propone evaluar técnicas de aprendizaje de máquina como
Support Vector Machine, Random Forest, Neuronal Network y K- del Cusco existe la necesidad de comparar estos métodos.
Nearest Neighbod, a partir de métodos basados en Bag-of-Words De forma similar, se utiliza un conjunto de métricas de
y Redes Neuronales Convolucionales, para obtener vectores de aprendizaje (Accuracy, Recall, Precisión y F1 Score)[2] para
caracterı́sticas efectivos y realizar un reconocimiento de edificios evaluar un grupo de técnicas de aprendizaje de máquina
preciso. Por último, se espera que los resultados permitan una (Support Vector Machine, Random Forest, k Nearest Neighbor
mejor comprensión de las técnicas de aprendizaje de máquina
aplicado al problema del reconocimiento de edificios de la ciudad y Neural Network), para identificar la técnica más adecuado
del Cusco. durante esta tarea. Además, con la finalidad de apoyar a la
Keywords—Deep Learning, Aprendizaje de Máquina, Re- comunidad cientı́fica de visión computacional, se recolecto una
conocimiento de Edificios, Bag-of-Words, Redes Neuronales Con- base de datos de imágenes de edificios históricos de la ciudad
volucionales, Transfer Learning del Cusco; estas imágenes presentan desafı́os como: rotación,
condiciones de iluminación variada, capturas de diferentes
I. I NTRODUCCI ÓN angulos, oclusiones y otros. De esta forma, esta es la primer
base de datos de edificios históricos de la ciudad del Cusco
El reconocimiento de imágenes se ha convertido en uno de que sera utilizada con fines de investigación sin costo alguno.
los desafı́os ms discutidos en los últimos aos. En particular, La construcción del conjunto de datos para la fase de
esto se debe a la amplia gama de aplicaciones, por ejemplo, entrenamiento y prueba exigı́a recolectar imágenes de edifi-
Robots de navegación, vehı́culos autónomos, realidad aumen- cios históricos de la ciudad del Cusco. Sin embargo, por el
tada y otros. Con el desarrollo de enfoques de aprendizaje arduo trabajo que esta tarea representa, se limita el número
profundo, la investigacin sobre reconocimiento de edificios se de edificios históricos de interés a 14, estos son: La Casa
ha vuelto ms intensivo[1]. del Inca Garcilaso de la Vega, La Catedral del Cusco, La
El reciente éxito de aplicaciones que utilizan técnicas de Compania de Jesús, El Coricancha, El Cristo Blanco, El
aprendizaje de máquina genera una necesidad, identificar que Templo de la Merced, El Mural de Historial Inca, La Paccha
técnica destaca por encima del resto. Sin embargo, la verdadera de Pumaqchupan, La Pileta de San Blas, El Monumento del
dificultad de estas técnicas radica en el escenario de prueba. Inca Pachacutec, Sacsayhuaman, La Iglesia de San Francisco,
En particular, en este trabajo el escenario seleccionado es el re- La Iglesia de San Pedro y La Iglesia de Santo Domingo.
conocimiento de imágenes de edificios históricos de la ciudad Ası́ mismo, durante el proceso de clasificación de imágenes
del Cusco, De igual modo, uno de los desafı́os mas importantes de edificios históricos, se limita el número de técnicas de
es diferencias edificios históricos visualmente similares (por aprendizaje de máquina, estos son: Support Vector Machine,
ejemplo, imágenes de iglesias), Ası́ mismo, muchos eventos Neural Network, K-Nearest Neighbors y Random Forest. De
son realizados en la ciudad del Cusco tales como el Inti Raymi, forma similar, el numero de metricas a utilizar se limita a 4,
Corpus Christi y otros; estos eventos generan oclusiones. Es estas son: Accuracy, Recall, Precision y F1 Score.
II. M ATERIALES Y M ETODOLOG ÍA históricos de la ciudad del Cusco.
Para solucionar este problema se utiliza el método de in- Las técnicas de aprendizaje de máquina seleccionados en
vestigación descriptivo para recopilar y comparar información este trabajo son: Support Vector Machine (SVM), Random
existente. Además, a partir de la identificación de la técnica Forest (RF), K-Nearest Neighbors (kNN) y Neural Network
de aprendizaje de máquina más óptima el problema adquiere (NN). Estos toman como entrada un conjunto de datos como
una naturaleza aplicativa. son feature vectors y etiquetas. Estas técnicas tienen por
objetivo realizar un proceso de aprendizaje, construcción del
A. Descripción de las fases modelo y evaluación sobre un conjunto de datos de prueba.
Es necesario mencionar que las salidas de los métodos Bag-
El reconocimiento de imágenes de edificios históricos de la
of-Words y redes neuronales convolucional tienen las mismas
ciudad del Cusco se resuelve a partir de dos fases:
caracterı́sticas. Por lo tanto, se utiliza las mismas técnicas de
• La primera fase (Entrenamiento y construcción del mod-
aprendizaje de máquina durante este proceso.[5]
elo) tiene por objetivo aprender las particularidades de
una imagen de un edificio histórico de la ciudad del III. R ESULTADOS
Cusco.
• La segunda fase (Predicción) tiene por objetivo pronos-
A. Base de Datos
ticar a que categorı́a pertenece una imagen de consulta. La evaluación de los métodos propuestos se realiza uti-
1) Entrenamiento y construcción del modelo: En esta etapa lizando la primera versión de la base de datos CuscoBID,
se extraen todas las caracterı́sticas relevantes de una imagen y este conjunto consta de 14 clases de edificios históricos en la
estas son cuantificadas a través de la construcción de un mod- ciudad de Cusco. Esta primera versión contiene 2000 imgenes,
elo clasificador. Esta fase se resuelve a partir de dos técnicas algunas de ellas tomadas de varios sitios web, y otras cap-
como son Bag-of-Words o redes neuronales convolucionales. turadas con diferentes condiciones fotométricas. Asimismo,
2) Bag-of-Words: Antes de empezar con esta etapa, se esta base de datos se ampli a una segunda versión; esta vez
realiza un preprocesamiento, las imagenes son redimension- que contiene por 4560 imágenes de los 14 edificios anteriores,
adas a un tamano de 300 300. A partir de esta entrada se algunas imgenes de esta base de datos se muestran en la Fig.
utiliza el modelo Bag-of-Words. Este se divide en 3 fases: 1.
Extracción de caracteristicas, construcción del codebook y
representación de la imagen, Finalmente se realiza un proceso
de clasificación.[1]
3) Codebook: El objetivo del codebook es encontrar las
palabras visuales más representativas de cada clase. Para su
construcción se toma como entrada los vectores de carac-
terı́sticas extraı́dos en la etapa anterior, mientras que para
identificar las palabras visuales más representativas se utiliza
un algoritmo de agrupación, el más utilizado es el algoritmo k-
means, siendo los centroides de cada cluster la palabra visual
mas representativa de cada clase.[3]
4) Redes Neuronales Convolucionales (CNN): Además del
modelo Bag-of-Words, en este trabajo se utiliza otra técnica
durante la fase de Entrenamiento y Construcción del modelo,
como son las redes neuronales convolucionales. Sin embargo,
implementar una arquitectura CNN desde cero trae problemas
como: Una fase de entrenamiento costosa, hardware especial-
izado e inicialización de los parámetros. Por consiguiente, en
este trabajo se utiliza una técnica conocida como Transfer
Learning, esta permite utilizar un arquitectura de red neuronal
convolucional previamente entrenada y ajustar el modelo con
una base de datos personalizada. En otras palabras, el modelo
pre-entrenado se utiliza como un extractor de caracterı́sticas.
En especı́fico, en este trabajo se utilizan varias arquitecturas
pre-entrenadas de redes neuronales convolucionales desarrol- Fig. 1. Algunas imágenes de la segunda versión de Cusco Building Image
Dataset
ladas durante el ImageNet Challenge.[4]
5) Clasificación: En este trabajo se utilizan 4 técnicas
de aprendizaje de máquina para medir el desempeno de los B. Resultados e interpretaciones
modelos Bag-of-Words y redes neuronales convolucionales, A partir de los resultados de la fig 2. se puede observar que
en un escenario de clasificación de imágenes de edificios la técnica de aprendizaje de máquina Support Vector Machine
obtiene los resultados mas elevados en un escenario de identi- IV. D ISCUSI ÓN
ficación de edificios históricos de la ciudad del Cusco (ya sea Los mejores resultados del modelo corresponden a la técnica
utilizando Bag-of-Words o redes neuronales convolucionales), de aprendizaje de máquina Support Vector Machine, Por lo
debido a que los parámetros del kernel se calculan de forma tanto, la técnica de aprendizaje de máquina Support Vector
eficiente a partir de un proceso de búsqueda (Grid Search). Machine basada en el modelo de red neuronal convolucional
Ası́ mismo, los hiperplanos de separación demuestran ser los (en especı́fico InceptionV3 ) es la más óptima al abordar
más efectivos a la hora de separar categorı́as (clases). Por el problema del reconocimiento de imágenes de edificios
otro lado, la técnica Neural Networks presenta un numero históricos de la ciudad del Cusco.
elevado de parámetros, como el numero de capas, el número Ademas como el campo del Deep Learning esta en con-
de neuronas por capa, la funcion de coste y otros; diversos state avance, se recomienda realizar experimentos utilizando
trabajos como [Bashiri and Geranmayeh, 2011] [6]., hacen arquitecturas basadas en Densely Connected Convolutional
mención sobre el hecho de que no hay un método definido Networks (DenseNet), este es un tipo de red neuronal con-
y explı́cito para seleccionar los parámetros óptimos para esta volucional muy similar a ResNet; en ResNet la entrada a la
técnica. Mientras tanto, los parámetros de la técnica Random capa Li se obtiene mediante la suma de las salidas de las capas
Forest se establecieron a partir de los valores seleccionados anteriores. Mientras tanto, en DenseNet la entrada a la capa
del trabajo previo [Biau, 2012][7], en este se consiguen buenos Li se obtiene mediante la concatenación de las salidas de las
resultados utilizando un numero de arboles equivalentes a 500 capas anteriores, como lo describe [Huang et al., 2017][8].
y una profundidad máxima de 50. Sin embargo, en este trabajo As mismo, la razón a utilizar esta arquitectura deep learning
los resultados son pobres comparados con la técnica SVM. basada en DenseNet, es el numero reducido de parámetros y
Finalmente, knn presenta los resultados mas limitados. A pesar el rendimiento elevado durante el desafı́o ImageNet.
de que, la teorı́a indica que el parámetro más óptimo para
k es equivalente a 1. Por lo tanto, knn es la técnica menos R EFERENCES
recomendable a la hora de identificar imágenes de edificios [1] T.-H. Wang, H.-J. Huang, J.-T. Lin, C.-W. Hu, K.-H. Zeng, and M. Sun,
hitóricos. Tambı́en, se espera que trabajos futuros realicen un “Omnidirectional cnn for visual place recognition and navigation,” arXiv
preprint arXiv:1803.04228, 2018.
benchmarking modificando el valor de estos parámetros, para [2] J. D. Farfan-Escobedo, L. Enciso-Rodas, and J. E. Vargas-Mu noz, “To-
elevar los resultados. wards accurate building recognition using convolutional neural networks,”
in Electronics, Electrical Engineering and Computing (INTERCON),
2017 IEEE XXIV International Conference on. IEEE, 2017, pp. 1–4.
[3] J. León-Malpartida, “Transfer learning for general image recog-
nition,” https://github.com/WozMit/Transfer-learning-for-general-image-
recognition, 2018.
[4] S. Garg, N. Suenderhauf, and M. Milford, “Don’t look back: Robustifying
place categorization for viewpoint-and condition-invariant place recogni-
tion,” arXiv preprint arXiv:1801.05078, 2018.
[5] C. Zhu, “Place recognition: An overview of vision perspective,” arXiv
preprint arXiv:1707.03470, 2017.
[6] J. C. Platt, “Probabilistic outputs for support vector machines and com-
parisons to regularized likelihood methods,” in ADVANCES IN LARGE
MARGIN CLASSIFIERS. MIT Press, 1999, pp. 61–74.
[7] K. Simonyan and A. Zisserman, “Very deep convolutional networks
for large-scale image recognition,” in arXiv preprint arXiv:1409.1556v6,
2015.
[8] H. Kaiming, Z. Xiangyu, R. Shaoqing, and S. Jian, “Deep residual
learning for image recognition,” in 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.

Fig. 2. : Comparación de los mejores resultados generados por las técnicas


de aprendizaje de máquina Support Vector Machine, Random Forest, Neural
Network y k Nearest Neighbor.

S-ar putea să vă placă și