MULTIPLE OBJECT TRACKING THROUGH DEEP IDEAL SCENE
Abstract
Multiple Object Tracking o Seguimiento de Múltiples objetos en español, es una tarea esencial en el área de visión por computador, su potencial tanto en áreas comerciales,
académicas y de seguridad ha significado que este problema reciba mucha atención en años
recientes. Pese a todo el estudio que se ha realizado sobre este problema, todavía se mantiene como una tarea muy desafiante. Avances en el área de machine y deep learning, han
provocado que estas técnicas sean usadas en problemas de visión por computador, en donde
se han obtenido mejores resultados al compararlo con el uso técnicas clásicas, esto gracias a
su capacidad de modelar y ajustarse a distintos tipos de problemas, siempre y cuando haya
información suficiente para el entrenamiento.
El objetivo principal de Multiple Object Tracking es poder seguir y diferenciar distintos
objetos de interés en una escena. Esta tarea, que es trivial para el razonamiento humano, se
vuelve muy complicada de implementar en un computador. Por ejemplo ¿Como mantenemos
la identidad de cada objeto si estos se cruzan en la escena? ¿Como identificamos un objeto
que ha cambiado de postura o de forma? Estos y otros desafíos son los que se intentan
resolver con los algoritmos de Multiple Object Tracking.
La presente tesis propone un modelo capaz de generar una ideal scene o escena ideal,
donde los problemas de multiple object tracking se simplifican, haciendo más fácil aplicar
algoritmos de asociación objeto-identidad sobre esta.
Con el fin de diseñar una arquitectura capaz de cumplir con la idea propuesta, se estudiaron distintas técnicas de deep learning, tales como las redes convolucionales, redes
recurrentes y redes adversarias.
El modelo propuesto en esta tesis fue probado en múltiples dataset bien conocidos del
área de visión por computador: el MOT Challenge, el Stanford Drone Dataset y el UADetrac Dataset. Para la evaluación del algoritmo diseñado se usaron métricas del estado del
arte. A partir de los resultados de este trabajo de tesis, se envió al journal de Springer Signal,
Image and Video Processing, un artículo titulado Multiple Object Tracking Through Deep
Ideal Scene and Recurrent Neural Networks, el cual se encuentra en proceso de revisión. Los
resultados muestran que la propuesta de la ideal scene tiene un potencial prometedor en el
ámbito de Multiple Object Tracking y posiblemente en otras áreas de visión por computador.