MECANISMOS BIO-INSPIRADOS APLICADOS A TAREAS DE NAVEGACIÓN EN AGENTES ARTIFICIALES
Abstract
Técnicas de aprendizaje reforzado han sido ampliamente utilizados en la
implementación de navegación autónoma con agentes artificiales, en donde
la tarea implica aprender a localizarse y desplazarse por un ambiente mediante
la interacción con este, buscando un comportamiento que maximice la
recompensa. En la mayoría de los trabajos recientes con agentes autónomos,
la información del ambiente se extrae mediante el uso de redes neuronales
convolucionales, por lo cual las características visuales resultantes del aprendizaje
son desconocidas o inciertas, lo que impone limitaciones considerando
la gran cantidad de parámetros a aprender por el sistema completo. Investigación
acerca de la fisiología de la retina ha sido capaz de caracterizarla no
como un simple transductor de luz a impulsos eléctricos, sino que como un
sistema complejo que realiza una variedad de operaciones sobre la información
visual, preparando los datos para posteriores etapas de procesamiento
en el sistema visual. Se propone un primer modelo de aprendizaje reforzado
que usa los conocimientos de la fisiología de la retina para implementar filtros
que alimentan las capas convolucionales del sistema de aprendizaje reforzado,
evitando la necesidad de la etapa de aprendizaje para las entradas sensoriales.
Un segundo modelo busca atacar el problema del aprendizaje en ausencia
de recompensas, que es prevalente en tareas de mayor complejidad en donde
alcanzar la recompensa puede necesitar de una secuencia específica de acciones.
La motivación intrínseca describe como los individuos son capaces de
aprender una tarea mediante su propio interés, sin necesidad de un estimulo
externo o recompensa posterior. Una forma de modelar esta motivación es
mediante la curiosidad por aquellas situaciones que se desconocen o le son
difíciles de predecir al individuo. Inspirado en esta idea se propone un segundo
modelo que utiliza la incertidumbre acerca del ambiente para realizar un
mejor aprendizaje en las situaciones en que las recompensas son escasas. El
desempeño de los modelos propuestos son evaluados utilizando el ambiente
DeepMind Lab, en donde se simula un agente que se mueve dentro de dos
laberintos diferentes. Los resultados obtenidos revelan un potencial prometedor
para la inclusión de mecanismos biológicamente plausibles en el ámbito
de aplicaciones de inteligencia artificial. Reinforcement learning has been widely used to implement autonomous
navigation in artificial agents, where the the skills of self-localization and traversal
must be learned through interactions with the environment, in order
to achieve a behavior which maximizes the reward. Most of the recent architectures
used in autonomous agents obtain information from the environment
using visual modules implemented by convolutional neural networks, where
the visual features resulting from learning are unknown or uncertain, which
impose limitations considering the large number of parameters to be learned
by the entire system. Research in retina physiology has been able to characterize
it not as a single light-electrical transductor but as a complex device
performing a variety of computations of the visual information, preparing the
data for further stages of processing in the visual system. A first reinforcement
learning model is proposed, that uses retina physiology knowledge to build
filters that feed the convolutional neural network, avoiding the learning stage
in the sensory input. A second model focuses on the problem of learning in
absence of reward, which is prevalent in complex tasks where reaching the
reward may require an specific sequence of actions. Intrinsic motivation describes
how individuals are capable of learning pushed by their own interest,
without the need for external incentives or rewards. One way of modeling this
motivation is by establishing as interesting those situations which are unknown
or hard to predict for the individual. Inspired on this idea a second model is
proposed, which uses the uncertainty about the environment to learn useful
features when the reward is sparse. The performance of the proposed architecture
was evaluated using the DeepMind Lab environment simulating an
agent moving inside two different maze scenarios. The results obtained reveal
promising extension of the inclusion of biological-plausible mechanisms inside
artificial intelligence applications.
Collections
- Arq_paso [212]