MECANISMO DE TOMA DE DECISIONES EMOCIONAL BIOINSPIRADO APLICADO COMO CONTROLADOR DE UN AGENTE AUTÓNOMO

NETTLE VACHER, CRISTÓBAL JESÚS (2016)

Catalogado desde la version PDF de la tesis.

Tesis Pregrado

The present work extends a cortico-basal ganglia (CBG) loops model, a set of cortical and sub-cortical structures related to decision-making processes, through the incorporation of eects associated to type-D1 tonic dopamine levels inside the basal ganglia. Dopamine (DA), neurotransmitter associated to learning and memory related processes, has also been related to behabioral modulations of the trade-o between exploitation and exploration. The resulting model presents multiple parallel loops { considering multiple decision-making at dierent levels {, synaptic plasticity rules that describes reward-based dopaminergic learning, and the modulation of the selection processes to promote exploring new options against exploiting acquired knowledge. To test the behavioral changes on the proposed model in relation to the tonic DA level, a two-choice forced selection task is simulated, considering learning between every selection. Obtained data from the process of selections during the performance of this task eectively shows a modulation of the exploitation-exploration trade-o, just modifying the tonic DA level. Despite the modulation of the behavior (and, in consequence, to the performance), data predicts that changes in the tonic DA levels are transparent with respect to internal signals related to the learning processes. This means that the learning inside CBG loops is produced independently of variations of the tonic dopamine level. Additionally, in order to test the feasibility of using the CBG loops as a decision-making mechanism, and considering that the exploitation-exploration trade-o is essential for a robotic platform, a robot controller is proposed. The controller is used to deal with a tworesources survival task, applied into a MODI (MODular Intelligence) robot. During the performance of this task, the MODI robot has to learn on-line which options are the ones that expands its expected lifetime. Performed simulations shows that the CBG loops model can be applied as a decision-making mechanism, while changes in the tonic DA level modulates the robots survival skills. Obtained data suggests that there is a constant tonic DA level such that the expected lifetime is the highest.

El presente trabajo considera la extensión de un modelo de lazos cortico-ganglios basales (CBG), conjunto de estructuras corticales y subcorticales relacionadas con la toma de decisiones, a través de la integración de efectos asociados al nivel de dopamina tónica (tipo D1). La dopamina (DA), neurotransmisor asociado con procesos de aprendizaje y memoria, se ha relacionado con efectos en el comportamiento con respecto a la razón entre exploración y explotación. El modelo resultante considera características como la consideración de múltiples lazos paralelos { considerando decisiones en múltiples niveles {, reglas de plasticidad sináptica que describen un aprendizaje dopaminérgico basado en recompensas, y la modulación en los procesos de selección sobre la tendencia a la exploración de nuevas opciones, frente a la explotación de conocimiento previamente adquirido. Para evaluar el comportamiento del modelo con respecto a cambios en los niveles de DA, se simula la ejecución de una tarea de selección forzada de dos opciones, considerando aprendizaje entre selecciones. Los datos obtenidos durante los procesos de selección en la realización de esta tarea demuestran variaciones en el comportamiento, en términos de cuanto se promueve la exploración de nuevas opciones en contra de la explotación de la información aprendida, al modificar los niveles de DA tónica. A pesar de esta modificación sobre el comportamiento y el desempeño del modelo, las pruebas realizadas predicen que las señales internas de aprendizaje no se ven modificadas ante variaciones en los niveles de DA. En conjunto, con el fin de evaluar la aplicabilidad del modelo propuesto como mecanismo de toma de decisiones, y en base a la importancia de la regulación entre exploración y explotación en una plataforma robótica, se describe la estructura de un controlador diseñado para enfrentar una tarea de supervivencia de dos recursos, aplicado sobre el robot MODI (MODular Intelligence). Durante la realización de esta tarea, el robot MODI debe aprender en tiempo real cuales son las acciones que le permiten aumentar su esperanza de vida. Mediante simulaciones, se prueba que el modelo es utilizable como mecanismo de toma de decisiones, y que variaciones en los niveles de dopamina tónica modifican las habilidades de supervivencia del robot. Los datos obtenidos sugieren la existencia de un nivel de DA tónica constante tal que maximiza la esperanza de vida alcanzada por el robot.