Thesis Evaluación del desempeño de nuevos algoritmos PBRL al enfrentarse a profesores que pueden cometer errores
Loading...
Date
2024-03
Journal Title
Journal ISSN
Volume Title
Program
Ingeniería Civil Electrónica
Campus
Campus Casa Central Valparaíso
Abstract
Este trabajo presenta la implementación del benchmark para algoritmos de aprendizaje reforzado basado en preferencias llamado B-Pref en la familia de algoritmos Dueling Posterior Sampling para PBRL. El objetivo de esta investigación es evaluar cuál sistema de asignación de crédito resulta ser más resistente a posibles errores humanos, con la intención de servir como un primer paso para el desarrollo de futuros algoritmos cada vez más robustos al error humano y que por ende puedan ser utilizados por usuarios normales.
El documento detalla desde la revisión del estado del arte en el aprendizaje reforzado basado en preferencias y las adaptaciones que tuvieron que hacerse para la implementación de la prueba hasta los resultados y conclusiones a las que se llegaron al evaluar las decisiones de diseño de DPS y su desempeño en comparación con otros algoritmos como EPMC y PSRL.
Description
Keywords
Aprendizaje reforzado, B-Pref, Benchmark, Preferencias