Tapia Pino, David Alejandro Israel2025-02-252025-02-252024-03https://repositorio.usm.cl/handle/123456789/73617Este trabajo presenta la implementación del benchmark para algoritmos de aprendizaje reforzado basado en preferencias llamado B-Pref en la familia de algoritmos Dueling Posterior Sampling para PBRL. El objetivo de esta investigación es evaluar cuál sistema de asignación de crédito resulta ser más resistente a posibles errores humanos, con la intención de servir como un primer paso para el desarrollo de futuros algoritmos cada vez más robustos al error humano y que por ende puedan ser utilizados por usuarios normales. El documento detalla desde la revisión del estado del arte en el aprendizaje reforzado basado en preferencias y las adaptaciones que tuvieron que hacerse para la implementación de la prueba hasta los resultados y conclusiones a las que se llegaron al evaluar las decisiones de diseño de DPS y su desempeño en comparación con otros algoritmos como EPMC y PSRL.64 páginasesAprendizaje reforzadoB-PrefBenchmarkPreferenciasEvaluación del desempeño de nuevos algoritmos PBRL al enfrentarse a profesores que pueden cometer erroresinfo:eu-repo/semantics/openAccess3560900284200