CREIXELL FUENTES, WERNER UWEANTONCICH LOYOLA, LUCASABDELHAMID, MOHAMED2024-10-312024-10-312021-12https://repositorio.usm.cl/handle/123456789/63262Recientemente, el desarrollo de la Inteligencia Artificial ha avanzado de manera explosiva, impactando varios campos de la ingeniería muy rápidamente. En este trabajo de título se explora el desarrollo de soluciones basadas en Inteligencia Artificial para la extracción de información desde documentos con estructuras heterogénea. El objetivo final del trabajo es diseñar e implementar un flujo computacional capaz de extraer los datos relevantes de documentos de liquidaciones de sueldo provistos por los clientes de un banco Chileno. De las soluciones exploradas, se escoge la solución basada en la arquitectura transformer llamada LayoutXLM, que consiste en una red neuronal que utiliza el encoder del transformador, modificado para incluir información visual del documento en su representación interna. La red fue pre-entrenada en un conjunto de 11 millones de documentos por la compañía Microsoft, la cual liberó el modelo para uso público en internet. En este trabajo, modelo es entrenado en un conjunto de liquidaciones etiquetado utilizando un software desarrollado específicamente con este propósito, el cual permite la retroalimentación del mismo modelo para generar un etiquetado asistido por IA. Finalmente el modelo es incorporado dentro de un flujo de procesamiento para generar extracción de información de extremo a extremo, de manera de facilitar una posterior implementación dentro de una linea de operación del banco.CLASIFICACIÓN ROBUSTADOCUMENTOS CON ESTRUCTURA HETEROGÉNEAEXTRACCIÓN Y CLASIFICACIÓN ROBUSTA DE INFORMACIÓN DESDE DOCUMENTOS CON ESTRUCTURA HETEROGÉNEATesis de Pregrado19405511UTFSM