Thesis EXTRACCIÓN Y CLASIFICACIÓN ROBUSTA DE INFORMACIÓN DESDE DOCUMENTOS CON ESTRUCTURA HETEROGÉNEA
Loading...
Date
2021-12
Authors
Journal Title
Journal ISSN
Volume Title
Program
DEPARTAMENTO DE ELECTRÓNICA. INGENIERÍA CIVIL ELECTRÓNICA
Campus
Casa Central Valparaíso
Abstract
Recientemente, el desarrollo de la Inteligencia Artificial ha avanzado de manera
explosiva, impactando varios campos de la ingeniería muy rápidamente. En este trabajo
de título se explora el desarrollo de soluciones basadas en Inteligencia Artificial para la
extracción de información desde documentos con estructuras heterogénea. El objetivo
final del trabajo es diseñar e implementar un flujo computacional capaz de extraer los
datos relevantes de documentos de liquidaciones de sueldo provistos por los clientes
de un banco Chileno. De las soluciones exploradas, se escoge la solución basada en la
arquitectura transformer llamada LayoutXLM, que consiste en una red neuronal que utiliza
el encoder del transformador, modificado para incluir información visual del documento
en su representación interna. La red fue pre-entrenada en un conjunto de 11 millones
de documentos por la compañía Microsoft, la cual liberó el modelo para uso público en
internet. En este trabajo, modelo es entrenado en un conjunto de liquidaciones etiquetado
utilizando un software desarrollado específicamente con este propósito, el cual permite la
retroalimentación del mismo modelo para generar un etiquetado asistido por IA. Finalmente
el modelo es incorporado dentro de un flujo de procesamiento para generar extracción de
información de extremo a extremo, de manera de facilitar una posterior implementación
dentro de una linea de operación del banco.
Description
Keywords
CLASIFICACIÓN ROBUSTA, DOCUMENTOS CON ESTRUCTURA HETEROGÉNEA