EL REPOSITORIO SE ENCUENTRA EN MARCHA BLANCA

 

Thesis
EXTRACCIÓN Y CLASIFICACIÓN ROBUSTA DE INFORMACIÓN DESDE DOCUMENTOS CON ESTRUCTURA HETEROGÉNEA

Loading...
Thumbnail Image

Date

2021-12

Journal Title

Journal ISSN

Volume Title

Program

DEPARTAMENTO DE ELECTRÓNICA. INGENIERÍA CIVIL ELECTRÓNICA

Campus

Casa Central Valparaíso

Abstract

Recientemente, el desarrollo de la Inteligencia Artificial ha avanzado de manera explosiva, impactando varios campos de la ingeniería muy rápidamente. En este trabajo de título se explora el desarrollo de soluciones basadas en Inteligencia Artificial para la extracción de información desde documentos con estructuras heterogénea. El objetivo final del trabajo es diseñar e implementar un flujo computacional capaz de extraer los datos relevantes de documentos de liquidaciones de sueldo provistos por los clientes de un banco Chileno. De las soluciones exploradas, se escoge la solución basada en la arquitectura transformer llamada LayoutXLM, que consiste en una red neuronal que utiliza el encoder del transformador, modificado para incluir información visual del documento en su representación interna. La red fue pre-entrenada en un conjunto de 11 millones de documentos por la compañía Microsoft, la cual liberó el modelo para uso público en internet. En este trabajo, modelo es entrenado en un conjunto de liquidaciones etiquetado utilizando un software desarrollado específicamente con este propósito, el cual permite la retroalimentación del mismo modelo para generar un etiquetado asistido por IA. Finalmente el modelo es incorporado dentro de un flujo de procesamiento para generar extracción de información de extremo a extremo, de manera de facilitar una posterior implementación dentro de una linea de operación del banco.

Description

Keywords

CLASIFICACIÓN ROBUSTA, DOCUMENTOS CON ESTRUCTURA HETEROGÉNEA

Citation