Thesis Una arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales
Loading...
Date
2023-07-22
Authors
Journal Title
Journal ISSN
Volume Title
Program
DEPARTAMENTO DE INFORMÁTICA. MAGÍSTER EN CIENCIAS DE LA INGENIERÍA INFORMÁTICA
Campus
Casa Central Valparaíso
Abstract
Este estudio, trata con problemas de clasificación donde las etiquetas forman una jerarquía, de conceptos más generales a categorías más específicas. Para abordar este problema, se ha vuelto popular el uso de Redes Neuronales Convolucionales (CNN) que utilizan ramas especializadas por cada nivel de la jerarquía. Tanto para tareas del área de Visión Computacional como en otras. Sin embargo, la consistencia de la clasificación sigue siendo un problema: las clases predichas en diferentes niveles a menudo no respetan las restricciones de clase-subclase codificadas por la jerarquía. Han surgido en la literatura distintos patrones de conectividad entre ramas para tratar con esta limitación. Nosotros proponemos un enfoque más simple y flexible: dejar que la red neuronal decida como se deben conectar dichas ramas. Lo anterior se logró formulando un mecanismo atencional que determina dinámicamente como las ramas se influencian entre ellas durante el entrenamiento e inferencia.
La hipótesis asociada, es que la introducción de un mecanismo atencional para combinar representaciones intermedias extraídas de distintas profundidades de una red convolucional, permitirá mejorar el desempeño del model en problemas de de clasificación jerárquica con respecto a modelos presentes en el estado del arte.
Los experimentos realizados con datasets ampliamante utilizados para clasificación de imágenes, demostraron que el modelo propuesto puede superar el estado del arte en términos de métricas de rendimiento jerárquicas y consistencia. Además, pese a que lo anterior genera en algunos casos un rendimiento ligeramente inferior en el nivel más profundo de la jerarquía, el modelo predice con mucha más precisión la relación entre un concepto y sus ancestros. Este resultado sugiere que el modelo no solo aprende las pertencencias a clases locales, sino también las dependencias jerárquicas entre conceptos, lo que confirma la hipótesis estudiada.
Description
Keywords
APRENDIZAJE PROFUNDO, CLASIFICACION JERARQUICA, REDES NEURONALES CONVOLUCIONALES, MECANISMOS DE ATENCION