Thesis Sistema de reconocimiento visual de productos aplicado al retail
Loading...
Date
2023-07
Journal Title
Journal ISSN
Volume Title
Program
DEPARTAMENTO DE ELECTRÓNICA. INGENIERÍA CIVIL ELECTRÓNICA
Campus
Casa Central Valparaíso
Abstract
El procesamiento digital de imágenes ha experimentado un avance significativo gracias al desarrollo de técnicas
de Deep Learning e inteligencia artificial, lo cual ha revolucionado la forma en que se analizan, interpretan y manipulan
las imágenes. Como resultado, ha ganado mayor relevancia en la transmisión de información, comunicación entre las
personas y en los procesos industriales.
Este trabajo de título se enfoca en el potencial del Deep Learning para la clasificación multiclase, específicamente
para la clasificación de productos. El objetivo es utilizar imágenes de productos y asociarlas con sus códigos únicos
(SKU) proporcionados por una empresa, esto para automatizar la disponibilidad de sus productos en góndolas, ya que el
sistema actual requiere escanear uno a uno los productos, lo cual es un proceso lento y costoso.
Para solucionar esto, se han seleccionado técnicas de reconocimiento de caracteres (OCR) y de relación de
imágenes con texto (CLIP). Estas técnicas se sumarán a un sistema ya desarrollado que detecta bounding boxes de los
productos a partir de fotografías de las góndolas. Al utilizar OCR como filtro y CLIP (usando el modelo RN50) para
determinar el SKU del producto, se logró un promedio de un 89.34% de productos reconocidos correctamente en tres
categorías dadas, con un tiempo promedio inferior a los 0.12 segundos por producto.
A pesar de los buenos resultados obtenidos, existen posibles mejoras que podrían considerarse en el futuro.
Algunas recomendaciones incluyen mejorar el emparejamiento de palabras mediante técnicas avanzadas de coincidencia
de texto basadas en embeddings y explorar la posibilidad de utilizar descriptores visuales para automatizar la creación
de descripciones de productos en el modelo CLIP. Estas mejoras permitirían obtener un sistema más completo y
robusto.
Description
Keywords
RECONOCIMIENTO VISUAL, IA, OCR, RETAIL