TRANSFERENCIA DE ESTILO BIMODAL DE TEXTO A IMÁGENES USANDO MODELOS GENERATIVOS PROFUNDOS
Abstract
El campo de las redes neuronales se ha convertido en una de las áreas más importantes de la inteligencia artificial por su capacidad de solucionar problemas comunes con una gran precisión. Esto ha llevado a abordar nuevas arquitecturas y modelos para problemas más complejos como es el caso de la transferencia de estilo neuronal. En este problema, se busca generar una imagen mezclando el estilo de una y el contenido de otra. En esta memoria se propone una nueva investigación y metodología para realizar transferencia de estilo bimodal utilizando como entrada un texto. La metodología consiste en tres sub-modelos donde inicialmente se recupera una imagen de contenido usando una representación multimodal de imágenes y texto en un mismo espacio latente a través de una proyección de sus representaciones. Luego, se extrae la imagen de estilo a través de un modelo de Image Retrieval, para finalizar con un modelo generativo que permite generar imágenes artísticas combinando el estilo y contenido de ambas imágenes a través de una optimización de sus funciones de loss. De esta forma, se logran recuperar imágenes semánticamente similares a las descripciones, logrando buenas medidas de precisión (Median rate) en la recuperación de imágenes del dataset SemArt. También, se logran obtener imágenes de buena calidad en el modelo de transferencia de estilo neuronal, mezclando correctamente el estilo de una imagen con el contenido de otra dependiendo de los pesos utilizados. Por último, se plantean los trabajos futuros a realizar en el modelo y la documentación para poder replicar el sistema. The field of neural networks has become one of the most important areas in artificial intelligence due to their great capacity of solving common problems with great precision. This had led to the propposal of novel arquitectures and models in order to tackle more complex problems as neural style transfer. In this problem, the goal is to generate an image, mixing the style from one of them with the content from the other. In this article we propose a novel research and metodology to achieve bimodal style transfer using text as input. The metodology consists in three sub models where we initially retrieve one content image and a text, which are then mapped into a multimodal common latent space through the projection of their attributes. Then, an image is extracted through an image retrieval model, to conclude with a generative model which allows to create artistic images, by the combination of content and style from both images by the optimization of their loss functions. Thus, this work retrieve semantically similar images with respect to the query description, achieving great precision rates (Median rate) in image retrieval applied to the SemArt dataset. Additionally, the transfer style neural model preserves the image's high quality, combining style and content in a correct manner dependings on the weights used. Finally, we discuss future work with respect to the model and the system is documented in order to replicate the experimentation.