Thesis
Transferencia de estilo bimodal de texto a imágenes usando modelos generativos profundos

dc.contributor.correferenteGodoy Barrera, Pedro
dc.contributor.departmentDepartamento de Informática
dc.contributor.guiaMendoza, Marcelo
dc.coverage.spatialCampus Santiago San Joaquín
dc.creatorGutiérrez Silva, Diego Ignacio
dc.date.accessioned2024-09-25T16:37:20Z
dc.date.available2024-09-25T16:37:20Z
dc.date.issued2022
dc.description.abstractEl campo de las redes neuronales se ha convertido en una de las áreas más importantes de la inteligencia artificial por su capacidad de solucionar problemas comunes con una gran precisión. Esto ha llevado a abordar nuevas arquitecturas y modelos para problemas más complejos como es el caso de la transferencia de estilo neuronal. En este problema, se busca generar una imagen mezclando el estilo de una y el contenido de otra. En esta memoria se propone una nueva investigación y metodología para realizar transferencia de estilo bimodal utilizando como entrada un texto. La metodología consiste en tres sub-modelos donde inicialmente se recupera una imagen de contenido usando una representación multimodal de imágenes y texto en un mismo espacio latente a través de una proyección de sus representaciones. Luego, se extrae la imagen de estilo a través de un modelo de Image Retrieval, para finalizar con un modelo generativo que permite generar imágenes artísticas combinando el estilo y contenido de ambas imágenes a través de una optimización de sus funciones de loss. De esta forma, se logran recuperar imágenes semánticamente similares a las descripciones, logrando buenas medidas de precisión (Median rate) en la recuperación de imágenes del dataset SemArt. También, se logran obtener imágenes de buena calidad en el modelo de transferencia de estilo neuronal, mezclando correctamente el estilo de una imagen con el contenido de otra dependiendo de los pesos utilizados. Por último, se plantean los trabajos futuros a realizar en el modelo y la documentación para poder replicar el sistema.
dc.description.abstract The field of neural networks has become one of the most important areas in artificial intelligence due to their great capacity of solving common problems with great precision. This had led to the propposal of novel arquitectures and models in order to tackle more complex problems as neural style transfer. In this problem, the goal is to generate an image, mixing the style from one of them with the content from the other. In this article we propose a novel research and metodology to achieve bimodal style transfer using text as input. The metodology consists in three sub models where we initially retrieve one content image and a text, which are then mapped into a multimodal common latent space through the projection of their attributes. Then, an image is extracted through an image retrieval model, to conclude with a generative model which allows to create artistic images, by the combination of content and style from both images by the optimization of their loss functions. Thus, this work retrieve semantically similar images with respect to the query description, achieving great precision rates (Median rate) in image retrieval applied to the SemArt dataset. Additionally, the transfer style neural model preserves the image's high quality, combining style and content in a correct manner dependings on the weights used. Finally, we discuss future work with respect to the model and the system is documented in order to replicate the experimentation.
dc.description.degreeINGENIERO CIVIL INFORMÁTICO
dc.description.programIngeniería Civil Informática
dc.format.extent86 páginas
dc.identifier.barcode3560902039159
dc.identifier.urihttps://repositorio.usm.cl/handle/123456789/7761
dc.identifier.urihttps://doi.org/10.71700/dspace-memorias/1896
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.subjectRedes neuronales
dc.subjectProcesamiento de imagen
dc.subjectInteligencia artificial
dc.titleTransferencia de estilo bimodal de texto a imágenes usando modelos generativos profundos
dc.typeTesis de Pregrado
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
3560902039159UTFSM.pdf
Size:
4.31 MB
Format:
Adobe Portable Document Format