Thesis Diseño e implementación de un sistema de búsqueda semántica sobre el repositorio USM
Loading...
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Program
Ingeniería Civil Informática
Departament
Campus
Campus Santiago San Joaquín
Abstract
Con el paso del tiempo, el volumen de producción en lenguaje natural se hace cada vez más grande. Como consecuencia, el análisis y procesamiento eficiente de esta información se vuelva cada vez más complejo. Tareas como la recuperación de información sensible al contexto, que requieren de un análisis cuidadoso de la información, se vuelven cada vez más complejas de realizar utilizando sistemas de búsqueda tradicionales. En este trabajo, se expone el diseño e implementación de un sistema de búsqueda semántica, un sistema que utiliza representaciones en vector que capturan el contenido semántico de la información, utilizando el modelo SBERT, con el objetivo de mejorar la calidad de búsqueda del usuario. Este sistema se implementa sobre una muestra del corpus de documentos del Repositorio USM. Se expone, además, la utilización de estas representaciones en vector para obtener un clustering de los documentos de este repositorio, utilizando la herramienta BERTopic.
As time goes on, the volume of natural language production continues to grow. Consequently, the efficient analysis and processing of this information become increasingly complex. Tasks such as context-sensitive information retrieval, which require careful análisis of the information, are becoming more difficult to perform using traditional search systems. In this work, we present the design and implementation of a semantic search system, which utilizes vector representations capturing the semantic content of information, employing the SBERT model. The goal is to enhance user search quality. This system is implemented on a sample from the Repositorio USM document corpus. Additionally, the use of these vector representations is discussed for clustering documents within this repository, employing the BERTopic tool.
As time goes on, the volume of natural language production continues to grow. Consequently, the efficient analysis and processing of this information become increasingly complex. Tasks such as context-sensitive information retrieval, which require careful análisis of the information, are becoming more difficult to perform using traditional search systems. In this work, we present the design and implementation of a semantic search system, which utilizes vector representations capturing the semantic content of information, employing the SBERT model. The goal is to enhance user search quality. This system is implemented on a sample from the Repositorio USM document corpus. Additionally, the use of these vector representations is discussed for clustering documents within this repository, employing the BERTopic tool.
Description
Keywords
Recuperación de información, Modelo de lenguaje, Búsqueda semántica, SBERT
