Thesis
Diseño e implementación de un sistema de búsqueda semántica sobre el repositorio USM

Loading...
Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Santiago San Joaquín

Abstract

Con el paso del tiempo, el volumen de producción en lenguaje natural se hace cada vez más grande. Como consecuencia, el análisis y procesamiento eficiente de esta información se vuelva cada vez más complejo. Tareas como la recuperación de información sensible al contexto, que requieren de un análisis cuidadoso de la información, se vuelven cada vez más complejas de realizar utilizando sistemas de búsqueda tradicionales. En este trabajo, se expone el diseño e implementación de un sistema de búsqueda semántica, un sistema que utiliza representaciones en vector que capturan el contenido semántico de la información, utilizando el modelo SBERT, con el objetivo de mejorar la calidad de búsqueda del usuario. Este sistema se implementa sobre una muestra del corpus de documentos del Repositorio USM. Se expone, además, la utilización de estas representaciones en vector para obtener un clustering de los documentos de este repositorio, utilizando la herramienta BERTopic.
As time goes on, the volume of natural language production continues to grow. Consequently, the efficient analysis and processing of this information become increasingly complex. Tasks such as context-sensitive information retrieval, which require careful análisis of the information, are becoming more difficult to perform using traditional search systems. In this work, we present the design and implementation of a semantic search system, which utilizes vector representations capturing the semantic content of information, employing the SBERT model. The goal is to enhance user search quality. This system is implemented on a sample from the Repositorio USM document corpus. Additionally, the use of these vector representations is discussed for clustering documents within this repository, employing the BERTopic tool.

Description

Keywords

Recuperación de información, Modelo de lenguaje, Búsqueda semántica, SBERT

Citation