DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA BASADO EN MODELAMIENTO DE SECUENCIAS PARA HASHING SEMÁNTICO DE TEXTO
Abstract
Esta memoria aborda el problema de hashing para búsqueda por similitud sobre colecciones de documentos escritos. Escasos trabajos han abordado este problema formulando un modelo que aproveche la naturaleza secuencial de los textos. En particular y hasta donde sabemos, aún no se ha estudiado el uso de redes neuronales recurrentes, especializadas en el procesamiento de secuencias. Debido a lo anterior se plantea la hipótesis de que el uso de este tipo de redes puede mejorar el desempeño de las técnicas actuales de hashing en términos de precisión en la recuperación. Para comprobar la hipótesis formulada se implementó una arquitectura de tipo encoderdecoder para el procesamiento de secuencias y técnicas de word embedding para la representación de texto. Los resultados obtenidos revelan un desempeño excepcional del método sobre conjuntos de datos conformados por documentos breves y un desempeño aceptable en colecciones de documentos extensos. En base a los resultados obtenidos, se concluye que la efectividad de considerar la estructura secuencial de los textos escritos en tareas de hashing es inversamente proporcional a la extensión de los documentos de la colección. Además, se proponen diversas modificaciones a la arquitectura implementada para mejorar su desempeño sobre colecciones de documentos extensos. This work addresses the problem of hashing for similarity search on collections of text documents. few works have addressed this problem formulating a model that takes advantage of the sequential nature of the texts. As far as we know, the use of recurrent neural networks specialized in the processing of sequences has not yet been studied. Therefore, we hypothesized that the use of this type of networks can improve the performance of current hashing techniques in terms of precision in recovery. To verify this hypothesis, an encoder-decoder architecture was implemented. For the process we use a recurrent neural networks and word embedding techniques for text representation. The obtained results reveal an exceptional performance of the method on data sets made up of short documents and an acceptable performance in collections of extensive documents. Based on our experimental results, we conclude that the effectiveness of considering the sequential structure of the texts in hashing tasks is inversely proportional to the extension of the documents in the collection. In addition, various modifications to the architecture are proposed to improve its performance on extensive document collections.