Thesis
HASHING ADAPTATIVO BASADO EN REDES NEURONALES PARA BÚSQUEDA POR SIMILITUD

Thumbnail Image
Date
2017
Authors
VELÁSQUEZ ARAYA, JOAQUÍN EDUARDO
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Este trabajo está enfocado en la búsqueda por similaridad de documentos de texto, porello se busca un modelo para obtener una representación binaria de documentos de texto querefleje la similitud semántica entre ellos y alcance una alta precisión.La búsqueda por similitud de documentos de texto corresponde a obtener los documentosdentro de una colección que resultan semánticamente similares respecto a un documentode consulta, es decir, que están relacionados con dicha consulta en función de su significadoo contenido. Una representación binaria de estos documentos que refleje su similitudSemántica permite operar en el espacio de Hamming, en donde las operaciones necesariaspara comparar las representaciones son de menor complejidad. En la recuperación de informaciónsuele ser relevante recuperar una baja cantidad de documentos pero alcanzando unaalta precisión.Se realizó una implementación en Python basado en el modelo propuesto en [28] paraGenerar representación binaria de documentos de texto y se evaluó su desempeño variandoParámetros del modelo. Este modelo fue modificado para experimentar con distintas arquitecturas,utilizar Constrained Poisson Model y se suprimió el ruido. De este modo, se encontraronmodelos con alta precisión y poco profundos para la recuperación de una baja cantidadde documentos.
This work is focus on similarity search of text documents, for this reason it shows a modelto obtain a binary representation of text documents that reflects the semantics similaritybetween them and reach a high precision.Similarity search of text documents corresponds to obtaining the documents within acollection that is semantically similar to a query document, that is, they are related to thequery according to its meaning or content. A binary representation of these documents thatreflects their semantic similarity allows to operate over Hamming space, where the operationsnecessary to compare the representations have less complexity. In information retrieval it isusual to recover a low number of documents but attaining high accuracy.A model baser on [28] was implemented on Python to generate binary representation oftext documents and its performance was evaluated by varying model parameters. This modelwas modified to experiment with dierent architectures to use Constrained Poisson Modeland the noise was suppressed. In this way, shallow models with high precision and for thelow amount recovery were found.v
Description
Catalogado desde la version PDF de la tesis.
Keywords
BUSQUEDA POR SIMILITUD , RECONOCIMIENTO POR PATRONES , REDES NEURONALES
Citation