Thesis COMPRENSIÓN DE COLECCIONES DE DOCUMENTOS PARA LA EXTRACCIÓN DE SNIPPETS
Loading...
Date
2013
Journal Title
Journal ISSN
Volume Title
Program
Campus
Universidad Técnica Federico Santa María UTFSM. Campus San Joaquín
Abstract
La eficiencia de búsqueda de información es crucial en la web, bases de datos, o
cualquier otro medio de almacenamiento. La eficiencia depende en gran medida
de motores de búsqueda los cuales son capaces de lidiar con grandes volúmenes
de datos. La compresión de datos es una importante técnica en este sentido, ya
que nos permite reducir en utilización de espacio y tiempos de transferencia de
datos. Como resultado, la compresión de datos también nos permite reducir el
consumo de energía. Esta tesis tiene como objetivo estudiar e implementar esquemas
de compresión basados en el conocido algoritmo de compresión Lempel-Ziv
(abreviado corno LZ), en particular para repositorios do documentos en motores
de búsqueda en la Web. El resultado principal es un esquema de compresión
prototipo, el cual comparamos en la práctica con los algoritmos LZ más eficientes
existentes ( industriales) como lzma. LZ-i. y gzip. Como conclusión, nuestros
experimentos muestran quo nuestro enfoque es competitivo con estos esquemas
altamente eficientes, proporcionando una buena relación tasa do compresión versus
velocidad de descompresión.
Search efficiency is crucial in the Web. databases. or any other storage media. The efficiency depends mostly on search engines, which are able to deal with big volumes of data. Data compression is an important technique in this respect. since it allows us to reduce the space usage and transference time of data. As a result. data compression also allows us to reduce the energy usage. This thesis aims at studying and implementing compression schemes based on the well-known Lcmpei-Ziv (LZ, for short) compression algorithm, in particular for document repositories in Web search engines. The main result is a prototype compression scheme. which we compare in practice with the most efficient existing (industrial) LZ algorithms like lzma. LZ4. and gzip. As a conclusion, our experiments show that our approach is competitive with these highly efficient schemes. providing a good trade-off compression rate versus decompression speed.
Search efficiency is crucial in the Web. databases. or any other storage media. The efficiency depends mostly on search engines, which are able to deal with big volumes of data. Data compression is an important technique in this respect. since it allows us to reduce the space usage and transference time of data. As a result. data compression also allows us to reduce the energy usage. This thesis aims at studying and implementing compression schemes based on the well-known Lcmpei-Ziv (LZ, for short) compression algorithm, in particular for document repositories in Web search engines. The main result is a prototype compression scheme. which we compare in practice with the most efficient existing (industrial) LZ algorithms like lzma. LZ4. and gzip. As a conclusion, our experiments show that our approach is competitive with these highly efficient schemes. providing a good trade-off compression rate versus decompression speed.
Description
Digitalizado de su versión en papel
Keywords
ORGANIZACION DE ARCHIVOS (CIENCIA DE LA COMPUTACIÓN), COMPRESION DE DATOS (CIENCIA DE LA COMPUTACIÓN), SNIPPETS