Thesis DISEÑO E IMPLEMENTACIÓN DE ALGORITMO PARA LA OPERACIÓN JOIN ESTRELLA SOBRE UN DATA WAREHOUSE EN POSTGRESQL
Loading...
Date
2011
Authors
Journal Title
Journal ISSN
Volume Title
Program
Campus
Casa Central, Valparaíso
Abstract
El Data Warehouse ha alcanzado volúmenes de datos del orden de los Exabytes (EB). Con tales volúmenes de datos, la operación Join Estrella debe procesar cientos de millones de registros, por lo cual el desempeo de los algoritmos que procesan esta operación es crucial para el campo de la Inteligencia de Negocios. Entre los algoritmos implementados actualmente para procesar la operación Join en PostgreSQL, el algoritmo Hybrid Hash Join presenta el mejor desempeo para consultas de tipo Join Estrella. Sin embargo, al procesar grandes volúmenes de datos requiere un uso excesivo del input/output sobre memoria secundaria, lo cual afecta el desempeo global de la operación. Durante el desarrollo de esta memoria, se presentan los distintos algoritmos implementados actualmente para procesar la operación Join en diferentes sistemas de bases de datos relaciónales. Luego, se propone el diseo e implementación de un nuevo algoritmo en PostgreSQL, que utiliza Bits Fúter para filtrar las tupias de la tabla de hechos que no formarán parte del resultado antes de ser enviadas a memoria secundaria, para así disminuir el tiempo global de ejecución de la operación Join Estrella. Finalmente, se realiza una evaluación del desempeo de la implementación propuesta con respecto a la actual implementación que provee PostgreSQL y SQL Server utilizando el Data Warehouse Star Schema Benchmark. Los resultados indican que la implementación propuesta presenta un desempeo supe?rior respecto a la implementación actual de PostgreSQL. Mientras que se obtuvo resultados similares a SQL Server en consultas de baja selectividad, debido a la introducción de los bits fílters que producen una disminución en la tasa de lectura y escritura en memoria secundaria.
Description
Catalogado desde la versión PDF de la tesis.
Keywords
DATOS DE ALMACENAJE, ADMINISTRACION DE BASE DE DATOS, MINERIA DE DATOS