Thesis OptiDataLake: plataforma para la gestión de market data en tiempo real
Loading...
Date
2025-10
Authors
Journal Title
Journal ISSN
Volume Title
Program
Ingeniería Civil Telemática
Departament
Campus
Campus Santiago San Joaquín
Abstract
Este trabajo presenta el diseño e implementación de una plataforma para la gestión y análisis de market data en tiempo real, integrada con Apache Kafka, Apache Spark y MongoDB bajo un enfoque de Data Lake (colecciones Raw, Structured y Analytics). El objetivo es habilitar ingestión continua, procesamiento confiable y recuperación eficiente con baja latencia para analítica operativa y estudios históricos. La solución captura datos de alta frecuencia desde la API de Binance, los valida y enriquece, y los persiste para su consulta. La arquitectura modular y de bajo acoplamiento incorpora prácticas de operación confiable (validadores de esquema, índices por símbolo/tiempo, manejo de idempotencia y control de duplicados), favoreciendo robustez y escalabilidad. Se desarrolló una interfaz de consulta para pruebas que permite filtrar por símbolo y rango de precios y que reporta tamaño recuperado, tiempo de respuesta y ancho de banda efectivo (MB/s). Las pruebas de rendimiento muestran recuperaciones consistentemente por sobre 20~MB/s, incluso con grandes volúmenes de datos, mientras que la tasa de ingestión por minuto se mantiene estable en Raw_data y Structured. Los resultados confirman continuidad del flujo, ausencia de cuellos de botella en escritura y preparación de datos para dashboards, KPIs y análisis históricos. En conjunto, la plataforma cumple los objetivos propuestos y constituye una base escalable para futuras extensiones y despliegues productivos, habilitando analítica en tiempo real sobre datos de mercado de alta frecuencia.
Description
Keywords
Analítica en Tiempo Real, Big Data, Streaming, Apache Kafka, Apache Spark, MongoDB
