MULTI-AGENT DEEP REINFORCEMENT LEARNING FOR EFFICIENT MULTI-TIMESCALE BIDDING OF A HYBRID POWER PLANT IN DAY-AHEAD AND REAL-TIME MARKETS
Abstract
La oferta eficiente de múltiples productos eléctricos en condiciones de incertidumbre permitiría una participación de mercado más rentable para las centrales eléctricas híbridas con recursos energéticos variables y sistemas de almacenamiento, así ayudando al proceso de descarbonización. Este estudio trata sobre la licitación eficiente de una planta fotovoltaica con un sistema de almacenamiento de energía (PV-ESS) que participa en mercados eléctricos de múltiples escalas temporales, proporcionando productos de energía y servicios auxiliares (AS). El sistema de gestión de energía (EMS) tiene como objetivo maximizar las ganancias de la planta mediante una oferta eficiente en los mercados diarios y de tiempo real, considerando la entrega adecuada de los productos adjudicados. Las decisiones de licitación del EMS generalmente se obtiene usando métodos de optimización tradicionales. Sin embargo, dado que el problema abordado es un programa estocástico de múltiples etapas, a menudo el problema es intratable y sufre curse of dimensionality. Este documento presenta un método novedoso consistente en aprendizaje profundo reforzado multiagente (MADRL) para la licitación eficiente a múltiples escalas de tiempo. Dos agentes basados en redes neuronales artificiales de vista múltiple con capas recurrentes (MVANN) se ajustan para mapear las observaciones del entorno en acciones. Dichos mapeos utilizan como entradas la información disponible relacionada con los productos del mercado eléctrico, las decisiones de licitación, la generación solar, la energía almacenada y las representaciones de tiempo para ofertar en ambos mercados eléctricos. Sostenido por una suposición de price taker, el entorno del EMS, el cual se encuentra limitado física y financieramente, se simula empleando datos históricos. Se utiliza una función de recompensa acumulativa compartida con un horizonte de tiempo finito para ajustar los pesos de ambas MVANNs simultáneamente durante la fase de aprendizaje. Se ha comparado el método MADRL propuesto con métodos de optimización estocásticos y robustos de dos etapas basados en escenarios. Los resultados se proporcionan para la participación de la planta híbrida durante un año usando una resolución de 1 minuto. El método propuesto logró mayores ganancias estadísticamente significativas, menos variabilidad en ingresos en ambos mercados eléctricos y una mejor provisión de los productos adjudicados al lograr desequilibrios energéticos más pequeños y menos variables a lo largo del tiempo.