基于多智能体深度强化学习的园区分布式储能低碳经济调度

王扬; 周子鉴; 杨伦惠; 蔡永翔; 谈竹奎; 徐玉韬

欢迎来到能源电力期刊网！

您当前的位置：

首页 >

文章列表页 >

基于多智能体深度强化学习的园区分布式储能低碳经济调度

更新时间：2026-04-08

- 基于多智能体深度强化学习的园区分布式储能低碳经济调度
- WANG Yang1 ZHOU Zijian2 YANG Lunhui3 CAI Yongxiang1 TAN Zhukui1 XU Yutao1 1 Guizhou ElectricPowerResearchInstitute Guiyang550002Guizhou China
- 电力大数据 2026年第2期
- 作者机构：
  
  贵州电网有限责任公司电力科学研究院贵州电网有限责任公司凯里供电局贵州电网有限责任公司毕节供电局贵州电网有限责任公司
- 作者简介：
- 基金信息：
- DOI：
  中图分类号：
- 纸质出版：2026
- 稿件说明：
移动端阅览
王扬, 周子鉴, 杨伦惠, 等. 基于多智能体深度强化学习的园区分布式储能低碳经济调度[J]. 电力大数据, 2026,(2).

WangYang, ZhouZijian, YangLunhui, et al. WANG Yang1 ZHOU Zijian2 YANG Lunhui3 CAI Yongxiang1 TAN Zhukui1 XU Yutao1 1 Guizhou ElectricPowerResearchInstitute Guiyang550002Guizhou China [J]. 2026, (2).
王扬, 周子鉴, 杨伦惠, 等. 基于多智能体深度强化学习的园区分布式储能低碳经济调度[J]. 电力大数据, 2026,(2). DOI：

WangYang, ZhouZijian, YangLunhui, et al. WANG Yang1 ZHOU Zijian2 YANG Lunhui3 CAI Yongxiang1 TAN Zhukui1 XU Yutao1 1 Guizhou ElectricPowerResearchInstitute Guiyang550002Guizhou China [J]. 2026, (2). DOI：

摘要

为应对分布式光伏大量接入与园区内多主体储能的隐私保护需求

本文提出了一种基于多智能体深度强化学习(MADRL)的园区分布式储能低碳经济调度方法。针对储能装置类型、容量和接入位置差异

构建了考虑分时电价、阶梯碳价与电力动态碳排放因子的园区运行模型；为增强策略在随机光伏与负荷工况下的鲁棒性

设计了将典型日光伏与负荷基准曲线经随机扰动生成的训练样本集。采用“集中式训练—分布式执行(CTDE)”范式

基于演员—评论家结构训练策略

并比较了全局奖励、局部奖励与共享历史信息等训练/奖励方案。仿真表明所提MADRL方法在保证数据隐私的同时

能有效降低园区总运行成本并减少购网电碳排放

且在不同随机场景下表现出较好的鲁棒性。

Abstract

To address the challenges of large-scale distributed photovoltaic integration and privacy protection requirements for multi-actor energy storage systems in industrial parks

this paper proposes a multi-agent deep reinforcement learning (MADRL)-based low-carbon economic dispatch method for distributed energy storage. Considering variations in energy storage types

capacities

and access locations

we developed a park operation model incorporating time-of-use electricity pricing

tiered carbon pricing

and dynamic carbon emission factors. To enhance the strategy"s robustness under stochastic PV and load conditions

we designed training datasets by generating baseline PV and load curves through random perturbations. Adopting the "centralized training-distributed execution (CTDE)" paradigm with an actor-critic architecture

we compared training/reward schemes including global rewardslocal rewards

and shared historical information. Simulation results demonstrate that the proposed MADRL method effectively reduces total park operation costs and grid-purchased electricity carbon emissions while ensuring data privacy

and exhibits strong robustness across various stochastic scenarios.

关键词

Keywords

references

王扬,蔡永翔,付宇,等．适应分布式光伏并网的低压交直流混合配电工程示范应用[J]．供用电,2023,40(3):40-46．WANG Yang,CAI Yongxiang,FU Yu,et al．Demonstration application of low voltage AC / DC hybrid distribution project adapted to distributed photovoltaic grid connection[J]．Distribution Utilization,2023,40(3):40-46．

韩钰,徐婷婷,吴迪凡.考虑综合需求响应和电转气的园区综合能源系统优化调度方法[J].电力大数据,2023,26(08):23-31.

吴迪凡,徐婷婷,张楠,等.基于碳交易和主从博弈的园区综合能源系统多主体双层优化调度方法[J].电力大数据,2024,27(05):9-18.

王志杨,张靖,何宇,等.数据与模型混合驱动的区域综合能源系统双层优化调度决策方法[J].电网技术,2022,46(10):3797-3813.

吕振华,李强,韩华春,等.计及源荷不确定性和多类储能响应的园区IES多目标优化调度模型[J].电力科学与技术学报,2021,36(02):40-50.

张津源,蒲天骄,李烨,等.基于多智能体深度强化学习的分布式电源优化调度策略[J].电网技术,2022,46(9):3496-3504.

徐钰涵,季天瑶,李梦诗.基于深度强化学习的微电网日前日内协调优化调度[J].南方电网技术,2024,18(09):106-116.

LIN L,GUAN X,PENG Y,et al.Deep reinforcement learning for economic dispatch of virtual power plant in Internet of energy[J]. IEEE Internet of Things Journal,2020,7(7):6288-6301.

杨挺,刘豪,王静,等.基于深度强化学习的园区综合能源系统低碳经济调度[J].电网技术,2024,48(09):3604-3613.

徐博涵,向月,潘力,等. 基于深度强化学习的含高比例可再生能源配电网就地分散式电压管控方法[J]. 电力系统保护与控制,2022,50(22):100-109.

潘虹妙.基于多智能体深度强化学习的主动配电网集群电压调控研究[J].电力大数据,2025,28(01):77-86.

刘硕,郭创新,冯斌,等. 基于价值分解深度强化学习的分布式光伏主动电压控制方法[J]. 电力自动化设备,2023,43(10):152-159.

LOWE R,WU Y,TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]// 31st International Conference on Neural Information Processing Systems, December 4-9,2017, Long Beach,USA:6382-6393.

谢黎龙,李勇汇,范培潇,等. 基于深度强化学习的孤立多微电网系统频率和电压综合控制[J]. 电力自动化设备,2024,44(6):118-126.