Loading [MathJax]/jax/element/mml/optable/SuppMathOperators.js

基于多智能体强化学习的电力现货市场定价机制研究(一):不同定价机制下发电商报价双层优化模型

唐成鹏, 张粒子, 刘方, 李雲建

唐成鹏, 张粒子, 刘方, 李雲建. 基于多智能体强化学习的电力现货市场定价机制研究(一):不同定价机制下发电商报价双层优化模型[J]. 中国电机工程学报, 2021, 41(2): 536-552. DOI: 10.13334/j.0258-8013.pcsee.191550
引用本文: 唐成鹏, 张粒子, 刘方, 李雲建. 基于多智能体强化学习的电力现货市场定价机制研究(一):不同定价机制下发电商报价双层优化模型[J]. 中国电机工程学报, 2021, 41(2): 536-552. DOI: 10.13334/j.0258-8013.pcsee.191550
TANG Chengpeng, ZHANG Lizi, LIU Fang, LI Yunjian. Research on Pricing Mechanism of Electricity Spot Market Based on Multi-agent Reinforcement Learning (Part Ⅰ): Bi-level Optimization Model for Generators Under Different Pricing Mechanisms[J]. Proceedings of the CSEE, 2021, 41(2): 536-552. DOI: 10.13334/j.0258-8013.pcsee.191550
Citation: TANG Chengpeng, ZHANG Lizi, LIU Fang, LI Yunjian. Research on Pricing Mechanism of Electricity Spot Market Based on Multi-agent Reinforcement Learning (Part Ⅰ): Bi-level Optimization Model for Generators Under Different Pricing Mechanisms[J]. Proceedings of the CSEE, 2021, 41(2): 536-552. DOI: 10.13334/j.0258-8013.pcsee.191550

基于多智能体强化学习的电力现货市场定价机制研究(一):不同定价机制下发电商报价双层优化模型

详细信息
    作者简介:

    唐成鹏(1992),男,博士研究生,从事电力系统经济调度、电力市场等方面的研究,tcp.317@163.com

    张粒子(1963),女,教授,博士生导师,从事电力系统经济调度、电力市场和电价理论及应用等领域的教学和科研工作,lizizhang2000@sina.com

    刘方(1989),男,博士,讲师,主要从事电力优化调度、电力市场、水电参与市场策略等方面的研究工作,liufang_NCEPU@163.com

    李雲建(1993),男,博士研究生,主要从事电力市场方面的研究工作,yunjian_li@foxmail.com

  • 中图分类号: TM73

Research on Pricing Mechanism of Electricity Spot Market Based on Multi-agent Reinforcement Learning (Part Ⅰ): Bi-level Optimization Model for Generators Under Different Pricing Mechanisms

  • 摘要: 电力现货市场定价机制是市场设计的重点问题之一,与发电商交易行为相互影响。定价机制设计需要考虑发电商可能的交易行为,而不同定价机制下发电商报价策略不同,为系统性地解决这一嵌套难题,形成2篇不同侧重点的论文。作为首篇,该文探讨强化学习在发电商报价决策中的适用性,完整考虑系统和分区边际电价的两阶段过程,构建节点、系统、分区3种边际电价定价机制下的发电商报价双层优化模型,并基于可变学习速率和策略爬山算法相结合的多智能体强化学习方法对模型进行迭代求解。该双层模型中,上层为发电商报价决策层,下层为市场出清层,以决策层优化的发电商报价信息和出清层计算的发电商中标信息作为上下层之间的交互数据,不断优化发电商报价策略。最后,以IEEE 39系统为例,选择4个典型负荷场景,优化3种定价机制下的发电商报价,结果表明:所提模型和算法可有效求解发电商最优报价策略,获取市场均衡结果。
    Abstract: The pricing mechanism of electricity spot market is one of the key issues in market design, which interacts with the transaction behavior of generators. The design of pricing mechanism needs to consider possible transaction behavior of generators. However, bidding strategy of generators may vary a lot under different pricing mechanisms. To solve this nested problem systematically, two papers of different focuses were formed. As the first part, this paper discussed the applicability of reinforcement learning in bidding optimization of generators. Considering the two-stage process of system marginal price (SMP) and zonal marginal price (ZMP), the bi-level optimization models of generators under three kinds of pricing mechanisms of locational marginal price (LMP), SMP and ZMP were constructed. Then, a multi-agent reinforcement learning (MARL) method combining win or learn fast and policy hill-climbing (WoLF-PHC) algorithm was proposed to solve the model iteratively. In the bi-level models, bidding decision-making models of generators served as the upper layers, following with the market clearing model as lower layer. The interactive data were composed of the bidding information optimized by the decision-making layers and the market clearing information calculated by the clearing layer. The bidding strategies of generators were optimized through continuous interaction. Finally, taking IEEE 39 system as an example, four typical load scenarios were selected to optimize the bidding of generators under three pricing mechanisms. The results show that the proposed model and algorithm can effectively solve the optimal bidding strategy of generators and reach the market equilibrium results.
  • 截至2019年6月,全国首批8个电力现货市场试点全部启动模拟试运行,并于9月全面开展结算试运行,标志着我国新一轮电力体制改革进入现货市场建设的关键阶段。模拟试运行和结算试运行不仅是市场设计的试金石,其运行效果更关系到全国其他地区的电力现货市场建设进程。在结算试运行过程中,可能由于部分机制设计和规则制定的理论分析或仿真验证不足,一些机制设计存在的漏洞或欠合理之处将逐渐显现;同时,由于部分发电商缺乏电力现货市场的相关知识和人才储备,难以完全理解和适应现货市场规则,或将出现部分亏损的情况。

    在电力现货市场架构中,定价机制设计是重点问题之一[1],与市场交易和结算息息相关,直接影响电力市场运行的经济效率和公平公正。“9号文”明确提出的“形成主要由市场决定能源价格的机制”是本轮电改的主要目标之一。《关于深化电力现货市场建设试点工作的意见》[2]也提出各电力现货试点地区要“合理选择现货市场价格形成机制”。2019年9月,国务院常务会议决定,自2020年1月1日起取消煤电价格联动机制,加快以改革的办法推进市场电价形成机制。

    纵观世界各国的电力市场实践,已形成了3种以短期边际成本为基础的现货市场定价机制:系统边际电价[3](system marginal price,SMP)、节点边际电价[4](locational marginal price,LMP)和分区边际电价[5](zonal marginal price,ZMP)。现货市场定价机制设计主要与电网结构和阻塞情况相关,但由于现货市场下的发电调度模式与传统的计划调度模式差异较大,以至于2种调度模式下的网络潮流和阻塞情况不同。目前,我国尚且缺乏电力现货市场实际运行相关数据可供参考,且定价机制需要在现货市场设计阶段确定。由此,预测电力现货市场下系统运行情况,并通过预估发电商报价策略,模拟电力现货市场运行均衡结果,以此分析现货市场定价机制设计的合理性,是目前亟需解决的问题,也是现货市场定价机制优选的重要途径。

    在发电商报价策略研究方面,文献[6-8]综合分析了2000年和2011年以前国内外在电力市场中发电公司报价策略方面的研究工作,将发电商报价策略的方法归纳为5类:1)成本分析法[9-10],以发电公司的电能生产成本加上合理利润作为申报电价;2)预测市场电价法[11-13],发电商首先预测电力市场价格,然后按照略低于预测的价格进行报价;3)博弈论法[14-16],根据电力交易构造博弈模型,然后寻找该模型的均衡点,并由此确定发电商最优报价策略;4)估计其他发电公司报价行为法[9, 11, 17],通常采用概率统计或模糊数学方法估计竞争对手报价行为,在此基础上建立最优竞价模型,求解优化模型获取最优报价策略;5)智能优化算法法,如竞争协同进化算法[18-19]、模糊自适应搜索算法[20]和智能体强化学习(reinforcement learning,RL)方法[21-22]等。众多报价策略方法中,发电成本分析是发电商竞价的基础,该方法简单易行,但是未考虑竞争对手的报价情况,难以实现自身利润最大化[23];预测市场电价和估计其他发电公司报价行为的方法均需大量历史数据为支撑,在电力现货市场建设初级阶段,数据尚不充分,且市场结构和交易规则仍处于调整之中,难以对市场价格做出较为准确的预测;博弈论方法在解决双人博弈、完美信息博弈问题方面优势显著,但对于多人博弈、非完全和不完美信息处理方面效果并不理想[7];多智能体强化学习(multi-agent reinforcement learning,MARL)作为强化学习的重要组成部分,将智能优化算法与博弈论方法有机结合,一定程度上弥补了传统方法的局限性[24],为解决多重复杂环境下多发电商博弈和报价提供了新思路。

    发电商收益与市场价格密切相关,不同定价机制下发电商报价策略有所差异[25],进而影响市场出清价格;同样,市场机制设计亦需考虑市场主体可能的交易行为,二者相辅相成且相互影响。因此,为解决定价机制设计和发电商报价策略这一嵌套难题,本团队进行了系统性研究,形成2篇论文。本文研究不同定价机制下发电商报价策略,发现现货市场下的网络阻塞和市场力等;续篇将深入分析定价机制的选择和设计。作为首篇,主要进行如下方面的研究工作:1)介绍强化学习和多智能体强化学习的相关理论及其方法;2)建立3种定价机制下的发电商报价双层优化模型,并基于可变学习速率和策略爬山算法(WoLF-PHC)的多智能体强化学习方法对模型进行求解,得到发电商最优报价策略;3)通过算例仿真,分析不同定价机制下机组的报价策略,演示本文模型和方法的有效性。

    近年来,新一代人工智能(artificial intelligence,AI)发展迅速,结合大数据、超算等新理论新技术,对人类生活的方方面面产生重大影响[26]。RL作为人工智能机器学习(machine learning,ML)的重要组成部分,在解决序贯决策问题方面应用广泛[27-28]

    RL是一种交互学习方式,学习状态和行为之间的映射关系,以最大化数值回报[24]。RL以马尔科夫决策过程(Markov decision process,MDP)为基础,包括状态空间(S={s1, s2, …})、动作空间(A= {a1, a2, …})、策略(π(a|s))、自时刻t开始学习的累积回报(Rt)和状态转移概率(P(st+1|st, at)) 5个要素。其中,策略表示状态空间向动作空间分布上的映射,即π(a|s)表示在状态s时选择动作a的概率。

    通常,将学习主体称为智能体(Agent),而与Agent交互的外部被称为环境。在时刻t,Agent从某一状态st开始,采用策略π(a|s)选择动作at与环境交互,获得环境的立即回报rt+1,按状态转移概率P(st+1|st, at)转移到新的状态st+1,循环交互过程如图 1所示[24]

    图  1  强化学习中Agent和环境交互过程
    Figure  1.  Interaction process between Agent and environment in RL

    Agent一系列动作的累积回报为

    Rt=rt+1+γrt+2+γ2rt+3+=k=0γkrt+k+1 (1)

    式中γ∈[0, 1]为折扣因子,表示未来回报在当前决策中的重要性。γ越接近0,表示越不看重未来回报,只看重当前的立即回报。

    将从状态s开始执行策略π(a|s)后所得到的累积折扣回报的期望,定义为状态s的价值,即值函数Vπ(s):

    Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}=Eπ{rt+1+k=1γkrt+k+1|st=s}=Eπ{rt+1+γk=0γkrt+k+2|st=s}=Eπ{rt+1+γVπ(s)|st=s} (2)

    式中:Eπ表示策略π下的期望;s'表示状态s的后继状态。

    进而,值函数可以表示为

    Vπ(s)=aAsπ(a|s)sUsPr{Rr+γVπ(s)} (3)

    其中:

    {Pr=P[st+1=s|(st=s,at=a)]Rr=r[st+1=s|(st=s,at=a)] (4)

    式中:As表示状态s下所有可能的动作集合;Us表示状态s所有可能的后继状态集合;P[st+1|(st, at)]表示在状态st下假定采取动作at时转移到状态st+1的概率;r[st+1|(st, at)]表示假定采取动作at下状态从st转移到st+1时的立即回报。

    同理,将在状态s下选择动作a并随后采用策略π所得到的累积折扣回报的期望,定义为状态–动作对(s, a)的价值,记为状态–动作值函数Qπ(s, a):

    Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a} (5)

    状态–动作值函数可以表示为

    Qπ(s,a)=sUsPr{Rr+γVπ(s)} (6)

    由此,强化学习求解最优策略即转化为求值函数的最优值,称为Bellman最优方程:

    V(s)=maxaAssUsPr{Rr+γV(s)} (7)
    Q(s,a)=sUsPr{Rr+γV(s)} (8)

    式中:V*(s)、Q*(s, a)分别表示采用最优策略π*下的状态值函数和状态–动作值函数;a'表示状态s'下所有可能的动作。

    在状态转移概率P和累积回报R已知的情况下,上述Bellman最优方程是非线性的,通常采用迭代的方法求解,如梯度下降法、牛顿–拉夫逊法和高斯–赛德尔法等。根据迭代求解的对象是值函数还是状态–动作值函数,还可以分为值迭代、策略迭代2类,此类统称为基于模型的(model based)强化学习方法,如图 2所示。

    图  2  强化学习方法分类
    Figure  2.  Classification of RL methods

    而在状态转移概率P和累积回报R未知的情况下,Bellman最优方程无法迭代求解,只能通过不断试验和对样本的估计等方法来近似求解。在此方面,除蒙特卡洛(Monte Carlo,MC)和自举法(Boostrap)等采样方法外,强化学习最核心的方法是时间差分(temporal-difference learning,TD)算法,其值函数更新公式为

    Q(s,a)=Q(s,a)+α(r+γQ(s,a)Q(s,a)) (9)

    时间差分算法结合了蒙特卡洛和动态规划(dynamic programming,DP)方法,与蒙特卡洛相似的是可以直接从历史经验中学习;与DP类似的是使用后继状态的值函数对当前状态的值函数进行更新。常见的Q-Learning方法就属于TD算法。此类统称为无模型(model-free)的强化学习方法。

    国内外学者在将RL引入发电商报价决策方面做了很多开创性工作,研究了系统边际电价[29]、第二价格统一拍卖[30](second price uniform auction)、节点边际电价[31]、按报价支付(pay as bid)和当量电价[32](electricity value equivalent)等多种定价机制下的发电商最优报价策略,若能考虑多发电商报价之间的相互影响,研究将更有实际意义。

    在单Agent强化学习(single-Agent reinforcement learning,SARL)中,Agent面对的环境是固定不变的。然而,现实生活中的大部分问题都是一个复杂适应系统(complex adaptive system,CAS)问题[33],不仅主体众多,各主体之间的行为动作会相互影响,而且主体能通过不断的观察和学习调整自身的行为规则,进而推动整个系统的演化。由此,在复杂适应系统下的Agent学习变得极为复杂,一方面,环境是复杂的,各Agent与环境交互所获得的回报是所有Agent动作的函数(如式(10)),而系统中Agent动作组合数随Agent数量指数倍增长,存在“维数灾难”问题;另一方面,环境是动态的,各Agent都在同时学习和优化自身策略,某一Agent的策略变化会对其他Agent的策略造成影响,进而影响算法的收敛性。多智能体强化学习在SARL的基础上,结合博弈论的相关理论,致力于解决复杂适应系统中的上述问题。

    Qi(s,a1,,an)(1α)Qi(s,a1,,an)+α(ri(a1,,an)+γQi(s,a1,,an)) (10)

    绝大部分情况下,对于某一Agent来说,复杂适应系统中状态转移概率、立即回报和对手策略等都是未知的,所以,MARL方法一般指无模型的方法。MARL的基础算法有梯度上升(下降)算法(gradient algorithm,GA)、极大极小Q(MiniMax-Q-Learning)、纳什Q(Nash Q-Learning)、朋友或敌人Q(friend-or-foe Q-Learning,FFQ)和策略爬山算法(policy hill-climbing,PHC)等,新的多智能体强化学习算法也层出不穷,大部分都是对基础算法的改进。下文简单介绍策略爬山算法。

    PHC是对Q-Learning算法的改进,以一个较小的学习步长(α∈(0, 1])逐步增大选择最优动作的概率,以不断改进策略。其Q值函数和策略更新公式如下:

    Qi(s,ac)=(1α)Qi(s,ac)+α(ri+γmaxaQ(s,ai)) (11)
    πi(s,ai)=πi(s,ai)+Δsai,aiAi (12)

    其中:

    Δsai={δsai,aargmaxQi(s,ai)aiaδsai,a=argmaxQi(s,ai) (13)
    δsai=min(πi(s,ai),δNAi1) (14)

    式中:NAi表示Agent i的动作总数;δ表示学习速率因子;ac表示当前选择的动作。

    PHC具有如下特点:1)无需已知其他Agent的策略、动作等信息,只需利用自己的动作和回报来维护和更新Q值函数,有效避免了“维数灾难”问题;2)具备合理性,即在其他Agent使用固定策略(不一定是纳什均衡策略)的情况下,Agent能够学习并收敛到一个相对于对手策略的最优策略;3)相比于极大极小Q和Nash Q等多智能体强化学习方法,PHC不需采用线性规划或二次规划求解纳什均衡,提高了求解速度;4)当所有Agent都在学习时,PHC可适应于其他Agent采用不同学习方法的情况,在实际应用中取得了较好的收敛效果[34]

    在电力市场中,各发电商基于自身运行数据和不完全的市场信息,以利润最大化为目标,制定其交易策略,并将报价提交给市场运营机构。市场运营机构综合所有市场主体的报价信息和系统运行参数,进行市场出清,决定各发电商的中标电量及其收益。发电商再据此优化下一阶段的报价策略,如此循环。基于此,构建发电商报价的双层优化模型,如图 3所示。

    图  3  双层优化模型框架
    Figure  3.  Bi-level optimization model framework

    上层是发电商报价决策层。发电商基于机组运行特性和市场规则,追求利润最大化。本文假设发电商只拥有一台机组。对于各交易时段,发电商报价的目标函数为

    MaxpiPiC(Pi) (15)

    式中:pi表示机组i的中标价格,例如在节点边际电价机制下即为机组所在节点的价格;PiC(Pi)分别为机组i的中标出力和发电成本。

    本文以二次函数表示发电成本,即:

    C(Pi)=CaP2i+CbPi+Cc (16)

    式中CaCbCc为成本参数,其中Cc为空载成本。

    约束条件主要为市场报价上下限约束,发电机组运行特性约束在市场出清模型中予以考虑:

    Cmin (17)

    式中:Ci, b表示机组i申报的第b段价格;CminCcap分别表示市场报价下限和上限。

    下层是市场出清层。不同定价机制下的市场出清模型有一定差异,3种定价机制下的出清模型及电价计算采用续篇的单时段模型[35]。一般而言,市场出清模型以社会福利最大化为目标,约束条件包括:系统功率平衡约束、系统备用约束和机组出力上下限约束、爬坡约束等发电机组运行特性约束。

    决策层发电商优化决策得到的报价策略,作为出清层市场出清的输入数据;出清层市场出清结果反馈给决策层各发电商,作为发电商优化报价决策的依据,以此循环,直至最优。

    不同电力现货市场定价机制下,市场竞价流程、报价规则及电价计算方式不同,除市场出清模型外,发电商报价双层优化模型的差异主要体现在:1)不同定价机制考虑的网络约束不同,在不考虑新能源和负荷预测误差的情况下,节点边际电价机制一般只需一次出清即可解决网络阻塞问题,而系统边际电价和分区边际电价机制通常需结合“再调度(redispatch)”方法进行阻塞管理,存在两阶段的出清过程。2)一般而言,再调度阶段可以直接采用第一阶段的分段报价(如英国POOL模式),也可以采用机组重新提交的上调服务和下调服务(Offer/Bid)报价(如英国BETTA模式)。鉴于国外成熟电力市场主要采用重新报价的再调度方法,本文也基于该方式进行研究。在此情况下,第一阶段的机组中标结果是再调度阶段的初始状态,系统边际电价和分区边际电价机制配合再调度过程的两阶段序贯决策过程如图 4所示。

    图  4  SMP/ZMP两阶段状态转移示意图
    Figure  4.  State transition in two stages of SMP/ZMP

    由此,在系统/分区边际电价双层优化模型框架下,上层发电商报价决策模型以两阶段总利润最大化为目标函数:

    {\rm{Max }}{p_{i, 1}}{P_{i, 1}} + \sum\limits_{b = 2}^{{N_{{\rm{pair}}}} + 1} {(C_{i, b}^ + {P_{i, b}})} - \sum\limits_{k = 1}^{{N_{{\rm{pair}}}}} {(C_{i, k}^ - {D_{i, k}})} - C{\kern 1pt} ({P_i}) (18)

    其中,机组总出力表示为

    {P_i} = \sum\limits_{b = 1}^{{N_U}} {{P_{i, b}}} - \sum\limits_{k = 1}^{{N_D}} {{D_{i, k}}} (19)

    式中:pi, 1Pi, 1分别表示发电商i第一阶段的中标价格和中标出力;Ci, b+Pi, b(b > 1)分别表示机组ib段上调服务报价及中标量,Ci, k-Di, k分别表示机组i的第k段下调服务报价及中标量;Npair表示上调服务和下调服务的总报价对数。

    市场报价上下限约束为

    {C_{\min }} \leqslant C_{i, b}^ + \leqslant {C_{{\rm{cap}}}} (20)
    {C_{\min }} \leqslant C_{i, k}^ - \leqslant {C_{{\rm{cap}}}} (21)

    下层市场出清模型,包含系统/分区边际电价出清模型和再调度模型,具体出清模型及电价计算采用续篇的单时段模型[35]

    双层优化模型的求解方法主要有2类:1)将其转化为单层的含均衡约束的数学规划模型(mathematical programming with equilibrium constraints,MPEC),或者进一步转化为含均衡约束的均衡规划问题(equilibrium programming with equilibrium constraints,EPEC)的模型转化法;2)迭代求解法,如多智能强化学习方法等。相较而言,迭代求解法无需对模型进行转化,具有流程清晰、效率较高的特点,并适合于解决下层市场多时段出清模型非凸情况下的模型求解问题。

    本文采用MARL方法对双层模型进行求解。上层发电商报价决策属于复杂适应系统问题,为避免计算陷入局部最优解,并提高收敛速度,将WoLF机制(win or learn fast)与策略爬山算法相结合,形成WoLF-PHC强化学习发电商报价策略,优化发电商竞价,获取最优报价策略。WoLF机制的主要思想为:通过调整学习速率,在策略表现较好时缓慢谨慎学习,表现欠佳时快速学习,使Agent在比预期表现较差时能快速适应其他Agent的策略,而在比预期表现较好时为其他Agent预留足够时间来调整策略[34]。因此,WoLF也称为可变学习速率机制。下层市场出清模型是线性规划问题,可借助商用求解器Cplex求解。WoLF-PHC强化学习发电商报价策略的流程如图 5所示。

    图  5  发电商报价策略强化学习流程图
    Figure  5.  RL process for generators' bidding strategies

    以Agent代表发电商,Agent的状态空间、动作空间、策略分别对应于发电机组的出力(或收益)水平、报价空间、选择某一报价的概率值。每次试验开始前,各Agent根据自身状态和策略,以轮盘赌等采样方式在报价空间中选择一个报价,通过市场出清计算得到各Agent的收益及其新状态,Agent据此对其策略进行更新,最终得到最优报价策略。

    节点边际电价机制下,基于WoLF-PHC强化学习报价策略的流程如图 6所示,具体如下:

    图  6  LMP下发电商报价策略强化学习流程图
    Figure  6.  RL process for generators' bidding strategies under LMP

    1)生成状态空间。将发电机组的出力(或收益)区间划分为X段,每段出力(或收益)定义为发电机组的一个状态。

    2)生成报价(曲线)空间。电力市场运营规则限定了机组报价的上限和下限,并允许发电机组提交多段报价。本文假设发电机组各报价段的容量固定,而价格可以调整。在发电机组报价段数为NB的情况下,分别将各段的报价区间离散化为M份,然后依据各段报价单调非递减的原则将各段离散报价进行组合,形成报价(曲线)空间。

    3)生成策略及选择报价曲线。策略对应报价空间中选择各报价曲线的概率水平,初值设置为选择各报价曲线的概率相同,随着迭代计算不断更新。每次迭代中,按照策略,Agent以轮盘赌的方式在报价空间中选择某一报价曲线并执行。

    4)市场出清。根据所有Agent的报价信息,以市场出清模型计算各Agent的中标电量及其收益,并将该出清结果反馈给Agent进行策略的更新。

    5)Q值更新。市场出清后,Agent以所获利润作为立即回报,对相应Q值进行更新。更新公式为式(11)。

    6)平均策略更新。更新Agent历史策略的期望值:

    {\bar \pi _i}(s, {a_i}) = {\bar \pi _i}(s, {a_i}) + \frac{{{\pi _i}(s, {a_i}) - {{\bar \pi }_i}(s, {a_i})}}{{C(s)}} (22)

    式中:C(s)表示状态s出现的次数;{\bar \pi _i}(s, {a_i})表示状态s下Agent i的平均策略。

    7)策略更新。在式(12)—(14)基础上,增加WoLF机制。本文将平均策略和当前策略下Q值期望的差异作为评判策略表现的标准,如下:

    \delta =\left\{ \begin{array}{l}{\delta }_{\rm{w}}, {\displaystyle \sum _{{a}_{i}\in {A}_{i}}}{\pi }_{i}(s, {a}_{i}){Q}_{i}(s, {a}_{i})>{\displaystyle \sum _{{a}_{i}\in {A}_{i}}}{\overline{\pi }}_{i}(s, {a}_{i}){Q}_{i}(s, {a}_{i})\\ {\delta }_{\rm{l}}, 其他\end{array} \right. (23)

    式中:δw表示Agent在比预期表现较好时的学习速率;δl表示Agent在比预期表现较差时的学习速率。

    整个模型基于OpenAI Gym平台建立和求解,以市场出清模型构建环境,以WoLF-PHC强化学习更新策略,迭代求解发电商报价策略。

    与节点边际电价的双层模型求解相比,在WoLF-PHC强化学习发电商报价策略时,系统/分区边际电价的双层模型求解除了需考虑报价空间的相应变化外,还需考虑两阶段的序贯决策。

    首先,系统/分区边际电价下发电商第1阶段报价决策模型的强化学习过程与节点边际电价相同,对于再调度阶段报价决策模型的强化学习,需增加再调度过程的报价空间,其生成方式为:假设再调度的报价对数为Npair,分别将各报价对的上(下)调报价区间离散化为Mu(Md)份,各部分交叉组合形成再调度的报价(曲线)空间时需满足:1)上、下调报价随报价对序号增大单调非递减;2)各报价对中,上调报价大于下调报价。如图 7所示。

    图  7  再调度报价空间及报价曲线生成示意图
    Figure  7.  Generation process of bidding curve and bidding space for re-dispatch

    其次,对于系统/分区边际电价与再调度结合的两阶段序贯决策问题,需在第1阶段强化学习基础上,增加对再调度报价的强化学习过程。其中,对于Q值更新,更新公式已将多阶段的Q值联系起来,在第1阶段或再调度出清后,Agent均以当前阶段所获利润作为立即回报,对相应Q值进行更新(如式(11)),即可实现发电商两阶段总利润最大化的目标。

    由此,系统/分区边际电价定价机制下,基于WoLF-PHC强化学习报价策略的流程如图 8所示。

    图  8  SMP/ZMP下发电商报价策略强化学习流程图
    Figure  8.  RL process for generators' bidding strategies under SMP/ZMP

    在WoLF-PHC强化学习发电商报价策略中,单时段报价的状态空间由各机组的出力离散值构成,而在连续时段的序贯报价情况下,不同时段机组出力是不同状态,状态空间的维数较大,求解速度较慢。本文处理过程描述如下:

    1)电力现货市场中,发电商在各时段所面临系统运行状态不同,在考虑机组运行特性约束前提下,某一时段的竞价可以看作为前时段中标结果为起始状态的重复博弈,由此可将连续时段的序贯报价看作单时段的竞价组合,通过各时段单独求解,共同实现全周期利润最大化的目标。在此过程中,发电机组发电特性约束保证了市场出清结果满足系统运行要求,并自动去除状态空间中不可行域的影响。

    2)各时段发电机组报价段容量固定时,对某一报价段而言,其中标情况有不中标、部分中标和全部中标三种。若无需区分报价段容量部分中标的详细情况,则可将其统一看作一个状态。由此,进一步将发电机组状态数缩减为2NB+1。

    3)单时段竞价情况下,节点边际电价由于只涉及单一阶段的决策问题,可看作是以某一出力状态下的重复博弈,将各Agent状态空间简化为一个状态,由此大大缩减了WoLF-PHC学习报价策略过程中的状态空间,加快求解速度。

    以IEEE 39节点系统为例,发电机组运行和成本参数见附录表A1,典型场景节点负荷数据见附录表A2,其中包括低谷负荷场景(Ⅰ)、工作日腰荷场景(Ⅱ)、工作日峰荷场景(Ⅲ)和非工作日峰荷场景(Ⅳ) 4个典型场景。系统/分区边际电价机制第一阶段和节点边际电价机制的出清过程中允许机组提交三段报价,段容量比例为3:4:3。鉴于本文未考虑机组组合变化,故将机组第一段报价固定为机组最小出力处的边际成本。再调度过程中,机组提交全容量段的一段式上调报价和下调报价,中标电量以报价结算。设置市场报价下限为160元/(MW·h),上限为450元/(MW·h),r=0.05。设定学习参数:α=0.1,γ=0.9,δw=0.001,δl=0.002,最大迭代次数为6000次。报价区间的离散间隔取10元/ (MW·h),形成报价空间。

    4个场景下发电机组的报价策略强化学习结果见附录图A1。在该机组报价策略下,场景Ⅰ和Ⅳ没有发生线路阻塞;场景Ⅱ下线路15-16阻塞;场景Ⅲ下线路2-30、15-16和17-18阻塞。各场景下机组中标情况如图 9所示。

    图  9  LMP下各场景机组中标情况
    Figure  9.  Winning bids of units in each scenario under LMP

    分析上述结果可知:

    1)场景Ⅰ下系统总负荷较小,市场出清价格低至260元/(MW·h),这与供过于求形势下供应方普遍压低价格获取市场份额的供需理论相符。G1、G10等低成本机组采取以量换价策略,在保证前两段中标前提下,经济持留第三段报价,抬高所处节点价格,获取更高收益;对于G5、G7、G8高成本机组,260元/(MW·h)的市场出清价远低于其后两段的边际发电成本,在利润最大化的目标下,并未采用低于边际成本报价的策略;在此情况下,G2、G4、G6等中等成本机组激烈竞争剩余的少量发电量空间和市场边际价格,其第二段报价均略高于发电边际成本,争做价格制定者(price-maker)。

    2)场景Ⅱ中,由于线路15-16阻塞,造成16节点东南侧电源送出受阻,并且由于本地负荷较小,受阻比例达到40%,此区域成本相对较低的G4、G6机组采取保量策略;同时,线路阻塞也增加了负荷集中地区G3机组的市场力,使其能够申报接近报价上限的价格;对于G1机组,由于本地无负荷,且唯一联网线路2-30无法满足其全部功率送出,若采取保量策略将拉低本地节点价格,故采取价格制定者策略,考虑其他机组报价变化情况,申报最大化期望利润的价格。

    3)场景Ⅲ中,在各机组报价策略下,边际机组相对于阻塞线路15-16和17-18的发电功率转移因子方向相同,造成西侧负荷中心的节点价格高企,超过报价上限,负荷中心机组均采取接近价格上限的报价策略。其中,G1由于无法采取以量换价、经济持留策略,故按价格上限报价,以最大化利润。线路阻塞造成了东北侧和东南侧电源送出受阻,G4—G7机组策略与场景Ⅱ相同,G9采用按价格上限报价的策略。

    4)场景Ⅳ下总负荷较高,半数机组满出力运行,但负荷分布相对分散,输电线路无阻塞,市场价格相对较低,为390元/(MW·h)。其中,G1机组处于窝电地区,采取经济持留第三段报价的策略,接受由系统其他机组决定的价格;G2、G7、G8、G9机组第三段报价未中标,且均略高于390元/ (MW·h),其目的是在其他机组未采取当前报价时成为边际机组、抬高市场价格。

    4个场景下发电机组的报价策略强化学习结果见附录图A2A3。在附录图A3中,柱状图的上、下界分别表示机组的上调报价和下调报价;状态表示系统边际电价出清后机组的中标电量位置,本文已剔除中标电量小于第一段报价量的非可行状态,0—4五个状态分别对应中标电量等于第一段报价量、介于第一段和前两段报价量之间、等于前两段报价量、介于前两段和全部报价量之间和等于全部报价量;本文将在强化学习过程中没有中标记录的上调报价设置为500元/(MW·h)、下调报价设置为0元/(MW·h),例如状态4的上调报价和状态0的下调报价。

    在该报价策略下,各场景线路阻塞情况如图 10所示,其中阶段Ⅰ和Ⅱ分别表示系统边际电价机制的第一阶段和再调度阶段。可知,特别是在场景Ⅱ和Ⅲ中,第一阶段出清结果造成了较多线路越限,经过再调度的阻塞管理后,阻塞线路明显减少,但其数量仍多于节点边际电价下的结果。同时可以发现,再调度过程实现了发电权转让的功能,造成了新的线路阻塞。

    图  10  SMP下各场景线路阻塞情况
    Figure  10.  Line congestion in each scenario under SMP

    图 11给出各场景下系统边际电价两阶段的机组中标情况。综合分析上文结果可知:

    图  11  SMP下各场景机组中标情况
    Figure  11.  Winning bids of units in each scenario under SMP

    1)场景Ⅰ中,G1、G10等低成本机组结合以量换价策略和低价上调策略,实现第一阶段保障收益、再调度阶段获取额外利润的目标;G2、G3、G4等中等成本机组的策略是,先以接近边际成本的报价尽可能争取中标电量的最大化,再以略低于边际成本的价格下调,赚取差价利润;而对于高成本机组而言,低谷负荷下没有投机空间。

    2)场景Ⅱ下,线路阻塞情况严重,机组的报价策略与其对阻塞线路的功率转移因子(如图 12所示)有密切关系。G1机组是能够缓解线路2-30阻塞的唯一机组,采用第一阶段保证全部中标、最低价下调的策略;G2机组的上调有利于缓解3-18、6-11、10-11、17-18多条线路的阻塞,其策略为,在保障前两段电量的基本收益的前提下,谋求再调度上调的额外收益;G3的下调最有利于缓解线路6-11和10-11的阻塞,其策略为,先最大化第一阶段收益,再以最低价争取下调收益;G4和G5是缓解线路16-19的唯二线路,但由于G5成本较高,可以接受稍高的下调价格,故G4机组采用最大化第一阶段收益策略,G5机组不断试探可以中标的最低下调价格;G8—G10对缓解线路阻塞的作用较小,主要寻求第一阶段的利润最大化。

    图  12  机组对部分线路的功率转移因子
    Figure  12.  Partial Power transfer distribution factor

    3)场景Ⅲ与场景Ⅱ相比,阻塞线路略有不同,且场景Ⅲ负荷较高。由此,个别机组的竞价地位发生改变,其报价策略也发生相应变化,主要体现在:G3的上调有利于缓解线路14-15和15-16的阻塞,其策略为,在保障前两段电量的基本收益的前提下,谋求再调度上调的额外收益;G4—G7、G9的下调对缓解线路3-18、14-15、15-16、17-18的阻塞影响较大,故采用先最大化第一阶段中标电量、再争取以尽可能低的价格中标下调的策略;G8申报最高上调价格,谋求再调度阶段的利润最大化。

    4)场景Ⅳ负荷较高,第一阶段出清价格较高,且未出现线路阻塞。机组的报价策略主要是最大化第一阶段的中标电量,中、低成本机组采用适当提高第三段报价的策略竞争成为价格制定者,以抬高市场价格。

    根据线路阻塞情况,本文采用按阻塞线路分区的方法,并选取正常运行状态下的线路2-30、15-16、17-18和26-27作为关键线路,如图 13所示。

    图  13  市场分区示意图
    Figure  13.  Zonal division of market

    4个场景下发电机组的报价策略强化学习结果见附录图A4A5图 1415分别给出各场景下分区边际电价两阶段线路阻塞和机组中标情况。

    图  14  ZMP下各场景线路阻塞情况
    Figure  14.  Line congestion in each scenario under ZMP
    图  15  ZMP下各场景机组中标情况
    Figure  15.  Winning bids of units in each scenario under ZMP

    综合分析可知:分区边际电价与系统边际电价下机组的报价策略有一定的相似之处,通过两阶段的报价配合,争取总利润的最大化。分区边际电价下各场景机组报价策略的特点是:场景Ⅰ没有发生阻塞,且负荷较低,中、低成本机组的策略是,申报略高于边际成本的报价,最大化第一阶段利润;场景Ⅱ和场景Ⅲ中,G2机组增加出力、G9机组减少出力对所有阻塞线路都有缓解作用,其策略分别是,在再调度阶段争取以较高价格进行上调和以较低价格进行下调。

    整体来看,各发电商报价策略符合理性博弈的结果,可以实现利润最大化的目标。通过上述分析可以看到,不同定价机制下机组的报价策略有一定差异,报价策略主要与机组成本、市场结算价格、机组位置及线路阻塞情况、多阶段报价等有关,具体来说:

    1)机组成本。低成本机组在市场竞争中处于优势地位,一方面,3种定价机制下的市场结果都表明,低成本机组的总收益、总利润、单位容量利润都高于其他机组;另一方面,在任一负荷场景下,低成本机组的策略更加丰富,如低谷负荷下可以采取以价换量策略,高峰负荷时可选择全电量中标或部分电量中标与高价上调相结合的策略。

    2)市场结算价格。在不同定价机制下,机组如果采用相同的报价策略,则其收益完全不同,因而市场结算价格会严重影响机组的报价策略。

    3)机组位置及线路阻塞情况。在无阻塞的理想环境下,机组的竞争力不受物理位置影响,而在绝大多数情况下,机组报价与其位置有密切关系。从本文结果可以看到,在相同定价机制、相同负荷场景下,即便是成本相近的机组,由于所处节点位置不同,其策略和收益也有差异。特别地,在阻塞较严重时,机组在市场竞争中的地位主要由其节点位置决定,机组根据自身对阻塞线路的功率转移因子,优化报价策略;在没有阻塞或阻塞轻微时,机组报价的策略性明显减弱。此外,与节点边际电价机制相比,结合重新报价的再调度方法的分区/系统边际电价机制可能造成更多线路阻塞,因而会增强更多机组的市场力。

    4)多阶段报价。在再调度阶段采用重新报价方式的情况下,与节点边际电价机制相比,分区边际电价与系统边际电价下机组可以通过两阶段报价的相互配合,实现利润最大化的目标。例如,当增加出力有利于缓解线路阻塞时,机组会采用先保障部分电量收益、再高价上调的策略;反之,机组会采用先最大化第一阶段收益、再争取低价下调的策略。因此,分区边际电价与系统边际电价下机组报价的策略性更强,行使市场力的方式也更加灵活。

    此外,不同定价机制下,机组的增量报价均不低于对应出力段的边际成本,下调报价均不高于对应出力区间的边际成本,此报价策略保证了机组在竞价中不会亏损运行,有利于最大化利润和固定成本的回收,由此,各定价机制下的报价空间可以进一步缩小。算例设置三段报价,在单时段竞价情况下,报价段数的增加为机组制定报价策略提供了更多选择空间,有利于在保证预期负荷率的前提下谋求更高收益;而在全天各时段均采用相同报价的市场中,报价段数的增加还有利于机组针对与不同时段的负荷制定报价策略。

    电力现货市场机制是发电商报价的基础,而发电商报价行为也是检验市场设计合理性的重要依据。研究电力市场中发电商策略性报价行为,对市场主体争取利润最大化,电力市场设计者完善市场机制和规则,以及监管机构预防和监测市场力滥用行为等均具有重要的工程应用价值。本文基于多智能强化学习的WoLF-PHC强化学习方法,直接对不同电力现货市场定价机制下的发电商报价双层模型进行求解,避免了将双层优化问题转化为单层平衡约束规划问题的繁杂过程;并对3种定价机制下发电商竞价行为通过算例分析验证了其有效性,为电力现货市场下发电商报价决策提供参考。

    多智能强化学习适合于解决复杂适应系统下的多主体博弈问题,在能源与电力系统领域的应用逐渐丰富。基于多智能强化学习的发电商报价策略研究,是机器学习在电力市场仿真中的典型应用,一定程度上解决了博弈论方法的缺点,可以辅助发电商制定最优的报价策略。并且,多智能强化学习可以模拟真实市场运行情况,得到接近市场稳定运行状态下的市场均衡结果,是对比或检测电力市场设计的有效手段,也是对电力系统“源–网–荷”规划进行量化分析的有利工具。因此,续篇《基于多智能体强化学习的电力现货市场定价机制研究(二)结合理论与仿真的定价机制决策框架》将在本篇的基础上,重点研究电力现货市场定价机制的选择和设计。

      A1  发电机组运行及成本参数
      A1.  Operation and cost parameters of generator unit
    机组编号 所在节点 最大出力/ MW 最小出力/ MW 成本参数 燃料价格/ (元/t) 上爬坡能力/ (MW/h) 下爬坡能力/ (MW/h) 启停成本/万元 最小停机时间/h 最小开机时间/h
    Ca/(t/(MW·h)2) Cb/(t/(MW·h)) Cc/(t/h)
    G1 30 1040 312.0 0.000068 0.16 5.8 800 600 700 100 8 8
    G2 31 646 193.8 0.000096 0.22 2.5 800 420 480 64 8 8
    G3 32 725 217.5 0.000085 0.20 3.0 800 430 510 72 8 8
    G4 33 652 195.6 0.000094 0.22 2.5 800 420 480 65 8 8
    G5 34 508 152.4 0.00018 0.26 1.2 800 360 420 50 8 8
    G6 35 687 206.1 0.00009 0.22 2.5 800 420 480 68 8 8
    G7 36 580 174.0 0.00015 0.26 1.2 800 360 420 58 8 8
    G8 37 564 169.2 0.00017 0.26 1.2 800 360 420 56 8 8
    G9 38 865 259.5 0.00008 0.20 3.0 800 480 540 86 8 8
    G10 39 1100 330.0 0.00006 0.15 5.8 800 636 742 110 8 8
    下载: 导出CSV 
    | 显示表格
      A2  各场景节点负荷数据
      A2.  Node load data in each scenario MW
    节点编号 场景Ⅰ低谷负荷 场景Ⅱ工作日腰荷 场景Ⅲ工作日峰荷 场景Ⅳ非工作日峰荷
    1 179 387 458.0 97.60
    3 288 512 463.0 322.00
    4 227 241 286.0 500.00
    7 189 322 381.0 233.80
    8 286 374 443.0 522.00
    9 9 20 24.5 6.50
    12 110 273 723.0 8.53
    15 201 294 217.0 320.00
    16 115 73 87.0 329.00
    18 86 113 129.0 158.00
    20 319 353 297.0 680.00
    21 136 161 191.0 274.00
    23 96 77 92.0 247.50
    24 122 104 123.0 308.60
    25 305 621 762.0 224.00
    26 39 7 56.0 139.00
    27 106 82 98.0 281.00
    28 56 5 6.5 206.00
    29 80 13 16.0 283.50
    31 302 756 480.0 9.20
    39 538 621 734.0 1104.00
    下载: 导出CSV 
    | 显示表格
      A1  LMP下各场景机组报价曲线及中标价格
      A1.  Bidding curve and winning price of each scenario under LMP
      A2  SMP下各场景机组报价曲线及中标价格
      A2.  Bidding curve and winning price of each scenario under SMP
      A3  SMP下各场景机组再调度报价
      A3.  Re-dispatch bidding of each scenario under SMP
      A4  ZMP下各场景机组报价曲线及中标价格
      A4.  Bidding curve and winning price of each scenario under ZMP
      A5  ZMP下各场景机组再调度报价
      A5.  Re-dispatch bidding of each scenario under ZMP
  • 图  1   强化学习中Agent和环境交互过程

    Figure  1.   Interaction process between Agent and environment in RL

    图  2   强化学习方法分类

    Figure  2.   Classification of RL methods

    图  3   双层优化模型框架

    Figure  3.   Bi-level optimization model framework

    图  4   SMP/ZMP两阶段状态转移示意图

    Figure  4.   State transition in two stages of SMP/ZMP

    图  5   发电商报价策略强化学习流程图

    Figure  5.   RL process for generators' bidding strategies

    图  6   LMP下发电商报价策略强化学习流程图

    Figure  6.   RL process for generators' bidding strategies under LMP

    图  7   再调度报价空间及报价曲线生成示意图

    Figure  7.   Generation process of bidding curve and bidding space for re-dispatch

    图  8   SMP/ZMP下发电商报价策略强化学习流程图

    Figure  8.   RL process for generators' bidding strategies under SMP/ZMP

    图  9   LMP下各场景机组中标情况

    Figure  9.   Winning bids of units in each scenario under LMP

    图  10   SMP下各场景线路阻塞情况

    Figure  10.   Line congestion in each scenario under SMP

    图  11   SMP下各场景机组中标情况

    Figure  11.   Winning bids of units in each scenario under SMP

    图  12   机组对部分线路的功率转移因子

    Figure  12.   Partial Power transfer distribution factor

    图  13   市场分区示意图

    Figure  13.   Zonal division of market

    图  14   ZMP下各场景线路阻塞情况

    Figure  14.   Line congestion in each scenario under ZMP

    图  15   ZMP下各场景机组中标情况

    Figure  15.   Winning bids of units in each scenario under ZMP

    A1   LMP下各场景机组报价曲线及中标价格

    A1.   Bidding curve and winning price of each scenario under LMP

    A2   SMP下各场景机组报价曲线及中标价格

    A2.   Bidding curve and winning price of each scenario under SMP

    A3   SMP下各场景机组再调度报价

    A3.   Re-dispatch bidding of each scenario under SMP

    A4   ZMP下各场景机组报价曲线及中标价格

    A4.   Bidding curve and winning price of each scenario under ZMP

    A5   ZMP下各场景机组再调度报价

    A5.   Re-dispatch bidding of each scenario under ZMP

    A1   发电机组运行及成本参数

    A1   Operation and cost parameters of generator unit

    机组编号 所在节点 最大出力/ MW 最小出力/ MW 成本参数 燃料价格/ (元/t) 上爬坡能力/ (MW/h) 下爬坡能力/ (MW/h) 启停成本/万元 最小停机时间/h 最小开机时间/h
    Ca/(t/(MW·h)2) Cb/(t/(MW·h)) Cc/(t/h)
    G1 30 1040 312.0 0.000068 0.16 5.8 800 600 700 100 8 8
    G2 31 646 193.8 0.000096 0.22 2.5 800 420 480 64 8 8
    G3 32 725 217.5 0.000085 0.20 3.0 800 430 510 72 8 8
    G4 33 652 195.6 0.000094 0.22 2.5 800 420 480 65 8 8
    G5 34 508 152.4 0.00018 0.26 1.2 800 360 420 50 8 8
    G6 35 687 206.1 0.00009 0.22 2.5 800 420 480 68 8 8
    G7 36 580 174.0 0.00015 0.26 1.2 800 360 420 58 8 8
    G8 37 564 169.2 0.00017 0.26 1.2 800 360 420 56 8 8
    G9 38 865 259.5 0.00008 0.20 3.0 800 480 540 86 8 8
    G10 39 1100 330.0 0.00006 0.15 5.8 800 636 742 110 8 8
    下载: 导出CSV

    A2   各场景节点负荷数据

    A2   Node load data in each scenario MW

    节点编号 场景Ⅰ低谷负荷 场景Ⅱ工作日腰荷 场景Ⅲ工作日峰荷 场景Ⅳ非工作日峰荷
    1 179 387 458.0 97.60
    3 288 512 463.0 322.00
    4 227 241 286.0 500.00
    7 189 322 381.0 233.80
    8 286 374 443.0 522.00
    9 9 20 24.5 6.50
    12 110 273 723.0 8.53
    15 201 294 217.0 320.00
    16 115 73 87.0 329.00
    18 86 113 129.0 158.00
    20 319 353 297.0 680.00
    21 136 161 191.0 274.00
    23 96 77 92.0 247.50
    24 122 104 123.0 308.60
    25 305 621 762.0 224.00
    26 39 7 56.0 139.00
    27 106 82 98.0 281.00
    28 56 5 6.5 206.00
    29 80 13 16.0 283.50
    31 302 756 480.0 9.20
    39 538 621 734.0 1104.00
    下载: 导出CSV
  • [1] 邹鹏, 陈启鑫, 夏清, 等.国外电力现货市场建设的逻辑分析及对中国的启示与建议[J].电力系统自动化, 2014, 38(13):18-27. DOI: 10.7500/AEPS20140219003

    ZOU Peng, CHEN Qixin, XIA Qing, et al.Logical analysis of electricity spot market design in foreign countries and enlightenment and policy suggestions for China[J].Automation of Electric Power Systems, 2014, 38(13):18-27(in Chinese). DOI: 10.7500/AEPS20140219003

    [2] 国家发展改革委办公厅, 国家能源局综合司.关于深化电力现货市场建设试点工作的意见(发改办能源规[2019] 828号)[EB/OL].(2019-07-31)[2020-11-29].https://www.ndrc.gov.cn/xxgk/zcfb/ghxwj/201908/t20190807_960970.html.
    [3]

    HENNEY A, RUSSELL T.Lessons from the institutional framework of transmission, system operation, and energy markets in most west European countries and some other countries: The case for TransCos[R].Washington DC, USA: Federal Energy Regulatory Commission, 2002.

    [4]

    CARAMANIS M, BOHN R, SCHWEPPE F.Optimal spot pricing:practice and theory[J].IEEE Power Engineering Review, 1982, 2(9):42.

    [5]

    BJØRNDAL M H, JØRNSTEN K.Zonal pricing in a deregulated electricity market[J].Energy Journal, 2001, 22(1):51-73.

    [6]

    DAVID A K, WEN Fushuan.Strategic bidding in competitive electricity markets: a literature survey[C]//2000 Power Engineering Society Summer Meeting.Seattle, WA, USA: IEEE, 2000.

    [7] 文福拴, David A K.电力市场中的投标策略[J].电力系统自动化, 2000, 24(14):1-6. DOI: 10.3321/j.issn:1000-1026.2000.14.001

    WEN Fushuan, DAVID A K.Bidding strategies in electricity markets[J].Automation of Electric Power Systems, 2000, 24(14):1-6(in Chinese). DOI: 10.3321/j.issn:1000-1026.2000.14.001

    [8]

    LI Gong, SHI Jing, QU Xiuli.Modeling methods for GenCo bidding strategy optimization in the liberalized electricity spot market:A state-of-the-art review[J].Energy, 2011, 36(8):4686-4700. DOI: 10.1016/j.energy.2011.06.015

    [9] 马莉.电力市场环境下发电公司报价策略研究[D].杭州: 浙江大学, 2003.

    MA Li.Bidding strategies for generation companies in the electricity market environment[D].Hangzhou: Zhejiang University, 2003(in Chinese).

    [10] 张晓瑾.火电厂生产成本分析与报价策略的研究[D].天津: 天津大学, 2007.

    ZHANG Xiaojin.The study of generator cost analysis and bidding strategies for power plant[D].Tianjin: Tianjin University, 2007(in Chinese).

    [11] 马新顺.电力市场环境下的发电公司策略性投标机理研究[D].保定: 华北电力大学, 2005.

    MA Xinshun.Research on the mechanism of strategic bidding for generation companies in electricity market[D].Baoding: North China Electric Power University, 2005(in Chinese).

    [12]

    CONEJO A J, NOGALES F J, ARROYO J M.Price-taker bidding strategy under price uncertainty[J].IEEE Power Engineering Review, 2002, 22(9):57.

    [13]

    NI E, LUH P B.Optimal integrated generation bidding and scheduling with risk management under a deregulated daily power market[C]//2002 IEEE Power Engineering Society Winter Meeting.New York: IEEE, 2002.

    [14] 武智勇, 康重庆, 夏清, 等.基于博弈论的发电商报价策略[J].电力系统自动化, 2002, 26(9):7-11. DOI: 10.3321/j.issn:1000-1026.2002.09.002

    WU Zhiyong, KANG Chongqing, XIA Qing, et al.Strategic bidding with application of game theory[J].Automation of Electric Power Systems, 2002, 26(9):7-11(in Chinese). DOI: 10.3321/j.issn:1000-1026.2002.09.002

    [15] 王晛, 张凯, 张少华.风电参与投标的日前电力市场与需求响应交易市场联合均衡分析[J].中国电机工程学报, 2018, 38(19):5738-5750. http://www.pcsee.org/CN/abstract/abstract30821.shtml

    WANG Xian, ZHANG Kai, ZHANG Shaohua.Joint equilibrium analysis of day-ahead electricity market and DRX market considering wind power bidding[J].Proceedings of the CSEE, 2018, 38(19):5738-5750(in Chinese). http://www.pcsee.org/CN/abstract/abstract30821.shtml

    [16]

    PARK J B, KIM B H, KIM J H, et al.A continuous strategy game for power transactions analysis in competitive electricity markets[J].IEEE Transactions on Power Systems, 2001, 16(4):847-855. DOI: 10.1109/59.962436

    [17] 艾欣, 周树鹏, 赵阅群.含虚拟发电厂的电力系统优化运行与竞价策略研究[J].中国电机工程学报, 2016, 36(23):6351-6362. http://www.pcsee.org/CN/abstract/abstract29214.shtml

    AI Xin, ZHOU Shupeng, ZHAO Yuequn.Research on optimal operation and bidding strategy of power system with virtual power plants[J].Proceedings of the CSEE, 2016, 36(23):6351-6362(in Chinese). http://www.pcsee.org/CN/abstract/abstract29214.shtml

    [18]

    TIGUERCHA A, LADJICI A A, BOUDOUR M.Competitive co-evolutionary approach to stochastic modeling in deregulated electricity market[C]//2014 IEEE International Energy Conference.Cavtat, Croatia: IEEE, 2014.

    [19]

    TIGUERCHA A, LADJICI A A, BOUDOUR M.Suppliers' optimal biding strategies in day-ahead electricity market using competitive coevolutionary algorithms[C]//Proceedings of the3rd International Conference on Systems and Control.Algiers, Algeria: IEEE, 2013.

    [20]

    KUMAR J V, KUMAR D M V, EDUKONDALU K.Strategic bidding using fuzzy adaptive gravitational search algorithm in a pool based electricity market[J].Applied Soft Computing, 2013, 13(5):2445-2455. DOI: 10.1016/j.asoc.2012.12.003

    [21]

    RAHIMIYAN M, MASHHADI H R.An adaptive Q-learning algorithm developed for agent-based computational modeling of electricity market[J].IEEE Transactions on Systems, Man, and Cybernetics, Part C, 2010, 40(5):547-556. DOI: 10.1109/TSMCC.2010.2044174

    [22] 李宏仲, 王磊, 林冬, 等.多主体参与可再生能源消纳的Nash博弈模型及其迁移强化学习求解[J].中国电机工程学报, 2019, 39(14):4135-4150. http://www.pcsee.org/CN/abstract/abstract31489.shtml

    LI Hongzhong, WANG Lei, LIN Dong, et al.A Nash game model of multi-agent participation in renewable energy consumption and the solving method via transfer reinforcement learning[J].Proceedings of the CSEE, 2019, 39(14):4135-4150(in Chinese). http://www.pcsee.org/CN/abstract/abstract31489.shtml

    [23] 王锡凡, 王秀丽, 陈皓勇.电力市场基础[M].西安:西安交通大学出版社, 2003:76.

    WANG Xifan, WANG Xiuli, CHEN Haoyong.Basic knowledge of electricity market[M].Xi'an:Xi'an Jiaotong University Press, 2003:76(in Chinese).

    [24]

    SUTTON R S, BARTO A G.Reinforcement learning:an introduction[J].IEEE Transactions on Neural Networks, 1998, 9(5):1054.

    [25] 曾次玲.电力市场中发电企业的报价策略及相关问题研究[D].武汉: 华中科技大学, 2005.

    ZENG Ciling.Research on power supplier's bidding strategies and its related issues in electricity market[D].Wuhan: Huazhong University of Science and Technology, 2005(in Chinese).

    [26] 程乐峰, 余涛, 张孝顺, 等.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化, 2019, 43(1):15-31. https://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201901003.htm

    CHENG Lefeng, YU Tao, ZHANG Xiaoshun, et al.Machine learning for energy and electric power systems:state of the art and prospects[J].Automation of Electric Power Systems, 2019, 43(1):15-31(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-DLXT201901003.htm

    [27]

    MARSLAND S.Machine learning:an algorithmic perspective[M].Boca Raton:CRC Press, 2009:293-312.

    [28]

    WIERING M, VAN OTTERLO M.Reinforcement learning (state-of-the-art)[M].Berlin:Springer, 2012:579-610.

    [29]

    BUNN D W, OLIVEIRA F S.Agent-based simulation-an application to the new electricity trading arrangements of England and Wales[J].IEEE Transactions on Evolutionary Computation, 2001, 5(5):493-503. DOI: 10.1109/4235.956713

    [30]

    NANDURI V, DAS T K.A reinforcement learning model to assess market power under auction-based energy pricing[J].IEEE Transactions on Power Systems, 2007, 22(1):85-95. DOI: 10.1109/TPWRS.2006.888977

    [31] 邹斌, 李庆华, 言茂松.电力拍卖市场的智能代理仿真模型[J].中国电机工程学报, 2005, 25(15):7-11. DOI: 10.3321/j.issn:0258-8013.2005.15.002

    ZOU Bin, LI Qinghua, YAN Maosong.An agent-based simulation model on pool-based electricity market using locational marginal price[J].Proceedings of the CSEE, 2005, 25(15):7-11(in Chinese). DOI: 10.3321/j.issn:0258-8013.2005.15.002

    [32] 邹斌, 言茂松, 谢光前.不同定价方式下电力拍卖市场运行特征的比较研究:(一)模型与算法[J].电力系统自动化, 2004, 28(15):7-14. DOI: 10.3321/j.issn:1000-1026.2004.15.002

    ZOU Bin, YAN Maosong, XIE Guangqian.Comparisons among pricing methods in pool-based electricity market by agent-based simulation Part one model and algorithm[J].Automation of Electric Power Systems, 2004, 28(15):7-14(in Chinese). DOI: 10.3321/j.issn:1000-1026.2004.15.002

    [33] 廖守亿, 戴金海.复杂适应系统及基于Agent的建模与仿真方法[J].系统仿真学报, 2004, 16(1):113-117. DOI: 10.3969/j.issn.1004-731X.2004.01.033

    LIAO Shouyi, DAI Jinhai.Study on complex adaptive system and agent-based modeling & simulation[J].Journal of System Simulation, 2004, 16(1):113-117(in Chinese). DOI: 10.3969/j.issn.1004-731X.2004.01.033

    [34]

    BOWLING M, VELOSO M.Multiagent learning using a variable learning rate[J].Artificial Intelligence, 2002, 136(2):215-250. DOI: 10.1016/S0004-3702(02)00121-2

    [35] 张粒子, 唐成鹏, 刘方, 等.基于多智能体强化学习的电力现货市场定价机制研究(二): 结合理论与仿真的定价机制决策框架[J/OL].中国电机工程学报, https://doi.org/10.13334/j.0258-8013.pcsee.191552.

    ZHANG Lizi, TANG Chengpeng, LIU Fang, et al.Research on pricing mechanism of electricity spot market based on multi-agent reinforcement learning (part Ⅱ): decision-making framework of pricing mechanism combined with theory and simulation[J/OL].Proceedings of the CSEE, https://doi.org/10.13334/j.0258-8013.pcsee.191552(in Chinese).

图(20)  /  表(2)
计量
  • 文章访问数:  0
  • HTML全文浏览量:  0
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-09
  • 发布日期:  2020-10-22
  • 刊出日期:  2021-01-19

目录

/

返回文章
返回