基于深度强化学习的电-热耦合新能源系统能量管理方法

未命名 08-14 阅读:124 评论:0


1.本发明属于能源系统优化控制方法技术领域,具体涉及一种基于深度强化学习的电-热耦合新能源系统能量管理方法。


背景技术:

2.近年来,能源需求大幅增长与环境问题日益严峻,加快发展以风光为代表的可再生能源,促进能源转型是当今各国关心的问题。具有强不确定性的可再生能源大规模并网给传统电力系统优化运行带来巨大挑战。电-热耦合系统(electronic-heat combined system)实现能量互补利用,以其灵活供能特点,为进一步提高可再生能源利用率提供了有效途径。
3.目前,工业界普遍采用传统数学规划算法和启发式算法。前者依赖对日前新能源出力以及负荷等数据预测的准确性,多用于日前优化调度问题,后者虽具有良好的全局搜索能力,但受限于计算速度,多用于对计算速度要求不高系统。
4.另一类基于人工智能的学习驱动算法,强化学习(reinforcement learni ng,rl)/深度强化学习(deep reinforcement learning,drl)通过与环境不断交互试错,训练智能体在复杂情况中寻找出最优策略。同时,训练好的智能体不需要依赖预测信息。目前在学术界,采用rl求解电-热耦合新能源系统经济调度问题是一个热门方向。


技术实现要素:

5.本发明的目的在于提供一种基于深度强化学习的电-热耦合新能源系统能量管理方法,可以提高可再生能源的利用率。
6.本发明所采用的技术方案是:基于深度强化学习的电-热耦合新能源系统能量管理方法,包括以下步骤:
7.步骤1、建立针对电-热耦合新能源系统的优化运行模型目标函数和响应约束条件;
8.步骤2、将步骤1所建立模型表述为马尔可夫决策过程,再将其定义为深度强化学习框架下的环境,并设计相应奖励函数机制;
9.步骤3、使用基于改进的多线程ppo算法,以最大化累计奖励为期望,得到最优能量管理策略。
10.本发明的特点还在于,
11.步骤1中建立的优化运行模型目标为电-热耦合新能源系统调度周期的最小化运行成本,目标函数表示为:
12.f=min(f1+f2)
ꢀꢀꢀꢀ
(1)
13.式(1)中,f为系统优化运行目标,f1表示系统在一个调度日内的运行成本,表示为:
14.f1=cg+c
chp
ꢀꢀꢀ
(2)
15.式(2)中,cg为火电机组运行成本,c
chp
为热电联产机组运行成本;
[0016][0017]
式(3)中,表示t时刻火电机组运行成本,p
tg
表示t时刻火电机组出力,αg,βg,γg为火电机组能耗系数;
[0018][0019]
式(4)中,表示t时刻热电联产机组运行成本,p
tchp
表示t时刻热电联产机组所发有功功率,表示热电联产机组t时刻热出力,a0,a1,a2,a3,a4,a5,a6为热电联产机组能耗系数;
[0020]
式(1)中,f2表示惩罚函数项,表示为:
[0021]
f2=λd
p
+γdhꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0022]
式(5)中,λd
p
为电网惩罚,d
p
在数值上等于弃风功率或切电负荷;γdh为热网惩罚,dh在数值上等于所弃热负荷的平方。
[0023]
步骤1中的响应约束条件包括:
[0024]
火电机组出力约束p
tg
,表示为:
[0025][0026]
式(6)中,和分别为火电机组出力的最大最小值;
[0027]
火电机组爬坡约束rg,表示为:
[0028][0029]
式(7)中,和分别为火电机组的上爬坡和下爬坡速率;
[0030]
热电联产机组有功出力约束p
tchp
,表示为:
[0031][0032]
式(8)中,和表示热电联产机组有功出力最大最小值;
[0033]
热电联产机组产热约束表示为:
[0034][0035]
式(9)中,表示热电联产机组产热最大值;
[0036]
抽水蓄能电站抽水功率约束p
th.p
,表示为:
[0037][0038]
式(10)中,和表示抽水蓄能电站抽水最大和最小功率;
[0039]
抽水蓄能电站发电功率约束p
th.g
,表示为:
[0040][0041]
式(11)中,和表示抽水蓄能电站发电最大和最小功率;
[0042]
抽水蓄能电站上游水库库容约束vu,表示为:
[0043][0044]
式(12)中,和表示上游水库的可用于发电的库容最大值和最小值;
[0045]
抽水蓄能电站下游水库库容约束vd,表示为:
[0046][0047]
式(13)中,和表示下游水库的可用于抽水的库容最大值和最小值;
[0048]
抽水蓄能电站上下水库状态转移约束表示为:
[0049][0050][0051]
式(14)中,v
tu
,v
td
表示t时刻上下水库水量,xh∈{0,1}表示发电状态;式(15)中,yh∈{0,1}表示抽水状态,xh+yh=1;δt为一个调度时段,ηg和η
p
为抽水蓄能电站发电与抽水效率因数;
[0052]
风电机组出力约束p
tw
,表示为:
[0053][0054]
式(16)中,和表示风电机组出力的最大值和最小值;
[0055]
储热装置供热状态约束和充热状态约束表示为:
[0056][0057][0058]
式(17)中,表示储热罐充热功率最大值,表示储热罐供热功率最大值;式(18)表示储热罐承担剩余热负荷时供热时状态变量;
[0059]
储热罐状态转移约束表示为:
[0060][0061]
式(19)中,表示储热罐在t时刻的供热情况,大于零表示向热负荷供热,小于零表示吸收热电联产机组多余的热量;
[0062]
储热罐出力约束表示为:
[0063][0064]
式(20)中,和表示储热罐供热/蓄热的最大值和最小值。
[0065]
步骤2具体包括:定义步骤1所得模型的马尔可夫决策过程的状态和动作空间,用一个五元组(s,a,p,r,γ)来表示,s是状态空间集合,a是动作空间集合,p:s
t-τ
×at
→st
是状态转移概率,r是奖励函数,γ∈[0,1]是学习率;则:
[0066]
马尔可夫决策过程状态空间表示为:
[0067][0068]
式(21)中,表示上一个调度时段末火电机组出力,和表示上一个调度时段末热电联产机组有功出力和热出力,和分别表示上一调度时段末抽水蓄能电站和储热装置的储量状态,表示预测的风电所发有功功率;
[0069]
马尔可夫决策过程动作空间表示为:
[0070][0071]
式(22)中,p
tg
表示t时刻火电机组出力,p
tchp
和分别表示解耦后的热电联产机组有功出力和热出力,p
th
表示t时刻抽水蓄能电站动作;
[0072]
马尔可夫决策过程奖励函数表示为目标函数的负值:
[0073]rt
(s
t
,a
t
)=-f
ꢀꢀꢀꢀ
(23)。
[0074]
步骤3具体包括以下步骤:
[0075]
步骤3.1、根据公式(21)与系统运行真实数据,在约束范围内随机初始化不同系统状态,包括抽水蓄能机组、储热装置、火电机组、热电联产机组状态,采用多线程收集系统状态信息,收集数据线程数设置为4,将状态信息存入样本池;
[0076]
步骤3.2、神经网络权重初始化;设置主ppo算法的actor和critic神经网络学习率c
actor
=0.0003,c
critci
=0.001,奖励折扣因子优势函数剪切系数ε=0.2;actor和critic网络结构均包含输入层:神经元个数为系统状态数量,两个隐藏层:神经元个数为64,输出层:神经元个数为动作数量,每层神经网络激活函数均采用双曲正切函数;
[0077]
步骤3.3、将样本池中收集到的系统状态信息输入actor神经网络,输出对应的控制策略π(a|s),即动作分布;由公式(22)可知,得到的动作向量a
t
中的元素对应系统内各机组下一时刻动作;
[0078]
步骤3.4、将动作应用于当前系统各个机组状态,得到机组下一时刻状态向量s
t+1
,根据公式(23)计算即时奖励r
t
,将此时获得的(s
t
,a
t
,r
t
,s
t+1
)集合存入样本池;
[0079]
步骤3.5、价值网络critic根据样本池中的(s
t
,a
t
,r
t
,s
t+1
)集合计算总的状态价值v(t)和状态动作价值q(t),循环步骤3.2-3.4直至调度日结束;
[0080]
步骤3.6、更新神经网络参数,根据公式a
π
(s,a)=q
π
(s,a)-v
π
(s)计算优势函数a
π
(s,a),通过梯度下降的方式和参数方向传播更新actor和critic网络参数;
[0081]
步骤3.7、循环步骤3.2-3.6直至达全部训练天数,并保存训练模型。
[0082]
本发明的有益效果是:本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法,在电-热耦合新能源系统中考虑抽水蓄能机组,热电联产机组电热关系解耦;在优化过程中,基于深度强化学习多线程ppo算法,应用于电-热耦合新能源系统能量管理问题中,可以提高可再生能源的利用率。
附图说明
[0083]
图1是本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法应用的电-热耦合新能源系统模型图;
[0084]
图2是本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法采用的改进多线程ppo算法流程图;
[0085]
图3a)是本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法的应用案例图一;
[0086]
图3b)是本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法的应用案例图二。
具体实施方式
[0087]
下面结合附图以及具体实施方式对本发明进行详细说明。
[0088]
本发明提供了一种基于深度强化学习的电-热耦合新能源系统能量管理方法,针对图1所示电-热耦合新能源系统,包含两个网络。电力网络包含火电机组、抽水蓄能机组,热力网络包含储热装置。两个网络通过热电联产机组实现互联互通。
[0089]
步骤1、针对电-热耦合新能源系统优化运行模型,建立其目标函数和响应约束条件,包括电、热负荷平衡约束,火电机组、热电联产机组出力上下限约束,爬坡约束,储能备用容量约束;
[0090]
目标函数表示为:
[0091]
f=min(f1+f2)
ꢀꢀꢀ
(1)
[0092]
式(1)中,f为系统优化运行目标,f1表示系统在一个调度日内的运行成本,表示为:
[0093]
f1=cg+c
chp
ꢀꢀꢀ
(2)
[0094]
式(2)中,cg为火电机组运行成本,c
chp
为热电联产机组运行成本;
[0095][0096]
式(3)中,表示t时刻火电机组运行成本,p
tg
表示t时刻火电机组出力,αg,βg,γg为火电机组能耗系数;
[0097][0098]
式(4)中,表示t时刻热电联产机组运行成本,p
tchp
表示t时刻热电联产机组所发有功功率,表示热电联产机组t时刻热出力,a0,a1,a2,a3,a4,a5,a6为热电联产机组能耗系数;
[0099]
式(1)中,f2表示惩罚函数项,表示为:
[0100]
f2=λd
p
+γdhꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0101]
式(5)中,λd
p
为电网惩罚,d
p
在数值上等于弃风功率或切电负荷;γdh为热网惩罚,dh在数值上等于所弃热负荷的平方。
[0102]
响应约束条件包括:
[0103]
火电机组出力约束p
tg
,表示为:
[0104][0105]
式(6)中,和分别为火电机组出力的最大最小值;
[0106]
火电机组爬坡约束rg,表示为:
[0107][0108]
式(7)中,和分别为火电机组的上爬坡和下爬坡速率;
[0109]
热电联产机组有功出力约束p
tchp
,表示为:
[0110][0111]
式(8)中,和表示热电联产机组有功出力最大最小值;
[0112]
热电联产机组产热约束表示为:
[0113]
[0114]
式(9)中,表示热电联产机组产热最大值;
[0115]
抽水蓄能电站抽水功率约束p
th.p
,表示为:
[0116][0117]
式(10)中,和表示抽水蓄能电站抽水最大和最小功率;
[0118]
抽水蓄能电站发电功率约束p
th.g
,表示为:
[0119][0120]
式(11)中,和表示抽水蓄能电站发电最大和最小功率;
[0121]
抽水蓄能电站上游水库库容约束vu,表示为:
[0122][0123]
式(12)中,和表示上游水库的可用于发电的库容最大值和最小值;
[0124]
抽水蓄能电站下游水库库容约束vd,表示为:
[0125][0126]
式(13)中,和表示下游水库的可用于抽水的库容最大值和最小值;
[0127]
抽水蓄能电站上下水库状态转移约束表示为:
[0128][0129][0130]
式(14)中,v
tu
,v
td
表示t时刻上下水库水量,xh∈{0,1}表示发电状态;式(15)中,yh∈{0,1}表示抽水状态,xh+yh=1;δt为一个调度时段,ηg和η
p
为抽水蓄能电站发电与抽水效率因数;
[0131]
风电机组出力约束p
tw
,表示为:
[0132][0133]
式(16)中,和表示风电机组出力的最大值和最小值;
[0134]
储热装置供热状态约束和充热状态约束表示为:
[0135][0136][0137]
式(17)中,表示储热罐充热功率最大值,表示储热罐供热功率最大值;式(18)表示储热罐承担剩余热负荷时供热时状态变量;
[0138]
储热罐状态转移约束表示为:
[0139][0140]
式(19)中,表示储热罐在t时刻的供热情况,大于零表示向热负荷供热,小于零表示吸收热电联产机组多余的热量;
[0141]
储热罐出力约束表示为:
[0142][0143]
式(20)中,和表示储热罐供热/蓄热的最大值和最小值。
[0144]
步骤2、将步骤1所建立模型表述为马尔可夫决策过程,再将其定义为深度强化学习框架下的环境,并设计相应奖励函数机制。具体为:
[0145]
定义步骤1所得模型的马尔可夫决策过程的状态和动作空间,用一个五元组(s,a,p,r,γ)来表示,s是状态空间集合,a是动作空间集合,p:s
t-τ
×at
→st
是状态转移概率,r是奖励函数,γ∈[0,1]是学习率;则:
[0146]
马尔可夫决策过程状态空间表示为:
[0147][0148]
式(21)中,表示上一个调度时段末火电机组出力,和表示上一个调度时段末热电联产机组有功出力和热出力,和分别表示上一调度时段末抽水蓄能电站和储热装置的储量状态,表示预测的风电所发有功功率;
[0149]
马尔可夫决策过程动作空间表示为:
[0150][0151]
式(22)中,p
tg
表示t时刻火电机组出力。热电联产机组为了满足热负荷的需求,增大其热功率被迫产生大量电功率。需要对热电联产机组出力进行热电解耦,具体操作为:根据热电联产机组运行的多边形模型,对其配备储热装置。此时热电联产机组的热电可行操作域在热出力方向扩大,从而使得在热负荷平稳而电负荷波动较大情况下,电出力可调范围增大,极大地增加了系统调峰能力,使得系统消纳风电的能力提升。p
tchp
和分别表示解耦后的热电联产机组有功出力和热出力,p
th
表示t时刻抽水蓄能电站动作;
[0152]
马尔可夫决策过程奖励函数表示为目标函数的负值:
[0153]
rt(st,at)=-f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)。
[0154]
步骤3、使用基于改进的多线程ppo算法,为使训练回合内选择的动作返回奖励最大,以最大化累计奖励为期望,可以保证学习到的能量管理策略为最优。如图2所示的算法流程包括以下步骤:
[0155]
步骤3.1、根据公式(21)与系统运行真实数据,在约束范围内随机初始化不同系统状态,包括抽水蓄能机组、储热装置、火电机组、热电联产机组状态,采用多线程收集系统状态信息,收集数据线程数设置为4,将状态信息存入样本池;
[0156]
步骤3.2、神经网络权重初始化;设置主ppo算法的actor和critic神经网络学习率c
actor
=0.0003,c
critci
=0.001,奖励折扣因子优势函数剪切系数ε=0.2;actor和critic网络结构均包含输入层:神经元个数为系统状态数量,两个隐藏层:神经元个数为64,输出层:神经元个数为动作数量,每层神经网络激活函数均采用双曲正切函数;
[0157]
步骤3.3、将样本池中收集到的系统状态信息输入actor神经网络,输出对应的控制策略π(a|s),即动作分布;由公式(22)可知,得到的动作向量a
t
中的元素对应系统内各机组下一时刻动作;
[0158]
步骤3.4、将动作应用于当前系统各个机组状态,得到机组下一时刻状态向量s
t+1
,根据公式(23)计算即时奖励r
t
,将此时获得的(s
t
,a
t
,r
t
,s
t+1
)集合存入样本池;
[0159]
步骤3.5、价值网络critic根据样本池中的(s
t
,a
t
,r
t
,s
t+1
)集合计算总的状态价值
v(t)和状态动作价值q(t),循环步骤3.2-3.4直至调度日结束;
[0160]
步骤3.6、更新神经网络参数,根据公式a
π
(s,a)=q
π
(s,a)-v
π
(s)计算优势函数a
π
(s,a),通过梯度下降的方式和参数方向传播更新actor和critic网络参数;
[0161]
步骤3.7、循环步骤3.2-3.6直至达全部训练天数,并保存训练模型。
[0162]
通过上述方式,本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法,首先,针对电-热耦合新能源系统优化运行模型,建立所述模型目标函数和响应约束条件,包括电、热负荷平衡约束,机组出力上下限约束,爬坡约束,储能备用容量约束;之后,在深度强化学习框架下,定义了该模型的马尔可夫决策过程,即环境,并设计相应奖励函数机制,避免了对复杂多能源系统建模;最后,利用近端策略优化算法ppo,在算法采集数据环节添加多线程方式,可做到在不损失收敛性能的同时大大提高算法训练效率,极大缩减了使用深度强化学习进行电-热耦合新能源系统能量管理的训练代价,通过算法与环境不断交互,学习调度策略,可实现多种复杂情况下的系统能量管理,从而提高可再生能源的利用率。
[0163]
图3a)和图3b)表明了在日前经济调度情况下,以15min为粒度的能量分配计划。其中,图3a)为机组电出力调度结果,图3b)为机组热出力调度结果。为使结果具有普遍性,应用案例使用了真实电力系统负荷,新能源出力,热力系统热负荷数据,并输入其中一个夏季典型日负荷数据进行测试。同时,出于精度考虑舍弃测试典型日的第一个15min和最后一个15min能量分配方案。
[0164]
如图3a)所示,火电机组2、3因经济优越,承担了日内大部分时刻的多数用电量,火电机组1在日内大部份时段采取经济性最高的出力运行。由于弃风惩罚项的存在,火电机组与抽数蓄能机组的联合调度可满足风电最大消纳。为了保证供热可靠性,同时受到热电联产机组经济性和可行操作域限制的影响,热电联产机组在不同热负荷情况下出力波动较为剧烈,由此带来了电出力的波动,火电机组通过调整出力来缓解波动。同时,考虑实际情况中夏季水源充足,可以适当增加抽水蓄能电站出水量,所以在夏季典型日测试案例中,下调抽水蓄能机组抽水成本。如图3b)所示,以成本最小为目标决定热电联产机组出力;同时,系统内存在储热罐(tst),可在一定程度上分担热负荷,从而使得热电联产机组运行在更经济的范围内。采用本发明得到的能量分配策略,得到的运行成本为68.2581万元。同时也采用传统混合整数优化算法对本实例进行测试,得到的运行成本为68.3754万元。说明本发明方法在经济性能方面可媲美传统算法。

技术特征:
1.基于深度强化学习的电-热耦合新能源系统能量管理方法,其特征在于,包括以下步骤:步骤1、建立针对电-热耦合新能源系统的优化运行模型目标函数和响应约束条件;步骤2、将步骤1所建立模型表述为马尔可夫决策过程,再将其定义为深度强化学习框架下的环境,并设计相应奖励函数机制;步骤3、使用基于改进的多线程ppo算法,以最大化累计奖励为期望,得到最优能量管理策略。2.如权利要求1所述的基于深度强化学习的电-热耦合新能源系统能量管理方法,其特征在于,所述步骤1中建立的优化运行模型目标为电-热耦合新能源系统调度周期的最小化运行成本,目标函数表示为:f=min(f1+f2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式(1)中,f为系统优化运行目标,f1表示系统在一个调度日内的运行成本,表示为:f1=c
g
+c
chp
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式(2)中,c
g
为火电机组运行成本,c
chp
为热电联产机组运行成本;式(3)中,表示t时刻火电机组运行成本,p
tg
表示t时刻火电机组出力,α
g

g

g
为火电机组能耗系数;式(4)中,表示t时刻热电联产机组运行成本,p
tchp
表示t时刻热电联产机组所发有功功率,表示热电联产机组t时刻热出力,a0,a1,a2,a3,a4,a5,a6为热电联产机组能耗系数;式(1)中,f2表示惩罚函数项,表示为:f2=λd
p
+γd
h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式(5)中,λd
p
为电网惩罚,d
p
在数值上等于弃风功率或切电负荷;γd
h
为热网惩罚,d
h
在数值上等于所弃热负荷的平方。3.如权利要求1所述的基于深度强化学习的电-热耦合新能源系统能量管理方法,其特征在于,所述步骤1中的响应约束条件包括:火电机组出力约束p
tg
,表示为:式(6)中,和分别为火电机组出力的最大最小值;火电机组爬坡约束r
g
,表示为:式(7)中,和分别为火电机组的上爬坡和下爬坡速率;热电联产机组有功出力约束p
tchp
,表示为:式(8)中,和表示热电联产机组有功出力最大最小值;热电联产机组产热约束表示为:
式(9)中,表示热电联产机组产热最大值;抽水蓄能电站抽水功率约束p
th.p
,表示为:式(10)中,和表示抽水蓄能电站抽水最大和最小功率;抽水蓄能电站发电功率约束p
th.g
,表示为:式(11)中,和表示抽水蓄能电站发电最大和最小功率;抽水蓄能电站上游水库库容约束v
u
,表示为:式(12)中,和表示上游水库的可用于发电的库容最大值和最小值;抽水蓄能电站下游水库库容约束v
d
,表示为:式(13)中,和表示下游水库的可用于抽水的库容最大值和最小值;抽水蓄能电站上下水库状态转移约束表示为:表示为:式(14)中,v
tu
,v
td
表示t时刻上下水库水量,x
h
∈{0,1}表示发电状态;式(15)中,y
h
∈{0,1}表示抽水状态,x
h
+y
h
=1;δt为一个调度时段,η
g
和η
p
为抽水蓄能电站发电与抽水效率因数;风电机组出力约束p
tw
,表示为:式(16)中,和表示风电机组出力的最大值和最小值;储热装置供热状态约束和充热状态约束表示为:表示为:式(17)中,表示储热罐充热功率最大值,表示储热罐供热功率最大值;式(18)表示储热罐承担剩余热负荷时供热时状态变量;储热罐状态转移约束表示为:式(19)中,表示储热罐在t时刻的供热情况,大于零表示向热负荷供热,小于零表示
吸收热电联产机组多余的热量;储热罐出力约束表示为:式(20)中,和表示储热罐供热/蓄热的最大值和最小值。4.如权利要求1所述的基于深度强化学习的电-热耦合新能源系统能量管理方法,其特征在于,所述步骤2具体包括:定义步骤1所得模型的马尔可夫决策过程的状态和动作空间,用一个五元组(s,a,p,r,γ)来表示,s是状态空间集合,a是动作空间集合,p:s
t-τ
×
a
t

s
t
是状态转移概率,r是奖励函数,γ∈[0,1]是学习率;则:马尔可夫决策过程状态空间表示为:式(21)中,表示上一个调度时段末火电机组出力,和表示上一个调度时段末热电联产机组有功出力和热出力,和分别表示上一调度时段末抽水蓄能电站和储热装置的储量状态,表示预测的风电所发有功功率;马尔可夫决策过程动作空间表示为:式(22)中,p
tg
表示t时刻火电机组出力,p
tchp
和分别表示解耦后的热电联产机组有功出力和热出力,p
th
表示t时刻抽水蓄能电站动作;马尔可夫决策过程奖励函数表示为目标函数的负值:r
t
(s
t
,a
t
)=-f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)。5.如权利要求4所述的基于深度强化学习的电-热耦合新能源系统能量管理方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1、根据公式(21)与系统运行真实数据,在约束范围内随机初始化不同系统状态,包括抽水蓄能机组、储热装置、火电机组、热电联产机组状态,采用多线程收集系统状态信息,收集数据线程数设置为4,将状态信息存入样本池;步骤3.2、神经网络权重初始化;设置主ppo算法的actor和critic神经网络学习率c
actor
=0.0003,c
critci
=0.001,奖励折扣因子υ=0.95,优势函数剪切系数ε=0.2;actor和critic网络结构均包含输入层:神经元个数为系统状态数量,两个隐藏层:神经元个数为64,输出层:神经元个数为动作数量,每层神经网络激活函数均采用双曲正切函数;步骤3.3、将样本池中收集到的系统状态信息输入actor神经网络,输出对应的控制策略π(a|s),即动作分布;由公式(22)可知,得到的动作向量a
t
中的元素对应系统内各机组下一时刻动作;步骤3.4、将动作应用于当前系统各个机组状态,得到机组下一时刻状态向量s
t+1
,根据公式(23)计算即时奖励r
t
,将此时获得的(s
t
,a
t
,r
t
,s
t+1
)集合存入样本池;步骤3.5、价值网络critic根据样本池中的(s
t
,a
t
,r
t
,s
t+1
)集合计算总的状态价值v(t)和状态动作价值q(t),循环步骤3.2-3.4直至调度日结束;步骤3.6、更新神经网络参数,根据公式a
π
(s,a)=q
π
(s,a)-v
π
(s)计算优势函数a
π
(s,a),通过梯度下降的方式和参数方向传播更新actor和critic网络参数;
步骤3.7、循环步骤3.2-3.6直至达全部训练天数,并保存训练模型。

技术总结
本发明公开的基于深度强化学习的电-热耦合新能源系统能量管理方法,包括建立针对电-热耦合新能源系统的优化运行模型目标函数和响应约束条件;将建立模型表述为马尔可夫决策过程,定义为深度强化学习框架下的环境,并设计相应奖励函数机制;使用基于改进的多线程PPO算法,以最大化累计奖励为期望,得到最优能量管理策略。本发明的基于深度强化学习的电-热耦合新能源系统能量管理方法,在电-热耦合新能源系统中考虑抽水蓄能机组,热电联产机组电热关系解耦;在优化过程中,基于深度强化学习多线程PPO算法,应用于电-热耦合新能源系统能量管理问题中,可以提高可再生能源的利用率。率。率。


技术研发人员:毋格一 杨远超 安雯静
受保护的技术使用者:西安工程大学
技术研发日:2023.03.28
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐