一种分布式资源协同调度的多智能体强化学习方法与流程
未命名
08-06
阅读:95
评论:0

1.本发明涉及人工智能技术领域,尤其涉及一种分布式资源协同调度的多智能体强化学习方法。
背景技术:
2.当前,作为新能源消纳主体的配电网本身线路分支多、线路结构复杂,同时大量分布式可控资源接入电网不可避免导致电网运行方式多样复杂,用户能够通过分布式可控设备实现与电网的双向互动,然而现阶段大部分研究都是基于分布式设备聚合模型的建立与电价激励机制的研究,当电网不能全面感知底层聚合模型的所有参数时给决策带来了极大的困难,难以根据当前的状态做出最优决策,同时,电网分布式光伏设备、电动汽车协调优化的非凸性和高不确定性使得求解时间过长,难以满足调控的需求。因此,能否探索一种智能化的方法解决上述分布式优化方法带来的不足。
3.近年来,随着人工智能技术兴起和发展,强化学习(reinforcementlearning)作为解决序贯决策问题的重要科学范式,通过与环境交互试错,在持续学习中更新价值评判和策略选择,成为解决序贯决策问题行之有效的技术,特别是深度神经网络与强化学习结合后的深度强化学习模型(deep reinforcement learning,drl),具有更好的自适应学习能力和解决非凸非线性问题的优化决策能力,其为处理复杂电力系统分布式可控资源协同调度问题提供了新的思路。
技术实现要素:
4.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
5.鉴于上述现有存在的问题,提出了本发明。
6.因此,本发明提供了一种分布式资源协同调度的多智能体强化学习方法,能够解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。
7.为解决上述技术问题,本发明提供如下技术方案,一种分布式资源协同调度的多智能体强化学习方法,包括:
8.建立分布式设备接入配网的仿真环境;
9.搭建不同分布式设备强化学习的智能体;
10.所述智能体与所述仿真环境交互训练;
11.通过训练好的所述智能体进行决策。
12.作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述仿真环境,具体包括:
13.所述分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,所述分布式设备
接入后,根据所述分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到所述智能体中。
14.7.作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述电力系统潮流方程约束:
[0015][0016][0017]
式中,p
mt,i,t
和q
mt,i,t
为节点i发电机组在t时刻的有功、无功功率;p
load,i,t
,q
load,i,t
为节点i在t时刻的有功、无功负荷;p
pv,i,t
,p
ess,i,t
,p
eva,i,t
分别为节点i在t时刻的分布式光伏、储能和电动汽车聚合商的有功功率;u
i,t
为节点i的电压模值;u
j,t
为节点j的电压模值;θ
ij,t
为两节点间的相角差;g
ij
,b
ij
分别是节点i、j之间的电导和电纳;
[0018]
所述储能设备运行约束:
[0019][0020]
式中,e
ess,i
为节点i处储能的容量,s
ess,i,max
,p
ess,i,max
,q
ess,i,max
分别为节点i处视在功率、有功和无功功率上限,soc
ess,i,max
,soc
ess,i,min
是储能荷电状态的上、下限,soc
ess,i,t
是节点储能荷电状态的ηc,ηd为储能的充、放电效率,e
ess,i,t
为第t时刻节点i处当前时刻储存的能量,δt表示t时刻的增量;
[0021]
所述分布式光伏设备约束,
[0022]
p
pv,i,min
<p
pv,i,t
<p
pv,i,max
[0023]
式中p
pv,i,max
和p
pv,i,min
分别表示在第t时刻节点i的分布式光伏设备能够输出的最大功率和最小功率,p
pv,i,t,
表示在第t时刻节点i的分布式光伏设备的输出功率;
[0024]
所述电动汽车聚合商约束,
[0025][0026]
式中p
up,t
和p
down,t
分别表示在第t时刻电动汽车聚合商参与功率下调及上调控制的可调节容量,为电动汽车聚合商的最大输出功率,p
ev,t
为t时刻电动汽车聚合商的输出功率。
[0027]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述智能体,包括:
[0028]
不同分布式设备强化学习的所述智能体,从所述仿真环境中获取的状态、输出的
动作空间以及奖励函数。
[0029]
作为本发明一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:不同分布式设备强化学习的所述智能体,还包括:
[0030]
不同的布式设备强化学习的所述智能体有各自的状态空间和动作空间,所述智能体能够根据各自的目标进行参数更新达到自适应学习的效果。
[0031]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述状态空间,包括:
[0032]
s={p
load,load
,p
pv,pv,max
,p
eva,eva,max
,p
mt,mt
,soc
ess,ess
,a,t}
[0033]
式中,p
load,|load|
,p
pv,|pv|,max
,p
eva,|eva|,max
,p
mt,|mt|
,soc
ess,|ess|
,a和t分别为电负荷功率特性、分布式光伏设备出力上限、电动汽车聚合商出力、传统机组出力、储能的soc、当前时刻电网电价、调度时间断面。
[0034]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述动作空间,包括:
[0035]
a1=a
ess,ess
[0036]
a2=a
pv,pv
[0037]
a3=a
eva,eva
[0038]
式中,a
ess,|ess|
,a
pv,|pv|
,a
eva,|eva|
分别表示模型输出的实时储能出力,分布式光伏设备的出力,电动汽车聚合商的出力,神经网络输出的取值范围为[-1,1],需要根据真实物理约束映射回真实的动作空间。
[0039]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述交互训练,包括:
[0040]
所述仿真环境中接入历史的源荷数据作为样本与所述智能体进行互动,分布式设备强化学习的所述智能体根据配电网当前状态进行动作进行学习,根据分布式设备配网的所述仿真环境反馈的奖励值梯度下降更新策略,探索奖励值最大化的决策。
[0041]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述奖励值,包括:分布式光伏设备奖励函数设置、储能设备奖励函数设置、电动汽车聚合商的奖励函数设置;
[0042]
所述分布式光伏设备奖励函数设置,包括:
[0043]
r1=r
normal
+ap
pv,out
+bp
pv,delta
[0044]
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值p
pv,delta
代表光伏集群的备用容量,p
pv,out
代表光伏集群的输出功率,a表示分时电价,b表示折扣系数;
[0045]
所述储能设备奖励函数设置,包括:
[0046]
r2=r
normal
+a1η1p
ess,in
+a2η2p
ess,out
[0047]
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,p
ess,in
代表充电功率,其表示为负值,a1表示购入电价,η1表示充电效率,a2表示售出电价,η2表示放电效率;
[0048]
所述电动汽车聚合商的奖励函数设置,包括:
[0049]
r3=r
normal
+a1p
eva,in
+r
dso
[0050]
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,p
eva,in
代表电动汽车聚合商从电网处购买的充电功率,其表示为负值,a1表示购入电价,r
dso
表示电动汽车聚合商参与电网调峰调频电网给予的奖励。
[0051]
作为本发明的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:通过训练好的所述智能体进行决策,包括:
[0052]
将训练好的所述智能体接入配电网环境中,对电网数据采集系统实时收集的数据进行分析,根据当前配电网的状态信息包括传统机组的出力,新能源的预测功率与当前输出功率、负荷、储能荷电状态状态量进行决策。
[0053]
本发明的有益效果:本发明所提出的算法首先从配电网侧获取其运行状态包括源网荷数据并输入到不同的智能体中,智能体根据各自的奖励值修正策略使得其评价网络的价值最大化,通过与环境不断交互的过程中进行学习,在应用阶段只需要获取电网的状态便能实现快速决策,实现用户侧资源与电网双向互动、协调运行的目的。实现在不需要知道电动汽车聚合商或者光伏、储能集群内部参数的情况下也能够做出合理的决策的目标,在线应用时,仅需依据当前时刻下实时的电网运行状态即可完成快速精准决策。
附图说明
[0054]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0055]
图1为本发明一个实施例提供的一种分布式资源协同调度的多智能体强化学习方法流程图;
[0056]
图2为本发明一个实施例提供的一种分布式资源协同调度的多智能体强化学习方法框架图,图中上部分为多智能体强化学习模型,下部分配电网与分布式设备双向互动环境;
[0057]
图3为本发明一个实施例提供的一种分布式资源协同调度的多智能体强化学习方法的多智能体强化学习模型输入状态、决策输出和策略更新过程示意图;
[0058]
图4为本发明实施例2提供的一种分布式资源协同调度的多智能体强化学习方法的ieee30节点仿真环境示意图。
具体实施方式
[0059]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0060]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0061]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方
式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0062]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0063]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0064]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0065]
实施例1
[0066]
参照图1、2,为本发明的第一个实施例,该实施例提供了一种分布式资源协同调度的多智能体强化学习方法,包括:
[0067]
s1:构建配网仿真环境:
[0068]
建立分布式设备接入配网的仿真环境,分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,分布式设备接入后,根据分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到智能体中;
[0069]
各约束条件如下:
[0070]
配电网潮流方程约束
[0071][0072][0073]
式中,p
mt,i,t
和q
mt,i,t
为节点i发电机组在t时刻的有功、无功功率;p
load,i,t
,q
load,i,t
为节点i在t时刻的有功、无功负荷;p
pv,i,t
,p
ess,i,t
,p
eva,i,t
分别为节点i在t时刻的分布式光伏、储能和电动汽车聚合商的有功功率;u
i,t
为节点i的电压模值;θ
i,t
为两节点间的相角差;g
ij
,b
ij
分别是节点i、j之间的电导和电纳
。
[0074]
配电网电压安全稳定约束
[0075]
为保证供电电压质量,设置电压安全稳定约束如下:
[0076]vi,min
<vi<v
i,max
[0077]
式中,v
i,max
,v
i,min
分别代表节点i处安全稳定电压上下限,一般分别设置为0.95vn与1.05vn,vn为额定电压。
[0078]
储能设备运行约束:
[0079][0080]
式中,e
ess,i
为节点i处储能的容量,s
ess,i,max
,p
ess,i,max
,q
ess,i,max
分别为节点i处视在功率、有功和无功功率上限,soc
ess,i,max
,soc
ess,i,min
是储能荷电状态的上、下限,ηc,ηd为储能的充、放电效率,e
ess,i,t
为第t时刻节点i处当前时刻储存的能量;
[0081]
分布式光伏设备约束
[0082]
p
pv,i,min
<p
pv,i,t
<p
pv,i,max
[0083]
式中p
pv,i,t,max
和p
pv,i,t,min
分别表示在第t时刻节点i的分布式光伏设备能够输出的最大功率和最小功率,p
pv,i,t,
表示在第t时刻节点i的分布式光伏设备的输出功率。
[0084]
电动汽车聚合商约束,
[0085][0086]
式中p
up
和p
down
分别表示在第t时刻电动汽车聚合商参与功率下调及上调控制的可调节容量
,
为电动汽车聚合商的最大输出功率,p
ev,t
为t时刻电动汽车聚合商的输出功率。
[0087]
应说明的是,若配电网环境为仿真的配网环境中,需要在仿真环境中接入不同类型的分布式设备包括电动汽车聚合商、分布式光伏和储能等,通过电价响应等机制实现电网与用户的双向互动,达到需求侧响应的目的。在本发明中,配网环境能够为多智能体强化学习算法提供训练样本、智能体能够从环境中获取观测值、并且智能体在做出决策后环境能及时给予奖励进行反馈。倘若具有用于测试算法的开放的实际配网系统,则无需构建仿真的分布式资源互动配网环境便可直接与智能体进行交互。
[0088]
s2:搭建智能体:
[0089]
搭建不同分布式设备强化学习智能体,从仿真环境中获取的状态、输出的动作空间以及奖励函数;
[0090]
不同的智能体有各自的状态空间和动作空间,智能体能够根据各自的目标进行参数更新达到自适应学习的效果。
[0091]
进一步的,状态空间,包括:
[0092]
s={p
load,|load|
,p
pv,|pv|,max
,p
eva,|eva|,max
,p
mt,|mt|
,soc
ess,|ess|
,a,t}
[0093]
式中,p
load,|load|
,p
pv,|pv|,max
,p
eva,|eva|
,p
mt,|mt|
,soc
ess,|ess|
,a和t分别为电负荷功率特性、分布式光伏设备出力上限、电动汽车聚合商出力、传统机组出力、储能的soc、当前时刻电网电价、调度时间断面;
[0094]
更进一步的,动作空间,包括:
[0095]
a2=a
pv,|pv|
[0096]
式中,a
ess,|ess|
,a
pv,|pv|
,a
eva,|eva|
分别表示模型输出的实时储能出力,分布式光伏
设备的出力,电动汽车聚合商的出力,神经网络输出的取值范围为[-1,1],需要根据真实物理约束映射回真实的动作空间。
[0097]
应说明的是,多智能体强化学习部分包含不同类型的智能体,它们有着各自的优化目标,能够在与配电网环境不断交互中试错学习,达到各自目标奖励的最大化。每个智能体从配电网环境中获取不同的状态,并根据此时的状态采取动作,环境根据所有智能体做出的动作并计算奖励值返回给智能体,智能体根据奖励值更新其模型参数,调整策略使得其获得的奖励最大并在持续的学习中获得最大的累积奖励。
[0098]
s3:智能体与仿真环境交互训练:
[0099]
分布式设备强化学习智能体与配电网环境进行交互,首先配电网会给出当前电网的运行状态,并输入到智能体中,智能体根据电网运行状态做出决策,与电网进行互动获取奖励;最后根据环境的反馈奖励值更新模型的价值评价和策略,达到不同智能体奖励值的最大。
[0100]
应说明的是,环境中接入历史的源荷数据作为样本与智能体进行互动,模型根据配电网当前状态进行动作进行学习。在智能体与环境交互的过程中,根据环境反馈的奖励值梯度下降更新智能体的策略,探索奖励值最大化的决策,能够满足分布式设备与配电网协同运行的要求,解决了当前电网由于求解问题的非凸性和高不确定性使得求解时间过长、模型参数模糊难以求解的问题。
[0101]
进一步的,不同智能体有着各自不同的奖励值,具体奖励值的设置如下:
[0102]
分布式光伏设备奖励函数设置:
[0103]
由于分布式光伏设备出力具有随机性,其输出功率需要考虑对电网安全稳定运行影响并要留有一定的备用容量,因此其奖励由下式给出:
[0104]
r1=r
normal
+ap
pv,out
+bp
pv,delta
[0105]
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值p
pv,delta
代表光伏集群的备用容量,a表示分时电价,b表示折扣系数。
[0106]
储能设备的充放电功率具有不同的效率,其输出功率也需要考虑对电网安全稳定运行影响,并且在充电时需要从电网买电,放电时给电网卖电,需要考虑其一天的收益最大,因此其奖励由下式给出:
[0107]
r2=r
normal
+a1η1p
ess,in
+a2η2p
ess,out
ꢀꢀ
(10)
[0108]
式中,rnormal表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,pess,in代表充电功率,其表示为负值,a1表示购入电价,η1表示充电效率,a2表示售出电价,η2表示放电效率。
[0109]
从本质上来说,电动汽车相当于一个电池储能装置,在满足车主充电需求的前提下,完全可利用电动汽车的空闲时间参与电网调控。因此,电动汽车聚合商的奖励函数为:
[0110]
r3=r
normal
+a1p
eva,in
+r
dso
ꢀꢀ
(11)
[0111]
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,p
eva,in
代表电动汽车聚合商从电网处购买的充电功率,其表示为负值,a1表示购入电价,r
dso
表示电动汽车聚合商参与电网调峰调频电网给予的奖励。
[0112]
以上三个智能体分别根据各自的奖励函数优化其策略实现奖励函数的最大化,达到电网与用户侧可调资源双向互动的目的。
[0113]
s4:在线应用决策:
[0114]
将训练好的强化学习智能体,接入配电网环境中,对电网数据采集系统实时收集的数据进行分析,根据当前配电网的状态信息包括传统机组的出力,新能源的预测功率与当前输出功率、负荷、储能荷电状态等状态量进行决策。
[0115]
进一步的,不同智能体之间根据各自奖励函数最大化进行动作,实现分布式设备与电网双向互动的要求。
[0116]
应说明的是,本发明针对现有方法在解决电网与用户侧资源双向互动的业务商的不足,其能够在满足配电网安全稳定的情况下,在电价激励下,实现电网与分布式设备双向互动,最大程度实现分布式光伏设备的功率消纳,储能和电动汽车聚合商对配电网的调峰调频;
[0117]
通过将电网与用户侧资源的双向互动通过奖励函数进行量化,不同智能体之间能够通过各自的奖励函数进行学习,梯度下降更新各自的策略实现奖励函数的最大化,储能和分布式光伏设备在满足电网安全稳定基础上获取收益,参与电网的调峰调频;
[0118]
通过离线时训练由表示、动态与预测神经网络组成的强化学习智能体,智能体不断学习环境的规则并在内部不断推演对未来的影响,不断的“试错”学习探索,最终实现在不需要知道电动汽车聚合商或者光伏、储能集群内部参数的情况下也能够做出合理的决策的目标。在线应用时,仅需依据当前时刻下实时的电网运行状态即可完成快速精准决策。
[0119]
实施例2
[0120]
参照图3,为本发明的一个实施例,提供了一种分布式资源协同调度的多智能体强化学习方法,为了验证本发明的有益效果,通过实验进行科学论证。
[0121]
搭建ieee30节点配网仿真环境,在节点3和10接入电动汽车负荷聚合商,在节点20和28接入分布式光伏,在节点5接入一个储能电站,仿真环境基于python的pandapower潮流计算搭建,具体环境如图3所示。
[0122]
初始化环境,从历史数据中抽取源荷数据,其中储能的初始状态为0,形成观测量obs分别输入到智能体中,三个智能体分别给出动作a
ess,|ess|
,a
pv,|pv|
,a
eva,|eva|
,将动作的出力与源荷数据一同输入到基于pandapower包搭建的仿真环境中进行潮流计算,获得支路潮流功率与节点电压大小,同时使用try和except,若潮流不收敛,r
normal
=-100。
[0123]
根据支路潮流功率、节点电压与支路功率上限和节点电压上下限计算r
normal
:
[0124][0125]
根据r
normal
分别计算三个智能体的奖励r1,r2和r3,返回智能体中,梯度下降更新智能体的参数。
[0126]
第四步,根据智能体的动作和环境状态进入到下一时刻,输入下一时刻的源荷数据重复上述的过程。
[0127]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发
明的权利要求范围当中。
技术特征:
1.一种分布式资源协同调度的多智能体强化学习方法,其特征在于:包括,建立分布式设备接入配网的仿真环境;搭建不同分布式设备强化学习的智能体;所述智能体与所述仿真环境交互训练;通过训练好的所述智能体进行决策。2.如权利要求1的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述仿真环境,具体包括:所述分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,所述分布式设备接入后,根据所述分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到所述智能体中。3.如权利要求1或2的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,所述电力系统潮流方程约束:式中,p
mt,i,t
和q
mt,i,t
为节点i发电机组在t时刻的有功、无功功率;p
load,i,t
,q
load,i,t
为节点i在t时刻的有功、无功负荷;p
pv,i,t
,p
ess,i,t
,p
eva,i,t
分别为节点i在t时刻的分布式光伏、储能和电动汽车聚合商的有功功率;u
i,t
为节点i的电压模值;u
j,t
为节点j的电压模值;θ
ij,t
为两节点间的相角差;g
ij
,b
ij
分别是节点i、j之间的电导和电纳;所述储能设备运行约束:式中,e
ess,i
为节点i处储能的容量,s
ess,i,max
,p
ess,i,max
,q
ess,i,max
分别为节点i处视在功率、有功和无功功率上限,soc
ess,i,max
,soc
ess,i,min
是储能荷电状态的上、下限,soc
ess,i,t
是节点储能荷电状态的η
c
,η
d
为储能的充、放电效率,e
ess,i,t
为第t时刻节点i处当前时刻储存的能量,δt表示t时刻的增量;所述分布式光伏设备约束,p
pv,i,min
<p
pv,i,t
<p
pv,i,max
式中p
pv,i,max
和p
pv,i,min
分别表示在第t时刻节点i的分布式光伏设备能够输出的最大功率和最小功率,p
pv,i,t,
表示在第t时刻节点i的分布式光伏设备的输出功率;所述电动汽车聚合商约束,
式中p
up,t
和p
down,t
分别表示在第t时刻电动汽车聚合商参与功率下调及上调控制的可调节容量
,
为电动汽车聚合商的最大输出功率,p
ev,t
为t时刻电动汽车聚合商的输出功率。4.如权利要求1的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述智能体,包括:不同分布式设备强化学习的所述智能体,从所述仿真环境中获取的状态、输出的动作空间以及奖励函数。5.如权利要求4的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:不同分布式设备强化学习的所述智能体,还包括:不同的布式设备强化学习的所述智能体有各自的状态空间和动作空间,所述智能体能够根据各自的目标进行参数更新达到自适应学习的效果。6.如权利要求5的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述状态空间,包括:s={p
load,|load|
,p
pv,|pv|,max
,p
eva,|eva|,max
,p
mt,|mt|
,soc
ess,|ess|
,a,t}式中,p
load,|load|
,p
pv,|pv|,max
,p
eva,|eva|,max
,p
mt,|mt|
,soc
ess,|ess|
,a和t分别为电负荷功率特性、分布式光伏设备出力上限、电动汽车聚合商出力、传统机组出力、储能的soc、当前时刻电网电价、调度时间断面。7.如权利要求5或6的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,所述动作空间,包括:a1=a
ess,|ess|
a2=a
pv,|pv|
a3=a
eva,|eva|
式中,a
ess,|ess|
,a
pv,|pv|
,a
eva,|eva|
分别表示模型输出的实时储能出力,分布式光伏设备的出力,电动汽车聚合商的出力,神经网络输出的取值范围为[-1,1],需要根据真实物理约束映射回真实的动作空间。8.如权利要求1的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,所述交互训练,包括:所述仿真环境中接入历史的源荷数据作为样本与所述智能体进行互动,分布式设备强化学习的所述智能体根据配电网当前状态进行动作进行学习,根据分布式设备配网的所述仿真环境反馈的奖励值梯度下降更新策略,探索奖励值最大化的决策。9.如权利要求2、8任意所述的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,所述奖励值,包括:分布式光伏设备奖励函数设置、储能设备奖励函数设置、电动汽车聚合商的奖励函数设置;所述分布式光伏设备奖励函数设置,包括:r1=r
normal
+ap
pv,out
+bp
pv,delta
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值p
pv,delta
代
表光伏集群的备用容量,p
pv,out
代表光伏集群的输出功率,a表示分时电价,b表示折扣系数;所述储能设备奖励函数设置,包括:r2=r
normal
+a1η1p
ess,in
+a2η2p
ess,out
式中,
rnormal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,p
ess,in
代表充电功率,其表示为负值,p
ess,out
代表放电功率,a1表示购入电价,η1表示充电效率,a2表示售出电价,η2表示放电效率;所述电动汽车聚合商的奖励函数设置,包括:r3=r
normal
+a1p
eva,in
+r
dso
式中,r
normal
表示电网安全稳定运行奖励,当电网不安全时奖励值为一个负值,p
eva,in
代表电动汽车聚合商从电网处购买的充电功率,其表示为负值,a1表示购入电价,r
dso
表示电动汽车聚合商参与电网调峰调频电网给予的奖励。10.如权利要求1、4、8任一所述的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,通过训练好的所述智能体进行决策,包括:将训练好的所述智能体接入配电网环境中,对电网数据采集系统实时收集的数据进行分析,根据当前配电网的状态信息包括传统机组的出力,新能源的预测功率与当前输出功率、负荷、储能荷电状态状态量进行决策。
技术总结
本发明公开了一种分布式资源协同调度的多智能体强化学习方法包括,建立分布式设备接入配网的仿真环境;搭建不同分布式设备强化学习的智能体;所述智能体与所述仿真环境交互训练;通过训练好的所述智能体进行决策。通过本发明,研究人员可以通过历史数据的训练,通过神经网络的强大数据拟合能力,在不需要知道所有分布式设备聚合模型的所有参数情况下精准快速决策。通过本发明,电动汽车聚合商、分布式光伏设备、储能能够实现用户与电网的双向互动,解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。不全导致决策不准的问题。不全导致决策不准的问题。
技术研发人员:谈竹奎 刘斌 张俊玮 冯圣勇 潘旭辉 何龙 王秀境 徐长宝 张秋雁 徐玉韬 唐赛秋 徐宏伟 陈敦辉
受保护的技术使用者:贵州电网有限责任公司
技术研发日:2023.04.14
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种高尔夫球杆袋的制作方法 下一篇:塑封料组合物及其在SIP封装中的应用的制作方法