一种电动汽车充放电管理方法及系统与流程
未命名
07-11
阅读:71
评论:0

1.本发明涉及电动汽车充放电的技术领域,具体涉及一种电动汽车充放电管理方法及系统。
背景技术:
2.目前,市面上的电动汽车充电模式主要分为直流快充、交流慢充与更换电池三种模式。直流快充指的是直流高压大电流充电,具有充电功率大,充电时间短的特点,能在较短时间内完成充电任务,但是如此高的功率会给电网稳定运行带来一定的威胁。交流慢充指的是通过交流电源小电流充电,具有充电功率较小,充电时间长的特点,其充电功率一般在3.5kw/h或7kw/h,这种充电方式对电网冲击较小,并且有利于延长电动汽车的电池使用寿命。更换电池则是通过更换一个已经充好电的电池来给汽车重新供电,但是技术推广难度大,应用并不广泛。
3.电动汽车的迅猛发展给电网的经济、安全运行带来了巨大的机遇与挑战,电动汽车的充电过程主要分三个阶段,分为涓流充电、恒流充电与恒压充电三个阶段,第一阶段刚开始进行充电时电压较低,在该阶段电压会快速升高,持续的时间较短;第二阶段维持充电电流稳定,此阶段是电动汽车整个充电过程中的主要阶段,一般能将电池容量充至其额定容量的80%;第三阶段的充电电压将不会再变化,充电电流会随着电压的升高而减小,当电流减小至某一个值时,充电就会自动结束从而保护电池。
4.因此电动汽车作为一种分布式储能单元参与电网调控,引导其有序充放电,可以发挥负荷调度的作用,实现削峰填谷、促进新能源消纳。现有电动汽车充放电管理技术通常默认已知拓扑的信息和相关参数,或者部分方法还需对配电网进行改造,但是当前实际配电网中,尤其是配电台区的拓扑信息和量测数据都相对缺失,不利于电动汽车充放电管理,而对配电网进行改造的方法,增大了经济投资压力。
技术实现要素:
5.为解决现有技术中存在的不足,本发明提供一种电动汽车充放电管理方法及系统,通过电动汽车充电桩与ttu之间的信息交互,即深度强化学习模型中智能体与环境的交互,以有功功率损耗最小为优化目标,得到电动汽车最优的调控策略,进行电动汽车充放电管理,在经过基于深度强化学习的电动汽车调控后,可以有效的提高电网的利用效率,考虑了配电网尤其是配电台区内拓扑未知、信息量测不全的未知环境下对电动汽车充放电时间进行合理的调控,适用于在复杂不确定性的环境中寻找最优策略,从而可以发挥负荷调度的作用,实现削峰填谷、促进新能源消纳,同时提高了台区现有设备的利用率,避免了额外的经济投入。
6.本发明采用如下的技术方案。
7.一种电动汽车充放电管理方法,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充
放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。
8.优选地,所述方法包括以下步骤:
9.步骤一:采用深度强化学习算法,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建适用于电动汽车充放电管理的深度强化学习模型;
10.步骤二:基于构建的深度强化学习模型,将电动汽车作为智能体,使用马尔科夫决策过程描述电动汽车基于深度强化学习模型在充放电策略π下的转移过程;
11.步骤三:在马尔科夫决策每次迭代过程中,智能体执行动作,使环境状态改变并获得奖励,结合折扣因子γ得到总奖励函数;
12.步骤四:基于总奖励函数构建状态值函数,并评估电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;
13.步骤五:采用状态-动作值函数评估考虑t+1时刻的奖励时电动汽车执行充放电策略π在t时刻得到的期望总奖励;
14.步骤六:根据步骤四和步骤五得到的期望总奖励,从所有状态和动作策略中选出最优状态和动作策略,作为电动汽车的最优调控策略,根据最优策略进行电动汽车充放电管理。
15.优选地,步骤一中,适用于电动汽车充放电管理的深度强化学习模型为元组(s,a,p,r);
16.其中,s表示状态的集合,所述状态为充电桩所在节点的有功功率、无功功率以及电压;
17.a表示动作的集合,所述动作为电动汽车功率调节挡位;
18.p表示状态转移概率集合;
19.r表示奖励函数,为有功功率损耗最小。
20.优选地,步骤二中,电动汽车基于深度强化学习模型在充放电策略π下的转移过程为:
21.在充放电策略π下,当智能体在状态s
t
时执行动作a
t
,并以概率p转移到下一状态s
t+1
,同时接收来自环境对于动作的反馈,即奖励r
t
;
22.上述的转移过程满足马尔科夫性:下一时刻状态仅与当前时刻状态有关,而与前序状态无关,即:p(s
t+1
|s
t
,...,s0)=p(s
t+1
|s
t
);
23.其中,s0、s
t
和s
t+1
分别代表初始时刻、t时刻和t+1时刻的状态。
24.优选地,步骤三中,总奖励函数为:
[0025][0026]
式中,r
t
代表总奖励函数;
[0027]rt+i
代表t+i时刻的奖励,i=1,2,3,...,k+1;
[0028]
γ代表折扣因子;
[0029]
k代表迭代次数。
[0030]
优选地,步骤四中,状态值函数v
π
(s)为:
[0031][0032]
式中,v
π
(s)为电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;
[0033]
e为期望;
[0034]st
=s0表示从初始时刻的状态开始。
[0035]
优选地,步骤五中,状态-动作值函数为:
[0036]qπ
(s
t
,a
t
)=e[r
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
=s0,a
t
=a0];
[0037]
式中,q
π
(s
t
,a
t
)代表考虑t+1时刻的奖励时电动汽车执行充放电策略π在t时刻得到的期望总奖励;
[0038]st
和a
t
分别代表t时刻的状态和动作;
[0039]st
=s0表示从初始的动作开始;
[0040]at
=a0表示从初始的动作开始。
[0041]
优选地,步骤六中,最优状态和动作策略为下述两式的最大值对应的状态和动作:
[0042]
(1)π
*
=arg max v
π
(s)和(2)π
*
=arg max q
π
(s,a)
[0043]
其中,π
*
代表策略π的估计值函数;
[0044]vπ
(s)、q
π
(s,a)分别为步骤四和步骤五得到的期望总奖励;
[0045]
arg max为取最大值函数。
[0046]
一种电动汽车充放电管理系统,包括智能融合终端ttu、电动汽车充电桩和电动汽车充放电管理模块;
[0047]
电动汽车充放电管理模块基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。
[0048]
一种终端,包括处理器及存储介质;所述存储介质用于存储指令;
[0049]
所述处理器用于根据所述指令进行操作以执行所述方法的步骤。
[0050]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
[0051]
本发明的有益效果在于,与现有技术相比:
[0052]
本发明采用深度强化学习的方法,将电动汽车优化调度问题转换为考虑多种不确定因素下对电动汽车充放电状态的时序安排问题,通过深度强化学习在复杂不确定性的环境中寻找最优策略,可以再台区等拓扑信息和量测数据不全的情况下进行电动汽车的有序调控;且深度强化学习具备深度学习的感知能力和强化学习的决策能力,用神经网络来代替传统强化学习的q值表等内容,能够解决更高维度的问题,适合于电网此类复杂且数据较多的环境;本发明同时考虑了t时刻和t+1时刻的期望总价值(期望总奖励),避免了局部最优问题的出现;
[0053]
本发明以智能融合终端ttu作为中心评判单元,将电动汽车充电桩作为局部决策单元,依托于台区现有的ttu装置,无需额外进行配电网的设备改造,提高了台区现有设备的利用率,避免了额外的经济投入。
附图说明
[0054]
图1为本发明一种电动汽车充放电管理方法的流程图;
[0055]
图2为本发明中深度强化学习方法的原理框架图。
具体实施方式
[0056]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本技术所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的有所其它实施例,都属于本发明的保护范围。
[0057]
如图1所示,本发明实施例1提供一种电动汽车充放电管理方法,结合配电台区现有设备,以智能融合终端ttu作为中心评判单元,将电动汽车充电桩作为局部决策单元,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型(drl模型)对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。在本发明优选但非限制性的实施方式中,所述方法包括以下步骤:
[0058]
步骤一:采用深度强化学习算法,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建适用于电动汽车充放电管理的深度强化学习模型;
[0059]
进一步地,如图2所示,本发明中所指的强化学习算法,是指在某个环境中,机器对当前环境的感知即状态,机器只能通过动作来影响环境状态,当执行完一个动作后,会使得状态按某种规律转移到另一个状态;同时,环境会根据奖励函数反馈给机器一个奖励值。
[0060]
在上述过程中,主要包含四个要素:状态、动作、转移概率以及奖励函数;
[0061]
其中,智能体指学习器与决策者的角色;
[0062]
环境指智能体之外一切组成的、与之交互的事物;
[0063]
动作指智能体的行为表征;
[0064]
状态指智能体从环境获取的信息;
[0065]
奖励指环境对于动作的反馈;
[0066]
策略指智能体根据当前状态进行下一步动作的函数;
[0067]
状态转移概率指智能体做出动作后进入下一状态的概率。
[0068]
适用于电动汽车充放电管理的深度强化学习模型为元组(s,a,p,r);
[0069]
其中,s表示状态的集合,状态为充电桩所在节点的有功功率p、无功功率q以及电压u,即s={p,q,u};
[0070]
a表示动作的集合,a={a1,a2,
…
,an},其中ai为电动汽车充放电功率调节挡位;
[0071]
p表示状态转移概率集合;
[0072]
r表示奖励函数,为有功功率损耗最小。
[0073]
状态空间s:有功功率p、无功功率q、电压u;
[0074]
动作空间a:电动汽车充电功率调节挡位;
[0075]
奖励函数r:有功功率损耗最小。
[0076]
步骤二:基于构建的深度强化学习模型,将电动汽车作为智能体,使用马尔科夫决策过程描述电动汽车基于深度强化学习模型在充放电策略π下的转移过程;
[0077]
进一步地,电动汽车基于深度强化学习模型在充放电策略π下的转移过程为:
[0078]
在充放电策略π下,当智能体在状态s
t
时执行动作a
t
,并以概率p(决定是否转移到下一状态s
t+1
的概率)转移到下一状态s
t+1
,同时接收来自环境对于动作的反馈,即奖励r
t
;
[0079]
上述的转移过程满足马尔科夫性:下一时刻状态仅与当前时刻状态有关,而与前序状态无关,即:p(s
t+1
|s
t
,...,s0)=p(s
t+1
|s
t
);
[0080]
其中,s0、s
t
和s
t+1
分别代表初始时刻、t时刻和t+1时刻的状态。
[0081]
步骤三:在步骤二中的马尔科夫决策每次迭代过程中,智能体执行动作,使环境状态改变并获得奖励,结合折扣因子γ得到总奖励函数;
[0082]
进一步地,为了使t时刻后长期累积奖励最大化,定义回报r
t
,为降低未来回报对当前的影响,并对未来的回报乘以折扣因子γ,并得出r
t
与γ的关系为,即总奖励函数为:
[0083][0084]
式中,r
t
代表总奖励函数;
[0085]rt+i
代表t+i时刻的奖励,i=1,2,3,...,k+1;
[0086]
γ代表折扣因子;
[0087]
k代表迭代次数。
[0088]
步骤四:基于总奖励函数构建状态值函数,并评估电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;
[0089]
进一步地,状态值函数v
π
(s)为:
[0090]
表示从初始状态s0开始执行充放电策略π得到的期望总价值;
[0091]
式中,v
π
(s)为在初始状态s0下开始执行充放电策略π时的总价值,即电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;
[0092]
e为期望;
[0093]st
=s0表示从初始时刻开始。
[0094]
步骤五:将ttu作为中心评判单元,采用状态-动作值函数评估考虑t+1时刻的奖励时电动汽车充电桩作为局部决策单元执行充放电策略π在t时刻得到的期望总奖励;
[0095]
进一步地,期望总价值为:
[0096][0097]
基于此得到状态-动作值函数的类似递推关系:
[0098]qπ
(s
t
,a
t
)=e[r
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
=s,a
t
=a],表示电动汽车初始状态为s0并执行动作a0,并考虑t+1时刻奖励时执行充放电策略π得到的期望总价值;
[0099]
式中,q
π
(s
t
,a
t
)代表在状态s
t
下根据策略π执行动作a
t
时的价值,即考虑t+1时刻的奖励时电动汽车充电桩作为局部决策单元执行充放电策略π在t时刻得到的期望总奖励;
[0100]st
和a
t
分别代表t时刻的状态和动作;
[0101]st
=s0表示从初始时刻开始;
[0102]at
=a0表示从初始时刻开始。
[0103]
步骤六:根据步骤四和步骤五得到的期望总奖励,在策略π有限时,即状态空间和动作空间(步骤一的s与a)离散且有限,便可以从所有状态和动作策略中选出最优状态和动作策略,即为电动汽车的最优调控策略,根据最优策略进行电动汽车充放电管理。
[0104]
进一步地,最优状态和动作策略为下述两式的最大值对应的状态和动作:
[0105]
π
*
=arg max v
π
(s)和π
*
=arg max q
π
(s,a)
[0106]
其中,π
*
代表策略π的估计值函数;
[0107]
arg max为取最大值函数;
[0108]vπ
(s)、q
π
(s,a)分别为步骤四和步骤五得到的期望总奖励。
[0109]
即步骤四和步骤五都得到了执行充放电策略所得到的奖励,但是后者较前者考虑了下一时刻,即t+1时刻时的充电策略所带来的价值,最终结果取两式最大值为准。
[0110]
本发明实施例2提供一种电动汽车充放电管理系统,包括智能融合终端ttu、电动汽车充电桩和电动汽车充放电管理模块;
[0111]
电动汽车充放电管理模块以智能融合终端ttu作为中心评判单元,将电动汽车充电桩作为局部决策单元,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。
[0112]
一种终端,包括处理器及存储介质;所述存储介质用于存储指令;
[0113]
所述处理器用于根据所述指令进行操作以所述方法的步骤。
[0114]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
[0115]
对本发明基于深度强化学习的电动汽车充放电管理方法得到的电动汽车最优的调控策略进行仿真分析并验证可知,本发明的有益效果在于,与现有技术相比,本发明采用深度强化学习的方法,将电动汽车优化调度问题转换为考虑多种不确定因素下对电动汽车充放电状态的时序安排问题,通过深度强化学习在复杂不确定性的环境中寻找最优策略,可以再台区等拓扑信息和量测数据不全的情况下进行电动汽车的有序调控;且深度强化学习具备深度学习的感知能力和强化学习的决策能力,用神经网络(输入层、隐藏层、输出层)来代替传统强化学习的q值表等内容,能够解决更高维度的问题,适合于电网此类复杂且数据较多的环境;本发明同时考虑了t时刻和t+1时刻的期望总价值,避免了局部最优问题的出现;本发明以智能融合终端ttu作为中心评判单元,将电动汽车充电桩作为局部决策单元,依托于台区现有的ttu装置,无需额外进行配电网的设备改造,提高了台区现有设备的利用率,避免了额外的经济投入。
[0116]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0117]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式
压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0118]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0119]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0120]
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
技术特征:
1.一种电动汽车充放电管理方法,其特征在于:基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。2.根据权利要求1所述的一种电动汽车充放电管理方法,其特征在于:所述方法包括以下步骤:步骤一:采用深度强化学习算法,基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建适用于电动汽车充放电管理的深度强化学习模型;步骤二:基于构建的深度强化学习模型,将电动汽车作为智能体,使用马尔科夫决策过程描述电动汽车基于深度强化学习模型在充放电策略π下的转移过程;步骤三:在马尔科夫决策每次迭代过程中,智能体执行动作,使环境状态改变并获得奖励,结合折扣因子γ得到总奖励函数;步骤四:基于总奖励函数构建状态值函数,并评估电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;步骤五:采用状态-动作值函数评估考虑t+1时刻的奖励时电动汽车执行充放电策略π在t时刻得到的期望总奖励;步骤六:根据步骤四和步骤五得到的期望总奖励,从所有状态和动作策略中选出最优状态和动作策略,作为电动汽车的最优调控策略,根据最优策略进行电动汽车充放电管理。3.根据权利要求2所述的一种电动汽车充放电管理方法,其特征在于:步骤一中,适用于电动汽车充放电管理的深度强化学习模型为元组(s,a,p,r);其中,s表示状态的集合,所述状态为充电桩所在节点的有功功率、无功功率以及电压;a表示动作的集合,所述动作为电动汽车功率调节挡位;p表示状态转移概率集合;r表示奖励函数,为有功功率损耗最小。4.根据权利要求2所述的一种电动汽车充放电管理方法,其特征在于:步骤二中,电动汽车基于深度强化学习模型在充放电策略π下的转移过程为:在充放电策略π下,当智能体在状态s
t
时执行动作a
t
,并以概率p转移到下一状态s
t+1
,同时接收来自环境对于动作的反馈,即奖励r
t
;上述的转移过程满足马尔科夫性:下一时刻状态仅与当前时刻状态有关,而与前序状态无关,即:p(s
t+1
|s
t
,...,s0)=p(s
t+1
|s
t
);其中,s0、s
t
和s
t+1
分别代表初始时刻、t时刻和t+1时刻的状态。5.根据权利要求2所述的一种电动汽车充放电管理方法,其特征在于:步骤三中,总奖励函数为:式中,r
t
代表总奖励函数;r
t+i
代表t+i时刻的奖励,i=1,2,3,...,k+1;γ代表折扣因子;
k代表迭代次数。6.根据权利要求5所述的一种电动汽车充放电管理方法,其特征在于:步骤四中,状态值函数v
π
(s)为:式中,v
π
(s)为电动汽车从初始状态s0开始执行充放电策略π在t时刻得到的期望总奖励;e为期望;s
t
=s0表示从初始时刻的状态开始。7.根据权利要求6所述的一种电动汽车充放电管理方法,其特征在于:步骤五中,状态-动作值函数为:q
π
(s
t
,a
t
)=e[r
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
=s0,a
t
=a0];式中,q
π
(s
t
,a
t
)代表考虑t+1时刻的奖励时电动汽车执行充放电策略π在t时刻得到的期望总奖励;s
t
和a
t
分别代表t时刻的状态和动作;s
t
=s0表示从初始的动作开始;a
t
=a0表示从初始的动作开始。8.根据权利要求1所述的一种电动汽车充放电管理方法,其特征在于:步骤六中,最优状态和动作策略为下述两式的最大值对应的状态和动作:(1)π
*
=argmaxv
π
(s)和(2)π
*
=argmaxq
π
(s,a)其中,π
*
代表策略π的估计值函数;v
π
(s)、q
π
(s,a)分别为步骤四和步骤五得到的期望总奖励;argmax为取最大值函数。9.一种电动汽车充放电管理系统,用于实现权利要求1-8任意一项所述的方法,其特征在于:所述系统包括智能融合终端ttu、电动汽车充电桩和电动汽车充放电管理模块;电动汽车充放电管理模块基于电动汽车充电桩与ttu之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。10.一种终端,包括处理器及存储介质;其特征在于:所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据权利要求1-8任一项所述方法的步骤。11.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
技术总结
本发明公开了一种电动汽车充放电管理方法及系统,基于电动汽车充电桩与TTU之间的交互信息,以有功功率损耗最小为奖励函数构建深度强化学习模型,采用深度强化学习模型对电动汽车充放电过程进行学习,并同时考虑t时刻和t+1时刻的奖励,最终得到电动汽车最优的调控策略,根据最优的调控策略进行电动汽车充放电管理。可以有效的提高电网的利用效率,适用于在复杂不确定性的环境中寻找最优策略,从而可以发挥负荷调度的作用,实现削峰填谷、促进新能源消纳。源消纳。源消纳。
技术研发人员:欧朱建 黄霆 袁健华 徐晓轶 毛艳芳 杨景刚 肖小龙 郭佳豪 袁晓冬 史明明
受保护的技术使用者:国网江苏省电力有限公司电力科学研究院
技术研发日:2023.03.23
技术公布日:2023/7/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/