一种融合信息物理系统的燃料电池汽车能量管理方法
未命名
07-12
阅读:71
评论:0

1.本发明属于燃料电池混合动力系统能量管理技术领域,具体涉及一种融合信息物理系统的燃料电池汽车能量管理方法。
背景技术:
2.现阶段,质子膜交换燃料电池由于其清洁、高能效等优点,越来越多地被新能源汽车尤其是混合动力汽车所采用。然而,由于燃料电池的动态响应较慢,而车辆行驶过程中的速度与功率变化却较为迅速且激烈,这使得与动力电池搭配组成的燃料电池混合动力系统的能量管理更具有难度。在针对燃料电池混合动力汽车的能量管理策略中,均存在实际性能过渡依赖所设定条件与建模过程的问题;虽然在诸多现有技术如公开号为cn113085665a的中国专利等已经综合考虑了车辆动力系统本身或者车上其他大功率部件来执行能量分配,但对于车辆外部的环境因素譬如道路地形、交通路况等却没有纳入考虑,根据实际经验这些因素对于车辆行驶中的能耗影响往往更为强烈,可见现有针对燃料电池混合动力系统的能量管理策略不甚完善,仍具有很大的改进空间。
技术实现要素:
3.有鉴于此,针对本领域中存在的技术问题,本发明提供了一种融合信息物理系统的燃料电池汽车能量管理方法,具体包括以下步骤:
4.步骤一、获取燃料电池混动汽车的车辆状态信息、动力电池状态信息以及燃料电池状态信息;其中,所述车辆状态信息包括:车速v、加速度acc、驱动电机转速ω
motor
、驱动电机转矩t
motor
及驱动电机效率η
motor
;所述动力电池状态信息包括:动力电池电压与电流、内阻及soc;所述燃料电池状态信息包括:燃料电池输出功率p
fc
、效率η
fc
及功率变化率δp
fc
;
5.步骤二、根据车辆动力学对其建立汽车纵向动力学模型;针对燃料电池混合动力系统拓扑结构依次建立燃料电池氢耗模型、动力电池等效电路模型、动力电池寿命衰减模型以及驱动电机模型;
6.步骤三、由车辆的can信号中获取包括车速v、加速度acc的实时驾驶状态信息,并通过gps模块获取车辆的地理位置数据;利用车载网络将所述驾驶状态信息和地理位置数据上传至云端服务器,所述云端服务器基于这些信息获取车辆将要经过的未来道路的坡度、曲率及交通信息反馈给车辆;
7.步骤四、针对深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法,选取车速v、加速度acc、动力电池soc、动力电池soh、未来道路坡度if、未来道路曲度cf及未来道路交通信息tf作为状态变量,并组成状态空间s:
8.s=[v,acc,soc,soh,if,cf,tf]
[0009]
选取燃料电池功率变化率δp
fc
作为动作变量,并组成动作空间a:
[0010]
a=[δp
fc
|δp
fc
∈[-3,+3]kw]
[0011]
设置包括整车氢气消耗、动力电池寿命、动力电池soc维持以及燃料电池功率限制
的四个优化目标,并构建相应的奖励函数r:
[0012][0013]
其中,p1为每公斤氢气单价,为氢气质量,p2为动力电池更换价格,α和β分别为动力电池soc维持和燃料电池功率变化限制的加权系数,soc
tar
为电池soc维持的目标值,δp
fcmax
为燃料电池功率变换限制的最大值;
[0014]
步骤五、初始化所述ddpg算法,利用历史数据或标准工况对应的各车辆状态信息构建训练集并对算法进行训练,使训练好的算法根据实时的状态变量能够得到最优的动作变量。
[0015]
进一步地,步骤二中所建立的汽车纵向动力学模型的具体形式为:
[0016][0017]
η
t
=η
dc/ac
·
η
em
·
η
tra
[0018]
p
tol
=p
fc
·
η
dc/dc
+p
bat
[0019]
其中,p
tol
为车辆行驶的总需求功率,η
t
为车辆的效率,m为车辆重量,g为重力加速度,f为滚动阻力系数,α为道路坡度,a为迎风面积,cd为空气阻力系数,v为车速,δ为车辆旋转质量换算系数,η
dc/ac
、η
em
、η
tra
、η
dc/dc
分别为dc/ac转换器、驱动电机、传动系统和dc/dc转换器的效率,p
fc
、p
bat
分别为燃料电池和动力电池的输出功率;
[0020]
所述燃料电池氢耗模型的具体形式为:
[0021][0022][0023]
其中,为燃料电池系统瞬时氢气消耗量,为氢气的热值,为所消耗氢气产生的理论功率,t为时间变量;
[0024]
所述动力电池等效电路模型的具体形式为:
[0025][0026][0027]
其中,v
ocv
为动力电池开路电压,i
bat
是动力电池电流,r0是动力电池内阻,q
bat
为动力电池容量;
[0028]
所述的动力电池寿命衰减模型的具体形式为:
[0029][0030]
[0031][0032]
其中,q
loss
为动力电池容量损失,c为动力电池放电倍率,b(c)为补偿因子,ea(c)为活化能,r为理想气体常数,t为动力电池绝对温度,a(c)为动力电池安时吞吐量,n(c)为动力电池等效充放电数量;
[0033]
所述的驱动电机模型的具体形式为:
[0034]
η
motor
=f(ω
motor
,t
motor
)
[0035]
当电机的转速ω
motor
和转矩t
motor
确定后即可得到驱动电机的效率η
motor
。
[0036]
进一步地,所述ddpg算法具体包括行为者网络μ、评论家网络q及经验池;所述评论家网络基于状态变量s和动作变量a输出针对动作—奖励的综合评分q(s,a);所述行为者网络通过训练能够使评论家网络输出的q(s,a)最大化;
[0037]
所述经验池用于将某状态所对应的状态变量s、动作变量a、奖励值r及下一状态变量s’组成经验样本并保存,当经验池中的经验样本数量超过经验池可储存数量时,旧有数据会被覆盖;对算法训练时具体利用从经验池中随机抽取的小批量样本来进行;
[0038]
所述行为者网络通过对所述优化目标对应的目标函数执行以下形式的梯度下降来实现更新:
[0039]
j(θ
μ
)=e[q(s,μ(s))]
[0040][0041][0042]
其中,j(θ
μ
)为目标函数,θ
μ
为行为者网络参数,表示梯度,e(
·
)为数学期望,η为行为者网络的学习率;符号
←
表示由其右边的项确定出其左边的项;
[0043]
所述行为者网络和评论家网络分别具有对应的、带有参数θ
μ
′
的目标行为者网络μ’和带有参数θq′
的目标评论家网络q’;所述目标行为者网络基于下一状态变量s’输出对应的动作变量a’,并将s'和a'共同输入到目标评论家网络来输出q’(s’,a’);所述评论家网络用于使当前q值与其时序差分目标之间的td误差达到最小,具体形式如下:
[0044]ytarget
(t)=r(s,a)+γq
′
(s',a'|θq′
)
[0045]
δ(t)=y
target
(t)-q(s,a|θq)
[0046]
其中,y
target
(t)为时序差分目标,δ(t)为td误差;
[0047]
评论家网络的更新同样利用以下形式的梯度下降法实现:
[0048][0049][0050]
其中,β为批评者网络的学习率;
[0051]
所述目标行为者网络与目标批评者网络采用延迟更新方式,仅当行为者网络和批评者网络更新达到预定次数后,目标行为者网络与目标批评者网络才进行更新,相应网络参数通过以下方式实现软更新:
[0052]
θ
μ
′
←
τθ
μ
+(1-τ)θ
μ
′
[0053]
θq′
←
τθq+(1-τ)θq′
[0054]
其中,τ为软更新因子。
[0055]
上述本发明所提供的融合信息物理系统的燃料电池汽车能量管理方法,不仅考虑了车辆系统内部的能量流动与消耗,还兼顾了未来道路地形、交通情况对车辆能量管理的影响,结合深度确定性策略梯度算法来探索可行域中的最优控制,从而有效避免了离散误差且提高了策略的可靠性。本发明通过信息物理系统实现了车辆系统与网络层的信息交互,并将通过信息物理系统获得的未来地形信息与电池老化、燃料电池耐久性约束和氢气消耗等纳入控制框架中,对实车的系统耐久性和氢气消耗达到最佳平衡具有重要的现实意义。
附图说明
[0056]
图1为本发明所提供方法的流程图;
[0057]
图2为本发明所适用的燃料电池混合电力系统可选拓扑结构;
[0058]
图3为ddpg算法的原理框架图。
具体实施方式
[0059]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
本发明所提供的融合信息物理系统的燃料电池汽车能量管理方法,如图1所示,具体包括以下步骤:
[0061]
步骤一、获取燃料电池混动汽车的车辆状态信息、动力电池状态信息以及燃料电池状态信息;其中,所述车辆状态信息包括:车速v、加速度acc、驱动电机转速ω
motor
、驱动电机转矩t
motor
及驱动电机效率η
motor
;所述动力电池状态信息包括:动力电池电压与电流、内阻及soc;所述燃料电池状态信息包括:燃料电池输出功率p
fc
、效率η
fc
及功率变化率δp
fc
;
[0062]
步骤二、根据车辆动力学对其建立汽车纵向动力学模型;针对燃料电池混合动力系统拓扑结构依次建立燃料电池氢耗模型、动力电池等效电路模型、动力电池寿命衰减模型以及驱动电机模型;
[0063]
步骤三、由车辆的can信号中获取包括车速v、加速度acc的实时驾驶状态信息,并通过gps模块获取车辆的地理位置数据;利用车载网络将所述驾驶状态信息和地理位置数据上传至云端服务器,所述云端服务器基于这些信息获取车辆将要经过的未来道路的坡度、曲率及交通信息反馈给车辆;
[0064]
步骤四、针对深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法,选取车速v、加速度acc、动力电池soc、动力电池soh、未来道路坡度if、未来道路曲度cf及未来道路交通信息tf作为状态变量,并组成状态空间s:
[0065]
s=[v,acc,soc,soh,if,cf,tf]
[0066]
选取燃料电池功率变化率δp
fc
作为动作变量,并组成动作空间a:
[0067]
a=[δp
fc
|δp
fc
∈[-3,+3]kw]
[0068]
设置包括整车氢气消耗、动力电池寿命、动力电池soc维持以及燃料电池功率限制的四个优化目标,并构建相应的奖励函数r:
[0069][0070]
其中,p1为每公斤氢气单价,为氢气质量,p2为动力电池更换价格,α和β分别为动力电池soc维持和燃料电池功率变化限制的加权系数,soc
tar
为电池soc维持的目标值,δp
fcmax
为燃料电池功率变换限制的最大值;
[0071]
步骤五、初始化所述ddpg算法,利用历史数据或标准工况对应的各车辆状态信息构建训练集并对算法进行训练,使训练好的算法根据实时的状态变量能够得到最优的动作变量。
[0072]
图2示出了本发明所提供方法可以应用的燃料电池混合动力系统的可选拓扑结构。
[0073]
在本发明的一个优选实施方式中,步骤二中所建立的汽车纵向动力学模型的具体形式为:
[0074][0075]
η
t
=η
dc/ac
·
η
em
·
η
tra
[0076]
p
tol
=p
fc
·
η
dc/dc
+p
bat
[0077]
其中,p
tol
为车辆行驶的总需求功率,η
t
为车辆的效率,m为车辆重量,g为重力加速度,f为滚动阻力系数,α为道路坡度,a为迎风面积,cd为空气阻力系数,v为车速,δ为车辆旋转质量换算系数,η
dc/ac
、η
em
、η
tra
、η
dc/dc
分别为dc/ac转换器、驱动电机、传动系统和dc/dc转换器的效率,p
fc
、p
bat
分别为燃料电池和动力电池的输出功率;
[0078]
所述燃料电池氢耗模型的具体形式为:
[0079][0080][0081]
其中,为燃料电池系统瞬时氢气消耗量,为氢气的热值,为所消耗氢气产生的理论功率,t为时间变量;
[0082]
所述动力电池等效电路模型的具体形式为:
[0083][0084][0085]
其中,v
ocv
为动力电池开路电压,i
bat
是动力电池电流,r0是动力电池内阻,q
bat
为动力电池容量;
[0086]
所述的动力电池寿命衰减模型的具体形式为:
[0087][0088]
[0089][0090]
其中,q
loss
为动力电池容量损失,c为动力电池放电倍率,b(c)为补偿因子,ea(c)为活化能,r为理想气体常数,t为动力电池绝对温度,a(c)为动力电池安时吞吐量,n(c)为动力电池等效充放电数量;
[0091]
所述的驱动电机模型的具体形式为:
[0092]
η
motor
=f(ω
motor
,t
motor
)
[0093]
当电机的转速ω
motor
和转矩t
motor
确定后即可得到驱动电机的效率η
motor
。
[0094]
在本发明的一个优选实施方式中,如图3所示,所述ddpg算法具体包括行为者网络μ、评论家网络q及经验池;所述评论家网络基于状态变量s和动作变量a输出针对动作—奖励的综合评分q(s,a);所述行为者网络通过训练能够使评论家网络输出的q(s,a)最大化;
[0095]
所述经验池用于将某状态所对应的状态变量s、动作变量a、奖励值r及下一状态变量s’组成经验样本并保存,当经验池中的经验样本数量超过经验池可储存数量时,旧有数据会被覆盖;对算法训练时具体利用从经验池中随机抽取的小批量样本来进行;
[0096]
所述行为者网络通过对所述优化目标对应的目标函数执行以下形式的梯度下降来实现更新:
[0097]
j(θ
μ
)=e[q(s,μ(s))]
[0098][0099][0100]
其中,j(θ
μ
)为目标函数,θ
μ
为行为者网络参数,表示梯度,e(
·
)为数学期望,η为行为者网络的学习率;符号
←
表示由其右边的项确定出其左边的项;
[0101]
所述行为者网络和评论家网络分别具有对应的、带有参数θ
μ
′
的目标行为者网络μ’和带有参数θq′
的目标评论家网络q’;所述目标行为者网络基于下一状态变量s’输出对应的动作变量a’,并将s'和a'共同输入到目标评论家网络来输出q’(s’,a’);所述评论家网络用于使当前q值与其时序差分目标之间的td误差达到最小,具体形式如下:
[0102]ytarget
(t)=r(s,a)+γq
′
(s',a'|θq′
)
[0103]
δ(t)=y
target
(t)-q(s,a|θq)
[0104]
其中,y
target
(t)为时序差分目标,δ(t)为td误差;
[0105]
评论家网络的更新同样利用以下形式的梯度下降法实现:
[0106][0107][0108]
其中,β为批评者网络的学习率;
[0109]
所述目标行为者网络与目标批评者网络采用延迟更新方式,仅当行为者网络和批评者网络更新达到预定次数后,目标行为者网络与目标批评者网络才进行更新,相应网络参数通过以下方式实现软更新:
[0110]
θ
μ
′
←
τθ
μ
+(1-τ)θ
μ
′
[0111]
θq′
←
τθq+(1-τ)θq′
[0112]
其中,τ为软更新因子。
[0113]
应理解,本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0114]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种融合信息物理系统的燃料电池汽车能量管理方法,其特征在于:具体包括以下步骤:步骤一、获取燃料电池混动汽车的车辆状态信息、动力电池状态信息以及燃料电池状态信息;其中,所述车辆状态信息包括:车速v、加速度acc、驱动电机转速ω
motor
、驱动电机转矩t
motor
及驱动电机效率η
motor
;所述动力电池状态信息包括:动力电池电压与电流、内阻及soc;所述燃料电池状态信息包括:燃料电池输出功率p
fc
、效率η
fc
及功率变化率δp
fc
;步骤二、根据车辆动力学对其建立汽车纵向动力学模型;针对燃料电池混合动力系统拓扑结构依次建立燃料电池氢耗模型、动力电池等效电路模型、动力电池寿命衰减模型以及驱动电机模型;步骤三、由车辆的can信号中获取包括车速v、加速度acc的实时驾驶状态信息,并通过gps模块获取车辆的地理位置数据;利用车载网络将所述驾驶状态信息和地理位置数据上传至云端服务器,所述云端服务器基于这些信息获取车辆将要经过的未来道路的坡度、曲率及交通信息反馈给车辆;步骤四、针对ddpg算法,选取车速v、加速度acc、动力电池soc、动力电池soh、未来道路坡度i
f
、未来道路曲度c
f
及未来道路交通信息t
f
作为状态变量,并组成状态空间s:s=[v,acc,soc,soh,i
f
,c
f
,t
f
]选取燃料电池功率变化率δp
fc
作为动作变量,并组成动作空间a:a=[δp
fc
|δp
fc
∈[-3,+3]kw]设置包括整车氢气消耗、动力电池寿命、动力电池soc维持以及燃料电池功率限制的四个优化目标,并构建相应的奖励函数r:r=p1·
[m
h2
(t)]+p2·
q
bat
·
δsoh+α
·
[soc(t)-soc
tar
]2+β
·
|δp
fc
/δp
fcmax
|其中,p1为每公斤氢气单价,m
h2
为氢气质量,p2为动力电池更换价格,α和β分别为动力电池soc维持和燃料电池功率变化限制的加权系数,soc
tar
为电池soc维持的目标值,δp
fcmax
为燃料电池功率变换限制的最大值;步骤五、初始化所述ddpg算法,利用历史数据或标准工况对应的各车辆状态信息构建训练集并对算法进行训练,使训练好的算法根据实时的状态变量能够得到最优的动作变量。2.如权利要求1所述的方法,其特征在于:步骤二中所建立的汽车纵向动力学模型的具体形式为:η
t
=η
dc/ac
·
η
em
·
η
tra
p
tol
=p
fc
·
η
dc/dc
+p
bat
其中,p
tol
为车辆行驶的总需求功率,η
t
为车辆的效率,m为车辆重量,g为重力加速度,f为滚动阻力系数,α为道路坡度,a为迎风面积,c
d
为空气阻力系数,v为车速,δ为车辆旋转质量换算系数,η
dc/ac
、η
em
、η
tra
、η
dc/dc
分别为dc/ac转换器、驱动电机、传动系统和dc/dc转换器的效率,p
fc
、p
bat
分别为燃料电池和动力电池的输出功率;所述燃料电池氢耗模型的具体形式为:
其中,为燃料电池系统瞬时氢气消耗量,为氢气的热值,为所消耗氢气产生的理论功率,t为时间变量;所述动力电池等效电路模型的具体形式为:所述动力电池等效电路模型的具体形式为:其中,v
ocv
为动力电池开路电压,i
bat
是动力电池电流,r0是动力电池内阻,q
bat
为动力电池容量;所述的动力电池寿命衰减模型的具体形式为:所述的动力电池寿命衰减模型的具体形式为:所述的动力电池寿命衰减模型的具体形式为:其中,q
loss
为动力电池容量损失,c为动力电池放电倍率,b(c)为补偿因子,e
a
(c)为活化能,r为理想气体常数,t为动力电池绝对温度,a(c)为动力电池安时吞吐量,n(c)为动力电池等效充放电数量;所述的驱动电机模型的具体形式为:η
motor
=f(ω
motor
,t
motor
)当电机的转速ω
motor
和转矩t
motor
确定后即可得到驱动电机的效率η
motor
。3.如权利要求1所述的方法,其特征在于:所述ddpg算法具体包括行为者网络μ、评论家网络q及经验池;所述评论家网络基于状态变量s和动作变量a输出针对动作—奖励的综合评分q(s,a);所述行为者网络通过训练能够使评论家网络输出的q(s,a)最大化;所述经验池用于将某状态所对应的状态变量s、动作变量a、奖励值r及下一状态变量s’组成经验样本并保存,当经验池中的经验样本数量超过经验池可储存数量时,旧有数据会被覆盖;对算法训练时具体利用从经验池中随机抽取的小批量样本来进行;所述行为者网络通过对所述优化目标对应的目标函数执行以下形式的梯度下降来实现更新:j(θ
μ
)=e[q(s,μ(s))])=e[q(s,μ(s))]
其中,j(θ
μ
)为目标函数,θ
μ
为行为者网络参数,
▽
表示梯度,e(
·
)为数学期望,η为行为者网络的学习率;符号
←
表示由其右边的项确定出其左边的项;所述行为者网络和评论家网络分别具有对应的、带有参数θ
μ
′
的目标行为者网络μ’和带有参数θ
q
′
的目标评论家网络q’;所述目标行为者网络基于下一状态变量s’输出对应的动作变量a’,并将s'和a'共同输入到目标评论家网络来输出q’(s’,a’);所述评论家网络用于使当前q值与其时序差分目标之间的td误差达到最小,具体形式如下:y
target
(t)=r(s,a)+γq
′
(s',a'|θ
q
′
)δ(t)=y
target
(t)-q(s,a|θ
q
)其中,y
target
(t)为时序差分目标,δ(t)为td误差;评论家网络的更新同样利用以下形式的梯度下降法实现:评论家网络的更新同样利用以下形式的梯度下降法实现:其中,β为批评者网络的学习率;所述目标行为者网络与目标批评者网络采用延迟更新方式,仅当行为者网络和批评者网络更新达到预定次数后,目标行为者网络与目标批评者网络才进行更新,相应网络参数通过以下方式实现软更新:θ
μ
′
←
τθ
μ
+(1-τ)θ
μ
′
θ
q
′
←
τθ
q
+(1-τ)θ
q
′
其中,τ为软更新因子。
技术总结
本发明提供了一种融合信息物理系统的燃料电池汽车能量管理方法,不仅考虑了车辆系统内部的能量流动与消耗,还兼顾了未来道路地形、交通情况对车辆能量管理的影响,结合深度确定性策略梯度算法来探索可行域中的最优控制,从而有效避免了离散误差且提高了策略的可靠性。本发明通过信息物理系统实现了车辆系统与网络层的信息交互,并将通过信息物理系统获得的未来地形信息、交通信息与电池老化、燃料电池耐久性约束和氢气消耗等纳入控制框架中,对实车的系统耐久性和氢气消耗达到最佳平衡具有重要的现实意义。具有重要的现实意义。具有重要的现实意义。
技术研发人员:何洪文 李昆昂 贾淳淳 周稼铭
受保护的技术使用者:北京理工大学
技术研发日:2023.03.20
技术公布日:2023/6/27
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:带扣防错系统的制作方法 下一篇:承载装置及风电叶片举升工装车的制作方法