一种基于深度强化学习的过程系统液位控制方法
未命名
09-20
阅读:52
评论:0

1.本发明涉及一种液位控制方法。特别是涉及一种基于深度强化学习的液位控制方法。
背景技术:
2.在工业生产过程中,经常伴随对容器内的液位进行控制的需求,例如包含水池、水箱、锅炉等装置的生产过程,针对单一储水容器的液位控制已经有了十分成熟的研究应用,但在实际生产中经常面临多个容器互相连接的控制难题,这种多容器组成的过程系统往往具有强非线性、强耦合、变量多等特点,从而导致对指定容器实现液位控制的困难。四水箱过程系统是一种非线性、强耦合、多输入多输出的过程系统,可以很好地拟合工业生产过程,在该系统上实现液位控制具有较好的代表性和推广意义。
3.强化学习是一类新兴的可用于控制的人工智能算法,深度强化学习就是强化学习与深度学习(神经网络)的结合,基于其具备的拟合能力和可学习能力,神经网络在深度强化学习中的作用通常是近似值函数或智能体的策略,在基于actor-critic结构的深度强化学习算法中,使用多个神经网络分别近似值函数和智能体的策略。在强化学习中,用“智能体”这个概念来表示感知状态、做出动作的对象,将被控系统作为环境,智能体感知环境当前所处的状态,经过自身的计算得出当前的动作并将其作用于环境,环境接受智能体的动作后,产生对应的即时奖励信号并发生状态转移,智能体在不断地与环境交互中以最大化累积奖励为目标,学习最优动作策略,也就是作用于系统的最优控制策略。然而,基于试错的智能体训练过程耗时长、效率低,使得基于强化学习的液位控制实现过程计算资源消耗大、过程缓慢。经验回放方法是深度强化学习中提升神经网络训练效果的重要方法,具体做法是训练时维护一个经验回放池,智能体与环境交互时将每次得到的五元组数据(状态、动作、奖励、下一状态、终止符)存入经验回放池,训练神经网络时再从经验回放池中随机采样若干数据来进行训练,作用是使从环境中采样的数据满足独立假设以及提升样本效率。
4.对于异策略的强化学习算法,回放池中存储的经验是由不同策略收集的数据,而同策略的强化学习算法中的回放池只能存放相同策略收集的数据。针对经验回放方法的改进主要有优先经验回放,就是为经验池中的每条经验指定优先级,确保在采样时更容易采样到优先级更高的经验,使智能体多次利用采样价值高的经验。四水箱过程系统是一种非线性、强耦合、多输入多输出、动态变化慢的过程系统,智能体与这种环境交互时,通常对状态空间探索不足,从而导致训练时性能提升缓慢,因此考虑借助辅助模型在经验回放机制上作改进,根据系统数学模型建立辅助模型,在训练开始前及训练前期使用辅助模型分别生成预知经验和想象经验,使智能体在训练过程中除实时产生的现实经验外还可以同时利用上述两种经验,从而解决了因系统动态变化慢、多输入多耦合非线性动力学等特点而造成的智能体探索不足、训练时性能提升缓慢的困难,且辅助模型只在训练前及训练前期作用,智能体在训练中后期更专注于与环境的实时互动,训练效率得到提升的同时不过度干预智能体,智能体对状态-动作空间的探索程度得到扩展,训练后的智能体可以在测试环境
中快速实现液位控制。
技术实现要素:
5.本发明主要解决的技术问题是,提供一种结合辅助模型,改进经验回放方法以提升智能体训练效率和扩展状态-动作空间探索程度的基于深度强化学习的过程系统液位控制方法。
6.本发明采用的技术方案是:一种基于深度强化学习的过程系统液位控制方法,包括:
7.s1:建立强化学习环境和辅助模型,配置深度强化学习算法;
8.s2:通过辅助模型生成预知经验并存入经验回放池;
9.s3:训练前期,将辅助模型同步生成的想象经验与训练产生的现实经验共同存入经验回放池;
10.s4:训练中后期,不再生成想象经验,随着训练进行成比例地增大神经网络更新次数和批次大小;
11.s5:训练结束,在测试环境上检验智能体液位控制性能。
12.本发明的一种基于深度强化学习的过程系统液位控制方法,具有以下优点:
13.1.本发明的方法获得的控制是一种对目标系统的最优控制,是对系统控制时使性能指标最优的控制量。
14.2.本发明的方法在深度强化学习的经验回放机制上作出改进,使用辅助模型生成的预知经验和想象经验丰富经验回放池,在训练时扩展智能体对状态-动作空间的探索程度,提升训练效率。
15.3.本发明的方法构建的辅助模型只用于在训练前和训练前期生成预知经验和想象经验训练智能体,在实际测试时并无作用,本发明的方法在本质上是使用了模型知识的无模型的控制方法,适用性较强。
16.4.本发明的方法侧重于使用辅助模型结合经验回放方法的改进,根据系统特点和实际需要可以与多种过程系统及深度强化学习算法相结合,易于推广。
附图说明
17.图1是本发明一种基于深度强化学习的过程系统液位控制方法的流程示意图;
18.图2是本发明一种基于深度强化学习的过程系统液位控制方法的辅助模型作用示意图;
19.图3是本发明一种基于深度强化学习的过程系统液位控制方法的智能体训练过程示意图;
20.图4是本发明实施例四水箱过程系统结构示意图;
21.图5是本发明实施例动作网络及目标动作网络的结构示意图;
22.图6是本发明实施例评价网络及目标评价网络的结构示意图;
23.图7是本发明实施例智能体在训练过程中经平均取值后各序列总回报的对比图;
24.图8是本发明实施例智能体在测试过程中序列总回报的演变图;
25.图9是本发明实施例智能体在测试过程中水箱1的液位h1的演变图;
26.图10是本发明实施例智能体在测试过程中水箱2的液位h2的演变图;
27.图11是本发明实施例智能体在测试过程中水箱3的液位h3的演变图;
28.图12是本发明实施例智能体在测试过程中水箱4的液位h4的演变图;
29.图13是本发明实施例智能体在测试过程中水泵1工作电压v1的演变图;
30.图14是本发明实施例智能体在测试过程中水泵2工作电压v2的演变图。
具体实施方式
31.下面将结合附图及实施例对本发明的一种基于深度强化学习的四水箱过程系统液位控制方法作进一步地详细描述。
32.一种基于深度强化学习的过程系统液位控制方法,包括:
33.s1:建立强化学习环境和辅助模型,配置深度强化学习算法;
34.在本实施例中,所述四水箱过程系统的模型示意图如附图3所示,所述四水箱过程系统的数学模型表示如下:
[0035][0036][0037][0038][0039]
其中,ai(i=1,2,3,4)为水箱i的横截面积,ai(i=1,2,3,4)是水箱i出水孔的横截面积;hi(i=1,2,3,4)是水箱i的液位;v
p
是水泵p(p=1,2)的工作电压,k1,k2是水泵的参数,水泵输入的水流量为k
pvp
;参数γ1,γ2∈(0,1)决定系统分水阀的开度;g是重力加速度;t是时间。系统的输入为水泵的电压v
p
,输出为水箱1,2的液位h1,h2,控制目标是使h1,h2跟踪目标液位h
1set
,h
2set
。
[0040]
在本实施例中,系统各项参数值如下所示;
[0041]
水箱i(i=1,2,3,4)的最大液位值h
max
=20cm;
[0042]
水泵的最大工作电压v
max
=20v;
[0043]
水箱i(i=1,3)的横截面积a1,a3=28cm2;
[0044]
水箱i(i=2,4)的横截面积a2,a4=32cm2;
[0045]
水箱i(i=1,3)出水孔的横截面积a1,a3=0.071cm2;
[0046]
水箱i(i=2,4)出水孔的横截面积a2,a4=0.051cm2;
[0047]
水泵1的工作系数k1=3.33cm3/vs;
[0048]
水泵2的工作系数k2=3.35cm3/vs;
[0049]
重力加速度g=981cm/s2;
[0050]
水箱1的目标液位值h
1set
=8cm;
[0051]
水箱2的目标液位值h
2set
=10cm。
[0052]
将四水箱过程系统看作马尔科夫过程,根据系统模型设计强化学习环境的三要素:观测空间、动作空间和奖励,然后借助gymnasium工具包,编写step(),reset()等环境必备函数,构建自定义强化学习环境;根据环境的观测和动作空间是离散或连续的,配置合适的深度强化学习算法,本实施例选择td3算法。
[0053]
在本实施例中,智能体的状态为四个水箱的液位以及两个水泵的工作电压:[h1,h2,h3,h4,v1,v2],智能体的动作为两个水泵的工作电压变化量[δv1,δv2],环境为智能体提供的奖励函数为
[0054][0055]
其中δh=|h1(t)-h
1set
|+|h2(t)-h
2set
|,h1(t),h2(t)分别是水箱1,2的在t时刻的液位值,|
·
|表示取绝对值(下同),δu=|v1(t)-v2(t-1)|+|v2(t)-v2(t-1)|,v1(t)和v1(t-1)分别是水泵1在t时刻和(t-1)时刻的工作电压,v2(t)和v2(t-1)分别是水泵2在t时刻和(t-1)时刻的工作电压,c1=0.8/(max(h
max-h
1set
,h
1set
)+max(h
max-h
2set
,h
2set
))和c2=0.2/2*v
max
均为系数,r是关于δh的函数,td是该环境的终止符,td3算法基于actor-critic框架,actor指输出策略的网络,而critic是通过估计值函数来评价当前策略好坏的网络,td3算法还结合了double q-learning的思想,并引入了双重critic,因此包含6个神经网络:动作网络μ(
·
|θ
μ
)、评价网络1q1(
·
|θq)、评价网络2q2(
·
|θq)、目标动作网络μ
′
(
·
|θ
μ
′
)、目标评价网络1q
′1(
·
|θq′
)和目标评价网络2q
′1(
·
|θq′
)。本实施例中,目标动作网络与动作网络均具有两层隐藏层,隐藏层使用relu激活函数,输出层使用tanh激活函数,结构如图5所示;目标评价网络与评价网络均具有两层隐藏层,隐藏层使用relu激活函数,输出层使用线性激活函数,结构如图6所示。本实施例中,设置动作网络和评价网络的隐藏层神经元数量为256,神经网络优化器使用adam,优化器的学习率为0.0003,所有数据在进入神经网络之前都进行了归一化处理。
[0056]
在本实施例中,辅助模型具有与所述四水箱过程系统完全相同的数学模型和参数,其作用是生成预知经验以及根据输入的状态和动作生成想象经验。
[0057]
s2:通过辅助模型生成预知经验并存入经验回放池;
[0058]
在本实施例中,训练前辅助模型生成的预知经验为256条形如(s
t
,a
t
,r,s
t+1
,td)的数据,分别对应当前状态、当前动作、在当前状态做出当前动作获得的奖励值、下一状态和环境终止符,这些数据在智能体与环境开始互动前存入经验回放池。
[0059]
s3:训练前期,将辅助模型同步生成的想象经验与训练产生的现实经验共同存入经验回放池;
[0060]
在本实施例中,一共训练智能体1500个序列,每个序列最多运行200步,每一序列中的每一时刻t,智能体接收环境的当前状态s
t
,根据动作网络选择动作a
t
,环境接收a
t
后给出下一状态s
t+1
、奖励值r和终止符td。随后智能体将该时刻产生的现实经验(s
t
,a
t
,r,s
t+1
,td)存入经验回放池,并进行神经网络的更新。在本实施例中,训练的前100个序列里,将s
t
和添加了正态分布噪声的动作a
′
t
=a
t
+n(μ,σ2)输入辅助模型,由辅助模型输出想象经验(s
t
,a
′
t
,r
′
,s
′
t+1
,td)并存入经验回放池,共重复两次生成想象经验的过程。故在本实施例中,训练的前100个序列的每一步中,都有一条现实经验(s
t
,a
t
,r,s
t+1
,td)和两条想象经验(s
t
,a
′
t
,r
′
,s
′
t+1
,td)存入经验回放池。
[0061]
s4:训练中后期,不再生成想象经验,随着训练进行成比例地增大神经网络更新次数和批次大小;
[0062]
在本实施例中,训练进行了100个序列后不再使用辅助模型生成想象经验;训练中的初始神经网络更新次数为2,初始批次大小为256,假设比例系数k=1+len(replaybuffer)/max(replaybuffer),其中len(replaybuffer)是当前时刻经验回放池的数据量,max(replaybuffer)是经验回放池的最大容量,则每一时刻的神经网络更新次数为2*k(取整数),更新时从经验回放池中取样的批次大小为256*k(取整数)。更新时,动作网络通过最大化累计期望回报来更新参数,评价网络通过最小化评估值与目标值之间的误差来更新参数,动作网络和评价网络的更新均借助优化器完成,本实施例选择adam优化器,目标动作网络和目标评价网络均通过软更新方式更新,具体为:θ
μ
′
=τθμ+(1-τ)θ
μ
′
,θq′
=τθq+(1-τ)θq′
。
[0063]
s5:训练结束,在测试环境上检验智能体液位控制性能。
[0064]
本实施例中,将智能体在训练环境上进行1500个最大步数为200的序列的训练,训练时智能体的折扣率为0.96,训练过程中经平均取值后每个序列的总回报(所有奖励值之和)对比如图7所示。在与训练环境相同的测试环境中进行了单个序列的测试,序列的最大步数为200,测试过程中总回报的演变如图8所示。测试过程中h1、h1、h1、h1、v1和v2的记录如图9-14所示。
[0065]
以上实施例仅是本发明的优选实施方案,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。
技术特征:
1.一种基于深度强化学习的过程系统液位控制方法,用于四水箱过程系统的液位控制,其特征在于,所述方法包括:s1:建立强化学习环境和辅助模型,配置深度强化学习算法;s2:通过辅助模型生成预知经验并存入经验回放池;s3:训练前期,将辅助模型同步生成的想象经验与训练产生的现实经验共同存入经验回放池;s4:训练中后期,不再生成想象经验,随着训练进行成比例地增大神经网络更新次数和批次大小;s5:训练结束,在测试环境上检验智能体液位控制性能。2.根据权利要求1所述的一种基于深度强化学习的过程系统液位控制方法,其特征在于,在s1中:所述四水箱过程系统的数学模型表示如下:所述四水箱过程系统的数学模型表示如下:所述四水箱过程系统的数学模型表示如下:所述四水箱过程系统的数学模型表示如下:其中,a
i
(i=1,2,3,4)为水箱i的横截面积,a
i
(i=1,2,3,4)是水箱i出水孔的横截面积;h
i
(i=1,2,3,4)是水箱i的液位;v
p
是水泵p(p=1,2)的工作电压,k1,k2是水泵的参数,水泵输入的水流量为k
p
v
p
;参数γ1,γ2∈(0,1)决定系统分水阀的开度;g是重力加速度;t是时间。系统的输入为水泵的电压v
p
,输出为水箱1,2的液位h1,h2,控制目标是使h1,h2跟踪目标液位h
1set
,h
2set
。将四水箱过程系统看作一个马尔科夫过程,根据系统模型,设计强化学习环境的三要素:观测空间、动作空间和奖励,然后借助gymnasium工具包,编写step(),reset()等环境必备函数,构建自定义强化学习环境;根据环境的观测空间和动作空间是离散或连续的,配置合适的深度强化学习算法。辅助模型具有与所述四水箱过程系统完全相同的数学模型和参数,其作用是生成预知经验以及根据输入的状态和动作生成想象经验。3.根据权利要求1所述的一种基于深度强化学习的过程系统液位控制方法,其特征在于,在s2中:训练前辅助模型生成的预知经验为形如(s
t
,a
t
,r,s
t+1
,td)的数据,分别对应当前状态、当前动作、在当前状态做出当前动作获得的奖励值、下一状态和环境终止符,这些数据在智能体与环境开始互动前存入经验回放池。4.根据权利要求1所述的一种基于深度强化学习的过程系统液位控制方法,其特征在于,在s3中:
假设一共训练智能体e个序列,每个序列最多运行p步,每一序列中的每一时刻t,智能体接收环境的当前状态s
t
,根据动作网络选择动作a
t
,环境接收a
t
后给出下一状态s
t+1
、奖励值r和终止符td。随后智能体将该时刻产生的现实经验(s
t
,a
t
,r,s
t+1
,td)存入经验回放池,并进行神经网络的更新。训练的前d个序列里,将s
t
和添加了正态分布噪声的动作a
′
t
=a
t
+n(μ,σ2)输入辅助模型,由辅助模型输出想象经验(s
t
,a
′
t
,r
′
,s
t
′
+1
,td)并存入经验回放池,重复k次生成想象经验的过程。故训练的前d个序列的每一步中,都有一条现实经验(s
t
,a
t
,r,s
t+1
,td)和k条想象经验(s
t
,a
′
t
,r
′
,s
t
′
+1
,td)存入经验回放池。5.根据权利要求1所述的一种基于深度强化学习的过程系统液位控制方法,其特征在于,在s4中:训练进行了d个序列后不再使用辅助模型生成想象经验;训练中的初始神经网络更新次数为i,初始批次大小为b,假设比例系数k=1+len(replaybuffer)/max(replaybuffer),其中len(replaybuffer)是当前时刻经验回放池的数据量,max(replaybuffer)是经验回放池的最大容量,则每一时刻的神经网络更新次数为i*k(取整数),更新时从经验回放池中取样的批次大小为b*k(取整数)。更新时,动作网络通过最大化累计期望回报来更新参数,评价网络通过最小化评估值与目标值之间的误差来更新参数,动作网络和评价网络的更新均借助优化器完成,本实施例选择adam优化器,目标动作网络和目标评价网络均通过软更新方式更新,具体为:θ
μ
′
=τθ
μ
+(1-τ)θ
μ
′
,θ
q
′
=τθ
q
+(1-τ)θ
q
′
。6.根据权利要求1所述的一种基于深度强化学习的过程系统液位控制方法,其特征在于,在s5中:将智能体在训练环境上进行e个最大步数为p的序列的训练,在与训练环境相同的测试环境中进行单个序列的测试,序列的最大步数为p。
技术总结
本发明提供一种基于深度强化学习的过程系统液位控制方法,用于四水箱过程系统的液位控制,通过利用被控系统的数学模型建立辅助模型,在训练开始前及训练前期使用辅助模型分别生成预知经验和想象经验,使智能体在训练过程中除实时产生的现实经验外还可以同时利用上述两种经验,从而解决了因系统动态变化慢、多输入多耦合非线性动力学等特点而造成的智能体探索不足、训练时性能提升缓慢的困难,且随着训练进行成比例提升更新次数和批次大小,智能体在训练中后期更专注于与环境的实时互动,训练效率得到提升的同时不过度干预智能体,智能体对状态-动作空间的探索程度得到扩展,训练后的智能体可以在测试环境中快速实现液位控制。控制。控制。
技术研发人员:吴佳 陈亦轩 唐文妍 雷峻 梁承江 何欣然 赵俊诚
受保护的技术使用者:湘潭大学
技术研发日:2023.06.28
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种支护架以及使用其的矿用设备的制作方法 下一篇:一次性带三通阀门的灌肠管