基于DDPG算法的电子健康网络计算卸载方法

未命名 09-22 阅读:192 评论:0

基于ddpg算法的电子健康网络计算卸载方法
技术领域
1.本发明属于无线通信网络技术领域,特别是一种基于ddpg算法的用户任务计算卸载方法。


背景技术:

2.得益于微机电技术、通信技术和信息技术的发展,移动设备包括可穿戴设备和智能手机、pda推动了物联网领域的进步。其中,电子健康网络正是一种利用wban技术实现对用户疾病监测与健康管理的新型物联网技术。在5g和6g时代,电子健康网络应用日趋复杂且移动数据流量爆炸性增加,而无线体域网(wireless body area network,wban)作为一种移动设备,其计算资源非常有限,如果所有的计算任务只在移动设备上本地运行或者全部卸载到云端,往往难以达到满意的服务质量,这限制了电子健康网络的应用范围。
3.移动边缘计算(mec)是由欧洲电信标准化协会(etsi)提出的概念,其基本思想是将云计算能力扩展到蜂窝网络的边缘,为高计算量应用程序的运行提供解决方案,并且具有低延迟的优点。于是基于多接入边缘计算(mec)的电子健康网络应运而生,完美地解决了移动设备本地计算资源受限的问题。


技术实现要素:

4.本发明的目的在于提供一种基于ddpg算法的电子健康网络计算卸载方法,使得各个用户在动态环境下获得合适的通信资源和计算资源,解决了移动设备本地计算资源受限的问题,在多wban用户多mec的场景下还能显著地减少系统的时延和能耗。
5.实现本发明目的的技术解决方案为:一种基于ddpg算法的电子健康网络计算卸载方法,所述方法包括以下步骤:
6.步骤1,确定电子健康网络架构,初始化网络参数;
7.步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
8.步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
9.步骤4,根据训练得到的决策网络进行计算卸载。
10.进一步地,步骤1中所述支持区块链交易的电子健康网络架构分为3个层次:用户层、边缘层和云层;
11.所述用户层包括n个移动终端设备无线体域网wban用户,wban用于收集健康数据的可穿戴传感器设备;wban用户需要向区块链网络注册,通过一个区块链账号作为加入区块链网络的唯一的标识,成为合法的参与者;wban用户可在本地进行任务计算,也可将部分任务卸载到多路访问边缘计算mec服务器或者云服务器执行;
12.所述边缘层包括宏基站和m个mec服务器,其中宏基站中控制器模块实现对系统网络的各种控制功能,包括哈希资源分配策略;宏基站用于对区块链网络进行监控,mec服务
器为wban用户提供实时计算服务,同时参与区块链共识并获得相应奖励;
13.云层包括云平台,由边缘层中的宏基站将任务调度到云服务器进行任务卸载计算;wban用户通过区块链购买数据处理任务的计算资源,并且由智能合约执行交易,称为交易合约。
14.进一步地,步骤1所述电子健康网络架构中的参数包括整个通信过程的若干时隙t∈{0,1,2,

t-1}、系统带宽b、分发给各个基站的频谱带宽为bk、子信道的带宽w、为wban用户集合、为mec服务器集合、wban用户的位置mec的位置为wban用户n的计算任务、dn表示任务的数据量大小、qn表示任务所需的cpu周期量、kn表示任务优先级、τn表示任务的期望完成时间、平均信道增益h
n,m
(t)、数据速率r
n,m
、任务所需要的时间tn(t)和能耗en(t);
15.(1)当前时隙t,wban用户n和mec服务器m之间平均信道增益h
n,m
如下:
[0016][0017]
其中d
n,m
(t)为当前wban到mec服务器的距离,α为路径损耗指数,h0为参考增益;
[0018]
(2)wbann和mec服务器m之间的数据速率r
n,m
如下:
[0019][0020]
其中n0表示高斯噪声方差,为wbann的固定子载波功率;
[0021]
(3)wban用户n在时刻t完成任务所需要的时间tn(t)为:
[0022][0023]
其中qn表示任务所需的cpu周期量,dn表示任务的数据量大小;rn是当用户n通过边缘层将任务卸载至云层时,mec服务器和云服务器之间的传输速率;ym为mec服务器m的cpu核数,xn是wban用户n的cpu核数;fc表示远程云服务器的计算频率;fu和分别表示wban用户和mec中单核的cpu计算频率,即每秒cpu运行周期数;表示任务处理的返程时间;当on(t)=0时,任务在本地执行,tn就等于本地任务计算时间;当on(t)=1时,任务被卸载到mec服务器,tn为任务卸载时间、mec计算时间和返程时间之和;当on(t)=-1,任务被卸载到远程云服务器,tn为任务卸载到mec服务器时间、任务从mec服务器卸载到云服务器时间和云服务器计算时间;
[0024]
(4)wban的能耗
[0025]
其中e0为cpu能耗系数,on(t)≠0表示wbann任务卸载到mec服务器或云服务器,此时的能耗就是传输能耗;当on(t)=0时,任务在本地执行,其能耗为本地计算能耗。
[0026]
进一步地,步骤2中所述马尔科夫决策问题模型包括状态空间s(t)、动作空间a(t)、奖赏函数r(t),该计算卸载问题视作寻找最优的任务卸载策略π
*
,使得长期累积奖励最大;
[0027]
步骤2-1,计算状态空间如下:
[0028][0029]
其中矩阵表示n个wban的任务集合;矩阵表示所有的wban用户的位置集合;矩阵表示所有wban的剩余任务量,矩阵r=[r
n,m
]n×m来表示mec服务器和wban的通信速率指数集合;矩阵表示mec服务器的剩余能量状态集合;
[0030]
步骤2-2,计算动作空间如下:
[0031]
a(t)={u
n,m
(t),on(t)|n=1,2,

n;m=1,2,

m}
[0032]
其中u
n,m
(t)∈{0,1}表示连接动作,on(t)∈{0,-1,1}表示卸载动作;当u
n,m
=1时,wbann连接到mec服务器m,反之u
n,m
=0;并且只有当u
n,m
=1时,wbann才会将其任务卸载至mec服务器m上;当on(t)=0时,任务在本地执行;而on(t)=1时,任务被卸载到mec服务器;而on(t)=-1时,任务被卸载到远程云服务器;
[0033]
步骤2-3,计算奖赏函数r(t),将时隙t的所有任务成本作为系统的奖励表示如下:
[0034][0035]
其中任务成本cn为任务的处理延迟tn和wban能量消耗en的线性组合,表示此次任务执行所需要的时间成本和能量成本,λ
t
和λe分别为延迟因子和能耗因子。
[0036]
进一步地,步骤3中ddpg算法训练包括以下步骤:
[0037]
步骤3-1,初始化算法参数、wban用户的位置、任务信息和剩余能量;
[0038]
步骤3-2,对决策网络参数训练,在上一训练步中actor主网络的μ输出参数μ(si),添加动作噪声ni获得实际输出动作ai=μ(si)+ni,其中μe和σ
e,i
分别为平均值和标准差;
[0039]
步骤3-3,在多边缘服务器和多wban用户的环境中,智能体选择动作ai,观察下一个状态s
i+1
和即时奖励ri,之后将序列(si,ai,s
i+1
,ri)存储在经验回放池中,判断经验回放池的容量是否已满,若是则执行下一步,否则返回步骤3-2;
[0040]
步骤3-4,通过在经验回放池中选择k个批次大小的序列对actor主网络和critic主网络进行更新,actor目标网络输出μ'(s
i+1
),critic目标网络根据actor目标网络输出进
行计算得到目标值yi;
[0041]
步骤3-5,多训练周期更新决策网络的参数,若用户设备的能量耗尽或者任务结束,则提前终止该训练周期;每个训练周期后判断决策网络的奖赏函数是否收敛,若是则结束训练,否则返回步骤3-4。
[0042]
进一步地,步骤4所述根据训练的决策网络进行计算卸载,具体为:将当前时刻的状态si(t)输入决策网络,输出为动作ai(t),即合适的用户连接策略和任务卸载策略。
[0043]
一种基于ddpg算法的电子健康网络计算卸载系统,所述系统包括:
[0044]
网络构建模块,用于确定电子健康网络架构,初始化网络参数;
[0045]
模型构建模块,用于将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0046]
训练模块,用于采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0047]
卸载模块,用于根据训练得到的决策网络进行计算卸载。
[0048]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0049]
步骤1,确定电子健康网络架构,初始化网络参数;
[0050]
步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0051]
步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0052]
步骤4,根据训练得到的决策网络进行计算卸载。
[0053]
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0054]
步骤1,确定电子健康网络架构,初始化网络参数;
[0055]
步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0056]
步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0057]
步骤4,根据训练得到的决策网络进行计算卸载。
[0058]
本发明与现有技术相比,其显著优点为:1)可以合理分配卸载过程中的通信和计算资源,使得系统中的任务执行时间和能耗最低;2)在边缘网络的任务卸载问题上应用ddpg算法可以使策略优化效率更高,且求得最优解的速率更快。
[0059]
下面结合附图对本发明作进一步详细描述。
附图说明
[0060]
图1为本发明基于ddpg算法的电子健康网络计算卸载方法流程图。
[0061]
图2为本发明实施例中电子健康网络架构图。
[0062]
图3为本发明实施例中不同方案下对任务成本的比较图。
具体实施方式
[0063]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0064]
在一个实施例中,结合图1,提供了基于ddpg算法的电子健康网络计算卸载方法,所述方法包括以下步骤:
[0065]
步骤1,确定电子健康网络架构,初始化网络参数;
[0066]
步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0067]
步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0068]
步骤4,根据训练得到的决策网络进行计算卸载。
[0069]
进一步地,在其中一个实施例中,步骤1中所述支持区块链交易的电子健康网络架构分为3个层次:用户层、边缘层和云层;用户层由n个移动终端设备无线体域网wban用户构成,wban是用于收集健康数据的可穿戴传感器设备。wban用户除了可以在本地进行任务计算,也可以将部分任务卸载到多路访问边缘计算mec服务器或者云服务器执行;边缘层由宏基站和m个mec服务器组成,其中宏基站中控制器模块可以实现对系统网络的各种控制功能,如连接策略、卸载策略。宏基站还能与云平台中的服务器进行数据通信连接。网络中的mec服务器通常放置在路侧小型基站附近,使之具有一定的无线通信能力。mec服务器具有足够的计算资源,并且具有高频cpu核和大存储容量,能为wban用户提供实时计算服务。云层中的云平台具有比mec服务器更大的计算能力,由边缘层中的宏基站将任务调度到云服务器进行任务卸载计算。
[0070]
进一步地,在其中一个实施例中,步骤1所述电子健康网络架构中的参数包括整个通信过程的若干时隙t∈{0,1,2,

t-1}、系统带宽b、分发给各个基站的频谱带宽为bk、子信道的带宽w、为wban用户集合、为mec服务器集合、wban用户的位置mec的位置mec的位置为wban用户n的计算任务、dn表示任务的数据量大小、qn表示任务所需的cpu周期量、kn表示任务优先级、τn表示任务的期望完成时间、平均信道增益h
n,m
(t)、数据速率r
n,m
、任务所需要的时间tn(t)和能耗en(t);
[0071]
(1)当前时隙t,wban用户n和mec服务器m之间平均信道增益h
n,m
如下:
[0072][0073]
其中d
n,m
(t)为当前wban到mec服务器的距离,α为路径损耗指数,h0为参考增益;
[0074]
(2)wbann和mec服务器m之间的数据速率r
n,m
如下:
[0075][0076]
其中n0表示高斯噪声方差,为wbann的固定子载波功率;
[0077]
(3)wban用户n在时刻t完成任务所需要的时间tn(t)为:
[0078][0079]
其中qn表示任务所需的cpu周期量,dn表示任务的数据量大小;rn是当用户n通过边缘层将任务卸载至云层时,mec服务器和云服务器之间的传输速率;ym为mec服务器m的cpu核数,xn是wban用户n的cpu核数;fc表示远程云服务器的计算频率;fu和分别表示wban用户和mec中单核的cpu计算频率,即每秒cpu运行周期数;表示任务处理的返程时间;当on(t)=0时,任务在本地执行,tn就等于本地任务计算时间;当on(t)=1时,任务被卸载到mec服务器,tn为任务卸载时间、mec计算时间和返程时间之和;当on(t)=-1,任务被卸载到远程云服务器,tn为任务卸载到mec服务器时间、任务从mec服务器卸载到云服务器时间和云服务器计算时间;
[0080]
(4)wban的能耗
[0081]
其中e0为cpu能耗系数,on(t)≠0表示wbann任务卸载到mec服务器或云服务器,此时的能耗就是传输能耗;当on(t)=0时,任务在本地执行,其能耗为本地计算能耗。
[0082]
进一步地,在其中一个实施例中,步骤2中所述马尔科夫决策问题模型包括状态空间s(t)、动作空间a(t)、奖赏函数r(t),该计算卸载问题视作寻找最优的任务卸载策略π
*
,使得长期累积奖励最大;
[0083]
步骤2-1,计算状态空间如下:
[0084][0085]
其中矩阵表示n个wban的任务集合;矩阵表示所有的wban用户的位置集合;矩阵表示所有wban的剩余任务量,矩阵r=[r
n,m
]n×m来表示mec服务器和wban的通信速率指数集合;矩阵表示mec服务器的剩余能量状态集合;
[0086]
步骤2-2,计算动作空间如下:
[0087]
a(t)={u
n,m
(t),on(t)|n=1,2,

n;m=1,2,

m}
[0088]
其中u
n,m
(t)∈{0,1}表示连接动作,on(t)∈{0,-1,1}表示卸载动作;当u
n,m
=1时,wbann连接到mec服务器m,反之u
n,m
=0;并且只有当u
n,m
=1时,wbann才会将其任务卸载至mec服务器m上;当on(t)=0时,任务在本地执行;而on(t)=1时,任务被卸载到mec服务器;而on(t)=-1时,任务被卸载到远程云服务器;
[0089]
步骤2-3,计算奖赏函数r(t),边缘网络任务卸载问题目标是通过有效利用网络通信和计算资源,从而最小化wban用户的总体执行时间和能量。即需要在给定的状态s(t)下,
选取连接、卸载动作,使得系统性能最优。将时隙t的所有任务成本作为系统的奖励表示如下:
[0090][0091]
其中任务成本cn为任务的处理延迟tn和wban能量消耗en的线性组合,表示此次任务执行所需要的时间成本和能量成本,λ
t
和λe分别为延迟因子和能耗因子。
[0092]
进一步地,在其中一个实施例中,步骤3中ddpg算法训练包括以下步骤:
[0093]
步骤3-1,初始化算法参数、wban用户的位置、任务信息和剩余能量;
[0094]
步骤3-2,对决策网络参数训练,在上一训练步中actor主网络的μ输出参数μ(si),因为ddpg算法是离线学习策略,为了更有效的动作空间探索,添加动作噪声ni获得实际输出动作ai=μ(si)+ni,其中μe和σ
e,i
分别为平均值和标准差;
[0095]
步骤3-3,在多边缘服务器和多wban用户的环境中,智能体选择动作ai,观察下一个状态s
i+1
和即时奖励ri,之后将序列(si,ai,s
i+1
,ri)存储在经验回放池中,判断经验回放池的容量是否已满,若是则执行下一步,否则返回步骤3-2;
[0096]
步骤3-4,通过在经验回放池中选择k个批次大小的序列对actor主网络和critic主网络进行更新,actor目标网络输出μ'(s
i+1
),critic目标网络根据actor目标网络输出进行计算得到目标值yi;
[0097]
步骤3-5,多训练周期更新决策网络的参数,若用户设备的能量耗尽或者任务结束,则提前终止该训练周期;每个训练周期后判断决策网络的奖赏函数是否收敛,若是则结束训练,否则返回步骤3-4。
[0098]
进一步地,在其中一个实施例中,步骤4所述根据训练的决策网络进行计算卸载,具体为:将当前时刻的状态si(t)输入决策网络,输出为动作ai(t),即合适的用户连接策略和任务卸载策略。
[0099]
在一个实施例中,提供了一种基于ddpg算法的电子健康网络计算卸载系统,所述系统包括:
[0100]
网络构建模块,用于确定电子健康网络架构,初始化网络参数;
[0101]
模型构建模块,用于将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0102]
训练模块,用于采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0103]
卸载模块,用于根据训练得到的决策网络进行计算卸载。
[0104]
关于基于ddpg算法的电子健康网络计算卸载系统的具体限定可以参见上文中对于基于ddpg算法的电子健康网络计算卸载方法的限定,在此不再赘述。上述基于ddpg算法的电子健康网络计算卸载系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0105]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上
并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0106]
步骤1,确定电子健康网络架构,初始化网络参数;
[0107]
步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0108]
步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0109]
步骤4,根据训练得到的决策网络进行计算卸载。
[0110]
关于每一步的具体限定可以参见上文中对于基于ddpg算法的电子健康网络计算卸载方法的限定,在此不再赘述。
[0111]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0112]
步骤1,确定电子健康网络架构,初始化网络参数;
[0113]
步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;
[0114]
步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;
[0115]
步骤4,根据训练得到的决策网络进行计算卸载。
[0116]
关于每一步的具体限定可以参见上文中对于基于ddpg算法的电子健康网络计算卸载的限定,在此不再赘述。
[0117]
作为一个具体示例,在其中一个实施例中,对本发明进行进一步验证说明。
[0118]
按图2的架构建立一个电子健康网络,在500m
×
500m的空间中随机确定wban用户n=100和mec边缘服务器m=10的位置,其中wban用户位置服从rgmm模型移动,mec服务器的位置是固定的。wban用户的发送功率为1w,加性高斯白噪声功率为n0=-100dbm,信道参考增益h0=10-4
,路径损耗指数设置为α=2。上行的任务数据大小dn遵循1~10mb之间的均匀分布,返程数据量通常很小忽略不计。任务优先级kn遵循1~7之间的均匀分布。单位任务需要的cpu周期数qn为1000~10000。
[0119]
根据步骤2对实施例中计算卸载问题的状态s(t)、动作a(t)、奖赏函数r(t)进行建模,然后根据步骤3采用ddpg算法训练决策网络。ddpg算法中参数设置为:经验回忆池的容量设计为d=10000,经验样本k=64,折扣因子γ=0.001,actor和critic的学习率lra和lrc分别为0.001和0.002。
[0120]
在训练阶段,计算每次传输的系统状态向量,包括任务集合位置集合剩余任务量和剩余能量状态集合将其输入决策网络,输出为合适的用户连接和卸载策略,记录状态、动作及奖赏值并放入经验回忆池dn,当dn容量已满时,随机对其中的经验样本取代并取样最小批次的经验样本,计算目标q值,根据梯度法对决策网络进行参数更新,记录平均奖励直到任务结束。
[0121]
图3为本实施例在不同方案下对任务成本的比较图,分别是本地执行策略、随机执行策略、ac学习策略和ddpg学习策略。深度网络算法总共训练300episodes。在边缘网络的任务卸载问题中,本地执行策略所要消耗的成本始终远大于其他3种策略。在初期,随机策略所消耗的成本与学习策略(ddpg、ac)算法基本一致,由此看出该种卸载策略算法不能有
效地利用计算和通信资源,导致消耗成本高于学习策略算法。类似于ddpg,ac算法的框架由策略梯度算法和值函数估计组成。从图中可以看出,ac随着训练周期数的增加却不能收敛,而ddpg则在150episodes附近实现收敛。这是因为ac中的critic网络本身难以收敛,若是再和actor网络一起更新,则会更加难以收敛;而ddpg是采用评估网络和目标网络的双网络结构,能减少数据的关联性,充分探索动作空间,得到接近最优的连接策略和卸载策略。
[0122]
综上所述,本发明方法能够合理的对通信和计算资源进行分配,解决了移动设备本地计算资源受限的问题。本发明方法能够显著地减少系统的时延和能耗,可以广泛应用在居家医疗、运动健身、疾病防控和医疗监测等场合中。
[0123]
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

技术特征:
1.一种基于ddpg算法的电子健康网络计算卸载方法,其特征在于,所述方法包括以下步骤:步骤1,确定电子健康网络架构,初始化网络参数;步骤2,将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;步骤3,采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;步骤4,根据训练得到的决策网络进行计算卸载。2.根据权利要求1所述的基于ddpg算法的电子健康网络计算卸载方法,其特征在于,步骤1中所述支持区块链交易的电子健康网络架构分为3个层次:用户层、边缘层和云层;所述用户层包括n个移动终端设备无线体域网wban用户,wban用于收集健康数据的可穿戴传感器设备;wban用户需要向区块链网络注册,通过一个区块链账号作为加入区块链网络的唯一的标识,成为合法的参与者;wban用户可在本地进行任务计算,也可将部分任务卸载到多路访问边缘计算mec服务器或者云服务器执行;所述边缘层包括宏基站和m个mec服务器,其中宏基站中控制器模块实现对系统网络的各种控制功能,包括哈希资源分配策略、通信连接策略和任务卸载策略;宏基站用于对区块链网络进行监控,mec服务器为wban用户提供实时计算服务,同时参与区块链共识并获得相应奖励;云层包括云平台,由边缘层中的宏基站将任务调度到云服务器进行任务卸载计算;wban用户通过区块链购买数据处理任务的计算资源,并且由智能合约执行交易,称为交易合约。3.根据权利要求1或2所述的基于ddpg算法的电子健康网络计算卸载方法,其特征在于,步骤1所述电子健康网络架构中的参数包括整个通信过程的若干时隙t∈{0,1,2,

t-1}、系统带宽b、分发给各个基站的频谱带宽为b
k
、子信道的带宽w、为wban用户集合、为mec服务器集合、wban用户的位置mec的位置为wban用户n的计算任务、d
n
表示任务的数据量大小、q
n
表示任务所需的cpu周期量、k
n
表示任务优先级、τ
n
表示任务的期望完成时间、平均信道增益h
n,m
(t)、数据速率r
n,m
、任务所需要的时间t
n
(t)和能耗e
n
(t);(1)当前时隙t,wban用户n和mec服务器m之间平均信道增益h
n,m
如下:其中d
n,m
(t)为当前wban到mec服务器的距离,α为路径损耗指数,h0为参考增益;(2)wbann和mec服务器m之间的数据速率r
n,m
如下:其中n0表示高斯噪声方差,为wbann的固定子载波功率;(3)wban用户n在时刻t完成任务所需要的时间t
n
(t)为:
其中q
n
表示任务所需的cpu周期量,d
n
表示任务的数据量大小;r
n
是当用户n通过边缘层将任务卸载至云层时,mec服务器和云服务器之间的传输速率;y
m
为mec服务器m的cpu核数,x
n
是wban用户n的cpu核数;f
c
表示远程云服务器的计算频率;f
u
和f
sm
分别表示wban用户和mec中单核的cpu计算频率,即每秒cpu运行周期数;表示任务处理的返程时间;当o
n
(t)=0时,任务在本地执行,t
n
就等于本地任务计算时间;当o
n
(t)=1时,任务被卸载到mec服务器,t
n
为任务卸载时间、mec计算时间和返程时间之和;当o
n
(t)=-1,任务被卸载到远程云服务器,t
n
为任务卸载到mec服务器时间、任务从mec服务器卸载到云服务器时间和云服务器计算时间;(4)wban的能耗其中e0为cpu能耗系数,o
n
(t)≠0表示wbann任务卸载到mec服务器或云服务器,此时的能耗就是传输能耗;当o
n
(t)=0时,任务在本地执行,其能耗为本地计算能耗。4.根据权利要求3所述的基于ddpg算法的电子健康网络计算卸载方法,其特征在于,步骤2中所述马尔科夫决策问题模型包括状态空间s(t)、动作空间a(t)、奖赏函数r(t),该计算卸载问题视作寻找最优的任务卸载策略π
*
,使得长期累积奖励最大;步骤2-1,计算状态空间如下:其中矩阵表示n个wban的任务集合;矩阵表示所有的wban用户的位置集合;矩阵表示所有wban的剩余任务量,矩阵r=[r
n,m
]
n
×
m
来表示mec服务器和wban的通信速率指数集合;矩阵表示mec服务器的剩余能量状态集合;步骤2-2,计算动作空间如下:a(t)={u
n,m
(t),o
n
(t)|n=1,2,

n;m=1,2,

m}其中u
n,m
(t)∈{0,1}表示连接动作,o
n
(t)∈{0,-1,1}表示卸载动作;当u
n,m
=1时,wbann连接到mec服务器m,反之u
n,m
=0;并且只有当u
n,m
=1时,wbann才会将其任务卸载至mec服务器m上;当o
n
(t)=0时,任务在本地执行;而o
n
(t)=1时,任务被卸载到mec服务器;而o
n
(t)=-1时,任务被卸载到远程云服务器;步骤2-3,计算奖赏函数r(t),将时隙t的所有任务成本作为系统的奖励表示如下:
其中任务成本c
n
为任务的处理延迟t
n
和wban能量消耗e
n
的线性组合,表示此次任务执行所需要的时间成本和能量成本,λ
t
和λ
e
分别为延迟因子和能耗因子。5.根据权利要求4所述的基于ddpg算法的电子健康网络区块链共识方法,其特征在于,步骤3中ddpg算法训练包括以下步骤:步骤3-1,初始化算法参数、wban用户的位置、任务信息和剩余能量;步骤3-2,对决策网络参数训练,在上一训练步中actor主网络的μ输出参数μ(s
i
),添加动作噪声n
i
获得实际输出动作a
i
=μ(s
i
)+n
i
,其中μ
e
和σ
e,i
分别为平均值和标准差;步骤3-3,在多边缘服务器和多wban用户的环境中,智能体选择动作a
i
,观察下一个状态s
i+1
和即时奖励r
i
,之后将序列(s
i
,a
i
,s
i+1
,r
i
)存储在经验回放池中,判断经验回放池的容量是否已满,若是则执行下一步,否则返回步骤3-2;步骤3-4,通过在经验回放池中选择k个批次大小的序列对actor主网络和critic主网络进行更新,actor目标网络输出μ'(s
i+1
),critic目标网络根据actor目标网络输出进行计算得到目标值y
i
;步骤3-5,多训练周期更新决策网络的参数,若用户设备的能量耗尽或者任务结束,则提前终止该训练周期;每个训练周期后判断决策网络的奖赏函数是否收敛,若是则结束训练,否则返回步骤3-4。6.根据权利要求5所述的基于ddpg算法的电子健康网络区块链共识方法,其特征在于,步骤4所述根据训练的决策网络进行计算卸载,具体为:将当前时刻的状态s
i
(t)输入决策网络,输出为动作a
i
(t),即合适的用户连接策略和任务卸载策略。7.一种基于ddpg算法的电子健康网络计算卸载系统,其特征在于,所述系统包括:网络构建模块,用于确定电子健康网络架构,初始化网络参数;模型构建模块,用于将计算卸载问题转化为马尔科夫决策问题,确定马尔科夫决策模型中的状态空间、动作空间和奖赏函数;训练模块,用于采用深度确定性策略梯度ddpg算法对计算卸载问题进行训练,更新网络参数,直至整个运行期间的奖赏函数收敛,输出训练得到的决策网络;卸载模块,用于根据训练得到的决策网络进行计算卸载。8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结
本发明公开了一种基于DDPG算法的电子健康网络计算卸载方法。该方法包括:确定电子健康网络架构,初始化必要的网络参数;然后将寻找最优的计算卸载策略问题转化为马尔科夫决策问题;最后采用DDPG算法对计算卸载模型进行训练,得到通信连接和卸载策略,使得各个用户在动态环境下获得合适的通信资源和计算资源。本发明不仅解决了移动设备本地计算资源受限的问题,在多WBAN用户多MEC的场景下还能显著地减少系统的时延和能耗,可以广泛应用在居家医疗、运动健身、疾病防控和医疗监测等场合中。疾病防控和医疗监测等场合中。疾病防控和医疗监测等场合中。


技术研发人员:吴守林 杨妮 周琪林 林高尚 王力立 黄成 张永 单梁
受保护的技术使用者:南京理工大学
技术研发日:2022.03.07
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐