一种基于马尔科夫判决的准时信息系统数据调度方法
未命名
07-14
阅读:117
评论:0

1.本发明属于电子通讯方法领域,具体涉及一种基于马尔科夫判决的准时信息系统数据调度方法。
背景技术:
2.随着工业互联网技术、5g通信和物联网(iot)技术的快速发展,数十亿甚至数万亿个智能对象已连接到互联网,以实现物理世界与数字世界之间的高效交互。一方面,工业机器终端通信(包括视频流)的激增导致更多的网络拥塞和数据包延迟。另一方面,工业传感和控制、远程手术和自动驾驶等应用要求端到端延迟不超过10毫秒,抖动不超过几毫秒。此外,工业互联网的传感器、执行器和控制器之间的通信应以1到10毫秒的确定延迟完成,即应按时完成。因此,如何及时、甚至准时地传递信息,已成为现代有线和无线通信的最大挑战。
技术实现要素:
3.本发明的目的在于提供一种基于马尔科夫判决的准时信息系统数据调度方法,通过延迟、并行传输、中断策略及其优化组合实现对数据流的调度,有效提高衰落信道下系统的准时接收率。
4.为达到上述目的,本发明所采用的技术方案是:
5.本发明第一方面提供了一种基于马尔科夫判决的准时信息系统数据调度方法,包括:
6.设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;
7.采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;
8.基于准时数据通信系统构建马尔科夫决策模型;初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略。
9.优选的,设定数据包的目标接收范围的方法包括:
10.设定准时数据通信系统中的目标节点接收第m个数据包的目标接收范围为{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ},当准时数据通信系统中的目标节点在{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ}中接收到第m个数据包,记为第m个数据包准时接收。
11.优选的,基于准时数据通信系统构建马尔科夫决策模型的包括:
12.基于准时数据通信系统设置马尔可夫决策模型的参数;
13.基于准时数据通信系统中数据包的准时接收问题设置马尔可夫决策模型的目标函数;
14.计算马尔可夫决策过程模型中采取各种调度策略的状态转移概率以及状态转移
概率矩阵;计算马尔科夫决策模型中采取各种调度策略的奖励函数以及奖励函数矩阵。
15.优选的,计算马尔可夫决策过程模型中采取各种调度策略的状态转移概率的方法包括:
16.随机传输的状态转移概率为:
[0017][0018]
延迟策略的状态转移概率为:
[0019][0020]
如果i≤1+δ,并行传输策略的状态转移概率为:
[0021][0022]
如果i>1+δ,并行传输策略的状态转移概率为:
[0023][0024]
其中y=i-j+t
tgt
;
[0025]
如果i≤-δ,中断策略的转移概率为:
[0026][0027]
如果i>-δ,中断策略的转移概率为:
[0028][0029]
公式中,p表示为接收机能够从接收信号解码分组的概率;t
tgt
表示为接收机预设接收数据的目标时隙序列;δ表示为偏差容限;nd表示为数据包延迟的时隙数量;p
ij
表示为随机传输的状态转移概率;q
ij
表示为并行传输策略的状态转移概率;o
ij
表示为中断策略的转移概率。
[0030]
优选的,计算马尔科夫决策模型中采取各种调度策略的奖励函数的方法包括:
[0031]
随机传输的奖励函数r(i),表达公式为:
[0032][0033]
延迟策略的奖励函数设为r
l
(i,nd),表达公式为:
[0034][0035]
并行传输策略的奖励函数设为r
p
(i),表达公式为:
[0036][0037]
中断策略的奖励函数设为rb(i),表达公式为:
[0038][0039]
优选的,通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略的方法包括:
[0040]
通过矩阵迭代算法得到每个调度策略的奖励函数向量,通过奖励函数向量计算状态对应的奖励值;寻找对应每个状态的最大奖励以及对应的行动调度策略,得到更新的奖励函数向量与最优调度策略向量;重复迭代直至奖励函数向量中对应每个状态的奖励值收敛,获得准时数据通信系统的最优调度策略。
[0041]
优选的,寻找对应每个状态的最大奖励以及对应的行动调度策略的方法包括:
[0042]
对于数据包的传输中,寻求使得在任意状态下得到的奖励值最大化的调度策略,表达公式为:
[0043][0044]
公式中,sm表示为第m个数据包的状态,am表示为第m个数据包采取的调度策略,r(sm,am)表示为在状态sm下采取调度策略am的奖励函数;α表示为折扣因子;m为传输数据包的数量。
[0045]
本发明第二方面提供了一种基于马尔科夫判决的准时信息系统数据调度系统,包
括:
[0046]
输入模块,用于设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;
[0047]
采集模块,用于采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;
[0048]
模型构建模块,用于基于准时数据通信系统构建马尔科夫决策模型;
[0049]
训练模块,用于初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略。
[0050]
本发明第三方面提供了计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现所述准时信息系统数据调度方法的步骤。
[0051]
与现有技术相比,本发明的有益效果:
[0052]
本发明初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略;通过延迟、并行传输、中断策略及其优化组合实现对数据流的调度,有效提高衰落信道下系统的准时接收率。
附图说明
[0053]
图1是本发明实施例提供的准时信息系统数据调度方法的流程图;
[0054]
图2是本发明实施例提供的准时信息系统数据调度方法的仿真效果图。
具体实施方式
[0055]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0056]
在通信系统中,信息接收机在接收信噪比ρn大于设定阈值v
t
时才能成功解码接收信号中的数据包。否则,数据包无法解码,应在下一个时隙中重新传输。将接收机能够从接收信号解码分组的概率表示为p,则在衰落信道上成功传输数据包的传输时间t服从参数为p的几何分布并且有
[0057]
pr{t=j}=p(1-p)
j-1
,j=1,2,
…
[0058]
记接收机预设接收数据的目标时隙序列为{t
tgt
,2t
tgt
,3t
tgt
,
…
}。
[0059]
实施例一
[0060]
如图1所示,本发明第一方面提供了一种基于马尔科夫判决的准时信息系统数据调度方法,包括:
[0061]
设定准时数据通信系统中的目标节点接收第m个数据包的目标接收范围为{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ},当准时数据通信系统中的目标节点在{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ}中接收到第m个数据包,记为第m个数据包准时接收;设定数据包的目标接收时刻为mt
tgt
,目标接收间隔为t
tgt
以及偏差容限为δ;
[0062]
发射机生成数据包的方式为第(m+1)个数据包将会在第m个数据包传输完成后立即生成并进行传输,而不管第(m+1)个数据包是何时生成的,它的目标接收时刻都为(m+1)
t
tgt
。
[0063]
记准时数据通信系统传输的数据包数量为m个,被准时接收的数据包数量为n个,定义准时数据通信系统的准时接收率为:
[0064][0065]
将准时数据通信系统的状态设为数据包开始传输的时刻与该数据包的目标接收时刻之间的差值,记数据包当前的状态为sm=i,下一个状态为s
m+1
=j,采集准时数据通信系统的状态构建状态集合,所述状态集合记为s,采集准时数据通信系统的调度策略构建动作集合,所述动作集合记为a;所述动作集合中的调度策略包括:数据包在开始传输的时刻发送(随机传输)、将数据包延迟nd个时隙再进行传输(延迟策略,nd=0时表示随机传输)、将数据包同时在两个信道中进行传输(并行传输策略)、或当数据包的传输时刻超过准时接收范围时中断数据包的传输(中断策略);以a表示为准时数据通信系统的调度策略。
[0066]
基于准时数据通信系统构建马尔科夫决策模型的包括:
[0067]
基于准时数据通信系统设置马尔可夫决策模型的参数;基于准时数据通信系统中数据包的准时接收问题设置马尔可夫决策模型的目标函数;
[0068]
计算马尔可夫决策过程模型中采取各种调度策略的状态转移概率的方法包括:
[0069]
随机传输的状态转移概率为:
[0070][0071]
延迟策略的状态转移概率为:
[0072][0073]
如果i≤1+δ,并行传输策略的状态转移概率为:
[0074][0075]
如果i>1+δ,并行传输策略的状态转移概率为:
[0076][0077]
其中y=i-j+t
tgt
;
[0078]
如果i≤-δ,中断策略的转移概率为:
[0079]
[0080]
如果i>-δ,中断策略的转移概率为:
[0081][0082]
公式中,p表示为接收机能够从接收信号解码分组的概率;t
tgt
表示为接收机预设接收数据的目标时隙序列;δ表示为偏差容限;nd表示为数据包延迟的时隙数量;p
ij
表示为随机传输的状态转移概率;q
ij
表示为并行传输策略的状态转移概率;o
ij
表示为中断策略的转移概率。
[0083]
延迟策略的状态转移概率矩阵用p
l
=[p
ij
(nd)]表示,并行传输策略的状态转移概率矩阵用p
p
=[q
ij
]表示,中断策略的状态转移概率矩阵用pb=[o
ij
]表示;状态转移概率矩阵p
l
是三维矩阵,第一维和第二维表示系统状态转移前和状态转移后的状态,第三维表示延迟的时隙个数nd。
[0084]
计算马尔科夫决策模型中采取各种调度策略的奖励函数的方法包括:
[0085]
随机传输的奖励函数r(i),表达公式为:
[0086][0087]
延迟策略的奖励函数设为r
l
(i,nd),表达公式为:
[0088][0089]
并行传输策略的奖励函数设为r
p
(i),表达公式为:
[0090][0091]
中断策略的奖励函数设为rb(i),表达公式为:
[0092]
[0093]
延迟策略、并行传输策略和中断策略的奖励函数矩阵分别用r
l
,r
p
,rb表示,其中r
l
是二维矩阵,第一维表示系统当前的状态,第二维表示延迟的时隙个数nd。
[0094]
状态限制在一个有限的范围内,即状态集合s=[t
min
,t
max
],包含所有状态的奖励函数向量v
α
=[v
α
(t
min
),v
α
(t
min
+1),
…
,v
α
(t
max
)]
t
。
[0095]
初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略的方法包括:
[0096]
通过矩阵迭代算法得到每个调度策略的奖励函数向量,通过奖励函数向量计算状态对应的奖励值;
[0097]
寻求使得在任意状态下得到的奖励值最大化的调度策略的具体步骤包括:
[0098]
对于奖励函数向量va,采取一次调度策略,即延迟策略(对于所有的时隙个数nd)、并行传输策略、中断策略、得到的奖励分别为:
[0099]fl
=r
l
+αp
lvα
[0100]fp
=r
p
+αp
pvα
[0101]
fb=rb+αp
bvα
[0102]
当nd=0时,对应的延迟策略表示随机传输,对于准时数据通信系统的每一个状态i,可得到采取每一个行动的奖励。
[0103]
通过寻找内的最大值我们可以得到状态i下的最大奖励以及对应的最优调度策略,得到更新的奖励函数向量与最优调度策略向量;
[0104]
其中,寻求使得在任意状态下得到的奖励值最大化的调度策略,表达公式为:
[0105][0106]
公式中,sm表示为第m个数据包的状态,am表示为第m个数据包采取的调度策略,r(sm,am)表示为在状态sm下采取调度策略am的奖励函数;α表示为折扣因子;m为传输数据包的数量。
[0107]
若为延迟策略,则会确定延迟的时隙数nd的值,若为并行传输策略或中断策略,则不需要确定额外的参数。重复迭代直至奖励函数向量中对应每个状态的奖励值收敛,获得准时数据通信系统的最优调度策略。
[0108]
实施例二
[0109]
如图1和图2所示,一种基于马尔科夫判决的准时信息系统数据调度系统,本实施例提供的系统可以应用于实施例一所述的方法,准时信息系统数据调度系统包括:
[0110]
输入模块,用于设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;
[0111]
采集模块,用于采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;
[0112]
模型构建模块,用于基于准时数据通信系统构建马尔科夫决策模型;
[0113]
训练模块,用于初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过
状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略。
[0114]
实施例三
[0115]
本发明第三方面提供了计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述准时信息系统数据调度方法的步骤。
[0116]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0117]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0118]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0119]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0120]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
技术特征:
1.一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,包括:设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;基于准时数据通信系统构建马尔科夫决策模型;初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略。2.根据权利要求1所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,设定数据包的目标接收范围的方法包括:设定准时数据通信系统中的目标节点接收第m个数据包的目标接收范围为{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ},当准时数据通信系统中的目标节点在{mt
tgt-δ,mt
tgt-δ+1,
…
,mt
tgt
+δ}中接收到第m个数据包,记为第m个数据包准时接收。3.根据权利要求1所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,基于准时数据通信系统构建马尔科夫决策模型的包括:基于准时数据通信系统设置马尔可夫决策模型的参数;基于准时数据通信系统中数据包的准时接收问题设置马尔可夫决策模型的目标函数;计算马尔可夫决策过程模型中采取各种调度策略的状态转移概率以及状态转移概率矩阵;计算马尔科夫决策模型中采取各种调度策略的奖励函数以及奖励函数矩阵。4.根据权利要求3所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,计算马尔可夫决策过程模型中采取各种调度策略的状态转移概率的方法包括:随机传输的状态转移概率为:延迟策略的状态转移概率为:如果i≤1+δ,并行传输策略的状态转移概率为:如果i>1+δ,并行传输策略的状态转移概率为:
其中y=i-j+t
tgt
;如果i≤-δ,中断策略的转移概率为:如果i>-δ,中断策略的转移概率为:公式中,p表示为接收机能够从接收信号解码分组的概率;t
tgt
表示为接收机预设接收数据的目标时隙序列;δ表示为偏差容限;n
d
表示为数据包延迟的时隙数量;p
ij
表示为随机传输的状态转移概率;q
ij
表示为并行传输策略的状态转移概率;o
ij
表示为中断策略的转移概率。5.根据权利要求4所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,计算马尔科夫决策模型中采取各种调度策略的奖励函数的方法包括:随机传输的奖励函数r(i),表达公式为:延迟策略的奖励函数设为r
l
(i,n
d
),表达公式为:并行传输策略的奖励函数设为r
p
(i),表达公式为:中断策略的奖励函数设为r
b
(i),表达公式为:
6.根据权利要求1所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略的方法包括:通过矩阵迭代算法得到每个调度策略的奖励函数向量,通过奖励函数向量计算状态对应的奖励值;寻找对应每个状态的最大奖励以及对应的行动调度策略,得到更新的奖励函数向量与最优调度策略向量;重复迭代直至奖励函数向量中对应每个状态的奖励值收敛,获得准时数据通信系统的最优调度策略。7.根据权利要求6所述的一种基于马尔科夫判决的准时信息系统数据调度方法,其特征在于,寻找对应每个状态的最大奖励以及对应的行动调度策略的方法包括:对于数据包的传输中,寻求使得在任意状态下得到的奖励值最大化的调度策略,表达公式为:公式中,s
m
表示为第m个数据包的状态,a
m
表示为第m个数据包采取的调度策略,r(s
m
,a
m
)表示为在状态s
m
下采取调度策略a
m
的奖励函数;α表示为折扣因子;m为传输数据包的数量。8.一种基于马尔科夫判决的准时信息系统数据调度系统,其特征在于,包括:输入模块,用于设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;采集模块,用于采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;模型构建模块,用于基于准时数据通信系统构建马尔科夫决策模型;训练模块,用于初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略。9.计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至权利要求7任一项所述准时信息系统数据调度方法的步骤。
技术总结
本发明公开了电子通讯领域的一种基于马尔科夫判决的准时信息系统数据调度方法,包括:设定数据包的目标接收范围、目标接收时刻、目标接收间隔、偏差容限以及系统的准时接收率;采集准时数据通信系统的状态构建状态集合,采集准时数据通信系统的调度策略构建动作集合;基于准时数据通信系统构建马尔科夫决策模型;初始化马尔科夫决策模型的奖励函数向量与调度策略向量;通过状态集合和动作集合对奖励函数向量与调度策略向量进行迭代更新,选取准时数据通信系统的最优调度策略;通过延迟、并行传输、中断策略及其优化组合实现对数据流的调度,有效提高衰落信道下系统的准时接收率。率。率。
技术研发人员:董云泉 李岩
受保护的技术使用者:南京信息工程大学
技术研发日:2023.02.13
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/