一种基于智能体交互深度强化学习的室内定位方法与流程

未命名 09-17 阅读:178 评论:0


1.本发明属于室内定位技术领域,具体涉及一种基于智能体交互深度强化学习的室内定位方法。


背景技术:

2.近年来,随着物联网技术的发展,各种基于智能终端设备的个性化服务层出不穷,尤其是以位置服务为基础(lbss)的服务需求不断增长,而其中室内环境下的位置服务也是受到了越来越多的关注与研究。
3.像北斗、gps、gnss这样传统的室外位置服务技术应用到室内环境中会存在诸多问题,如室内环境的信号弱度通常比室外弱,这会影响定位精度;室内定位需要通过物理障碍,因此其信号会受到干扰;室内环境存在多径效应;遮挡问题;室内环境通常有大量的电子设备,如手机、笔记本电脑等,这可能对定位信号造成干扰;算法适应性问题,室外定位技术通常基于gps和全球定位系统,但这些算法在室内环境下并不适用,室内环境需要更高精度的定位方法,例如wi-fi定位、蓝牙定位等。因此,在室内环境中使用室外定位技术可能导致定位精度不够高,无法满足室内环境的定位需求;此外,室外定位技术的设备成本较高,不太适合室内环境。
4.总之,在室内环境中使用室外定位技术存在很多问题,因此专门针对室内环境的定位技术是更加理想的选择。例如,基于rssi指纹信号的室内定位技术因其价格低廉、不受室内复杂环境的影响以及无需携带繁杂的传感设备的优势,可以广泛应用于各种室内环境,被众多学者关注。
5.在室内定位领域,rss指纹是一种常用的技术,可以通过采集一定数量的rss信号和位置信息建立rss指纹数据库,然后在需要定位的时候通过当前位置的rss值与数据库进行匹配定位。然而,rss信号在室内环境中容易受到干扰和衰减,导致定位误差较大。同时,室内环境中存在复杂的障碍物和多个rss信号源,这些因素都会影响rss信号的强度和分布。并且,基于信号强度rss的指纹室内定位技术通常需要事先构建带标签的指纹数据库,需要对环境划分网格后并对采集到的rss指纹信息人工打上标签,这一过程需要花费的时间成本和人力成本是巨大的。
6.近年来,随着人工智能技术的发展,强化学习在室内定位领域的应用日益增多,基于强化学习的室内定位也成为了一种新兴的定位技术。它具有以下几个方面的优势:1.高精度:强化学习算法能够在不断地学习过程中,通过改变策略来适应室内环境的复杂性,从而提高定位的精度;2.自适应性:基于强化学习的定位系统可以根据室内环境的不断变化来自动调整策略,以提高定位效果;3.鲁棒性:强化学习算法可以适应环境中的干扰,如强干扰、遮挡等,提高室内定位的鲁棒性;4.智能性:强化学习算法可以通过不断学习,提高室内定位系统的智能水平,使其能够在复杂环境中进行定位。


技术实现要素:

7.本发明的目的是为了提高室内定位精度,因此结合多智能体技术和深度强化学习算法来提高非参数化室内定位精度,从而提出一种基于智能体交互深度强化学习的室内定位方法。基于智能体交互的强化学习室内定位方法考虑从强化学习的角度进行高精度目标定位,实现智能体在动态环境下的自学习。强化学习不需要掌握先验知识,而是通过不断地从室内环境中的rss值中学习并做出反馈的方式,依靠不带标签的指纹数据就能实现定位,降低了对标签数据的依赖;并在此基础上解决上述提到的关键性问题;再者,强化学习的过程也是不断优化模型的过程,通过持续采集信号强度值来更新自身模型,对于复杂多变的室内环境具有更高的稳定性。强化学习与深度学习相结合的深度强化学习(deep reinforcement learning,drl)技术可以解决高维的“状态空间-行动空间”问题,同时能够在没有先验知识的情况下进行端到端学习;即智能体通过不断地与环境进行交互来寻找最优的行动策略,从而达到精确定位的目的。
8.本发明所采用的技术方案为:
9.一种基于智能体交互深度强化学习的室内定位方法,利用多个智能体协同学习,通过深度强化学习算法获取rss指纹信息并实现室内定位;包括以下步骤:
10.s1、在定位区域设置l个rss信号基站,l》3;在定位区域选择一点作为原点,建立空间三维坐标系,在定位区域环境中采集带标签的rss指纹数据以及无标签rss指纹数据组成指纹数据库,选择一部分带标签数据集作为测试集;
11.s2、在室内环境中设置多个智能体,每个智能体通过收集周围的rss信号强度值和位置信息来更新自己的状态;每个智能体可以看作是一个有限马尔可夫决策过程(markov decision process,mdp),定义每个智能体的状态包括当前位置和周围rss信号,智能体的动作是移动到周围的一个位置,并观察该位置处的rss信号和位置信息,从而更新自己的状态;对每个智能体接收到的每个ap的rss值设置一个信号阈值θ
rss
并对每个ap的距离设置一个距离阈值θd,用c
ij
∈{0,1}表示第i个智能体接收到第j个ap的信号强度值,i=1,2,

,k,j=1,2,

,l,定义向量ci=[c
i1
,c
i2
,

,c
ij
,

,c
im
]
t
代表第i个智能体接收信号强度阈值指示向量,‖ci‖代表向量ci中非0元素个数,d
ij
表示的是以智能体前一时刻t-1估计的坐标信息(x
t-1
,y
t-1
)作为当前位置得到的与第j个ap之间的距离,从而设置奖赏函数为:
[0012][0013]
其中,表示第i个智能体与最大rss值所对应的ap通过该智能体前一时刻估计的坐标信息计算得到的距离值,r(d)定义为:
[0014][0015]
其中,d
min
是一个提前设置固定值;
[0016]
s3、利用深度强化学习算法训练多智能体模型,使其能够学习到最优的移动策略,以便在室内环境中实现高精度定位;具体包括:
[0017]
s31、采用double deep q-network算法初始化多智能体模型以及参数;
[0018]
s32、将多个智能体放置在不同的位置,并随机选择一个目标位置;
[0019]
s33、根据智能体在当前位置观察到rss信号强度值和位置信息获得智能体状态,并选择一个动作来移动到周围的位置;
[0020]
s34、智能体根据选择的动作更新自己的状态,并获得奖励;
[0021]
s35、重复s33和s34,直到智能体到达目标位置;
[0022]
s36、记录每个智能体的状态和奖励,将其作为样本用于深度强化学习算法的训练;
[0023]
s37、训练多智能体模型:
[0024]
状态表示:将rss向量作为状态s输入神经网络;
[0025]
行动选择:利用当前的神经网络估计每个动作的q值;对于每个状态,选择具有最高q值的动作;
[0026]
与环境交互:将所选动作a作用于环境,得到下一个状态s'和奖励r;
[0027]
s38、测试并记录下每个智能体的分类器在测试集上的定位精度表现,作为多智能体模型的性能收敛准则:
[0028]
经验存储:将s,a,r,s'作为经验存储在经验回放池中;
[0029]
神经网络更新:从经验回放池中随机采样一些经验,用它们来训练神经网络;目标q值的计算方式如下:
[0030][0031]
其中,r是奖励,γ是折扣因子(用于控制未来奖励的重要性),表示在下一个状态s'下,所有可能动作的最大q值;
[0032]
s39、重复s32到s38,根据梯度下降准则,进行反向传播并逐步优化网络参数:
[0033][0034]
其中,是在经验e=(s,ai,r,s')下的期望值,y表示实际结果、q(s,ai;θi)表示q网络的输出结果、表示q网络的输出对θi的偏导数,直到多智能体模型的性能收敛,完成训练过程;
[0035]
s4、在实际定位过程中,实时收集当前位置处的rss值,并输入到训练好的多智能体模型中,多智能体模型根据该位置处的rss值和状态信息,选择一个最优的移动策略,并输出预测的位置信息。
[0036]
本发明的有益效果为,本发明建立了基于深度强化学习网络的优化定位模型,所提模型不依靠室内环境场的先验信息,可实现nlos环境下的三维定位。实测结果显示:1)与其它强化学习定位方法相比,本发明的方法定位精度更高,对基站布设不敏感;2)对比了改进搜索范围的double dqn优化算法的定位结果,本发明定位方法可通过较少耗时实现更稳定的定位性能。
附图说明
[0037]
图1为本发明指纹库定位系统整体流程框图。
[0038]
图2为本发明中多智能体协同学习模型的结构图。
[0039]
图3为本发明中double dqn算法的训练流程图。
[0040]
图4为本发明中q网络结构图。
[0041]
图5为四种定位算法cdf随aed变化对比。
[0042]
图6为四种定位算法在同一数据集下aed对比。
具体实施方式
[0043]
下面结合实例和附图,详细描述本发明的技术方案:
[0044]
实施例
[0045]
例设定定位环境某一楼层的办公区,该楼层长为73m,宽为20m,面积为1460m2,主要包含了10个办公室、1个走廊以及一个电梯间和一个楼梯间。以该楼层的部分办公室与走廊作为实验环境进行测试,楼层中布置了20个室内混构定位基站作为接入点,且已记录各ap位置坐标。由于室内物体的存在,室内定位区域呈不规则形状。接入点使用的产品是星网云联公司的arocov 6260产品。将该定位区域尽可能均匀地划分为210个等距网格点,包括走廊中的134个网格点,房间中的76个网格点,相邻格点之间的距离为0.8m。
[0046]
为了使信号源稳定,在原有的ap基础上增加了四台手机的热点信号源,并将手机放在固定的位置上不移动。随后,利用wifi魔盒软件分别测试每个格点上各个ap的wifi mac地址和相应的rss信号强度,以确保信号强度满足采集要求。
[0047]
在过去4个月里,选取随机的时间、随机的地点进行了5250次各基站接收信号强度值的测量工作,每次重复测量5组取平均值作为该次测量的rss值。将rss值与测量定位点的2维坐标值(以此作为机器学习所用的标签信息)组合,组成由5250个训练样本构成的训练数据集作为指纹库,是一个26
×
5250的矩阵。
[0048]
无线信号指纹是一个1
×
24的向量,其中的元素就是每个蓝牙信标在这个位置的信号强度rssi(单位为dbm):
[0049]
rss=[rss0,rss1,rss2,
……
,rss
24
]
t
[0050]
一个完整的指纹应该包含格点位置上的rssi值以及该点对应的坐标:
[0051]
labeli={rssi,yi}
[0052]
其中,yi=(xi,yi)代表该指纹的标签,也就是该点的坐标值。
[0053]
按照算法的构想,数据集分为三种:带标签的指纹数据库数据label,不带标签的指纹数据unlabel,用于测试的测试集数据集test。
[0054]
在定位阶段,采集该区域50条100步的轨迹数据(包含rss信号以及位置信息)作为测试样本。
[0055]
模型建立
[0056]
步骤1:建立智能体模型
[0057]
1-1.在室内环境中设置10个智能体。
[0058]
1-2.每个智能体的状态由当前位置和周围的rss值组成。
[0059]
1-3.每个智能体的动作是移动到周围的一个位置。
[0060]
1-4.智能体的奖励由当前位置和真实位置之间的距离计算得到,距离越小,奖励越大。
[0061]
步骤2:深度强化学习离线算法训练
[0062]
2-1.采用double-dqn算法初始化多智能体模型以及参数。
[0063]
2-2.将10个智能体放置在不同的位置,并随机选择一个目标位置。
[0064]
2-3.智能体在当前位置观察到rss信号强度值和位置信息,并选择一个动作来移动到周围的位置。
[0065]
2-4.智能体根据选择的动作更新自己的状态,并获得奖励。
[0066]
2-5.重复步骤2-3和2-4,直到智能体到达目标位置。
[0067]
2-6.记录每个智能体的状态和奖励,将其作为样本用于深度强化学习算法的训练。
[0068]
2-7.训练多智能体模型。
[0069]
2-8.重复步骤2-2到步骤2-7,直到多智能体模型的性能收敛。
[0070]
步骤3:rss指纹定位
[0071]
3-1.在实际定位过程中,采集当前位置处的rss值。
[0072]
3-2.输入rss值和状态信息到多智能体模型中,模型会选择一个最优的移动策略。
[0073]
3-3.输出预测的位置信息,即为室内定位的结果。
[0074]
实验结果分析
[0075]
通过实验可以得出结论,相较于传统的机器学习定位方法以及单智能体深度强化学习定位算法,本发明的定位方法所需的训练集指纹数据量要少得多,并且在包含相同测试数据量的指纹数据集中,本发明定位准确性更高。
[0076]
综上所述,本发明提出的基于double dqn算法的轨迹定位方法的特点在于采用了多智能体深度强化学习算法进行室内定位,通过充分利用环境中的观测以及智能体自身的历史动态信息,能够实现良好的定位精度,该方法在面向异构室内定位环境时也具有一定的健壮性。以上发明内容实现了智能体之间的协同学习,提高了定位的准确性和鲁棒性。

技术特征:
1.一种基于智能体交互深度强化学习的室内定位方法,其特征在于,包括以下步骤:s1、在定位区域设置l个rss信号基站,l>3;在定位区域选择一点作为原点,建立空间三维坐标系,在定位区域环境中采集带标签的rss指纹数据以及无标签rss指纹数据组成指纹数据库,选择一部分带标签数据集作为测试集;s2、设置多个智能体,每个智能体通过收集周围的rss信号强度值和位置信息来更新自己的状态;定义每个智能体的状态包括当前位置和周围rss信号,智能体的动作是移动到周围的一个位置,并观察该位置处的rss信号和位置信息,从而更新自己的状态;对每个智能体接收到的每个ap的rss值设置一个信号阈值θ
rss
并对每个ap的距离设置一个距离阈值θ
d
,用c
ij
∈{0,1}表示第i个智能体接收到第j个ap的信号强度值,i=1,2,

,k,j=1,2,

,l,定义向量c
i
=[c
i1
,c
i2
,

,c
ij
,

,c
il
]
t
代表第i个智能体接收信号强度阈值指示向量,‖c
i
‖代表向量c
i
中非0元素个数,d
ij
表示的是以智能体前一时刻t-1估计的坐标信息(x
t-1
,y
t-1
)作为当前位置得到的与第j个ap之间的距离,从而设置奖赏函数为:其中,表示第i个智能体与最大rss值所对应的ap通过该智能体前一时刻估计的坐标信息计算得到的距离值,r(d)定义为:其中,d
min
是一个提前设置固定值;s3、利用深度强化学习算法训练多智能体模型,具体包括:s31、采用double deep q-network算法初始化多智能体模型以及参数;s32、将多个智能体放置在不同的位置,并随机选择一个目标位置;s33、根据智能体在当前位置观察到rss信号强度值和位置信息获得智能体状态,并选择一个动作来移动到周围的位置;s34、智能体根据选择的动作更新自己的状态,并获得奖励;s35、重复s33和s34,直到智能体到达目标位置;s36、记录每个智能体的状态和奖励,将其作为样本用于深度强化学习算法的训练;s37、训练多智能体模型:状态表示:将rss向量作为状态s输入神经网络;行动选择:利用当前的神经网络估计每个动作的q值;对于每个状态,选择具有最高q值的动作;与环境交互:将所选动作a作用于环境,得到下一个状态s'和奖励r;s38、测试并记录下每个智能体的分类器在测试集上的定位精度表现,作为多智能体模型的性能收敛准则:
经验存储:将s,a,r,s'作为经验存储在经验回放池中;神经网络更新:从经验回放池中随机采样一些经验,用它们来训练神经网络;目标q值的计算方式如下:其中,r是奖励,γ是折扣因子,表示在下一个状态s'下,所有可能动作的最大q值;s39、重复s32到s38,根据梯度下降准则,进行反向传播并逐步优化网络参数:其中,是在经验e=(s,a
i
,r,s')下的期望值,y表示实际结果、q(s,a
i
;θ
i
)表示q网络的输出结果、表示q网络的输出对θ
i
的偏导数,直到多智能体模型的性能收敛,完成训练过程;s4、实时收集当前位置处的rss值,并输入到训练好的多智能体模型中,多智能体模型根据该位置处的rss值和状态信息,选择一个最优的移动策略,并输出预测的位置信息。

技术总结
本发明属于室内定位技术领域,具体涉及一种基于智能体交互深度强化学习的室内定位方法。本发明首先在室内环境下采集少量带标签指纹数据作为训练样本,利用多个智能体协同学习指纹经验,通过深度强化学习算法获取RSS(Received Signal Strength,RSS)指纹信息并训练出稳健的多智能体深度强化学习的评估网络定位模型,最后实现室内定位。其优势在于在少量带标签数据基础上利用深度强化学习网络构建指纹库并实现动态更新的定位模型。实验结果证明本发明所提方法具有更高效的环境部署效率、更准确的定位精度与更稳健的位置服务能力。力。力。


技术研发人员:郭贤生 黄河 钱博诚 司皓楠 黄健 安然 赖哲学 余嘉伟 段林甫
受保护的技术使用者:四川混构定位科技有限公司
技术研发日:2023.06.25
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐