基于深度强化学习的车联网可信数据共享方法及其系统
未命名
09-08
阅读:76
评论:0

1.本发明属于车联网信任管理领域,特别涉及一种基于深度强化学习的车联网可信数据共享方法及其系统。
背景技术:
2.车联网(internet of vehicle,iov)利用车辆之间的社会关系共享车辆感知数据,从而提高交通安全、缓解交通拥堵,提供全面的社会服务。iov中车辆的高机动性、动态拓扑和低邻域密度使得数据源是不断变化的,从异构车载设备收集上下文数据在安全性和可靠性方面具备挑战。信任管理在上下文数据收集、上下文感知和评估设备可信度方面发挥着重要作用,但是现有的信任决策机制难以适应紧急情况和高度动态的环境,缺乏自适应地利用上下文信息进行信任评估的策略。此外,信任管理系统需要依据应用程序和服务的上下文需求进行上下文分析,在短时间内过滤大量冗余信息具有挑战性。
技术实现要素:
3.本发明针对现有iov信任模型存在的技术问题,涉及一种基于深度强化学习的车联网可信数据共享方法及其系统。本发明设计和部署能智能地维护车辆间社交关系的基于上下文感知的信任评估方案,开发轻量级且高效的信任管理协议,确保传输、感知数据和评估结果的可信度。
4.为达到上述目的,本发明的技术方案如下:
5.第一方面,本发明提供一种基于深度强化学习的车联网可信数据共享方法,所述方法包括以下步骤:
6.s1、获取各车辆的上下文信息:
7.根据车联网上下文信息,提取各车辆vi的上下文向量所述车联网上下文信息包括用户身份c
ui
、社会关系c
ri
与环境知识c
ei
,记为
8.s2、利用直接信任度与间接信任度的综合加权平均值计算得到全局信任值
9.s201、信任评价:
10.利用d-s证据理论,得到信任评价的总不确定测度函数uf;
11.s202、基于pignistic距离的证据源修正;
12.s203、利用上下文信息进行信任评估,得到全局信任值
13.s3、更新信任评估策略:
14.利用深度强化学习模型来学习和更新信任评估策略,在不断变化的网络拓扑环境中获得最佳的信任更新策略;
15.s4、将全局信任值与事先定义的信任检测阈值th进行比较,如果则车辆vq是值得信赖的,可进行数据共享,否则将发出针对vq的警告信息,拒绝进行数据共享。
16.第二方面,本发明提供车联网可信数据共享系统,包括:
17.信任信息建模模块,根据车联网上下文信息,得到各车辆vi的上下文向量
18.信任评估模块,利用直接信任度与间接信任度的综合加权平均值计算得到全局信任值
19.信任策略更新模块,利用深度强化学习模型来学习和更新信任评估策略,在不断变化的网络拓扑环境中获得最佳的信任更新策略;
20.阈值比较模块,将全局信任值与事先定义的信任检测阈值th进行比较,如果与事先定义的信任检测阈值th进行比较,如果则车辆vq是值得信赖的,可进行数据共享,否则将发出针对vq的警告信息,拒绝进行数据共享。
21.第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。
22.第四方面,本发明提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。
23.本发明的有益效果是:
24.⑴
本发明提出基于dempster-shafer理论的信任评价方法,利用直接信任和间接信任的综合加权平均计算全局信任值,为通信域内车辆节点提供准确和最新的信任值。该方法可以通过识别和隔离不可靠或恶意的车辆节点来提高iov系统的整体性能,提供可靠的数据共享环境。
25.⑵
本发明提出的基于上下文感知的信任评估方法可以从多个来源收集证据,例如传感器数据和共享反馈数据,并且能高效合成冲突证据源,有助于减轻高度动态的iov环境中的噪声、测量误差和故障的影响,提供更健壮和准确的信任评估。
26.⑶
本发明利用深度强化学习技术来更新信任评估方法的参数,能够训练代理快速识别和过滤冗余信息,减少计算负担。并且,依据环境变化实时更新的训练参数能提高信任评估方法的自适应能力。
附图说明
27.图1是本发明方法的工作流程框图;
28.图2是深度q学习网络算法的框架;
29.图3是基于深度q学习网络的信任更新策略的流程框图;
30.图4展示不同检测阈值的检测准确率;
31.图5展示不同检测方法的检测准确率。
具体实施方式
32.为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
33.本发明提出了一种基于深度强化学习的车联网可信数据共享方法,具体包括信任信息建模模块、信任评估模块、信任策略更新模块、阈值比较模块。首先收集车联网上下文信息,然后利用基于证据理论和pignistic距离信任评估方法,使用直接信任度与间接信任
度的综合加权平均值来计算全局信任值;接着,使用深度q学习模型来学习和更新信任评估策略,在不断变化的网络拓扑环境中,通过与环境的交互和反馈,模型能够自动调整策略,获得渐进最优的信任更新策略。本发明方法能确保传输、感知数据和评估结果的可信度,实现安全高效的信任管理。
34.一种基于深度强化学习的车联网可信数据共享方法,如图1包括以下步骤:
35.s1、获取各车辆的上下文信息:
36.根据车联网上下文信息,提取各车辆vi的上下文向量所述车联网上下文信息包括用户身份c
ui
、社会关系c
ri
与环境知识c
ei
,记为
37.s2、利用直接信任度与间接信任度的综合加权平均值计算得到全局信任值
38.s201、信任评价:
39.利用d-s证据理论,得到信任评价的总不确定测度函数uf;
40.s202、基于pignistic距离的证据源修正;
41.s203、利用上下文信息进行信任评估,得到全局信任值
42.s3、更新信任评估策略:
43.利用深度强化学习模型来学习和更新信任评估策略,在不断变化的网络拓扑环境中获得最佳的信任更新策略;
44.s4、将全局信任值与事先定义的信任检测阈值th进行比较,如果则车辆vq是值得信赖的,可进行数据共享,否则将发出针对vq的警告信息,拒绝进行数据共享。
45.步骤s1中,所述用户身份c
ui
包括用户id、驾龄、住址与工作地点;例如被评估者的身份信息h1;
46.所述社会关系c
ri
包括直接相连的社会关系与间接连接的社会关系,采用基于图论的广泛模型来表示,即采用社会关系的平均跳数来衡量用户之间的社会关系紧密程度;例如社交关系相似度h2、共同社交行为集h3;
47.环境知识c
ei
包括共享消息的消息重复率h4、消息丢失率h5、消息质量h6;
48.步骤s2具体包括步骤:
49.s201、信任评价:
50.利用dempster shafer(d-s)证据理论,得到信任评价的总不确定测度函数uf;具体是:
51.dempster-shafer(d-s)证据理论可以用来整合与iov数据共享系统性能相关的不同上下文信息来源,例如,传感器数据或数据传输的准确性与及时性数据。每种上下文相关信息都可视作一个证据来源,这些证据可以使用dempster的组合规则进行组合。这种组合的结果是一个信念函数,它代表了对环境不同可能状态的信念程度,提供了更准确的环境表征。
52.s2011 d-s证据理论包括识别框架与证据两项基本概念,用二元组<θ,m>表示;定义车联网可信数据共享识别框架θ={trust,distrust,uncertain},其中trust表示可信的,distrust表示不可信的,uncertain表示不确定的,则概率分配函数m:2
θ
→
[0,1],其
中2
θ
是θ的幂集;若命题b表示识别框架中的任一子集,记作其基本概率分配函数m(b)表示对命题b为真的信任程度;识别框架θ上可定义任意条证据hi(i=1,2,
…
,l),所述证据指代一条上下文信息证据hi的集合表示为h={hi|i∈{1,2,
…
,l}},简称为证据集;
[0053]
本发明给出六类证据集(n=6):被评估者的身份信息h1、社交关系相似度h2、共同社交行为集h3、共享消息的消息重复率h4、消息丢失率h5与消息质量h6。
[0054]
s2012不一致性测度函数i(m)的计算:
[0055][0056]
其中,pl为命题b的似然函数,描述命题成立的最大不确性程度;命题m(a)表示命题a的概率分配;
[0057]
s2013混乱测度函数c(m)的计算:
[0058][0059]
其中,bel为命题b的信任函数,描述命题成立的最小不确性程度;
[0060]
s2014冲突测度函数cf(m)的计算:
[0061][0062]
其中
·
表示集合的势,cf(m)表示命题b与子集命题a之间的冲突程度之和;
[0063]
s2015总不确定测度函数uf(m)的计算:
[0064][0065]
s202、基于pignistic距离的证据源修正,具体是:
[0066]
在实际车联网场景中,由于环境的复杂性、不完善的信息收集方法、观测者的局限性等因素,常常使得推测的车联网状态信息是不精确或不一致的,进而存在多源信息冲突问题。本发明利用基于pignistic距离的冲突证据合成方法修正证据源,提高冲突证据源合成的有效性与准确性,解决d-s证据理论中的多源信息冲突问题。证据源包括车载传感器提供的驾驶数据、车辆控制单元提供的车辆状态信息、车辆通信模块提供的通信数据与交通基础设施提供的交通流相关信息。
[0067]
s2021证据集之间的相似性测度计算:
[0068]
证据集hi与证据集hj之间的pignistic距离dis(mi,mj)度量表示如下:
[0069]
[0070][0071][0072]
其中分别表示命题b的与证据hi,hj相关的pignistic概率函数,mi(b)、mj(b)表示证据集hi,hj对命题b为真的信任程度;i,j=1,2,
…
,l,且i≠j;
[0073]
则证据集hi与证据集hj之间的相似性测度sim(mi,mj)计算为:
[0074]
sim(mi,mj)=1-dis(mi,mj)
ꢀꢀꢀꢀꢀꢀ
式(6)
[0075]
s2022证据集的支持测度计算:利用证据集相似度矩阵,得到证据集hi的支持测度sup(mi);
[0076][0077]
s2023证据集的可信测度计算:将证据集的支持测度归一化,可得到证据集hi的可信测度crd(mi);
[0078][0079]
s2024基于折扣率的证据源修正:
[0080][0081]
其中,是修正后的可信度,折扣率αj(j=1,2,
…
,l)的计算如下:
[0082][0083]
其中,δcrd(mj)表示证据集可信测度的差值,eu(mj)表示证据集的总不确定度测度的权重;uf(mj)表示证据集hj的总不确定测度函数;
[0084]
s2025基于d-s证据规则合成修正的证据源:
[0085]
采用dempster合成规则对修正的证据源进行n-1次合成;其中dempster合成规则如下:
[0086]
[0087]
其中c1,c2,
…
,cn是识别框架θ下的命题,
[0088]
s203:利用上下文信息进行信任评估,得到全局信任值具体步骤如下:
[0089]
s2031直接信任度计算:
[0090]
直接信任表示为两辆车之间的关系强度,评估车辆v
p
对被评估车辆vq的直接信任度表示为dt
pq
=《dbel
pq
(trust),dbel
pq
(distrust),dbel
pq
(uncertain)》,其中dbel
pq
(trust)表示v
p
对vq的评估为值得直接信任的信任函数,dbel
pq
(distrust)表示v
p
对vq的评估为不值得直接信任的信任函数,而dbel
pq
(uncertain)表示v
p
对vq的评估为不确定直接信任的信任函数;依据式(11),当命题b为trust,distrust与uncertain时,直接信任函数值计算如下:
[0091]
dbel
pq
(trust)=m(trust)
[0092]
dbel
pq
(distrust)=m(distrust)
[0093]
dbel
pq
(uncertain)=m(uncertain)
ꢀꢀꢀꢀ
式(12)
[0094]
s2032间接信任度计算:
[0095]
给定源车辆v
p
为评估车辆,vr为v
p
通信域内的推荐车辆,r∈ne(p),ne(p)表示v
p
通信域内的车辆的集合,vq为被评估车辆或称为目标车辆;
[0096]vp
对vq的间接信任度表示为it
pq
=《ibel
pq
(trust),ibel
pq
(distrust),ibel
pq
(uncertain)》;其中ibel
pq
(trust)表示v
p
对vq的评估为值得间接信任的信任函数,ibel
pq
(distrust)表示v
p
对vq的评估为不值得间接信任的信任函数,而ibel
pq
(uncertain)表示v
p
对vq的评估为不确定间接信任的信任函数;将统计v
p
通信域内其他推荐车辆vr的社交亲密度socfam
pr
与社交关系重合度soccon
pr
,来表达车辆间社交相似度socsim
pr
,从而选择合适的推荐节点;
[0097]
socfam
pr
=inter
pr
/(inter
max
+inter
min
) 式(13)
[0098][0099][0100]
其中inter
pr
表示v
p
与vr的交互总次数,inter
max
是v
p
通信域内所有车辆节点的最大交互次数,inter
min
是v
p
通信域内所有车辆节点的最小交互次数;rel
p
与relr分别表示v
p
与vr的社会关系圈c
ri
的节点集;
[0101]
判断是否满足socsim
pr
>τ,τ表示阈值,若是则认为车辆节点vr可作为评估车辆v
p
的推荐车辆,反之则不是;
[0102]
因此,认定当socsim
pr
>τ时,车辆节点vr可作为源车辆节点v
p
的推荐节点。因此v
p
的推荐车辆节点vr需满足两个条件:1)v
p
与vr有直接交互行为,且vr与目标节点vq也有直接交互行为;2)v
p
与vr的社交相似度要满足:socsim
pr
>τ。
[0103]
ibel
pq
(trust)、ibel
pq
(distrust)与ibel
pq
(uncertain)的计算方法如下:
[0104][0105][0106][0107]
其中dbel
pr
(trust)表示源车辆v
p
对推荐车辆vr的评估为值得信任的信任函数,dbel
rq
(trust)表示推荐车辆vr对目标车辆vq的评估为值得信任的信任函数,dbel
pr
(distrust)表示源车辆v
p
对推荐车辆vr的评估为不值得信任的信任函数,dbel
rq
(distrust)表示推荐车辆vr对目标车辆vq的评估为不值得信任的信任函数,dbel
pr
(uncertain)表示源车辆v
p
对推荐车辆vr的评估为不确定的信任函数,dbel
rq
(uncertain)表示推荐车辆vr对目标车辆vq的评估为不确定的信任函数;
[0108]
s2033使用直接信任度与间接信任度的综合加权平均值来计算全局信任值gt
pq
;
[0109][0110]
其中α与β分别是直接信任度与间接信任度的调整权重;比如,在车辆频繁交互阶段,直接信任度能提供更有价值的信息,α的值会增加。
[0111]
综上,得到了全局信任值,包含三个部分:命题为trust、distrust与uncertain时的基本概率分配函数值,将这三个部分分别记作m1,m2与m3;则最终得到的归一化后的全局评估信任值为:
[0112][0113]
图3步骤s3中,将问题描述为马尔科夫决策模型,其中episode是强化学习的一个回合,执行m个回合后训练停止,每个episode包含多个时间步t,t是episode中的最大时间步数,通过智能体和环境两个主体不断交互学习,能够得到渐进最优策略;所述智能体是信任策略更新的执行者;在训练过程中,智能体在每个时间步基于当前状态和贪婪值ε选择动作并与环境交互,t时刻观察到环境的状态信息为s
t
,并根据强化学习算法模型选择动作a
t
,向环境施加动作后获得奖励r
t+1
以及下一时刻状态s
t+1
,迭代进行策略更新后收敛到最优策略;
[0114]
s301,状态信息s
t
:
[0115]
状态信息形式化为一个四元组s
t
={pos,numj,num
inte
,f},其中pos是车辆的位置,numj是车辆的推荐车辆数目,num
inte
是车辆的交互次数,f是车辆的交互频率;
[0116]
s302,动作空间a
t
:
[0117]
所述动作a
t
是权重α与β,表示为集合as={a1,a2,
…
,a
n1
},即控制动作是离散的,可以从as中为α或β分配n1种不同的权重;强化学习模型的总动作空间a是两种权重动作空间的笛卡尔积定义如下:
[0118]
a=a
α
×aβ
[0119]
α∈as
[0120]
β∈as 式(19)
[0121]
其中a
α
与a
β
分别是权重α与β的动作空间;
[0122]
s303,奖励函数:设计的奖励机制根据参与者的贡献来支付,即鼓励车辆发送真实的信任意见反馈;
[0123]
re
t
=tf
t
/f
t 式(20)
[0124]
其中tf
t
是真实反馈的消息数量,f
t
是反馈的总消息数量;
[0125]
s304,状态动作函数的更新:
[0126]
状态动作函数通常用符号q表示,表示在某个状态下执行动作后能够获得的长期回报的期望值,记作q值;智能体的目标是通过确定最优信任策略更新模型来最大化长期累积奖励,策略模型的学习依赖于q表的更新,q表用于存储q的值,q表的行和列分别表示状态和动作的值;若当前时刻观察到的状态s选择的动作是ai,ai∈as,则q值函数给出了在折扣因子γ下从状态s
t
=s开始,第一步执行动作a
t
=ai,此后执行策略π获取的预期总奖励;q值函数定义如下:
[0127]qπ
(s
t
,a
t
)=e
π
[re
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
=s,a
t
=ai]
ꢀꢀꢀꢀ
式(21)
[0128]
q值函数的更新方法如下:
[0129][0130]
其中η是学习率,re
t+1
表示在执行动作a
t
后,进入状态s
t+1
时获得的即时奖励;表示智能体选择的动作a
t+1
中使得q
π
(s
t+1
,a
t+1
)最大的动作a
t+1
所对应的q值;
[0131]
s305,损失函数计算:
[0132][0133]
其中σ与分别是训练过程中函数估计q-网络(q
eval
)与目标q-网络(q
target
)的权重与偏差,在算法的训练过程中,智能体会根据该损失函数的值对权重和偏差进行调整,以使估计q-网络的q值q
eval
更加接近目标q-网络的q值q
target
,从而提高智能体的行动策略;表示智能体选择的动作a
t+1
中使得最大的动作a
t+1
所对应的q值。
[0134]
实施例:
[0135]
利用sumo和omnet++联合仿真分析,验证本发明方法的性能。仿真中,sumo用于生成具有宏观和微观行为的车辆机动模型,并将生成的跟踪文件导入到网络模拟器omnet++中。
[0136]
本发明在网络中引入恶意节点来评估本发明方法在处理攻击行为方面的能力,在攻击场景中保持合法车辆的数量不变,并将车联网中攻击者的存在率从10%增加到50%,
本发明考虑了外部攻击-sybil攻击与内部攻击-虚假消息告警攻击两类攻击。
[0137]
接下来结合附图对本发明的具体实施步骤进行详细的阐述:
[0138]
如图1所示,一种基于深度强化学习的车联网上下文感知信任管理方法,主要包括信任信息建模模块、信任评估模块、信任策略更新模块、阈值比较模块,步骤如下:
[0139]
s1,构建信任信息建模模块:在车联网的随机位置生成信标消息,包括发送节点id、节点位置、运动状态等,收集上下文信息,包括用户身份、社会关系与环境知识,得到上下文向量。
[0140]
s2,构建信任评估模块:使用直接信任度与间接信任度的综合加权平均值。具体为:首先利用基于证据理论的正交合成规则来合并来源不同的、具有不同概率分配函数的各种证据,提供准确的信任评估,再利用基于pignistic距离的冲突证据合成方法来提高冲突证据源合成的有效性与准确性。
[0141]
s3,构建信任策略更新模块:利用深度q学习模型来学习和更新信任评估策略,如图2所示,在不断变化的网络拓扑环境中获得最佳的信任更新策略。
[0142]
s4,构建阈值比较模块:将全局信任值与事先定义的信任检测阈值进行比较,如果大于,则车辆vq是值得信赖的,可进行数据共享,如果小于等于则将发出针对vq的警告信息,拒绝进行数据共享。
[0143]
s4中信任检测阈值th的选择:考虑的两种类型的恶意行为:1)sybil攻击(at=”internal”),2)虚假告警消息攻击(at=”outsider”)。如图4所示,分别设置信任阈值th的值为0.4、0.5与0.6时,信任框架的检测率随着模拟时间的增加而增加,而当th的值为0.5时,无论是在sybil攻击场景还是在虚假告警消息攻击场景下,检测准确率都更高。虚假告警消息攻击场景下,th的值为0.5的检测准确率能达到0.95。因此,选取的检测阈值th取值为0.5。
[0144]
图5分别展示了高密度场景和低密度场景下不同检测方法随着恶意车辆率变化的检测率。各检测方法在高密度场景下的检测率普遍比低密度场景下的检测率更高,因为高密度场景下车辆间的交互行为更频繁,信任评估结果更值得信赖。检测结果表明,本发明中提出的基于信任评估的检测方法ctvdr的检测性能是最佳的,即使在恶意车辆率达到50%时,也能以不低于90%的检测准确度检测恶意车辆节点,因为ctvdr在考虑参与实体不同可能的不当行为的前提下,还利用混合信任模型提高网络在应对复杂攻击方面的性能。
[0145]
显然,上述实施例为针对一种车联网信任管理方法所进行的举例说明,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。由此对本发明做出的任何修改和变动仍处于本发明的保护范围。
技术特征:
1.一种基于深度强化学习的车联网可信数据共享方法,其特征在于所述方法包括以下步骤:s1、获取各车辆的上下文信息:根据车联网上下文信息,提取各车辆v
i
的上下文向量所述车联网的上下文信息包括用户身份c
ui
、社会关系c
ri
与环境知识c
ei
,记为s2、利用直接信任度与间接信任度的综合加权平均值计算得到全局信任值s201、信任评价:利用d-s证据理论,得到信任评价的总不确定测度函数uf;s202、基于pignistic距离的证据源修正;s203、利用上下文信息进行信任评估,得到全局信任值s3、更新信任评估策略:利用深度强化学习模型来学习和更新信任评估策略,通过与环境的交互和反馈,在不断变化的网络拓扑环境中获得最佳的信任更新策略;s4、将全局信任值与事先定义的信任检测阈值th进行比较,如果则车辆v
q
是值得信赖的,可进行数据共享,否则将发出针对v
q
的警告信息,拒绝进行数据共享。2.根据权利要求1所述方法,其特征在于步骤s1中,所述用户身份c
ui
包括用户id、驾龄、住址与工作地点;所述社会关系c
ri
包括直接相连的社会关系与间接连接的社会关系,采用基于图论的广泛模型来表示,即采用社会关系的平均跳数来衡量用户之间的社会关系紧密程度。3.根据权利要求2所述方法,其特征在于步骤s1中,用户身份c
ui
包括被评估者的身份信息h1;社会关系c
ri
包括社交关系相似度h2、共同社交行为集h3;环境知识c
ei
包括共享消息的消息重复率h4、消息丢失率h5、消息质量h6。4.根据权利要求1所述方法,其特征在于步骤s201具体是:s2011 d-s证据理论包括识别框架与证据两项基本概念,用二元组<θ,m>表示;定义车联网可信数据共享识别框架θ={trust,distrust,uncertain},其中trust表示可信的,distrust表示不可信的,uncertain表示不确定的,则概率分配函数m:2
θ
→
[0,1],其中2
θ
是θ的幂集;若命题b表示识别框架中的任一子集,记作其基本概率分配函数m(b)表示对命题b为真的信任程度;识别框架θ上定义任意条证据h
i
(i=1,2,
…
,l),所述证据指代一条上下文信息证据h
i
的集合表示为h={h
i
|i∈{1,2,
…
,l}},简称为证据集;s2012不一致性测度函数i(m)的计算:其中,pl为命题b的似然函数,描述命题成立的最大不确性程度;命题m(a)表示命题a的概率分配;s2013混乱测度函数c(m)的计算:
其中,bel为命题b的信任函数,描述命题成立的最小不确性程度;s2014冲突测度函数cf(m)的计算:其中|
·
|表示集合的势,cf(m)表示命题b与子集命题a之间的冲突程度之和;s2015总不确定测度函数uf(m)的计算:5.根据权利要求4所述方法,其特征在于步骤s202具体是:s2021证据集之间的相似性测度计算:证据集h
i
与证据集h
j
之间的pignistic距离dis(m
i
,m
j
)度量表示如下:)度量表示如下:)度量表示如下:其中分别表示命题b的与证据h
i
,h
j
相关的pignistic概率函数,m
i
(b)、m
j
(b)表示证据集h
i
,h
j
对命题b为真的信任程度;i,j=1,2,
…
,l,且i≠j;则证据集h
i
与证据集h
j
之间的相似性测度sim(m
i
,m
j
)计算为:sim(m
i
,m
j
)=1-dis(m
i
,m
j
)
ꢀꢀꢀꢀꢀꢀꢀ
式(6)s2022证据集的支持测度计算:利用证据集相似度矩阵,得到证据集h
i
的支持测度sup(m
i
);s2023证据集的可信测度计算:将证据集的支持测度归一化,得到证据集h
i
的可信测度crd(m
i
);s2024基于折扣率的证据源修正:
其中,是修正后的可信度,折扣率α
j
(j=1,2,
…
,l)的计算如下:其中,δcrd(m
j
)表示证据集可信测度的差值,eu(m
j
)表示证据集的总不确定度测度的权重;uf(m
j
)表示证据集h
j
的总不确定测度函数;s2025基于d-s证据规则合成修正的证据源:采用dempster合成规则对修正的证据源进行n-1次合成;其中dempster合成规则如下:其中c1,c2,
…
,c
n
是识别框架θ下的命题,6.根据权利要求5所述方法,其特征在于步骤s203具体是:s2031直接信任度计算:直接信任表示为两辆车之间的关系强度,评估车辆v
p
对被评估车辆v
q
的直接信任度表示为dt
pq
=<dbel
pq
(trust),dbel
pq
(distrust),dbel
pq
(uncertain)>,其中dbel
pq
(trust)表示v
p
对v
q
的评估为值得直接信任的信任函数,dbel
pq
(distrust)表示v
p
对v
q
的评估为不值得直接信任的信任函数,而dbel
pq
(uncertain)表示v
p
对v
q
的评估为不确定直接信任的信任函数;依据式(11),当命题b为trust,distrust与uncertain时,直接信任函数值计算如下:dbel
pq
(trust)=m(trust)dbel
pq
(distrust)=m(distrust)dbel
pq
(uncertain)=m(uncertain)
ꢀꢀꢀꢀꢀꢀ
式(12)s2032间接信任度计算:给定源车辆v
p
为评估车辆,v
r
为v
p
通信域内的推荐车辆,r∈ne(p),ne(p)表示v
p
通信域内的车辆的集合,v
q
为被评估车辆或称为目标车辆;v
p
对v
q
的间接信任度表示为it
pq
=<ibel
pq
(trust),ibel
pq
(distrust),ibel
pq
(uncertain)>;其中ibel
pq
(trust)表示v
p
对v
q
的评估为值得间接信任的信任函数,ibel
pq
(distrust)表示v
p
对v
q
的评估为不值得间接信任的信任函数,而ibel
pq
(uncertain)表示v
p
对v
q
的评估为不确定间接信任的信任函数;将统计v
p
通信域内其他推荐车辆v
r
的社交亲密度socfam
pr
与社交关系重合度soccon
pr
,来表达车辆间社交相似度socsim
pr
,从而选择合适的推荐节点;socfam
pr
=inter
pr
/(inter
max
+inter
min
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(13)
其中inter
pr
表示v
p
与v
r
的交互总次数,inter
min
是v
p
通信域内所有车辆节点的最大交互次数,inter
min
是v
p
通信域内所有车辆节点的最小交互次数;rel
p
与rel
r
分别表示v
p
与v
r
的社交圈的节点集;判断是否满足socsim
pr
>τ,τ表示阈值,若是则认为车辆节点v
r
作为评估车辆v
p
的推荐车辆,反之则不是;ibel
pq
(trust)、ibel
pq
(distrust)与ibel
pq
(uncertain)的计算方法如下:(uncertain)的计算方法如下:(uncertain)的计算方法如下:其中dbel
pr
(trust)表示源车辆v
p
对推荐车辆v
r
的评估为值得信任的信任函数,dbel
rq
(trust)表示推荐车辆v
r
对目标车辆v
q
的评估为值得信任的信任函数,dbel
pr
(distrust)表示源车辆v
p
对推荐车辆v
r
的评估为不值得信任的信任函数,dbel
rq
(distrust)表示推荐车辆v
r
对目标车辆v
q
的评估为不值得信任的信任函数,dbel
pr
(uncertain)表示源车辆v
p
对推荐车辆v
r
的评估为不确定的信任函数,dbel
rq
(uncertain)表示推荐车辆v
r
对目标车辆v
q
的评估为不确定的信任函数;s2033使用直接信任度与间接信任度的综合加权平均值来计算全局信任值gt
pq
;其中α与β分别是直接信任度与间接信任度的调整权重;又因为全局信任值gt
pq
包含三个部分:命题为turst、distrust与uncertain时的基本概率分配函数值,现将这三个部分分别记作m1,m2与m3;则最终得到的归一化后的全局评估信任值为:
7.根据权利要求6所述方法,其特征在于步骤s3中,将问题描述为马尔科夫决策模型,通过智能体和环境两个主体不断交互学习得到最优策略;所述智能体是信任策略更新的执行者;在训练过程中,智能体将不断与环境交互,t时刻观察到环境的状态信息为s
t
,并根据强化学习算法模型选择动作a
t
,向环境施加动作后获得奖励r
t+1
以及下一时刻状态s
t+1
,迭代进行策略更新后收敛到最优策略;s301,状态信息s
t
:状态信息形式化为一个四元组s
t
={pos,num
j
,num
inte
,f},其中pos是车辆的位置,num
j
是车辆的推荐车辆数目,num
inte
是车辆的交互次数,f是车辆的交互频率;s302,动作空间a
t
:所述动作a
t
是直接信任度的调整权重α与间接信任度的调整权重β,表示为集合as={a1,a2,
…
,a
n1
},即控制动作是离散的,从as中为α或β分配n1种不同的权重;强化学习模型的总动作空间a是两种权重动作空间的笛卡尔积定义如下:a=a
α
×
a
β
α∈asβ∈as
ꢀꢀꢀꢀꢀꢀ
式(19)其中a
α
与a
β
分别是直接信任度的调整权重α与间接信任度的调整权重的动作空间;s303,奖励函数:设计的奖励机制根据参与者的贡献来支付,即鼓励车辆发送真实的信任意见反馈;re
t
=tf
t
/f
t
ꢀꢀꢀꢀꢀꢀꢀꢀ
式(20)其中tf
t
是真实反馈的消息数量,f
t
是反馈的总消息数量;s304,状态动作函数的更新:状态动作函数用符号q表示,表示在某个状态下执行动作后能够获得的长期回报的期望值,记作q值;智能体的目标是通过确定最优信任策略更新模型来最大化长期累积奖励,策略模型的学习依赖于q表的更新,q表用于存储q的值,q表的行和列分别表示状态和动作的值;若当前时刻观察到的状态s选择的动作是a
i
,a
i
∈as,则q值函数给出了在折扣因子γ下从状态s
t
=s开始,第一步执行动作a
t
=a
i
,此后执行策略π获取的预期总奖励;q值函数定义如下:q
π
(s
t
,a
t
)=e
π
[re
t+1
+γq
π
(s
t+1
,a
t+1
)|s
t
=s,a
t
=a
i
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(21)q值函数的更新方法如下:其中η是学习率,re
t+1
表示在执行动作a
t
后,进入状态s
t+1
时获得的即时奖励;表示智能体选择的动作a
t+1
中使得q
π
(s
t+1
,a
t+1
)最大的动作a
t+1
所对应的q值;
s305,损失函数计算:其中σ与分别是训练过程中函数估计q-网络的q值q
evel
与目标q-网络的q值q
target
的权重与偏差,在算法的训练过程中,智能体会根据该损失函数的值对权重和偏差进行调整,使得估计q-网络的q值q
evel
更加接近目标q-网络的q值q
target
,从而提高智能体的行动策略;表示智能体选择的动作a
t+1
中使得最大的动作a
t+1
所对应的q值。8.实现权利要求1-7任一项所述方法的车联网可信数据共享系统,其特征在于包括:信任信息建模模块,根据车联网上下文信息,得到各车辆v
i
的上下文向量信任评估模块,利用直接信任度与间接信任度的综合加权平均值计算得到全局信任值信任策略更新模块,利用深度强化学习模型来学习和更新信任评估策略,通过与环境的交互和反馈,在不断变化的网络拓扑环境中获得最佳的信任更新策略;阈值比较模块,将全局信任值与事先定义的信任检测阈值th进行比较,如果与事先定义的信任检测阈值th进行比较,如果则车辆vq是值得信赖的,可进行数据共享,否则将发出针对v
q
的警告信息,拒绝进行数据共享。9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
技术总结
本发明公开了一种基于深度强化学习的车联网可信数据共享方法及其系统。本发明包括信任信息建模模块、信任评估模块、信任策略更新模块、阈值比较模块。本发明首先收集车联网实时上下文信息,然后将上下文信息输入基于证据理论的信任评估模块,使用直接信任度与间接信任度的综合加权平均值来计算全局信任值。为了提高冲突证据源合成的有效性,本发明提出基于Pignistic距离的冲突证据合成方法以确保虚假消息不会对行驶决策造成影响。其次,为了提高恶意车辆检测准确率和鲁棒性,本发明设计基于深度强化学习的信任策略更新模型,该模型可以通过强化学习算法来学习和优化车辆检测系统的决策策略。的决策策略。的决策策略。
技术研发人员:周漫 韩迎迎 连艳陆 孟倩
受保护的技术使用者:杭州师范大学
技术研发日:2023.05.18
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/