一种基于声誉期望融合机制的多机器人协作系统控制方法
未命名
10-19
阅读:87
评论:0

1.本发明涉及机器人协同控制领域,尤其涉及一种基于声誉期望融合机制的多机器人协作系统控制方法。
背景技术:
2.在机器人控制领域,声誉机制和期望机制同样具有重要的实际应用价值。它们可以应用于多机器人协作任务中,以提高整体任务执行效率和稳定性。以下是这两种机制在机器人控制领域的概述:声誉机制:在多机器人协作任务中,引入声誉机制可以帮助机器人识别表现良好的合作伙伴。利用声誉放缩机器人收益、影响机器人策略选择以及合作对象的选择等方式,可以促进多机器人协作系统中合作行为的出现,这有助于提高任务完成速度和整体系统效率。期望机制:期望机制可以激励机器人在协作任务中追求更高的收益与更佳的策略。通过为机器人设置期望收益值,促使机器人做出改变以达到期望的生活,从而提高多机器人协作系统中的合作水平。现有的研究只关注单一机制对多机器人协作系统的影响,而忽略了多个机制的共同作用。多机器人协作系统的复杂化、多样化导致每个机器人的决策往往受到多种因素的共同影响,而不是单一机制的作用。
技术实现要素:
3.根据现有技术存在的问题,本发明公开了一种基于声誉期望融合机制的多机器人协作系统控制方法,具体包括如下步骤:
4.为机器人群体设置网络结构,网络结构为晶格网络或ba网络,机器人基于该网络结构进行协作任务;
5.初始化囚徒困境博弈模型参数,包括收益矩阵m,初始合作机器人节点,fermi更新规则参数k;
6.初始化声誉期望模型参数,包括机器人声誉值、机器人声誉期望,机器人策略持续时间以及机器人声誉敏感度;
7.基于囚徒困境博弈模型机器人群体开始进行蒙特卡洛迭代,在迭代过程中,机器人的策略会直接影响其声誉和收益的变化,机器人根据个体声誉与声誉期望的差别、个体收益与邻居平均收益的差别共同调整自身策略持续时间或根据fermi规则更新自身策略,以达到期望声誉的目标。
8.进一步的,根据网络结构生成对应的网络结构模型,将机器人群体按照所生成的网络结构进行映射,给予其空间结构并引入网络互惠,限定机器人的交互范围。
9.进一步的,对收益矩阵进行初始化,选定合适大小的背叛诱惑t,并将合作收益r规定为1,将叛变惩罚p与受骗支付s规定为0;
10.随机选取一定数量的机器人个体作为初始合作机器人节点,并将这部分机器人的初始策略规定为合作,剩余机器人的初始策略规定为背叛;
11.对于fermi更新规则参数k,将其设置为0.1,在策略模仿过程中引入一定的噪声干
扰,表明个体的非完全理性。
12.进一步的,对于机器人声誉值,限定机器人声誉范围为[0,30],同时初始声誉值的分配满足u(0,30)的均匀分布,即群体平均声誉值为15;
[0013]
选定合适大小的期望值作为群体的平均声誉期望,同时采用正态分布为机器人设置个体声誉期望;选定合适大小的值作为群体的平均声誉敏感度,并选定合适参数的正态分布为机器人设置个体声誉敏感度。
[0014]
进一步的,在机器人群体中随机选取一个个体,使该个体与其交互网络结构中的全部邻居进行一轮博弈交互,并根据收益矩阵获取本轮博弈的收益;使机器人群体中的每个个体都完成该过程;
[0015]
整个群体完成一轮博弈后,将每个机器人的策略持续时间τ减少1;
[0016]
根据本轮各个机器人的策略修改每个个体的声誉值信息,当机器人在本轮选择合作策略时,该个体的声誉值增加1;当机器人在本轮选择背叛策略时,该个体的声誉值减少1;
[0017]
在机器人群体中随机选取一个个体,若该个体的策略持续时间为0,则根据fermi更新规则以一定概率模仿其邻居中某个个体的策略,并将其策略持续时间初始化;若该个体的策略持续时间不为0,则根据个体声誉与追求值之间的差别、个体收益与群体平均收益之间的差别调整策略持续时间τ,使机器人群体中的每个个体都完成该过程;
[0018]
重复以上步骤。
[0019]
由于采用了上述技术方案,本发明提供的一种基于声誉期望融合机制的多机器人协作系统控制方法,该方法通过融合声誉机制和期望机制,提出了一种适用于多机器人控制领域的声誉期望模型即ra模型,该模型克服了之前研究中只关注单一机制对合作演化影响的局限性,而忽略了多个机制共同作用的现实情况。因此,ra模型更贴合现实世界的多机器人协作任务,提高了模型的鲁棒性。在多机器人协作任务中,ra模型有助于促进合作行为的涌现,从而提高任务执行效率。这一模型为研究和应用机器人群体博弈行为提供了新的思路,并有潜力推动多机器人控制领域的进一步发展。
附图说明
[0020]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]
图1为本发明方法的流程图
具体实施方式
[0022]
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
[0023]
如图1所示的一种基于声誉期望融合机制的多机器人协作系统控制方法,具体包括如下步骤:
[0024]
s1:为机器人群体设置网络结构,网络结构为晶格网络或ba网络,机器人基于该网
络结构进行协作任务;
[0025]
s2:初始化囚徒困境博弈模型参数,包括收益矩阵m,初始合作机器人节点,fermi更新规则参数k;
[0026]
s3:初始化声誉期望模型参数,包括机器人声誉值、机器人声誉期望,机器人策略持续时间以及机器人声誉敏感度;
[0027]
s4:基于囚徒困境博弈模型机器人群体开始进行蒙特卡洛迭代,在迭代过程中,机器人的策略会直接影响其声誉和收益的变化,机器人根据个体声誉与声誉期望的差别、个体收益与邻居平均收益的差别共同调整自身策略持续时间或根据fermi规则更新自身策略,以达到期望声誉的目标。
[0028]
进一步的,依据具体复杂网络结构定义,生成对应的网络结构模型,并将机器人群体按照所生成的网络结构进行映射,给予其交互空间结构并引入网络互惠,限定机器人的交互范围。
[0029]
进一步的,s2中具体采用如下方式:
[0030]
s21:对于收益矩阵的初始化,选定合适大小的背叛诱惑t,并将合作收益r规定为1,将叛变惩罚p与受骗支付s规定为0。即采用“弱囚徒困境博弈模型”。
[0031]
s22:对于初始合作机器人节点的选取,我们采用随机选取50%的机器人个体作为初始合作机器人节点,并将这部分机器人的初始策略规定为“合作”,剩余机器人的初始策略规定为“背叛”。
[0032]
s23:对于fermi更新规则参数k,我们将其设置为0.1,在策略模仿过程中引入一定的噪声干扰,表明个体的非完全理性。
[0033]
进一步的,s3中具体采用如下方式:
[0034]
s31:对于机器人初始声誉值,我们限定机器人声誉范围为[0,30],同时初始声誉值的分配满足u(0,30)的均匀分布,即群体平均声誉值为15。
[0035]
s32:对于机器人声誉期望,我们选定合适大小的期望值作为群体的平均声誉期望,同时采用选定合适参数的正态分布为机器人设置个体声誉期望。
[0036]
s33:对于机器人策略持续时间,我们为每个机器人都初始化为15。
[0037]
s34:对于机器人声誉敏感度,我们选定合适大小的值作为群体的平均声誉敏感度,同时采用选定合适参数的正态分布为机器人设置个体声誉敏感度。
[0038]
进一步的,s4中具体采用如下方式:
[0039]
s41:在机器人群体中随机选取一个个体,使该个体与网络结构中的全部邻居进行一轮博弈交互,并根据收益矩阵获取本轮博弈的收益。
[0040]
s42:使机器人群体中的每个个体都完成s41的步骤。
[0041]
s43:整个群体完成一轮博弈后,将每个机器人的策略持续时间τ减少1。
[0042]
s44:根据本轮各个机器人的策略修改每个个体的声誉值信息。当机器人在本轮选择合作策略时,该个体的声誉值增加1;当机器人在本轮选择背叛策略时,该个体的声誉值减少1。
[0043]
s45:在机器人群体中随机选取一个个体,若该个体的策略持续时间为0,则根据fermi更新规则以一定概率模仿其邻居中某个个体的策略,并将其策略持续时间初始化;若该个体的策略持续时间不为0,则根据个体声誉与追求值之间的差别、个体收益与群体收益
之间的差别调整策略持续时间τ。
[0044]
s46:使机器人群体中的每个个体都完成s45的步骤。
[0045]
s47:重复以上步骤。
[0046]
在机器人控制领域,我们声誉期望模型即ra模型应用于基于传统囚徒困境博弈模型(pdg)的多机器人协作任务。在博弈过程中,机器人会考虑自身决策对个体声誉的影响、个体声誉与理想声誉之间的差别等因素,从而促使合作行为的出现。ra模型包括以下三个部分:机器人声誉模块、机器人声誉期望模块与机器人策略持续时间模块。
[0047]
机器人声誉模块:在ra模型中,ri(t)代表机器人i在t时刻的声誉大小,其值的变化取决于机器人i在t时刻的策略。当机器人选择合作时,ri(t)会增加1,反之就会减少1。声誉值作为一种群体信息,能够准确描述机器人的历史行为和合作能力。ri(t)的具体变化过程如公式(1)所示:
[0048][0049]
其中,d表示机器人采取背叛策略,c表示机器人采取合作策略,max{a,b}表示取{a,b}中的最大值,min{a,b}表示取{a,b}中的最小值。
[0050]
机器人声誉期望模块:在ra模型中,r
aspi
和r
asp
分别代表机器人i和整个机器人群体平均的声誉期望值。声誉期望值代表机器人对理想声誉的最低追求,理想声誉值与实际声誉值之间的差别将促使机器人调整自身策略,它激励机器人在协作任务中保持积极态度。
[0051]
机器人策略持续时间模块:在ra模型中,τi(t)代表机器人i在t时刻的策略持续时间。策略持续时间在一定程度上反映了机器人对自身策略的喜爱程度。同时,θi和θ分别代表机器人i和整个机器人群体平均的声誉敏感度。声誉敏感度代表机器人对改变自身策略意愿的强烈。该参数的变化分为如下两个阶段:
[0052]
1、机器人i完成一轮博弈后,τi(t)会减少1,表示机器人i坚持此策略的时间减少1,其变化过程如公式(2)所示:
[0053]
τi(t)=max{τi(t-1)-1,0}
ꢀꢀꢀ
(2)
[0054]
2.机器人i通过比较自身声誉与期望声誉之间的大小,同时将博弈收益考虑其中,改变策略持续时间τi(t)。具体地,当机器人i的声誉达到或超过期望声誉,并且本轮博弈收益不低于邻居平均博弈收益时,机器人i认为其当前策略是有效的。因此,它会增加策略持续时间τi(t)并继续保持当前策略;然而,如果机器人i的声誉未达到期望声誉,或者本轮博弈收益低于邻居平均博弈收益,这表明机器人i的当前策略可能不是最佳选择。在这种情况下,机器人i会减少策略持续时间τi(t),以便更快地尝试其他策略。通过这种方式,机器人i会不断调整其策略持续时间,以寻求在多机器人协作环境中的最佳策略。τi(t)具体变化过程如公式(3)所示:
[0055]
[0056]
其中,θi和θ分别表示机器人i和整个群体对改变当前策略意愿的大小,表示机器人i在t时刻的平均收益,表示i的全部邻居在t时刻的平均收益。只有当τi(t)减少至0时,机器人才会选择模仿邻居的策略并初始化τi(t)。
[0057]
本研究提出的方法包含两个主要步骤:ra模型的初始化和蒙特卡罗迭代(mcs)模拟。
[0058]
ra模型初始化过程如下:
[0059]
1.机器人声誉模块初始化:为确保机器人声誉的异质性,反映现实世界中不同机器人的不同合作能力,我们利用均匀分布u(0,30)随机采样完成机器人声誉的初始化。
[0060]
2.机器人声誉期望模块初始化:为模拟现实世界中不同机器人对合作任务的不同期望,我们利用正态分布随机采样完成机器人声誉期望的初始化。
[0061]
3.机器人策略持续时间模块初始化:我们将全部机器人的初始化策略持续时间设定为15,同时,为模拟现实世界中不同机器人对改变自身策略意愿的大小,我们利用正态分布随机采样完成机器人声誉敏感度的初始化。
[0062]
在完成ra模型的初始化后,我们在一个l
×
l大小的具有周期边界的晶格网络上进行pdg,并通过mcs模拟来验证ra模型在多机器人协作系统中的正确性。其具体过程如下:
[0063]
1.首先随机选取机器人i,使该机器人与其全部邻居完成博弈并记录自身收益
[0064]
2.在机器人i完成本轮博弈后,将i策略持续时间τi(t)减少1。
[0065]
3.根据i本轮采取的策略si(t)更新其声誉ri(t)。
[0066]
4.若此时i的策略持续时间τi(t)不为0,则i会根据公式(3)更新其策略持续时间;若i的策略持续时间τi(t)为0,则i会在其邻居中随机挑选个体j并依照fermi准则决定是否模仿策略sj(t),该阶段结束后会将τi(t)重置为初始值。fermi准则如公式(4)所示,其中k表示策略模仿阶段的不确定性,k值越大不确定性越高。
[0067][0068]
在多机器人协作任务中,当所有机器人完成上述过程后,即表示完成了一轮同步博弈。接下来,可以统计系统合作率并记录。在指定轮数的同步博弈结束后,将迭代过程中记录的合作率持久化保存至文件。通过分析文件中的系统合作率变化趋势,我们可以发现ra模型的引入促使了多机器人协作群体中合作现象的涌现。这种合作现象有助于提高多机器人协作任务的执行效率,从而在实际应用中实现更高效的协同工作。ra模型的引入为研究机器人群体博弈行为提供了新的思路,并有潜力促进多机器人控制领域的进一步发展。
[0069]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种基于声誉期望融合机制的多机器人协作系统控制方法,其特征在于包括:为机器人群体设置网络结构,网络结构为晶格网络或ba网络,机器人基于该网络结构进行协作任务;初始化囚徒困境博弈模型参数,包括收益矩阵m,初始合作机器人节点,fermi更新规则参数k;初始化声誉期望模型参数,包括机器人声誉值、机器人声誉期望,机器人策略持续时间以及机器人声誉敏感度;基于囚徒困境博弈模型机器人群体开始进行蒙特卡洛迭代,在迭代过程中,机器人的策略会直接影响其声誉和收益的变化,机器人根据个体声誉与声誉期望的差别、个体收益与邻居平均收益的差别共同调整自身策略持续时间或根据fermi规则更新自身策略,以达到期望声誉的目标。2.根据权利要求1所述的一种基于声誉期望融合机制的多机器人协作系统控制方法,其特征在于:根据网络结构生成对应的网络结构模型,将机器人群体按照所生成的网络结构进行映射,给予其空间结构并引入网络互惠,限定机器人的交互范围。3.根据权利要求1所述的一种基于声誉期望融合机制的多机器人协作系统控制方法,其特征在于:对收益矩阵进行初始化,选定合适大小的背叛诱惑t,并将合作收益r规定为1,将叛变惩罚p与受骗支付s规定为0;随机选取一定数量的机器人个体作为初始合作机器人节点,并将这部分机器人的初始策略规定为合作,剩余机器人的初始策略规定为背叛;对于fermi更新规则参数k,将其设置为0.1,在策略模仿过程中引入一定的噪声干扰,表明个体的非完全理性。4.根据权利要求1所述的一种基于声誉期望融合机制的多机器人协作系统控制方法,其特征在于:对于机器人声誉值,限定机器人声誉范围为[0,30],同时初始声誉值的分配满足u(0,30)的均匀分布,即群体平均声誉值为15;选定合适大小的期望值作为群体的平均声誉期望,同时采用正态分布为机器人设置个体声誉期望;选定合适大小的值作为群体的平均声誉敏感度,并选定合适参数的正态分布为机器人设置个体声誉敏感度。5.根据权利要求1所述的一种基于声誉期望融合机制的多机器人协作系统控制方法,其特征在于:在机器人群体中随机选取一个个体,使该个体与其交互网络结构中的全部邻居进行一轮博弈交互,并根据收益矩阵获取本轮博弈的收益;使机器人群体中的每个个体都完成该过程;整个群体完成一轮博弈后,将每个机器人的策略持续时间τ减少1;根据本轮各个机器人的策略修改每个个体的声誉值信息,当机器人在本轮选择合作策略时,该个体的声誉值增加1;当机器人在本轮选择背叛策略时,该个体的声誉值减少1;在机器人群体中随机选取一个个体,若该个体的策略持续时间为0,则根据fermi更新规则以一定概率模仿其邻居中某个个体的策略,并将其策略持续时间初始化;若该个体的策略持续时间不为0,则根据个体声誉与追求值之间的差别、个体收益与群体平均收益之间的差别调整策略持续时间τ,使机器人群体中的每个个体都完成该过程;重复以上步骤。
技术总结
本发明公开了一种基于声誉期望融合机制的多机器人协作系统控制方法,具体包括如下步骤:为机器人群体设置网络结构,网络结构为晶格网络或BA网络,机器人基于该网络结构进行协作任务;初始化囚徒困境博弈模型参数,包括收益矩阵M,初始合作机器人节点,Fermi更新规则参数K;初始化声誉期望模型参数,包括机器人声誉值、机器人声誉期望,机器人策略持续时间以及机器人声誉敏感度;基于囚徒困境博弈模型机器人群体开始进行蒙特卡洛迭代,在迭代过程中,机器人的策略会直接影响其声誉和收益的变化,机器人根据个体声誉与声誉期望的差别、个体收益与邻居平均收益的差别共同调整自身策略持续时间或根据Fermi规则更新自身策略,以达到期望声誉的目标。达到期望声誉的目标。达到期望声誉的目标。
技术研发人员:葛新 刘越
受保护的技术使用者:大连海事大学
技术研发日:2023.07.18
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/