一种面向强化学习算法模型的自动化评测系统及方法与流程

未命名 10-18 阅读：112 评论：0

1.本技术涉及强化模型性能评价技术领域，特别是涉及一种面向强化学习算法模型的自动化评测系统及方法。

背景技术：

2.基于强化学习的智能算法在自动控制、人机交互以及博弈类对抗游戏等领域取得了非凡的成就，被广泛应用。强化学习算法主要用来处理较大甚至是连续的状态空间和动作空间问题，在这类应用中，强化学习智能体以仿真环境的反馈作为智能体输入的模型算法，主要通过智能体与环境交互和试错，利用奖励函数等评价性的反馈信号实现智能体的优化。但是，由于构建的仿真环境无法100％还原真实世界，当真实世界中发生“意想不到”的变化时，原来训练好的智能体便无法较好地适应已变化的新场景。所以，开展人工智能算法的评测对于确保人工智能技术好用、安全、可靠、可控具有重要意义。
3.现阶段对于强化学习算法模型的评测往往基于单一的或统计性指标，综合性能更优的模型就是更好的。然而，当面向对模型性能要求极高的场景，例如安防演练、红蓝博弈对抗类游戏，由于双方都时刻处于与对方的博弈对抗中，即使是已经取得了99％的胜率也难以确保1％的失败不会在特定的博弈对抗场景中出现。因此，在复杂环境下的实际应用中，亟需一种更加全面的评测方法，实现自动快速地评测强化学习算法模型的性能。

技术实现要素：

4.本技术提供一种面向强化学习算法模型的自动化评测系统及方法，能够对算法模型的适用范围及边界条件下的能力进行评估，并进行综合性能的评价，为基于强化学习技术的智能算法提供一种全面、快速的评测方式。
5.本技术实施例第一方面提供一种面向强化学习算法模型的自动化评测系统，上述系统包括：
6.接口模块，用于与真实应用系统进行通信，以接收构建新应用仿真环境所需的真实环境数据；
7.数据上传模块，用于上传待评测强化学习模型及对应的样本环境数据和样本数据；
8.仿真环境构建模块，用于构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数据构建的新应用仿真环境；
9.模型复测模块，用于将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行验证；
10.基线算法模型管理模块，用于对若干基线算法模型进行存储和管理，任一上述基线算法模型标记有对应的适用范围和边界条件；
11.性能测试模块，用于分别测试上述待评测强化学习模型和选择的基线算法模型在
上述新应用仿真环境下的性能，得到对应的测试分数；
12.模型评测模块，用于基于测试分数，分别计算上述待评测强化学习模型相对于上述基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。
13.可选地，上述模型复测模块包括：
14.调用测试子模块，用于从上述数据上传模块中调用上述待评测强化学习模型及对应的样本环境数据，将上述待评测强化学习模型集成到上述第一仿真环境中，以检测上述待评测强化学习模型能否被正常调用；
15.运行测试子模块，用于在上述待评测强化学习模型调用成功后，从上述数据上传模块中调用上述待评测强化学习模型对应的样本数据，将上述样本数据中的输入数据输入上述待评测强化学习模型中进行处理，得到运行结果数据，并将上述运行结果数据与样本数据中对应的输出数据进行对比，以对上述待评测强化学习模型的功能进行验证。
16.可选地，上述性能测试模块包括：
17.指标确定子模块，用于确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；
18.基线算法模型选择子模块，用于根据新应用仿真环境的要求，从上述基线算法模型管理模块中选择并调用上述适用范围和边界条件符合要求的基线算法模型；
19.模型测试子模块，用于分别测试上述待评测强化学习模型和调用的基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；
20.分数计算子模块，用于根据上述性能分数进行综合计算，得到上述待评测强化学习模型和调用的基线算法模型各自的测试分数。
21.可选地，上述性能测试模块还用于选择评测的工作模式，包括：
22.第一工作模式，用于根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比；
23.第二工作模式，用于自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。
24.可选地，上述模型测试子模块包括：
25.可用性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线算法模型的成功率，根据成功率计算对应的可用性分数：
[0026][0027]
其中，p1表示可用性分数，p表示成功率，a表示预设的标准值；
[0028]
优劣性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应输出的奖励值，并通过计算平均奖励值得到优劣性分数：
[0029]
[0030]
其中，p2表示优劣性分数，n表示真实环境数据的数量，mn表示第n组真实环境数据对应的奖励值；
[0031]
敏捷性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的平均运行时间，并根据平均运行时间和预设的任务要求时间计算敏捷性分数：
[0032][0033]
其中，p3表示敏捷性分数，t1表示平均运行时间，t2表示预设的任务要求时间；
[0034]
稳定性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线算法模型的成功次数，根据成功次数计算对应的稳定性分数：
[0035][0036]
其中，p4表示稳定性分数，n表示真实环境数据的数量，n表示成功次数。
[0037]
可选地，上述分数计算子模块包括：
[0038]
利用如下方式计算上述待评测强化学习模型和调用的基线算法模型各自的测试分数：
[0039][0040]
其中，h表示综合的测试分数，pi表示第i个性能指标的性能分数，wi表示用户预设的第i个性能指标的权重系数，m表示性能指标的个数。
[0041]
可选地，上述模型评测模块包括：
[0042]
能力值计算子模块，用于基于上述测试分数，利用如下方式计算上述待评测强化学习模型相对于上述基线算法模型的能力值：
[0043][0044]
其中，a表示待评测强化学习模型的能力值，h
测
表示待评测强化学习模型的测试分数，h
基
表示基线算法模型的测试分数；
[0045]
模型更新子模块，用于将能力值大于或等于预设阈值的上述待评测强化学习模型保存至上述基线算法模型管理模块中，对上述基线算法模型进行更新。
[0046]
本技术实施例第二方面提供一种面向强化学习算法模型的自动化评测方法，上述方法包括：
[0047]
获取构建新应用仿真环境所需的真实环境数据、待评测强化学习模型及对应的样本环境数据和样本数据，上述待评测强化学习模型是通过上述样本数据在上述样本环境下进行训练得到的；
[0048]
构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数
据构建的新应用仿真环境；
[0049]
将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行复测；
[0050]
根据上述新应用仿真环境的要求，从预置的基线算法模型管理库中选择出适用范围和边界条件符合要求的基线算法模型；
[0051]
根据上述真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数；
[0052]
基于上述测试分数，分别计算上述待评测强化学习模型相对于上述基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。
[0053]
可选地，上述根据真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数，包括：
[0054]
确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；
[0055]
分别测试上述待评测强化学习模型和上述基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；
[0056]
根据上述性能分数进行综合计算，得到上述待评测强化学习模型和上述基线算法模型各自的测试分数。
[0057]
可选地，上述方法还包括选择评测的工作模式：
[0058]
当选择第一工作模式时，根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比；
[0059]
当选择第二工作模式时，自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。
[0060]
与现有技术相比，本技术包括以下优点：
[0061]
本技术实施例通过对算法模型的适用范围及边界条件下的能力进行评估，给出对于算法模型的各项评价的实测值，以及待评测强化学习模型相对于基线算法模型的能力提升值，以判断待评测强化学习模型在新场景中的表现是否能达到用户预期，为基于强化学习技术的智能算法的快速评测提供一种便捷的解决方式。
[0062]
本技术实施例在对待评测强化学习模型进行评测时，设计了两种工作模式可供用户选择。第一工作模式用于当用户评测模型的时间有限或有自己的评测方向时，可在模型的可用性、优劣性、敏捷性和稳定性四种角度中自行选择一种或多种评测角度，并将评测后的结果与基线算法模型的评测结果进行对比；第二工作模式用于当用户评测模型的时间充裕或想更加全面地评测模型时，能够一键自动完成对模型的可用性、优劣性、敏捷性和稳定性多角度的综合评测，将综合评测后的结果与基线算法模型的评测结果进行对比。
[0063]
本技术实施例引入面向动态变化场景的模型评测技术和加权机制，将模型的综合指标与应用场景相结合，对模型成果进行系统全面的评测。同时，在评测过程中，针对用户实际需求，可自行选择评测指标并自适应调整各评测指标的占比权重，得到更为贴近用户需求的模型。
附图说明
[0064]
图1是本技术一实施例提出的一种面向强化学习算法模型的自动化评测系统的结构示意图；
[0065]
图2是本技术另一实施例提出的一种面向强化学习算法模型的自动化评测系统的结构示意图；
[0066]
图3是本技术一实施例提出的一种面向强化学习算法模型的自动化评测方法的流程图。
[0067]
附图标记：1、接口模块；2、数据上传模块；3、仿真环境构建模块；4、模型复测模块；41、调用测试子模块；42、运行测试子模块；5、基线算法模型管理模块；6、性能测试模块；61、指标确定子模块；62、基线算法模型选择子模块；63、模型测试子模块；64、分数计算子模块；7、模型评测模块。
具体实施方式
[0068]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0069]
基于强化学习的智能算法在自动控制、人机交互以及博弈类对抗游戏等领域取得了非凡的成就，被广泛应用。强化学习算法主要用来处理较大甚至是连续的状态空间和动作空间问题，在这类应用中，强化学习智能体以仿真环境的反馈作为智能体输入的模型算法，主要通过智能体与环境交互和试错，利用奖励函数等评价性的反馈信号实现智能体的优化。但是，由于构建的仿真环境无法100％还原真实世界，当真实世界中发生“意想不到”的变化时，原来训练好的智能体便无法较好地适应已变化的新场景。所以，开展人工智能算法的评测对于确保人工智能技术好用、安全、可靠、可控具有重要意义。
[0070]
现阶段对于强化学习算法模型的评测往往基于单一的或统计性指标，综合性能更优的模型就是更好的。然而，当面向对模型性能要求极高的场景，例如安防演练、红蓝博弈对抗类游戏，由于双方都时刻处于与对方的博弈对抗中，即使是已经取得了99％的胜率也难以确保1％的失败不会在特定的博弈对抗场景中出现。
[0071]
鉴于此，本技术提出一种面向强化学习算法模型的自动化评测系统及方法，通过对算法模型的适用范围及边界条件下的能力进行评估，给出对于算法模型的各项评价的实测值，以及待评测强化学习模型相对于基线算法模型的能力提升值，以判断待评测强化学习模型在新场景中的表现是否能达到用户预期，为基于强化学习技术的智能算法的快速评测提供一种更加全面、便捷的解决方式。
[0072]
请参照图1，图1是本技术一实施例提出的一种面向强化学习算法模型的自动化评测系统的结构示意图。如图1所示，该系统包括接口模块1、数据上传模块2、仿真环境构建模块3、模型复测模块4、基线算法模型管理模块5、性能测试模块6和模型评测模块7。具体的，各模块的功能如下：
[0073]
接口模块1，用于与真实应用系统进行通信，以接收构建新应用仿真环境所需的真实环境数据。
[0074]
在本实施方式中，自动化评测系统通过接口模块1与前端服务器系统连接，从而与前端服务器系统进行信息互联，以动态接收构建未来拟应用的新应用仿真环境所需的真实环境数据。前端服务器系统将当前环境数据发送给自动化评测系统(比如玩家当前的棋子位置、对方玩家的位置及棋子数量等)，自动化评测系统调用部署的强化模型预测当前这一步该走哪个位置，经过标签到具体位置的转换，将预测结果发送给前端服务器系统具体执行，从而进行强化模型的仿真对抗模拟。
[0075]
示例性的，未来拟应用的新应用仿真环境可以为红蓝博弈对抗场景下的仿真环境。红蓝博弈对抗场景包含了多种应用仿真环境，比如棋盘对抗、安防演练对抗、商业价格对抗等。在棋盘对抗中，需要考虑当前双方的位置、剩余可走位置、行动的约束条件和规则等，例如在某特殊位置时，只能往前走或往右走。此时自动化评测系统通过接口模块1能够从前端服务器系统中接收的真实环境数据就包括了构建棋盘对抗环境所需的基本环境数据(人物形象、棋盘设置、背景设置等)和当前用户的状态数据(所处位置、剩余可走位置等)。在安防演练对抗中，需要考虑双方的装备种类、装备数量、使用时间、特殊限制条件等，例如在某特殊地域范围内时，限制使用装备的数量不得超过2个。此时自动化评测系统通过接口模块1能够从前端服务器系统中接收的真实环境数据就包括了构建安防演练对抗环境所需的基本环境数据(人物形象、装备设置、背景设置等)和当前用户的状态数据(双方的想定输入、装备能力、装备种类和数量等)。
[0076]
在商业价格对抗中，需要考虑双方自身实力、现阶段调整计划、执行计划对对方造成的影响等。例如，一方为电信运行商a，另一方为电信运营商b，两者在电信某一领域展开竞争，一开始的价格都为p0。其中电信运行商a是老牌企业，实力雄厚，已经占据了绝大多数的市场份额，电信运营商b刚成立不久，实力较弱，但是是政府为了打破垄断鼓励市场竞争而筹建的，得到了政府的扶持，所以有一些补贴和优惠，其价格p0可以比电信运行商a的价格低5％，但即使这样也不会对电信运行商a产生多大的影响，因为其根基较为牢固。但随着电信运营商b利用价格优势占据越来越多的市场份额，到了一定程度，对电信运行商a造成影响，此时a就得调整计划，并模拟执行计划会对对方造成的影响，以寻求利益最大化。此时自动化评测系统通过接口模块1能够从前端服务器系统中接收的真实环境数据就包括了构建商业价格对抗环境所需的基本环境数据(企业形象、实力设置、背景设置等)和当前用户的状态数据(双方各自能承受的最高损失、调整计划、执行计划对对方造成的影响等)。
[0077]
数据上传模块2，用于上传待评测强化学习模型及对应的样本环境数据和样本数据。
[0078]
在本实施方式中，可以通过数据上传模块2来上传后续评测中要用到的待评测强化学习模型及对应的样本环境数据和样本数据，并对上传的数据和模型进行存储与管理。其中，待评测强化学习模型是通过所述样本数据在所述样本环境下进行训练得到的。样本环境数据是指构建例如棋盘对抗、安防演练对抗、商业价格对抗等仿真环境所需的基本环境数据。样本数据是指待评测强化学习模型的一条输入数据和对应的输出数据所组成的一组样本数据。样本数据的输入数据包括仿真环境下的约束条件、优化目标等任务数据，例如限制行动方向、限制装备使用数量等约束条件，以及要求在最短的时间内使红方获胜，或者在红方损耗最小的情况下使红方获胜等优化目标。样本数据的输出数据为红蓝双方的行动方案，即需要执行的一系列动作序列构成的行动策略。
[0079]
数据上传模块2中存储的待评测强化学习模型对应的样本环境数据能够被仿真环境构建模块3所调用，以重建待评测强化学习模型训练时的仿真环境。待评测强化学习模型及对应的样本数据能够被仿真环境构建模块3、模型复测模块4和性能测试模块6所调用，以对待评测强化学习模型的功能进行复测，而且如果验证得到待评测强化学习模型的功能正常，则进一步对其在新应用仿真环境下的性能进行测试，以对其在新应用仿真环境下的能力和表现进行评测，判断是否能达到用户预期。
[0080]
仿真环境构建模块3，用于构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数据构建的新应用仿真环境。
[0081]
在本实施方式中，仿真环境构建模块3主要用于构建待评测强化学习模型的验证仿真环境，即通过调用数据上传模块2中的样本环境数据，重建待评测强化学习模型训练时的仿真环境，并将其作为第一仿真环境。同时，还用于构建待评测强化学习模型未来拟应用的仿真环境，即通过调用接口模块1中的真实环境数据构建新应用仿真环境，并将其作为第二仿真环境。
[0082]
需说明的是，重建待评测强化学习模型训练时的仿真环境，即第一仿真环境，是为了对待评测强化学习模型进行复测，验证其功能是否正常。由于通过数据上传模块2直接上传的待评测强化学习模型，并不能保证其在本评测系统中能够被正常使用，所以在对其进行全面评测、比较之前，需要先对其进行功能验证。验证通过后即可开始评测。构建待评测强化学习模型未来拟应用的仿真环境，即第二仿真环境，是为了测试待评测强化学习模型在新应用仿真环境下的能力，看待评测强化学习模型能否较好地适应变化的新环境，判断待评测强化学习模型在新环境中的表现是否能达到用户预期。
[0083]
模型复测模块4，用于将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行验证。
[0084]
在本实施方式中，模型复测模块4用于将待评测强化学习模型集成到第一仿真环境中，并利用样本数据对待评测强化学习模型进行复测，验证其功能是否正常。请参照图2，模型复测模块4的功能主要包括调用测试、运行测试两方面：
[0085]
调用测试子模块41，用于从数据上传模块2中调用待评测强化学习模型及对应的样本环境数据，将待评测强化学习模型集成到第一仿真环境中，以检测待评测强化学习模型能否被正常调用。
[0086]
本实施例在具体实现时，通过调用存储于数据上传模块2中的待评测强化学习模型及对应的样本环境数据，利用部署工具将待评测强化学习模型集成到第一仿真环境中，测试待评测强化学习模型在本技术的评测系统中是否可以正常被调用。如果调用失败，则待评测强化学习模型的评测结果为0分，即本技术的评测系统得到的该待评测强化学习模型的测试分数为0分，并不再进行下一步测评。如果调用成功，则进一步进行功能运行测试。
[0087]
运行测试子模块42，用于在待评测强化学习模型调用成功后，从数据上传模块2中调用待评测强化学习模型对应的样本数据，将样本数据中的输入数据输入待评测强化学习模型中进行处理，得到运行结果数据，并将运行结果数据与样本数据中对应的输出数据进行对比，以对待评测强化学习模型的功能进行验证。
[0088]
本实施例在具体实现时，如果待评测强化学习模型调用成功，则从数据上传模块2
中调用待评测强化学习模型对应的样本数据，将样本数据中的输入数据输入待评测强化学习模型中进行处理，得到运行结果数据。然后，将运行结果数据与样本数据中对应的输出数据进行对比，判断运行结果数据与样本数据中对应的输出数据是否一致。如果运行结果数据与样本数据中对应的输出数据不一致，说明待评测强化学习模型在本技术的评测系统中的运行功能有问题，则待评测强化学习模型的评测结果为0分，即本技术的评测系统得到的该待评测强化学习模型的测试分数为0分，并不再进行下一步测评。如果运行结果数据与样本数据中对应的输出数据一致，说明待评测强化学习模型在本技术的评测系统中的功能运行正常，则进一步进行综合性能评测。
[0089]
示例性的，若待评测强化学习模型训练时的仿真环境，即第一仿真环境，为蛇形棋盘对抗环境。棋盘上有许多小格子，每个格子代表一个位置，还有几个棋子和骰子，游戏最终的目标是使红方先到达“40”处。玩家每人拥有一个棋子，出发点均在“1”的格子处。过程中，玩家依次掷骰子，根据骰子的点数向前行进相应的步数。假设玩家的棋子在“1”处，并且投掷出“4”，则棋子就可以到达“5”的位置。其中，掷骰子的手法有两种可以选择，一种可以均匀投掷出1-6这6个数字，另一种可以均匀投掷出1-3这3个数字。最后，如果在到达时投掷的数字加上当前的位置超过了40，那么棋子将首先到达40，剩余的步数将反向前进。
[0090]
在根据上述信息作为样本数据的输入数据输入到待评测强化学习模型中后，经过推演得到的运行结果数据为：红方的状态-行动链{s0,a0,s1,a1,
……st-1
,a
t-1
,s
t
}，其中，s
t
表示t时刻的游戏状态，即红方棋子所在的位置，a
t
表示t时刻红方选择的手法。而如果在待评测强化学习模型的训练过程中，本身样本数据的输入数据对应的输出数据为：{s0,a0,s1,a1',
……st-1
,a
t-1
',s
t
}，即在红方棋子位置处于s1时，选择的是a1'投掷手法，在红方棋子位置处于s
t-1
时，选择的是a
t-1
'投掷手法。由于在本技术的评测系统中待评测强化学习模型推演出来的结果是红方棋子位置处于s1时，选择的是a1投掷手法，在红方棋子位置处于s
t-1
时，选择的是a
t-1
投掷手法，其与本身样本数据的输入数据对应的输出数据不一致，所以待评测强化学习模型在本技术的评测系统中的运行功能有问题，评测结果为0分，并不再进行下一步测评。
[0091]
基线算法模型管理模块5，用于对若干基线算法模型进行存储和管理，任一上述基线算法模型标记有对应的适用范围和边界条件。
[0092]
在本实施方式中，基线算法模型管理模块5集成了多种基线算模型，包括基于规则、遍历寻优、分支定界、蒙特卡洛仿真、遗传算法、粒子群算法、ppo算法、sac算法等多种算法模型，并且每种算法模型都会标注自己的适用范围及边界条件。
[0093]
示例性的，基于遍历寻优的算法模型会对每种情况进行仿真模拟，找到最优解，所以其得到的输出方案更优，但同时耗费时间也更长，不适用于对时间要求较短的环境中。ppo算法适用于多种类型的任务，不仅仅局限于单一任务的处理，其通过多步优化，稳定性更高，对环境的变化更加容忍，相比于其它算法，ppo算法的收敛性也更为稳定。sac算法是一种随机性策略方法，采样效率高、探索能力强、稳定性较高。在实际使用时，用户可以根据当前新应用仿真环境的要求及目标，从基线算法模型管理模块5中选择适用范围及边界条件都符合要求的基线算法模型。例如，当前新应用仿真环境是安防演练对抗环境，其目标是要求在最短的时间内使红方获胜，说明其更偏重于推演速度，选择时考虑到粒子群算法模型的速度相对更快，所以选择粒子群算法模型来与待评测强化学习模型进行对比测试，以
判断待评测强化学习模型的效果。
[0094]
性能测试模块6，用于分别测试上述待评测强化学习模型和选择的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数。
[0095]
在本实施方式中，首先根据新应用仿真环境的要求，选择合适的基线算法模型。然后根据用户的侧重点选择相应的评测时所使用的性能指标，包括可用性、优劣性、敏捷性和稳定性等。例如，用户更侧重算法模型的稳定性，则选择稳定性作为评测的性能指标，对比待评测强化学习模型和选择的基线算法模型在新应用仿真环境下的表现情况。如果用户更侧重算法模型的综合性能，则可以根据各角度的指标的性能情况进一步进行综合推算，对比待评测强化学习模型和选择的基线算法模型在新应用仿真环境下的综合表现情况。
[0096]
选择了用于对比的基线算法模型，并确定了评测的性能指标后，将待评测强化学习模型部署到新应用仿真环境中，并加载通过接口模块1实时接收的前端服务系统的动态环境数据，利用待评测强化学习模型进行仿真推演，得到对应的输出数据。然后根据预设的目标，判断待评测强化学习模型的任务完成情况。进一步的，可以采用多组动态环境数据进行测试，并统计任务完成的成功率、平均运行时间、平均奖励值等数据，用以计算待评测强化学习模型的可用性、优劣性、敏捷性和稳定性等多个角度的性能分数以及综合的测试分数。基线算法模型亦是如此。
[0097]
模型评测模块7，用于基于测试分数，分别计算上述待评测强化学习模型相对于上述基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。
[0098]
在本实施方式中，利用动态环境数据测得待评测强化学习模型和选择的基线算法模型在新应用仿真环境下的测试分数后，即可将待评测强化学习模型和选择的基线算法模型进行对比。具体包括：
[0099]
能力值计算子模块，用于基于上述测试分数，利用如下方式计算上述待评测强化学习模型相对于上述基线算法模型的能力值：
[0100][0101]
其中，a表示待评测强化学习模型的能力值，h
测
表示待评测强化学习模型的测试分数，h
基
表示基线算法模型的测试分数。
[0102]
通过上述方式，可以了解到待评测强化学习模型在新应用仿真环境下的表现性能相对于基线算法模型的性能优越性，且a越大，说明待评测强化学习模型在新应用仿真环境下的表现能力越好。至此，实现对待评测强化学习模型的自动化评测。相对于现有强化学习算法模型的评测是基于单一的或统计性指标，综合性能更优的模型就是更好的，但是没有对算法模型的使用范围及边界条件下的能力进行综合评估，本技术通过引入面向动态变化场景的模型评测技术和加权机制，将模型的综合指标与应用场景相结合，对算法模型进行了更加系统、全面的评测。
[0103]
此外，还包括：模型更新子模块，用于将能力值大于或等于预设阈值的上述待评测强化学习模型保存至上述基线算法模型管理模块5中，对上述基线算法模型进行更新。
[0104]
示例性的，用户可以根据实际情况自行设置一个能力值标准，例如20％，则当a≥20％时，说明待评测强化学习模型在新应用仿真环境下的性能表现较好，于是将待评测强化学习模型保存至基线算法模型管理模块5中，对基线算法模型进行更新。当后续需要在一
个类似的环境下，测试另一个待评测强化学习模型的性能表现时，即可从基线算法模型管理模块5中选择这个新加入进去的待评测强化学习模型作为基线算法模型用于对比。
[0105]
请参照图2，图2是本技术另一实施例提出的一种面向强化学习算法模型的自动化评测系统的结构示意图。可选地，上述性能测试模块6包括：
[0106]
指标确定子模块61，用于确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个。
[0107]
具体的，在确定评测所使用的性能指标时，可以通过选择工作模式来确定，包括：第一工作模式，用于根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。当用户评测算法模型的时间有限或有自己的评测方向时，可在模型的可用性、优劣性、敏捷性和稳定性角度自行选择一种或多种评测角度，将评测后的结果与基线算法的结果进行对比。第二工作模式，用于自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。当用户评测算法模型的时间充裕或想更加全面的评测算法模型时，能够一键自动完成对模型的可用性、优劣性、敏捷性和稳定性多角度的综合评测，将评测后的结果与基线算法的结果进行对比。
[0108]
基线算法模型选择子模块62，用于根据新应用仿真环境的要求，从上述基线算法模型管理模块5中选择并调用上述适用范围和边界条件符合要求的基线算法模型。具体参见上述基线算法模型管理模块5。
[0109]
模型测试子模块63，用于分别测试上述待评测强化学习模型和调用的基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数。
[0110]
具体的，性能分数主要包括四个方面：
[0111]
可用性分数计算单元，用于调用接口模块1中的真实环境数据，输入待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计待评测强化学习模型/基线算法模型的成功率，根据成功率计算对应的可用性分数：
[0112][0113]
其中，p1表示可用性分数，p表示成功率，a表示预设的标准值。
[0114]
本实施例在具体实现时，可以采用多组动态环境数据进行测试，并根据预设任务目标和输出结果统计任务完成的成功率，并将成功率与预设的标准值进行对比，判断待评测强化学习模型/基线算法模型的可用性。例如，待评测强化学习模型的成功率为80％，预设的标准值为70％，则待评测强化学习模型的可用性分数为1，体现了待评测强化学习模型在此新应用仿真环境下的模型适用程度。
[0115]
优劣性分数计算单元，用于调用接口模块1中的真实环境数据，输入待评测强化学习模型/基线算法模型中进行推演，得到对应输出的奖励值，并通过计算平均奖励值得到优劣性分数：
[0116][0117]
其中，p2表示优劣性分数，n表示真实环境数据的数量，mn表示第n组真实环境数据
对应的奖励值。
[0118]
本实施例在具体实现时，优劣性表示待评测强化学习模型/基线算法模型在此新应用仿真环境下的模型奖励分数。通过采用多组动态环境数据进行测试，统计模型每次输出的奖励值，并计算多组数据的平均奖励值得到模型的优劣性分数。其中，奖励值为输入动态环境数据后，模型推演得到的累积奖励值。例如，在某位置处，往前走得5分奖励值，往右走得7分奖励值；然后在下一位置往右走得3分，往左走得3分。最后根据模型输出的动作序列得到累积的奖励值。
[0119]
敏捷性分数计算单元，用于调用接口模块1中的真实环境数据，输入待评测强化学习模型/基线算法模型中进行推演，得到对应的平均运行时间，并根据平均运行时间和预设的任务要求时间计算敏捷性分数：
[0120][0121]
其中，p3表示敏捷性分数，t1表示平均运行时间，t2表示预设的任务要求时间。
[0122]
本实施例在具体实现时，敏捷性表示待评测强化学习模型/基线算法模型在此新应用仿真环境下的模型运行时间。通过采用多组动态环境数据进行测试，统计每次测试时的模型运行时间，并计算多组数据的平均运行时间，将其与用户预先设置的期望时间，即任务要求时间进行对比，得到敏捷性分数。
[0123]
稳定性分数计算单元，用于调用接口模块1中的真实环境数据，输入待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计待评测强化学习模型/基线算法模型的成功次数，根据成功次数计算对应的稳定性分数：
[0124][0125]
其中，p4表示稳定性分数，n表示真实环境数据的数量，n表示成功次数。
[0126]
本实施例在具体实现时，稳定性表示待评测强化学习模型/基线算法模型在此新应用仿真环境下的模型运行完成率。完成率越高，说明模型的稳定性越好。
[0127]
分数计算子模块64，用于根据上述性能分数进行综合计算，得到上述待评测强化学习模型和调用的基线算法模型各自的测试分数。
[0128]
具体的，主要包括：利用如下方式计算待评测强化学习模型和调用的基线算法模型各自的测试分数：
[0129][0130]
其中，h表示综合的测试分数，pi表示第i个性能指标的性能分数，wi表示用户预设的第i个性能指标的权重系数，m表示性能指标的个数。
[0131]
需说明的是，在评测过程中，针对用户实际需求，可自行选择评测的性能指标并自适应调整各性能指标的占比权重，即权重系数wi，从而得到更为贴近用户需求的模型算法。
[0132]
基于同一发明构思，本技术一实施例提供一种面向强化学习算法模型的自动化评测方法。请参照图3，图3是本技术一实施例提出的一种面向强化学习算法模型的自动化评测方法的流程图，该方法包括：
[0133]
步骤s101：获取构建新应用仿真环境所需的真实环境数据、待评测强化学习模型及对应的样本环境数据和样本数据，上述待评测强化学习模型是通过上述样本数据在上述样本环境下进行训练得到的；
[0134]
步骤s102：构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数据构建的新应用仿真环境；
[0135]
步骤s103：将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行复测；
[0136]
步骤s104：根据上述新应用仿真环境的要求，从预置的基线算法模型管理库中选择出适用范围和边界条件符合要求的基线算法模型；
[0137]
步骤s105：根据上述真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数；
[0138]
步骤s106：基于上述测试分数，分别计算上述待评测强化学习模型相对于各个基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。
[0139]
可选地，上述将待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行复测，包括：
[0140]
调用上述待评测强化学习模型及对应的样本环境数据，将上述待评测强化学习模型集成到上述第一仿真环境中，以检测上述待评测强化学习模型能否被正常调用；
[0141]
在上述待评测强化学习模型调用成功后，调用上述待评测强化学习模型对应的样本数据，将上述样本数据中的输入数据输入上述待评测强化学习模型中进行处理，得到运行结果数据，并将上述运行结果数据与样本数据中对应的输出数据进行对比，以对上述待评测强化学习模型的功能进行验证。
[0142]
可选地，上述根据真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数，包括：
[0143]
确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；
[0144]
分别测试上述待评测强化学习模型和上述基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；
[0145]
根据上述性能分数进行综合计算，得到上述待评测强化学习模型和上述基线算法模型各自的测试分数。
[0146]
可选地，上述方法还包括选择评测的工作模式：
[0147]
当选择第一工作模式时，根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比；
[0148]
当选择第二工作模式时，自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。
[0149]
可选地，上述分别测试上述待评测强化学习模型和上述基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数，包括：
[0150]
调用真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线
算法模型的成功率，根据成功率计算对应的可用性分数：
[0151][0152]
其中，p1表示可用性分数，p表示成功率，a表示预设的标准值；
[0153]
调用真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应输出的奖励值，并通过计算平均奖励值得到优劣性分数：
[0154][0155]
其中，p2表示优劣性分数，n表示真实环境数据的数量，mn表示第n组真实环境数据对应的奖励值；
[0156]
调用真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的平均运行时间，并根据平均运行时间和预设的任务要求时间计算敏捷性分数：
[0157][0158]
其中，p3表示敏捷性分数，t1表示平均运行时间，t2表示预设的任务要求时间；
[0159]
调用真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线算法模型的成功次数，根据成功次数计算对应的稳定性分数：
[0160][0161]
其中，p4表示稳定性分数，n表示真实环境数据的数量，n表示成功次数。
[0162]
可选地，上述根据性能分数进行综合计算，得到上述待评测强化学习模型和上述基线算法模型各自的测试分数，包括：
[0163]
利用如下方式计算待评测强化学习模型和调用的基线算法模型各自的测试分数：
[0164][0165]
其中，h表示综合的测试分数，pi表示第i个性能指标的性能分数，wi表示用户预设的第i个性能指标的权重系数，m表示性能指标的个数。
[0166]
可选地，上述基于测试分数，分别计算上述待评测强化学习模型相对于各个基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测，包括：
[0167]
基于上述测试分数，利用如下方式计算上述待评测强化学习模型相对于上述基线算法模型的能力值：
[0168][0169]
其中，a表示待评测强化学习模型的能力值，h
测
表示待评测强化学习模型的测试分数，h
基
表示基线算法模型的测试分数；
[0170]
将能力值大于或等于预设阈值的上述待评测强化学习模型保存至上述基线算法模型管理库中，对上述基线算法模型进行更新。
[0171]
对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0172]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0173]
本领域内的技术人员应明白，本技术实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0174]
本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0175]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0176]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0177]
尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
[0178]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0179]
以上对本技术所提供的一种面向强化学习算法模型的自动化评测系统及方法，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

技术特征：
1.一种面向强化学习算法模型的自动化评测系统，其特征在于，所述系统包括：接口模块，用于与真实应用系统进行通信，以接收构建新应用仿真环境所需的真实环境数据；数据上传模块，用于上传待评测强化学习模型及对应的样本环境数据和样本数据；仿真环境构建模块，用于构建第一仿真环境和第二仿真环境，所述第一仿真环境为根据所述样本环境数据重建的待评测强化学习模型训练时的仿真环境，所述第二仿真环境为根据所述真实环境数据构建的新应用仿真环境；模型复测模块，用于将所述待评测强化学习模型集成到所述第一仿真环境中，并利用所述样本数据对所述待评测强化学习模型的功能进行验证；基线算法模型管理模块，用于对若干基线算法模型进行存储和管理，任一所述基线算法模型标记有对应的适用范围和边界条件；性能测试模块，用于分别测试所述待评测强化学习模型和选择的基线算法模型在所述新应用仿真环境下的性能，得到对应的测试分数；模型评测模块，用于基于测试分数，分别计算所述待评测强化学习模型相对于所述基线算法模型的能力值，实现对所述待评测强化学习模型的自动化评测。2.根据权利要求1所述的系统，其特征在于，所述模型复测模块包括：调用测试子模块，用于从所述数据上传模块中调用所述待评测强化学习模型及对应的样本环境数据，将所述待评测强化学习模型集成到所述第一仿真环境中，以检测所述待评测强化学习模型能否被正常调用；运行测试子模块，用于在所述待评测强化学习模型调用成功后，从所述数据上传模块中调用所述待评测强化学习模型对应的样本数据，将所述样本数据中的输入数据输入所述待评测强化学习模型中进行处理，得到运行结果数据，并将所述运行结果数据与样本数据中对应的输出数据进行对比，以对所述待评测强化学习模型的功能进行验证。3.根据权利要求1所述的系统，其特征在于，所述性能测试模块包括：指标确定子模块，用于确定评测所使用的性能指标，所述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；基线算法模型选择子模块，用于根据新应用仿真环境的要求，从所述基线算法模型管理模块中选择并调用所述适用范围和边界条件符合要求的基线算法模型；模型测试子模块，用于分别测试所述待评测强化学习模型和调用的基线算法模型在所述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；分数计算子模块，用于根据所述性能分数进行综合计算，得到所述待评测强化学习模型和调用的基线算法模型各自的测试分数。4.根据权利要求3所述的系统，其特征在于，所述性能测试模块还用于选择评测的工作模式，包括：第一工作模式，用于根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与所述基线算法模型的测试分数进行对比；第二工作模式，用于自动完成对所述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与所述基线算法模型的测试分数进行对比。5.根据权利要求3所述的系统，其特征在于，所述模型测试子模块包括：
可用性分数计算单元，用于调用所述接口模块中的真实环境数据，输入所述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计所述待评测强化学习模型/基线算法模型的成功率，根据成功率计算对应的可用性分数：其中，p1表示可用性分数，p表示成功率，a表示预设的标准值；优劣性分数计算单元，用于调用所述接口模块中的真实环境数据，输入所述待评测强化学习模型/基线算法模型中进行推演，得到对应输出的奖励值，并通过计算平均奖励值得到优劣性分数：其中，p2表示优劣性分数，n表示真实环境数据的数量，m
n
表示第n组真实环境数据对应的奖励值；敏捷性分数计算单元，用于调用所述接口模块中的真实环境数据，输入所述待评测强化学习模型/基线算法模型中进行推演，得到对应的平均运行时间，并根据平均运行时间和预设的任务要求时间计算敏捷性分数：其中，p3表示敏捷性分数，t1表示平均运行时间，t2表示预设的任务要求时间；稳定性分数计算单元，用于调用所述接口模块中的真实环境数据，输入所述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计所述待评测强化学习模型/基线算法模型的成功次数，根据成功次数计算对应的稳定性分数：其中，p4表示稳定性分数，n表示真实环境数据的数量，n表示成功次数。6.根据权利要求3所述的系统，其特征在于，所述分数计算子模块包括：利用如下方式计算所述待评测强化学习模型和调用的基线算法模型各自的测试分数：其中，h表示综合的测试分数，p
i
表示第i个性能指标的性能分数，w
i
表示用户预设的第i个性能指标的权重系数，m表示性能指标的个数。7.根据权利要求1所述的系统，其特征在于，所述模型评测模块包括：能力值计算子模块，用于基于所述测试分数，利用如下方式计算所述待评测强化学习模型相对于所述基线算法模型的能力值：
其中，a表示待评测强化学习模型的能力值，h
测
表示待评测强化学习模型的测试分数，h
基
表示基线算法模型的测试分数；模型更新子模块，用于将能力值大于或等于预设阈值的所述待评测强化学习模型保存至所述基线算法模型管理模块中，对所述基线算法模型进行更新。8.一种面向强化学习算法模型的自动化评测方法，其特征在于，所述方法包括：获取构建新应用仿真环境所需的真实环境数据、待评测强化学习模型及对应的样本环境数据和样本数据，所述待评测强化学习模型是通过所述样本数据在所述样本环境下进行训练得到的；构建第一仿真环境和第二仿真环境，所述第一仿真环境为根据所述样本环境数据重建的待评测强化学习模型训练时的仿真环境，所述第二仿真环境为根据所述真实环境数据构建的新应用仿真环境；将所述待评测强化学习模型集成到所述第一仿真环境中，并利用所述样本数据对所述待评测强化学习模型的功能进行复测；根据所述新应用仿真环境的要求，从预置的基线算法模型管理库中选择出适用范围和边界条件符合要求的基线算法模型；根据所述真实环境数据分别测试所述待评测强化学习模型和选择出的基线算法模型在所述新应用仿真环境下的性能，得到对应的测试分数；基于所述测试分数，分别计算所述待评测强化学习模型相对于所述基线算法模型的能力值，实现对所述待评测强化学习模型的自动化评测。9.根据权利要求8所述的方法，其特征在于，所述根据真实环境数据分别测试所述待评测强化学习模型和选择出的基线算法模型在所述新应用仿真环境下的性能，得到对应的测试分数，包括：确定评测所使用的性能指标，所述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；分别测试所述待评测强化学习模型和所述基线算法模型在所述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；根据所述性能分数进行综合计算，得到所述待评测强化学习模型和所述基线算法模型各自的测试分数。10.根据权利要求9所述的方法，其特征在于，还包括选择评测的工作模式：当选择第一工作模式时，根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与所述基线算法模型的测试分数进行对比；当选择第二工作模式时，自动完成对所述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与所述基线算法模型的测试分数进行对比。

技术总结
本申请提供一种面向强化学习算法模型的自动化评测系统及方法，其中，系统包括：接口模块，用于接收真实环境数据；数据上传模块，用于上传待评测强化学习模型及样本环境数据和样本数据；仿真环境构建模块，用于重建待评测强化学习模型训练时的仿真环境和新应用仿真环境；模型复测模块，用于验证待评测强化学习模型的功能；基线算法模型管理模块，用于存储基线算法模型；性能测试模块，用于测试待评测强化学习模型和基线算法模型在新应用仿真环境下的性能；模型评测模块，用于计算待评测强化学习模型相对于基线算法模型的能力值。本申请引入面向动态变化场景的模型评测技术和加权机制，将模型的综合指标与应用场景相结合，对模型进行全面的评测。模型进行全面的评测。模型进行全面的评测。

技术研发人员：贾帅楠赵思聪曹扬彭渊吕乃冰吴双贾亦文
受保护的技术使用者：北京航天晨信科技有限责任公司
技术研发日：2023.07.24
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种挤出机废气收集罩装置的制作方法 下一篇：一种一体化下三工位开关及其智能化监测方法与流程

一种面向强化学习算法模型的自动化评测系统及方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种面向强化学习算法模型的自动化评测系统及方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表