模型评测方法、装置、电子设备及存储介质与流程
未命名
09-19
阅读:68
评论:0

1.本公开涉及一种模型评测方法、装置、电子设备及存储介质。
背景技术:
2.目前,诸如中文语言模型等模型的评测主要存在以下问题:
3.1)缺少规范化的评估体系和标准化的评估指标:中文语言模型评测需要确定合适的评估体系和评估指标,以衡量模型的性能。然而,目前尚未建立起一套广泛接受的、适用于中文语言模型的评估指标体系和评估指标。
4.2)人工评估的主观性和一致性存在问题:一些评测任务需要进行人工评估,例如生成文本质量的主观判断。然而,不同评估者对同一内容的评测结果可能存在明显的主观性差异,导致评测结果的一致性不足。
5.3)缺少领域适应性和泛化能力:现有的评测方法主要使用单一任务和单一评测指标对中文语言模型进行评测,无法全面评估中文语言模型在特定领域或特定任务上的表现。然而,实际的需求是中文语言模型的评测需要考虑模型在不同领域和任务中的适应性和泛化能力。
技术实现要素:
6.为了解决上述技术问题中的至少一个,本公开提供了一种模型评测方法、装置、电子设备及存储介质。
7.根据本公开的第一方面,提供了一种模型评测方法,包括:
8.配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,所述测试集至少包括适用于相应任务的测试样本;
9.执行所述多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,所述测试结果集至少包括所述待测模型对相应测试集中测试样本进行处理得到的预测结果;
10.评估所述多个任务的测试结果集以得到所述待测模型的评价结果,所述评价结果包括针对各任务的测试结果集进行评估得到的评价信息。
11.本公开的一些可能的实现方式中,所述待测模型为中文语言模型;所述多种能力包括:语言理解能力、语言生成能力、对话交互能力、知识获取及理解能力、逻辑推理能力、情景学习能力、多语言能力、模型安全性能力。
12.本公开的一些可能的实现方式中,所述多个任务包括:文本分类、信息抽取、自然语言推理、摘要生成、阅读理解、闭卷qa、多轮对话、知识问答、常识推断、数值计算、代码生成、zero-shot任务、few-shot任务、机器翻译、文本生成。
13.本公开的一些可能的实现方式中,所述评估所述多个任务的测试结果集以得到所述待测模型的评价结果,包括:分别调用各任务的评价模型对相应测试结果集进行处理以得到各任务的第一评价信息。
14.本公开的一些可能的实现方式中,所述评价模型为预先训练的机器学习模型、预先配置的评价函数或者预先配置的评测指标。
15.本公开的一些可能的实现方式中,所述评估所述多个任务的测试结果集以得到所述待测模型的评价结果,包括:获取评估员提供的针对所述多个任务中第一任务的对比结果,所述对比结果用于指示所述待测模型执行所述第一任务的能力相较于基准模型执行所述第一任务的能力的好坏;以及,利用所述第一任务的对比结果生成所述第一任务的第二评价信息;其中,所述基准模型由所述评估员选定或者预先配置。
16.本公开的一些可能的实现方式中,所述获取评估员提供的针对所述多个任务中第一任务的对比结果,包括:向评估员提供用于对比评价待测模型与基准模型的人机交互界面,响应于评估员对所述人机交互界面的操作得到所述第一任务的对比结果。
17.根据本公开的第二方面,提供了一种模型评测装置,包括:
18.任务配置单元,用于配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,所述测试集至少包括适用于相应任务的测试样本;
19.任务执行单元,用于执行所述多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,所述测试结果集至少包括所述待测模型对相应测试集中测试样本进行处理得到的预测结果;
20.评估单元,用于评估所述多个任务的测试结果集以得到所述待测模型的评价结果,所述评价结果包括针对各任务的测试结果集进行评估得到的评价信息。
21.根据本公开的第三方面,提供了一种电子设备,包括:
22.存储器,所述存储器存储执行指令;以及
23.处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述的模型评测方法。
24.根据本公开的第四方面,提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的模型评测方法。
25.本公开实施例能够全面均衡地对待测模型的多种能力进行准确高效评测。
附图说明
26.附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
27.图1是根据本公开的一些实施方式的模型评测方法的流程示意图。
28.图2是根据本公开的一些实施方式的中文语言模型的能力、任务与测试集的示意图。
29.图3a是根据本公开的一些实施方式的信息输入界面示例图。
30.图3b是根据本公开的一些实施方式的对比评价界面示例图。
31.图4是本公开的一个实施方式的采用处理系统的硬件实现方式的模型评测装置的结构示意框图。
具体实施方式
32.下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
33.需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
34.除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
35.在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
36.当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
37.本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
38.图1示出了本公开实施例的模型评测方法的流程示意图。参见图1,本公开的一些实施方式中,模型评测方法可以包括如下的步骤s102~步骤s106:
39.步骤s102,配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,测试集至少包括适用于相应任务的测试样本;
40.步骤s104,执行多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,测试结果集至少包括待测模型对相应测试集中测试样本进行处理得到的预测结果;
41.步骤s106,评估多个任务的测试结果集以得到待测模型的评价结果,评价结果包括针对各任务的测试结果集进行评估得到的评价信息
42.待测模型可以是任何需要评测的机器学习模型。例如,待测模型可以是中文语言
模型,该中文语言模型可以采用例如神经网络、支持向量机等多种模型架构,中文语言模型可以是具备多种中文语言能力的大语言模型,也可以是仅具备少量中文语言能力的常规语言模型。
43.评测待测模型多种能力的多个任务可以以任务序列的形式进行配置。该任务序列中的各项任务可以根据需要设置为按照预定时序执行的串行逻辑,也可以根据需要设置为同时执行的并行序列。对此,本公开实施例不作限制。
44.任务与能力可以是一一对应、多对一、一对多等多种对应关系,各项任务的测试集可以采用开源测试集、也可以自行构建。每项任务的测试集可以配置一个或多个。任务、能力与测试集的具体配置可以根据待测模型的规模、能力范围等灵活调整。
45.评价信息用于指示待测模型执行相应任务的能力好坏。一些实施方式中,评价信息可以包括下文的第一评价信息和/或第二评价信息,第一评价信息可以采用自动评估的方式得到,第二评价信息可以通过获取评估员提供的对比结果来获得。第一评价信息与第二评价信息分别可以通过例如分值、分数或者标识等各种方式来表示。
46.步骤s102中,可以通过构建「能力-任务-测试集」的分层框架来完成任务及其测试集的配置能力信息、任务信息和测试集的来源信息等,以便全面均衡地对待测模型的能力进行评测。
47.图2示出了中文语言模型的「能力-任务-测试集」的分层框架示意图。参见图2,对于中文大语言模型,其评测能力可以配置为如下多种:语言理解能力、语言生成能力、对话交互能力、知识获取及理解能力、逻辑推理能力、情景学习能力、多语言能力、模型安全性能力。相应的,用于评测这些能力的多个任务可以配置为如下多种:文本分类、信息抽取、自然语言推理、摘要生成、阅读理解、闭卷qa、多轮对话、知识问答、常识推断、数值计算、代码生成、zero-shot任务、few-shot任务、机器翻译、文本生成。各项能力、任务、测试集的对应关系可参见图2,图2的分层框架涵盖中文语言模型的8种重要的能力、15个自然语言处理(nature language processing,nlp)任务和20个代表性的测试集,通过不同的能力、不同的任务以及不同的测试集,能够全面均衡地对大规模语言模型能力做评测。
48.图2的示例中覆盖自然语言理解和自然语言生成两大任务体系,按照「能力-任务-数据集」的层次结构筛选和组织高质量数据集作为语言模型的测试集,能够为大规模语言模型能力提供更加全面系统和多层多维的评测标准。
49.在测试集的筛选方面,可以综合考量信度、难度以及效度,构建更加科学可靠的数据集来作为测试集。具体而言,参见图2,用于评测中文语言模型各项能力的测试集包括:用于评测中文语言模型的语言理解能力的4个数据集、用于评测中文语言模型的语言生成能力的7个数据集,用于评测中文语言模型的对话交互能力的1个数据集、用于评测中文语言模型的知识获取及理解能力的1个数据集、用于评测中文语言模型的逻辑推理能力的3个数据集、用于评测中文语言模型的情景学习能力的1个数据集、用于评测中文语言模型的多语言能力的1个数据集、用于评测中文语言模型的模型安全性能力的2个数据集。这些数据集可以采用公开数据集,也可以自行构建。
50.下面对图2所示示例中部分数据集及其来源做详细说明。
51.用于评测待测模型的语言理解能力的各项任务的测试集可以使用pclue套件,pclue套件是基于提示的大规模预训练数据集,其可用于多任务学习和零样本学习。pclue
套件中的单分类tnews和单分类iflytek可用于文本分类,ocnli可以用于自然语言推理,afqmc可以用于语义匹配,cluewsc2020可以用于指代消解、csl可用于关键词识别(即,摘要生成),自由式c3、抽取式cmrc2018、成语填空chid均可用于阅读理解。
52.hc3-chinese可用于评测中文语言模型的模型安全性能力。具体地,为了评测模型是否能保持诚实(不捏造信息或误导用户)、无害(不应产生有害或攻击性的内容)以及与人工专家相比有多大帮助(为用户的问题提供具体和正确的解决方案)等,可以采用hc3-chinese中的humanchatgpt对比语料库,该语料库的问题设计开放领域包括金融、医疗、法律和心理学领域等。
53.prompted数据集也可以用于评测中文语言模型的模型安全性能力。为了评测提示(prompt)对于语言模型性能影响,本公开实施例遵循t0使用的流程,提示是由众包生成的,因此,能够看到提示的不同长度和风格。为了提升质量和明确性,可以对每个提示执行多个同行评审。例如,多任务多提示,即相同任务构造不同的提示。又例如,多任务单提示,即,不同任务构造不同的提示。
54.步骤s104中,模型评测方法的执行主体可以根据预先配置的测试集的来源信息从外部数据库或者本地存储器获取测试集,运行待测模型对当前获取的测试集进行处理从而获得该测试集中各项测试样本的预测结果,由这些预测结果形成对应该测试集的测试结果集并保存于预先指定的存储空间中。如此,针对各个任务的测试集一一处理即可获得各项任务的测试结果集。
55.步骤s104中,若一项任务配置有多个测试集,可以获取这多个测试集中所有测试集的测试结果集,也可以从这多个测试集中选择部分测试集进行处理,获取所选的部分测试集对应的测试结果集即可。测试集的选择可以采用多种方式,例如随机、指定等,对于测试集的选择方式,本公开实施例不作限制。
56.步骤s104中,待测模型的多个任务可以并行执行,也可串行,当然还可采用其他方式。对于具体的执行方式,本公开实施例不作限制。
57.一些实施方式中,步骤s106中可以包括:步骤a1,分别调用各任务的评价模型对相应测试结果集进行处理以得到各任务的第一评价信息。由此,可以通过自动执行的方式使用评测模型对待测模型执行各项任务的情况进行评分,也即,可以使用一些可量化的指标来评估待测模型的各项性能,具有高效率、低成本、评估结果客观且可复现、能够处理多维度评估等优点。
58.评价模型可以是但不限于预先训练的具有相应评测功能的机器学习模型、预先配置的评价函数或者预先配置的评测指标。第一评价信息可以是但不限于分值、分数等形式,第一评价信息的取值大小可以直接指示待测模型执行相应任务的能力好坏。第一评价信息还可以是其他形式,对于第一评价信息的具体表示方式、评价模型的选择等,本公开实施例不作限制。
59.测试集中除包含测试样本外,还可以包含测试样本的标记等信息,该标记也可称为测试样本的标签或者真实标记,其可用于评估测试结果集中相应测试样本的预测结果。不同的测试样本,不同的待测模型,不同的执行方式或处理方式,其标记均不同。同一测试样本可以具有多种标记,对应测试样本的多种预测结果。步骤s106中,对于一些特定任务,可以调用该任务的评价模型对相应测试结果集和相应测试集中的标记同时进行处理以得
到该任务的第一评价信息。对于其他任务,可以直接调用该任务的评价模型对相应测试结果集进行处理来得到该人物的第一评价信息。是否需要标记,与任务类型和评价模型的选择有关,对此,本公开实施例不作限制。
60.具体应用中,评价模型的配置可以在步骤s102中执行。在进行任务及其测试集的配置时,可以同时配置各项任务或者各个测试集对应的评价模型。下表3示出了中文语言模型的能力、任务、测试集及其评测指标的对应配置信息。
61.62.[0063][0064]
表3
[0065]
下面对表3中的评测指标做详细说明。
[0066]
自然语言理解任务大部分可以归为分类问题,而accuracy和f1score都是用于判断分类任务匹配精确程度最常用的评测指标,其广泛应用于文本分类、序列标注、信息检索等领域。
[0067]
机器翻译、文本摘要、对话生成等多个任务均属于自然语言生成任务。衡量一句话生成的好坏,无法简单用正确和错误来分类,而是包含多个层次、多个维度的评价,因此,自然语言生成任务使用的评测指标较为复杂。本公开实施例中,通过测量ppl、distinct-n和bleu-n来衡量中文语言模型执行自然语言生成任务的能力。
[0068]
ppl是指:给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的语言模型就是在测试集上的概率越高越好。困惑度是句子概率的倒数,句子概率越大,中文语言模型越好,困惑度越小。
[0069]
em是指:对于每个“问题+答案”对,如果模型预测的答案与正确答案(之一)的字符完全匹配,则em=1,否则em=0。这是一个严格的有或无的指标。如有单字错误仍然得分为0。在针对负面示例进行评估时,如果模型预测了任何文本,它会自动为该示例得分为0。
[0070]
rouge(recall-oriented understudy for gisting evaluation)是评估自动文摘以及机器翻译的一组指标,它通过将自动生成的摘要或译文与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或译文与参考摘要之间的“相似度”。
[0071]
在诸如对话、广告文案等生成场景中需追求文本的多样性。distinct-n的分值越大表示中文语言模型生成的文本多样性越高。
[0072]
bleu-n是比较中文语言模型的候选生成文本和参考文本里的n-gram的重合程度,重合程度越高说明中文语言模型的生成文本质量越高。
[0073]
pass@k、maj1@k等均属于特殊评测指标。其中,maj1@k可以用于评估数学计算的能力,表示为每个问题生成k个样本并执行多数表决的评估;其中,最后的答案可以进行多轮平均。pass@k可以用于评估代码生成的能力,表示为一个问题生成k个结果,只要有一个通过就算通过。
[0074]
考虑到大型语言模型已被证明优于这些基准,并解锁了例如算术、少样本学习和多步推理等新能力,因此,还需要从逻辑和常识推理、数据集特定偏差、模型跟踪信息的能力以及没有特定任务梯度优化的下游任务等几个方面测试中文语言模型。大型语言模型的
这些能力的评测可以采用下文的人工评估方法来实现。
[0075]
考虑到步骤a1的自动评估难以准确评估创造力、幽默感和吸引力等能力。因此,本公开实施例在步骤s106中加入了人工评估的步骤。也即,本公开实施例的一些实施方式中,步骤s106中还可以包括:步骤a2,获取评估员提供的针对多个任务中第一任务的对比结果,并利用第一任务的对比结果生成第一任务的第二评价信息。其中,对比结果用于指示待测模型执行第一任务的能力相较于基准模型执行第一任务的能力的好坏。基准模型可以包括一个或多个预先配置的至少具有待测模型的部分功能的标准模型,基准模型可以由评估员选定或者可以预先配置。
[0076]
第一任务是指步骤s102中配置的多个任务中的任意一个任务,可以由用户选定,也可以通过默认配置方式的来指定。例如,可以由评估员从步骤s102中配置的多个任务中选择出第一任务。又例如,可以在步骤s102中,针对需要进行人工评估的部分任务配置需要人工评估的指示标识等。
[0077]
尽管人工评估是目前被广泛认可的全面且准确的评测方法,但是人工评估也存在着不同评估员的主观差异性、人力资源消耗较大、时效性天花板较低等问题,步骤a2中,通过获取评估员对待测模型与基准模型的对比结果来获取待测模型的第二评价信息,可以避免由于评测员之间对指标理解的差异性、量表设计的缺陷而带来的问题。
[0078]
步骤a2中,可以向评估员提供用于对比评价待测模型与基准模型的人机交互界面,响应于评估员对人机交互界面的操作得到第一任务的对比结果。
[0079]
具体地,步骤a2中获取评估员提供的针对多个任务中第一任务的对比结果的过程可以包括如下的步骤b1~步骤b4:
[0080]
步骤b1,提供信息输入界面,信息输入界面提供有第一控件、第二控件和第三控件,第一控件用于供评估员输入待测模型的信息和基准模型的信息,第二控件用于供评估员选定第一测试样本,第三控件用于供评估员输入指令;
[0081]
步骤b2,响应于评估员针对第三控件的操作,根据待测模型的信息和基准模型的信息调用待测模型和基准模型分别对第一测试样本进行处理以得到第一测试结果和第二测试结果;
[0082]
步骤b3,展示比对评价界面,比对评价界面用于将第一测试结果和第二测试结果进行对比展示以便评估员,比对评价界面还提供有第四控件,第四控件用于供评估员输入待测模型与基准模型的比对结果;
[0083]
步骤b4,响应于评估员针对第四控件的操作,生成待测模型与基准模型的对比评价信息,对比评价信息包含评估员输入的待测模型与基准模型的对比结果。
[0084]
信息输入界面、对比评价界面中,第一控件、第二控件、第三控件和第四控件的具体类型不限,可以根据需要灵活配置。对比评价界面除了展示测试结果之外,还可同时展示诸如耗时等信息,以便评估员全面了解待测模型与基准模型执行相应任务的情况。
[0085]
由于人工评估往往采取众包的形式,因此,模型评测的执行主体提供的曝光位置偏差的问题及前端界面设计对评测结果有很大影响。举例而言,不同模型位置对评估员是有干扰的,通常人们更倾向于选择第一条。再比如,如果前端界面将所有待评测内容罗列到一个密集的区间中,很容易令评估员感到疲惫,导致评测精度下降。因此,在具体应用中,考虑到评估员和待评测内容的特点,可以有针对性地设计人机交互界面。例如,人机交互界面
可以采用单条展现、模型位置随机等手段来避免上述问题。
[0086]
以大型语言模型为例,图3a示出了信息输入界面的示例图,图3b示出了对比评价界面的示例图。参见图3a和图3b,第一控件和第四控件均采用了combobox,第二控件为textbox,第三控件为图标呈现为“生成”的button。参见图3a和图3b,评估员选择的基准模型为text-davinci-003,待测模型为gpt3.5-turbo,相应的对比结果可以包括如下的几种:gpt3.5-turbo比text-davinci-003好、text-davinci-003比gpt3.5-turbo好、都不好、都好、无法选择。评估员只需要查看对比评价界面中展示的测试结果,在这5种对比结果作出选择即可。显然,图3a与图3b采用了对比排序(relative ranking)的评价方式,其通过直接对不同语言模型的回复进行比较得到最终的评价结果,相较于直接要求评估员对待评测内容给出评估得分的方式而言,图3a与图3b的方式能够更好地避免不同评估员对不同等级、不同指标的理解存在主观性而带来的差异,从而提高待测模型的评测准确性。
[0087]
步骤a2中,利用第一任务的对比结果生成第一任务的第二评价信息的过程可以包括:收集多个评估员针对待测模型的第一任务提供的对比结果,通过诸如相对排序等处理这多个评估员的对比结果来得到第一任务的第二评分,第二评分可以指示待测模型相较于基准模型在执行第一任务的能力上的好坏。
[0088]
示例性地,步骤a2的具体操作流程如下:首先,将待测模型和基准模型针对同一输入信息(即,同一测试样本)的回复作为一组提供给评估员;然后,评测员依次通过两两比较得出哪个模型的回复更好,直至可以得到针对该输入信息、每个模型的回复的最终排名,最后根据不同语言模型在多轮评估后的平均排名比较不同模型执行对话任务的性能差异。当参与评价的模型较多时,可以每轮从所有系统中选择5组参与评价,并保证每个系统参与评价的轮数相同,来达到减少评价次数的目的。该方法可以避免由于评估员之间对指标理解的差异性、量表设计的缺陷而带来的问题。
[0089]
本公开实施例通过前述自动评估与人工评估相结合的评估方式,不仅能够同时对待测模型的多种能力进行多层次多维度的评测,而且能够显著提高评测准确性,避免不同评估员对不同等级、不同指标的理解存在主观性而带来的差异对评测结果的准确性产生影响。
[0090]
图4是本公开的一个实施方式的采用处理系统的硬件实现方式的模型评测装置400的结构示意框图。
[0091]
该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
[0092]
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线500将包括一个或多个处理器600、存储器700和/或硬件模块的各种电路连接到一起。总线500还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路800连接。
[0093]
总线500可以是工业标准体系结构(isa,industry standard architecture)总线、外部设备互连(pci,peripheral component)总线或扩展工业标准体系结构(eisa,
extended industry standard component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
[0094]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一.
[0095]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0096]
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
[0097]
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0098]
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
[0099]
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
[0100]
图4是根据本公开的一个实施方式的模型评测装置400的一种结构示意图。如图4所示,根据本公开的一些实施方式的模型评测装置400可以包括:
[0101]
任务配置单元402,用于配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,测试集至少包括适用于相应任务的测试样本;
[0102]
任务执行单元404,用于执行多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,测试结果集至少包括待测模型对相应测试集中测试样本进行处理得到的预测结果;
[0103]
评估单元406,用于评估多个任务的测试结果集以得到待测模型的评价结果,评价结果包括针对各任务的测试结果集进行评估得到的评价信息。
[0104]
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的模型评测方法。
[0105]
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的模型评测方法。
[0106]
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
[0107]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0108]
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
技术特征:
1.一种模型评测方法,其特征在于,包括:配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,所述测试集至少包括适用于相应任务的测试样本;执行所述多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,所述测试结果集至少包括所述待测模型对相应测试集中测试样本进行处理得到的预测结果;评估所述多个任务的测试结果集以得到所述待测模型的评价结果,所述评价结果包括针对各任务的测试结果集进行评估得到的评价信息。2.根据权利要求1所述的模型评测方法,其特征在于,所述待测模型为中文语言模型;所述多种能力包括:语言理解能力、语言生成能力、对话交互能力、知识获取及理解能力、逻辑推理能力、情景学习能力、多语言能力、模型安全性能力。3.根据权利要求2所述的模型评测方法,其特征在于,所述多个任务包括:文本分类、信息抽取、自然语言推理、摘要生成、阅读理解、闭卷qa、多轮对话、知识问答、常识推断、数值计算、代码生成、zero-shot任务、few-shot任务、机器翻译、文本生成。4.根据权利要求1所述的模型评测方法,其特征在于,所述评估所述多个任务的测试结果集以得到所述待测模型的评价结果,包括:分别调用各任务的评价模型对相应测试结果集进行处理以得到各任务的第一评价信息。5.根据权利要求4所述的模型评测方法,其特征在于,所述评价模型为预先训练的机器学习模型、预先配置的评价函数或者预先配置的评测指标。6.根据权利要求4所述的模型评测方法,其特征在于,所述评估所述多个任务的测试结果集以得到所述待测模型的评价结果,包括:获取评估员提供的针对所述多个任务中第一任务的对比结果,所述对比结果用于指示所述待测模型执行所述第一任务的能力相较于基准模型执行所述第一任务的能力的好坏;利用所述第一任务的对比结果生成所述第一任务的第二评价信息;其中,所述基准模型由所述评估员选定或者预先配置。7.根据权利要求6所述的模型评测方法,其特征在于,所述获取评估员提供的针对所述多个任务中第一任务的对比结果,包括:向评估员提供用于对比评价待测模型与基准模型的人机交互界面,响应于评估员对所述人机交互界面的操作得到所述第一任务的对比结果。8.一种模型评测装置,其特征在于,包括:任务配置单元,用于配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,所述测试集至少包括适用于相应任务的测试样本;任务执行单元,用于执行所述多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,所述测试结果集至少包括所述待测模型对相应测试集中测试样本进行处理得到的预测结果;评估单元,用于评估所述多个任务的测试结果集以得到所述待测模型的评价结果,所述评价结果包括针对各任务的测试结果集进行评估得到的评价信息。9.一种电子设备,其特征在于,包括:存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至7中任一项所述的模型评测方法。10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的模型评测方法。
技术总结
本公开提供了一种模型评测方法、装置、电子设备及存储介质。本公开实施例的模型评测方法包括:配置用于评测待测模型多种能力的多个任务并为各任务设置测试集,测试集至少包括适用于相应任务的测试样本;执行多个任务以调用待测模型处理相应测试集来获得各任务的测试结果集,测试结果集至少包括待测模型对相应测试集中测试样本进行处理得到的预测结果;评估多个任务的测试结果集以得到待测模型的评价结果,评价结果包括针对各任务的测试结果集进行评估得到的评价信息。本公开实施例能够全面均衡地对待测模型的多种能力进行准确高效评测。测。测。
技术研发人员:孙鹏飞 李志飞
受保护的技术使用者:上海墨百意信息科技有限公司
技术研发日:2023.07.14
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/