常识增强的多轮对话应答排序方法和装置
未命名
08-26
阅读:100
评论:0

1.本发明涉及对话系统技术领域,特别是涉及常识增强的多轮对话应答排序方法和装置。
背景技术:
2.多轮对话应答候选集排序是对话系统的核心操作之一。例如,生成式对话系统由生成模型根据对话内容生成若干语句作为候选集,检索式对话系统从已有的语料库中筛选出符合当前对话内容的语句作为候选集,然后对已有的应答候选集进行排序。已有基于神经网络、预训练语言模型的方法能够对应答候选集进行排序,但是对于上下文较长且有背景信息限制的复杂对话,常常需要一定的常识知识来辅助对话。
3.高级人工智能最重要的任务之一是构建能够与人无障碍交流的对话系统,目前对话系统主要分为生成式和检索式两种类型。生成式对话系统由生成模型根据对话内容生成若干语句作为候选集,检索式对话系统从已有的语料库中筛选出符合当前对话内容的语句作为候选集,两种对话系统都需要对已有的应答候选集进行排序。因此,多轮对话应答候选集排序是对话系统必不可少的组件之一。传统方法侧重于分别为上下文和响应生成更全面的表示,并通过匹配层获得最终匹配得分。随着深度神经网络的蓬勃发展,研究人员利用卷积神经网络(cnn)、循环神经网络(rnn)以及与多层感知器(mlp)和池化层相结合的自注意机制来学习有效的表示。近年来,研究人员基于预训练语言模型(plms)的注意力机制更全面地学习所有上下文句子和应答候选者之间的关联关系,提出基于针对应答候选排序问题的各种模型变体。与此同时,各种利用对话背景知识来提升效果的方法也相继被提出,例如来自维基百科的实体信息框。但是要理解背景知识与对话上下文之间的关系往往还需要借助人类的常识进行有效的推理,而已有方法忽略了这一点。
技术实现要素:
4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本发明提出一种常识增强的多轮对话应答排序方法,将预训练语言模型与图神经网络相结合,设计了一个名为sinlg的孪生网络框,在线上预测过程中仅利用训练好的plms对应答候选集进行排序,省去gnn部分繁重的计算,实现应答候选集快速排序。
6.本发明的另一个目的在于提出一种常识增强的多轮对话应答排序装置。
7.为达上述目的,本发明一方面提出一种常识增强的多轮对话应答排序方法,包括:
8.基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;
9.将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;
10.将所述两个表征向量之间的相似度和基于所述应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优
化,以得到训练好的应答网络模型;
11.将第二对话数据输入至所述训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。
12.另外,根据本发明上述实施例的常识增强的多轮对话应答排序方法还可以具有以下附加的技术特征:
13.进一步地,在本发明的一个实施例中,所述应答网络模型,包括预训练语言模型;预处理所述第一对话数据和实体子图,包括:
14.将所述分词结果进行连接处理得到输入序列;以及,
15.将所述实体子图的各个实体输入至所述预训练语言模型,输出得到具有初始化表征向量的子图。
16.进一步地,在本发明的一个实施例中,所述应答网络模型,还包括图神经网络;所述将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量,包括:
17.将所述输入序列输入至所述预训练语言模型得到上下文节点的第一表征向量;以及,
18.将所述子图输入至所述图神经网络进行计算,根据计算结果输出得到上下文节点的第二表征向量。
19.进一步地,在本发明的一个实施例中,所述将所述两个表征向量之间的相似度和基于所述应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优化,以得到训练好的应答网络模型,包括:
20.计算所述第一表征向量和所述第二表征向量之间的相似度;
21.将所述第一表征向量输入至所述图神经网络进行计算输出得到应答输出预测结果;
22.计算所述应答输出预测结果和应答输出真实结果之间的交叉熵,并将所述相似度和所述交叉熵进行预处理得到数据预处理结果;
23.将所述数据预处理结果作为目标函数对所述预训练语言模进行训练优化,以基于训练优化结果得到训练好的应答网络模型。
24.进一步地,在本发明的一个实施例中,所述基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图,包括:
25.对所述第一对话数据进行分词处理得到分词结果;
26.根据所述分词结果和实体链接从所述常识知识图谱中抽取得到相关联的若干个实体,并利用所述若干个实体构建实体子图。
27.为达上述目的,本发明另一方面提出一种常识增强的多轮对话应答排序装置,包括:
28.知识抽取模块,用于基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;
29.向量表征模块,用于将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;
30.模型训练模块,用于将所述两个表征向量之间的相似度和基于所述应答网络模型
输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优化,以得到训练好的应答网络模型;
31.应答排序模块,用于将第二对话数据输入至所述训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。
32.本发明实施例的常识增强的多轮对话应答排序方法和装置,可以更好地发挥其强大的语言表示和理解能力,对对话文本进行建模,多头注意机制可以充分捕捉上下文、以及应答候选对象每个词语之间的关系,从而对应答候选对象产生全面的理解。在线上预测过程中仅利用训练好的plms对应答候选集进行排序,省去gnn部分繁重的计算,提高应答集排序效率。
33.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
34.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
35.图1是根据本发明实施例的常识增强的多轮对话应答排序方法的流程图;
36.图2是根据本发明实施例的常识增强的多轮对话应答排序方法中的模型训练流程图;
37.图3是根据本发明实施例的常识增强的多轮对话应答排序装置的结构示意图。
具体实施方式
38.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
39.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
40.下面参照附图描述根据本发明实施例提出的常识增强的多轮对话应答排序方法和装置。
41.本发明将预训练语言模型与图神经网络相结合,设计了一个名为sinlg的孪生网络框架。众所周知,plms可以通过其庞大参数的强大记忆能力,通过预训练过程积累大量的语言原理和知识。plms具有较强的语言表示和理解能力,但由于应用不当,特别是在目标任务需要特定背景知识的情况下,其性能提升与以往研究相比可能受到限制。因此,本发明提出通过将来自外部知识图(kg)的常识与图神经网络(gnn)结合来提高plms的性能,从而激发plms的相关知识记忆。gnn负责从额外的知识图中推理出有用的常识信息,并协助plms进行微调。随着常识知识的补充,plms的性能可以在更复杂、难度更大的理解任务中得到提高。并没有将从kg学习到的表征向量直接附加到plms的表征向量之后,而是提出了kg指导的高效推理训练,即将gnn和plms表征向量之间的相似度作为自监督目标函数之一去优化,
帮助plms实现更好的性能。这样,不仅可以将常识知识从gnn转移到plms,还可以增强监督信号,使框架在有限的训练数据中得到更好地泛化。plms可以更好地发挥其强大的语言表示和理解能力,对对话文本进行建模,多头注意机制可以充分捕捉上下文、以及应答候选对象每个词语之间的关系,从而对应答候选对象产生全面的理解。在线上预测过程中仅利用训练好的plms对应答候选集进行排序,省去gnn部分繁重的计算,如实体链接、概念排序等,耗时较长,会导致较高的延迟和较差的用户体验。
42.图1是本发明实施例的常识增强的多轮对话应答排序方法的流程图。
43.如图1所示,该方法包括但不限于以下步骤:
44.s1,基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;
45.s2,将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;
46.s3,将两个表征向量之间的相似度和基于应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对应答网络模型进行训练优化,以得到训练好的应答网络模型;
47.s4,将第二对话数据输入至训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。
48.图2是根据本发明实施例的常识增强的多轮对话应答排序方法中的模型训练流程图,具体需要对提出的sinlg的孪生网络框架进行整体训练。如图2所示。
49.可以理解的是,本发明需要解决的问题可以形式化定义为:输入是一个对话数据集d={di:(pi,ci,ri,yi)},其中i={1,2,...,|d|},以及一个常识知识图谱g=(v,e,t)。其中p表示对话的人设信息,c表示对话上下文,r表示应答候选者集合,y表示应答候选者对应的合理性评分集合,数据集d有|d|条样本数据;v表示|v|个节点的集合,e表示|e|条边的集合,t表示边有|t|种类型,e属于节点和边类型的笛卡尔积得到的集合v
×
t
×
v。输出是一个排序模型,可表示为:f(pi,ci,ri,g)
→
yi。
50.本发明实施例的常识增强的多轮对话应答排序技术sinlg,sinlg是基于预训练语言模型(plms)和图神经网络(gnns)的孪生网络框架。plms利用注意力机制学习语句中各个词语之间的关联关系,相当于一个编码器,输入语句,输出语句的表征向量,通常可以用以下函数表示:
51.h
p
=f
p
(u),
52.其中u表示输入语句,h
p
表示语句的表征向量;gnns则利用信息传递机制将有效信息通过邻居信息的不断集成进行加强,输入一个图并指定一个结点,输出指定结点的表征向量,通常可以用以下函数表示:
53.hi=fg(g,vi),
54.其中g表示输入的图数据,vi表示指定的结点,hi表示vi的表征向量。我们以一个对话上下文和应答候选项对(pi,ci,r
i,k
,y
i,k
)为例,其中r
i,k
表示第k个应答候选项,y
i,k
表示对应的标签。
55.具体地,获取对话数据集d,常识知识图谱g。并根据对话内容从知识图谱中抽取相关联的实体作为节点,构建一个实体子图。
56.在本发明的一些实施例中,根据对话数据pi,ci,r
i,k
的分词结果,通过实体链接从知识图谱中抽取相关联的若干个实体(例如100个)构建一个实体子图g
i,k
,其中对话上下文也作为一个虚拟结点与其他实体结点进行连接,权重为通过plms计算得到的相关性系数。
57.可以理解的是,分词结果是将对话长句子分割成一个个的单词或短语的过程叫分词,例如:do you like hot dog?分词结果为:do;you;like;hot dog。
58.可以理解的是,该实体链接是将对话数据的分词结果分别与知识图谱中的实体进行匹配。
59.可以理解的是,该相关性系数是用来衡量实体子图中的节点与对话上下文节点之间关系的强弱,也就是知识图谱中抽取的知识对对话上下文有没有实际作用,以及该作用的大小。
60.进一步地,对对话数据和上述得到的实体子图分别进行预处理,作为预训练语言模型和图神经网络的输入数据。
61.在本发明的一些实施例中,将对话数据pi,ci,r
i,k
的分词结果连接起来组成一个输入序列a
i,k
;将实体子图的各个实体输入plms得到具有初始化表征向量的子图g
′
i,k
,其中上下文虚拟结点用字母b表示。
62.可以理解的是,a
i,k
的组成为pi,ci,r
i,k
,其中pi,ci为对话上下文,r
i,k
为应答候选项。
63.进一步地,将数据准备操作得到的结果分别输入预训练语言模型和图神经网络,得到对话上下文的两个表征向量。
64.在本发明的一些实施例中,将序列a
i,k
输入预训练语言模型得到对话上下文及应答候选项的一个表征向量ha=f
p
(a
i,k
),将子图g
′
i,k
输入图神经网络,得到另一个表征向量hb:
65.hb=fg(g
′
i,k
,b)。
66.进一步地,计算上述得到的两个表征向量之间的相似度,作为目标函数的一部分;利用预训练语言模型计算得到的表征向量通过一个全连接层计算得到预测结果。
67.在本发明的一些实施例中,计算两个表征向量之间的相似度,作为目标函数的一部分:
68.l
cos
=cosinesimilarity(ha,hb),
69.由表征向量ha计算得到预测结果即每个应答候选项的评分,也即线上预测时,仅使用训练好的plms即可,其中fd全连接层网络:
[0070][0071]
进一步地,计算预测结果和真实值之间的交叉熵,(真实值即为真实结果是数据集自带的标签,每个应答候选项符合对话上下文内容时评分为1,不符合时评分为0)将计算得到的相似度最大化,交叉熵最小化,二者组合作为目标函数对模型进行训练优化。
[0072]
在本发明的一些实施例中,计算预测结果与真实结果之间的交叉熵:
[0073][0074]
与上述计算的相似度组合之后作为最终的目标函数对模型进行训练优化,即:
[0075]
l=αl
bce
+(1-α)l
cos
,
[0076]
根据超参实验分析,α取0.5或0.7时效果最佳。
[0077]
最后,输出训练好的模型,即训练好的应答网络模型。
[0078]
由此,将新地的对话数据输入至训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。
[0079]
进一步地,本发明的实验结果如下:
[0080]
为了验证常识增强的多轮对话应答排序技术sinlg的有效性,在多轮对话数据集persona-chat上进行了实验,它包括两个理解难度不同的数据集original和revised,其中revised相较original进行了改写和重组,难度系数更高。实验结果表明sinlg相比基线模型有明显优势,尤其是在难度较大的数据集上,有大于2%的提升。从sinlg相比plms的性能增益可以看出,外部常识知识可以为其提供辅助信息以提升其性能。这表明plms并不总是通过微调表现出最佳性能,额外的知识可以帮助唤起它们对某些特定任务的相关记忆。
[0081]
为了保证常识增强的多轮对话应答排序技术sinlg的效率,本发明将模型设计成知识图谱引导式训练,仅训练阶段通过gnns进行有效知识引入和指导,预测阶段使用训练好的plms。实验结果表明,对于一个样本,同时包含plms和gnns两个模块时需要的平均、最差和最优计算时间分别为1.8315s、2.534s、1.5523s,而我们设计的方案能够是模型保持与plms相同的运算效率,其平均、最差和最优计算时间分别为0.2271s、0.221s、0.216s。
[0082]
根据本发明实施例的常识增强的多轮对话应答排序方法,可以更好地发挥其强大的语言表示和理解能力,对对话文本进行建模,多头注意机制可以充分捕捉上下文、以及应答候选对象每个词语之间的关系,从而对应答候选对象产生全面的理解。在线上预测过程中仅利用训练好的plms对应答候选集进行排序,省去gnn部分繁重的计算,提高应答集排序效率。
[0083]
为了实现上述实施例,如图3所示,本实施例中还提供了常识增强的多轮对话应答排序装置10,该装置10包括,知识抽取模块100、向量表征模块200、模型训练模块300和应答排序模块400。
[0084]
知识抽取模块100,用于基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;
[0085]
向量表征模块200,用于将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;
[0086]
模型训练模块300,用于将两个表征向量之间的相似度和基于应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对应答网络模型进行训练优化,以得到训练好的应答网络模型;
[0087]
应答排序模块400,用于将第二对话数据输入至训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。
[0088]
进一步地,应答网络模型,包括预训练语言模型;在向量表征模块200之前,还包括预处理模块,用于预处理第一对话数据和实体子图,包括:
[0089]
将分词结果进行连接处理得到输入序列;以及,
[0090]
将实体子图的各个实体输入至预训练语言模型,输出得到具有初始化表征向量的子图。
[0091]
进一步地,应答网络模型,还包括图神经网络;上述向量表征模块200,还用于:
[0092]
将所述输入序列输入至预训练语言模型得到上下文节点的第一表征向量;以及,
[0093]
将子图输入至所述图神经网络进行计算,根据计算结果输出得到上下文节点的第二表征向量。
[0094]
进一步地,模型训练模块300,还用于:
[0095]
计算第一表征向量和所述第二表征向量之间的相似度;
[0096]
将第一表征向量输入至图神经网络进行计算输出得到应答输出预测结果;
[0097]
计算应答输出预测结果和应答输出真实结果之间的交叉熵,并将相似度和交叉熵进行预处理得到数据预处理结果;
[0098]
将数据预处理结果作为目标函数对预训练语言模进行训练优化,以基于训练优化结果得到训练好的应答网络模型。
[0099]
进一步地,知识抽取模块100,还用于:
[0100]
对第一对话数据进行分词处理得到分词结果;
[0101]
根据分词结果和实体链接从常识知识图谱中抽取得到相关联的若干个实体,并利用若干个实体构建实体子图。
[0102]
根据本发明实施例的常识增强的多轮对话应答排序装置,可以更好地发挥其强大的语言表示和理解能力,对对话文本进行建模,多头注意机制可以充分捕捉上下文、以及应答候选对象每个词语之间的关系,从而对应答候选对象产生全面的理解。在线上预测过程中仅利用训练好的plms对应答候选集进行排序,省去gnn部分繁重的计算,提高应答集排序效率。
[0103]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0104]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
技术特征:
1.一种常识增强的多轮对话应答排序方法,其特征在于,包括以下步骤:基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;将所述两个表征向量之间的相似度和基于所述应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优化,以得到训练好的应答网络模型;将第二对话数据输入至所述训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。2.根据权利要求1所述的方法,其特征在于,所述应答网络模型,包括预训练语言模型;预处理所述第一对话数据和实体子图,包括:将所述分词结果进行连接处理得到输入序列;以及,将所述实体子图的各个实体输入至所述预训练语言模型,输出得到具有初始化表征向量的子图。3.根据权利要求2所述的方法,其特征在于,所述应答网络模型,还包括图神经网络;所述将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量,包括:将所述输入序列输入至所述预训练语言模型得到上下文节点的第一表征向量;以及,将所述子图输入至所述图神经网络进行计算,根据计算结果输出得到上下文节点的第二表征向量。4.根据权利要求3所述的方法,其特征在于,所述将所述两个表征向量之间的相似度和基于所述应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优化,以得到训练好的应答网络模型,包括:计算所述第一表征向量和所述第二表征向量之间的相似度;将所述第一表征向量输入至所述图神经网络进行计算输出得到应答输出预测结果;计算所述应答输出预测结果和应答输出真实结果之间的交叉熵,并将所述相似度和所述交叉熵进行预处理得到数据预处理结果;将所述数据预处理结果作为目标函数对所述预训练语言模进行训练优化,以基于训练优化结果得到训练好的应答网络模型。5.根据权利要求1所述的方法,其特征在于,所述基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图,包括:对所述第一对话数据进行分词处理得到分词结果;根据所述分词结果和实体链接从所述常识知识图谱中抽取得到相关联的若干个实体,并利用所述若干个实体构建实体子图。6.一种常识增强的多轮对话应答排序装置,其特征在于,包括:知识抽取模块,用于基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;向量表征模块,用于将预处理后的第一对话数据和实体子图输入至应答网络模型,输
出得到上下文节点的两个表征向量;模型训练模块,用于将所述两个表征向量之间的相似度和基于所述应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对所述应答网络模型进行训练优化,以得到训练好的应答网络模型;应答排序模块,用于将第二对话数据输入至所述训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。7.根据权利要求6所述的装置,其特征在于,所述应答网络模型,包括预训练语言模型;在所述向量表征模块之前,还包括预处理模块,用于预处理所述第一对话数据和实体子图,包括:将所述分词结果进行连接处理得到输入序列;以及,将所述实体子图的各个实体输入至所述预训练语言模型,输出得到具有初始化表征向量的子图。8.根据权利要求7所述的装置,其特征在于,所述应答网络模型,还包括图神经网络;所述向量表征模块,还用于:将所述输入序列输入至所述预训练语言模型得到上下文节点的第一表征向量;以及,将所述子图输入至所述图神经网络进行计算,根据计算结果输出得到上下文节点的第二表征向量。9.根据权利要求8所述的装置,其特征在于,所述模型训练模块,还用于:计算所述第一表征向量和所述第二表征向量之间的相似度;将所述第一表征向量输入至所述图神经网络进行计算输出得到应答输出预测结果;计算所述应答输出预测结果和应答输出真实结果之间的交叉熵,并将所述相似度和所述交叉熵进行预处理得到数据预处理结果;将所述数据预处理结果作为目标函数对所述预训练语言模进行训练优化,以基于训练优化结果得到训练好的应答网络模型。10.根据权利要求6所述的装置,其特征在于,所述知识抽取模块,还用于:对所述第一对话数据进行分词处理得到分词结果;根据所述分词结果和实体链接从所述常识知识图谱中抽取得到相关联的若干个实体,并利用所述若干个实体构建实体子图。
技术总结
本发明公开了常识增强的多轮对话应答排序方法及装置,该方法包括基于第一对话数据对常识知识图谱进行知识抽取,以将抽取的实体作为上下文节点构建实体子图;将预处理后的第一对话数据和实体子图输入至应答网络模型,输出得到上下文节点的两个表征向量;将两个表征向量之间的相似度和基于应答网络模型输出得到的应答输出预测结果与应答输出真实结果的损失值作为目标函数对应答网络模型进行训练优化,以得到训练好的应答网络模型;将第二对话数据输入至训练好的应答网络模型进行多轮对话应答输出,并对多轮对话应答输出结果进行排序得到应答排序结果。本发明可以明显提升应答候选进行排序的效率。候选进行排序的效率。候选进行排序的效率。
技术研发人员:唐杰 王媛冬 东昱晓
受保护的技术使用者:清华大学
技术研发日:2023.05.19
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/