一种基于分治关键词和意图的细粒度文本语义匹配方法与流程

未命名 08-05 阅读:111 评论:0


1.本发明涉及文本检索技术领域,具体地讲,涉及一种基于分治关键词和意图的细粒度文本语义匹配方法。


背景技术:

2.文本匹配用于获取两篇文本的相关或者相似程度,是自然语言处理领域的一个核心技术,能够有效表示和抽取文本的语义信息,在信息检索、信息抽取、自动问答等领域都有重要的意义。
3.目前文本语义匹配缺点1:文本语义匹配往往粒度较粗,进行语义相似度判断时,会使模型忽略细节部分的信息和知识,造成模型的误判;缺点2:文本语义匹配对于字面相似语义不相似的文本往往容易错误判定。


技术实现要素:

4.本发明要解决的技术问题是提供一种基于分治关键词和意图的细粒度文本语义匹配方法,方便文本语义匹配。
5.本发明采用如下技术方案实现发明目的:
6.一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:
7.步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用nlp领域的bert预训练模型;
8.步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图;
9.步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;
10.步骤四:训练和推理:在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。
11.作为对本技术方案的进一步限定,所述步骤二的关键词表示像动作和实体之类的事实信息,他们是应该严格匹配的;其中意图表达了抽象的概念他们可以有不同的表达方式,通过区分意图和关键词,将匹配过程划分为两个更简单的子任务去完成,这里对于如何提取出关键词,由于缺少标签数据进行训练,采用通过引入外部知识库自动提取实体生成关键词的方式,所有提取的实体自动标记为关键词;
12.作为对本技术方案的进一步限定,所述步骤一中,使用中文预训练模型bert-wwm;
13.给定两个句子:
14.和
15.其中:和分别表示句子里的第i个字符;
16.使用分类器y=ξ(sa,sb)来预测sa和sb的语义等价关系;
17.其中:la和lb分别表示句子的长;
18.y表示两个句子的关系;
19.将两个句子sa和sb进行连接得到s
a,b
=[sa;w
sep
;sb],
[0020]
其中:w
sep
是分割符。
[0021]
作为对本技术方案的进一步限定,将s
a,b
=[sa;w
sep
;sb]输入预训练模型按照如下式:
[0022]
[h
cls
;h
a,b
]=plm([w
cls
;s
a,b
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0023]
p(y|sa,sb)=softmax(h
cls
·wt
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0024]
其中:w
cls
是一个特殊字符位于每句话的开头;
[0025]hcls
是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;
[0026]ha,b
表示隐层向量;
[0027]
w∈rk×h表示可训练的权重,其中k表示标签的数量;
[0028]
最终的分类损失表示如下:
[0029][0030]
作为对本技术方案的进一步限定,所述步骤二的具体流程如下:
[0031]
步骤二一:首先通过nltk识别出名词,动词,形容词等可能的关键词;
[0032]
步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;
[0033]
步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分认为是意图,这样就获得了关键词和意图的弱标签信息。
[0034]
作为对本技术方案的进一步限定,添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;
[0035]
将h
a,b
分解为两部分,分别为和分别对应关键词和意图的表示;
[0036]
其中:nk和ni分别表示关键词和意图的token数量;
[0037]
关键词与意图分类的loss定义如下:
[0038][0039]
其中:w
ds
∈r1×h为可训练参数;
[0040]
和是通过和进行average-pooling得到;
[0041]
通过上述的loss可以更好的让模型学习如何区分关键词和意图。
[0042]
作为对本技术方案的进一步限定,所述步骤三的具体流程为:
[0043]
假设每个子问题和原始的目标有相同的解,那么原始问题的概率分布qy可由两个子问题的联合概率分布p(yk,yi)派生出来,公式如下:
[0044][0045]
其中:cn和cm反应了匹配度;
[0046]cm
>cn表示cm有更高的匹配分数相比于cn;
[0047]
为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和
[0048]
其中:sk和si分别表示意图和关键词被mask之后的句子表示。
[0049]
作为对本技术方案的进一步限定,依据独立子问题的假设,yk和yi的联合条件概率分布如下式:
[0050][0051]
最后,原问题和子问题的联合概率分布的kl散度表示loss如下:
[0052][0053]
最终训练loss为上述3个loss相加而得:
[0054][0055]
作为对本技术方案的进一步限定,所述步骤四中,采用所述步骤三中的方式为训练loss。
[0056]
作为对本技术方案的进一步限定,两个句子的关系包括匹配、部分匹配及完全匹配
[0057]
与现有技术相比,本发明的优点和积极效果是:
[0058]
1、针对缺点1,本发明着重解决文本语义匹配粒度较粗的问题,细化文本语义匹配的粒度为文本匹配,关键词匹配,意图匹配,细化语义相似度判断的粒度。
[0059]
2、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统,解决了文本语义匹配粒度较粗,进行语义相似度判断时,会使模型忽略细节部分的信息和知识,造成模型的误判问题。
[0060]
3、针对缺点2本发明着重解决如何提升文本语义匹配的精度和泛化能力。通过引入关键词,意图的多维度多粒度匹配训练,提升文本语义匹配系统的精度和泛化性。
[0061]
4、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统,解决了语义匹配对于字面相似语义不相似的文本往往容易错误判定问题。
[0062]
5、本发明通过细化文本语义匹配粒度为文本匹配,关键词匹配,意图匹配,细化语义相似度判断的粒度;通过引入关键词,意图的多维度多粒度匹配训练,提升文本语义匹配系统的精度和泛化性。
具体实施方式
[0063]
下面对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
[0064]
本发明包括以下步骤:
[0065]
步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用nlp领域的bert预训练模型;
[0066]
所述步骤一中,使用中文预训练模型bert-wwm;
[0067]
给定两个句子:
[0068]

[0069]
其中:和分别表示句子里的第i个字符;
[0070]
使用分类器y=ξ(sa,sb)来预测sa和sb的语义等价关系;
[0071]
其中:la和lb分别表示句子的长;
[0072]
y表示两个句子的关系;
[0073]
两个句子的关系包括匹配、部分匹配及完全匹配。
[0074]
将两个句子sa和sb进行连接得到s
a,b
=[sa;w
sep
;sb],
[0075]
其中:w
sep
是分割符;
[0076]
将s
a,b
=[sa;w
sep
;sb]输入预训练模型按照如下式:
[0077]
[h
cls
;h
a,b
]=plm([w
cls
;s
a,b
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0078]
p(y|sa,sb)=softmax(h
cls
·wt
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0079]
其中:w
cls
是一个特殊字符位于每句话的开头;
[0080]hcls
是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;
[0081]ha,b
表示隐层向量;
[0082]
w∈rk×h表示可训练的权重,其中k表示标签的数量;
[0083]
最终的分类损失表示如下:
[0084][0085]
步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图,其中关键词表示像动作和实体之类的事实信息,该事实信息是应该严格匹配的;其中意图表达了抽象的概念、可以有不同的表达方式。通过区分意图和关键词,将匹配过程划分为两个更简单的子任务去完成,这里对于如何提取出关键词,由于缺少标签数据进行训练,采用通过引入外部知识库自动提取实体生成关键词的方式,所有提取的实体自动标记为关键词;
[0086]
所述步骤二的具体流程如下:
[0087]
步骤二一:首先通过nltk识别出名词,动词,形容词等可能的关键词;
[0088]
步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;
[0089]
步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分认为是意图,这样就获得了关键词和意图的弱标签信息。
[0090]
添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;
[0091]
将h
a,b
分解为两部分,分别为和分别对应关键词和意图的表示;
[0092]
其中:nk和ni分别表示关键词和意图的token数量;
[0093]
关键词与意图分类的loss定义如下:
[0094][0095]
其中:w
ds
∈r1×h为可训练参数;
[0096]
和是通过和进行average-pooling得到;
[0097]
通过上述的loss可以更好的让模型学习如何区分关键词和意图。
[0098]
步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;
[0099]
所述步骤三的具体流程为:
[0100]
假设每个子问题和原始的目标有相同的解,那么原始问题的概率分布qy可由两个子问题的联合概率分布p(yk,yi)派生出来,公式如下:
[0101][0102]
其中:cn和cm反应了匹配度;
[0103]cm
>cn表示cm有更高的匹配分数相比于cn;
[0104]
为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和
[0105]
其中:sk和si分别表示意图和关键词被mask之后的句子表示;
[0106]
依据独立子问题的假设,yk和yi的联合条件概率分布如下式:
[0107][0108]
最后,原问题和子问题的联合概率分布的kl散度表示loss如下:
[0109][0110]
最终训练loss为上述3个loss相加而得:
[0111][0112]
步骤四:训练和推理;在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。
[0113]
所述步骤四中,采用所述步骤三中的方式为训练loss。
[0114]
以上公开的仅为本发明的具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

技术特征:
1.一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,所述预训练模型包括nlp领域的bert预训练模型;步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图;步骤三:采用分治的策略:将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理;步骤四:训练和推理:在训练阶段,采用所述步骤三中的方式进行训练,在推理阶段,不采用提取关键词和意图,直接将两个句子拼接输入模型进行推理即可。2.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤二的关键词为事实信息,所述事实信息包括动作和实体信息;所述意图为抽象概念表达,通过区分意图和关键词,将匹配过程划分为两个子任务去完成。3.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤一中,使用中文预训练模型bert-wwm;给定两个句子:和其中:和分别表示句子里的第i个字符;使用分类器y=ξ(s
a
,s
b
)来预测s
a
和s
b
的语义等价关系;其中:l
a
和l
b
分别表示句子的长;y表示两个句子的关系;将两个句子s
a
和s
b
进行连接得到s
a,b
=[s
a
;w
sep
;s
b
],其中:w
sep
是分割符。4.根据权利要求3所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:将s
a,b
=[s
a
;w
sep
;s
b
]输入预训练模型按照如下式:[h
cls
;h
a,b
]=plm([w
cls
;s
a,b
])
ꢀꢀꢀꢀꢀ
(1)p(y|s
a
,s
b
)=softmax(h
cls
·
w
t
)
ꢀꢀꢀꢀꢀꢀ
(2)其中:w
cls
是一个特殊字符位于每句话的开头;h
cls
是每句话的一个句向量表示,预测的时候使用一层全连接层进行输出;h
a,b
表示隐层向量;w∈r
k
×
h
表示可训练的权重,其中k表示标签的数量;最终的分类损失表示如下:5.根据权利要求4所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤二的具体流程如下:步骤二一:首先通过nltk识别出可能的关键词,所述可能的关键词包括名词,动词,形
容词;步骤二二:将可能的关键词以此纳入外部知识图谱进行实体匹配,若匹配成功则为关键词,若匹配失败则不为关键词;步骤二三:按照上述方式匹配成功的为关键词,句子除了关键词剩下的部分为意图,以获得关键词和意图的弱标签信息。6.根据权利要求5所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:添加一个辅助的训练目标强迫模型学会区分关键词和意图表示;将h
a,b
分解为两部分,分别为和分别对应关键词和意图的表示;其中:n
k
和n
i
分别表示关键词和意图的token数量;关键词与意图分类的loss定义如下:其中:w
ds
∈r1×
h
为可训练参数;和是通过和进行average-pooling得到;通过所述loss让模型学习如何区分关键词和意图。7.根据权利要求6所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤三的具体流程为:假设每个子问题和原始的目标有相同的解,则原始问题的概率分布q
y
可由两个子问题的联合概率分布p(y
k
,y
i
)派生出来,公式如下:其中:c
n
和c
m
反应了匹配度;c
m
>c
n
表示c
m
有更高的匹配分数相比于c
n
;为了建模子问题,重用式(2),获得关键词和意图的条件概率分布和其中:s
k
和s
i
分别表示意图和关键词被mask之后的句子表示。8.根据权利要求7所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:依据独立子问题的假设,y
k
和y
i
的联合条件概率分布如下式:最后,原问题和子问题的联合概率分布的kl散度表示loss如下:
最终训练loss为上述3个loss相加而得:9.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:所述步骤四中,采用所述步骤三中的方式为训练loss。10.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于:两个句子的关系包括匹配、部分匹配及完全匹配。

技术总结
本发明公开一种基于分治关键词和意图的细粒度文本语义匹配方法,其特征在于,包括以下步骤:步骤一:基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行,这里使用NLP领域的bert预训练模型;步骤二:区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图,其中关键词表示动作和实体之类的事实信息,事实信息是应该严格匹配的。本提供了一种基于分治关键词和意图的细粒度文本语义匹配方法,方便文本语义匹配。方便文本语义匹配。


技术研发人员:邹游
受保护的技术使用者:重庆特斯联启智科技有限公司
技术研发日:2023.03.07
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐