实体识别模型的训练方法、文本的实体识别方法和设备与流程

未命名 09-13 阅读:62 评论:0


1.本技术涉及人工智能技术领域,特别是涉及一种实体识别模型训练方法、文本的实体识别方法、计算机设备、存储介质和计算机程序产品。


背景技术:

2.实体识别方法被广泛应用于各个领域的自然语言处理任务。在音乐领域中,可从歌曲的评论文本中识别出具有特定意义的实体信息,如歌手名称和专辑名称,进而可利用识别到的实体信息进行歌曲搜索、问答系统、情感分析和机器翻译等自然语言处理任务。
3.传统技术中,常通过基于机器学习、深度学习的实体识别模型识别出歌曲评论文本中的实体信息,但是,歌曲的评论文本不仅多样化,如长短不一、文本不存在上下文信息,还包含有大量的音乐领域知识如歌手名称、歌曲名称、游戏名称和影视剧名称,以及还包含有昵称、别名等口语化的实体信息,使得采用传统方式的实体识别模型进行实体识别时,对歌曲评论文本的识别准确率较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高对音乐文本数据的实体识别准确率的实体识别模型训练方法、文本的实体识别方法、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种实体识别模型的训练方法。所述方法包括:
6.从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息;所述目标实体信息包括所述目标实体的目标实体位置;
7.通过待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对所述注意力特征进行标签预测处理,得到所述训练文本的预测标签信息;所述预测标签信息包括所述训练文本的预测实体位置;
8.通过待训练的实体识别模型中的标签约束模型,对所述预测标签信息进行标签约束处理,得到所述训练文本的预测实体信息;
9.根据所述预测实体信息与所述目标实体信息之间的差异,对所述待训练的实体识别模型进行训练,得到训练完成的实体识别模型。
10.在其中一个实施例中,通过所述待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,包括:
11.由所述特征处理模型将与所述字嵌入特征关联的候选实体的词嵌入特征,作为所述字嵌入特征的目标词嵌入特征;
12.确定所述字嵌入特征的相对位置信息;
13.对所述相对位置信息和所述目标词嵌入特征进行自注意力处理,得到所述字嵌入
特征的注意力特征。
14.在其中一个实施例中,从训练文本的候选实体中筛选出目标实体,包括:
15.确定所述候选实体在音乐关系网络中的关联实体,以及确定所述关联实体与所述训练文本对应的歌曲之间的关联程度;所述音乐关系网络为基于音乐知识图谱中的实体关系构建得到的;
16.根据所述候选实体的搜索次数和实体长度,以及所述关联程度,确定所述候选实体的置信度;
17.根据所述置信度,从所述候选实体中筛选出满足预设置信度条件的目标实体。在其中一个实施例中,确定所述目标实体的目标实体信息,包括:
18.根据所述目标实体的意图概率分布,确定所述目标实体的目标实体类型;
19.根据所述目标实体的目标实体位置和所述目标实体类型,得到所述目标实体的目标实体信息。
20.在其中一个实施例中,在从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息之前,还包括:
21.根据所述训练文本对应的用户搜索数据,得到所述候选实体的搜索次数;
22.对所述用户搜索数据进行意图识别处理,得到所述目标实体的意图概率分布。
23.在其中一个实施例中,在从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息之前,还包括:
24.根据所述音乐知识图谱,生成音乐实体词典;
25.基于所述音乐实体词典构建得到文本匹配模型,并通过所述文本匹配模型,对所述训练文本进行文本匹配处理,得到所述训练文本的候选实体。
26.第二方面,本技术提供了一种文本的实体识别方法。所述方法包括:
27.获取待识别文本;
28.将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息;所述预测实体信息包括所述待识别文本的预测实体位置;所述训练完成的实体识别模型根据第一方面中任一实施例所述的方法训练得到。
29.在其中一个实施例中,将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息,包括:
30.通过训练完成的实体识别模型,对所述待识别文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理,得到所述待识别文本的注意力特征;
31.对所述待识别文本的注意力特征进行标签预测处理,得到所述待识别文本的预测标签信息;
32.对所述待识别文本的预测标签信息进行标签约束处理,得到所述待识别文本的预测实体信息。
33.在其中一个实施例中,在将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息之后,还包括:
34.获取所述待识别文本的标识信息,并根据所述标识信息,得到所述待识别文本的关联文本;
35.将所述关联文本,输入至所述训练完成的实体识别模型,得到所述关联文本的预
测实体信息;
36.根据关联文本的预测实体信息,对所述待识别文本的预测实体信息进行更新,得到所述待识别文本的目标实体信息。
37.在其中一个实施例中,根据关联文本的预测实体信息,对所述待识别文本的预测实体信息进行更新,得到所述待识别文本的目标实体信息,包括:
38.根据所述关联文本的预测实体信息的出现频率,从所述关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息;
39.若所述待识别文本的预测实体信息中不包含所述待更新实体信息,则将所述待更新实体信息添加至所述待识别文本的预测实体信息,得到所述目标实体信息。
40.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
41.从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息;所述目标实体信息包括所述目标实体的目标实体位置;
42.通过待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对所述注意力特征进行标签预测处理,得到所述训练文本的预测标签信息;所述预测标签信息包括所述训练文本的预测实体位置;
43.通过所述待训练的实体识别模型中的标签约束模型,对所述预测标签信息进行标签约束处理,得到所述训练文本的预测实体信息;
44.根据所述预测实体信息与所述目标实体信息之间的差异,对所述待训练的实体识别模型进行训练,得到训练完成的实体识别模型。
45.第四方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
46.获取待识别文本;
47.将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息;所述预测实体信息包括所述待识别文本的预测实体位置;所述训练完成的实体识别模型根据第一方面中任一实施例所述的方法训练得到。
48.第五方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
49.从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息;所述目标实体信息包括所述目标实体的目标实体位置;
50.通过待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对所述注意力特征进行标签预测处理,得到所述训练文本的预测标签信息;所述预测标签信息包括所述训练文本的预测实体位置;所述待训练的实体识别模型还包括标签约束模型;
51.通过所述待训练的实体识别模型中的标签约束模型,对所述预测标签信息进行标签约束处理,得到所述训练文本的预测实体信息;
52.根据所述预测实体信息与所述目标实体信息之间的差异,对所述待训练的实体识别模型进行训练,得到训练完成的实体识别模型。
53.第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
54.获取待识别文本;
55.将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息;所述预测实体信息包括所述待识别文本的预测实体位置;所述训练完成的实体识别模型根据第一方面中任一实施例所述的方法训练得到。
56.第七方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
57.从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息;所述目标实体信息包括所述目标实体的目标实体位置;
58.通过待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对所述注意力特征进行标签预测处理,得到所述训练文本的预测标签信息;所述预测标签信息包括所述训练文本的预测实体位置;所述待训练的实体识别模型还包括标签约束模型;
59.通过所述待训练的实体识别模型中的标签约束模型,对所述预测标签信息进行标签约束处理,得到所述训练文本的预测实体信息;
60.根据所述预测实体信息与所述目标实体信息之间的差异,对所述待训练的实体识别模型进行训练,得到训练完成的实体识别模型。
61.第八方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
62.获取待识别文本;
63.将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息;所述预测实体信息包括所述待识别文本的预测实体位置;所述训练完成的实体识别模型根据第一方面中任一实施例所述的方法训练得到。
64.上述实体识别模型训练方法、文本的实体识别方法、计算机设备、存储介质和计算机程序产品,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息;通过待训练的实体识别模型中的特征处理模型,对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对注意力特征进行标签预测处理,得到训练文本的预测标签信息;通过待训练的实体识别模型中的标签约束模型,对预测标签信息进行标签约束处理,得到训练文本的预测实体信息;根据预测实体信息与目标实体信息之间的差异,对待训练的实体识别模型进行训练,得到训练完成的实体识别模型。采用本方法,通过在实体识别模型的自注意力处理过程中,引入训练文本的候选实体的词嵌入特征,能够使实体识别模型学习到当前的字嵌入特征与各个候选实体的相关性,以提升对音乐领域中形式多样化的实体的识别能力,从而提高了训练完成的实体识别模型对音乐领域的文本数据的实体识别准确率。
附图说明
65.图1为一个实施例中实体识别模型训练方法的流程示意图;
66.图2为一个实施例中实体识别模型的原理示意图;
67.图3为一个实施例中对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理步骤的流程示意图;
68.图4为一个实施例中文本的实体识别方法的流程示意图;
69.图5为另一个实施例中实体识别模型训练方法和文本的实体识别方法的流程示意图;
70.图6为另一个实施例中文本的实体识别方法的流程示意图;
71.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
72.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
73.在一个实施例中,如图1所示,提供了一种实体识别模型的训练方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
74.步骤s101,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息;目标实体信息包括目标实体的目标实体位置。
75.其中,训练文本是指用于训练实体识别模型的文本数据。该训练文本可以是歌曲的评论文本。候选实体是指从训练文本中初步筛选出的实体。目标实体是指从候选实体中筛选出的、满足预设置信度条件的实体;在实体识别模型的训练过程中,目标实体可作为训练文本的标签。
76.其中,目标实体位置与下述步骤s103中的预测实体位置,也可称作实体边界,均用于指示实体的开始位置、结束位置、或者不属于实体任何位置,还可以指示实体的中间位置;只不过目标实体位置针对的是目标实体,而预测实体位置针对的是输入实体识别模型的训练文本。
77.具体地,终端可以是获取不同歌曲的评论文本作为训练文本,然后对训练文本进行文本匹配处理,得到训练文本的候选实体,为确保候选实体的准确性,还可以从候选实体中筛选出目标实体,同时确定出目标实体的目标实体信息。其中,目标实体信息可以仅包含目标实体位置,或者可以包含目标实体类型和目标实体位置两种信息。其中,目标实体类型和下文通过实体识别模型输出的预测实体类型,均用于指示实体的具体类型,只不过目标实体类型针对的是目标实体,而预测实体类型针对的是输入实体识别模型的训练文本;其中,目标实体类型可以包括歌曲类型、歌手类型、ip类型和专辑类型等。可以理解的是该“ip”是指所有成名文创(电视剧、电影、综艺、游戏、广播剧、动漫、小说等)作品的统称,而不是网络的ip地址。
78.在实际应用中,终端可以先获取不同歌曲的评论文本,然后对评论文本进行文本匹配处理,从而得到评论文本的候选实体,接着从评论文本的候选实体中筛选出目标实体,
同时确定出目标实体的目标实体信息,最后从评论文本中筛选出部分文本作为训练文本,以及筛选部分文本作为测试文本。进一步地,若在后续处理过程中,无法从训练文本中匹配得到候选实体,则可以将候选实体的特征矩阵记为全0矩阵。
79.步骤s102,通过待训练的实体识别模型中的特征处理模型,对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对注意力特征进行标签预测处理,得到训练文本的预测标签信息;预测标签信息包括训练文本的预测实体位置。
80.其中,实体识别模型是指用于识别出文本数据(例如训练文本和待识别文本)中的实体的模型。字嵌入特征是指表征文本数据中单个字的突出性质的信息。词嵌入特征是指表征候选实体整个词语的突出性质的信息。特征处理模型是指用于提取训练文本的文本特征和预测标签信息的模型。特征处理模型可以是transfomer模型。
81.其中,预测标签信息是指实体识别模型基于输入的文本数据识别得到的预测实体位置(或预测实体类型和预测实体位置)。可以理解的是,本方法中的预测标签信息与传统技术中仅描述类型概率的预测标签不同,本方法中的预测标签信息还需指示属于实体中不同位置的概率和不属于实体的概率。以实体识别领域中的bio标注法(b,begin,代表实体的开头位置;i,inside,代表实体的中间位置或结尾位置;o,outside,代表不属于实体)为例,假设实体类型包括歌曲类型和歌手类型,则预测标签信息可以是[b-歌曲:0.6,i-歌曲:0.2,b-歌手:0.1,i-歌手:0.08,o:0.02];其中,预测标签信息中的“b-歌曲:0.6”表示其属于实体的开头位置,且目标实体类型为歌曲类型的概率为0.6;预测标签信息中的“i-歌曲:0.2”表示其属于实体的中间位置,且目标实体类型为歌曲类型的概率为0.2;预测标签信息中的“b-歌手:0.1”表示其属于实体的开头位置,且目标实体类型为歌手类型的概率为0.1;预测标签信息中的“i-歌手:0.08”表示其属于实体的中间位置,且目标实体类型为歌手类型的概率为0.08;预测标签信息中的“o:0.02”表示其不属于实体的概率为0.02。
[0082]
具体地,图2为实体识别模型的原理示意图。如图2所示,终端将训练文本输入至预训练的bert(bidirectional encoder representation from transformers)模型中,通过预训练的bert模型对训练文本进行特征提取处理,得到训练文本的字嵌入特征(character embedding)。此外,终端根据候选实体的意图概率分布和搜索次数,计算得到候选实体的词嵌入特征。进而终端将训练文本的字嵌入特征输入至特征处理模型,同时在特征处理模型的注意力层中引入候选实体的词嵌入特征(word embedding),通过对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理,得到对应的注意力特征。终端通过特征处理模型对注意力特征和字嵌入特征进行标签预测处理,输出得到训练文本的预测标签信息。
[0083]
步骤s103,通过待训练的实体识别模型中的标签约束模型,对预测标签信息进行标签约束处理,得到训练文本的预测实体信息。
[0084]
其中,预测实体信息是指经过标签约束处理后最终得到的训练文本的实体信息。与预测标签信息指示多个位置的概率不同,预测实体信息直接指示实体位置(或实体类型和实体位置);例如预测实体信息可以是b-歌曲。
[0085]
其中,标签约束模型是指用于为预测标签信息添加约束的模型。标签约束模型可以是基于条件随机场(conditional random field,crf)构建得到的。
[0086]
具体地,如图2所示,在上述步骤s102中处理得到训练文本的预测标签信息之后,
终端将预测标签信息输入至实体识别模型中的标签约束模型,通过标签约束模型对预测标签信息进行标签约束处理,可以是为预测标签信息添加约束以确保输出的预测实体信息的准确性。可以理解的是,由于特征处理模型(如transfomer)没有显式的学习不同预测标签信息之间的顺序关系,所以transfomer输出的预测实体位置的顺序可能是混乱的,因此,还需要通过标签约束模型对预测标签信息进一步处理。
[0087]
以bio标注法为例进行说明,约束可以是实体的第一个字总是以bio标注法中的“b”开始,而不是以“i”开始,最后一个字总是以“i”结束,且实体中不会出现“o”。例如,为预测标签信息添加约束之后,输出的预测实体信息为“bii

i”这种形式,而不是“iiio”或者“oiiib”形式。
[0088]
步骤s104,根据预测实体信息与目标实体信息之间的差异,对待训练的实体识别模型进行训练,得到训练完成的实体识别模型。
[0089]
具体地,终端根据预测实体信息与训练文本对应的目标实体信息之间的差异,得到待训练的实体识别模型的损失;进而根据待训练的实体识别模型的损失,对待训练的实体识别模型进行迭代训练,得到训练完成的实体识别模型。
[0090]
上述实体识别模型的训练方法中,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息;通过待训练的实体识别模型中的特征处理模型,对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对注意力特征进行标签预测处理,得到训练文本的预测标签信息;通过待训练的实体识别模型中的标签约束模型,对预测标签信息进行标签约束处理,得到训练文本的预测实体信息;根据预测实体信息与目标实体信息之间的差异,对待训练的实体识别模型进行训练,得到训练完成的实体识别模型。采用本方法,通过在实体识别模型的自注意力处理过程中,引入训练文本的候选实体的词嵌入特征,能够使实体识别模型学习到当前的字嵌入特征与各个候选实体的相关性,以提升对音乐领域中形式多样化的实体的识别能力,从而提高了训练完成的实体识别模型对音乐领域的文本数据的实体识别准确率。
[0091]
在一个实施例中,如图3所示,上述步骤s102,通过待训练的实体识别模型中的特征处理模型,对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理得到注意力特征,具体包括如下内容:
[0092]
步骤s301,由特征处理模型将与字嵌入特征关联的候选实体的词嵌入特征,作为字嵌入特征的目标词嵌入特征。
[0093]
具体地,训练文本的候选实体可能存在多个,但是在计算注意力特征时,需要筛选出与字嵌入特征关联的候选实体的词嵌入特征;可以是由特征处理模型根据字嵌入特征的字符位置,从候选实体的词嵌入特征中,筛选出与字符位置关联的候选实体(为与其他候选实体区分,可以将其称为关联实体),并将关联实体的词嵌入特征作为字嵌入特征的目标词嵌入特征。
[0094]
步骤s302,确定字嵌入特征的相对位置信息。
[0095]
其中,相对位置信息用于描述两个字嵌入特征之间的相对距离。
[0096]
步骤s303,对相对位置信息和目标词嵌入特征进行自注意力处理,得到字嵌入特征的注意力特征。
[0097]
其中,注意力特征是指描述字嵌入特征的注意力的数据;例如注意力特征可以是
字嵌入特征对应字符的attention值。
[0098]
具体地,终端对相对位置信息和目标词嵌入特征进行自注意力处理,可以是输入自注意力计算公式中,则终端得到字嵌入特征的注意力特征。其中,自注意力计算公式如公式(1)所示。
[0099][0100]
式中,attn(q,k,v)表示注意力特征;表示每个关联实体对于当前的关联实体的相关性大小;a
rel
为的通用表达式,表示使用所有进行计算;v表示值向量;q
t
表示第t个字嵌入特征;表示关联实体第j个字嵌入特征;表示第t个字嵌入特征与第j个字嵌入特征之间的相对位置信息;表示第t个字嵌入特征的目标词嵌入特征;u、v和w是可学习的模型参数。
[0101]
由公式(1)可知,终端先利用字嵌入特征,来计算训练文本的字符之间的关联度再计算得到字嵌入特征和相对位置信息之间的关联度然后计算得到字嵌入特征和目标词嵌入特征之间的关联度最后结合以及模型参数(u、v和w)计算得到注意力特征。
[0102]
举例说明,假设评论文本为“喜欢开头部分的,建议去听历劫成衣,喜欢戏腔部分的,推荐听缘分一道桥”,终端在文本的末尾,匹配出两个歌曲类型的候选实体,即“缘分”和“缘分一道桥”,则终端可以将候选实体“缘分”的词嵌入特征和候选实体“缘分一道桥”的词嵌入特征作为字符“缘”的目标词嵌入特征,一并加入到“缘”字的注意力特征的计算中。
[0103]
本实施例中,通过将与字嵌入特征关联的候选实体的词嵌入特征,作为字嵌入特征的目标词嵌入特征;进而确定字嵌入特征的相对位置信息;对相对位置信息和目标词嵌入特征进行自注意力处理,得到字嵌入特征的注意力特征,实现了字嵌入特征的注意力特征的合理获取,并且还在注意力特征中引入了字符的关联实体的目标词嵌入特征,使得实体识别模型学习到当前的字嵌入特征与各个候选实体的相关性,有利于提高实体识别模型的识别能力。
[0104]
在一个实施例中,上述步骤s101,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息,具体包括如下内容:确定候选实体在音乐关系网络中的关联实体,以及确定关联实体与训练文本对应的歌曲之间的关联程度;音乐关系网络为基于音乐知识图谱中的实体关系构建得到的;根据候选实体的搜索次数和实体长度,以及关联程度,确定候选实体的置信度;根据置信度,从候选实体中筛选出满足预设置信度条件的目标实体。
[0105]
其中,搜索次数用于描述候选实体的搜索热度;例如,候选实体周杰伦、稻香具有较高的搜索次数。
[0106]
其中,实体长度用于描述候选实体的字符长度。可以理解的是,由于某些实体的长度较短,更口语化,所以更容易具有较高的搜索次数,例如加油、时光等,因而可以将实体长度也增加到置信度的计算中。在本实施例中,实体长度高且搜索次数多的候选实体,比实体
长度短且搜索次数多的候选实体更可靠。
[0107]
终端在获取到训练文本的候选实体之后,可以从候选实体中筛选出准确度更高的目标实体。具体地,确定候选实体在音乐关系网络中的关联实体,以及确定关联实体与训练文本对应的歌曲之间的关联程度;音乐关系网络为基于音乐知识图谱中的实体关系构建得到的;终端可以从音乐关系网络中获取到候选实体的关联实体,然后确定关联实体是否属于训练文本对应的歌曲的相关实体、次相关实体,可以是利用训练文本所属的歌曲的标识信息(如歌曲id),从音乐关系网络中检索到与该标识信息相关的所有歌曲、歌手、专辑等实体,进而确定关联实体是否属于相关实体或次相关实体;进而根据关联实体是否属于相关实体、次相关实体来得到关联实体与训练文本对应的歌曲之间的关联程度。终端根据候选实体在所有训练文本中的总出现次数、候选实体的搜索次数、实体长度、关联程度,来综合计算得到候选实体的置信度。比如说,对搜索次数、实体长度和关联程度进行参数映射处理得到对应的参数,再对参数进行加权求和,得到候选实体的置信度;再例如,分别根据搜索次数、实体长度和关联程度与置信度之间的映射关系(如同增同减、你增我减),对置信度的初始值进行增加或减少,最终得到候选实体的置信度。终端根据置信度,从候选实体中筛选出满足预设置信度条件的目标实体,比如将预设置信度条件设为高于预设置信度阈值,则可以筛选出置信度高于预设置信度阈值的候选实体,作为目标实体。
[0108]
其中,相关实体是指与当前歌曲直接相关的实体;次相关实体是指与当前歌曲的次级关系相关的实体。其中,是否属于相关实体和是否属于次相关实体可以从音乐关系网络中查询得到。在本实施例中,若候选实体的关联实体属于当前歌曲的相关实体,则认为该候选实体的置信度较高,还能够通过次相关实体进一步补充更丰富的实体关系,从而提高整体的召回率。
[0109]
其中,音乐关系网络为基于音乐知识图谱中的实体关系构建得到的,可以是根据歌曲-歌手关系、歌曲-专辑关系来构建得到两跳的“歌曲-歌手-专辑”音乐关系网络。还可以在音乐关系网络中引入ip类型,构建ip-歌曲关系、ip-专辑关系、ip-歌手关系等,来提升音乐关系网络中实体关系的丰富度,从而提升确定得到的目标实体的准确性。
[0110]
在实际应用中,部分评论可能会出现候选实体数量非常多的情况,为保障模型的训练效率,可以设置一个最大候选实体数量;同时,为避免训练文本的前半段中先得到的置信度较低的候选文本的数量直接达到了最大候选实体数量,导致后半段中的置信度较高的候选实体没法被匹配出来,可以通过本实施例中的置信度筛选方式来解决这一问题。为验证本方法中的目标实体的准确性,准备了50万条音乐评论文本,从其中的20万条音乐评论文本中抽取出候选实体,并进一步处理得到目标实体。然后从中选取200条音乐评论文本来进行实验,以验证上述方法处理得到的目标实体的准确性,实验结果如表1所示。
[0111]
表1
[0112]
f1分数精确率召回率200条音乐评论文本84%89%80%
[0113]
由表1可知,上述方法处理得到的目标实体的f1分数、精确率和召回率均高于80%,说明得到的目标实体具有较高的准确性。此外,终端还可以从剩下的30万条音乐评论文本中随机抽取5万条,作为实体识别模型的训练文本。
[0114]
在本实施例中,先根据候选实体的搜索次数和实体长度,以及音乐关系网络,确定
候选实体的置信度;然后根据置信度,从候选实体中筛选出满足预设置信度条件的目标实体,实现了目标实体的合理筛选,以便后续步骤中直接使用置信度更高的目标实体进行实体识别模型的训练,以提高实体识别模型的训练效果。
[0115]
在一个实施例中,上述步骤s101,确定目标实体的目标实体信息,具体包括如下内容:根据置信度,从候选实体中筛选出满足预设置信度条件的目标实体;根据目标实体的意图概率分布,确定目标实体的目标实体类型;根据目标实体的目标实体位置和目标实体类型,得到目标实体的目标实体信息。
[0116]
根据目标实体的意图概率分布,确定目标实体的目标实体类型,可以是将意图概率分布中最高意图概率对应的实体类型,作为目标实体的目标实体类型,还可以是将意图概率分布中超过预设意图概率阈值的多个意图概率对应的实体类型,均作为目标实体的目标实体类型,以解决实体重名问题。比如说,“晴天娃娃”既是一张专辑名,又是一首歌曲的名称,那么“晴天娃娃”的目标实体类型为[专辑类型,歌曲类型]。最后将目标实体的目标实体位置和目标实体类型,作为目标实体的目标实体信息。其中,预设置信度条件可以设置为置信度高于预设置信度阈值。
[0117]
在本实施例中,通过利用目标实体的目标实体位置和目标实体类型,得到目标实体的目标实体信息,进而可以将目标实体信息作为标签,来执行后续的实体识别模型的训练步骤。
[0118]
在一个实施例中,在上述步骤s101,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息之前,还包括:根据训练文本对应的用户搜索数据,得到候选实体的搜索次数;对用户搜索数据进行意图识别处理,得到目标实体的意图概率分布。
[0119]
其中,意图概率分布是指根据用户搜索数据分析得到的在不同实体类型下的意图概率分布。
[0120]
具体地,终端可以从搜索端中,获取到各个训练文本对应的用户搜索数据;进而通过统计训练文本对应的用户搜索数据,来得到候选实体的搜索次数。终端还可以对用户搜索数据进行意图识别处理,以确定目标实体对应不同实体类型的意图概率,从而得到目标实体的意图概率分布。此外,终端还可以直接从音乐实体词典中,查询得到每个候选实体的搜索次数、意图分布概率。其中,搜索端是指用户搜索音乐、发表音乐相关信息时使用的终端。
[0121]
举例说明,音乐实体词典可以包含如下信息:实体名称(str,字符串类型);实体类型(list,列表类型);意图概率分布[track_prob(歌曲概率),singer_prob(歌手概率),movie_prob(ip概率),album_prob(专辑概率),hotness(搜索次数)]。
[0122]
在本实施例中,根据训练文本对应的用户搜索数据,得到候选实体的搜索次数;对用户搜索数据进行意图识别处理,得到目标实体的意图概率分布,以搜索次数为依据来确定目标实体的意图概率分布,以便后续步骤以意图概率为依据处理得到目标实体的实体类型,实现了目标实体的自动标注,对于搜索端中的真实评论文本也可以做到快速的自动化标注,而无需人工手动标注,能够快速、便捷的获取到大量的训练文本和训练文本的标签。
[0123]
在一个实施例中,在上述步骤s101,从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息之前,还包括:根据音乐知识图谱,生成音乐实体词典;基于音乐实体词典构建得到文本匹配模型,并通过文本匹配模型,对训练文本进行文本匹配处
理,得到训练文本的候选实体。
[0124]
其中,文本匹配模型用于从文本数据中匹配出所有位于音乐实体词典中的实体。文本匹配模型可以是ac自动机(aho-corasick)。
[0125]
具体地,终端根据音乐知识图谱生成音乐实体词典,可以是从音乐知识图谱中提取出实体名称,然后获取实体名称对应的搜索次数、意图分布概率,并基于意图分布概率确定实体名称的实体类型,进而终端结合实体名称、搜索次数、意图概率分布和实体类型来得到音乐实体词典。在实际应用中,音乐实体词典包含有1800万个实体名称。针对重名的实体名称,可以将多个实体类型添加到一个实体名称下,例如“晴天娃娃”既是一张专辑名,又是一首歌曲的名称,那么实体名称“晴天娃娃”的实体类型为[专辑类型,歌曲类型]。进一步地,终端基于音乐实体词典构建得到文本匹配模型,并通过文本匹配模型,对训练文本进行文本匹配处理,可以是从文本数据中匹配出所有位于音乐实体词典中的实体,则终端得到训练文本的候选实体。
[0126]
在实际应用中,考虑到构建得到音乐实体词典可能并不完整,因而基于音乐实体词典进行文本匹配得到的候选实体可能也并不完整,所以还可以对训练文本进行规则抽取,可以是从训练文本中抽取出通过“《》”标记出的明显的实体,则终端得到新的候选实体。
[0127]
在本实施例中,先根据音乐知识图谱,生成音乐实体词典;然后基于音乐实体词典构建得到文本匹配模型,并通过文本匹配模型,对训练文本进行文本匹配处理,得到训练文本的候选实体,此外,还能通过规则抽取方式进一步完善训练文本的候选实体,实现了候选实体的多种获取方式,提高了对训练文本的标注准确率。
[0128]
在一个实施例中,如图4所示,提供了一种文本的实体识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
[0129]
步骤s401,获取待识别文本。
[0130]
其中,待识别文本是指需要进行实体识别的文本数据。
[0131]
具体地,终端可以从搜索端中获取到待识别文本,也可以是从服务器、数据库等途径中获取到待识别文本。
[0132]
步骤s402,将待识别文本输入至训练完成的实体识别模型,得到待识别文本的预测实体信息;预测实体信息包括待识别文本的预测实体位置;训练完成的实体识别模型根据上述步骤s101至步骤s104训练得到。
[0133]
其中,实体识别模型是指用于识别出文本数据(例如待识别文本)中的实体的模型。
[0134]
具体地,在通过上述步骤s101至步骤s104训练得到训练完成的实体识别模型之后,终端可以将待识别文本输入至训练完成的实体识别模型,以通过训练完成的实体识别模型对待识别文本进行实体识别处理,则终端得到待识别文本的预测实体信息。
[0135]
上述文本的实体识别方法,通过将获取到的待识别文本输入至训练完成的实体识别模型,得到待识别文本的预测实体信息,能够通过训练完成的实体识别模型准确识别音
乐领域中形式多样化的待识别文本的实体,从而提高了训练完成的实体识别模型对音乐领域的文本数据的实体识别准确率。
[0136]
在一个实施例中,上述步骤s402,将待识别文本输入至训练完成的实体识别模型,得到待识别文本的预测实体信息,具体包括如下内容:通过训练完成的实体识别模型,对待识别文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理,得到待识别文本的注意力特征;对待识别文本的注意力特征进行标签预测处理,得到待识别文本的预测标签信息;对待识别文本的预测标签信息进行标签约束处理,得到待识别文本的预测实体信息。
[0137]
具体地,终端通过预训练的bert模型对待识别文本进行特征提取处理,得到待识别文本的字嵌入特征。同时,终端通过文本匹配模型,对待识别文本进行文本匹配处理,得到待识别文本的第一候选实体;还可以对待识别文本进行规则抽取,得到待识别文本的第二候选实体;进而由第一候选实体和第二候选实体,共同构成待识别文本的候选实体。终端根据待识别文本的候选实体的意图概率分布和搜索次数,计算得到待识别文本的候选实体的词嵌入特征。进而终端通过训练完成的实体识别模型,对待识别文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理,得到对应的注意力特征。终端通过训练完成的实体识别模型中的特征处理模型对待识别文本的注意力特征和待识别文本的字嵌入特征进行标签预测处理,输出得到待识别文本的预测标签信息。然后终端将待识别文本的预测标签信息输入至训练完成的实体识别模型中的标签约束模型,通过标签约束模型对待识别文本的预测标签信息进行标签约束处理,则终端得到待识别文本的预测实体信息。
[0138]
在本实施例中,通过在训练完成的实体识别模型的自注意力处理过程中,引入待识别文本的候选实体的词嵌入特征,能够使训练完成的实体识别模型提取出待识别文本的字嵌入特征与各个候选实体的相关性,以提升对音乐领域中形式多样化的实体的识别能力,从而提高了训练完成的实体识别模型对音乐领域的待识别文本的实体识别准确率。
[0139]
在一个实施例中,在上述步骤s402,将待识别文本输入至训练完成的实体识别模型,得到待识别文本的预测实体信息之后,还包括:将待识别文本的关联文本输入至训练完成的实体识别模型,得到关联文本的预测实体信息;根据关联文本的预测实体信息,对待识别文本的预测实体信息进行更新,得到待识别文本的目标实体信息。
[0140]
其中,标识信息是指待识别文本所属的歌曲的标识。例如,标识信息可以是歌曲的id。
[0141]
具体地,终端确定待识别文本所属的歌曲,并获取其所属歌曲的标识信息;进而终端根据该标识信息,查询同属于该标识信息的文本数据,作为待识别文本的关联文本;例如,可以是查询音乐实体词典与该标识信息匹配的文本数据,也可以是从数据库中查询与该标识信息匹配的文本数据。终端可以实时将关联文本输入至训练完成的实体识别模型,以得到关联文本的预测实体信息,也可以是预先处理得到关联文本的预测实体信息。终端基于关联文本的预测实体信息来更新待识别文本的预测实体信息,则终端得到待识别文本的目标实体信息。
[0142]
在本实施例中,根据待识别文本的标识信息,来得到待识别文本的关联文本;然后将关联文本输入至训练完成的实体识别模型,得到关联文本的预测实体信息;最后根据关联文本的预测实体信息,对待识别文本的预测实体信息进行更新,得到待识别文本的目标实体信息,实现了对待识别文本的预测实体信息的后续处理,能够结合与待识别文本关联
的多个文本数据(关联文本)的预测实体信息来进一步完善待识别文本的预测实体信息,能够提高得到的目标实体信息的召回率。
[0143]
在一个实施例中,根据关联文本的预测实体信息,对待识别文本的预测实体信息进行更新,得到待识别文本的目标实体信息,具体包括如下内容:根据关联文本的预测实体信息的出现频率,从关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息;若待识别文本的预测实体信息中不包含待更新实体信息,则将待更新实体信息添加至待识别文本的预测实体信息,得到目标实体信息。
[0144]
其中,预设频率条件是指针对关联文本的预测实体信息的出现频率设置的判断条件。预设频率条件可以设置为超过预设频率次数。
[0145]
具体地,终端确定关联文本的每个预测实体信息的出现频率,然后根据关联文本的预测实体信息的出现频率,从关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息,可以是从关联文本的预测实体信息中,筛选出超过预设频率次数的预测实体信息作为待更新实体信息。若待识别文本的预测实体信息中不包含该待更新实体信息,则将待更新实体信息添加至待识别文本的预测实体信息,得到待识别文本的目标实体信息。若待识别文本的预测实体信息中包含该待更新实体信息,则继续判断下一个待更新实体是否在待识别文本的预测实体信息内。
[0146]
在本实施例中,根据关联文本的预测实体信息的出现频率,从关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息;然后将待更新实体信息添加至待识别文本的预测实体信息,得到待识别文本的目标实体信息,能够将出现在关联文本的预测实体信息中的高频实体添加到待识别文本的预测实体信息中,有效的提高了目标实体信息的召回率。
[0147]
在一个实施例中,如图5所示,提供了另一种文本的实体识别方法,以该方法应用于终端为例进行说明,包括以下步骤:
[0148]
步骤s501,获取待识别文本。
[0149]
步骤s502,通过训练完成的实体识别模型,对待识别文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理,得到待识别文本的注意力特征。
[0150]
步骤s503,对待识别文本的注意力特征进行标签预测处理,得到待识别文本的预测标签信息。
[0151]
步骤s504,对待识别文本的预测标签信息进行标签约束处理,得到待识别文本的预测实体信息。
[0152]
步骤s505,将待识别文本的关联文本输入至训练完成的实体识别模型,得到关联文本的预测实体信息。
[0153]
步骤s506,根据关联文本的预测实体信息的出现频率,从关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息。
[0154]
步骤s507,若待识别文本的预测实体信息中不包含待更新实体信息,则将待更新实体信息添加至待识别文本的预测实体信息,得到目标实体信息。
[0155]
上述文本的实体识别方法,能够实现以下有益效果:能够通过训练完成的实体识别模型准确识别音乐领域中形式多样化的待识别文本的实体,从而提高了训练完成的实体识别模型对音乐领域的文本数据的实体识别准确率。
[0156]
为了更清晰阐明本公开实施例提供的文本的实体识别方法,以下以一个具体的实施例对上述文本的实体识别方法进行具体说明。如图6所示,提供了又一种文本的实体识别方法,可以应用于终端,具体包括如下内容:
[0157]
模型训练阶段:终端根据音乐知识图谱,构建得到音乐实体词典和音乐关系网络。然后利用音乐实体词典对训练文本进行文本匹配,得到训练文本的候选实体;根据音乐关系网络从候选实体中筛选出训练文本的目标实体,实现了训练文本和训练文本的目标实体的自动标注。终端利用训练文本和目标实体对待训练的实体识别模型进行迭代训练,得到训练完成的实体识别模型。
[0158]
终端获取目标歌曲的评论文本和标识信息;然后根据音乐实体词典构建得到ac自动机,通过ac自动机在评论文本中匹配出所有位于音乐实体词典中的实体,则终端得到评论文本的候选实体。终端对评论文本进行规则抽取,得到新的候选实体。由通过ac自动机匹配得到的候选实体和通过规则抽取得到的候选实体共同组成评论文本的候选实体。终端通过训练完成的实体识别模型中transformer模型的注意力层,对评论文本的字嵌入特征和评论文本的候选实体的词嵌入特征进行自注意力处理,得到对应的注意力特征;接着transformer模型对评论文本的注意力特征和评论文本的字嵌入特征进行标签预测处理,输出得到评论文本的预测标签信息;训练完成的实体识别模型中的crf模型对评论文本的预测标签信息进行标签约束处理,得到评论文本的预测实体信息。
[0159]
终端利用目标歌曲的标识信息,来查询得到评论文本的关联文本。然后根据关联文本的预测实体信息的出现频率,从关联文本的预测实体信息中筛选得到出现频率超过预设频率次数的待更新实体信息;若待识别文本的预测实体信息中不包含待更新实体信息,则将待更新实体信息添加至评论文本的预测实体信息,得到评论文本的目标实体信息。
[0160]
为验证目标实体信息的实体识别准确性,选取了250条评论文本进行测试,并使用f1分数、精确率和召回率这三个指标来反映实体识别的准确性,测试结果如表2所示。
[0161]
表2
[0162][0163]
由表2可知,本方法中的评论文本的目标实体信息在f1分数、精确率和召回率上均超过了80%,尤其是仅预测实体边界,不预测实体类型时本方法准确性更佳。此外,还将上述文本的实体识别方法中引入了音乐知识图谱的实体识别模型与未引入音乐知识图谱的实体识别模型进行对比,对比结果显示引入了音乐知识图谱的实体识别模型在f1分数上提升了10.8%,另外,也将上述引入了音乐知识图谱的实体识别模型(transfomer+crf)与现有方法(bi-lstm+crf)进行对比,对比结果显示上述入了音乐知识图谱的实体识别模型在f1分数上提升了11.5%,可以看出,相比bi-lstm来说,transformer能更好的提取上下文信息,捕捉长距离依赖,在引入词汇信息层面,transformer计算性能更高,同时信息损失更少,因而transformer模型能够更好地学习到当前字符与各个候选实体之间的关联,从而提高了训练完成的实体识别模型提升对音乐领域文本的实体识别能力;。为进一步体现出通
过本方法中处理得到评论文本的目标实体信息与通过现有方法处理得到的评论文本的目标实体信息的区别,从上述250条评论文本中选取了4个评论文本的目标实体信息,将现有方法(bi-lstm+crf)与本方法进行对比分析,对比结果如表3至表6所示。
[0164]
表3
[0165]
评论文本有多少人跟我一样从大鱼海棠的剪辑来的期望结果大鱼海棠|电影现有方法/(预测结果为空)本方法大鱼海棠|电影
[0166]
从表3可知,现有方法无法识别出评论文本中电影类型的目标实体信息,而本方法基于音乐知识图谱来进行实体识别处理,能够准确识别出评论文本中电影类型的目标实体信息。
[0167]
表4
[0168][0169]
从表4可以看出,现有方法漏掉了“卡路里”这一目标实体信息,而本技术通过音乐知识图谱,能够准确的识别出评论文本中的“卡路里”也属于歌曲类型的目标实体信息。
[0170]
表5
[0171][0172][0173]
从表5可以看出,评论文本将歌曲类型的实体名称都使用“()”符号进行了标记,然而现有方法只能识别出部分目标实体信息,本方法通过候选实体的处理阶段使用了规则抽取处理,因而本方法能够准确的识别出各个“()”符号内的目标实体信息。
[0174]
表6
[0175]
评论文本祝在座的各位,往后余生,皆遇良人。期望结果/(不存在实体)现有方法往后余生|歌曲本方法/
[0176]
从表6可以看出,评论文本中的“往后余生”是一个成语,该评论文本表达的是对大家的人生的祝福,并不是指歌曲名称。现有方法错误的理解了评论文本的语义,将“往后余生”识别为歌曲类型的目标实体信息,而本方法中的训练完成的实体识别模型,准确的分析出该评论文本中不包含目标实体信息。
[0177]
在本实施例中,能够通过训练完成的实体识别模型准确识别音乐领域中形式多样化的评论文本中的实体,提高了训练完成的实体识别模型对音乐领域的评论文本的实体识别准确率,并借助音乐知识图谱中大量的音乐信息,进一步提高了对音乐领域的评论文本的实体识别准确率。
[0178]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个
阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0179]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实体识别模型的训练方法和一种文本的实体识别方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0180]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0181]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0182]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0183]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0184]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0185]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,
ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0186]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0187]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种实体识别模型的训练方法,其特征在于,所述方法包括:从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息;所述目标实体信息包括所述目标实体的目标实体位置;通过待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对所述注意力特征进行标签预测处理,得到所述训练文本的预测标签信息;所述预测标签信息包括所述训练文本的预测实体位置;通过所述待训练的实体识别模型中的标签约束模型,对所述预测标签信息进行标签约束处理,得到所述训练文本的预测实体信息;根据所述预测实体信息与所述目标实体信息之间的差异,对所述待训练的实体识别模型进行训练,得到训练完成的实体识别模型。2.根据权利要求1所述的方法,其特征在于,所述通过所述待训练的实体识别模型中的特征处理模型,对所述训练文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理得到注意力特征,包括:由所述特征处理模型将与所述字嵌入特征关联的候选实体的词嵌入特征,作为所述字嵌入特征的目标词嵌入特征;确定所述字嵌入特征的相对位置信息;对所述相对位置信息和所述目标词嵌入特征进行自注意力处理,得到所述字嵌入特征的注意力特征。3.根据权利要求1所述的方法,其特征在于,所述从训练文本的候选实体中筛选出目标实体,包括:确定所述候选实体在音乐关系网络中的关联实体,以及确定所述关联实体与所述训练文本对应的歌曲之间的关联程度;所述音乐关系网络为基于音乐知识图谱中的实体关系构建得到的;根据所述候选实体的搜索次数和实体长度,以及所述关联程度,确定所述候选实体的置信度;根据所述置信度,从所述候选实体中筛选出满足预设置信度条件的目标实体。4.根据权利要求1所述的方法,其特征在于,所述确定所述目标实体的目标实体信息,包括:根据所述目标实体的意图概率分布,确定所述目标实体的目标实体类型;根据所述目标实体的目标实体位置和所述目标实体类型,得到所述目标实体的目标实体信息。5.根据权利要求1至4任意一项所述的方法,其特征在于,在从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息之前,还包括:根据所述训练文本对应的用户搜索数据,得到所述候选实体的搜索次数;对所述用户搜索数据进行意图识别处理,得到所述目标实体的意图概率分布。6.根据权利要求1至4任意一项所述的方法,其特征在于,在从训练文本的候选实体中筛选出目标实体,并确定所述目标实体的目标实体信息之前,还包括:根据所述音乐知识图谱,生成音乐实体词典;
基于所述音乐实体词典构建得到文本匹配模型,并通过所述文本匹配模型对所述训练文本进行文本匹配处理,得到所述训练文本的候选实体。7.一种文本的实体识别方法,其特征在于,所述方法包括:获取待识别文本;将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息;所述预测实体信息包括所述待识别文本的预测实体位置;所述训练完成的实体识别模型根据权利要求1至6任一项所述的方法训练得到。8.根据权利要求7所述的方法,其特征在于,所述将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息,包括:通过训练完成的实体识别模型,对所述待识别文本的字嵌入特征和所述候选实体的词嵌入特征进行自注意力处理,得到所述待识别文本的注意力特征;对所述待识别文本的注意力特征进行标签预测处理,得到所述待识别文本的预测标签信息;对所述待识别文本的预测标签信息进行标签约束处理,得到所述待识别文本的预测实体信息。9.根据权利要求7所述的方法,其特征在于,在将所述待识别文本输入至训练完成的实体识别模型,得到所述待识别文本的预测实体信息之后,还包括:将所述待识别文本的关联文本输入至所述训练完成的实体识别模型,得到所述关联文本的预测实体信息;根据所述关联文本的预测实体信息,对所述待识别文本的预测实体信息进行更新,得到所述待识别文本的目标实体信息。10.根据权利要求9所述的方法,其特征在于,所述根据所述关联文本的预测实体信息,对所述待识别文本的预测实体信息进行更新,得到所述待识别文本的目标实体信息,包括:根据所述关联文本的预测实体信息的出现频率,从所述关联文本的预测实体信息中筛选出满足预设频率条件的待更新实体信息;若所述待识别文本的预测实体信息中不包含所述待更新实体信息,则将所述待更新实体信息添加至所述待识别文本的预测实体信息,得到所述目标实体信息。11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6或7至10中任一项所述的方法的步骤。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6或7至10中任一项所述的方法的步骤。

技术总结
本申请涉及一种实体识别模型训练方法、文本的实体识别方法、计算机设备和存储介质。所述方法包括:从训练文本的候选实体中筛选出目标实体,并确定目标实体的目标实体信息;通过待训练的实体识别模型中的特征处理模型,对训练文本的字嵌入特征和候选实体的词嵌入特征进行自注意力处理得到注意力特征,并对注意力特征进行标签预测处理,得到训练文本的预测标签信息;通过待训练的实体识别模型中的标签约束模型对预测标签信息进行标签约束处理,得到训练文本的预测实体信息;根据预测实体信息与目标实体信息之间的差异,对待训练的实体识别模型进行训练,得到训练完成的实体识别模型。采用本方法能够提高对音乐文本数据的实体识别准确率。别准确率。别准确率。


技术研发人员:蔡艳
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐