一种文本分词模型的训练方法、文本分词方法及装置与流程
未命名
09-08
阅读:78
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种文本分词模型的训练方法、文本分词方法及装置。
背景技术:
2.目前,服务器可以基于概率的方式进行分词。具体的,可以预置一个词典,并且根据该词典生成一个前缀树,并且根据该前缀树生成一个有向无环分词图。当某一个句子送入之后,由有向无环分词图上每一条边的成词概率来计算该句子最合理的词组划分方式。
3.但是,上述方法中,预置词典需要耗费大量的人力物力,可能无法快速、有效地进行分词。
技术实现要素:
4.本技术提供一种文本分词模型的训练方法、文本分词方法及装置,解决了相关技术中,预置词典需要耗费大量的人力物力,可能无法快速、有效地进行分词的技术问题。
5.第一方面,本技术提供一种文本分词模型的训练方法,包括:获取目标文本信息,该目标文本信息包括多个字符;确定该目标文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符;基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。
6.可选地,上述确定该目标文本信息的初始特征,具体包括:确定该每个字符的位置特征;基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征;基于该每个字符的位置特征,确定该每个字符的相对位置特征;基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该目标文本信息的初始特征。
7.可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度,上述基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征,具体包括:将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个;对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
8.可选地,上述基于该每个字符的位置特征,确定该每个字符的相对位置特征,具体包括:确定该其他字符与该每个字符之间间隔的字符数量;基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位
置特征;基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
9.可选地,上述基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征,具体包括:基于该目标文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该目标文本信息对应的多个单头注意力结果;将该多个单头注意力结果进行拼接,以得到该目标文本信息的目标特征。
10.第二方面,本技术提供一种文本分词方法,包括:获取待识别文本信息,该待识别文本信息包括多个字符;确定该待识别文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符;基于该待识别文本信息的初始特征以及多个注意力特征集合,确定该待识别文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;将该待识别文本信息的目标特征输入目标文本分词模型,以确定是否对该待识别文本信息中包括的字符进行分词处理,该目标文本分词模型是基于上述第一方面中任一种可选地文本分词模型的训练方法训练得到的。
11.可选地,上述确定该待识别文本信息的初始特征,具体包括:确定该每个字符的位置特征;基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征;基于该每个字符的位置特征,确定该每个字符的相对位置特征;基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该待识别文本信息的初始特征。
12.可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度,上述基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征,具体包括:将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个;对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
13.可选地,上述基于该每个字符的位置特征,确定该每个字符的相对位置特征,具体包括:确定该其他字符与该每个字符之间间隔的字符数量;基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位置特征;基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
14.可选地,上述基于该待识别文本信息的初始特征以及多个注意力特征集合,确定该待识别文本信息的目标特征,具体包括:基于该待识别文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该待识别文本信息对应的多个单头注意力结果;将该多个单头注意力结果进行拼接,以得到该待识别文本信息的目标特征。
15.第三方面,本技术提供一种文本分词模型的训练装置,包括:获取模块、确定模块以及处理模块;该获取模块,用于获取目标文本信息,该目标文本信息包括多个字符;该确定模块,用于确定该目标文本信息的初始特征,该初始特征用于表征该多个字符中每个字
符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符;该确定模块,还用于基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;该处理模块,用于基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。
16.可选地,该确定模块,具体用于确定该每个字符的位置特征;该确定模块,还具体用于基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征;该确定模块,还具体用于基于该每个字符的位置特征,确定该每个字符的相对位置特征;该确定模块,还具体用于基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该目标文本信息的初始特征。
17.可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度;该确定模块,还具体用于将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个;该处理模块,还用于对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
18.可选地,该确定模块,具体用于确定该其他字符与该每个字符之间间隔的字符数量;该确定模块,还具体用于基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位置特征;该确定模块,还具体用于基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
19.可选地,该处理模块,还用于基于该目标文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该目标文本信息对应的多个单头注意力结果;该处理模块,还用于将该多个单头注意力结果进行拼接,以得到该目标文本信息的目标特征。
20.第四方面,本技术提供一种文本分词装置,包括:获取模块和确定模块;该获取模块,用于获取待识别文本信息,该待识别文本信息包括多个字符;该确定模块,用于确定该待识别文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符;该确定模块,还用于基于该待识别文本信息的初始特征以及多个注意力特征集合,确定该待识别文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;该确定模块,还用于将该待识别文本信息的目标特征输入目标文本分词模型,以确定是否对该待识别文本信息中包括的字符进行分词处理,该目标文本分词模型是基于上述第一方面中任一种可选地文本分词模型的训练方法训练得到的。
21.可选地,该确定模块,具体用于确定该每个字符的位置特征;该确定模块,还具体用于基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征;该确定模块,还具体用于基于该每个字符的位置特征,确定该每个字符的相对位置特征;该确定模块,还具体用于基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该待识别文本信息的初始特征。
22.可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度;该确定模块,还具体用于将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个;该确定模块,还具体用于对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
23.可选地,该确定模块,具体用于确定该其他字符与该每个字符之间间隔的字符数量;该确定模块,还具体用于基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位置特征;该确定模块,还具体用于基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
24.可选地,该文本分词装置还包括处理模块;该处理模块,用于基于该待识别文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该待识别文本信息对应的多个单头注意力结果;该处理模块,还用于将该多个单头注意力结果进行拼接,以得到该待识别文本信息的目标特征。
25.第五方面,本技术提供一种电子设备,包括:处理器和被配置为存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地文本分词模型的训练方法,或者实现上述第二方面中任一种可选地文本分词方法。
26.第六方面,本技术提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当该计算机可读存储介质中的指令由电子设备执行时,使得该电子设备能够执行上述第一方面中任一种可选地文本分词模型的训练方法,或者执行上述第二方面中任一种可选地文本分词方法。
27.本技术提供的文本分词模型的训练方法、文本分词方法及装置,电子设备可以获取目标文本信息,并且确定该目标文本信息的初始特征;然后电子设备可以基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征;最终电子设备可以基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。本技术中,由于目标文本信息的初始特征可以表征该目标文本信息包括的多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,基于该目标文本信息的初始特征以及多个注意力特征集合确定出的目标文本信息的目标特征能够准确、有效地表征出每个字符在目标文本信息中的位置以及每个字符在目标文本信息中的语义。如此基于该目标文本信息的目标特征训练完成的目标文本分词模型是一个预测精度(或准确度)较高的文本分词模型,进而,基于该目标文本分词模型对某一个文本信息进行预测,能够快速、有效地确定是否对该文本信息中包括的字符进行分词处理,提升了文本分词的有效性。
附图说明
28.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
29.图1为本技术实施例提供的一种文本分词模型的训练方法的流程示意图;
30.图2为本技术实施例提供的另一种文本分词模型的训练方法的流程示意图;
network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
51.基于背景技术中所描述,由于相关技术中,基于概率的方式进行分词时需要预置词典,预置词典需要耗费大量的人力物力,可能无法快速、有效地进行分词。基于此,本技术实施例提供一种文本分词模型的训练方法、文本分词方法及装置,由于目标文本信息的初始特征可以表征该目标文本信息包括的多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,基于该目标文本信息的初始特征以及多个注意力特征集合确定出的目标文本信息的目标特征能够准确、有效地表征出每个字符在目标文本信息中的位置以及每个字符在目标文本信息中的语义。如此基于该目标文本信息的目标特征训练完成的目标文本分词模型是一个预测精度(或准确度)较高的文本分词模型,进而,基于该目标文本分词模型对某一个文本信息进行预测,能够快速、有效地确定是否对该文本信息中包括的字符进行分词处理,提升了文本分词的有效性。
52.如图1所示,本技术实施例提供的文本分词模型的训练方法可以包括s101-s104。
53.s101、电子设备获取目标文本信息。
54.其中,该目标文本信息包括多个字符。
55.s102、电子设备确定目标文本信息的初始特征。
56.其中,该初始特征用于表征上述多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符。
57.结合图1,如图2所示,在本技术实施例的一种实现方式中,上述电子设备确定目标文本信息的初始特征具体包括s1021-s1024。
58.s1021、电子设备确定每个字符的位置特征。
59.在一种可选的实现方式中,每个字符的位置为该每个字符在字表中的位置。对于一个字符而言,电子设备可以确定词表中是否存在该字符的位置特征。在该词表中存在该字符的位置特征的情况下,电子设备可以从该词表中确定出该字符的位置特征。
60.在另一种可选的实现方式中,在该词表中不存在该字符的位置特征的情况下,电子设备可以将预设特征确定为该字符的位置特征,具体为可以对该字符的位置特征进行初始化。
61.s1022、电子设备基于每个字符的位置特征,确定每个字符在多个字符窗口中的特征。
62.应理解,对于该多个字符窗口中的某一个字符窗口而言,该字符窗口的窗口宽度与其他字符窗口(即该多个字符窗口中除该字符窗口的字符窗口)的窗口宽度不同。
63.在本技术实施例的一种实现方式中,上述多个字符窗口可以包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度。结合图2,如图3所示,上述电子设备基于每个字符的位置特征,确定每个字符在多个字符窗口中的特征,具体可以包括s1022a-s1022b。
64.s1022a、电子设备将第一字符的位置特征,确定为第一字符在第一字符窗口中的特征。
65.其中,该第一字符为上述多个字符中的一个。
66.应理解,该第一字符窗口的窗口宽度为一个字符,说明该第一字符窗口中有且只有该第一字符。此时电子设备可以将该第一字符的位置特征,确定为该第一字符在该第字
符窗口中的特征。
67.s1022b、电子设备对第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到第一字符在第二字符窗口中的特征。
68.其中,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
69.可以理解的是,由于该第二字符窗口的窗口宽度大于上述第一字符窗口的窗口宽度,即该第二字符窗口的窗口宽度大于或等于两个字符。
70.在一种情况下,当该第二字符窗口的窗口宽度为两个字符时,该第二字符窗口中可以包括上述第一字符以及与该第一字符相邻的字符(包括左侧相邻的第二字符和/或右侧相邻的第三字符)。此时,电子设备可以将该第一字符的位置特征以及与该第一字符相邻的字符的位置特征进行拼接,以得到该第一字符在该第二字符窗口中的特征。
71.在另一种情况下,当该第二字符窗口的窗口宽度为三个字符时,该第二字符窗口中可以包括第一字符、与该第一字符相邻的字符以及预设字符(该预设字符为与该第一字符相邻的字符相邻的字符)。此时,电子设备可以将该第一字符的位置特征、与该第一字符相邻的字符的位置特征以及该预设字符的字符特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征。
72.s1023、电子设备基于每个字符的位置特征,确定每个字符的相对位置特征。
73.应理解,该每个字符的相对位置特征用于表征该每个字符与上述其他字符之间的相对位置(或位置差)。
74.结合图2,如图4所示,在本技术实施例的一种实现方式中,上述电子设备基于每个字符的位置特征,确定每个字符的相对位置特征,具体可以包括s1023a-s1023c。
75.s1023a、电子设备确定其他字符与每个字符之间间隔的字符数量。
76.可以理解的是,该其他字符与该每个字符之间间隔的字符数量即为该每个字符与该其他字符之间的位置差,该位置差即为该每个字符与该其他字符之间的相对位置。
77.s1023b、电子设备基于字符数量、每个字符的位置特征以及每个字符的位置特征的维度,确定其他字符与每个字符之间的相对位置特征。
78.在一种可选的实现方式中,当上述字符数量为偶数时,电子设备可以确定第一字符与第二字符之间的相对位置特征满足下述公式:
[0079][0080]
其中,pe
1,2
表示该第一字符与该第二字符之间的相对位置,该第一字符为上述多个字符中的一个,该第二字符为上述多个字符中除该第一字符以外的字符,p1表示该第一字符的位置特征,d1表示该第一字符的位置特征的维度,i表示该第一字符与该第二字符之间间隔的字符数量,i为偶数。
[0081]
在另一种可选的实现方式中,当该字符数量为奇数时,电子设备可以确定第三字符与第四字符之间的相对位置特征满足下述公式:
[0082]
[0083]
其中,pe
3,4
表示该第三字符与该第四字符之间的相对位置,该第三字符为上述多个字符中的一个,该第四字符为上述多个字符中除该第三字符以外的字符,p3表示该第三字符的位置特征,d3表示该第三字符的位置特征的维度,j表示该第三字符与该第四字符之间间隔的字符数量,j为偶数。
[0084]
s1023c、电子设备基于其他字符与每个字符之间的相对位置特征,确定每个字符的相对位置特征。
[0085]
在一种情况下,当该其他字符的数量为1时,电子设备可以将该其他字符与该每个字符之间的相对位置特征,确定为该每个字符的相对位置特征。
[0086]
在另一种情况下,当该其他字符的数量大于或等于2时,对于该其他字符中的任一字符而言,电子设备拼接该任一字符与该每个字符之间的相对位置特征,以得到该每个字符的相对位置特征。
[0087]
s1024、电子设备基于每个字符在多个字符窗口中的特征以及每个字符的相对位置特征,确定目标文本信息的初始特征。
[0088]
应理解,对于一个字符而言,电子设备可以对字符在该多个字符窗口中每个字符窗口的特征以及该字符的相对位置特征进行拼接处理,以得到该字符的初始特征。之后电子设备可以将每个字符的初始特征进行拼接处理,得到该目标文本信息的初始特征。
[0089]
在本技术实施例的一种实现方式中,上述多个字符窗口可以包括第一字符窗口、第二字符窗口以及第三字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度为两个字符,该第三字符窗口的窗口宽度为三个字符。对于一个字符(例如第一字符)而言,电子设备可以对该第一字符在该第一字符窗口中的特征、该第一字符在该第二字符窗口中的特征、该第一字符在该第三字符窗口中的特征以及该第一字符的相对位置特征进行拼接处理,得到该第一字符的初始特征。
[0090]
s103、电子设备基于目标文本信息的初始特征以及多个注意力特征集合,确定目标文本信息的目标特征。
[0091]
其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵。
[0092]
应理解,对于一个注意力特征集合而言,该注意力特征集合中包括的键矩阵的权重、该注意力特征集合中包括的值矩阵的权重以及该注意力特征集合中包括的查询矩阵的权重可以不同。
[0093]
另外,对于任意两个注意力特征集合(包括第一注意力特征集合以及第二注意力特征集合)而言,该第一注意力特征集合中包括的键矩阵的权重与该第二注意力特征集合中包括的键矩阵的权重可以不同。
[0094]
结合图1,如图5所示,在本公开实施例的一种实现方式中,电子设备基于目标文本信息的初始特征以及多个注意力特征集合,确定目标文本信息的目标特征,具体可以包括s1031-s1032。
[0095]
s1031、电子设备基于目标文本信息的初始特征以及多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到目标文本信息对应的多个单头注意力结果。
[0096]
应理解,一个注意力特征集合对应一个单头注意力结果。即电子设备基于目标文本信息的初始特征以及一个注意力特征集合(具体为该注意力特征集合中包括的键矩阵、
值矩阵以及查询矩阵),可以得到该注意力特征集合对应的单头注意力结果。
[0097]
具体的,对于一个注意力特征集合而言,电子设备可以确定目标文本信息的初始特征与该注意力特征集合中包括的键矩阵的权重之间的乘积(以下简称第一乘积)、该初始特征与该注意力特征集合中包括的值矩阵的权重之间的乘积(以下简称第二乘积)以及该初始特征与该注意力特征集合中包括的查询矩阵的权重之间的乘积(以下简称第三乘积)。之后,该第一乘积可以与该第二乘积点乘得到一个权重数字,电子设备可以将该权重数字与该第三乘积之间的乘积确定为该目标文本信息对应的一个单头注意力结果,即该注意力特征集合对应的单头注意力结果。
[0098]
s1032、电子设备将多个单头注意力结果进行拼接,以得到目标文本信息的目标特征。
[0099]
s104、电子设备基于目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型。
[0100]
其中,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。
[0101]
具体的,对于一个文本信息而言,基于该目标文本分词模型,电子设备可以确定是否将该文本信息中包括的某一个字符与该文本信息中包括的其他字符(或该字符的相邻字符)分割开(或者进行分词切割)。
[0102]
应理解,电子设备可以将该目标文本信息的目标特征输入该初始文本分词模型,得到该目标文本信息的预测结果,并且还可以获取该目标文本信息的真实结果。然后该电子设备可以基于该预测结果以及该真实结果确定目标损失,该目标损失用于表征该预测结果与该真实结果之间的不一致程度。之后,电子设备可以基于该目标损失更新该初始文本分词模型中的参数,得到该目标文本分词模型。
[0103]
上述实施例提供的技术方案至少能够带来以下有益效果:由s101-s104可知:电子设备可以获取目标文本信息,并且确定该目标文本信息的初始特征;然后电子设备可以基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征;最终电子设备可以基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。本技术实施例中,由于目标文本信息的初始特征可以表征该目标文本信息包括的多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,基于该目标文本信息的初始特征以及多个注意力特征集合确定出的目标文本信息的目标特征能够准确、有效地表征出每个字符在目标文本信息中的位置以及每个字符在目标文本信息中的语义。如此基于该目标文本信息的目标特征训练完成的目标文本分词模型是一个预测精度(或准确度)较高的文本分词模型,进而,基于该目标文本分词模型对某一个文本信息进行预测,能够快速、有效地确定是否对该文本信息中包括的字符进行分词处理,提升了文本分词的有效性。
[0104]
如图6所示,本技术实施例提供的文本分词方法可以包括s201-s204。
[0105]
s201、电子设备获取待识别文本信息。
[0106]
其中,该待识别文本信息包括多个字符。
[0107]
s202、电子设备确定待识别文本信息的初始特征。
[0108]
其中,该待识别文本信息的初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符。
[0109]
结合图6,如图7所示,在本技术实施例的一种实现方式中,上述电子设备确定待识别文本信息的初始特征具体可以包括s2021-s2024。
[0110]
s2021、电子设备确定每个字符的位置特征。
[0111]
s2022、电子设备基于每个字符的位置特征,确定每个字符在多个字符窗口中的特征。
[0112]
在本技术实施例的一种实现方式中,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度。结合图7,如图8所示,上述电子设备基于每个字符的位置特征,确定每个字符在多个字符窗口中的特征,具体可以包括s2022a-s2022b。
[0113]
s2022a、电子设备将第一字符的位置特征,确定为第一字符在第一字符窗口中的特征。
[0114]
其中,该第一字符为上述多个字符中的一个。
[0115]
s2022b、电子设备对第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到第一字符在第二字符窗口中的特征。
[0116]
其中,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
[0117]
s2023、电子设备基于每个字符的位置特征,确定每个字符的相对位置特征。
[0118]
结合图7,如图9所示,在本技术实施例的一种实现方式中,上述电子设备基于每个字符的位置特征,确定每个字符的相对位置特征,具体可以包括s2023a-s2023c。
[0119]
s2023a、电子设备确定其他字符与每个字符之间间隔的字符数量。
[0120]
s2023b、电子设备基于其他字符与每个字符之间间隔的字符数量、每个字符的位置特征以及每个字符的位置特征的维度,确定其他字符与每个字符之间的相对位置特征。
[0121]
s2023c、电子设备基于其他字符与每个字符之间的相对位置特征,确定每个字符的相对位置特征。
[0122]
s2024、电子设备基于每个字符在多个字符窗口中的特征以及每个字符的相对位置特征,确定待识别文本信息的初始特征。
[0123]
s203、电子设备基于待识别文本信息的初始特征以及多个注意力特征集合,确定待识别文本信息的目标特征。
[0124]
其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵。
[0125]
结合图6,如图10所示,在本技术实施例的一种实现方式中,上述电子设备基于待识别文本信息的初始特征以及多个注意力特征集合,确定待识别文本信息的目标特征,具体可以包括s2031-s2032。
[0126]
s2031、电子设备基于待识别文本信息的初始特征以及多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到待识别文本信息对应的多个单头注意力结果。
[0127]
s2032、电子设备将多个单头注意力结果进行拼接,以得到待识别文本信息的目标特征。
[0128]
需要说明的是,上述s201-s203(包括s2021-s2024、s2022a-s2022b、s2023a-s2023c以及s2031-s2032)中解释说明与上述s101-s103中的描述是相同或类似的,此处不再赘述。
[0129]
s204、电子设备将待识别文本信息的目标特征输入目标文本分词模型,以确定是否对待识别文本信息中包括的字符进行分词处理。
[0130]
其中,该目标文本分词模型是基于上述实施例提供的文本分词模型的训练方法训练得到的。
[0131]
具体的,电子设备可以基于隔板法对待识别文本信息中包括的每两个字符之间的位置进行二分类,即确定是否对该每两个字符之间的位置进行分词切割。示例性的,1可以表征需要分割,0可以表征不需要分割。
[0132]
上述实施例提供的技术方案至少能够带来以下有益效果:由s201-s204可知:电子设备可以获取待识别文本信息,并且确定该待识别文本信息的初始特征;然后电子设备可以基于该待识别文本信息的初始特征以及多个注意力特征集合,确定该待识别文本信息的目标特征;最终电子设备可以将该待识别文本信息的目标特征输入目标文本分词模型,以确定是否对该待识别文本信息中包括的字符进行分词处理。本技术实施例中,由于待识别文本信息的初始特征可以表征该待识别文本信息包括的多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,基于该待识别文本信息的初始特征以及多个注意力特征集合确定出的待识别文本信息的目标特征能够准确、有效地表征出每个字符在待识别文本信息中的位置以及每个字符在待识别文本信息中的语义。如此将该待识别文本信息的目标特征输入训练完成的、预测精度(或准确度)较高的目标文本分词模型,能够快速、有效地确定是否对该待识别文本信息中包括的字符进行分词处理,提升了文本分词的有效性。
[0133]
本技术实施例可以根据上述方法示例对电子设备等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0134]
在采用对应各个功能划分各个功能模块的情况下,图11示出了上述实施例中所涉及的文本分词模型的训练装置的一种可能的结构示意图,如图11所示,文本分词模型的训练装置10可以包括:获取模块101、确定模块102以及处理模块103。
[0135]
获取模块101,用于获取目标文本信息,该目标文本信息包括多个字符。
[0136]
确定模块102,用于确定该目标文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符。
[0137]
确定模块102,还用于基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵。
[0138]
处理模块103,用于基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括
的字符进行分词处理。
[0139]
可选地,确定模块102,具体用于确定该每个字符的位置特征。
[0140]
确定模块102,还具体用于基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征。
[0141]
确定模块102,还具体用于基于该每个字符的位置特征,确定该每个字符的相对位置特征。
[0142]
确定模块102,还具体用于基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该目标文本信息的初始特征。
[0143]
可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度。
[0144]
确定模块102,还具体用于将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个。
[0145]
处理模块103,还用于对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
[0146]
可选地,确定模块102,具体用于确定该其他字符与该每个字符之间间隔的字符数量。
[0147]
确定模块102,还具体用于基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位置特征。
[0148]
确定模块102,还具体用于基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
[0149]
可选地,处理模块103,还用于基于该目标文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该目标文本信息对应的多个单头注意力结果。
[0150]
处理模块103,还用于将该多个单头注意力结果进行拼接,以得到该目标文本信息的目标特征。
[0151]
在采用集成的单元的情况下,图12示出了上述实施例中所涉及的文本分词模型的训练装置的一种可能的结构示意图。如图12所示,文本分词模型的训练装置20可以包括:处理模块201和通信模块202。处理模块201可以用于对文本分词模型的训练装置20的动作进行控制管理。通信模块202可以用于支持文本分词模型的训练装置20与其他实体的通信。可选地,如图12所示,该文本分词模型的训练装置20还可以包括存储模块203,用于存储文本分词模型的训练装置20的程序代码和数据。
[0152]
其中,处理模块201可以是处理器或控制器。通信模块202可以是收发器、收发电路或通信接口等。存储模块203可以是存储器。
[0153]
其中,当处理模块201为处理器,通信模块202为收发器,存储模块203为存储器时,处理器、收发器和存储器可以通过总线连接。总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。
[0154]
在采用对应各个功能划分各个功能模块的情况下,图13示出了上述实施例中所涉
及的文本分词装置的一种可能的结构示意图,如图13所示,文本分词装置30可以包括:获取模块301和确定模块302。
[0155]
获取模块301,用于获取待识别文本信息,该待识别文本信息包括多个字符。
[0156]
确定模块302,用于确定该待识别文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置,该其他字符为该多个字符中除该每个字符以外的字符。
[0157]
确定模块302,还用于基于该待识别文本信息的初始特征以及多个注意力特征集合,确定该待识别文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵。
[0158]
确定模块302,还用于将该待识别文本信息的目标特征输入目标文本分词模型,以确定是否对该待识别文本信息中包括的字符进行分词处理,该目标文本分词模型是基于上述实施例提供的文本分词模型的训练方法训练得到的。
[0159]
可选地,确定模块302,具体用于确定该每个字符的位置特征。
[0160]
确定模块302,还具体用于基于该每个字符的位置特征,确定该每个字符在多个字符窗口中的特征。
[0161]
确定模块302,还具体用于基于该每个字符的位置特征,确定该每个字符的相对位置特征。
[0162]
确定模块302,还具体用于基于该每个字符在该多个字符窗口中的特征以及该每个字符的相对位置特征,确定该待识别文本信息的初始特征。
[0163]
可选地,上述多个字符窗口包括第一字符窗口和第二字符窗口,该第一字符窗口的窗口宽度为一个字符,该第二字符窗口的窗口宽度大于该第一字符窗口的窗口宽度。
[0164]
确定模块302,还具体用于将第一字符的位置特征,确定为该第一字符在该第一字符窗口中的特征,该第一字符为该多个字符中的一个。
[0165]
确定模块302,还具体用于对该第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到该第一字符在该第二字符窗口中的特征,该至少一个字符为该第二字符窗口中除该第一字符以外的字符。
[0166]
可选地,确定模块302,具体用于确定该其他字符与该每个字符之间间隔的字符数量。
[0167]
确定模块302,还具体用于基于该字符数量、该每个字符的位置特征以及该每个字符的位置特征的维数,确定该其他字符与该每个字符之间的相对位置特征。
[0168]
确定模块302,还具体用于基于该其他字符与该每个字符之间的相对位置特征,确定该每个字符的相对位置特征。
[0169]
可选地,该文本分词装置30还包括处理模块303。
[0170]
处理模块303,用于基于该待识别文本信息的初始特征以及该多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到该待识别文本信息对应的多个单头注意力结果。
[0171]
处理模块303,还用于将该多个单头注意力结果进行拼接,以得到该待识别文本信息的目标特征。
[0172]
在采用集成的单元的情况下,图14示出了上述实施例中所涉及的文本分词装置的
一种可能的结构示意图。如图14所示,文本分词装置40可以包括:处理模块401和通信模块402。处理模块401可以用于对文本分词装置40的动作进行控制管理。通信模块402可以用于支持文本分词装置40与其他实体的通信。可选地,如图14所示,该文本分词装置40还可以包括存储模块403,用于存储文本分词装置40的程序代码和数据。
[0173]
其中,处理模块401可以是处理器或控制器。通信模块402可以是收发器、收发电路或通信接口等。存储模块403可以是存储器。
[0174]
其中,当处理模块401为处理器,通信模块402为收发器,存储模块403为存储器时,处理器、收发器和存储器可以通过总线连接。总线可以是pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。
[0175]
应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0176]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0177]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0178]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0179]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户终端线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0180]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
技术特征:
1.一种文本分词模型的训练方法,其特征在于,所述方法包括:获取目标文本信息,所述目标文本信息包括多个字符;确定所述目标文本信息的初始特征,所述初始特征用于表征所述多个字符中每个字符的位置以及所述每个字符与其他字符之间的相对位置,所述其他字符为所述多个字符中除所述每个字符以外的字符;基于所述目标文本信息的初始特征以及多个注意力特征集合,确定所述目标文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;基于所述目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,所述目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。2.根据权利要求1所述的文本分词模型的训练方法,其特征在于,所述确定所述目标文本信息的初始特征,包括:确定所述每个字符的位置特征;基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征;基于所述每个字符的位置特征,确定所述每个字符的相对位置特征;基于所述每个字符在所述多个字符窗口中的特征以及所述每个字符的相对位置特征,确定所述目标文本信息的初始特征。3.根据权利要求2所述的文本分词模型的训练方法,其特征在于,所述多个字符窗口包括第一字符窗口和第二字符窗口,所述第一字符窗口的窗口宽度为一个字符,所述第二字符窗口的窗口宽度大于所述第一字符窗口的窗口宽度,所述基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征,包括:将第一字符的位置特征,确定为所述第一字符在所述第一字符窗口中的特征,所述第一字符为所述多个字符中的一个;对所述第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到所述第一字符在所述第二字符窗口中的特征,所述至少一个字符为所述第二字符窗口中除所述第一字符以外的字符。4.根据权利要求2所述的文本分词模型的训练方法,其特征在于,所述基于所述每个字符的位置特征,确定所述每个字符的相对位置特征,包括:确定所述其他字符与所述每个字符之间间隔的字符数量;基于所述字符数量、所述每个字符的位置特征以及所述每个字符的位置特征的维数,确定所述其他字符与所述每个字符之间的相对位置特征;基于所述其他字符与所述每个字符之间的相对位置特征,确定所述每个字符的相对位置特征。5.根据权利要求1-4中任一项所述的文本分词模型的训练方法,其特征在于,所述基于所述目标文本信息的初始特征以及多个注意力特征集合,确定所述目标文本信息的目标特征,包括:基于所述目标文本信息的初始特征以及所述多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到所述目标文本信息对应的多个单头注意力
结果;将所述多个单头注意力结果进行拼接,以得到所述目标文本信息的目标特征。6.一种文本分词方法,其特征在于,所述方法包括:获取待识别文本信息,所述待识别文本信息包括多个字符;确定所述待识别文本信息的初始特征,所述初始特征用于表征所述多个字符中每个字符的位置以及所述每个字符与其他字符之间的相对位置,所述其他字符为所述多个字符中除所述每个字符以外的字符;基于所述待识别文本信息的初始特征以及多个注意力特征集合,确定所述待识别文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;将所述待识别文本信息的目标特征输入目标文本分词模型,以确定是否对所述待识别文本信息中包括的字符进行分词处理,所述目标文本分词模型是基于权利要求1-5中任一项所述的文本分词模型的训练方法训练得到的。7.根据权利要求6所述的文本分词方法,其特征在于,所述确定所述待识别文本信息的初始特征,包括:确定所述每个字符的位置特征;基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征;基于所述每个字符的位置特征,确定所述每个字符的相对位置特征;基于所述每个字符在所述多个字符窗口中的特征以及所述每个字符的相对位置特征,确定所述待识别文本信息的初始特征。8.根据权利要求7所述的文本分词方法,其特征在于,所述多个字符窗口包括第一字符窗口和第二字符窗口,所述第一字符窗口的窗口宽度为一个字符,所述第二字符窗口的窗口宽度大于所述第一字符窗口的窗口宽度,所述基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征,包括:将第一字符的位置特征,确定为所述第一字符在所述第一字符窗口中的特征,所述第一字符为所述多个字符中的一个;对所述第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到所述第一字符在所述第二字符窗口中的特征,所述至少一个字符为所述第二字符窗口中除所述第一字符以外的字符。9.根据权利要求7所述的文本分词方法,其特征在于,所述基于所述每个字符的位置特征,确定所述每个字符的相对位置特征,包括:确定所述其他字符与所述每个字符之间间隔的字符数量;基于所述字符数量、所述每个字符的位置特征以及所述每个字符的位置特征的维数,确定所述其他字符与所述每个字符之间的相对位置特征;基于所述其他字符与所述每个字符之间的相对位置特征,确定所述每个字符的相对位置特征。10.根据权利要求6-9中任一项所述的文本分词方法,其特征在于,所述基于所述待识别文本信息的初始特征以及多个注意力特征集合,确定所述待识别文本信息的目标特征,包括:
基于所述待识别文本信息的初始特征以及所述多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到所述待识别文本信息对应的多个单头注意力结果;将所述多个单头注意力结果进行拼接,以得到所述待识别文本信息的目标特征。11.一种文本分词模型的训练装置,其特征在于,包括:获取模块、确定模块以及处理模块;所述获取模块,用于获取目标文本信息,所述目标文本信息包括多个字符;所述确定模块,用于确定所述目标文本信息的初始特征,所述初始特征用于表征所述多个字符中每个字符的位置以及所述每个字符与其他字符之间的相对位置,所述其他字符为所述多个字符中除所述每个字符以外的字符;所述确定模块,还用于基于所述目标文本信息的初始特征以及多个注意力特征集合,确定所述目标文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;所述处理模块,用于基于所述目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,所述目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。12.根据权利要求11所述的文本分词模型的训练装置,其特征在于,所述确定模块,具体用于确定所述每个字符的位置特征;所述确定模块,还具体用于基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征;所述确定模块,还具体用于基于所述每个字符的位置特征,确定所述每个字符的相对位置特征;所述确定模块,还具体用于基于所述每个字符在所述多个字符窗口中的特征以及所述每个字符的相对位置特征,确定所述目标文本信息的初始特征。13.根据权利要求12所述的文本分词模型的训练装置,其特征在于,所述多个字符窗口包括第一字符窗口和第二字符窗口,所述第一字符窗口的窗口宽度为一个字符,所述第二字符窗口的窗口宽度大于所述第一字符窗口的窗口宽度;所述确定模块,还具体用于将第一字符的位置特征,确定为所述第一字符在所述第一字符窗口中的特征,所述第一字符为所述多个字符中的一个;所述处理模块,还用于对所述第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到所述第一字符在所述第二字符窗口中的特征,所述至少一个字符为所述第二字符窗口中除所述第一字符以外的字符。14.根据权利要求12所述的文本分词模型的训练装置,其特征在于,所述确定模块,具体用于确定所述其他字符与所述每个字符之间间隔的字符数量;所述确定模块,还具体用于基于所述字符数量、所述每个字符的位置特征以及所述每个字符的位置特征的维数,确定所述其他字符与所述每个字符之间的相对位置特征;所述确定模块,还具体用于基于所述其他字符与所述每个字符之间的相对位置特征,确定所述每个字符的相对位置特征。15.根据权利要求11-14中任一项所述的文本分词模型的训练装置,其特征在于,
所述处理模块,还用于基于所述目标文本信息的初始特征以及所述多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到所述目标文本信息对应的多个单头注意力结果;所述处理模块,还用于将所述多个单头注意力结果进行拼接,以得到所述目标文本信息的目标特征。16.一种文本分词装置,其特征在于,包括:获取模块和确定模块;所述获取模块,用于获取待识别文本信息,所述待识别文本信息包括多个字符;所述确定模块,用于确定所述待识别文本信息的初始特征,所述初始特征用于表征所述多个字符中每个字符的位置以及所述每个字符与其他字符之间的相对位置,所述其他字符为所述多个字符中除所述每个字符以外的字符;所述确定模块,还用于基于所述待识别文本信息的初始特征以及多个注意力特征集合,确定所述待识别文本信息的目标特征,其中,一个注意力特征集合中包括一个键矩阵、一个值矩阵以及一个查询矩阵;所述确定模块,还用于将所述待识别文本信息的目标特征输入目标文本分词模型,以确定是否对所述待识别文本信息中包括的字符进行分词处理,所述目标文本分词模型是基于权利要求1-5中任一项所述的文本分词模型的训练方法训练得到的。17.根据权利要求16所述的文本分词装置,其特征在于,所述确定模块,具体用于确定所述每个字符的位置特征;所述确定模块,还具体用于基于所述每个字符的位置特征,确定所述每个字符在多个字符窗口中的特征;所述确定模块,还具体用于基于所述每个字符的位置特征,确定所述每个字符的相对位置特征;所述确定模块,还具体用于基于所述每个字符在所述多个字符窗口中的特征以及所述每个字符的相对位置特征,确定所述待识别文本信息的初始特征。18.根据权利要求17所述的文本分词装置,其特征在于,所述多个字符窗口包括第一字符窗口和第二字符窗口,所述第一字符窗口的窗口宽度为一个字符,所述第二字符窗口的窗口宽度大于所述第一字符窗口的窗口宽度;所述确定模块,还具体用于将第一字符的位置特征,确定为所述第一字符在所述第一字符窗口中的特征,所述第一字符为所述多个字符中的一个;所述确定模块,还具体用于对所述第一字符的位置特征以及至少一个字符的位置特征进行拼接处理,以得到所述第一字符在所述第二字符窗口中的特征,所述至少一个字符为所述第二字符窗口中除所述第一字符以外的字符。19.根据权利要求17所述的文本分词装置,其特征在于,所述确定模块,具体用于确定所述其他字符与所述每个字符之间间隔的字符数量;所述确定模块,还具体用于基于所述字符数量、所述每个字符的位置特征以及所述每个字符的位置特征的维数,确定所述其他字符与所述每个字符之间的相对位置特征;所述确定模块,还具体用于基于所述其他字符与所述每个字符之间的相对位置特征,确定所述每个字符的相对位置特征。20.根据权利要求16-19中任一项所述的文本分词装置,其特征在于,所述文本分词装
置还包括处理模块;所述处理模块,用于基于所述待识别文本信息的初始特征以及所述多个注意力特征集合中每个注意力特征集合包括的键矩阵、值矩阵以及查询矩阵,得到所述待识别文本信息对应的多个单头注意力结果;所述处理模块,还用于将所述多个单头注意力结果进行拼接,以得到所述待识别文本信息的目标特征。21.一种电子设备,其特征在于,所述电子设备包括:处理器;被配置为存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1-5中任一项所述的文本分词模型的训练方法,或者实现如权利要求6-10中任一项所述的文本分词方法。22.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1-5中任一项所述的文本分词模型的训练方法,或者执行如权利要求6-10中任一项所述的文本分词方法。
技术总结
本申请提供一种文本分词模型的训练方法、文本分词方法及装置,涉及计算机技术领域,解决了相关技术中,预置词典需要耗费大量的人力物力,可能无法快速、有效地进行分词的技术问题。该方法包括:获取目标文本信息,该目标文本信息包括多个字符;确定该目标文本信息的初始特征,该初始特征用于表征该多个字符中每个字符的位置以及该每个字符与其他字符之间的相对位置;基于该目标文本信息的初始特征以及多个注意力特征集合,确定该目标文本信息的目标特征;基于该目标文本信息的目标特征,对初始文本分词模型进行训练,以生成目标文本分词模型,该目标文本分词模型用于预测是否对一个文本信息中包括的字符进行分词处理。本信息中包括的字符进行分词处理。本信息中包括的字符进行分词处理。
技术研发人员:钟晨杰 刘贤松 欧大春 陈凌 邱倩琳 李发财 余思阳 李珊珊 石旭荣 黄铭
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:2023.05.26
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/