文本识别方法、装置、电子设备及可读存储介质与流程

未命名 10-18 阅读：59 评论：0

1.本技术属于自然语言处理领域，具体涉及一种文本识别方法、装置、电子设备及可读存储介质。

背景技术：

2.语音合成是一种将文本转换为语音的技术，在用户与电子设备交互的场景中，语音合成技术为用户提供了一种新的信息交互方式。目前，在中文语音合成播报场景中，由于汉字里包含大量多音字，语音合成在处理多音字时可能会出现读错的情况。
3.在相关技术中，为了让电子设备正确地读出一段文本，通常需要使用多音字模型来预测文本读音，多音字模型需要根据文本编码后的结果来进行读音预测，文本编码指将自然语言文本转换成向量的形式便于计算机理解和处理。目前在进行文本编码时通常采用的字编码方式，即逐字进行编码，只考虑当前字符的内容。
4.然而，在采用字编码方式处理一些语言结构比较复杂的文本时，可能会出现多音字读音预测错误，从而导致对文本中的多音字的读音预测的准确率较低。

技术实现要素：

5.本技术实施例的目的是提供一种文本识别方法、装置、电子设备及可读存储介质，能够更好地利用局部语义信息和全局语义信息分析长难句、复杂文本读音，进而提高对文本中的多音字读音预测的准确率。
6.第一方面，本技术实施例提供了一种文本识别方法，该方法包括：将第一待识别文本输入第一文本编码模型，第一待识别文本包含第一多音字，第一文本编码模型包括卷积层；提取第一待识别文本对应的第一文本特征序列；采用卷积层对第一文本特征序列进行分段卷积处理，得到第二文本特征序列，第二文本特征序列至少包含第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，第一文本片段包含第一多音字；基于第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。
7.第二方面，本技术实施例提供了一种文本识别装置，该装置包括：处理模块和提取模块，其中：处理模块，用于将第一待识别文本输入第一文本编码模型，第一待识别文本包含第一多音字，第一文本编码模型包括卷积层；提取模块，用于提取第一待识别文本对应的第一文本特征序列；处理模块，还用于采用卷积层对第一文本特征序列进行分段卷积处理，得到第二文本特征序列，第二文本特征序列至少包含第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，第一文本片段包含第一多音字；处理模块，还用于基于第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。
8.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行
时实现如第一方面所述的方法的步骤。
9.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
10.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
11.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
12.在本技术实施例中，文本识别装置将第一待识别文本输入第一文本编码模型，该第一待识别文本包含第一多音字，该第一文本编码模型包括卷积层，然后，提取第一待识别文本对应的第一文本特征序列，并采用所述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含所述第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含第一多音字，最后，基于上述第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。通过该方法，文本识别装置通过第一文本编码模型中的卷积层对文本的全局文本特征序列进行卷积操作获得包含全局语义信息和局部语义信息的文本特征序列，并基于该文本特征序列得到更为准确的识别结果，从而加强对文本序列局部信息建模能力，能够弥补现有模型对于局部特征信息提取的不足，从而能够更为准确地分析长难句、复杂文本中多音字的读音，进而提高对文本中的多音字读音预测的准确率。
附图说明
13.图1为本技术实施例提供的文本识别方法的流程示意图；
14.图2为本技术实施例提供的改进后的deberta模型中的cnn层的结构示意图；
15.图3为本技术实施例提供的改进的deberta模型的结构示意图；
16.图4为本技术实施例提供的文本识别方法的流程图；
17.图5为本技术实施例提供的文本识别装置的结构示意图；
18.图6为本技术实施例提供的电子设备的结构示意图；
19.图7为本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
21.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
22.语音合成是一种将文本转换为语音的技术，在用户与手机交互的场景中，语音合成技术为用户提供了一种新的信息交互方式。相比于视觉上的信息交互，在一些特定场景，例如，驾驶场景或者运动场景，语音合成以声音的形式能够更方便快捷地传递信息。其次，语音合成通过模拟语言的语调、语气和情感帮助用户更好地理解信息，为用户提供更加真实的交互体验。
23.在中文语音合成播报场景中，由于汉字里包含大量多音字，语音合成在处理多音字时可能会出现读错的情况，这种误读向用户传递了错误信息进而对信息产生了误解，降低了语音信息传递的可靠性和准确性。因此对错误读音进行纠正非常重要，尤其是针对多音字等重难点字词读音的识别与校正。
24.在相关技术中，为了让电子设备正确地读出一段文本，通常需要使用词典规则和多音字模型来预测文本读音，其中多音字模型需要根据文本编码后的结果来进行读音预测，文本编码指将自然语言文本转换成向量的形式便于计算机理解和处理。目前有两种编码方式：字编码和句编码。字编码指的是逐字进行编码只考虑当前字符的内容，采取字编码方式计算量比较小，效率高，但在一些复杂、有歧义的场景下由于上下文的联系可能会出现多音字读音预测错误。句编码考虑了前后语境、语义，因此能够更准确地预测多音字的读音，但句编码方式计算速度较为缓慢，需要大量的语料库进行训练，以及，现有的句编码方式通过基于全局的自注意力机制捕捉序列中的上下文关系，输入序列的每个位置能够关注到序列中其他所有位置的信息，但也因此在处理局部信息时容易受到其他位置的影响，难以提取细粒度的局部特征，如此，基于句编码对长难句等复杂文本中的多音字进行读音预测的准确性低。
25.针对上述问题，本技术提出一种文本识别方法，通过在deberta(decoding-enhanced bert with disentangled attention)模型新增卷积模块，即，卷积层，并通过该卷积层基于待识别文本的全局文本特征序列，提取待识别文本的局部特征信息，从而加强对文本序列局部信息建模能力，卷积网络通过局部连接和卷积核权值共享的方式，对序列分段进行卷积操作获得局部特征。在transformer层后新增卷积模块，能够弥补transformer层对于局部特征提取的不足，从而能够更好地利用局部信息和全局信息分析长难句、复杂文本读音，进而能够提高对长难句等复杂文本中的多音字进行读音预测的准确性。
26.需要说明的是，deberta，即，带有分散注意力的解码增强型bert。deberta模型为基于bert(bidirectional encoder representation from transformers)模型改进后得到的模型，bert，即，双向transformer的编码。
27.需要说明的是，bert模型和deberta模型是为不同的自然语言处理(natural language processing，nlp)任务提供支持的通用的新型语言模型。deberta模型的编码器结构为多层transformer叠加，transformer是一种在文本、时间序列建模任务中广泛使用的模型，它对整个序列进行建模，通过基于全局的自注意力机制捕捉序列中的上下文关系，输入序列的每个位置能够关注到序列中其他所有位置的信息。
28.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的文本识别方法进行详细地说明。
29.图1为本技术实施例提供的文本识别方法的流程示意图，如图1所示，该文本识别方法可以包括以下步骤s201至步骤s204：
30.步骤s201：文本识别装置将第一待识别文本输入第一文本编码模型。
31.其中，上述第一待识别文本包含第一多音字，上述第一文本编码模型包括卷积层。
32.可选地，在本技术实施例中，上述第一文本编码模型可以为包括cnn(卷积神经网络，convolutional neural networks)层的deberta模型。
33.需要说明的是，对deberta模型的解释说明可以参见上文描述，此处不再赘述。
34.可选地，在本技术实施例中，上述第一待识别文本可以为用户输入的文本，或者页面中已有的文本等，本技术实施例对此不作限定。
35.可选地，在本技术实施例中，上述第一待识别文本可以包括：至少一个句子或者至少一个段落。
36.可选地，在本技术实施例中，上述第一待识别文本可以为需要进行语音合成的文本。
37.可选地，在本技术实施例中，上述第一多音字可以包括一个或者两个以上多音字。
38.在本技术实施例中，上述卷积层包括卷积核(convolutional kernel)。
39.可选地，在本技术实施例中，上述卷积核对应的卷积窗口的窗长可以为3，所述卷积核的移动步长可以为1。
40.需要说明的是，上述卷积核对应的卷积窗口指的是卷积核执行卷积操作时，基于步长移动时的窗口长度。例如，卷积核尺寸为3
×
1，即卷积核每移动一次对应的窗口长度为3。
41.进一步可选地，上述卷积核用于对第一待识别文本进行局部特征提取。
42.进一步可选地，上述卷积核可以包括至少一个尺寸固定的卷积核。
43.需要说明的是，上述卷积窗口，又名卷积层窗口，卷积窗等，上述卷积窗口用于提取输入数据中的特征信息。
44.步骤s202：文本识别装置提取第一待识别文本对应的第一文本特征序列。
45.可选地，在本技术实施例中，文本识别装置可以将第一待识别文本输入至deberta模型的transformer层，对该第一待识别文本进行文本特征提取，得到该待识别文本对应的第一文本特征序列。
46.需要说明的是，上述transformer层是一个基于多头自注意力机制的双向长短期记忆网络，包括编码和解码两个部分。
47.可选地，在本技术实施例中，上述第一文本特征序列可以为：通过deberta模型的transformer层基于第一待识别文本的上下文语义特征得到的注意力结果，该注意力结果可以用h0表示。
48.进一步可选地，在通过deberta模型的transformer层对输入的文本进行处理时，将文本中的字符的内容信息和位置信息分别用两个向量表示，用以计算不同位置的字符间的注意力权重，然后，通过注意力权重，计算字符序列中每个位置的加权和，并在序列不同位置上分配不同的权重，得到上述注意力结果。
49.进一步地，文本中的每个字符可以转换成一个固定维度的向量形式，用以表示文本中每个字符对应的内容信息，并使用绝对位置编码记录每个字符的位置信息。
50.需要说明的是，在bert中，输入文本的每个字符都转换成一个固定维度的向量形式，用以表示文本中每个字符对应的内容信息，使用绝对位置编码记录每个字符的位置信息。而deberta模型考虑了字符与字符间的相对位置的重要性，例如“深度”和”学习”两个词在句子中相邻出现时，比它们分别出现在句子其他不同位置时具有更强的关联性，因此将字符的内容信息和位置信息分别用两个向量表示，用以计算注意力权重。
51.以下通过具体的实施例对通过deberta模型的transformer层，对第一待识别文本进行文本特征提取的过程进行解释说明。
52.示例性地，以处理文本中第i个字符为例，{h
ij
}表示第i个字符的嵌入向量，即将字符转换为一个固定维度的向量。{p
i|j
}表示第i个字符和第j个字符的相对位置,由此两个字符之间的注意力权重可用以下公式进行表示：
[0053][0054]
由上式可知，字符与字符间的注意力权重a
i,j
可以分解为“内容到内容”，“内容到位置”，“位置到内容”，“位置到位置”四个部分，由于使用相对位置编码，“位置到位置”本身不具备意义，因此在后续计算中略去。相比于相关技术中通过bert计算注意力权重时仅考虑“内容到内容”和“内容到位置”，本技术实施例基于deberta模型计算注意力权重，考虑了“位置到内容”的信息，通过位置信息帮助模型更好的理解序列中的语义内容。
[0055]
需要说明的是，上述“内容到内容”指的是一个字符和另一个字符的语义之间的联系，例如，待识别的文本中的字符a的语义和字符b的语义之间的联系；上述“内容到位置”指的是一个字符的内容和另一个字符的位置之间的联系，能够反映字符之间的联系紧密程度；上述“位置到内容”指的是一个字符的位置与另一个字符的内容之间的联系；上述“位置到位置”指的是一个字符的位置与另一个字符之间的位置之间的关系，例如，待识别的文本中的字符a的位置和字符b的在文本中的位置的远近。
[0056]
结合上述公式(1)，标准的注意力机制计算公式如下：
[0057][0058]
其中，h表示输入向量，q、k和v为通过对h作映射得到的内容向量，h0为自注意力机制输出结果,wq,wk,wv为可学习的映射矩阵，a为注意力权重矩阵，n为输入向量长度，d为输入向量的维度。
[0059]
需要说明的是，h为一个维度为n
×
d的实数矩阵，可以表示为h∈rn×d；wv是一个维度为d
×
d的实数矩阵，可以表示为wv∈rd×d；a是一个维度为n
×
n的实数矩阵，可以表示为a∈rn×n。
[0060]
对于上述公式(2)，使用公式(1)中的方式将其进一步分解公式(3)。其中qc,kc,vc表示由矩阵w
q,c
,w
k,c
,w
v,c
映射后的内容向量,qr,kr表示w
q,r
,w
k,r
由映射后的相对位置向量，
公式如下：
[0061][0062]
其中，为注意力矩阵中的元素，表示第i个字符到第j个字符间的注意力权重，对应公式(1)中前三项的计算公式，为qc的第i行向量，为qc的第j行向量，δ(i|j)表示文本中的字符i和字符j间的相对距离，为尺度因子，d为输入向量的维度。
[0063]
需要说明的是，通过注意力权重，可以计算序列中每个位置的加权值，从而帮助模型更好地捕捉序列中的相关性，得到准确的文本特征序列。
[0064]
示例性地，在通过上述公式(2)计算得到注意力权重后，将序列中每个元素与该元素对应的注意力权重相乘，得到序列中每个元素的加权值，也就是说，通过在序列的不同位置上分配不同的权重，获得注意力结果h0，从而得到更加准确的文本特征序列。
[0065]
可选地，在本技术实施例中，第一待识别文本可以为将多个第一文本进行拼接后得到的文本，换言之，上述多个第一文本可以为第一待识别文本中的文本片段。
[0066]
可选地，在本技术实施例中第一文本特征序列可以包括多个文本特征序列，一个文本特征序列对应第一待识别文本中的一个文本片段。
[0067]
进一步可选地，在通过deberta模型的transformer层对上述拼接后得到的文本进行处理时，文本识别装置在第一待识别文本输入至deberta模型后，通过该deberta模型将该第一待识别文本转换为向量，得到第一待识别文本中的每个文本片段对应的字符嵌入向量以及类型嵌入向量，并将字符嵌入向量与类型嵌入向量的和作为transformer层的输入，得到注意力结果h0。
[0068]
进一步地，上述字符嵌入向量为字符内容的向量表达形式；类型嵌入向量为人工给每个拼接的句打上标记，然后将标记转换为向量，而得到的向量，类型嵌入向量可以使模型能够区分不同的句子。
[0069]
需要说明的是，输入向量为多个句子拼接输入至模型，通过类型嵌入向量给拼接句子里的不同句子打标记，使模型能够区分不同句子。
[0070]
进一步地，上述h0可以包括m个文本特征序列，每个序列中包括至n个元素，即，每个序列的长度可以为n。其中，一个元素可以对应一个字符嵌入向量，每个字符嵌入向量的维度可以相同。
[0071]
进一步地，每个文本特征序列包含上述第一待识别文本中的一个文本片段对应的文本特征序列。
[0072]
举例说明，以第一待识别文本为对文本1、文本2和文本3进行拼接后得到的文本，在通过transformer层对该文本处理后，得到的注意力结果h0包括文本1对应的序列，文本2对应的序列和文本3对应的序列，其中每个序列可以包括8个元素，即序列的长度为8。
[0073]
需要说明的是，上述m、n的取值仅为一种示例，并不构成对本技术的限定，m和n的
取值的具体可以根据实际需求确定。
[0074]
步骤s203：文本识别装置采用卷积层对第一文本特征序列进行分段卷积处理，得到第二文本特征序列。
[0075]
其中，上述第二文本特征序列至少包含第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含上述第一多音字。
[0076]
可选地，在本技术实施例中，文本识别装置可以将上述第一文本特征序列输入至deberta模型的cnn层，并通过cnn层对该第一文本特征序列进行分段卷积处理，得到第二文本特征序列。
[0077]
示例性地，以第一文本特征序列为transformer层的输出向量h0为例，文本识别装置在通过cnn层对该第一文本特征序列进行分段卷积处理时，可以通过一个固定尺寸的卷积核对上述输出向量h0的序列进行分段卷积处理。具体地，将固定大小的卷积核与输出向量h0分段进行卷积计算获得局部的卷积结果，当计算结束后，前移卷积核与下一段序列进行卷积，重复该卷积操作遍历整个序列，最后输出整体的卷积结果。
[0078]
以下结合附图对本技术实施例中的分段卷积处理过程进行举例说明。
[0079]
图2为本技术实施例提供的改进后的deberta模型中的cnn层的结构示意图，如图2所示，上述deberta模型至少包括cnn输入层、卷积层和输出层，其中，上述cnn输入层用于输入上述第一文本特征序列，即，transformer层的输出向量h0，该输出向量h0的一个序列包括x1、x2、x3、x4、x5、x6、x7以及x8以上八个元素，每个元素表示一个字符嵌入向量，每个字符嵌入向量的维度为3。上述卷积层用于通过卷积核对上述第一文本特征序列进行分段卷积，上述输出层用于输出卷积结果。
[0080]
需要说明的是，图2中的输入层矩阵中的每一列表示对应字符嵌入向量的维度。
[0081]
结合上述图2，在将上述输出向量h0输入至卷积层后，通过固定大小的卷积核与输出向量h0分段进行卷积计算获得局部的卷积结果，当计算结束后，前移卷积核与下一段序列进行卷积，重复该卷积操作遍历整个序列，最后输出整体的卷积结果。比如，卷积核的大小远小于输出向量h0的序列长度，因此使用卷积核与向量做卷积时，可以分段进行卷积。
[0082]
举例说明，卷积核大小为3
×
1，h0大小为42
×
1，那么第一次卷积运算时，卷积核与h0的第1、2、3个位置做乘法并求和，得到一个卷积结果。之后前向移动卷积核，通过卷积核与序列的第2、3、4个位置的元素做乘法，分别得到对应的卷积结果。然后基于每个卷积结果的和，得到最终的卷积结果。如此，通过控制卷积层中的卷积核大小，在做卷积运算时能够仅关注指定范围内的内容，从而获得准确的局部语义信息。
[0083]
可选地，在本技术实施例中，文本识别装置可以根据得到的局部语义信息，确定与该局部语义信息对应的文本片段，从而确定多音字所在的文本片段的语义信息。
[0084]
示例性地，以第一待识别文本为“我们一起同行的人都是同行”为例，则通过transformer层获取到该文本的全局语义信息可以为“我们在行走”，进一步通过cnn层获取到该文本的全局语义信息可以为“我们在行走”，获取到的局部语义信息可以包括“我们同行”和“是同行”。
[0085]
可以理解的是，后续通过该文本的全局语义信息进行多音字预测时，可能会将该文本中的“行”的读音均预测为“xing2”，导致准确性较差。而通过局部语义信息进行多音字预测时，可以根据第一个位置出现的“行”所在的文本片段的语义信息“我们同行”预测该处
的“行”的读音为“xing2”，根据第二个位置出现的“行”所在的文本片段的语义信息预测该处的“行”的读音为“hang2”。
[0086]
步骤s204：文本识别装置基于上述第二文本特征序列，得到第一待识别文本对应的第一编码信息。
[0087]
可选地，在本技术实施例中，文本识别装置可以将上述第二文本特征序列输入至deberta模型的编码模块，得到上述第一编码信息。
[0088]
以下结合附图对本技术实施例提供的编码方法进行解释说明。
[0089]
图3为本技术实施例提供的改进的deberta模型的结构示意图，如图3所示，该deberta模型至少包括：transfomer层、cnn层和编码模块，即mask decoder。如图3所示，文本识别装置将多个不同的文本拼接，作为模型输入信息输入至deberta模型，并得到拼接文本对应的字符嵌入向量和类型嵌入向量，然后将字符嵌入向量与类型嵌入向量的和作为transformer层输入，通过transformer层结合相对位置嵌入向量计算得到拼接文本对应的表征全局语义的文本特征向量后，将该文本特征向量输入至cnn层进行分段卷积处理，得到表征局部语义和全局语义的文本特征向量，即第二文本特征序列，最后将该表征局部语义和全局语义的文本特征向量输入至编码模块，得到最终的句编码结果。如此，通过将transformer与cnn相结合，使模型不但能从transformer获得全局语义信息，也能通过cnn更好地对局部序列信息进行建模，考虑了序列语义信息的可能存在的局部强相关信息，使模型在预测多音字时能够综合全局和局部信息进行判断。将cnn输出层输出的结果经过decoder获得最终的句编码结果，在已有标注的验证集测试中，分别对比了基于字、句编码的读音预测结果和标注的读音结果，统计结果表明，基于改进的deberta生成句编码的多音字预测结果准确率远高于基于字编码的多音字读音结果。
[0090]
本技术实施例提供的文本识别方法，文本识别装置将第一待识别文本输入第一文本编码模型，该第一待识别文本包含第一多音字，该第一文本编码模型包括卷积层，然后，提取第一待识别文本对应的第一文本特征序列，并采用所述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含所述第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含第一多音字，最后，基于上述第二文本特征序列，得到第一待识别文本对应的第一编码信息。通过该方法，文本识别装置通过第一文本编码模型中的卷积层对文本的全局文本特征序列进行卷积操作获得包含全局语义信息和局部语义信息的文本特征序列，并基于该文本特征序列得到更为准确的识别结果，从而加强对文本序列局部信息建模能力，能够弥补现有模型对于局部特征信息提取的不足，从而能够更为准确地分析长难句、复杂文本中多音字的读音，进而提高对文本中的多音字读音预测的准确率。
[0091]
可选地，在本技术实施例中，上述步骤s203可以包括以下步骤s203a和步骤s203b：
[0092]
步骤s203a：文本识别装置通过上述卷积层中的卷积核对应的卷积窗口，对上述第一文本特征序列进行分段卷积处理，得到n个序列片段。
[0093]
其中，任一序列片段对应的文本特征序列包含上述任一序列片段对应文本片段的局部语义信息。
[0094]
可选地，在本技术实施例中，上述第二文本特征序列由上述n个序列片段组成。
[0095]
可选地，在本技术实施例中，上述第一文本特征序列可以包括多个文本特征序列，
上述每个文本特征序列包含至少一个按序排列的文本特征元素。
[0096]
需要说明的是，对于卷积层的相关解释说明可以参见上文，此处不再赘述，
[0097]
可选地，在本技术实施例中，文本识别装置可以根据卷积窗口的窗长，每次选择一个第一文本特征序列中的至少两个特征元素进行卷积处理，并且根据卷积步长移动卷积窗口，以选择特征元素进行下一次的卷积处理。
[0098]
可选地，在本技术实施例中，一个序列片段中包含的文本特征元素的数量是基于卷积窗口的窗长确定的，
[0099]
示例性地，结合上述实施例，以文本特征序列包括x1、x2、x3、x4、x5、x6、x7以及x8以上八个元素、卷积核的尺寸为3*1，卷积步长为1为例，在进行分段卷积处理时，卷积核与文本特征序列的第1个位置的元素x1、第2个位置的元素x2和第3个位置的元素x3做乘法并求和，得到一个卷积结果r1。之后前向移动卷积核，通过卷积核与序列的第2、3、4个位置的元素(即，x2、x3、x4)做乘法并求和，得到对应的卷积结果r1，以此类推，通过卷积核与序列的第6、7、8个位置的元素(即，x6、x7、x8)做乘法并求和，得到对应的卷积结果r6，然后基于每个卷积结果的和，得到最终的卷积结果。
[0100]
如此，通过控制卷积层中的卷积核大小，在做卷积运算时能够仅关注指定范围内的内容，从而获得准确的局部语义信息。
[0101]
可选地，在本技术实施例中，上述步骤s201之前，本技术实施例提供的文本识别方法还包括以下步骤c1至步骤c3：
[0102]
步骤c1：文本识别装置接收用户的第一输入。
[0103]
步骤c2：文本识别装置响应于上述第一输入，将第一输入对应的待识别文本存储至第一文件中。
[0104]
步骤c3：文本识别装置在第一文件中存储的待识别文本的数量超过第一阈值的情况下，将第一文件中存储的待识别文本合成为上述第一待识别文本。
[0105]
可选地，在本技术实施例中，上述第一输入可以为用户的触控输入、语音输入或者手势输入等任意具备可行性的输入，本技术实施例对此不作限定。
[0106]
进一步地，上述触控输入可以为用户的点击输入、长按输入或者滑动输入等。
[0107]
可选地，在本技术实施例中，上述第一阈值可以为50条、100条或者150条等，本技术实施例对此不作限定。
[0108]
可选地，在本技术实施例中，文本识别装置可以将上述第一文件中存储的待识别文本进行文本拼接，得到上述第一待识别文本。
[0109]
示例性地，以第一输入为用户对待识别文本的点击输入为例，用户点击电子设备的界面上显示的需要进行语音合成的文本后，文本识别装置获取该文本，并将该文本自动写入固定目录文件d，当该目录文件d中文本数量达到预先设定的数量时，将会自动启动读音纠正系统，并将所积累的文本进行拼接得到上述第一待识别文本，并将该第一待识别文本输入至第一文本编码模型进行处理。
[0110]
本技术实施例提供的文本识别方法，用户在手机端请求朗读文本时，编码装置可以将每次请求朗读的文本存储至文件中，并在文本数量超过一定阈值后，将文本输入至第一文本编码模型进行处理，从而能够第一文本编码模型对用户惯常需要朗读的文本进行准确地语义识别和编码，得到更为准确的编码信息，从而在后续能够基于编码更为准确地预
测文本中多音字的读音。
[0111]
可选地，在本技术实施例中，上述步骤s204之后，本技术实施例提供的文本识别方法还包括以下步骤s205：
[0112]
步骤s205：文本识别装置将上述第一编码信息输入至第一多音字模型，对该第一多音字进行读音预测，得到该第一多音字的第一读音预测信息。
[0113]
可选地，在本技术实施例中，上述第一多音字模型可以由双向长短时记忆神经网络和线性神经网络训练获得。
[0114]
可选地，在本技术实施例中，文本识别装置将上述第一编码信息输入至第一多音字模型后，基于句编码的多音字模型推理，得到对应的多音字读音预测结果。
[0115]
举例说明，以第一待识别文本包括“差点着了他的道”为例，在基于上述第一文本编码模型得到该文本的编码信息后，将该编码信息输入至第一多音字模型，通过第一多音字模型预测该文本中的多音字“着”发音为“zhao1”的概率为85％，大于发音为“zhe5”的概率，则输出该文本的读音预测信息“zhao1”。需要说明的是，读音预测信息“zhao1”中的“zhao”表示拼音，“1”表示声调，即一声。
[0116]
进一步可选地，在本技术实施例中，上述步骤s205之后，本技术实施例提供的文本识别方法还包括以下步骤s206：
[0117]
步骤s206：文本识别装置将上述第一待识别文本作为预设文本，与该第一读音预测信息关联存储至文本读音库。
[0118]
其中，上述文本读音库中包含多个预设文本以及每个预设文本对应的读音预测信息，每个预设文本中包含至少一个多音字。
[0119]
为了便于理解，上述文本读音库可以称为纠错干预库。
[0120]
可选地，在本技术实施例中，上述文本读音库中存储的数据的数据格式为：《文本》|《带目标多音字拼音的文本》。例如，文本读音库中存储的数据包括：“他的穿着很普通|他的穿着(zhuo2)很普通”，“差点着了他的道|差点着zhao1了他的道”，“家里着火了|家里着(zhao2)火了”。
[0121]
如此，通过对累积的多个待识别文本基于句编码结果进行读音预测，从而得到更为准确的读音预测结果，并且，将得到的更为准确的读音预测信息预存至文本读音库中，使得后续进行在线语音合成时，可以通过文本读音库对基于字编码结果进行读音预测后得到的读音预测结果进行纠正，从而在保证处理速度的同时保证了读音预测的高准确率。
[0122]
进一步可选地，在本技术实施例中，文本识别装置得到该第一多音字的第一读音预测信息，并将第一待识别文本作为预设文本，与该第一读音预测信息关联存储至文本读音库之后，可以获取文本读音库中错误的读音预测信息，并将错误的读音预测信息添加到上述第一多音字模型的训练数据集，以通过错误的读音预测信息对该第一多音字模型进行训练，从而对模型迭代更新优化。
[0123]
可选地，文本识别装置可以对文本读音库中保存的预设文本对应的读音预测信息进行检查，在检查到预设文本对应的读音预测信息为错误信息时，将该错误的读音预测信息添加到上述第一多音字模型的训练数据集，以通过错误的读音预测信息对该第一多音字模型进行训练。
[0124]
示例性地，文本识别装置将错误的读音预测信息分别加入训练集中训练，通过积
累的数据集迭代训练多音字模型，修复原本在线朗读系统中读音出错的例子，增强模型的泛化能力，从而实现周期性地提高多音字模型读音预测准确率。
[0125]
可选地，在本技术实施例中，本技术实施例提供的一种读音预测方法，该读音预测方法可以包括以下步骤a1至步骤a4：
[0126]
步骤a1：文本识别装置将第二待识别文本输入第二文本编码模型，提取第二待识别文本对应的第三文本特征序列。
[0127]
其中，上述第二待识别文本包含第二多音字，上述第二文本编码模型与上述第一文本编码模型不同。
[0128]
步骤a2：文本识别装置基于上述第三文本特征序列，得到上述第二待识别文本对应的第二编码信息。
[0129]
步骤a3：文本识别装置将上述第二编码信息输入至第二多音字模型，对上述第二多音字进行读音预测，得到上述第二多音字的第三读音预测信息。
[0130]
步骤a4：文本识别装置在文本读音库中存在目标预设文本的情况下，将上述第三读音预测信息更新为目标预设文本对应的第四读音预测信息。
[0131]
其中，上述目标预设文本为上述文本读音库中与第二待识别文本匹配的文本。
[0132]
可选地，在本技术实施例中，上述第二文本编码模型可以为字编码模型。
[0133]
可选地，在本技术实施例中，该多音字模型可以由双向长短时记忆神经网络和线性神经网络训练获得。
[0134]
示例性地，在用户需要对文本进行朗读时，用户点击该文本后，编码装置获取文本请求并将该文本请求实时发送到语音合成引擎端，通过语音合成引擎端采用字编码方式对文本编码处理，并将编码后的编码结果输入到第二多音字模型中。
[0135]
可选地，在本技术实施例中，在进行字编码处理时，语音合成引擎端使用focal loss损失函数以减缓数据不平衡带来的影响，从而提高多音字读音准确率,其公式如下：
[0136]
focal loss＝-α
t
(1-p
t
)
γ
log(p
t
)
ꢀꢀꢀꢀ
(4)
[0137]
其中，通过权重因子α抑制正负样本的数量失衡的情况，权重因子α的取值可以为{0,1}，即，α∈[0,1]；(1-p
t
)
γ
为调制因子，辅助难、易样本的区分。通过focal loss损失函数，改善了样本类别不均衡问题。
[0138]
需要说明的是，由于多音字读音的使用频率及场景不同，因此在训练数据中每种读音样本数据难以保持均衡，例如训练集中把的读音“ba3”数据量是“ba4”的十倍，这导致模型预测结果会倾向于预测“ba3”，将部分“ba4”读音预测错误。
[0139]
可选地，在本技术实施例中，上述第二多音字模型的模型结构及损失函数与上述第一多音字模型相同。
[0140]
可选地，在本技术实施例中，在得到第二待识别文本基于字编码得到的第三读音预测信息的情况下，将该第二待识别文本与文本读音库中的预设文本进行匹配，在文本读音库中存在与上述第二待识别文本匹配的目标预设文本的情况下，将上述第三读音预测信息更新文本读音库中目标预设文本对应的第四读音预测信息。
[0141]
进一步可选地，在文本读音库中存在与上述第二待识别文本匹配的目标预设文本的情况下，可以判断该第二待识别文本的第三读音预测信息与目标预设文本对应的第四读音预测信息是否相同，若相同，则输出上述第三读音预测信息，若不同，则将第三读音预测
信息更新为第四读音预测信息。
[0142]
举例说明，以第二待识别文本为“他的穿着很普通”为例，假设第二待识别文本基于字编码得到读音预测结果为“他的穿着(zhe5)很普通”，将该第二待识别文本与文本读音库中的预设文本进行匹配，得到与其匹配的文本对应的读音预测结果为“他的穿着(zhuo2)很普通”，则将该第二待识别文本的读音预测结果纠正为“他的穿着(zhuo2)很普通”。
[0143]
需要说明的是，读音“zhe5”中的“zhe”为拼音，“5”为声调，即轻声。同理，读音“zhuo2”中的“zhuo”为拼音，“2”为声调，表示二声。
[0144]
需要说明的是，上述步骤a1至步骤a4可以在步骤s201之前执行，或者在上述步骤s201之后执行。
[0145]
本技术实施例提供的文本识别方法，结合了句编码和字编码的优势，在保证低延迟语音朗读服务的同时，能够及时快速纠正错误读音；根据纠错系统的纠错数据，周期性地迭代多音字模型，提高多音字读音准确率，极大减小了人工查错纠错所需的人力和时间成本。
[0146]
进一步可选地，在本技术实施例中，上述步骤a3之后，本技术实施例提供的文本识别方法还包括以下步骤b1：
[0147]
步骤b1：文本识别装置在检测到上述第三读音预测信息为错误读音预测信息的情况下，将上述第三读音预测信息添加至训练数据集。
[0148]
其中，上述训练数据集用于训练上述第二多音字模型。
[0149]
可选地，在本技术实施例中，在第二待识别文本的第三读音预测信息与从文本读音库中匹配到的第四读音预测信息不同的情况下，将该第三读音预测信息作为错误的读音预测信息添加至上述第二多音字模型的训练集，以对第二多音字模型进行模型迭代更新优化。
[0150]
示例性地，文本识别装置将基于字编码得到的错误读音预测信息加入根据字编码的编码结果预测读音的多音字模型的训练集中，并基于积累的错误读音预测信息训练该多音字模型，以修复原本在线朗读系统中读音出错的例子，增强模型的泛化能力，从而实现周期性地提高多音字模型读音预测准确率。
[0151]
以下结合流程图通过具体的实施例对本技术实施例提供的文本识别方法进行说明。
[0152]
图4为本技术实施例提供的文本识别方法的流程图，如图4所示，该文本识别方法可以包括以下步骤101至步骤109：
[0153]
步骤101：通过第二文本编码模型对用户请求识别的文本进行字编码。
[0154]
示例性地，用户点击文本进行语音朗读，此时该文本请求会实时发送到语音合成引擎端，对文本进行字编码处理，并将编码后的结果输入到步骤102的多音字模型中。
[0155]
步骤102：通过第二多音字模型获得读音预测结果。
[0156]
需要说明的是，对于该步骤的解释说明可以参见上文描述，此处不再赘述。
[0157]
步骤103：干预库内匹配查询目标文本。
[0158]
示例性地，若干预库中存在该文本，匹配结果为true，则使用干库对应的结果，并跳转至步骤104；若干预库中不存在该文本，则匹配结果为false，跳转至步骤105。
[0159]
步骤104：读音结果干预修复。
[0160]
示例性地，若步骤104匹配结果为true，则使用干预库中所对应的文本读音结果，跳转至步骤105，完成错误读音的纠正。
[0161]
步骤105：输出最终的读音。
[0162]
步骤106：文本积累。
[0163]
示例性地，读音纠正系统非实时运行，用户在手机端请求朗读的文本会自动写入固定目录文件d，当请求文本数量达到预先设定的数量时，将会自动启动读音纠正系统，并将所积累的文本送入步骤107。
[0164]
步骤107：基于大模型deberta进行文本句编码。
[0165]
示例性地，读取步骤106中积累的文本，使用预训练大模型deberta批量输出文本句编码结果，预训练大模型deberta，即上述第一文本编码模型。
[0166]
步骤108：基于句编码的第二音字模型获得读音预测结果。
[0167]
步骤109a：对第一多音字模型进行迭代更新。
[0168]
步骤109b：对第二多音字模型进行迭代更新。
[0169]
需要说明的是，对该实施例中的解释说明可以参见上文，此处不再赘述。
[0170]
本技术实施例提供的文本识别方法，一方面，通过多音字读音自动化纠错系统，能够自动纠错线上语音合成多音字读音，通过改进的deberta预训练模型生成的句编码能够更好地表达和捕捉语境和语义信息，保证了读音的高准确率。另一方面，通过预训练大模型句编码训练的多音字模型指导线上语音合成多音字模型迭代更新，提高线上多音字模型自身的读音准确率。再一方面，通过自动纠错系统进行纠错，避免了人工纠错所需要的高昂时间和人力成本，同时提高了纠错效率。
[0171]
本技术实施例提供的文本识别方法，执行主体可以为文本识别装置。本技术实施例中以文本识别装置执行文本识别方法为例，说明本技术实施例提供的文本识别装置。
[0172]
图5为本技术实施例提供的文本识别装置的结构示意图，如图5所示，该文本识别装置500包括执行模块501和处理模块502，其中：
[0173]
上述执行模块501，用于将第一待识别文本输入第一文本编码模型，上述第一待识别文本包含第一多音字，上述第一文本编码模型包括卷积层；
[0174]
上述处理模块502，用于提取第一待识别文本对应的第一文本特征序列；
[0175]
上述处理模块501，还用于采用上述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含上述第一待识别文本的全局语义信息和上述第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含上述第一多音字；
[0176]
上述处理模块501，还用于基于上述第二文本特征序列，得到上述第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得上述第一待识别文本的识别结果。
[0177]
可选地，在本技术实施例中，上述处理模块，具体用于通过上述卷积层中的卷积核对应的卷积窗口，对上述第一文本特征序列进行分段卷积处理，得到n个序列片段对应的文本特征序列，一个上述序列片段中包含的文本特征元素的数量是基于上述卷积窗口的窗长确定的，任一序列片段对应的文本特征序列包含上述任一序列片段对应文本片段的局部语义信息；其中，上述第二文本特征序列由上述n个序列片段组成。
[0178]
可选地，在本技术实施例中，上述处理模块，具体用于将上述第一编码信息输入至
第一多音字模型，对上述第一多音字进行读音预测，得到上述第一多音字的第一读音预测信息。
[0179]
可选地，在本技术实施例中，上述装置还包括：存储模块；
[0180]
上述存储模块，用于在上述处理模块将上述第一编码信息输入至第一多音字模型，对上述第一多音字进行读音预测，得到上述第一多音字的第一读音预测信息之后，将上述第一待识别文本作为预设文本，与上述第一读音预测信息关联存储至文本读音库；
[0181]
其中，上述文本读音库中包含多个预设文本以及每个预设文本对应的读音预测信息，每个上述预设文本中包含至少一个多音字。
[0182]
可选地，在本技术实施例中，上述处理模块，还用于将第二待识别文本输入第二文本编码模型，提取上述第二待识别文本对应的第三文本特征序列，第二待识别文本包含第二多音字，上述第二文本编码模型与上述第一文本编码模型不同；上述处理模块，还用于基于上述第三文本特征序列，得到上述第二待识别文本对应的第二编码信息；上述处理模块，还用于将上述第二编码信息输入至第二多音字模型，对上述第二多音字进行读音预测，得到上述第二多音字的第三读音预测信息；上述装置还包括：更新模块；上述更新模块，用于在上述文本读音库中存在目标预设文本的情况下，将上述第三读音预测信息更新为上述目标预设文本对应的第四读音预测信息；其中，上述目标预设文本为上述文本读音库中与上述第二待识别文本匹配的文本。
[0183]
可选地，在本技术实施例中，上述处理模块，还用于在检测到上述第三读音预测信息为错误读音预测信息的情况下，将上述第三读音预测信息添加至训练数据集；其中，上述训练数据集用于训练上述第二多音字模型。
[0184]
可选地，在本技术实施例中，上述装置还包括：接收模块和存储模块，其中：上述接收模块，用于接收用户的第一输入；上述存储模块，用于响应于上述接收模块接收的上述第一输入，将上述第一输入对应的待识别文本存储至第一文件中；上述处理模块，还用于在上述第一文件中存储的待识别文本的数量超过第一阈值的情况下，将上述第一文件中存储的待识别文本合成为上述第一待输入文本。
[0185]
本技术实施例提供的文本识别装置，文本识别装置将第一待识别文本输入第一文本编码模型，该第一待识别文本包含第一多音字，该第一文本编码模型包括卷积层，然后，提取第一待识别文本对应的第一文本特征序列，并采用上述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含上述第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含第一多音字，最后，基于上述第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。通过该方法，文本识别装置通过第一文本编码模型中的卷积层对文本的全局文本特征序列进行卷积操作获得包含全局语义信息和局部语义信息的文本特征序列，并基于该文本特征序列得到更为准确的识别结果，从而加强对文本序列局部信息建模能力，能够弥补现有模型对于局部特征信息提取的不足，从而能够更为准确地分析长难句、复杂文本中多音字的读音，进而提高对文本中的多音字读音预测的准确率。
[0186]
本技术实施例中的文本识别装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性
的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0187]
本技术实施例中的文本识别装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0188]
本技术实施例提供的文本识别装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0189]
可选地，如图6所示，本技术实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在上述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述文本识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0190]
需要说明的是，本技术实施例中的电子设备包括上述上述的移动电子设备和非移动电子设备。
[0191]
图7为实现本技术实施例的一种电子设备的硬件结构示意图。
[0192]
该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元100、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
[0193]
本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0194]
其中，上述处理器1010，用于将第一待识别文本输入第一文本编码模型，上述第一待识别文本包含第一多音字，上述第一文本编码模型包括卷积层；
[0195]
上述处理器1010，用于提取第一待识别文本对应的第一文本特征序列；
[0196]
上述处理器1010，还用于采用上述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含上述第一待识别文本的全局语义信息和上述第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含上述第一多音字；
[0197]
上述处理器1010，还用于基于上述第二文本特征序列，得到上述第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得上述第一待识别文本的识别结果。
[0198]
可选地，在本技术实施例中，上述处理器1010，具体用于通过上述卷积层中的卷积核对应的卷积窗口，对上述文本特征序列进行分段卷积处理，得到n个序列片段对应的文本特征序列，任一序列片段对应的文本特征序列包含上述任一序列片段对应文本片段的局部
语义信息；其中，上述第二文本特征序列由上述n个序列片段组成。
[0199]
可选地，在本技术实施例中，上述处理器1010，具体用于将上述第一编码信息输入至第一多音字模型，对上述第一多音字进行读音预测，得到上述第一多音字的第一读音预测信息。
[0200]
可选地，在本技术实施例中，上述存储器1009，用于在将上述第一编码信息输入至第一多音字模型，对上述第一多音字进行读音预测，得到上述第一多音字的第一读音预测信息之后，将上述第一待识别文本作为预设文本，与上述第一读音预测信息关联存储至文本读音库；
[0201]
其中，上述文本读音库中包含多个预设文本以及每个预设文本对应的读音预测信息，每个上述预设文本中包含至少一个多音字。
[0202]
可选地，在本技术实施例中，上述处理器1010，还用于将第二待识别文本输入第二文本编码模型，提取上述第二待识别文本对应的第三文本特征序列，第二待识别文本包含第二多音字，上述第二文本编码模型与上述第一文本编码模型不同；上述处理器1010，还用于基于上述第三文本特征序列，得到上述第二待识别文本对应的第二编码信息；上述处理器1010，还用于将上述第二编码信息输入至第二多音字模型，对上述第二多音字进行读音预测，得到上述第二多音字的第三读音预测信息；上述装置还包括：更新模块；上述更新模块，用于在上述文本读音库中存在目标预设文本的情况下，将上述第三读音预测信息更新为上述目标预设文本对应的第四读音预测信息；其中，上述目标预设文本为上述文本读音库中与上述第二待识别文本匹配的文本。
[0203]
可选地，在本技术实施例中，上述处理器1010，还用于在检测到上述第三读音预测信息为错误读音预测信息的情况下，将上述第三读音预测信息添加至训练数据集；其中，上述训练数据集用于训练上述第二多音字模型。
[0204]
可选地，在本技术实施例中，上述用户输入单元1007，用于接收用户的第一输入；上述存储器1009，用于响应于上述用户输入单元1007接收的上述第一输入，将上述第一输入对应的待识别文本存储至第一文件中；上述处理器1010，还用于在上述第一文件中存储的待识别文本的数量超过第一阈值的情况下，将上述第一文件中存储的待识别文本合成为上述第一待输入文本。
[0205]
本技术实施例提供的电子设备，电子设备将第一待识别文本输入第一文本编码模型，该第一待识别文本包含第一多音字，该第一文本编码模型包括卷积层，然后，提取第一待识别文本对应的第一文本特征序列，并采用上述卷积层对上述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，上述第二文本特征序列至少包含上述第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，上述第一文本片段包含第一多音字，最后，基于上述第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。通过该方法，文本识别装置通过第一文本编码模型中的卷积层对文本的全局文本特征序列进行卷积操作获得包含全局语义信息和局部语义信息的文本特征序列，并基于该文本特征序列得到更为准确的识别结果，从而加强对文本序列局部信息建模能力，能够弥补现有模型对于局部特征信息提取的不足，从而能够更为准确地分析长难句、复杂文本中多音字的读音，进而提高对文本中的多音字读音预测的准确率。
[0206]
应理解的是，本技术实施例中，输入单元1004可以包括图形处理器(graphics processing unit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
[0207]
存储器1009可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
[0208]
处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。
[0209]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0210]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0211]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0212]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0213]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0214]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0215]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0216]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

技术特征：
1.一种文本识别方法，其特征在于，所述方法包括：将第一待识别文本输入第一文本编码模型，所述第一待识别文本包含第一多音字，所述第一文本编码模型包括卷积层；提取第一待识别文本对应的第一文本特征序列，所述第一文本特征序列包含所述第一待识别文本的语义信息；采用所述卷积层对所述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，所述第二文本特征序列至少包含所述第一待识别文本的全局语义信息和所述第一待识别文本中的第一文本片段的局部语义信息，所述第一文本片段包含所述第一多音字；基于所述第二文本特征序列，得到所述第一待识别文本对应的第一编码信息，并基于所述第一编码信息获得所述第一待识别文本的识别结果。2.根据权利要求1所述的方法，其特征在于，所述采用所述卷积层对所述第一文本特征序列进行卷积处理，得到第二文本特征序列，包括：通过所述卷积层中的卷积核对应的卷积窗口，对所述第一文本特征序列进行分段卷积处理，得到n个序列片段，任一序列片段对应的文本特征序列包含所述任一序列片段对应文本片段的局部语义信息；其中，所述第二文本特征序列由所述n个序列片段组成。3.根据权利要求1或2所述的方法，其特征在于，所述基于所述第一编码信息获得所述第一待识别文本的识别结果，包括：将所述第一编码信息输入至第一多音字模型，对所述第一多音字进行读音预测，得到所述第一多音字的第一读音预测信息。4.根据权利要求3所述的方法，其特征在于，所述将所述第一编码信息输入至第一多音字模型，对所述第一多音字进行读音预测，得到所述第一多音字的第一读音预测信息之后，所述方法还包括：将所述第一待识别文本作为预设文本，与所述第一读音预测信息关联存储至文本读音库；其中，所述文本读音库中包含多个预设文本以及每个预设文本对应的读音预测信息，每个所述预设文本中包含至少一个多音字。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：将第二待识别文本输入第二文本编码模型，提取所述第二待识别文本对应的第三文本特征序列，第二待识别文本包含第二多音字，所述第二文本编码模型与所述第一文本编码模型不同；基于所述第三文本特征序列，得到所述第二待识别文本对应的第二编码信息；将所述第二编码信息输入至第二多音字模型，对所述第二多音字进行读音预测，得到所述第二多音字的第三读音预测信息；在所述文本读音库中存在目标预设文本的情况下，将所述第三读音预测信息更新为所述目标预设文本对应的第四读音预测信息；其中，所述目标预设文本为所述文本读音库中与所述第二待识别文本匹配的文本。6.根据权利要求5所述的方法，其特征在于，所述基于所述第二编码信息，得到所述第二多音字的第三读音预测信息之后，所述方法还包括：
在检测到所述第三读音预测信息为错误读音预测信息的情况下，将所述第三读音预测信息添加至训练数据集；其中，所述训练数据集用于训练所述第二多音字模型。7.根据权利要求1所述的方法，其特征在于，所述将第一待识别文本输入文本编码模型之前，所述方法还包括：接收用户的第一输入；响应于所述第一输入，将所述第一输入对应的待识别文本存储至第一文件中；在所述第一文件中存储的待识别文本的数量超过第一阈值的情况下，将所述第一文件中存储的待识别文本合成为所述第一待输入文本。8.一种文本识别装置，其特征在于，所述装置包括：执行模块和处理模块，其中：所述执行模块，用于将第一待识别文本输入第一文本编码模型，所述第一待识别文本包含第一多音字，所述第一文本编码模型包括卷积层；所述处理模块，用于提取第一待识别文本对应的第一文本特征序列；所述处理模块，还用于采用所述卷积层对所述第一文本特征序列进行分段卷积处理，得到第二文本特征序列，所述第二文本特征序列至少包含所述第一待识别文本的全局语义信息和所述第一待识别文本中的第一文本片段的局部语义信息，所述第一文本片段包含所述第一多音字；所述处理模块，还用于基于所述第二文本特征序列，得到所述第一待识别文本对应的第一编码信息，并基于所述第一编码信息获得所述第一待识别文本的识别结果。9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于通过所述卷积层中的卷积核对应的卷积窗口，对所述第一文本特征序列进行分段卷积处理，得到n个序列片段，任一序列片段对应的文本特征序列包含所述任一序列片段对应文本片段的局部语义信息；其中，所述第二文本特征序列由所述n个序列片段组成。10.根据权利要求8或9所述的装置，其特征在于，所述处理模块，具体用于将所述第一编码信息输入至第一多音字模型，对所述第一多音字进行读音预测，得到所述第一多音字的第一读音预测信息。11.根据权利要求10所述的装置，其特征在于，所述装置还包括：存储模块；所述存储模块，用于在所述处理模块将所述第一编码信息输入至第一多音字模型，对所述第一多音字进行读音预测，得到所述第一多音字的第一读音预测信息之后，将所述第一待识别文本作为预设文本，与所述第一读音预测信息关联存储至文本读音库；其中，所述文本读音库中包含多个预设文本以及每个预设文本对应的读音预测信息，每个所述预设文本中包含至少一个多音字。12.根据权利要求11所述的装置，其特征在于，所述处理模块，还用于将第二待识别文本输入第二文本编码模型，提取所述第二待识别文本对应的第三文本特征序列，第二待识别文本包含第二多音字，所述第二文本编码模型与所述第一文本编码模型不同；所述处理模块，还用于基于所述第三文本特征序列，得到所述第二待识别文本对应的第二编码信息；所述处理模块，还用于将所述第二编码信息输入至第二多音字模型，对所述第二多音
字进行读音预测，得到所述第二多音字的第三读音预测信息；所述装置还包括：更新模块；所述更新模块，用于在所述文本读音库中存在目标预设文本的情况下，将所述第三读音预测信息更新为所述目标预设文本对应的第四读音预测信息；其中，所述目标预设文本为所述文本读音库中与所述第二待识别文本匹配的文本。13.根据权利要求12所述的装置，其特征在于，所述处理模块，还用于在检测到所述第三读音预测信息为错误读音预测信息的情况下，将所述第三读音预测信息添加至训练数据集；其中，所述训练数据集用于训练所述第二多音字模型。14.根据权利要求8所述的装置，其特征在于，所述装置还包括：接收模块和存储模块，其中：所述接收模块，用于接收用户的第一输入；所述存储模块，用于响应于所述接收模块接收的所述第一输入，将所述第一输入对应的待识别文本存储至第一文件中；所述处理模块，还用于在所述第一文件中存储的待识别文本的数量超过第一阈值的情况下，将所述第一文件中存储的待识别文本合成为所述第一待输入文本。15.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的文本识别方法的步骤。16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的文本识别方法的步骤。

技术总结
本申请公开了一种文本识别方法、装置、电子设备及可读存储介质，属于自然语言处理领域。该方法包括：将第一待识别文本输入第一文本编码模型，第一待识别文本包含第一多音字，第一文本编码模型包括卷积层；提取第一待识别文本对应的第一文本特征序列；采用卷积层对第一文本特征序列进行分段卷积处理，得到第二文本特征序列，第二文本特征序列至少包含第一待识别文本的全局语义信息和第一待识别文本中的第一文本片段的局部语义信息，第一文本片段包含第一多音字；基于第二文本特征序列，得到第一待识别文本对应的第一编码信息，并基于上述第一编码信息获得第一待识别文本的识别结果。果。果。

技术研发人员：冉佳诺
受保护的技术使用者：维沃移动通信有限公司
技术研发日：2023.07.14
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种基于微震动波的车辆测速方法及系统与流程 下一篇：钙钛矿晶硅叠层电池及其制备方法与光伏组件与流程

文本识别方法、装置、电子设备及可读存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

文本识别方法、装置、电子设备及可读存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表