基于反向翻译的训练数据构建方法、装置、设备及介质与流程
未命名
09-11
阅读:76
评论:0

1.本发明涉及人工智能技术领域,尤其涉及一种基于反向翻译的训练数据构建方法、装置、设备及介质。
背景技术:
2.医院医疗语音的应用,是基于海量的医学文本数据,结合已建立的医疗大数据软、硬件平台,利用云计算、大数据和机器学习等技术进行大规模的训练,定制符合医疗应用场景的医学语音合成模型,随着深度学习的发展,语音合成技术得到了快速的发展,在文本到语音系统中,前端文本处理模块大大影响着合成语音的可解性和自然度。字素到音素预测模型是文本到语音系统前端模块中必不可少的组件,其中最大的挑战之一是多音词消歧任务。以往的大多数多音词消歧模型都是在人工标注的数据集和公开的多音词消歧数据集上进行训练的,而人工标注的数据集效率较低。因此,如何优化多音词消歧数据集的标注,提高标注效率成为亟待解决的问题。
技术实现要素:
3.基于此,有必要针对上述技术问题,提供一种基于反向翻译的训练数据构建方法、装置、设备及介质,以解决人工标注的数据集标注效率较低的问题。
4.本技术实施例的第一方面提供了一种基于反向翻译的训练数据方法,所述训练数据构建方法包括:
5.获取未标注标签的原始语句文本,确定所述原始语句文本的字素表达,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果;
6.基于反向翻译对所述音素预测结果进行字素预测,得到对应所述音素预测结果的字素;
7.将所述音素预测结果的字素与所述原始语句文本的字素表达进行比对,得到比对结果;
8.若所述比对结果满足预设筛选条件,则将所述音素预测结果确定为对应所述原始语句文本的标签,根据所述原始语句文本与所述标签,构建训练数据。
9.本技术实施例的第二方面提供了一种基于反向翻译的训练数据构建装置,所述训练数据构建装置包括:
10.获取模块,用于获取未标注标签的原始语句文本,确定所述原始语句文本的字素表达,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果;
11.预测模块,用于基于反向翻译对所述音素预测结果进行字素预测,得到对应所述音素预测结果的字素;
12.比对模块,用于将所述音素预测结果的字素与所述原始语句文本的字素表达进行比对,得到比对结果;
13.构建模块,用于若所述比对结果满足预设筛选条件,则将所述音素预测结果确定
为对应所述未标注标签的原始语句文本的标签,根据所述取未标注标签的原始语句文本与所述标签,构建训练数据。
14.第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的训练数据构建方法。
15.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的训练数据构建方法。
16.本发明与现有技术相比存在的有益效果是:
17.获取未标注标签的原始语句文本,确定原始语句文本的字素表达,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果,基于反向翻译对音素预测结果进行字素预测,得到对应音素预测结果的字素,将音素预测结果的字素与原始语句文本的字素表达进行比对,得到比对结果,若比对结果满足预设筛选条件,则将音素预测结果确定为对应原始语句文本的标签,根据原始语句文本与标签,构建训练数据。本发明中,使用反向翻译的方式进行训练数据构建,对未标注标签的原始语句文本的字素进行音素预测,得到音素预测结果,在对音素预测结果进行字素预测,得到音素预测结果的字素,将原始语句文本的字素与音素预测结果的字素进行比较,当原始语句文本的字素与音素预测结果的字素相等时,将音素预测结果确定为原始语句文本中的字素的标签,基于标签与原始语句文本组成训练数据,提高训练数据构建的效率。基于海量的医学文本数据,结合已建立的医疗大数据软、硬件平台,利用云计算、大数据和机器学习等技术进行大规模的训练,定制符合医疗应用场景的医学语音合成模型时,需要大量标注的训练样本,但对数据进行标注时,需要花费大量时间,使用本技术方法对未标注数据标注对应标签,有利于医学语音合成模型的训练,提高了模型训练效率。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明一实施例提供的一种基于反向翻译的训练数据构建方法的一应用环境示意图;
20.图2是本发明一实施例提供的一种基于反向翻译的训练数据构建方法的流程示意图;
21.图3是本发明一实施例提供的一种基于反向翻译的训练数据构建装置的结构示意图;
22.图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
25.还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
26.如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0027]
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0028]
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0029]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0030]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0031]
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0032]
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
[0033]
本发明一实施例提供的一种基于反向翻译的训练数据构建方法,可应用在如图1的应用环境中,其中,本地端与服务端进行通信。其中,本地端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等计算机设备。服务端可以用独立的服务器或者是多个服务器生成的服务器集群来实现。
[0034]
参见图2,是本发明一实施例提供的一种基于反向翻译的训练数据构建方法的流程示意图,上述基于反向翻译的训练数据构建方法可以应用于图1中的服务端,上述服务端
连接相应的本地端,如图2所示,该基于反向翻译的训练数据构建方法可以包括以下步骤。
[0035]
s201:获取未标注标签的原始语句文本,确定原始语句文本的字素表达,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。
[0036]
在步骤s201中,获取未标注标签的原始语句文本,其中,未标注标签的原始语句文本可以为包含复音的语句文本,确定原始语句文本的字素表达,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。
[0037]
本实施例中,从医院的医疗系统中,获取多种电子病例文本,电子病例文本为未标注标签的原始语句文本,其中,电子病例文本可以为不同科室对应的病例文本,例如,电子病例文本可以为外科电子病例,内科电子病例,急诊科室中的电子病例等。
[0038]
本实施例中,获取未标注标签的原始语句文本的方式可以根据具体场景而有所不同。例如,可以预先将未标注标签的原始语句文本数据保存至计算机设备中的存储器中,如此,获取未标注标签的原始语句文本数据,即为获取计算机设备的存储器中保存的未标注标签的原始语句文本数据,还可以是计算机设备通过网络连接其他设备,并从该其他设备中获取对应的未标注标签的原始语句文本数据。计算机设备还可以通过其他的方式获取未标注标签的原始语句文本数据,如通过网页爬取的方式获取,本技术不对未标注标签的原始语句文本据的获取方式进行限定。
[0039]
需要说明的是,获取的未标注标签的原始语句文本数据可以是已经过预处理的数据,若所获取的未标注标签的原始语句文本数据是未经过预处理的数据,可以对未标注标签的原始语句文本进行预处理,可以包括将所获取的未标注标签的原始语句文本数据进行数据清洗。例如,对未标注标签的原始语句文本数据进行数据清洗包括检查原始语句文本数据的一致性,处理无效值和缺失值,处理重复数据,处理停用词等。将所获取的未标注标签的原始语句文本数据进行数据清洗,以避免未标注标签的原始语句文本数据本身存在的缺陷导致的后续处理出现误差的情况。将所获取的未标注标签的原始语句文本数据进行数据清洗后,将经过数据清洗的未标注标签的原始语句文本数据转换为统一的文本格式,以便于后续的统一处理。
[0040]
本实施例中,获取未标注标签的原始语句文本后,确定原始语句文本的字素表达,以确定原始语句文本中对应的字素信息,对字素表达进行音素预测,得到对应的音素预测结果,本实施例中通过第一预设预测网络对字素表达进行音素预测,第一预设预测网络中包括卷积层,门循环层,线性化层,掩码层与归一化层。
[0041]
需要说明的是,对字素表达进行音素预测之前,可以对字素表达进行正则化处理,用于在中文语境下,把待正则化的字素表达数据中不是中文的标点或数字转换为汉子表达。比如,对字素表达数据“6.5”进行文本正则化处理,得到文本数据“六点五”,在此举例不做具体限定。可选的,正则化处理可以采用基于神经网络训练的模型实现,得到正则化后的文本。将正则化后的文本进行音素预测得到对应的音素预测结果。
[0042]
可选地,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果,包括:
[0043]
使用第一预设编码器对字素表达进行特征编码,得到字素表达对应的第一编码特征;
[0044]
使用预设分词策略,对字素表达进行分词分割,得到字素表达对应的分词特征序
列;
[0045]
使用预设词性标注策略,对字素表达进行词性标注,得到字素表达对应的词性特征序列;
[0046]
根据第一编码特征、分词特征序列与词性特征序列,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。
[0047]
本实施例中,使用第一预设编码器对字素表达进行特征编码,得到字素表达对应的第一编码特征,第一预设编码器为bert编码器,以获取字素表达对应的隐藏特征,bert编码器具有优秀的上下文语义识别能力,不需手动新增词表或规则,提高了音素预测的覆盖面和智能度。使用预设分词策略,对字素表达进行分词分割,得到字素表达对应的分词特征序列,其中,设分词策略用于把待分词的字素表中的句子根据语义进行切分,切分时将一个词的中文文字切分在一起。可选的,分词分割可以采用基于神经网络训练的模型实现。使用预设词性标注策略,对字素表达进行词性标注,得到字素表达对应的词性特征序列,其中,预设词性标注策略用于对字素表达数据中每个词的词性进行预测。词性包括:名词、动词、形容词、数量词、代词、副词、介词、连词、助词、叹词、拟声词。可选的,词性标注可以采用基于神经网络训练的模型实现。根据第一编码特征、分词特征序列与词性特征序列,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。将第一编码特征、分词特征序列与词性特征序列输入第一预设预测网络进行音素预测,以实现对字素表达中的每个中文文字的音素进行预测。可以理解的是,音素预测也就是对中文的拼音进行预测。比如,中文文本“长宽高”转换为音素“chang2 kuan1 gao1”,在此举例不做具体限定。
[0048]
需要说明的是,bert编码器基于transformer的双向编码表示,transformer为自然语言领域中一个利用注意力机制来提高模型训练速度的模型,而bert编码器利用transformer结构构造了一个多层双向的编码网络。其中,bert编码器中是由多个transformer结构中的编码部分构成,一个transformer的编码单元由一个多头注意力和层归一化叠加产生,多头注意力由多个自注意力构成,层归一化对某一层神经网络节点作0均值1方差的标准化,利用transformer的结构可以通过文本上下文来预测掩盖(mask)的字符(token),从而捕捉字符向量得双向关系。
[0049]
需要说明的是,bert编码器由多个特征提取层组成,在实际应用中,bert模型可以包括多个特征提取层,每个特征提取层存在一个编码单元,在比较大的bert编码器中,有24层特征提取层,每层中有16个attention,特征向量的维度为1024,在比较小的bert编码器中,有12层特征提取层,每层有12个attention,特征向量维度为768。
[0050]
每个特征提取层分别提取字素表达中文本的不同特征,得到对应第一编码特征。由于不同的特征提取层对文本所提取的特征是不同的,因此利用预先训练后的bert编码器进行特征提取,能够得到多个不同特征的第一编码特征。以12层特征提取层的bert编码器举例:layer_1至layer_4为低层,学到的是词法特征,如:词语是动词还是形容词、词语由哪些字符组成等等,layer_5至layer_8为中层,学到的是句法特征,如:句子中字词的数量、句子中字词与字词之间的依存关系等等,layer_9至layer_12为高层,所学到的是语义特征,如:句子表达的语义是什么、句子中哪些是关键词等等。
[0051]
可选地,根据第一编码特征、分词特征序列与词性特征序列,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果,包括:
[0052]
对分词特征序列与词性特征序列进行上采样,得到与原始语句文本的长度相等的标准分词特征序列与标准词性特征序列;
[0053]
将第一编码特征、准分词特征序列与标准词性特征序列进行拼接融合,得到融合特征;
[0054]
使用第一预设预测网络,对融合特征进行音素预测,得到对应原始语句文本的音素预测结果。
[0055]
本实施例中,对分词特征序列与词性特征序列进行上采样,得到与原始语句文本的长度相等的标准分词特征序列与标准词性特征序列,例如,原始语句文本的字符序列为x=[x1,x2,
……
,xn],分词特征序列为w=[w1,w2,
……
wm],m≤n,词性特征序列为p=[p1,p2,
……
pk],k≤n,当m与k的值与n的值不相等时,通过上采样方法将分词特征序列与词性特征序列进行上采样处理,例如,可以对分词特征序列与词性特征序列进行补0对齐,得到与原始语句文本的长度相等的标准分词特征序列与标准词性特征序列。
[0056]
将第一编码特征、准分词特征序列与标准词性特征序列进行拼接融合,得到融合特征,其中,拼接融合时将第一编码特征、准分词特征序列与标准词性特征序列进行串联,得到融合特征,将融合特征输入至第一预设预测网络,输出对应的音素预测结果,其中,第一预设预测网络由3个卷积层,门循环层,线性层,掩码层与归一化层。其中,3个卷积层为1维卷积。卷积层对第一编码特征进行卷积操作,提取第一编码特征的卷积特征,3个卷积层中的卷积核大小可以相等也可以不相等,通过门循环层对卷积特征进行预测,得到预测特征,通过线性化层,对预测特征进行线性化处理,得到预测特征对应的线性化结果,通过掩码层对线性化结果进行掩码处理,提高第一预设预测网络的预测精度,最后通过归一化层对掩码处理后的结果进行归一化处理,得到每个音素对应的预测概率值,根据预测概率值得到对应的预测结果。
[0057]
需要说明的是,第一预设预测网络中的门循环层使用的是gru层,gru层是传统的在lstm网络上的一个改进版,其中包含了遗忘门和更新门两个主要处理单元,该结构能够对时间序列的长时间依赖进行有效记忆和遗忘,从而保证时序数据的预测精度。
[0058]
需要说明的是,在对第一预设预测网络进行训练时,从样本音素预测值中提取多音字的音素预测值,将提取得到的数据作为对应的音素预测结果。比如,样本数据对应的音素预测结果值为“[cls]wo3 you4 zhang3 tou2fa4 le5”,样本数据中的音素标定数据为“wo3 you4 zhang3#tou2 fa4 le5”,样本数据中的音素标定数据的多音字标记的位置数据为第3个字,此时,可以将音素预测结果值“[cls]wo3 you4 zhang3 tou2 fa4 le5”中的“zhang3”提取出来作为多音字音素预测值,在此举例不做具体限定。
[0059]
基于样本数据中的音素标定数据的多音字标记,从样本数据中的音素标定数据中提取多音字的音素标定值,将提取得到的数据作为多音字音素标定值。比如,样本数据中的的音素标定数据为“wo3 you4zhang3#tou2 fa4 le5”,其中“#”为多音字标记,将多音字标记标记的音素“zhang3”作为多音字音素标定值,在此举例不做具体限定。
[0060]
s202:基于反向翻译对音素预测结果进行字素预测,得到对应音素预测结果的字素。
[0061]
在步骤s202中,反向翻译为将对应的音素预测结果转化为对应的字素,使用预测模型将对应的音素预测结果进行字素预测,得到对应音素预测结果的字素。
[0062]
本实施例中,对音素预测结果进行字素的预测,预测时,基于独热码的方式提取对应音素预测结果中的音素特征,然后基于音素特征进行预测,得到对应的音素预测结果的字素。例如,当对应的音素预测结果为zuo2 tian1 qian2men2 shang1 pu4 da3 chu1 chao1 di1 jia4 kao3 ya1 zhao1 pai2时,对应字素预测结果为昨天前门店展示了超低价烤鸭的招牌。
[0063]
可选地,基于反向翻译对音素预测结果进行字素预测,得到对应音素预测结果的字素,包括:
[0064]
使用第二预设编码器对音素预测结果进行特征编码,得到音素预测结果对应的第二编码特征;
[0065]
使用第二预设预测网络对第二编码特征进行字素预测,得到对应音素预测结果的字素。
[0066]
本实施例中,使用第二预设编码器对音素预测结果中的音素信息进行独热编码,第二预设编码器为基于音素样本数据进行训练得到的,第二预设编码器的输出是one-hot向量,即0-1向量,其中,根据音素数量n确定的n维向量,根据编码结果,相应音素对应的向量为1,其余位置均为0,例如,当前音素编码结果为j,则j在n维向量中对应的向量值为1,其余音素对应的向量值均为0。具体实施时,第二预设编码器可以是lstm网络,将确定了时间边界的每一音素特征输入到lstm模型中,对每一音素进行特征编码,确定每一音素对应的音素向量,得到音素预测结果对应的第二编码特征,将第二编码特征输入至第二预设预测网络中,输出对应的音素预测结果的字素,其中,至第二预设预测网络包括2个卷积层,2个门循环层,线性层,掩码层,归一化层,卷积层对第二编码特征进行卷积操作,提取第二编码特征的卷积特征,2个卷积层中的卷积核大小可以相等也可以不相等,通过门循环层对卷积特征进行预测,得到预测特征,通过线性化层,对预测特征进行线性化处理,得到预测特征对应的线性化结果,通过掩码层对线性化结果进行掩码处理,提高第二预设预测网络的预测精度,最后通过归一化层对掩码处理后的结果进行归一化处理,得到每个预测字素对应的预测概率值,根据预测概率值得到对应的预测结果。
[0067]
需要说明的是,第二预设预测网络中的门循环层使用的是gru层,ggru层是传统的在lstm网络上的一个改进版,其中包含了遗忘门和更新门两个主要处理单元,该结构能够对时间序列的长时间依赖进行有效记忆和遗忘,从而保证时序数据的预测精度。
[0068]
其中,2个门循环层包括2个的gru层,通过连接两个gru层(正向gru和反向gru)形成的一个双向结构,在gru层的基础上能够更加充分的获取序列数据的上下文信息。与单个gru层不同之处在于,每一个双向gru层输出两个合并的gru信号,正向gru信号和反向gru信号,计算方式不变。双向gru层中正向gru层的中间输出向gru信号,反向gru层的中间输出反向gru信号,对正向gru层和反向gru层的中间输出的正向gru信号和反向gru信号进行聚合操作,得到对应预测结果。
[0069]
s203:将音素预测结果的字素与原始语句文本的字素表达进行比对,得到比对结果。
[0070]
在步骤s203中,将音素预测结果的字素与原始语句文本的字素表达进行比对,确定对应的音素预测结果是否为正确的预测结果,提高音素预测的有效性。
[0071]
本实施例中,使用预设的比对策略,对音素预测结果的字素与原始语句文本的字
素表达进行比对,得到比对结果,比对时,判断音素预测结果的字素与原始语句文本的字素表达是否相等,当音素预测结果的字素与原始语句文本的字素表达依次对应相等,则将对应的音素预测结果作为原始语句文本最终的音素标签。
[0072]
可选地,将音素预测结果的字素与原始语句文本的字素表达进行比对,得到比对结果,包括:
[0073]
根据预设窗口步长,将原始语句文本与音素预测结果的字素划分为长度相等的字符串,得到原始语句文本对应的未标注字符串与音素预测结果的字素对应的预测字符串;
[0074]
对未标注字符串与预测字符串中的每个字素进行依次比对,得到比对结果。
[0075]
本实施例中,通过划分不同步长的窗口,将窗口内的字符串进行依次比对,将,首先,设置对应的窗口步长,窗口步长的不同,可能最终的比对结果也不相同,窗口步长的设置关系到最终的比对结果,不同的窗口步长对应不同的比对次数,当需要提高比对效率时,可以将对应的窗口步长设置较大的长度,当需要提高比对精度时,可以将对应的窗口步长设置为较小的长度。例如,原始语句文本为“昨天前门商铺打出超低价烤鸭招牌”的例子,其对应的音素预测结果为“zuo2 tian1 qian2 men2 shang1 pu4 da3 chu1 chao1 di1 jia4 kao3 ya1zhao1 pai2”。然后,通过第二预设预测模型,该拼音序列得到音素预测结果的字素为“昨天前门商铺打出抄底价烤鸭招牌”。在这句话中,只有“铺”是一个复音词,即需要预测,而其他单词则可以通过查表直接得到对应的发音。当窗口步长为5时,“铺”两侧的字符串为“门商铺打出”,当窗口步长为7时,“铺”两侧的字符串为“前门商铺打出超”vs“前门商铺打出抄”。当窗口步长设置完成后,原始语句文本与音素预测结果的字素划分为长度相等的字符串,每个窗口中都对应长度相等的原始语句文本与音素预测结果的字素字符串,当对应的字素在文本结尾时,可以向前寻找对应窗口步长的字符串,也可以对字素后面的字符串补零对齐。
[0076]
比对时,将不同的窗口依次进行顺序标号,对原始语句文本与音素预测结果的字素中标号相等的窗口中的字符串进行比对,例如,原始语句文本为“昨天前门商铺打出超低价烤鸭招牌”的例子,其对应的音素预测结果为“zuo2tian1 qian2 men2 shang1 pu4 da3 chu1 chao1 di1 jia4 kao3 ya1 zhao1 pai2”。然后,通过第二预设预测模型,该拼音序列得到音素预测结果的字素为“昨天前门商铺打出抄底价烤鸭招牌”。在这句话中,只有“铺”是一个复音词,即需要预测,而其他单词则可以通过查表直接得到对应的发音。当窗口步长为5时,“铺”两侧的字符串为“门商铺打出”,原始语句文本与音素预测结果的字素一致,当窗口步长为7时,“铺”两侧的字符串为“前门商铺打出超”vs“前门商铺打出抄”,原始语句文本与音素预测结果的字素不一致。
[0077]
另一实施例中,可以使用多模型评分策略进行比对,在对原始语句文本中的字素表达进行有音素预测时,使用多个因素预测模型进行预测,相同的原始语句文本中的字素表达得到多个音素预测结果,根据多个音素预测结果,比对同一个字素对应的多个音素预测结果是否相等,当同一个字素对应的多个音素预测结果都相等时,则音素预测结果作为最终的字素标签。也可以根据对应的概率阈值,确定最终的因素预测结果。例如,使用10个音素预测模型对同一个字素进行预测结果中有9个音素预测结果都相等,虽然不是10个音素预测结果都相等,但可以选择9个相等的因素预测结果作为该字素的音素值。
[0078]
s204:若比对结果满足预设筛选条件,则将音素预测结果确定为对应原始语句文
本的标签,根据原始语句文本与标签,构建训练数据。
[0079]
在步骤s204中,预设筛选条件用于筛选出未标注标签的原始语句文本对应的正确的音素值,将正确的音素值确定为对应原始语句文本的标签,根据原始语句文本与标签,构建训练数据。
[0080]
本实施例中,预设筛选条件为每个窗口中的字符串对应相等,当窗口中音素预测结果的字素与原始语句文本的字素对应相等时,认为满足筛选条件,则将音素预测结果确定为对应原始语句文本的标签,根据原始语句文本与标签,构建训练数据,当窗口中音素预测结果的字素与原始语句文本的字素不都相等时,认为不满足筛选条件,对应的音素预测结果不能确定为对应原始语句文本的标签。
[0081]
可选地,根据原始语句文本与标签,构建训练数据之后,还包括:
[0082]
使用训练数据对预设字素到音素预测模型进行训练,得到训练好的字素到音素预测模型。
[0083]
本实施例中,根据对应的训练数据对预设字素到音素预测模型进行训练,在对预设字素到音素预测模型训练时,对训练数据中的复音字进行标注,标注时,可以使用不同的符号进行标注,例如,符号#,对训练数据中的zuo2 tian1qian2 men2 shang1 pu4 da3 chu1 chao1 di1 jia4 kao3 ya1 zhao1 pai2进行复音字进行标注时,为zuo2 tian1 qian2 men2 shang1 pu4#da3 chu1 chao1 di1 jia4 kao3ya1 zhao1 pai2,使用预设字素到音素预测模型得到的预测值与训练数据进行比对,判断预测值中的第六个位置是否为pu4#,然后通交叉损失函数优化对应的预设字素到音素预测模型,得到训练好的字素到音素预测模型。
[0084]
获取未标注标签的原始语句文本,确定原始语句文本的字素表达,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果,基于反向翻译对音素预测结果进行字素预测,得到对应音素预测结果的字素,将音素预测结果的字素与原始语句文本的字素表达进行比对,得到比对结果,若比对结果满足预设筛选条件,则将音素预测结果确定为对应原始语句文本的标签,根据原始语句文本与标签,构建训练数据。本发明中,使用反向翻译的方式进行训练数据构建,对未标注标签的原始语句文本的字素进行音素预测,得到音素预测结果,在对音素预测结果进行字素预测,得到音素预测结果的字素,将原始语句文本的字素与音素预测结果的字素进行比较,当原始语句文本的字素与音素预测结果的字素相等时,将音素预测结果确定为原始语句文本中的字素的标签,基于标签与原始语句文本组成训练数据,提高训练数据构建的效率。
[0085]
请参阅图3,图3是本发明实施例提供的一种基于反向翻译的训练数据构建装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图3所示,训练数据构建装置30包括:获取模块31,预测模块32,比对模块33,构建模块34。
[0086]
获取模块31,用于获取未标注标签的原始语句文本,确定原始语句文本的字素表达,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。
[0087]
预测模块32,用于基于反向翻译对音素预测结果进行字素预测,得到对应音素预测结果的字素。
[0088]
比对模块33,用于将音素预测结果的字素与原始语句文本的字素表达进行比对,得到比对结果。
[0089]
构建模块34,用于若比对结果满足预设筛选条件,则将音素预测结果确定为对应未标注标签的原始语句文本的标签,根据取未标注标签的原始语句文本与标签,构建训练数据。
[0090]
可选地,上述训练数据构建装置30还包括:
[0091]
训练模块,用于使用训练数据对预设字素到音素预测模型进行训练,得到训练好的字素到音素预测模型。
[0092]
可选地,上述获取模块31包括:
[0093]
第一编码单元,用于使用第一预设编码器对字素表达进行特征编码,得到字素表达对应的第一编码特征。
[0094]
分词单元,用于使用预设分词策略,对字素表达进行分词分割,得到字素表达对应的分词特征序列。
[0095]
标注单元,用于使用预设词性标注策略,对字素表达进行词性标注,得到字素表达对应的词性特征序列。
[0096]
音素预测单元,用于根据第一编码特征、分词特征序列与词性特征序列,对字素表达进行音素预测,得到对应原始语句文本的音素预测结果。
[0097]
可选地,上述第一预测单元包括:
[0098]
上采样子单元,用于对分词特征序列与词性特征序列进行上采样,得到与原始语句文本的长度相等的标准分词特征序列与标准词性特征序列。
[0099]
融合子单元,用于将第一编码特征、准分词特征序列与标准词性特征序列进行拼接融合,得到融合特征。
[0100]
第一预测单元,用于使用第一预设预测网络,对融合特征进行音素预测,得到对应原始语句文本的音素预测结果。
[0101]
可选地,上述预测模块32包括:
[0102]
第二编码单元,用于使用第二预设编码器对音素预测结果进行特征编码,得到音素预测结果对应的第二编码特征。
[0103]
字素预测单元,用于使用第二预设预测网络对第二编码特征进行字素预测,得到对应音素预测结果的字素。
[0104]
可选地,上述比对模块33包括:
[0105]
划分单元,用于根据预设窗口步长,将原始语句文本与音素预测结果的字素划分为长度相等的字符串,得到原始语句文本对应的未标注字符串与音素预测结果的字素对应的预测字符串。
[0106]
比对结果确定单元,用于对未标注字符串与预测字符串中的每个字素进行依次比对,得到比对结果。
[0107]
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0108]
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例
的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个基于反向翻译的训练数据构建方法步骤。
[0109]
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
[0110]
所称处理器可以是cpu,该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0111]
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0112]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0113]
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产
品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0114]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0115]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0116]
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0117]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0118]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于反向翻译的训练数据构建方法,其特征在于,所述训练数据构建方法包括:获取未标注标签的原始语句文本,确定所述原始语句文本的字素表达,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果;基于反向翻译对所述音素预测结果进行字素预测,得到对应所述音素预测结果的字素;将所述音素预测结果的字素与所述原始语句文本的字素表达进行比对,得到比对结果;若所述比对结果满足预设筛选条件,则将所述音素预测结果确定为对应所述原始语句文本的标签,根据所述原始语句文本与所述标签,构建训练数据。2.如权利要求1所述的训练数据构建方法,其特征在于,所述对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果,包括:使用第一预设编码器对所述字素表达进行特征编码,得到所述字素表达对应的第一编码特征;使用预设分词策略,对所述字素表达进行分词分割,得到所述字素表达对应的分词特征序列;使用预设词性标注策略,对所述字素表达进行词性标注,得到所述字素表达对应的词性特征序列;根据所述第一编码特征、所述分词特征序列与所述词性特征序列,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果。3.如权利要求2所述的训练数据构建方法,其特征在于,所述根据所述第一编码特征、所述分词特征序列与所述词性特征序列,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果,包括:对所述分词特征序列与所述词性特征序列进行上采样,得到与所述原始语句文本的长度相等的标准分词特征序列与标准词性特征序列;将所述第一编码特征、所述准分词特征序列与所述标准词性特征序列进行拼接融合,得到融合特征;使用第一预设预测网络,对所述融合特征进行音素预测,得到对应所述原始语句文本的音素预测结果。4.如权利要求1所述的训练数据构建方法,其特征在于,所述基于反向翻译对所述音素预测结果进行字素预测,得到对应所述音素预测结果的字素,包括:使用第二预设编码器对所述音素预测结果进行特征编码,得到所述音素预测结果对应的第二编码特征;使用第二预设预测网络对所述第二编码特征进行字素预测,得到对应所述音素预测结果的字素。5.如权利要求1所述的训练数据构建方法,其特征在于,所述将所述音素预测结果的字素与所述原始语句文本的字素表达进行比对,得到比对结果,包括:根据预设窗口步长,将所述原始语句文本与所述音素预测结果的字素划分为长度相等的字符串,得到所述原始语句文本对应的未标注字符串与所述音素预测结果的字素对应的预测字符串;
对所述未标注字符串与所述预测字符串中的每个字素进行依次比对,得到比对结果。6.如权利要求1所述的训练数据构建方法,其特征在于,所述根据所述原始语句文本与所述标签,构建训练数据之后,还包括:使用所述训练数据对预设字素到音素预测模型进行训练,得到训练好的字素到音素预测模型。7.一种基于反向翻译的训练数据构建装置,其特征在于,所述训练数据构建装置包括:获取模块,用于获取未标注标签的原始语句文本,确定所述原始语句文本的字素表达,对所述字素表达进行音素预测,得到对应所述原始语句文本的音素预测结果;预测模块,用于基于反向翻译对所述音素预测结果进行字素预测,得到对应所述音素预测结果的字素;比对模块,用于将所述音素预测结果的字素与所述原始语句文本的字素表达进行比对,得到比对结果;构建模块,用于若所述比对结果满足预设筛选条件,则将所述音素预测结果确定为对应所述未标注标签的原始语句文本的标签,根据所述取未标注标签的原始语句文本与所述标签,构建训练数据。8.如权利要求7所述的训练数据构建装置,其特征在于,所述训练数据构建装置还包括:训练模块,用于使用所述训练数据对预设字素到音素预测模型进行训练,得到训练好的字素到音素预测模型。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的训练数据构建方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述训练数据构建方法。
技术总结
本发明涉及人工智能技术领域,尤其涉及一种基于反向翻译的训练数据构建方法、装置、设备及介质。本发明中,上述方法应用于医疗领域,使用反向翻译的方式进行训练数据构建,对未标注标签的原始语句文本的字素进行音素预测,得到音素预测结果,在对音素预测结果进行字素预测,得到音素预测结果的字素,将原始语句文本的字素与音素预测结果的字素进行比较,当原始语句文本的字素与音素预测结果的字素相等时,将音素预测结果确定为原始语句文本中的字素的标签,基于标签与原始语句文本组成训练数据,提高训练数据构建的效率。提高训练数据构建的效率。提高训练数据构建的效率。
技术研发人员:凌天东 程宁 王健宗
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种坩埚转移装置的制作方法 下一篇:一种钨渣资源化的方法及钨渣固化材料与流程