一种基于样本损失加权去噪的汉越神经机器翻译方法

未命名 08-18 阅读:103 评论:0


1.本发明涉及基于样本损失加权去噪的汉越神经机器翻译方法,属于自然语言处理技术领域。


背景技术:

2.在汉越低资源语言翻译问题中,回译和枢轴方法是解决低资源语言翻译问题的方法。但这些方法中生成的合成数据存在噪声和错误信息,会影响后续步骤的性能,对模型训练产生负面影响。此外,神经网络模型对噪声数据十分敏感,会降低模型的性能。因此,需要一种有效的方法,减少噪声干扰,提高翻译性能。为解决这个问题,一些研究者提出了新的方法,例如xu等人提出了一种利用双语词嵌入计算语义相似度分数过滤噪声的方法,通过根据这些分数选择句子对,获得更好的合成并行数据。dou等人提出了基于句子质量的迭代回译选择和加权句子的新方法,该方法采用不同分数的组合,例如往返bleu、语言模型分数等来选择最佳句子,然后使用编码器表示的相似性以及前向和后向模型之间的一致性来为其余句子提供反向翻译数据的权重。但不同来源的数据集噪声类型往往差异很大,需要有针对性的分析采用不同的评价策略来获得最佳合成平行数据,且对于汉越低资源语言对,使用数据过滤的方法会降低数据规模,导致模型训练不佳。因此,提出一种基于样本损失加权去噪的汉越神经机器翻译方法,通过引入置信度来量化当前模型对翻译训练样本是否有信心,利用模型置信度确定学习重点。


技术实现要素:

3.本发明提供一种基于样本损失加权去噪的汉越神经机器翻译方法,用于解决汉越平行语料不足的问题以及合成数据存在噪声和错误信息的问题等,有效提升了汉越神经机器翻译的性能。
4.本发明的技术方案是:基于样本损失加权去噪的汉越神经机器翻译方法,所述方法的具体步骤如下;
5.step1、首先获取中文-越南语双语数据,构建双语语料库;
6.step2、然后计算每个训练样本的跨语言句子相似度、句子对齐程度、句子流畅度得到综合评价分数,并将其作为一个因素来衡量其相应示例的损失;
7.step3、接着对训练数据进行评估,计算每个训练示例的置信度分数,以衡量翻译模型对该示例的自信程度,作为权重去约束翻译模型训练损失;
8.step4、之后根据归一化后的置信度分数以及综合评价分数对损失进行加权处理,使模型更加关注高置信度的训练样本,减少噪声干扰;
9.step5、最后对翻译模型进行迭代训练,直到翻译模型收敛。
10.作为本发明的进一步方案,所述step1的具体步骤为:
11.step1.1、使用爬虫技术在网站上爬取中越平行数据,去除过长或过短以及乱码的句子;
12.step1.2、使用越南语-英语平行数据将英语数据通过英中翻译模型生成更多的汉越伪平行数据;
13.step1.3、使用jieba分词工具对中文语料进行分词,构建中越双语语料库。
14.作为本发明的进一步方案,所述step2的具体步骤为:
15.step2.1、使用labse句子嵌入模型计算中文与越南语句子相似度、句子对齐工具fast_align计算中文与越南语句对基于对齐率的归一化句子对齐质量以及macbert中文预训练语言模型计算生成中文的流畅度;
16.step2.2、通过得到的中文与越南语句子相似度、中文与越南语句对基于对齐率的归一化句子对齐质量、中文的流畅度计算每个句对质量得分,把每个句对质量得分作为综合评价分数。
17.作为本发明的进一步方案,所述step2包括:
18.使用labse句子嵌入模型计算中文与越南语句子相似度s
similarity
、句子对齐工具fast_align计算中文与越南语句对基于对齐率的归一化句子对齐质量s
align
以及macbert中文预训练语言模型计算生成中文的流畅度s
fluency
,对于中文-越南语句子对{(x1,y1),...,(xn,yn)},其中每个句对质量得分为公式(1)所示
[0019][0020]
其中m,β,γ为权重比例,且和为1。
[0021]
作为本发明的进一步方案,所述step3包括:
[0022]
采用贝叶斯神经网络来量化翻译模型在翻译训练样本时的自信程度,并通过翻译概率的方差来衡量翻译模型对训练示例的置信度,得到置信度分数。
[0023]
作为本发明的进一步方案,所述step3的具体步骤为:
[0024]
step3.1、针对当前由θ参数化的nmt模型和n个句子对{(x1,y1),...,(xn,yn)}组成的小批量样本,对于每个样本,随机停用nmt模型的部分神经元并重新计算翻译概率同时保持中文句子xn和越南语句子yn固定,这种随机前馈重复k次,为句子级别的翻译概率生成k个样本;
[0025]
step3.2、计算翻译概率的方差:对于每个样本,计算句子级翻译概率的期望,为公式(2)所示:
[0026][0027]
则句子级翻译概率的方差为公式(3)所示:
[0028][0029]
step3.3、计算第n个中文-越南语句子对(xn,yn)的置信度分数,为公式(4)所示:
[0030][0031]
其中α是超参数,用于衡量自信和不自信的例子分数之间的差距,α的绝对值越大代表判别方式越高,反之亦然,(xn,yn)为第n个中文-越南语句子对,为随机停用nmt模型的部分神经元的nmt模型参数,为第k遍随机停用部分神经元的nmt模型参数;为了确保训练过程的稳定性并保持与常规模型相同的损失规模,采用softtmax对置信度得分进行归
一化,为公式(5)所示:
[0032][0033]
作为本发明的进一步方案,所述step4的具体步骤为:
[0034]
step4.1、将每个句对的质量得分和归一化后的置信度分数作为权重损失的因素,将权重值与损失函数相乘,得到加权损失函数,随着训练步长的增加动态调整损失函数的权重。
[0035]
作为本发明的进一步方案,所述step4包括:将每个句对的质量得分wn和归一化后的置信度分数an作为权重损失的因素,将权重值与损失函数相乘,得到加权损失函数,随着训练步长的增加动态调整损失函数的权重,定义为公式(6)(7)所示:
[0036][0037][0038]
其中,u是一个超参数,e是训练epochs,μ是一个具有依赖于训练时期e的衰减函数。
[0039]
所述step5的具体步骤为:
[0040]
step5.1、使用基于梯度下降的adam优化算法,对翻译模型进行迭代训练,直到翻译模型收敛;在训练过程中,采用early stopping方法来避免过拟合,即当连续10次验证集的bleu值没有提升时停止训练,提高翻译模型的泛化能力。
[0041]
对本发明做进一步阐述的,所述step1、step2、step3、step4、step5中:
[0042]
1)提到的跨语言句子相似度:
[0043]
labse(language-agnostic bert sentence embedding)是一种语言不可知的句子嵌入模型,能够将不同语言的句子映射到同一向量空间中,以便进行跨语言文本相似度计算和分类任务。labse是在bert模型的基础上训练的,利用了大量的多语言语料库进行预训练。在句子相似度计算中,给定两个句子s1和s2,利用labse句子嵌入模型得到它们对应的嵌入向量e1和e2。然后,labse计算它们之间的余弦相似度,作为它们的相似度得分。本发明利用labse句子嵌入工具得到中文与越南语句子相似度s
similarity

[0044]
2)提到的句子对齐程度:
[0045]
fast_align是一种基于隐马尔可夫模型(hidden markov model,hmm)的句子对齐工具,可用于自然语言处理中的翻译、文本匹配等任务。其核心思想是通过对齐句子中的单词来推断出句子之间的对应关系,从而实现句子对齐的目标。具体而言,fast_align将两个句子s1和s2看作由一系列单词w1、w2、...、wn组成的序列,其中wi表示句子中的第i个单词。然后,fast_align将这两个句子中的每个单词wi与另一个句子中的所有单词进行匹配,计算它们之间的相似度,得到一个相似度矩阵s。接下来,fast_align利用hmm模型对这个相似度矩阵进行建模,推断出句子之间的对应关系,即每个单词在另一个句子中的对应位置。在具体的句子对齐程度计算过程中,给定两个句子s1和s2,fast_align将它们分别表示为一个单词序列,然后利用上述的hmm模型来推断它们之间的对应关系。对于每个句子中的每个
单词,fast_align会找到它在另一个句子中的对应位置,从而得到两个句子之间的对应关系,即一个句子中的第i个单词对应另一个句子中的第j个单词。本发明通过使用句子词语对齐工具fast_align来计算汉越伪平行句对基于对齐率的归一化句子对齐质量s
align

[0046]
3)提到的句子流畅度:
[0047]
预训练句子流畅度是指一种评估句子是否通顺流畅的方法。利用语言模型进行预测,即给定一个句子,预测该句子是否符合语言规则和语言习惯。具体地,预训练语言模型通常采用类似于bert、gpt等预训练模型的结构,利用大规模的语料库进行训练。在训练过程中,语言模型会尝试学习到各种语言规则和语言习惯,从而能够对一个句子的流畅度进行预测。在使用预训练语言模型进行句子流畅度评估时,一般采用的是对数似然损失函数(log-likelihood loss)。给定一个句子,语言模型会计算该句子的概率分布,即每个单词在该句子中出现的概率,然后计算该句子的对数似然值。对数似然值越大,表示该句子的流畅度越高,反之则表示该句子的流畅度较低。本章利用中文预训练语言模型macbert来计算生成的中文句子流畅度s
fluency

[0048]
本发明的有益效果是:
[0049]
1、本发明的基于样本损失加权去噪的汉越神经机器翻译方法,针对汉越平行语料稀缺,采用回译、枢轴等数据增强方法生成的语料中会存在许多噪声和错误信息的问题进行改进,通过引入置信度来量化当前模型对翻译训练样本是否有信心,同时结合跨语言句子相似度、句子对齐程度、句子流畅度得到的综合评价分数,利用模型置信度确定学习重点,从而减少噪声干扰,有效提升了汉越神经机器翻译的性能。
附图说明
[0050]
图1样本损失加权训练过程图。
具体实施方式
[0051]
实施例1:如图1所示,基于样本损失加权去噪的汉越神经机器翻译方法,所述方法的具体步骤如下;
[0052]
step1、首先获取中文-越南语双语数据,构建双语语料库;
[0053]
step2、然后计算每个训练样本的跨语言句子相似度、句子对齐程度、句子流畅度得到综合评价分数,并将其作为一个因素来衡量其相应示例的损失;
[0054]
step3、接着对训练数据进行评估,计算每个训练示例的置信度分数,以衡量翻译模型对该示例的自信程度,作为权重去约束翻译模型训练损失;
[0055]
step4、之后根据归一化后的置信度分数以及综合评价分数对损失进行加权处理,使模型更加关注高置信度的训练样本,减少噪声干扰;
[0056]
step5、最后对翻译模型进行迭代训练,直到翻译模型收敛。
[0057]
作为本发明的进一步方案,所述step1的具体步骤为:
[0058]
step1.1、使用爬虫技术在网站上爬取中越平行数据,去除过长或过短以及乱码的句子;
[0059]
step1.2、使用越南语-英语平行数据将英语数据通过英中翻译模型生成更多的汉越伪平行数据;
[0060]
step1.3、使用jieba分词工具对中文语料进行分词,构建中越双语语料库。
[0061]
作为本发明的进一步方案,所述step2的具体步骤为:
[0062]
使用labse句子嵌入模型计算中文与越南语句子相似度s
similarity
、句子对齐工具fast_align计算中文与越南语句对基于对齐率的归一化句子对齐质量s
align
以及macbert中文预训练语言模型计算生成中文的流畅度s
fluency
,对于中文-越南语句子对{(x1,y1),...,(xn,yn)},其中每个句对质量得分为公式(1)所示
[0063][0064]
其中m,β,γ为权重比例,且和为1。
[0065]
作为本发明的进一步方案,所述step3的具体步骤为:
[0066]
step3.1、针对当前由θ参数化的nmt模型和n个句子对{(x1,y1),...,(xn,yn)}组成的小批量样本,对于每个样本,随机停用nmt模型的部分神经元并重新计算翻译概率同时保持中文句子xn和越南语句子yn固定,这种随机前馈重复k次,为句子级别的翻译概率生成k个样本;
[0067]
step3.2、计算翻译概率的方差:对于每个样本,计算句子级翻译概率的期望,为公式(2)所示:
[0068][0069]
则句子级翻译概率的方差为公式(3)所示:
[0070][0071]
step3.3、计算第n个中文-越南语句子对(xn,yn)的置信度分数,为公式(4)所示:
[0072][0073]
其中α是超参数,用于衡量自信和不自信的例子分数之间的差距,α的绝对值越大代表判别方式越高,反之亦然,(xn,yn)为第n个中文-越南语句子对,为随机停用nmt模型的部分神经元的nmt模型参数,为第k遍随机停用部分神经元的nmt模型参数;为了确保训练过程的稳定性并保持与常规模型相同的损失规模,采用softtmax对置信度得分进行归一化,为公式(5)所示:
[0074][0075]
作为本发明的进一步方案,所述step4的具体步骤为:
[0076]
step4.1、将每个句对的质量得分wn和归一化后的置信度分数an作为权重损失的因素,将权重值与损失函数相乘,得到加权损失函数,随着训练步长的增加动态调整损失函数的权重,定义为公式(6)(7)所示:
[0077][0078][0079]
其中,u是一个超参数,e是训练epochs,μ是一个具有依赖于训练时期e的衰减函
数。
[0080]
所述step5的具体步骤为:
[0081]
step5.1、使用基于梯度下降的adam优化算法,对翻译模型进行迭代训练,直到翻译模型收敛;在训练过程中,采用early stopping方法来避免过拟合,即当连续10次验证集的bleu值没有提升时停止训练,提高翻译模型的泛化能力。
[0082]
为了说明本发明的效果,特做了如下实验:
[0083]
本发明采用bleu值(bilingual evaluation understudy)作为评价汉越神经机器翻译质量的指标。bleu值可度量候选译文(即待评估模型生成的句子)与参考译文(即人工翻译作为标准答案)的匹配程度,bleu值越高则代表翻译质量越好。
[0084]
在进行实验前,删除了平行句对中长度大于200的句子对,以简单的方式过滤数据集。采用自自行收集的100k中越平行语料和800k中越伪平行语料进行试验,最终构建的数据集如表1所示:
[0085]
表1数据集
[0086][0087]
各实验参数设置为:采用torch 1.8作为神经网络模型框架,使用python3.8编写,cuda版本为11.1,运行在单个rtx a5000上。选用transformer作为基础模型,编解码器各设置6层,隐藏层向量维度设置为512维,前馈神经网络设置为1024,batchsize为4096个token。采用adam优化器,并设定参数β1=0.9,β2=0.98。使用warm-up策略,设置warm_steps为4000来调整学习率,初始学习率设为0.0015
[0088]
选择transformer模型、jiao等人和lu等人所提出的模型作为对比实验的基准模型,以下是对3种模型的介绍:
[0089]
1)transformer:原始的transformer模型,参数设置和本发明保持一致。
[0090]
2)jiao等人:大规模数据中的复杂模式和潜在噪声使得训练nmt模型变得困难。在原始训练数据上训练一个识别模型,并用它根据句子级输出概率来区分非活动示例和活动示例。然后,在活动示例上训练一个更新模型,该模型用于使用前向翻译重新标记非活动示例。训练参数和本发明保持一致。
[0091]
3)lu等人:在标准transformer基础上,基于范数的噪声语料库过滤和更新方法。通过源端/目标端上下文向量的范数,将噪声样本和干净样本分开。训练参数和本发明保持一致。
[0092]
为验证本发明方法的有效性,本发明使用以上数据集进行了实验。为了便于直观地观察和对比,保证实验结果的可靠性,每组实验结果的bleu值都采用相同的测试集计算。
[0093]
表2基线模型对比实验结果
[0094][0095][0096]
从表2实验结果,可以看到本发明的方法在所有的数据规模下都表现优于transformer基线模型,略高于jiao等人以及lu和zhang提出的方法,表明所提出的方法在汉越翻译任务上能有效利用噪声数据提升翻译模型性能。此外,本发明的方法在伪平行数据量较少的情况下也取得了不错的性能,这说明所提出的方法能够在数据量较小的情况下仍然有效地利用伪平行数据进行训练。随着伪平行数据量的增加,模型的性能也得到了进一步的提升,说明本发明提出的方法能有效利用噪声数据提升翻译模型性能。因此,本发明提出的方法可以有效地弱化噪声数据,提升汉越神经机器翻译的性能。
[0097]
为了验证本发明提出的方法模型的抗噪能力,为了公平性比较,所有实验均在10k数据规模下进行,分别采用10k干净数据和10k有噪声的数据组合进行实验,其中10%的含义为:干净数据占比90%,噪声数据占比10%。
[0098]
表3不同噪声比实验结果
[0099][0100]
从表3实验结果,可以看出本发明的方法(our)在不同噪声比例下相对于基线模型transformer平均表现更好。当噪声比例较低时,两个模型之间的性能差距不大。但是随着噪声比例的增加,本发明的方法(our)的表现逐渐超越了基线模型transformer。具体来说,在10%噪声比例下,本发明的方法和transformer基线模型的表现非常接近;在20%噪声比例下,本发明的方法略优于transformer基线模型;在30%和50%噪声比例下,本发明的方法明显优于transformer基线模型。因此,本发明的方法在应对噪声数据时表现出了更好的鲁棒性和稳健性,具有较好的抗噪能力。
[0101]
为了验证本发明基于模型置信度分数与评价分数分别作为模型损失函数的权重对模型性能的影响,采用单一得分作为损失函数的权重进行试验,结果如表4所示。其中,an为只计算模型置信度分数,wn为只计算句子相似度、词对齐以及句子流畅度分数。
[0102]
表4消融实验结果
[0103][0104]
根据表4实验数据,可以看出:基于模型置信度分数与评价分数作为模型损失函数的权重都能在一定程度上提升模型的性能,在数据规模较小的情况下,评价分数能给模型带来较大收益,但随着数据规模的增大,模型置信度分数更能带来较大收益。
[0105]
下面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术特征:
1.基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述方法的具体步骤如下;step1、首先获取中文-越南语双语数据,构建双语语料库;step2、然后计算每个训练样本的跨语言句子相似度、句子对齐程度、句子流畅度得到综合评价分数,并将其作为一个因素来衡量其相应示例的损失;step3、接着对训练数据进行评估,计算每个训练示例的置信度分数,以衡量翻译模型对该示例的自信程度,作为权重去约束翻译模型训练损失;step4、之后根据归一化后的置信度分数以及综合评价分数对损失进行加权处理,使模型更加关注高置信度的训练样本,减少噪声干扰;step5、最后对翻译模型进行迭代训练,直到翻译模型收敛。2.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step1的具体步骤为:step1.1、使用爬虫技术在网站上爬取中越平行数据,去除过长或过短以及乱码的句子;step1.2、使用越南语-英语平行数据将英语数据通过英中翻译模型生成更多的汉越伪平行数据;step1.3、使用jieba分词工具对中文语料进行分词,构建中越双语语料库。3.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step2的具体步骤为:step2.1、使用labse句子嵌入模型计算中文与越南语句子相似度、句子对齐工具fast_align计算中文与越南语句对基于对齐率的归一化句子对齐质量以及macbert中文预训练语言模型计算生成中文的流畅度;step2.2、通过得到的中文与越南语句子相似度、中文与越南语句对基于对齐率的归一化句子对齐质量、中文的流畅度计算每个句对质量得分,把每个句对质量得分作为综合评价分数。4.根据权利要求3所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step2包括:使用labse句子嵌入模型计算中文与越南语句子相似度s
similarity
、句子对齐工具fast_align计算中文与越南语句对基于对齐率的归一化句子对齐质量s
align
以及macbert中文预训练语言模型计算生成中文的流畅度s
fluency
,对于中文-越南语句子对{(x1,y1),...,(x
n
,y
n
)},其中每个句对质量得分为公式(1)所示其中m,β,γ为权重比例,且和为1。5.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step3包括:采用贝叶斯神经网络来量化翻译模型在翻译训练样本时的自信程度,并通过翻译概率的方差来衡量翻译模型对训练示例的置信度,得到置信度分数。6.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在
于:所述step3的具体步骤为:step3.1、针对当前由θ参数化的nmt模型和n个句子对{(x1,y1),...,(x
n
,y
n
)}组成的小批量样本,对于每个样本,随机停用nmt模型的部分神经元并重新计算翻译概率同时保持中文句子x
n
和越南语句子y
n
固定,这种随机前馈重复k次,为句子级别的翻译概率生成k个样本;step3.2、计算翻译概率的方差:对于每个样本,计算句子级翻译概率的期望,为公式(2)所示:则句子级翻译概率的方差为公式(3)所示:step3.3、计算第n个中文-越南语句子对(x
n
,y
n
)的置信度分数,为公式(4)所示:其中α是超参数,用于衡量自信和不自信的例子分数之间的差距,α的绝对值越大代表判别方式越高,反之亦然,(x
n
,y
n
)为第n个中文-越南语句子对,为随机停用nmt模型的部分神经元的nmt模型参数,为第k遍随机停用部分神经元的nmt模型参数;为了确保训练过程的稳定性并保持与常规模型相同的损失规模,采用softtmax对置信度得分进行归一化,为公式(5)所示:7.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step4的具体步骤为:step4.1、将每个句对的质量得分和归一化后的置信度分数作为权重损失的因素,将权重值与损失函数相乘,得到加权损失函数,随着训练步长的增加动态调整损失函数的权重。8.根据权利要求7所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step4包括:将每个句对的质量得分w
n
和归一化后的置信度分数a
n
作为权重损失的因素,将权重值与损失函数相乘,得到加权损失函数,随着训练步长的增加动态调整损失函数的权重,定义为公式(6)(7)所示:数的权重,定义为公式(6)(7)所示:其中,u是一个超参数,e是训练epochs,μ是一个具有依赖于训练时期e的衰减函数。9.根据权利要求1所述的基于样本损失加权去噪的汉越神经机器翻译方法,其特征在于:所述step5的具体步骤为:step5.1、使用基于梯度下降的adam优化算法,对翻译模型进行迭代训练,直到翻译模型收敛;在训练过程中,采用early stopping方法来避免过拟合,提高翻译模型的泛化能力。

技术总结
本发明提供一种基于样本损失加权去噪的汉越神经机器翻译方法。通过引入置信度来量化当前模型对翻译训练样本是否有信心,利用模型置信度确定学习重点。具体来说,通过模型衡量每个训练示例的置信度,然后,将置信度分数作为一个因素来衡量其相应示例的损失。然而,模型训练初期,模型置信度分数不可靠,本发明通过跨语言句子相似度、句子对齐程度、句子流畅度得到的评价分数作为权重去约束模型训练损失。通过这种方法,能够更加有效地利用训练数据,让模型更加关注高置信度的训练样本,从而减少噪声干扰,提高汉越神经机器翻译的性能。提高汉越神经机器翻译的性能。提高汉越神经机器翻译的性能。


技术研发人员:赖华 冯雄波 王晓聪
受保护的技术使用者:昆明理工大学
技术研发日:2023.05.18
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐