编码器训练方法、装置、设备和存储介质与流程
未命名
09-15
阅读:93
评论:0

1.本技术涉及人工智能技术领域,例如涉及编码器训练方法、装置、设备和存储介质。
背景技术:
2.在金融领域金融票据具有较高的保密性,获取金融票据需要进行身份认证,以获得对应的权限,当获取对应的权限之后,可以读取和/或修改金融票据的相关信息。人脸识别是身份认证中使用最广泛的一种方式,人脸深度伪造技术是通过网络或数据库获取人脸视频,根据人脸视频生成伪造的人脸图像。使用伪造的人脸图像可能通过人脸验证,获取对应的权限之后获取金融票据,导致金融票据的安全性受到影响。目前识别伪造的人脸图像的方法是从人脸视频中提取人脸图像,使用提取得到的人脸图像训练待训练卷积神经网络,得到伪造人脸识别模型。
3.但是,使用人脸图像训练得到的伪造人脸识别模型无法进行精细化的人脸识别,尤其是无法识别人脸的唇部运动,导致识别伪造人脸图像的准确率不高,从而无法保证通过人脸识别进行身份验证的可靠性,导致获取金融票据的过程的保密性不强。
技术实现要素:
4.本技术提供一种编码器训练方法、装置、设备和存储介质,旨在解决由人脸图像训练得到的伪造人脸识别模型无法识别人脸的唇部运动,导致识别伪造人脸图像的准确率不高,从而无法保证通过人脸识别进行身份验证的可靠性,导致获取金融票据的过程的保密性不强的问题。
5.为解决上述问题,本技术采用以下技术方案:
6.本文提供了编码器训练方法,包括:
7.获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;
8.将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;
9.将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;
10.将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;
11.根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;
12.根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。
13.优选地,所述将所述训练视频子集输入视频编码器进行视频表征,得到视频特征,包括:
14.将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列;
15.将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,
得到已编码局部运动特征;
16.将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列;
17.将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。
18.优选地,所述将所述训练音频子集输入音频编码器进行音频表征,得到音频特征,包括:
19.将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量;
20.将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。
21.优选地,所述将所述训练图像子集输入图像编码器进行图像表征,得到图像特征,包括:
22.将所述训练图像子集输入所述图像编码器的transformer层进行表征,得到所述图像特征。
23.优选地,所述根据所述视频特征和所述音频特征构造第一损失函数,包括:
24.根据以下公式构造所述第一损失函数:
[0025][0026]
其中,lv为所述第一损失函数,zv为所述视频特征,za为所述音频特征,τ1为第一调节参数,log为对数函数,exp为指数函数。
[0027]
优选地,所述根据所述第二损失函数训练所述图像编码器之后,还包括:
[0028]
根据所述音频特征和所述视频特征构造第三损失函数;
[0029]
根据所述音频特征和所述图像特征构造第四损失函数,使用所述第三损失函数和所述第四损失函数训练所述音频编码器,得到已训练音频编码器。
[0030]
优选地,所述根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器,包括:
[0031]
使用所述视频特征和所述音频特征计算第一损失函数值;
[0032]
使用所述图像特征和所述音频特征计算第二损失函数值;
[0033]
根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器;
[0034]
根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。
[0035]
本技术还提供了一种编码器训练装置,包括:
[0036]
训练集获取模块,用于获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;
[0037]
视频表征模块,用于将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;
[0038]
音频表征模块,用于将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;
[0039]
图像表征模块,用于将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;
[0040]
损失函数构造模块,用于根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;
[0041]
训练模块,用于根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。
[0042]
本技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的编码器训练方法的步骤。
[0043]
本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的编码器训练方法的步骤。
[0044]
本技术的编码器训练方法,通过将训练集分为训练视频子集、训练音频子集和训练图像子集,能够对训练视频子集、训练音频子集和训练图像子集分别编码得到视频特征、音频特征和图像特征。根据视频特征和音频特征构造第一损失函数,能够使得视频特征和音频特征相互指导和相互补充。根据图像特征和音频特征构造第二损失函数,能够使得图像特征和音频特征相互指导和相互补充。使用第一损失函数训练视频编码器,能够在用户说话时结合用户的唇部运动和语音内容进行判断。使用第二损失函数训练图像编码器,能够在用户说话时结合用户的唇部运动和唇形进行判断。结合已训练视频编码器和已训练图像编码器进行人脸识别,能够提升识别伪造人脸的准确率,能够保证通过人脸识别进行身份验证的可靠性,使得获取金融票据的过程具有较强的保密性。
附图说明
[0045]
图1为一实施例的编码器训练方法的流程示意图;
[0046]
图2为一实施例的将训练视频子集输入视频编码器进行视频表征的流程示意图;
[0047]
图3为一实施例的将训练音频子集输入音频编码器进行音频表征的流程示意图;
[0048]
图4为一实施例的根据第二损失函数训练图像编码器的流程示意图;
[0049]
图5为一实施例的训练视频编码器及图像编码器的流程示意图;
[0050]
图6为一实施例的编码器训练装置的结构示意框图;
[0051]
图7为一实施例的计算机设备的结构示意框图。
[0052]
本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0053]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0054]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措
辞“包括”是指存在特征、整数、步骤、操作、元件、单元、单元和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、单元、单元、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0055]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0056]
参照图1,是本方案申请的编码器训练方法的流程示意图,编码器训练方法可以用于在金融领域的身份认证过程中,具体地,当获取金融票据时需要进行人脸验证以获取对应的权限,使用由视频特征和音频特征组成的第一损失函数训练视频表征模块,能够在用户说话时结合用户的唇部运动和语音内容进行判断。使用由图像特征和音频特征组成的第二损失函数训练图像表征模块,能够在用户说话时结合用户的唇部运动和唇形进行判断。结合已训练视频编码器和已训练图像编码器进行人脸识别,能够提升识别伪造人脸的准确率,从而提高获取金融票据的安全性。当识别出伪造人脸时,不给予金融票据的读取和修改权限,以提高金融系统的安全性。
[0057]
所述编码器训练方法包括以下步骤s1-s6:
[0058]
s1:获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集。
[0059]
训练集包括多个训练视频、多个训练音频和多张训练图像,所有的训练视频组成训练视频子集,所有的训练音频组成训练音频子集,所有的训练图像组成训练图像子集。训练视频和训练图像中包括用户的人脸,训练音频包括人声。人脸和人声都可以用于表征用户的身份,从而识别出伪造人脸,保证获取金融票据的过程具有较强的保密性。
[0060]
可选地,通过网络下载训练集或在数据库中下载训练集。
[0061]
s2:将所述训练视频子集输入视频编码器进行视频表征,得到视频特征。
[0062]
将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列;
[0063]
将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征;
[0064]
将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列;
[0065]
将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。
[0066]
唇部特征序列能够反映视频中用户的唇部运动,对唇部特征序列进行特征编码得到已编码局部运动特征。根据已编码局部运动特征能够转换得到能够表征用户的多个唇部特征的唇部特征序列。使用transformer层对唇部特征序列进行表征,能够得到表征全局语义的视频特征。视频特征包含对视频的文字描述。
[0067]
s3:将所述训练音频子集输入音频编码器进行音频表征,得到音频特征。
[0068]
将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量;
[0069]
将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。
[0070]
音频向量转换层能够将音频转换为对应的音频向量,使用transformer层能够对音频特征进行表征得到音频特征,音频特征包括对音频的文字描述。
[0071]
唇部特征序列中的唇部特征可以和音频特征对应,从而更好地进行人脸识别,避免使用伪造人脸通过人脸验证以获取金融票据的情况。
[0072]
s4:将所述训练图像子集输入图像编码器进行图像表征,得到图像特征。
[0073]
将所述训练图像子集输入所述图像编码器的transformer层进行表征,得到所述图像特征。
[0074]
图像特征包括对图像的文字描述。
[0075]
s5:根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数。
[0076]
根据以下公式构造所述第一损失函数:
[0077][0078]
其中,lv为所述第一损失函数,zv为所述视频特征,za为所述音频特征,τ1为第一调节参数,log为对数函数,exp为指数函数。
[0079]
优选地,将第一调节参数设置为0.1。
[0080]
第一损失函数由视频特征和音频特征组成,音频特征与视频特征相互指导和相互补充。
[0081]
根据以下公式构造第二损失函数:
[0082][0083]
其中,l
p
为所述第二损失函数,z
p
为所述图像特征,za为所述音频特征,τ2为第二调节参数,log为对数函数,exp为指数函数。
[0084]
优选地,将第二调节参数设置为0.1。
[0085]
第二损失函数由图像特征和音频特征组成,音频特征与图像特征相互指导和相互补充。
[0086]
s6:根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。
[0087]
使用所述视频特征和所述音频特征计算第一损失函数值;
[0088]
使用所述图像特征和所述音频特征计算第二损失函数值;
[0089]
根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器;
[0090]
根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。
[0091]
根据第一损失函数训练视频编码器,能够结合视频特征和音频特征训练视频编码器,能够提升视频编码器对视频中的伪造人脸的识别准确率。
[0092]
根据第二损失函数训练图像编码器,能够结合图像特征和音频特征训练图像编码器,能够提升图像编码器对图像中的伪造人脸的识别准确率,从而提升人脸识别的准确率,通过人脸识别的用户具有足够的权限获取金融票据,保证获取金融票据的过程的安全性。
[0093]
本技术实施例的编码器训练方法,通过将训练集分为训练视频子集、训练音频子集和训练图像子集,能够对训练视频子集、训练音频子集和训练图像子集分别编码得到视频特征、音频特征和图像特征。根据视频特征和音频特征构造第一损失函数,能够使得视频特征和音频特征相互指导和相互补充。根据图像特征和音频特征构造第二损失函数,能够使得图像特征和音频特征相互指导和相互补充。使用第一损失函数训练视频编码器,能够在用户说话时结合用户的唇部运动和语音内容进行判断。使用第二损失函数训练图像编码器,能够在用户说话时结合用户的唇部运动和唇形进行判断。结合已训练视频编码器和已训练图像编码器进行人脸识别,能够提升识别伪造人脸的准确率,能够保证通过人脸识别进行身份验证的可靠性,使得获取金融票据的过程具有较强的保密性。
[0094]
在一个实施例中,参照图2,将所述训练视频子集输入视频编码器进行视频表征,得到视频特征的步骤s2,包括以下步骤s21-s24:
[0095]
s21:将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列。
[0096]
三维卷积层能够提取训练视频子集中每个训练视频的唇部特征,将所有唇部特征按照对应训练视频在训练视频子集中的顺序进行排序,得到唇部特征序列,唇部特征序列反映了训练视频中唇部的局部特征。
[0097]
s22:将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征。
[0098]
二维残差层对唇部特征序列中的各个唇部特征依次进行下采样,得到下采样唇部特征序列。将下采样唇部特征序列中的每个下采样唇部特征与对应的唇部特征进行拼接,得到拼接特征。对所有拼接特征进行编码,得到已编码局部运动特征。
[0099]
s23:将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列。
[0100]
线性投影层使用线性投影将训练视频中的每一帧对应的已编码局部运动特征转换为一个唇部特征序列。
[0101]
s24:将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。
[0102]
通过transformer层表征得到的视频特征能够反映训练视频中唇部的全局特征。
[0103]
如上所述,将训练视频子集输入视频编码器进行视频表征,得到视频特征,包括将训练视频子集输入视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列。将唇部特征序列输入视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征。将已编码局部运动特征输入视频编码器的线性投影层进行特征转换,得到唇部特征序列。
将唇部特征序列输入视频编码器的transformer层进行表征,得到视频特征。唇部特征序列反映了训练视频中唇部的局部特征,通过transformer层表征得到的视频特征能够反映训练视频中唇部的全局特征。
[0104]
在一个实施例中,参照图3,所述将所述训练音频子集输入音频编码器进行音频表征,得到音频特征的步骤s3,还包括以下步骤s31-s32:
[0105]
s31:将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量。
[0106]
优选地,音频向量转换层可以使用已训练的wav2vec 2.0网络结构,使用对比损失函数训练待训练wav2vec 2.0网络结构,已训练的wav2vec 2.0网络结构通过多层的卷积神经网络来提取训练音频的无监督语音特征,并将无监督语音特征转换为音频向量。
[0107]
s32:将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。
[0108]
音频特征包括对音频的文字描述,优选地,在得到音频特征之后,对音频特征进行自适应平均池化,将音频特征统一为固定长度。
[0109]
如上所述,将训练音频子集输入音频编码器进行音频表征,得到音频特征,包括将训练音频子集输入音频编码器的音频向量转换层进行向量转换,得到音频向量。将音频向量输入音频编码器的transformer层进行表征,得到音频特征。音频特征包括对音频的文字描述,音频特征用于对视频特征和图像特征进行指导和补充。
[0110]
在一个实施例中,参照图4,所述根据所述第二损失函数训练所述图像编码器的步骤s6之后,还包括以下步骤s71
’‑
s72’:
[0111]
s71’:根据所述音频特征和所述视频特征构造第三损失函数。
[0112]
构造第三损失函数的公式如下:
[0113][0114]
其中,l
a1
为所述第三损失函数,zv为所述视频特征,za为所述音频特征,τ3为第三调节参数,log为对数函数,exp为指数函数。
[0115]
优选地,将第三调节参数设置为0.1。
[0116]
第三损失函数包括视频特征和音频特征,音频特征与视频特征相互指导和补充。
[0117]
s72’:根据所述音频特征和所述图像特征构造第四损失函数,使用所述第三损失函数和所述第四损失函数训练所述音频编码器,得到已训练音频编码器。
[0118]
构造第四损失函数的公式如下:
[0119][0120]
其中,l
a2
为所述第四损失函数,z
p
为所述图像特征,za为所述音频特征,τ4为第四调节参数,log为对数函数,exp为指数函数。
[0121]
优选地,将第四调节参数设置为0.1。
[0122]
第四损失函数包括图像特征和音频特征,音频特征与图像特征相互指导和补充。
使用第三损失函数能够根据音频对视频的表示方法训练音频编码器,使用第四损失函数能够根据音频对图像的表示方法训练音频编码器,已训练音频编码器能够辅助视频编码器判断视频中是否存在伪造人脸,已训练音频编码器能够辅助图像编码器判断图像中是否存在伪造人脸。
[0123]
如上所述,根据第二损失函数训练图像编码器之后,还包括根据音频特征和视频特征构造第三损失函数,根据音频特征和图像特征构造第四损失函数,使用第三损失函数和第四损失函数训练音频编码器,得到已训练音频编码器。已训练音频编码器能够辅助视频编码器判断视频中是否存在伪造人脸,已训练音频编码器能够辅助图像编码器判断图像中是否存在伪造人脸。
[0124]
在一个实施例中,参照图5,所述根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器的步骤s6,包括以下步骤s61-s64:
[0125]
s61:使用所述视频特征和所述音频特征计算第一损失函数值。
[0126]
视频特征和音频特征均为向量的形式,视频特征和音频特征的乘积越接近于1,说明视频特征与音频特征越相似,视频特征和音频特征的乘积越接近于0,说明视频特征与音频特征越不相似。
[0127]
s62:使用所述图像特征和所述音频特征计算第二损失函数值。
[0128]
图像特征和音频特征均为向量的形式,图像特征和音频特征的乘积越接近于1,说明图像特征与音频特征越相似,图像特征和音频特征的乘积越接近于0,说明图像特征与音频特征越不相似。
[0129]
s63:根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器。
[0130]
训练视频编码器的过程包括多次反向传播,相邻两次反向传播对应的两个第一损失函数值的差值越大,视频编码器的视频编码参数更新越快。
[0131]
更新视频编码参数的次数越多,视频编码参数与预设视频编码参数的差值越小,当视频编码参数与预设视频编码参数的差值小于第一预设差值时,停止训练,得到已训练视频编码器。
[0132]
s64:根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。
[0133]
训练图像编码器的过程包括多次反向传播,相邻两次反向传播对应的两个第二损失函数值的差值越大,图像编码器的图像编码参数更新越快。
[0134]
更新图像编码参数的次数越多,图像编码参数与预设图像编码参数的差值越小,当图像编码参数与预设图像编码参数的差值小于第二预设差值时,停止训练,得到已训练图像编码器。
[0135]
已训练视频编码器用于识别视频中的伪造人脸,已训练图像编码器用于识别图像中的伪造人脸。
[0136]
如上所述,根据第一损失函数训练视频编码器,根据第二损失函数训练图像编码器,包括使用视频特征和音频特征计算第一损失函数值,使用图像特征和音频特征计算第二损失函数值。根据第一损失函数值进行反向传播,更新视频编码器的视频编码参数,得到
已训练视频编码器。根据第二损失函数值进行反向传播,更新图像编码器的图像编码参数,得到已训练图像编码器。已训练视频编码器用于识别视频中的伪造人脸,已训练图像编码器用于识别图像中的伪造人脸。
[0137]
参照图6,是本方案申请的一种编码器训练装置的结构示意框图,装置包括:
[0138]
训练集获取模块10,用于获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;
[0139]
视频表征模块20,用于将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;
[0140]
音频表征模块30,用于将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;
[0141]
图像表征模块40,用于将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;
[0142]
损失函数构造模块50,用于根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;
[0143]
训练模块60,用于根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。
[0144]
上述编码器训练装置用于实现编码器训练方法。
[0145]
在一个实施例中,所述视频表征模块20还包括:
[0146]
唇部特征提取单元,用于将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列;
[0147]
局部运动特征编码单元,用于将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征;
[0148]
特征转换单元,用于将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列;
[0149]
第一表征单元,用于将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。
[0150]
在一个实施例中,所述音频表征模块30还包括:
[0151]
向量转换单元,用于将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量;
[0152]
第二表征单元,用于将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。
[0153]
在一个实施例中,所述图像表征模块40还包括:
[0154]
图像表征单元,用于将所述训练图像子集输入所述图像编码器的transformer层进行表征,得到所述图像特征。
[0155]
在一个实施例中,所述损失函数构造模块50还包括:
[0156]
第一损失函数构造单元,用于根据以下公式构造所述第一损失函数:
[0157]
[0158]
其中,lv为所述第一损失函数,zv为所述视频特征,za为所述音频特征,τ1为第一调节参数,log为对数函数,exp为指数函数。
[0159]
在一个实施例中,所述编码器训练装置还包括:
[0160]
第一音频编码器训练模块,用于根据所述音频特征和所述视频特征构造第三损失函数;
[0161]
第二音频编码器训练模块,用于根据所述音频特征和所述图像特征构造第四损失函数,使用所述第三损失函数和所述第四损失函数训练所述音频编码器,得到已训练音频编码器。
[0162]
在一个实施例中,所述训练模块60还包括:
[0163]
第一损失函数值计算单元,用于使用所述视频特征和所述音频特征计算第一损失函数值;
[0164]
第二损失函数值计算单元,用于使用所述图像特征和所述音频特征计算第二损失函数值;
[0165]
视频编码参数更新单元,用于根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器;
[0166]
图像编码参数更新单元,用于根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。
[0167]
参照图7,本发明实施例还提供一种计算机设备,该计算机设备的内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频特征、音频特征和图像特征等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现编码器训练方法,包括如下步骤:
[0168]
获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;
[0169]
将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;
[0170]
将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;
[0171]
将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;
[0172]
根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;
[0173]
根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。
[0174]
在一个实施例中,所述将所述训练视频子集输入视频编码器进行视频表征,得到视频特征,包括:
[0175]
将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列;
[0176]
将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征;
[0177]
将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列;
[0178]
将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。
[0179]
在一个实施例中,所述将所述训练音频子集输入音频编码器进行音频表征,得到音频特征,包括:
[0180]
将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量;
[0181]
将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。
[0182]
在一个实施例中,所述将所述训练图像子集输入图像编码器进行图像表征,得到图像特征,包括:
[0183]
将所述训练图像子集输入所述图像编码器的transformer层进行表征,得到所述图像特征。
[0184]
在一个实施例中,所述根据所述视频特征和所述音频特征构造第一损失函数,包括:
[0185]
根据以下公式构造所述第一损失函数:
[0186][0187]
其中,lv为所述第一损失函数,zv为所述视频特征,za为所述音频特征,τ1为第一调节参数,log为对数函数,exp为指数函数。
[0188]
在一个实施例中,所述根据所述第二损失函数训练所述图像编码器之后,还包括:
[0189]
根据所述音频特征和所述视频特征构造第三损失函数;
[0190]
根据所述音频特征和所述图像特征构造第四损失函数,使用所述第三损失函数和所述第四损失函数训练所述音频编码器,得到已训练音频编码器。
[0191]
在一个实施例中,所述根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器,包括:
[0192]
使用所述视频特征和所述音频特征计算第一损失函数值;
[0193]
使用所述图像特征和所述音频特征计算第二损失函数值;
[0194]
根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器;
[0195]
根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。
[0196]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定。
[0197]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现编码器训练方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
[0198]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0199]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0200]
以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:
1.一种编码器训练方法,其特征在于,包括:获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。2.根据权利要求1所述的编码器训练方法,其特征在于,所述将所述训练视频子集输入视频编码器进行视频表征,得到视频特征,包括:将所述训练视频子集输入所述视频编码器的三维卷积层,提取唇部特征,得到唇部特征序列;将所述唇部特征序列输入所述视频编码器的二维残差层进行局部运动特征编码,得到已编码局部运动特征;将所述已编码局部运动特征输入所述视频编码器的线性投影层进行特征转换,得到唇部特征序列;将所述唇部特征序列输入所述视频编码器的transformer层进行表征,得到所述视频特征。3.根据权利要求1所述的编码器训练方法,其特征在于,所述将所述训练音频子集输入音频编码器进行音频表征,得到音频特征,包括:将所述训练音频子集输入所述音频编码器的音频向量转换层进行向量转换,得到音频向量;将所述音频向量输入所述音频编码器的transformer层进行表征,得到所述音频特征。4.根据权利要求1所述的编码器训练方法,其特征在于,所述将所述训练图像子集输入图像编码器进行图像表征,得到图像特征,包括:将所述训练图像子集输入所述图像编码器的transformer层进行表征,得到所述图像特征。5.根据权利要求1所述的编码器训练方法,其特征在于,所述根据所述视频特征和所述音频特征构造第一损失函数,包括:根据以下公式构造所述第一损失函数:其中,l
v
为所述第一损失函数,z
v
为所述视频特征,z
a
为所述音频特征,τ1为第一调节参数,log为对数函数,exp为指数函数。6.根据权利要求1所述的编码器训练方法,其特征在于,所述根据所述第二损失函数训练所述图像编码器之后,还包括:根据所述音频特征和所述视频特征构造第三损失函数;
根据所述音频特征和所述图像特征构造第四损失函数,使用所述第三损失函数和所述第四损失函数训练所述音频编码器,得到已训练音频编码器。7.根据权利要求1所述的编码器训练方法,其特征在于,所述根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器,包括:使用所述视频特征和所述音频特征计算第一损失函数值;使用所述图像特征和所述音频特征计算第二损失函数值;根据所述第一损失函数值进行反向传播,更新所述视频编码器的视频编码参数,得到所述已训练视频编码器;根据所述第二损失函数值进行反向传播,更新所述图像编码器的图像编码参数,得到所述已训练图像编码器。8.一种编码器训练装置,其特征在于,包括:训练集获取模块,用于获取训练集,所述训练集包括训练视频子集、训练音频子集和训练图像子集;视频表征模块,用于将所述训练视频子集输入视频编码器进行视频表征,得到视频特征;音频表征模块,用于将所述训练音频子集输入音频编码器进行音频表征,得到音频特征;图像表征模块,用于将所述训练图像子集输入图像编码器进行图像表征,得到图像特征;损失函数构造模块,用于根据所述视频特征和所述音频特征构造第一损失函数,根据所述图像特征和所述音频特征构造第二损失函数;训练模块,用于根据所述第一损失函数训练所述视频编码器,得到已训练视频编码器,根据所述第二损失函数训练所述图像编码器,得到已训练图像编码器。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的编码器训练方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的编码器训练方法的步骤。
技术总结
本申请涉及人工智能技术领域,提供一种编码器训练方法、装置、设备和存储介质,可以用于金融领域中获取金融票据之前进行编码器训练,得到的已训练编码器能够识别伪造人脸,并且不给予获取金融票据的权限,以提高金融系统的安全性。其中方法包括:获取训练集;将训练视频子集输入视频编码器进行视频表征;将训练音频子集输入音频编码器进行音频表征;将训练图像子集输入图像编码器进行图像表征,根据视频特征和音频特征构造第一损失函数,根据图像特征和音频特征构造第二损失函数;根据第一损失函数训练视频编码器,根据第二损失函数训练图像编码器。本方法能够保证通过人脸识别进行身份验证的可靠性,使得获取金融票据的过程具有较强的保密性。的保密性。的保密性。
技术研发人员:刘羲 周涵 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/