领域自适应的视频分类方法、装置、设备、介质和产品与流程
未命名
07-15
阅读:96
评论:0

1.本技术涉及计算机技术领域,特别是涉及一种领域自适应的视频分类方法、装置、设备、介质和产品。
背景技术:
2.近年来,无监督域自适应引起了大量的研究关注,其目的是通过学习一个领域无关的特征表示,使得在有标注的源域数据集上训练的模型,在无标注且分布不同的目标域依然保持较好的表现。
3.在有标注的源域数据集上训练视频分类可以得到视频分类模型,目标域的视频与源域通常具有不同的特征分布且无标注,在训练得到的视频分类模型上无法得到良好的视频分类效果,因此在视频分类时需要对不同领域的视频完成迁移学习。
4.目前针对不同领域的视频分类方法,通常是通过领域自适应方法实现,在一个神经网络中基于对抗学习来学习领域无关的特征表示。对抗学习方法在特征提取网络中设置带有梯度反转层的领域判别器,领域判别器用于判断提取到特征的领域来源,特征提取器用于学习如何提取到更多公共语义信息来混淆领域判别器。
5.然而,对于包含大部分与语义无关的干扰信息的视频数据而言,学习两个域之间公共的语义信息十分困难,采用传统的对抗学习匹配样本级特征分布的领域自适应效果差。
技术实现要素:
6.基于此,有必要针对上述技术问题,提供一种能够实现领域自适应的视频分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
7.第一方面,本技术提供了一种领域自适应的视频分类方法。所述方法包括:
8.获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;
9.构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
10.获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
11.迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
12.在其中一个实施例中,构建至少两个私有网络,包括:
13.获取视频输入样本的背景数据,背景数据作为监督信号用于私有网络的重构训练;
14.通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据;
15.获取背景数据与重构背景数据之间的重构损失;
16.最小化重构损失,得到语义无关信息特征。
17.在其中一个实施例中,私有网络包括视频特征提取器和重构网络,通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据,包括:
18.基于视频特征提取器得到各领域视频输入样本的背景特征;
19.基于重构网络对背景特征重构得到重构背景数据;
20.获取背景数据与重构背景数据之间的重构损失,包括:
21.获取背景数据与重构背景数据之间的距离;
22.通过基于距离度量的损失函数和距离,计算重构损失。
23.在其中一个实施例中,初始视频分类模型包括特征提取器、域判别器和分类器,基于源域视频输入样本的特征进行分类得到初始视频分类模型,包括;
24.通过特征提取器获取源域视频输入样本的特征;
25.通过分类器对特征进行分类;
26.获取分类损失,分类损失用于迭代训练初始视频分类模型和各私有网络;
27.获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,包括:
28.通过特征提取器得到源域和至少一个目标域的视频输入样本的初始特征数据;
29.根据域判别器对初始特征数据进行对抗训练,得到对抗训练后的目标特征数据;
30.根据分类器得到目标特征数据的视频分类;
31.获取域判别器的对抗训练损失,对抗训练损失用于迭代训练初始视频分类模型和各私有网络。
32.在其中一个实施例中,该方法还包括:
33.构建特征来源分类器,根据特征来源分类器确定输入特征的来源标识,其中,来源标识用于确定输入特征的来源是初始视频分类模型或私有网络;
34.获取特征来源分类器的来源分类损失,来源分类损失用于迭代训练初始视频分类模型和各私有网络。
35.在其中一个实施例中,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,包括:
36.基于损失函数获取训练损失,根据训练损失得到迭代停止条件;
37.根据训练损失反向传播计算损失函数的梯度,更新损失函数;
38.在训练损失稳定的情况下,满足迭代停止条件,得到领域通用的目标视频分类模型。
39.第二方面,本技术还提供了一种能够实现领域自适应的视频分类装置。所述装置包括:
40.视频分类模块,用于获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;
41.私有网络模块,用于构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
42.均值差异模块,用于获取初始视频分类模型提取的源域和至少一个目标域的视频
输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
43.迭代训练模块,用于迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
44.第三方面,本技术还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
45.获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;
46.构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
47.获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
48.迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
49.第四方面,本技术还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
50.获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;
51.构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
52.获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
53.迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
54.第五方面,本技术还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
55.获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;
56.构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
57.获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
58.迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
59.上述的领域自适应的视频分类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行
分类得到初始视频分类模型,构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征,获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型实现了领域自适应的视频分类,该方法通过构建私有网络并提取出语义无关信息特征,并获取语义无关信息特征与初始视频分类模型提取的特征数据之间的最大均值差异,对最大均值差异进行最大化处理后,也就是说,在实现语义无关信息特征与特征数据之间的特征差异最大以后,有利于实现视频分类模型在视频分类过程中获取到公共语义信息特征且忽略语义无关信息特征,有利于降低目标域视频中存在的语义无关信息特征导致目标域视频无法在初始视频分类模型中得到适应性视频分类的影响,提高了领域迁移中视频分类的领域适应性,对于包含大部分与语义无关的干扰信息的视频数据的分类,领域的自适应效果好,领域自适应的视频分类准确度高,具有较高的可靠性。
附图说明
60.图1为一个实施例中视频分类方法的应用环境图;
61.图2为一个实施例中视频分类方法的流程示意图;
62.图3为一个实施例中视频分类方法的最大均值差异示意图;
63.图4为一个实施例中私有网络的结构示意图;
64.图5为一个实施例中初始视频分类模型的结构示意图;
65.图6为另一个实施例中视频分类方法的流程示意图;
66.图7为一个实施例中视频分类装置的结构框图;
67.图8为另一个实施例中视频分类装置的结构框图;
68.图9为一个实施例中计算机设备为服务器的内部结构图;
69.图10为一个实施例中计算机设备为终端的内部结构图。
具体实施方式
70.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
71.本技术实施例提供的领域自适应的视频分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型,构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征,获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类
模型,根据目标视频分类模型进行视频分类。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
72.在一个实施例中,如图2所示,提供了一种领域自适应的视频分类方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
73.步骤202,获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型。
74.其中,源域表示与测试样本不同的领域,具有丰富的监督标注信息;目标域表示测试样本所在的领域,无标签或者只有少量标签,示例性的,在迁移学习中,来自源域的原始样本包含视频类别标签,来自目标域的原始样本不包含视频类别标签且与源域样本分布不同。
75.示例性的,通过图像帧提取和降采样处理输入的源域和目标域视频数据,降采样的方式为从随机位置开始按固定的采样频率采样16帧,得到大小一致的源域和目标域视频输入样本,对源域视频输入样本进行3000次视频分类任务的迭代训练得到初始视频分类模型。
76.步骤204,构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征。
77.其中,语义无关信息特征是指视频分类中与领域紧密相关而与语义无关的背景信息,表现为视频分类的干扰特征。
78.示例性的,对于动态的视频来说,静态的背景特征是最主要的语义无关信息特征,构建私有网络以后,可以通过背景重构训练不同的私有网络,分别获取到源域和目标域视频输入样本的背景特征。
79.步骤206,获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征。
80.其中,最大均值差异mmd用于衡量不同特征分布之间的距离,如果该距离的均值差异达到最大,就说明采样的样本来自完全不同的分布。公共语义信息特征是指与领域无关而与语义相关的特征,表现为划分视频类别有关的特征。
81.示例性的,初始视频模型提取出源域和目标域的视频输入样本中的特征数据,该特征数据、私有网络提取出源域视频输入样本的背景特征和目标域视频输入样本的背景特征具有不同的特征分布,对三个输入样本的特征分布距离最大化,得到最大均值差异mmd,计算公式表示为:
[0082][0083]
其中,xs,x
t
分别为源域和目标域视频输入样本,φ(xs)和φ(x
t
)为对应的核函数。
[0084]
示例性的,如图3所示视频分类方法的最大均值差异示意图,在特征分布距离最大
化的情况下,特征之间的差异性最大,可以实现在初始视频分类模型获取到的特征数据中忽略源域和目标域背景特征的效果,得到源域和目标域的公共语义信息特征。在最大化特征分布距离的过程中,初始视频分类模型的最大均值差异的损失函数计算公式表示为:
[0085][0086]
其中,为最大均值差异损失,在源域的背景特征分布为d
sp
、目标域的背景特征分布为d
tp
和初始视频分类模型的特征数据分布为d
main
的情况下,d
sp
与d
tp
之间的最大均值差异为mmd(d
sp
,d
tp
),d
main
与d
sp
之间的最大均值差异为mmd(d
main
,d
sp
),d
main
与d
tp
之间的最大均值差异为mmd(d
main
,d
tp
)。
[0087]
步骤208,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
[0088]
其中,迭代训练是根据迭代算法进行视频分类模型训练的过程,迭代是重复反馈过程的活动,迭代算法是从某个值开始不断地根据上一步的结果计算出下一步的结果。
[0089]
示例性的,可以根据视频分类模型训练过程中的损失函数进行迭代训练,在损失函数不再变化的情况下,具体的,在损失函数不再下降的情况下或者损失函数趋于稳定的情况下,视频分类模型实现收敛,得到可以实现目标域视频准确分类的目标视频分类模型,可以根据目标视频分类模型进行视频分类。
[0090]
上述能够实现领域自适应的视频分类方法,通过获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型,构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征,获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型实现了领域自适应的视频分类,该方法通过构建私有网络并提取出语义无关信息特征,并获取语义无关信息特征与初始视频分类模型提取的特征数据之间的最大均值差异,对最大均值差异进行最大化处理后,也就是说,在实现语义无关信息特征与特征数据之间的特征差异最大以后,有利于实现视频分类模型在视频分类过程中获取到公共语义信息特征且忽略语义无关信息特征,有利于降低目标域视频中存在的语义无关信息特征导致目标域视频无法在初始视频分类模型中得到适应性视频分类的影响,提高了领域迁移中视频分类的领域适应性,对于包含大部分与语义无关的干扰信息的视频数据的分类,领域的自适应效果好,领域自适应的视频分类准确度高,具有较高的可靠性。
[0091]
在一个实施例中,构建至少两个私有网络,包括:获取视频输入样本的背景数据,背景数据作为监督信号用于私有网络的重构训练;通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据;获取背景数据与重构背景数据之间的重构损失;最小化重构损失,得到语义无关信息特征。
[0092]
其中,监督信号是指在监督学习中,视频输入样本期望的输出值。重构是图像重构(ir),目的在于根据ground truth图像抽取出的的各类信息对图像进行重构。ground truth是指,在监督学习中,数据是有标注的,以(x,t)的形式出现,其中x是输入数据,t是标
注,正确的t标注是ground truth。重构损失是指重构的损失函数,也就是私有网络图像重构的预测值与真实值的差异程度的运算函数。损失函数包括基于距离度量的损失函数和基于概率分布度量的损失函数。
[0093]
示例性的,如图4所示的私有网络的结构示意图,可以通过时间中值滤波器tmf提取源域和目标域视频输入样本的背景数据,得到源域和目标域背景数据,输入源域背景数据和源域视频输入样本到源域私有网络,输入目标域背景数据和目标域视频输入样本到目标域私有网络,背景数据作为监督信号是私有网络进行重构训练过程中期望的输出值,也是正确的t标注ground truth,私有网络经图像重构的输出值与背景数据作比较可以计算重构的损失函数,在重构训练的过程中,最小化重构损失,可以缩小背景数据与重构背景数据之间的差异,实现私有网络学习到与语义的无关信息即语义无关信息特征。
[0094]
本实施例中,使用时间中值滤波器来获取视频输入样本的背景数据,时间中值滤波器是一种简单、直观且快速的视频背景提取方法,而损失函数用于模型的训练阶段,在得到单次训练得出的预测值和差异值之间的损失值之后,根据最小化损失值的方向更新私有网络的各个参数,达到降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢的效果,进而达到私有网络学习到源域和目标域视频输入样本语义无关信息特征的效果。
[0095]
在一个实施例中,私有网络包括视频特征提取器和重构网络,通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据,包括:基于视频特征提取器得到各领域视频输入样本的背景特征;基于重构网络对背景特征重构得到重构背景数据;获取背景数据与重构背景数据之间的重构损失,包括:获取背景数据与重构背景数据之间的距离;通过基于距离度量的损失函数和距离,计算重构损失。
[0096]
其中,视频特征提取器用于提取视频输入样本的特征。重构网络用于对提取到的特征进行背景重构。
[0097]
示例性的,如图4所示的私有网络的结构示意图,源域私有网络包括源域视频特征提取器f
sp
和源域重构网络,目标域私有网络包括目标域视频特征提取器f
tp
和目标域重构网络,获取到视频特征提取器提取到的视频输入样本的背景特征,可以根据背景特征在重构网络进行图像重构得到预测的重构背景数据,根据源域和目标域重构背景数据与背景数据之间的距离计算源域和目标域的l2损失函数,其中,l2损失函数又被称为欧氏距离,是一种常用的距离度量方函数,通常用于度量数据点之间的相似度,得到源域重构损失的计算公式表示为:
[0098][0099]
目标域重构损失的计算公式表示为:
[0100][0101]
私有网络重构损失为两项重构损失之和的计算公式表示为:
[0102][0103]
其中,b
sp
为源域重构背景数据,bs为源域背景数据,为源域的l2损失函数,b
tp
为目标域重构背景数据,b
t
为目标域背景数据,为目标域的l2损失函数,为私有网络重构损失函数。
[0104]
本实施例中,通过基于距离度量的损失函数度量特征空间上视频输入样本真实值和私有网络预测值之间的距离,特征空间上两个点的距离越小,可以得到私有网络的预测性能越好,且l2损失函数的曲线在接近目标时足够平缓,所以可以利用这个特点在接近目标时,逐渐缓慢收敛过去,适合用于图像处理。
[0105]
在其中一个实施例中,初始视频分类模型包括特征提取器、域判别器和分类器,基于源域视频输入样本的特征进行分类得到初始视频分类模型,包括;通过特征提取器获取源域视频输入样本的特征;通过分类器对特征进行分类;获取分类损失,分类损失用于迭代训练初始视频分类模型和各私有网络;获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,包括:通过特征提取器得到源域和至少一个目标域的视频输入样本的初始特征数据;根据域判别器对初始特征数据进行对抗训练,得到对抗训练后的目标特征数据;根据分类器得到目标特征数据的视频分类;获取域判别器的对抗训练损失,对抗训练损失用于迭代训练初始视频分类模型和各私有网络。
[0106]
其中,对抗训练是指在初始视频分类模型的训练过程中,域判别器与图像分类器的输入都来自于特征提取器提取的特征,域判别器用于最大化域判别损失,混淆目标域视频输入数据与源域视频输入数据,图像分类器用于最小化图像分类损失,实现图像的精准分类。域判别器包括一个梯度反转层和两层全连接层,用于判别特征提取器提取到的特征是来自源域还是目标域,其中,域判别损失函数的梯度与图像分类损失函数的梯度方向相反,通过梯度反转层可以实现域判别损失的梯度反向传播到特征提取器的参数之前自动取反,进而实现对抗训练。分类器是指图像分类器,用于对视频输入样本提取到的特征进行视频分类。
[0107]
示例性的,如图5所示的初始视频分类模型的结构示意图通过特征提取器获取到源域视频输入样本的特征,源域视频输入样本为包含视频分类标签的输入视频样本,分类器根据提取到的特征进行3000次的视频分类任务训练,得到初始视频分类模型,初始视频分类模型对于有视频分类标签的源域视频能实现准确的视频分类,获取到视频分类任务过程中视频输入样本分类的输出值与真实值之间的差异,得到视频分类损失,计算视频分类损失函数的计算公式表示为:
[0108][0109]
其中,为视频分类损失,x是输入样本,x∈xs是输入样本为源域视频输入样本,y为源域的视频类别标签也是真实值,σ为softmax函数,c(f(x))为分类器对源域视频输入样本进行分类得到的输出经过softmax函数计算得到概率值。
[0110]
通过特征提取器提取源域和目标域视频输入样本的初始特征数据,在特征提取器和分类器之间存在域判别器的梯度反转层,最大化域判别的损失值、最小化视频分类任务的损失值可以实现初始特征数据的对抗训练,得到源域和目标域领域判别混淆的目标特征数据,可以根据目标特征数据进行源域和目标域输入视频的分类,获取到对抗训练中的损失值,计算对抗训练损失函数的计算公式表示为:
[0111][0112]
其中,为对抗训练损失,yd是一个代表领域标签的二维向量,即输入视频样本所在领域的真实值,当输入x,x∈xs是源域原始样本时,yd=《1,0》,或当输入x是目标域原始样本x∈x
t
时,yd=《0,1》,σ为softmax函数,为(d(f(x)))域判别器对源域和目标域视频输入样本进行领域判别得到的输出经过softmax函数计算得到概率值。
[0113]
本实施例中,实现了初始视频分类模型的视频分类任务训练和对抗训练。
[0114]
在其中一个实施例中,该方法还包括:构建特征来源分类器,根据特征来源分类器确定输入特征的来源标识,其中,来源标识用于确定输入特征的来源是初始视频分类模型或私有网络;获取特征来源分类器的来源分类损失,来源分类损失用于迭代训练初始视频分类模型和各私有网络。
[0115]
示例性的,获取初始视频分类模型的特征提取器和私有网络的视频特征提取器提取的特征,该特征携带来源标识,来源标识用于确定输入特征的来源是初始视频分类模型的特征提取器f或源域私有网络的源域视频特征提取器f
sp
或目标域私有网络的目标域视频特征提取器f
tp
,输入提取的特征到特征来源分类器,特征来源分类器根据输入的提取特征得到特征来源于初始视频分类模型或私有网络,根据输出值和真实值计算来源分类损失,来源分类损失函数的计算公式表示为:
[0116][0117]
其中,为来源分类损失,yn为特征提取器f、源域视频特征提取器f
sp
和目标域视频特征提取器f
tp
的来源标识,f为任一输入的提取特征,cn(f)为特征来源分类器判断输入特征得到的输出经过softmax函数计算得到的概率值。
[0118]
本实施例中,通过增加特征来源分类器,区分视频分类模型和私有网络提取到的特征,实现了增强其经过训练得到的特征内容的差异性。
[0119]
在其中一个实施例中,该方法还包括:迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,包括:基于损失函数获取训练损失,根据训练损失得到迭代停止条件;根据训练损失反向传播计算损失函数的梯度,更新损失函数;在训练损失稳定的情况下,满足迭代停止条件,得到领域通用的目标视频分类模型。
[0120]
其中,反向传播是“误差反向传播”的简称,是一种与最优化方法结合使用的,用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度,这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。
[0121]
示例性的,获取到视频分类损失对抗训练损失重构损失最大均值差异损失来源分类损失根据总损失函数对初始视频分类模型进行迭代训练,总损失函数计算公式为:
[0122]
[0123]
函数图像的曲面上方向导数的最大值的方向就代表了梯度的方向,在做梯度下降的时候,应该是沿着梯度的反方向更新,反向传播计算损失函数的梯度,结合随机梯度下降(stochastic gradient descent,sgd)优化算法,可以迭代训练初始训练模型,实现最小化损失函数,也就是说,根据得到的总损失函数计算供述,反向传播计算出梯度以后,总损失函数朝最小化损失函数方向靠近,梯度会反馈到随机梯度下降优化算法,优化算法可以根据梯度更新初始视频分类模型的模型参数,迭代训练初始视频分类模型,在总损失函数得出的最小值稳定的情况下,模型逐渐收敛得到目标视频分类模型,目标视频分类模型表现为总损失最小,也就是说对于视频分类的准确性高,实现了目标域的视频分类在视频分类模型中也可以得到准确的分类。
[0124]
如图6所示为另一个实施例中领域自适应的视频分类方法的流程示意图,该领域自适应的视频分类方法包括如下步骤:
[0125]
步骤602,获取原始的源域和目标域视频数据,对视频数据进行视频帧提取和降采样处理,得到源域和目标域视频输入样本。
[0126]
对于原始的视频数据,进行图像帧提取得到rgb视频帧序列,并进行视频帧的采样。根据训练初始视频分类模型的原始源域和目标域视频,获取采集好的rgb帧序列,从随机位置开始每隔4帧采样一帧作为输入数据,每个样本采样t帧,作为训练初始视频分类模型的视频输入样本。
[0127]
步骤604,构建初始视频分类模型,包括特征提取器、域判别器和分类器,根据特征提取器得到源域视频输入样本的源域特征,根据分类器和得到源域特征的视频分类,获取视频分类损失函数
[0128]
使用有视频分类标签的源域视频输入样本对初始视频分类模型进行预训练,初始视频分类模型采用i3d视频分类模型,首先只使用源域数据进行3000次迭代的预训练。预训练使用sgd(标准梯度下降)优化算法,学习率取0.001。
[0129]
步骤606,构建源域和目标域私有网络,私有网络包括视频特征提取器和重构网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征。
[0130]
步骤608,通过时间中值滤波器获取到源域和目标域视频输入样本的背景图,背景图作为监督信号用于私有网络的重构训练。
[0131]
使用固定参数的时间中值滤波器提取视频输入样本的背景图,输入样本rgb帧序列的维度为时间
×
高度
×
宽度
×
通道数(t
×h×w×
c),提取到的背景图维度为高度
×
宽度
×
通道数(h
×w×
c),没有时间维度。
[0132]
步骤610,通过各私有网络的视频特征提取器得到源域和目标域视频输入样本的背景特征,通过各私有网络的重构网络得到源域和目标域视频输入样本的重构背景图。
[0133]
步骤612,分别获取源域和目标域背景图与源域和目标域重构背景图之间的源域和目标域的l2损失,得到源域和目标域重构损失,获取重构损失的l2损失函数,最小化l2损失函数,得到源域和目标域视频输入样本的语义无关信息特征。
[0134]
将源域视频输入样本输入源域私有网络,进行背景重构训练学习源域的语义无关信息特征,计算将目标域视频输入样本输入目标域私有网络,计算求两个私有网络重构训练损失之和
[0135]
步骤614,根据特征提取器获取源域和目标域视频输入样本的初始特征,根据域判别器对初始特征进行对抗训练,得到目标特征,根据分类器得到目标特征的分类,获取对抗训练损失函数
[0136]
初始视频分类模型的特征维度为1024,域判别器由一个梯度反转层和一个两层的全连接层分类器构成,输入为1024维的特征向量,隐藏层维度为100,输出为2维向量。使用有标签的源域样本和无标签的目标域样本作为输入数据,训练主网络特征提取器提取领域无关特征的能力,计算
[0137]
步骤616,最大化重构背景图与目标特征之间的特征分布距离,得到公共语义信息特征,获取最大化特征差异值的损失函数。
[0138]
最大化三个特征分布的mmd距离,计算mmd中核函数采用多个高斯核。
[0139]
步骤618,构建特征来源分类器,输入目标特征与私有网络视频特征提取器得到的背景特征到特征来源分类器,根据特征来源分类器确定输入特征来源初始视频分类模型或私有网络,获取来源分类损失函数。
[0140]
步骤620,迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
[0141]
根据获取到的所有损失函数表达式相加得到总损失函数表达式,反向传播计算总损失函数的梯度,采用sgd(标准梯度下降)优化算法,更新初始视频分类模型的参数,学习率设置为0.0001,重复重构训练、对抗训练的过程,迭代训练16000次,在总损失函数稳定不变的情况下,得到目标视频分类模型,根据目标视频分类模型可以实现源域和目标域的视频分类。
[0142]
步骤622,获取测试样本对目标视频分类模型进行测试训练。
[0143]
获取测试目标视频分类模型的原始视频,从rgb帧序列中5个随机的位置进行采样作为输入数据,将5个样本的预测结果取平均值作为最终预测结果。每个样本rgb帧序列的维度为时间
×
高度
×
宽度
×
通道数(t
×h×w×
c),本实施例中,t取16,h和w取224。
[0144]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0145]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的领域自适应的视频分类方法的领域自适应的视频分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的领域自适应的视频分类装置实施例中的具体限定可以参见上文中对于领域自适应的视频分类方法的限定,在此不再赘述。
[0146]
在一个实施例中,如图7所示,提供了一种领域自适应的视频分类装置700,包括:视频分类模块702、私有网络模块704、均值差异模块706和迭代训练模块708,其中:
[0147]
视频分类模块702,用于获取源域和至少一个目标域的视频输入样本,基于源域视
频输入样本的特征进行分类得到初始视频分类模型;
[0148]
私有网络模块704,用于构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;
[0149]
均值差异模块706,用于获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;
[0150]
迭代训练模块708,用于迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类。
[0151]
在一个实施例中,私有网络模块704还用于构建至少两个私有网络,包括:获取视频输入样本的背景数据,背景数据作为监督信号用于私有网络的重构训练;通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据;获取背景数据与重构背景数据之间的重构损失;最小化重构损失,得到语义无关信息特征。
[0152]
在一个实施例中,私有网络模块704还用于私有网络包括视频特征提取器和重构网络,通过私有网络进行各领域视频输入样本的重构训练,得到重构背景数据,包括:基于视频特征提取器得到各领域视频输入样本的背景特征;基于重构网络对背景特征重构得到重构背景数据;获取背景数据与重构背景数据之间的重构损失,包括:获取背景数据与重构背景数据之间的距离;通过基于距离度量的损失函数和距离,计算重构损失。
[0153]
在一个实施例中,均值差异模块706还用于初始视频分类模型包括特征提取器、域判别器和分类器,基于源域视频输入样本的特征进行分类得到初始视频分类模型,包括;通过特征提取器获取源域视频输入样本的特征;通过分类器对特征进行分类;获取分类损失,分类损失用于迭代训练初始视频分类模型和各私有网络;获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,包括:通过特征提取器得到源域和至少一个目标域的视频输入样本的初始特征数据;根据域判别器对初始特征数据进行对抗训练,得到对抗训练后的目标特征数据;根据分类器得到目标特征数据的视频分类;获取域判别器的对抗训练损失,对抗训练损失用于迭代训练初始视频分类模型和各私有网络。
[0154]
在一个实施例中,如图8所示,该装置还包括来源分类模块810,用于构建特征来源分类器,根据特征来源分类器确定输入特征的来源标识,其中,来源标识用于确定输入特征的来源是初始视频分类模型或私有网络;获取特征来源分类器的来源分类损失,来源分类损失用于迭代训练初始视频分类模型和各私有网络。
[0155]
在一个实施例中,迭代训练模块708还用于迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,包括:基于损失函数获取训练损失,根据训练损失得到迭代停止条件;根据训练损失反向传播计算损失函数的梯度,更新损失函数;在训练损失稳定的情况下,满足迭代停止条件,得到领域通用的目标视频分类模型。
[0156]
上述领域自适应的视频分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0157]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结
构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频分类数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域自适应的视频分类方法。
[0158]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种领域自适应的视频分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0159]
本领域技术人员可以理解,前述结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0160]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例的步骤。
[0161]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例的步骤。
[0162]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例的步骤。
[0163]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0164]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易
失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0165]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0166]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种领域自适应的视频分类方法,其特征在于,所述方法包括:获取源域和至少一个目标域的视频输入样本,基于所述源域视频输入样本的特征进行分类得到初始视频分类模型;构建至少两个私有网络,获取所述源域和至少一个目标域的视频输入样本,所述私有网络用于分别获取各所述领域视频输入样本的语义无关信息特征;获取所述初始视频分类模型提取的所述源域和至少一个目标域的视频输入样本的特征数据,获取所述初始视频分类模型和各私有网络提取特征的特征分布距离,对所述特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;迭代训练所述初始视频分类模型和各所述私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据所述目标视频分类模型进行视频分类。2.根据权利要求1所述的方法,其特征在于,所述构建至少两个私有网络,包括:获取所述视频输入样本的背景数据,所述背景数据作为监督信号用于所述私有网络的重构训练;通过所述私有网络进行各所述领域视频输入样本的重构训练,得到重构背景数据;获取所述背景数据与所述重构背景数据之间的重构损失;最小化所述重构损失,得到所述语义无关信息特征。3.根据权利要求2所述的方法,其特征在于,所述私有网络包括视频特征提取器和重构网络,所述通过所述私有网络进行各所述领域视频输入样本的重构训练,得到重构背景数据,包括:基于所述视频特征提取器得到各所述领域视频输入样本的背景特征;基于所述重构网络对所述背景特征重构得到所述重构背景数据;所述获取所述背景数据与所述重构背景数据之间的重构损失,包括:获取所述背景数据与所述重构背景数据之间的距离;通过基于距离度量的损失函数和所述距离,计算所述重构损失。4.根据权利要求1所述的方法,其特征在于,所述初始视频分类模型包括特征提取器、域判别器和分类器,所述基于所述源域视频输入样本的特征进行分类得到初始视频分类模型,包括;通过所述特征提取器获取所述源域视频输入样本的特征;通过所述分类器对特征进行分类;获取分类损失,所述分类损失用于所述迭代训练所述初始视频分类模型和各私有网络;所述获取所述初始视频分类模型提取的所述源域和至少一个目标域的视频输入样本的特征数据,包括:通过所述特征提取器得到所述源域和至少一个目标域的视频输入样本的初始特征数据;根据所述域判别器对所述初始特征数据进行对抗训练,得到对抗训练后的目标特征数据;根据所述分类器得到所述目标特征数据的视频分类;获取所述域判别器的对抗训练损失,所述对抗训练损失用于所述迭代训练所述初始视
频分类模型和各所述私有网络。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:构建特征来源分类器,根据所述特征来源分类器确定输入特征的来源标识,其中,所述来源标识用于确定所述输入特征的来源是初始视频分类模型或私有网络;获取所述特征来源分类器的来源分类损失,所述来源分类损失用于所述迭代训练所述初始视频分类模型和各所述私有网络。6.根据权利要求1所述的方法,其特征在于,所述迭代训练所述初始视频分类模型和各所述私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,包括:基于损失函数获取训练损失,根据所述训练损失得到所述迭代停止条件;根据所述训练损失反向传播计算所述损失函数的梯度,更新所述损失函数;在所述训练损失稳定的情况下,满足所述迭代停止条件,得到所述领域通用的目标视频分类模型。7.一种领域自适应装置,其特征在于,所述装置包括:视频分类模块,用于获取源域和至少一个目标域的视频输入样本,基于所述源域视频输入样本的特征进行分类得到初始视频分类模型;私有网络模块,用于构建至少两个私有网络,所述私有网络用于分别获取各所述领域视频输入样本的语义无关信息特征;均值差异模块,用于获取所述初始视频分类模型提取的所述源域和至少一个目标域的视频输入样本的特征数据,获取所述视频分类模型和各所述私有网络提取的特征分布距离的最大均值差异,对所述最大均值差异进行最大化处理,得到公共语义信息特征;迭代训练模块,用于迭代训练所述初始视频分类模型和各所述私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据所述目标视频分类模型进行视频分类。8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
技术总结
本申请涉及一种领域自适应的视频分类方法、装置、设备、介质和产品。方法包括:获取源域和至少一个目标域的视频输入样本,基于源域视频输入样本的特征进行分类得到初始视频分类模型;构建至少两个私有网络,私有网络用于分别获取各领域视频输入样本的语义无关信息特征;获取初始视频分类模型提取的源域和至少一个目标域的视频输入样本的特征数据,获取视频分类模型和各私有网络提取特征的特征分布距离,对特征分布距离进行最大化处理并计算最大均值差异,得到公共语义信息特征;迭代训练初始视频分类模型和各私有网络,在满足迭代停止条件时,得到领域通用的目标视频分类模型,根据目标视频分类模型进行视频分类,有利于提高领域适应性和准确度。领域适应性和准确度。领域适应性和准确度。
技术研发人员:饶竹一 高圣溥
受保护的技术使用者:深圳供电局有限公司
技术研发日:2023.04.17
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种门框喷漆用油漆回收处理系统及其回收方法与流程 下一篇:晶体管的制作方法