一种视频文本检索方法、电子设备及介质
未命名
09-14
阅读:179
评论:0

1.本发明涉及一种信息检索技术领域,尤其是涉及一种视频文本检索方法、电子设备及介质。
背景技术:
2.近来,网络与多媒体技术迅速发展,人们对流媒体的需求量日益增加。在网络基础设施的建设下,图像、音频、视频等多媒体信息的交流愈发便捷。而对于日益增加的多媒体信息量,人们对视频信息也开始应接不暇,难以从大量信息中迅速筛选出自己需要的信息,这使得视频文本检索成为一个重要的研究方向。如何依照一个文本查询,在包含大量视频的库中检索得到最合适的结果,依赖于合适的视频文本相似度度量方式。如果有一个合适的相似度度量方式,则只需要将相似度最高的结果作为检索结果即可。因此,视频文本检索的主要挑战是寻找一个合适的视频文本相似度度量方法。
3.目前在深度学习技术高速发展下,深度卷积网络cnn模型技术已被验证能很好地处理复杂的视觉任务,而循环神经网络rnn则被验证能很好地处理复杂的语言理解任务。基于这两大技术的发展,人们已经将深度学习很好地应用到了视频文本检索任务。如最常见的框架下,分别通过cnn和rnn,将视频信息和文本信息映射到一个共同的高维空间中,再通过欧氏距离或是余弦距离等进行两者相似度的度量。针对视频文本检索任务,研究者提出了多种基于不同深度学习技术的框架和模型,包括使用基于图神经网络进行关系建模的视频文本检索算法、基于transformer进行层次对齐的视频文本检索算法、基于局部特征对齐的视频文本检索算法以及基于大规模预训练模型的视频文本检索算法。尽管现有技术基于深度学习的视频文本检索算法发展迅速,但仍存在检索性能不理想,运行开销较大的问题。
技术实现要素:
4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种视频文本检索方法、电子设备及介质,本发明能够能够有效地捕获视频和文本中的重要事件信息,在不丢弃细粒度信息的前提下去除冗余信息,能够优化模型监督信号准确性;在msrvtt数据集上的测试实验结果表明,与现有技术相比,在计算复杂度相近的情况下,本发明的检索性能提升较大。
5.本发明的目的可以通过以下技术方案来实现:
6.根据本发明的第一个方面,本发明提供一种视频文本检索方法,将待检索的文本和视频集输入预先构建并训练后的视频文本检索模型中,获得文本与视频集中各视频的相似度,并以相似度最高的视频作为文本检索的结果;
7.所述视频文本检索模型包括:
8.初始特征提取模块:分别对输入文本和输入视频进行提取,生成初始文本特征和初始视频特征;
9.事件特征提取模块:包括非线性事件激励层和加权平均层,初始文本特征和初始
视频特征分别通过对应的非线性事件激励层,得到第一匹配分数和第二匹配分数,第一匹配分数用以反映初始文本特征与模型关注事件的匹配程度,第二匹配分数用以反映初始视频特征与模型关注事件的匹配程度,第一匹配分数与初始文本特征经加权平均层处理后,得到事件文本特征,第二匹配分数与初始视频特征经加权平均层处理后,得到事件视频特征;
10.视频文本特征对齐模块:通过跨模态自注意力机制分别对事件文本特征和事件视频特征进行重建,以获得自适应语义对齐的重建视频特征和重建文本特征,输出各重建视频特征和重建文本特征的相似度。
11.优选地,所述初始特征提取模块包括预训练的bert网络和vit网络,通过预训练的bert网络对输入文本进行特征提取,生成初始文本特征;通过预训练的vit网络对输入视频的各视频帧进行特征提取,随后通过多层transformer模型获取视频帧特征的时序信息,进而获得初始视频特征。
12.优选地,描述第一匹配分数和第二匹配分数的公式为:
[0013][0014][0015]
式中,为第一匹配分数,为第二匹配分数,κ为控制分布锐度的参数,为视频输入的非线性事件激励层,为文本输入的非线性事件激励层,tj为第j个文本样本,n
t
为数据集中文本样本的数量,i和j为索引,vj为第j个视频样本,nv为数据集中视频样本的数量。
[0016]
优选地,描述跨模态自注意力机制重建过程的公式为:
[0017][0018][0019]
式中,和分别为重建视频特征和重建文本特征,kv和k
t
分别为视频关键特征数量和文本关键特征数量,τ为温度系数,为第i个视频的事件视频特征的转置,为第i个文本事件文本特征的转置,为第j个视频的事件视频特征,为第j个文本的事件文本特征。
[0020]
优选地,描述重建视频特征和重建文本特征的相似度的公式为:
[0021]
[0022]
优选地,在视频文本检索模型的训练过程中,通过余弦衰减的阈值优化各输入视频文本对的样本属性,并根据优化结果,基于双向的infonce作为损失函数优化模型l。
[0023]
优选地,描述余弦衰减的阈值的计算公式为:
[0024]
λ=λ
end-(λ
end-λ
start
)
·
cos(l+pπ)
[0025]
式中,p为训练进程百分比,λ为阈值,λ
end
和λ
start
分别为训练开始和训练结束时的阈值。
[0026]
优选地,损失函数的计算公式为:
[0027][0028][0029][0030]
其中,n为数据集样本对数量,l
v2t
为以视频样本作为查询样本的infonce损失函数,l
t2v
为为以文本样本作为查询样本的infonce损失函数,n
vi
表示以第i个视频作为查询得到的负样本集,n
ti
表示以第i个文本作为查询得到的负样本集,t
neg
是负样本集n
vi
中包含的文本负样本,v
neg
是负样本集n
ti
中包含的视频负样本。
[0031]
根据本发明的第二个方面,本发明提供一种电子设备,包括:
[0032]
一个或多个处理器;存储器;和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的视频文本检索方法的指令。
[0033]
根据本发明的第三个方面,本发明提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的视频文本检索方法的指令。
[0034]
与现有技术相比,本发明具有以如下有益效果:
[0035]
(1)本发明通过设置非线性事件激励层强化关键事件特征的抽取,能够有效捕获原始特征中的关键事件,避免无关噪声的干扰,进而提升模型抽取特征的质量。
[0036]
(2)本发明采用基于跨模态自注意力机制的特征重建,通过计算视频文本事件特征之间的匹配分数,重建视频和文本特征,从而自适应对齐跨模态信息,使得视频文本相似度的计算更为合理。
[0037]
(3)本发明通过余弦衰减的阈值和样本置信度联合判断样本属性,能够有效地剔除伪负例样本,从而使得模型得到更准确的监督信号。
附图说明
[0038]
图1为本实施例提供的一种视频文本检索方法的视频文本检索模型的结构示意图。
具体实施方式
[0039]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案
为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0040]
本实施例提供一种视频文本检索方法,包括以下步骤:
[0041]
s1:获取n个视频文本对作为训练集,每个视频均只与一个文本语义相关,将语义相关的视频文本对作为正样本,将语义无关的视频文本对作为负样本。
[0042]
s2:构建视频文本检索模型,将s1获取的训练集输入到构建好的视频文本检索模型中进行训练,得到训练好的视频文本检索模型。
[0043]
具体地,参考图1所示,视频文本检索模型包括初始特征提取模块、事件特征提取模块和视频文本特征对齐模块。
[0044]
其中,初始特征提取模块:分别对输入文本和输入视频进行提取,生成初始文本特征和初始视频特征。
[0045]
作为一种可选的实施方式,初始特征提取模块包括预训练的bert网络和vit网络,通过预训练的bert网络对输入文本进行特征提取,生成初始文本特征,初始文本特征包括n
t
个单词特征t;通过预训练的vit网络对输入视频的各视频帧进行特征提取,通过多层transformer模型获取视频帧特征的时序信息,进而获得初始视频特征,初始视频特征包括nv个视频帧特征v。
[0046][0047][0048]
事件特征提取模块:包括非线性事件激励层和加权平均层,初始文本特征和初始视频特征分别通过对应的非线性事件激励层,得到第一匹配分数和第二匹配分数,第一匹配分数用以反映初始文本特征与模型关注事件的匹配程度,第二匹配分数用以反映初始视频特征与模型关注事件的匹配程度,第一匹配分数与初始文本特征经加权平均层处理后,得到事件文本特征,第二匹配分数与初始视频特征经加权平均层处理后,得到事件视频特征。
[0049]
描述第一匹配分数和第二匹配分数的公式为:
[0050][0051][0052]
式中,为第一匹配分数,为第二匹配分数,k为控制分布锐度的参数,为视频输入的非线性事件激励层,为文本输入的非线性事件激励层,tj为第j个文本样本,n
t
为数据集中文本样本的数量,i和j为索引,vj为第j个视频样本,nv为数据集中视频样本的数量。
[0053]
描述事件文本特征和事件视频特征的公式为:
[0054]
[0055][0056]
式中,为第i个文本的事件文本特征,为第i个视频的事件视频特征
[0057]
通过将初始文本特征和事件视频特征分别输入到对应的非线性事件激励层,能够在不丢失细粒度信息的前提下,尽可能使得模型关注重要事件的特征,分别剔除视频和文本中普遍存在的背景信息、噪声信息和重复信息,剔除的信息对应的匹配分数较低。
[0058]
视频文本特征对齐模块:通过跨模态自注意力机制分别对事件文本特征和事件视频特征进行重建,以获得自适应语义对齐的重建视频特征和重建文本特征,输出各重建视频特征和重建文本特征的相似度。
[0059]
描述跨模态自注意力机制重建过程的公式为:
[0060][0061][0062]
式中,和分别为重建视频特征和重建文本特征,kv和k
t
分别为视频关键特征数量和文本关键特征数量,τ为温度系数,为的转置,为的转置,为第j个视频的事件视频特征,为第j个文本的事件文本特征。
[0063]
重建视频特征和重建文本特征后,由于跨模态自注意力的性质,可以保证重建特征与原始的事件特征在语义层面是对齐的,从而可以直接对应元素计算点积并求均值来获得视频文本的整体相似度,具体计算方法如下:
[0064][0065]
在训练过程中,为了避免模型将语义相似的样本对视作负样本对学习,本实施例通过余弦衰减的阈值和样本置信度联合判断样本属性,能够有效地剔除伪负例样本,从而使得模型得到更准确的监督信号。
[0066]
具体地,描述余弦衰减的阈值的计算公式为:
[0067]
λ=λ
end-(λ
end-λ
stan
)
·
cos(1+pπ)
[0068]
式中,p为训练进程百分比,λ为阈值,λ
end
和λ
start
分别为训练开始和训练结束时的阈值。
[0069]
基于余弦衰减的阈值,优化后的负样本集nq如下:
[0070][0071]
其中,n为原始负样本集,q为查询样本,p为样本库中的样本。
[0072]
该阈值在训练前期设定较高,防止模型前期训练不稳定,后期设定则较低,尽可能
避免模型由于错误监督信号造成性能退化。
[0073]
基于计算得到的视频文本相似度以及优化后的负样本集合,采用双向的infonce作为损失函数优化模型l,计算方法为:
[0074][0075][0076][0077]
其中,n为数据集样本对数量,l
v2t
为以视频样本作为查询样本的infonce损失函数,l
t2v
为为以文本样本作为查询样本的infonce损失函数,n
vi
表示以第i个视频作为查询得到的负样本集,n
ti
表示以第i个文本作为查询得到的负样本集,t
neg
是负样本集n
vi
中包含的文本负样本,v
neg
是负样本集n
ti
中包含的视频负样本。
[0078]
s3:待检索的文本和视频集输入预先构建并训练后的视频文本检索模型中,获得文本与视频集中各视频的相似度,并以相似度最高的视频作为文本检索的结果。
[0079]
为了验证本发明的性能,设计了以下实验。
[0080]
实验在视频文本检索基准数据集将该发明模型(ate)与其他模型进行了对比实验。其中clip2video是目前效果最好的方法之一,本发明与其相比仍具有一定的精度优势,如表1所示。
[0081]
表1视频文本检索数据集上ate模型与其他模型的对比实验结果
[0082][0083][0084]
根据本发明的第二个方面,本实施例提供一种电子设备,包括:
[0085]
一个或多个处理器;存储器;和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的视频文本检索方法的指令。
[0086]
根据本发明的第三个方面,本实施例提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上任一所述的视频文本检索方法的指令。
[0087]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0088]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
技术特征:
1.一种视频文本检索方法,其特征在于,将待检索的文本和视频集输入预先构建并训练后的视频文本检索模型中,获得文本与视频集中各视频的相似度,并以相似度最高的视频作为文本检索的结果;所述视频文本检索模型包括:初始特征提取模块:分别对输入文本和输入视频进行提取,生成初始文本特征和初始视频特征;事件特征提取模块:包括非线性事件激励层和加权平均层,初始文本特征和初始视频特征分别通过对应的非线性事件激励层,得到第一匹配分数和第二匹配分数,第一匹配分数用以反映初始文本特征与模型关注事件的匹配程度,第二匹配分数用以反映初始视频特征与模型关注事件的匹配程度,第一匹配分数与初始文本特征经加权平均层处理后,得到事件文本特征,第二匹配分数与初始视频特征经加权平均层处理后,得到事件视频特征;视频文本特征对齐模块:通过跨模态自注意力机制分别对事件文本特征和事件视频特征进行重建,以获得自适应语义对齐的重建视频特征和重建文本特征,输出各重建视频特征和重建文本特征的相似度。2.根据权利要求1所述的一种视频文本检索方法,其特征在于,所述初始特征提取模块包括预训练的bert网络和vit网络,通过预训练的bert网络对输入文本进行特征提取,生成初始文本特征;通过预训练的vit网络对输入视频的各视频帧进行特征提取,随后通过多层transformer模型获取视频帧特征的时序信息,进而获得初始视频特征。3.根据权利要求1所述的一种视频文本检索方法,其特征在于,描述第一匹配分数和第二匹配分数的公式为:二匹配分数的公式为:式中,为第一匹配分数,为第二匹配分数,k为控制分布锐度的参数,为视频输入的非线性事件激励层,为文本输入的非线性事件激励层,t
j
为第j个文本样本,n
t
为数据集中文本样本的数量,i和j为索引,v
j
为第j个视频样本,n
v
为数据集中视频样本的数量。4.根据权利要求1所述的一种视频文本检索方法,其特征在于,描述跨模态自注意力机制重建过程的公式为:制重建过程的公式为:
式中,和分别为重建视频特征和重建文本特征,k
v
和k
t
分别为视频关键特征数量和文本关键特征数量,τ为温度系数,为第i个视频的事件视频特征的转置,为第i个文本事件文本特征的转置,为第j个视频的事件视频特征,为第j个文本的事件文本特征。5.根据权利要求4所述的一种视频文本检索方法,其特征在于,描述重建视频特征和重建文本特征的相似度的公式为:6.根据权利要求1所述的一种视频文本检索方法,其特征在于,在视频文本检索模型的训练过程中,通过余弦衰减的阈值优化各输入视频文本对的样本属性,并根据优化结果,基于双向的infonce作为损失函数优化模型l。7.根据权利要求6所述的一种视频文本检索方法,其特征在于,描述余弦衰减的阈值的计算公式为:λ=λ
end-(λ
end-λ
start
)
·
cos(1+pπ)式中,p为训练进程百分比,λ为阈值,λ
end
和λ
start
分别为训练开始和训练结束时的阈值。8.根据权利要求6所述的一种视频文本检索方法,其特征在于,损失函数的计算公式为:为:为:其中,n为数据集样本对数量,l
v2t
为以视频样本作为查询样本的infonce损失函数,l
t2v
为为以文本样本作为查询样本的infonce损失函数,n
vi
表示以第i个视频作为查询得到的负样本集,n
ti
表示以第i个文本作为查询得到的负样本集,t
neg
是负样本集n
vi
中包含的文本负样本,v
neg
是负样本集n
ti
中包含的视频负样本。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储器;和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1~8任一所述的视频文本检索方法的指令。10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1~8任一所述的视频文本检索方法的指令。
技术总结
本发明涉及一种视频文本检索方法,将待检索的文本和视频集输入预先构建并训练后的视频文本检索模型中,获得文本与视频集中各视频的相似度,并以相似度最高的视频作为文本检索的结果;视频文本检索模型包括:初始特征提取模块:分别对输入文本和输入视频进行提取,生成初始文本特征和初始视频特征;事件特征提取模块:用以将初始文本特征和初始视频特征分别处理得到事件文本特征和事件视频特征;视频文本特征对齐模块:通过跨模态自注意力机制分别对事件文本特征和事件视频特征进行重建,以获得自适应语义对齐的重建视频特征和重建文本特征,输出各重建视频特征和重建文本特征的相似度。与现有技术相比,本发明具有检索性能高,运行开销小等优点。运行开销小等优点。运行开销小等优点。
技术研发人员:王瀚漓 于隽韬
受保护的技术使用者:同济大学
技术研发日:2023.06.12
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种三合一无线充电器的制作方法 下一篇:一种玉米种子选育用灭菌育种柜的制作方法