一种基于视听融合效应的音视频跨模态搜索方法
未命名
09-21
阅读:66
评论:0

1.本发明属于音视频处理技术领域,更具体地,涉及一种基于视听融合效应的音视频跨模态搜索方法。
背景技术:
2.随着互联网技术的快速发展,以音频信息和视频信息为代表的多媒体数据呈现出几何式的增长。与此同时,对于不同类型的多媒体数据检索需求也与日俱增。跨模态的检索问题是该领域中重要的组成部分之一,其主要内容分为两个方面,一是不同模态信息的特征提取,二是跨模态的匹配与检索过程。
3.现有技术文件1(cn115063709a)公开了一种基于跨模态注意与分层融合的多模态情感分析方法,提取待分析视频中的文本特征、视觉特征和声学特征;将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;门控循环分层融合网络对声学模态特征、视觉模态表征和文本特征两两交互提取信息,得到一维向量,用于情感分析预测。该技术针对的是同一视频的视频、文本和音频信息,对于无先验匹配性的跨模态信息没有有效的处理,并且不能完成跨模态检索的任务。
4.现有技术文件2(cn115587332a)公开了一种基于polyvit的多模态数据分类预测模型,涉及多模态模型领域,其在第一导向模块中根据任务的类型将对应任务传输至标记器模块中对应类型的标记器,标记器模块用于对图像类型任务、视频类型任务、音频类型任务进行标记,从而得到对应类型任务的初始序列,编码器用于接收各标记器输入的初始序列,并通过其编码层对初始序列进行转换,各类型的任务均共用一个编码器,在处理图像类型任务时,编码器的编码层类似于l层的vit,在处理音频类型任务时类似于l层ast,在处理视频类型任务时类似于l层未分解的vivit。技术2也不能完成跨模态检索的任务。此外,该技术为压缩模型大小,音视频的处理采用同一套编码器,不能针对不同的模态作出相应的调整。
技术实现要素:
5.为解决现有技术中存在的不足,本发明提供一种基于视听融合效应的音视频跨模态搜索方法,基于融合特征网络的音视频跨模态情感匹配与检索的方法,分别使用audio spectrogram transformer(ast)和video visual transformer(vivit)提取音频和视频信号中的情感特征,将所提取的特征以矢量维度合并后输入到使用大边际余弦损失函数的分类器网络中,以分类标签任务作为监督目标,得到跨模态的融合特征空间,以实现基于情感的音视频匹配与检索。
6.本发明采用如下的技术方案。
7.一种基于视听融合效应的音视频跨模态搜索方法,包括:
8.步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;
9.步骤2,采用经过预训练的音频频谱图变压器网络,对经过预处理的标准输入进行
处理,提取音频的情感特征;
10.步骤3,构建视频子网络,采用视频视觉变压器结构,提取视频的情感特征;
11.步骤4,将所提取的音频和视频特征以向量维度合并后,输入到使用大边际余弦损失函数的分类器网络进行训练,得到情感标签分类;
12.步骤5,将融合特征向量作为检索的内容,将向量间的余弦距离作为匹配的指标,在素材库中搜索与目标音频/视频余弦距离最近的若干视频/音频。
13.优选地,步骤1具体包括:
14.步骤1.1,对于采样率为sr,时长为t秒的音频进行分窗;每25ms对信号加10ms的hamming窗,得到w(n);
[0015][0016]
步骤1.2,对加窗后的信号进行快速傅里叶变换,得到mel滤波器幅度谱wk;
[0017]
wk=fft(w(n))
[0018]
步骤1.3,对幅度谱进行离散余弦变换,并对结果取对数,得到音频信号的对数mel滤波器组系数m(m);
[0019][0020]
式中,k为采样点,n为总的采样点数;
[0021]
步骤1.4,将mel频谱图分割成s个16
×
16的补丁序列,所得到的序列即为音频子网络的标准输入格式。
[0022]
所述补丁序列时域和频域维度的重叠均为6,s=12[(100t-16)/10]。
[0023]
优选地,步骤2中,音频频谱图变压器网络中的补丁嵌入层将每个16
×
16的频谱图补丁线性映射为长度为768的一维嵌入;并在一维补丁之后加入长度同样为768的可训练时序嵌入层,在一维补丁开头附加类别令牌嵌入层,形成3
×
768的三组一维向量。
[0024]
优选地,步骤3中,所述视频视觉变压器结构对视频进行时空共轭分割,对于总长度为t,画面尺寸为w
×
h的原视频,首先对其进行时序分割,分割为长度为t的不重叠小块,形成时序块嵌入层;再对画面进行分割,分割成尺寸为w
×
h的不重叠小块,形成画面块嵌入层。
[0025]
优选地,步骤4中,将步骤2中得到的音频特征向量以及步骤3中得到的视频特征向量,通过直接向量拼接得到融合特征向量f:
[0026][0027]
其中,音频特征向量视频特征向量
[0028]
本发明的有益效果在于,与现有技术相比,本发明的有益效果在于:
[0029]
本发明所设计的情感标签分类明确且完善,有较强的理论支撑。
[0030]
本发明所设计的人工智能模型先进,对情感特征的提取准确率较高,在分类任务和匹配搜索任务中都有很好的表现。
[0031]
本发明适用的音、视频范围广泛,对于电影、纪录片、广告片以及纯音乐、古典乐、流行乐等都有很好的匹配检索效果。
附图说明
[0032]
图1为本发明一种基于视听融合效应的音视频跨模态搜索方法示意图;
[0033]
图2为本发明中音频子网络示意图;
[0034]
图3为本发明中视频子网络示意图。
具体实施方式
[0035]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本技术所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明的保护范围。
[0036]
一种基于视听融合效应的音视频跨模态搜索方法,如图1所示,具体包括以下步骤:
[0037]
步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;
[0038]
步骤1具体包含以下过程:
[0039]
步骤1.1,为避免频谱泄露,对于采样率为sr(默认采样率为48000hz),时长为t秒的音频进行分窗。每25ms对信号加10ms的hamming窗,得到w(n);
[0040][0041]
步骤1.2,对加窗后的信号进行快速傅里叶变换,得到mel滤波器幅度谱wk;
[0042]
wk=fft(w(n))
[0043]
步骤1.3,对幅度谱进行离散余弦变换,并对结果取对数,得到音频信号的对数mel滤波器组系数m(m)。所有m(m)构成信号的mel频谱图,维度为256
×
100t;
[0044][0045]
式中,k为采样点,n为总的采样点数。
[0046]
步骤1.4,将mel频谱图分割成s个16
×
16(时域长度
×
频域长度)的补丁序列,时域和频域维度的重叠均为6,则s=12[(100t-16)/10],所得到的序列即为音频子网络的标准输入格式;
[0047]
通过以上的预处理流程,本模型可以处理任意长度的音频,使得音频的时序信息不会因为长度差异造成畸变,大大提高了模型的泛化能力。
[0048]
步骤2,采用经过预训练的音频频谱图变压器网络,对经过预处理的标准输入进行处理,提取音频的情感特征;
[0049]
步骤2中,音频频谱图变压器网络(ast)由补丁嵌入层、编码器、解码器以及分类器构成。
[0050]
补丁嵌入层:将每个16
×
16的频谱图补丁线性映射为长度为768的一维嵌入;并在一维补丁之后加入长度同样为768的可训练时序嵌入层,在一维补丁开头附加类别令牌嵌入层,形成3
×
768的三组一维向量;
[0051]
编码器对补丁嵌入层进行点积操作,并通过自注意力完成编码。记编码器块嵌入序列矩阵为q,关键词矩阵记为k,矩阵维度为dk,权重矩阵记为w,内容值矩阵记为v,取多头
点积注意力的模数n
head
=256,自注意力模型由下式给出;
[0052]
qi=qwiq,ki=kwik,vi=vw
iv
,i=1,...,256
[0053][0054]
headi=attention(head
i-1
,xi)
[0055]
解码器对自注意力编码层进行自注意力解码,解码过程中取多头点积注意力模数为256;
[0056]
以上所有结构通过分类任务进行大规模预训练,得到的音频情感特征有较高的代表性。
[0057]
步骤3,构建视频子网络,采用视频视觉变压器结构,提取视频的情感特征;
[0058]
步骤3中的视频视觉变压器(vivit)结构对视频进行时空共轭分割,对于总长度为t,画面尺寸为w
×
h的原视频,首先对其进行时序分割,分割为长度为t的不重叠小块,形成时序块嵌入层;再对画面进行分割,分割成尺寸为w
×
h的不重叠小块,形成画面块嵌入层。对时序块和画面块嵌入层分别进行,在编码器阶段采用共轭分解的方式,所需的计算量更少,将复杂度由降低至提高了模型效率。
[0059]
步骤4,将所提取的音频和视频特征以向量维度合并后,输入到使用大边际余弦损失函数的分类器网络进行训练,得到情感标签分类;
[0060]
步骤4中将步骤2中得到的音频特征向量以及步骤3中得到的视频特征向量通过直接向量拼接得到融合特征向量f,
[0061][0062]
f可以在形式不变的情况下,同时表征音频和视频两种模态的情感特征,可以作为分类器网络的输入;分类器网络中所用到的大边际余弦损失函数l
lmc
由下式给出:
[0063][0064]
s=||x||
[0065][0066]
其中,xi为融合特征向量,pi为xi被分类正确的后验概率,n为训练集数量,wj为分类器的权重向量,θj为wj与x在特征空间的角度,m为边际超参量;训练过程中m可根据实际任务在[0,1)的范围内调整;
[0067]
利用大边际余弦损失函数进行的分类任务学习,每次更新融合特征模型的权重值,得到更优的匹配模型;
[0068]
设计的情感标签基于美国心理学家普拉特切克的情绪三维模式,强调情感在性质、强度所存在的向背两极状态(情感两极性)并不是各站一端,截然对立,而是在一个连续体上的向背两极变化。以惊奇-快乐-紧张-悲痛-恐惧-愤怒-平静,构成七种情绪的过渡闭环。
[0069]
步骤5,将融合特征向量作为检索的内容,将向量间的余弦距离作为匹配的指标,在素材库中搜索与目标音频/视频余弦距离最近的若干视频/音频。
[0070]
步骤5中余弦距离计算方法由下式给出:
[0071][0072]
其中f为所给内容的融合特征向量,fr为素材库中待检索素材的融合特征向量;设定临界差距s,便利素材库,则检索结果有:
[0073]
output=list(r|cos(f,fr)≤s)
[0074]
得到与所给内容余弦距离最近的若干视频/音频。
[0075]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0076]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0077]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0078]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0079]
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
技术特征:
1.一种基于视听融合效应的音视频跨模态搜索方法,其特征在于,包括:步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;步骤2,采用经过预训练的音频频谱图变压器网络,对经过步骤1预处理的标准输入进行处理,提取音频的情感特征;步骤3,构建视频子网络,采用视频视觉变压器结构,提取视频的情感特征;步骤4,将所提取的音频和视频特征以向量维度合并后,输入到使用大边际余弦损失函数的分类器网络进行训练,得到情感标签分类;步骤5,将融合特征向量作为检索的内容,将向量间的余弦距离作为匹配的指标,在素材库中搜索与目标音频/视频余弦距离最近的视频/音频。2.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:步骤1具体包括:步骤1.1,对于采样率为sr,时长为t秒的音频进行分窗;每25ms对信号加10ms的hamming窗,得到w(n);步骤1.2,对加窗后的信号进行快速傅里叶变换,得到mel滤波器幅度谱w
k
;w
k
=fft(w(n))步骤1.3,对幅度谱进行离散余弦变换,并对结果取对数,得到音频信号的对数mel滤波器组系数m(m);式中,k为采样点,n为总的采样点数;步骤1.4,将mel频谱图分割成s个16
×
16的补丁序列,所得到的序列即为音频子网络的标准输入格式。3.根据权利要求2所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:所述补丁序列的时域和频域维度的重叠均为6,s=12[(100t-16)/10]。4.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:步骤2中,音频频谱图变压器网络中的补丁嵌入层将每个16
×
16的频谱图补丁线性映射为长度为768的一维嵌入;并在一维补丁之后加入长度同样为768的可训练时序嵌入层,在一维补丁开头附加类别令牌嵌入层,形成3
×
768的三组一维向量。5.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:步骤3中,所述视频视觉变压器结构对视频进行时空共轭分割,对于总长度为t,画面尺寸为w
×
h的原视频,首先对其进行时序分割,分割为长度为t的不重叠小块,形成时序块嵌入层;再对画面进行分割,分割成尺寸为w
×
h的不重叠小块,形成画面块嵌入层。6.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在
于:步骤4中,将步骤2中得到的音频特征向量以及步骤3中得到的视频特征向量,通过向量拼接得到融合特征向量f:其中,音频特征向量视频特征向量7.一种终端,包括处理器及存储介质;其特征在于:所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据权利要求1-6任一项所述方法的步骤。8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
技术总结
一种基于视听融合效应的音视频跨模态搜索方法,对于用户给出的音频或视频,本发明可以通过训练好的人工智能网络,进行跨模态的搜索,即通过音频搜索视频或通过视频搜索音频。对于输入的其进行情感特征的提取,并以特征向量的余弦距离在素材库中进行搜索。本发明可以适配目前常见音视频格式的要求,内容上视频适用场景包括电影、纪录片、广告片等,音频适用场景包括古典乐、流行乐、爵士乐等。爵士乐等。爵士乐等。
技术研发人员:沈勇 刘天宇 孙戈非 冯雪磊 刘紫赟
受保护的技术使用者:南京大学
技术研发日:2023.06.21
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/