视频热区先验预测方法和系统与流程

未命名 08-22 阅读:65 评论:0


1.本技术涉及目标检测的技术领域,具体涉及视频热区先验预测方法和系统及电子设备。


背景技术:

2.视频热区是指在交互式视频中,标记或指示用户可以点击或交互的区域。视频热区通常是通过在视频中添加超链接、按钮、交互式图标等方式实现互动。在视频广告中,视频热区预测可以帮助广告商确定广告投放的位置,从而提高广告的曝光率和点击率。因此,视频热区预测具有一定的实际意义。
3.目前,相关技术在进行视频热区的预测时,整个视频会被看作一个整体,基于视频的整体特征,计算每一帧图像的视觉注意力,再筛选出可能的视频热区。
4.在相关技术中,由于计算机的运算能力有限,在对每一帧图像进行处理时,由于计算量较大,从而导致只能预测出一个范围较大的视频热区,预测的结果较为粗略,精度不高。因此,需要一种方法能够提高视频热区预测的准确性。


技术实现要素:

5.本技术提供视频热区先验预测方法和系统,通过对视频帧进行切分处理,并在后续进行相应地处理,从而达到提高视频热区预测的准确性的效果。
6.在本技术的第一方面提供了视频热区先验预测方法,所述方法应用于系统,包括:将待处理视频转换成多个视频帧;对第一视频帧进行切割处理,得到多个图像块,所述第一视频帧为多个所述视频帧中的任意一个;对第一图像块进行展平和线性变换,得到第一特征向量,所述第一图像块为多个所述图像块中的任意一个;对所述第一特征向量添加位置信息,得到第一输入向量;将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组;基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值;判断所述相关度值与预设的第一阈值的大小关系,若判断出所述相关度值小于或等于所述第一阈值,则确定所述第一图像块对应的视频区域为视频热区。
7.通过采用上述技术方案,首先,服务器对视频帧进行切割处理,可以得到多个图像块,通过多个图像块进行单独处理减少计算机每次的计算量。每个图像块都代表了视频中的一个局部区域,切分处理也可以更精细地分析每个局部区域的特征信息,从而更准确地判断视频热区。而服务器对图像块进行展平和线性变换,得到更具有区分度的特征向量,能够有效降低运算量,并便于后续加入位置信息。最后,服务器按照预设方式对多个输入向量进行拼接时,可以将多个时间点的特征向量沿时间轴方向进行拼接,得到一个更加丰富和完整的特征标识,更好地反映出视频序列中的时间信息和动态变化,达到提高视频热区预
测的准确性的效果。
8.可选的,所述对所述第一特征向量添加位置信息,得到第一输入向量,具体包括:生成与所述第一特征向量对应的第一位置向量;将所述第一位置向量与所述第一特征向量相加,得到所述第一输入向量。
9.通过采用上述技术方案,服务器生成与所述第一特征向量对应的第一位置向量,可以将位置信息与特征信息结合起来。位置向量可以提供有关图像块在视频中所处位置的信息,这有助于计算机更好地理解视频内容,从而更准确地判断热区。
10.可选的,所述将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组,具体包括:获取多个视频帧中同一位置的多个所述第一输入向量;将多个所述第一输入向量按照第一维度进行concat拼接,得到所述第一向量组,所述第一维度为时间维度。
11.通过采用上述技术方案,通过获取多个输入向量,并将其按照时间维度进行拼接,可以得到更加丰富和完整的特征表示,更好地反映视频序列中的时间信息和动态变化,从而提高视频热区预测的准确性。
12.可选的,所述对所述第一特征向量添加位置信息,得到第一输入向量,具体还包括:对所述第一特征向量进行局部特征提取,得到第一局部向量;对所述第一局部向量进行降维处理,得到第二局部向量;对所述第二局部向量添加位置信息,得到所述第一输入向量。
13.通过采用上述技术方案,视频分辨率较高时,多个第一输入向量拼接后会导致维度过长,后续计算时会占用计算机大量的内存,通过进行局部特征提取和降维处理能够有效降低计算量。
14.可选的,所述基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值之前,所述方法还包括:基于三个线性函数,将所述第一输入向量进行线性变换,分别得到第一向量、第二向量以及第三向量;基于所述第一向量、所述第二向量以及所述第三向量,计算邻接矩阵。
15.通过采用上述技术方案,服务器计算邻接矩阵可以建立视频中不同位置之间的联系,从而更好地理解视频内容。邻接矩阵可以表示不同位置之间的相似度或者关系,从而为后续的热区预测提供更加准确的参考。
16.可选的,所述基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值,具体包括:对所述邻接矩阵进行取反操作,得到第一矩阵;将所述第一矩阵与位置向量相乘,得到输出特征向量;对任意两个相邻的所述输出特征向量进行相关度计算,得到所述相关度值。
17.通过采用上述技术方案,为了更好地表示不同区域之间的重要程度,可以对邻接矩阵进行取反,即将原本的0和1互换。这样,原本边缘或纹理等特征强的区域在取反后就变成了重要程度高的区域,而原本边缘或纹理等特征弱的区域在取反后就变成了重要程度低
的区域。
18.可选的,所述确定所述第一图像块对应的视频区域为视频热区之后,所述方法还包括:对所述视频区域按照预设方式进行标记;基于所述位置信息和所述标记,在所述待处理视频中标记所述视频热区。
19.通过采用上述技术方案,服务器对视频热区进行标记,便于后续用户获取视频热区并进行相应处理。
20.在本技术的第二方面提供了视频热区先验预测系统,所述系统安装于服务器,包括视频处理模块、线性变换模块、位置嵌入模块、拼接模块以及处理模块,其中:所述视频处理模块用于将待处理视频转换成多个视频帧;对第一视频帧进行切割处理,得到多个图像块,所述第一视频帧为多个所述视频帧中的任意一个;所述线性变换模块用于对第一图像块进行展平和线性变换,得到第一特征向量,所述第一图像块为多个所述图像块中的任意一个;所述位置嵌入模块对所述第一特征向量添加位置信息,得到第一输入向量;所述拼接模块用于将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组;所述处理模块用于基于所述向量组,计算任意两个相邻的所述第一输入向量的相关度值;判断所述相关度值与预设的第一阈值的大小关系,若判断出所述相关度值小于或等于所述第一阈值,则确定所述第一图像块对应的视频区域为视频热区。
21.在本技术的第二方面提供了一种电子设备,包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项所述的方法。
22.在本技术的第三面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行上述1-7任意一项所述的方法步骤。
23.综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:1.服务器对视频帧进行切割处理,可以得到多个图像块,通过多个图像块进行单独处理减少计算机每次的计算量。每个图像块都代表了视频中的一个局部区域,切分处理也可以更精细地分析每个局部区域的特征信息,从而更准确地判断视频热区。
24.2.服务器对图像块进行展平和线性变换,得到更具有区分度的特征向量,能够有效降低运算量,并便于后续加入位置信息。
25.3.服务器按照预设方式对多个输入向量进行拼接时,可以将多个时间点的特征向量沿时间轴方向进行拼接,得到一个更加丰富和完整的特征标识,更好地反映出视频序列中的时间信息和动态变化,达到提高视频热区预测的准确性的效果。
附图说明
26.图1是本技术实施例公开的视频热区先验预测方法的流程示意图;图2是本技术实施例公开的视频热区先验预测系统的结构示意图;
图3是本技术实施例公开的一种电子设备的结构示意图。
27.附图标记说明:201、视频处理模块;202、线性变换模块;203、位置嵌入模块;204、拼接模块;205、处理模块;301、处理器;302、通信总线;303、用户接口;304、网络接口;305、存储器。
具体实施方式
28.为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
29.在本技术实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
30.在本技术实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
31.在视频直播中,视频热区预测可以帮助主播更好地了解观众的兴趣和需求,从而提高直播的互动性和满意度。目前,基于视觉注意力的技术在进行视频热区的预测时,整个视频会被看作一个整体,基于视频的整体特征,计算每一帧图像的视觉注意力,再筛选出可能的视频热区。由于服务器的运算能力有限,在对每一帧图像进行处理时,由于计算量较大,从而导致只能预测出一个范围较大的视频热区,预测的结果较为粗略,精度不高。因此,需要一种方法能够提高视频热区预测的准确性。
32.本实施例公开了视频热区先验预测方法,参照图1,包括如下步骤:s110,将待处理视频转换成多个视频帧。
33.s120,对第一视频帧进行切割处理,得到多个图像块,第一视频帧为多个所述视频帧中的任意一个。
34.具体地,按照视频帧率,视频处理模块201将待处理视频转换为视频帧。在对每一帧进行patch处理,将一个大的视频帧分割成多个大小相同的图像块,切割的数量可根据视频帧的尺寸确定。每个图像块都是独立的处理单元,可以分别进行处理。这种处理方式可以避免在大尺寸图像上进行耗时的计算,同时还可以提高算法的精度和鲁棒性,因为每个小块的特征更加明显和准确。
35.s130,对第一图像块进行展平和线性变换,得到第一特征向量,第一图像块为多个图像块中的任意一个。
36.具体地,将切割处理后的图像块输入线性变换模块202,对于线性变换模块202,本实施例优选为linear模块,linear模块也被称为全连接层或线性层。它的作用是将输入张量进行线性变换,并添加偏置项。linear模块通常用于神经网络中的前向传播过程,用于实
现从输入特征到输出特征的映射。
37.linear模块对图像块进行展平处理。由于一个图像块通常是由多个像素点组成的。每个像素点都有其对应的像素值,表示该点的亮度、颜色等信息。在进行图像处理和特征提取时,通常需要将一个图像转化为一个向量,以便进行数学运算和机器学习等操作。而将一个图像转化为向量的过程中,就需要将图像中的每个像素点展平成一个标量,然后将这些标量按照一定的顺序排列成一个向量。因此,linear模块将图像块中的所有像素点按照一定的顺序展开成一个一维向量。展平之后,该图像块中的所有像素点的信息都被编码成了一个向量,可以用于后续的线性变换等操作。
38.linear模块再对展平之后的一维向量进行线性变换得到特征向量,线性变换是指将一个向量通过矩阵乘法的方式映射到另一个向量空间中的过程。在进行图像特征提取时,通常会对展平后的一维向量进行线性变换,以提高其表达能力和区分度。
39.举例来说,对于一个大小为h
×
w的图像块,linear模块将其展平为一个长度为h
×
w的向量,然后对这个向量进行线性变换,将其转换为一个维度为d的特征向量。
40.s140,对第一特征向量添加位置信息,得到第一输入向量。
41.在一种可能的实施方式中,对第一特征向量添加位置信息,得到第一输入向量,具体包括:生成与第一特征向量对应的第一位置向量。将第一位置向量与第一特征向量相加,得到第一输入向量。
42.具体地,将多个输入向量传入位置嵌入模块203,本实施例中,位置嵌入(position embedding)模块用于将序列中每个位置的信息编码成一个向量,将位置信息编码到模型中可以提高模型的准确度和泛化能力。
43.position embedding模块为每个特征向量添加位置编码,从而以便模型能够更好地理解每个图像块在整个视频中的位置。具体来说,对于每个特征向量,position embedding模块会生成一个与其特征维度相同的位置向量,该位置向量会与特征向量相加,以融合位置信息,进而得到输入向量。
44.在一种可能的实施方式中,对第一特征向量添加位置信息,得到第一输入向量,具体还包括:对第一特征向量进行局部特征提取,得到第一局部向量。对第一局部向量进行降维处理,得到第二局部向量。对第二局部向量添加位置信息,得到第一输入向量。
45.具体地,如果视频帧的分辨率较高,在处理模块205中,输入的向量组可能会非常大,这会导致在后续计算attention分数时需要占用大量的计算和内存资源。因此,为了解决这个问题,可以在对多个图像块进行展平并进行线性变换之后使用卷积神经网络(cnn)对特征向量进行处理,以提取局部特征并降低维度,从而减少计算和内存开销。
46.使用一个带有卷积层和池化层的cnn来对特征向量进行处理。卷积层可以提取局部特征,而池化层可以将特征进行降维,从而减少特征向量的长度。通过堆叠多个卷积层和池化层,可以逐渐提取高层次的抽象特征,并将特征向量的长度进一步缩短。最终,可以将处理后的向量传递给处理模块205,以便进行后续的处理。
47.s150,将多个第一输入向量按照预设方式进行拼接,得到第一向量组。
48.在一种可能的实施方式中,将多个第一输入向量按照预设方式进行拼接,得到第一向量组,具体包括:获取多个视频帧中同一位置的多个第一输入向量。将多个第一输入向量按照第一维度进行concat拼接,得到第一向量组,第一维度为时间维度。
49.具体地,position embedding模块将特征向量与对应的位置向量相加后,得到的输入向量融合了每个图像块的位置信息。拼接模块204根据位置信息获取多个视频帧中,同一位置的输入向量。将同一位置的多个输入向量按照时间维度进行concat拼接,得到时间顺序的向量组。concat拼接是指将两个或多个向量沿着某个维度进行拼接合并成一个新的向量。在深度学习中,concat操作常常用于神经网络模型中不同层次的特征合并和信息融合,以便于提高模型的性能和泛化能力。不同位置的多个向量进行拼接得到多个向量组。
50.在一种可能的实施方式中,基于第一向量组,计算任意两个相邻的第一输入向量的相关度值之前,方法还包括:基于三个线性函数,将第一输入向量进行线性变换,分别得到第一向量、第二向量以及第三向量。基于第一向量、第二向量以及第三向量,计算邻接矩阵。
51.具体地,处理模块205获取向量组,基于query linear、key linear以及value linear,将输入向量进行线性变换,计算第一向量、第二向量以及第三向量,其中,第一向量优选为query向量,第二向量优选为key向量,第三向量优选为value向量。在自注意力机制中,输入经过线性变换后得到的向量会被分别用于计算query向量、key向量和value向量。其中,query向量用于计算每个位置与其他位置之间的相似度,key向量用于表示每个位置的特征信息,value向量用于对每个位置的特征信息进行加权求和。这种分别计算query、key和value向量的方式,使得自注意力机制能够更好地捕捉输入序列中的关系,从而提高模型的性能。
52.本实施例中,处理模块205优选为transformer模块,transformer模块是一种基于自注意力机制(self-attention mechanism)的神经网络模型,用于解决自然语言处理中的序列建模问题。相较于传统的循环神经网络和卷积神经网络,transformer在处理长序列时具有更好的效果和更快的速度。
53.transformer模块通过多次堆叠相同的编码器(encoder)构成,每个解码器由三部分组成:self-attention、全连接网络和残差连接。其中,self-attention用于计算每个向量与其它向量之间的相关度,全连接网络用于对每个特征向量进行线性变换,而残差连接则用于保留原始特征向量的信息,避免信息损失。通过多次堆叠编码器,模型可以逐步提取视频序列中的关键信息,并在最后一层编码器中得到包含视频序列所有信息的向量。这样做可以帮助模型更好地理解视频帧序列中的关键信息,实现更准确的视频热区预测。
54.具体地,通过query向量和key向量计算attention分数,公式如下:其中,a表示attention分数,q表示query向量,k表示key向量,v表示value向量,“^t”表示矩阵的转置操作,dk表示key向量的维度。q和k的点乘表示query向量和key向量之间的相似程度,通过softmax将q和k的结果进行归一化,得到一个所有数值为0-1的mask矩阵,mask矩阵乘上v就能得到加权后的特征,即得到邻接矩阵。
55.s160,基于第一向量组,计算任意两个相邻的第一输入向量的相关度值。
56.在一种可能的实施方式中,基于第一向量组,计算任意两个相邻的第一输入向量的相关度值,具体包括:对邻接矩阵进行取反操作,得到第一矩阵。将第一矩阵与位置向量相乘,得到输出特征向量。对任意两个相邻的输出特征向量进行相关度计算,得到相关度
值。
57.具体地,为了更好地表示不同区域之间的重要程度,可以对邻接矩阵进行取反,即将原本的0和1互换。这样,原本边缘或纹理等特征强的区域在取反后就变成了重要程度高的区域,而原本边缘或纹理等特征弱的区域在取反后就变成了重要程度低的区域。通过取反邻接矩阵,可以更准确地衡量不同区域之间的重要程度,对于图像或视频中的目标检测、图像分割等任务具有重要的意义。通过用1减去邻接矩阵对邻接矩阵进行取反操作,由于在邻接矩阵中,每个元素都只能取0或1,而1减去1等于0,1减去0等于1,因此1减去邻接矩阵相当于将其中的0和1互换,即对邻接矩阵进行取反。
58.取反后得到的第一矩阵再与位置向量相乘,以重新为各个特征向量赋予权值,表达其在整个图像或视频中的重要程度。同时还可以为每个区域提供一些位置信息,以帮助模型更好地理解特征向量之间的关系。
59.最后,通过使用点积方法,即通过如下公式:其中,∑(xi*yi)两个第一向量x和y的内积,||x||和||y||分别为第一向量x和y的模长。通过上述公式将两个第一向量进行点积计算,从而得到二者的余弦相似度值。余弦相似度值越大,则说明这个区域越可能是目标区域。
60.s170,判断相关度值与预设的第一阈值的大小关系。若判断出相关度值小于或等于第一阈值,则确定第一图像块对应的视频区域为视频热区。
61.具体地,在同一视频区域,相关程度越低,表示该区域的变化程度越大。观看视频时,用户所关注的重点区域便是变化较大的区域,即视频热区。由此分析可以得到结论,相关性越低的区域成为热区的可能性更大。通过设定一个预设的第一阈值,当第一图像块转换的相邻两个向量的相关度值小于或等于第一阈值,表明该视频区域变化程度较大,成为视频热区的可能性较大,则确定第一图像块对应的视频区域为视频热区。
62.在一种可能的实施方式中,确定第一图像块对应的视频区域为视频热区之后,方法还包括:对视频区域按照预设方式进行标记。基于位置信息和标记,在待处理视频中标记视频热区。
63.服务器对视频热区进行标记,便于后续用户获取视频热区并进行相应处理。
64.首先,服务器对视频帧进行切割处理,可以得到多个图像块,通过多个图像块进行单独处理减少计算机每次的计算量。每个图像块都代表了视频中的一个局部区域,切分处理也可以更精细地分析每个局部区域的特征信息,从而更准确地判断视频热区。而服务器对图像块进行展平和线性变换,得到更具有区分度的特征向量,能够有效降低运算量,并便于后续加入位置信息。最后,服务器按照预设方式对多个输入向量进行拼接时,可以将多个时间点的特征向量沿时间轴方向进行拼接,得到一个更加丰富和完整的特征标识,更好地反映出视频序列中的时间信息和动态变化,达到提高视频热区预测的准确性的效果。
65.本实施例还公开了视频热区先验预测系统,系统安装于服务器,参照图2,包括视频处理模块201、线性变换模块202、位置嵌入模块203、拼接模块204以及处理模块205,其中:视频处理模块201用于将待处理视频转换成多个视频帧。对第一视频帧进行切割
处理,得到多个图像块,第一视频帧为多个视频帧中的任意一个。
66.线性变换模块202用于对第一图像块进行展平和线性变换,得到第一特征向量,第一图像块为多个图像块中的任意一个。
67.位置嵌入模块203对第一特征向量添加位置信息,得到第一输入向量。
68.拼接模块204用于将多个第一输入向量按照预设方式进行拼接,得到第一向量组。
69.处理模块205用于基于向量组,计算任意两个相邻的第一输入向量的相关度值。判断相关度值与预设的第一阈值的大小关系,若判断出相关度值小于或等于第一阈值,则确定第一图像块对应的视频区域为视频热区。
70.在一种可能的实施方式中,位置嵌入模块203用于生成与第一特征向量对应的第一位置向量。将第一位置向量与第一特征向量相加,得到第一输入向量。
71.在一种可能的实施方式中,拼接模块204用于获取多个视频帧中同一位置的多个第一输入向量;将多个第一输入向量按照第一维度进行concat拼接,得到第一向量组,第一维度为时间维度。
72.在一种可能的实施方式中,位置嵌入模块203用于对第一特征向量进行局部特征提取,得到第一局部向量;对第一局部向量进行降维处理,得到第二局部向量;对第二局部向量添加位置信息,得到第一输入向量。
73.在一种可能的实施方式中,处理模块205用于基于三个线性函数,将第一输入向量进行线性变换,分别得到第一向量、第二向量以及第三向量;基于第一向量、第二向量以及第三向量,计算邻接矩阵。
74.在一种可能的实施方式中,处理模块205用于对邻接矩阵进行取反操作,得到第一矩阵;将第一矩阵与位置向量相乘,得到输出特征向量;对任意两个相邻的输出特征向量进行相关度计算,得到相关度值。
75.在一种可能的实施方式中,处理模块205用于对视频区域按照预设方式进行标记;基于位置信息和标记,在待处理视频中标记视频热区。
76.本实施例还公开了一种电子设备,参照图3,电子设备可以包括:至少一个处理器301,至少一个通信总线302,用户接口303,网络接口304,至少一个存储器305。
77.其中,通信总线302用于实现这些组件之间的连接通信。
78.其中,用户接口303可以包括显示屏(display)、摄像头(camera),可选用户接口303还可以包括标准的有线接口、无线接口。
79.其中,网络接口304可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
80.其中,处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器305内的指令、程序、代码集或指令集,以及调用存储在存储器305内的数据,执行服务器的各种功能和处理数据。可选的,处理器301可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器301可集成中央处理器301(central processing unit,cpu)、图像处理器301(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的
是,上述调制解调器也可以不集成到处理器301中,单独通过一块芯片进行实现。
81.其中,存储器305可以包括随机存储器305(random access memory,ram),也可以包括只读存储器305(read-only memory)。可选的,该存储器305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。如图所示,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口303模块以及视频热区先验预测方法的应用程序。
82.在图3所示的电子设备中,用户接口303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器301可以用于调用存储器305中存储视频热区先验预测方法的应用程序,当由一个或多个处理器301执行时,使得电子设备执行如上述实施例中一个或多个的方法。
83.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必需的。
84.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
85.在本技术所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
86.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
87.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
88.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器305中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器305中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器305包括:u盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介
质。
89.以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

技术特征:
1.视频热区先验预测方法,其特征在于,所述方法应用于服务器,包括:将待处理视频转换成多个视频帧;对第一视频帧进行切割处理,得到多个图像块,所述第一视频帧为多个所述视频帧中的任意一个;对第一图像块进行展平和线性变换,得到第一特征向量,所述第一图像块为多个所述图像块中的任意一个;对所述第一特征向量添加位置信息,得到第一输入向量;将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组;基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值;判断所述相关度值与预设的第一阈值的大小关系,若判断出所述相关度值小于或等于所述第一阈值,则确定所述第一图像块对应的视频区域为视频热区。2.根据权利要求1所述的视频热区先验预测方法,其特征在于,所述对所述第一特征向量添加位置信息,得到第一输入向量,具体包括:生成与所述第一特征向量对应的第一位置向量;将所述第一位置向量与所述第一特征向量相加,得到所述第一输入向量。3.根据权利要求1所述的视频热区先验预测方法,其特征在于,所述将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组,具体包括:获取多个视频帧中同一位置的多个所述第一输入向量;将多个所述第一输入向量按照第一维度进行concat拼接,得到所述第一向量组,所述第一维度为时间维度。4.根据权利要求1所述的视频热区先验预测方法,其特征在于,所述对所述第一特征向量添加位置信息,得到第一输入向量,具体还包括:对所述第一特征向量进行局部特征提取,得到第一局部向量;对所述第一局部向量进行降维处理,得到第二局部向量;对所述第二局部向量添加位置信息,得到所述第一输入向量。5.根据权利要求4所述的视频热区先验预测方法,其特征在于,所述基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值之前,所述方法还包括:基于三个线性函数,将所述第一输入向量进行线性变换,分别得到第一向量、第二向量以及第三向量;基于所述第一向量、所述第二向量以及所述第三向量,计算邻接矩阵。6.根据权利要求5所述的视频热区先验预测方法,其特征在于,所述基于所述第一向量组,计算任意两个相邻的所述第一输入向量的相关度值,具体包括:对所述邻接矩阵进行取反操作,得到第一矩阵;将所述第一矩阵与位置向量相乘,得到输出特征向量;对任意两个相邻的所述输出特征向量进行相关度计算,得到所述相关度值。7.根据权利要求1所述的视频热区先验预测方法,其特征在于,所述确定所述第一图像块对应的视频区域为视频热区之后,所述方法还包括:对所述视频区域按照预设方式进行标记;基于所述位置信息和所述标记,在所述待处理视频中标记所述视频热区。
8.视频热区先验预测系统,其特征在于,所述系统安装于服务器,包括视频处理模块 (201)、线性变换模块(202)、位置嵌入模块(203)、拼接模块(204)以及处理模块(205),其中:所述视频处理模块 (201)用于将待处理视频转换成多个视频帧;对第一视频帧进行切割处理,得到多个图像块,所述第一视频帧为多个所述视频帧中的任意一个;所述线性变换模块(202)用于对第一图像块进行展平和线性变换,得到第一特征向量,所述第一图像块为多个所述图像块中的任意一个;所述位置嵌入模块(203)对所述第一特征向量添加位置信息,得到第一输入向量;所述拼接模块(204)用于将多个所述第一输入向量按照预设方式进行拼接,得到第一向量组;所述处理模块(205)用于基于所述向量组,计算任意两个相邻的所述第一输入向量的相关度值;判断所述相关度值与预设的第一阈值的大小关系,若判断出所述相关度值小于或等于所述第一阈值,则确定所述第一图像块对应的视频区域为视频热区。9.一种电子设备,其特征在于,包括处理器(301)、存储器(305)、用户接口(303)以及网络接口(304),所述存储器(305)用于存储指令,所述用户接口(303)和所述网络接口(304)均用于给其他设备通信,所述处理器(301)用于执行所述存储器(305)中存储的指令,以使所述电子设备执行如权利要求1-7任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法步骤。

技术总结
本申请提供视频热区先验预测方法和系统。方法包括:将待处理视频转换成多个视频帧;对第一视频帧进行切割处理,得到多个图像块,第一视频帧为多个视频帧中的任意一个;对第一图像块进行展平和线性变换,得到第一特征向量,第一图像块为多个图像块中的任意一个;对第一特征向量添加位置信息,得到第一输入向量;将多个第一输入向量按照预设方式进行拼接,得到第一向量组;基于向量组,计算任意两个相邻的第一输入向量的相关度值;判断相关度值与预设的第一阈值的大小关系,若判断出相关度值小于或等于第一阈值,则确定对应的视频区域为视频热区。通过对视频帧进行切分处理,并在后续进行相应地处理,从而达到提高视频热区预测的准确性的效果。确性的效果。确性的效果。


技术研发人员:李超 殷光强 王治国 陈一平 杨晓宇
受保护的技术使用者:喀什地区电子信息产业技术研究院
技术研发日:2023.04.04
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐