视频的特征提取及切片方法、装置、电子设备及存储介质与流程

未命名 08-27 阅读:79 评论:0


1.本公开实施例涉及计算机技术领域,尤其涉及一种视频的特征提取及切片方法、装置、电子设备及存储介质。


背景技术:

2.视频数据可认为是依据现有的视频图像压缩标准将各视频帧压缩编码后得到的数据。现有的视频的特征提取方法通常为,先将视频数据解码为各视频帧后,再提取各视频帧的特征。现有的切片方法通常以上述特征提取方法为基础,可包括:将视频数据解码为各视频帧,对每一帧都预测其是否为边界;在预测每一帧时,为考虑时间域上的上下文信息,需要将当前帧的前、后帧输入网络,基于网络提取各输入帧的特征并预测;根据预测的边界进行切片。
3.现有的特征提取方法的不足之处至少包括:需要耗费大量的存储空间存储解码后的视频帧,以及需要耗费一定的解码时间。现有的切片方法除上述不足外,还至少包括如下缺陷:在预测每一帧时都需重新提取输入帧的特征,引入了大量冗余计算,大大降低了切片效率。


技术实现要素:

4.本公开实施例提供了一种视频的特征提取及切片方法、装置、电子设备及存储介质,其中特征提取方法能够节省存储空间,减少解码时间;切片方法能够避免冗余计算,提高切片效率。
5.第一方面,本公开实施例提供了一种视频的特征提取方法,包括:
6.确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;
7.针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;
8.根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。
9.第二方面,本公开实施例提供了一种视频的切片方法,包括:
10.确定目标视频数据中各视频帧的帧特征;
11.确定所述目标视频数据的候选边界帧,根据比所述候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比所述候选边界帧时序靠后的视频帧的帧特征确定右特征;
12.将所述左特征与所述右特征输入预先训练的分类器,以使所述分类器确定所述候选边界帧是否为目标边界帧,并根据各所述目标边界帧对所述目标视频数据进行切片。
13.第三方面,本公开实施例还提供了一种视频的特征提取装置,包括:
14.图片组确定模块,用于确定视频数据的各图片组;每个图片组依时序包括一个帧
内编码帧和至少一个前向预测编码帧;
15.特征提取模块,用于针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;
16.特征更新模块,用于根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。
17.第四方面,本公开实施例还提供了一种视频的切片装置,包括:
18.帧特征确定模块,用于确定目标视频数据中各视频帧的帧特征;
19.双侧特征确定模块,用于确定所述目标视频数据的候选边界帧,根据比所述候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比所述候选边界帧时序靠后的视频帧的帧特征确定右特征;
20.切片模块,用于将所述左特征与所述右特征输入预先训练的分类器,以使所述分类器确定所述候选边界帧是否为目标边界帧,并根据各所述目标边界帧对所述目标视频数据进行切片。
21.第五方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
22.一个或多个处理器;
23.存储装置,用于存储一个或多个程序,
24.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例任一所述的视频的特征提取方法,或者实现如本公开实施例任一所述的视频的切片方法。
25.第六方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的视频的特征提取方法,或者实现如本公开实施例任一所述的视频的切片方法。
26.本公开实施例公开了一种视频的特征提取及切片方法、装置、电子设备及存储介质,其中该视频的特征提取方法包括:确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征;根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到视频数据中各视频帧的帧特征。
27.该特征提取方法无需完全解码各视频帧,而是根据压缩编码的视频数据中的帧内编码帧的信息和前向预测编码帧的运动补偿信息确定各帧的帧特征,能够节省存储空间,减少解码时间。
28.其中该视频的切片方法包括:确定目标视频数据中各视频帧的帧特征;确定目标视频数据的候选边界帧,根据比候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比候选边界帧时序靠后的视频帧的帧特征确定右特征;将左特征与右特征输入预先训练的分类器,以使分类器确定候选边界帧是否为目标边界帧,并根据各目标边界帧对目标视频数据进行切片。
29.该切片方法无需重复对视频帧的特征进行提取,在确定各帧的帧特征后,可共享该些帧特征进行边界帧预测,从而消除了大量冗余计算,提高了切片效率。此外,相较于传统的根据各输入帧的帧特征进行边界预测,本公开通过划分候选边界帧的左、右特征,并根
据左、右特征预测边界,可以为边界预测提供更具有判别力的信息,提高判别精确度。
附图说明
30.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
31.图1为本公开实施例一所提供的一种视频的特征提取方法的流程示意图;
32.图2为本公开实施例二所提供的一种视频的特征提取方法中对补偿特征进行更新的流程框图;
33.图3为本公开实施例三所提供的一种视频的特征提取方法的流程示意图;
34.图4为本公开实施例三所提供的一种视频的特征提取方法的流程框图;
35.图5为本公开实施例四所提供的一种视频的切片方法的流程示意图;
36.图6为本公开实施例四所提供的一种视频的切片方法中训练分类器的流程框图;
37.图7为本公开实施例五所提供的一种视频的特征提取装置的结构示意图;
38.图8为本公开实施例六所提供的一种视频的切片装置的结构示意图;
39.图9为本公开实施例七所提供的一种电子设备的结构示意图。
具体实施方式
40.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
41.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
42.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
43.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
44.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
45.实施例一
46.图1为本公开实施例一所提供的一种视频的特征提取方法的流程示意图。本公开实施例适用于提取视频特征的情形,例如适用于提取依据动态图像专家组(moving picture experts group,mpeg)编码的视频数据中各视频帧的帧特征的情形。该方法可以由视频的特征提取装置来执行,该装置可以通过软件和/或硬件的形式实现,该装置可配置于电子设备中,例如配置于计算机中。
47.如图1所示,本实施例提供的视频的特征提取方法,可以包括:
48.s110、确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧。
49.本实施例中,视频数据可以是基于依据mpeg编码得到的数据,例如可以基于mpeg-4编码的视频数据。经编码得到的视频数据中可以包含多个图片组(group of pictures,gop),且每个图片组中的首帧可以为帧内编码帧(intra coding frame,可简称为i帧),依时序首帧之后的帧可以包括至少一个前向预测编码帧(predictive-frame,可简称为p帧)。
50.示例性的,视频数据可以用等式表示;其中,视频数据v可以由n个gop组成,且i可以为gop的组序号;其中,每个gop可以包括一个i帧和t个p帧。
51.其中,i帧中的信息可以包含编码后的完整的图像数据。示例性的,当i帧为三通道的rgb图像时,i帧可以表示为其中,上标3
×h×
w可以指图像的通道数为3,高度为h,宽度为w,下文相同格式上标中各部分指代内容可参照此处,后续将不再赘述。
52.其中,p帧中的信息可以为运动补偿信息。其中,运动补偿信息可以包含描述当前p帧与该帧所引用的时序靠前的i帧或p帧之间图像差别的信息,例如可以包含描述前方引用帧的目标对象移动到当前帧中的对应位置的信息。
53.在获取到视频数据后,可以根据视频数据中各帧携带的标识信息(例如i帧的标识信息、p帧的标识信息等),确定视频数据的各图片组。例如可以是,每识别到i帧标识,可以将该标识的对应帧作为一个gop的首帧,直至识别到视频数据的最后一帧为止,得到视频数据的各gop。
54.s120、针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征。
55.针对每个gop,可以将组中的i帧进行解码得到图像数据,可以使用图像特征的提取网络(例如卷积神经网络)对i帧解码后的图像数据进行特征提取,得到i帧的第一帧特征。示例性的,第一帧特征的提取过程可以用公式xi=fi(i)表示;其中,i表示i帧解码后的图像数据;fi(
·
)可以表示特征提取网络,例如为残差网络resnet50;xi可以表示第一帧特征的特征图,且可以为
56.由于每个gop中的p帧,可以分为引用组中i帧的p帧和引用组中前向p帧的p帧。为了保证各p帧的运动补偿信息具有统一性,可以预先确定组中各p帧相对本组i帧的运动补偿信息。
57.在一些可选的实现方式中,各前向预测编码帧相对于帧内编码帧的运动补偿信息,可以基于下述步骤确定:分别以各前向预测编码帧为起点,循环依时序向前确定当前帧的引用帧,并将引用帧作为新的当前帧,直至引用帧为帧内编码帧为止;在循环过程中,对当前帧与引用帧之间的运动补偿信息进行累积;在循环停止时,得到各前向预测编码帧相对于帧内编码帧的运动补偿信息。
58.示例性的,确定p帧相对本组i帧的运动补偿信息的过程,可以包括:针对某gop中第t个p帧的像素p,首先可以向前寻找到像素p的引用帧的像素p’;然后可以计算像素p相对于像素p’的运动补偿信息;接着可继续以引用帧的像素p’为起点继续向前寻找引用帧的像素,在之前运动补偿信息基础上进行运动补偿信息的累积更新,直到引用帧为当前gop的i
帧为止。从而可通过递归得到p帧中像素p相对与本组内i帧的对应像素的运动补偿信息。
59.在这些可选的实现方式中,针对各p帧,通过前向查询引用帧并累积运动补偿信息直到i帧,可以实现分离p帧之间的依赖关系,使得每个p帧仅依赖于参考i帧而不是其他p帧,从而保证了各p帧的运动补偿信息具有统一性。
60.在提取各p帧相对与本组i帧的运动补偿信息的补充特征时,可以用轻量化的特征提取模型来提取,以节省模型计算时间。示例性的,运动补偿特征的提取过程可以用公式表示;其中,c
t
表示gop中第t个p帧相对于本组中i帧的运动补偿信息;fc(
·
)可以表示轻量级的特征提取网络,例如为残差网络resnet18;可以表示gop中第t个p帧的补偿特征的特征图,且可以为
61.s130、根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到视频数据中各视频帧的帧特征。
62.由于运动补偿信息本身并不包含p帧的全部信息,p帧的部分信息需要依赖本组中i帧的信息得到。由于每个gop中各p帧相对与i帧的运动补偿信息不同,可以从i帧的第一帧特征中选取出与各p帧关联程度较高的部分特征,分别对各p帧的补偿特征进行更新。
63.例如,对各p帧的补偿特征的更新过程可以包括:根据各p帧相对于本组i帧的运动补偿信息,识别出i帧与各p帧关联程度较高的区域;针对各p帧,可以将关联程度较高的区域对应的第一帧特征设置为较高的权重值,将其他区域对应的第一帧特征设置为较低的权重值;可将第一帧特征经各区域的权重值处理,并可以根据处理结果对各p帧的补偿特征进行更新。
64.本实施例中,针对每个gop,可利用组内i帧的第一帧特征可以对各p帧的补偿特征进行丰富,从而可以使其更准确的表征各p帧的第二帧特征。并且,可以并行提取各gop的视频帧的帧特征,在确定好各gop内i帧和p帧的特征时,即得到了视频数据中各视频帧的帧特征。本实施例无需完全解码视频数据,可仅解码数量较少i帧的数据,即可确定出准确度较高的i帧和p帧的特征,从而可避免因解码各帧数据导致的存储空间浪费,也大大减少了解码时间。
65.此外,在提取到视频数据的各视频帧的帧特征后,还可以将帧特征应用于不同的业务场景中去,例如可以基于帧特征进行视频切片、视频编辑、视频理解、视频分类和视频行为识别等业务场景中去,在此不做穷举。
66.本公开实施例的技术方案,确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征;根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到视频数据中各视频帧的帧特征。该特征提取方法无需完全解码各视频帧,而是根据压缩编码的视频数据中的帧内编码帧的信息和前向预测编码帧的运动补偿信息确定各帧的帧特征,能够节省存储空间,减少解码时间。
67.实施例二
68.本公开实施例与上述实施例中所提供的视频的特征提取方法中各个可选方案可以结合。本实施例所提供的视频的特征提取方法,对补偿特征进行更新的步骤进行了详细
描述。通过利用第一帧特征从通道维度和空间维度丰富补偿特征的特征表达,能够得到更加精确、完整的前向预测编码帧的帧特征。
69.在一些可选的实现方式中,根据第一帧特征对各补偿特征进行更新,可以包括:将第一帧特征、运动补偿信息和补偿特征进行拼接,得到拼接图像;分别确定拼接图像在通道维度的第一权值,以及在空间维度的第二权值;根据第一权值和第二权值对第一帧特征进行处理得到更新参数,并根据更新参数对补偿特征进行更新。
70.示例性的,图2为本公开实施例二所提供的一种视频的特征提取方法中对补偿特征进行更新的流程框图。参见图2,当前gop中i帧的第一帧特征可以用xi表示,且可以为当前gop中第t个p帧的运动补偿信息可以用c
t
表示,且可以为其中d可以为正整数,且不同种类的运动补偿信息的d可以不同;当前gop中第t个p帧的补偿特征可以用表示,且可以为
71.其中,可以将xi、c
t
和进行拼接(图中用cat表示),得到的拼接图像的尺寸可以为(2c+d)
×h×
w。拼接图像可以作为引导信息,用于识别出当前gop中i帧与第t个p帧关联程度较高的区域。其中,关联程度较高的区域可以从通道维度和空间维度分别确定。具体的,可以通过将拼接图像在空间维度进行上采样,得到通道维度的第一权值(图中用表示);通过将拼接图像在通道维度进行上采样,得到空间维度的第二权值(图中用表示)。
72.在确第一权值和第二权值后,可以根据第一权值和第二权值从第一帧特征中提取出关联程度较高的区域对应的第一帧特征,即得到更新参数(图中可以用表示)。最后,可以将更新参数与补偿特征进行融合,并可根据融合结果确定更加精确、完整的p帧的第二帧特征。
73.在这些可选的实现方式中,通过利用第一帧特征从通道维度和空间维度丰富补偿特征的特征表达,能够得到更加精确、完整的前向预测编码帧的帧特征。
74.在一些可选的实现方式中,分别确定拼接图像在通道维度的第一权值,以及在空间维度的第二权值,包括:提取拼接图像的拼接特征;拼接特征与第一帧特征具有相同尺寸;将拼接特征在空间维度进行池化,并将池化结果进行全连接,得到拼接图像在通道维度的第一权值;将拼接特征中各通道的特征图进行卷积,并将卷积结果进行逻辑回归,得到拼接图像在空间维度的第二权值。
75.再参见图2,确定第一权值的过程可包括:
76.首先,可以基于一个轻量级的特征提取网络(图中用pwc1表示)提取拼接图像更具表达能力的拼接特征。该步骤可以用公式表示;其中,可表示拼接特征,且与第一帧特征具有相同尺寸;可表示拼接图像;pwc1(
·
)例如可为12层的残差网络。
77.然后,可基于平均池化网络(图中用avg_pool1表示)将拼接特征在空间维度进行
池化。该步骤可以用公式表示;其中,可表示平均池化后的拼接特征,且
78.最后,可以基于全连接网络(图中用fc表示)将不同通道的特征进行连接,得到拼接图像在通道维度的第一权值
79.该步骤可以用公式表示;其中,σ可表示激活函数,例如为sigmod激活函数;ζ也可表示激活函数,例如为relu激活函数;w1,b1,w2,b2可表示全连接网络的可学习参数,该些参数可通过预先训练得到。其中,第一权值为一维向量,且向量中各元素数值可表征第一帧特征图中各通道的重要程度。
80.还参见图2,确定第二权值的过程可包括:
81.首先,可以基于一个轻量级的特征提取网络(图中用pwc2表示)提取拼接图像更具表达能力的拼接特征该步骤可参考确定的步骤,两步骤中使用的特征提取网络的结构可以相同,也可以不同。
82.然后,可基于卷积网络(图中用conv表示)将拼接特征中各通道的特征图进行卷积。该步骤可以用公式表示;其中,可表示卷积后的拼接特征,且2d_conv(
·
)可表示卷积网络。
83.最后,可以基于逻辑回归函数(例如图中为softmax函数)将卷积结果进行逻辑回归,得到拼接图像在空间维度的第二权值该步骤可以用公式表示;其中,其中,第二权值为二维空间权值图,且权值图中各元素数值可表征第一帧特征图中各区域的重要程度。
84.在这些可选的实现方式中,通过提取拼接特征可得到更具表达能力的特征;通过在空间维度进行池化并全连接,可以得到通道维度的第一权值;通过将各通道卷积并逻辑回归,可以得到空间维度的第二权值。从而可以分别从通道维度和空间维度确定gop内i帧的第一帧特征图与各p帧关联程度较高的区域。
85.在一些可选的实现方式中,根据第一权值和第二权值对第一帧特征进行处理得到更新参数,包括:将第一帧特征与第一权值和第二权值相乘,得到更新参数。
86.在这些可选的实现方式中,针对每个gop中的各p帧,可以将第一帧特征图先与对应的第一权值逐通道相乘,得到通道维度更新后的特征图;再与对应的第二权值逐像素相乘,得到空间维度更新后的特征图,即得到更新参数。或者,也可以将第一特征图先与对应的第二权值逐像素相乘,得到空间维度更新后的特征图;再与对应的第一权值逐通道相乘,得到通道维度更新后的特征图,即得到更新参数。
87.示例性的,每个gop中第t个p帧的更新参数的确定步骤,可以包括:
88.首先,可通过公式将第一帧特征图xi先与第一权值逐通道相乘,得到通道维度更新后的特征图
89.然后,可通过公式将与第二权值逐像素相乘,得到空间维度更新后的特征图即得到更新参数且其中p可表示像素序号,且p的取值范围可以为[1-h
·
w]。
[0090]
在一些可选的实现方式中,根据更新参数对补偿特征进行更新,包括:将补偿特征在空间维度进行池化,并将池化结果与更新参数相加。
[0091]
针对每个gop中的各p帧,第一帧特征经对应的通道维度的第一权值和空间维度的第二权值处理后,更新参数的尺寸与对应的补偿特征的尺寸可能存在差异。例如,更新参数可能为一维的c向量,补偿特征可能为尺寸为c
×h×
w的特征图。
[0092]
示例性的,又参见图2,针对每个gop中第t个p帧,可以通过平均池化网络(图中用avg_pool2表示)将补偿特征在空间维度进行池化,并将池化结果与更新参数相加,得到更新后的补偿特征。该步骤可以用公式表示;其中,可表示更新后的补偿特征,且
[0093]
在这些可选的实现方式中,针对每个gop中的各p帧,通过在将对应的更新参数与对应的补偿特征处理为尺寸相同后,再将两者相加,能够实现从通道维度和空间维度丰富补偿特征的特征表达,从而可得到各p帧更加精确、完整的帧特征。
[0094]
本公开实施例的技术方案,对补偿特征进行更新的步骤进行了详细描述。通过利用第一帧特征从通道维度和空间维度丰富补偿特征的特征表达,能够得到更加精确、完整的前向预测编码帧的帧特征。此外,本公开实施例提供的视频的特征提取方法与上述实施例提供的视频的特征提取方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且相同的技术特征在本实施例与上述实施例中具有相同的有益效果。
[0095]
实施例三
[0096]
本公开实施例与上述实施例中所提供的视频的特征提取方法中各个可选方案可以结合。本实施例所提供的视频的特征提取方法,对补偿信息包括运动向量和残差的情况下,确定各前向预测编码帧的第二帧特征的步骤进行了详细描述。针对任一前向预测编码帧,通过根据对应的第一帧特征对运动向量的初始向量特征以及对残差的初始残差特征进行更新,能够得到特征表达更为丰富准确的目标向量特征和目标残差特征。进而,可以综合目标向量特征和目标残差特征确定前向预测编码帧的帧特征。
[0097]
示例性的,图3为本公开实施例三所提供的一种视频的特征提取方法的流程示意图。参见图3,本实施例提供的视频的特征提取方法,可以包括:
[0098]
s310、确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧。
[0099]
其中,p帧的运动补偿信息中可以包括但不限于运动向量(motion vectors)和残差(residuals)。其中,运动向量可以记录当前p帧中目标对象相对于引用帧中该对象的轨迹信息,可以用m
t
表示,且残差可包含目标对象丰富的边界信息,可以用r
t
表示,且其中,上角标t可以表征当前p帧为所属gop中的第t个p帧。
[0100]
本实施例中,可直接从编码后的视频数据中获得各p帧的运动向量和残差,而不需要对各p帧进行解码,从而大大缩短了解码时间。
[0101]
s320、针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动向量的初始向量特征,以及相对于帧内编码帧的残差的初始残差特征。
[0102]
针对每个gop中的第t个p帧,由于运动补偿信息包括运动向量m
t
和残差r
t
,运动补偿信息的补偿特征可对应包括初始向量特征和初始残差特征其中,提取运动向量的初始向量特征以及提取残差的初始残差特征的过程,可以参照提取补偿特征的过程,在此不做赘述。
[0103]
s330、根据第一帧特征,分别对各运动向量的初始向量特征,以及各残差的初始残差特征进行更新,得到目标向量特征和目标残差特征。
[0104]
针对每个gop中的第t个p帧,根据所属组内i帧的第一帧特征xi,更新运动向量的初始向量特征的过程,可以包括:
[0105]
将第一帧特征xi、运动向量m
t
和初始向量特征进行拼接,得到拼接图像;分别确定拼接图像在通道维度的第一权值以及在空间维度的第二权值根据第一权值和第二权值对第一帧特征xi进行处理得到更新参数并根据更新参数对初始向量特征进行更新,得到目标向量特征
[0106]
针对每个gop中的第t个p帧,根据所属组内i帧的第一帧特征xi,更新残差的初始残差特征的过程,可以包括:
[0107]
将第一帧特征xi、残差r
t
和初始残差特征进行拼接,得到拼接图像;分别确定拼接图像在通道维度的第一权值以及在空间维度的第二权值根据第一权值和第二权值对第一帧特征xi进行处理得到更新参数并根据更新参数对初始向量特征进行更新,得到目标向量特征
[0108]
其中,根据i帧的第一帧特征xi,更新组内第t个p帧的初始向量特征和初始残差特征的过程,可以参考图2所示的根据第一帧特征xi更新补偿特征的过程,在此不做赘述。
[0109]
s340、根据各目标向量特征和目标残差特征,确定各前向预测编码帧的第二帧特征。
[0110]
针对每个gop中的各p帧,可以将对应的目标向量特征和目标残差特征的加权和作为第二帧特征。例如,针对当前gop中第t个p帧,可以通过公式确定p帧的第二帧特征且
[0111]
示例性的,图4为本公开实施例三所提供的一种视频的特征提取方法的流程框图。参见图4,视频数据可以表示为gops,且gops中可以包括n个gop。每个gop中可以包括一个i帧和t个p帧,且i帧和p帧的下标可以表征gop的组序号,p帧的上标可以表征该p帧在所属gop中各p帧中的排序。
[0112]
每个gop可并行输入特征提取模块(图中用encoding for gop表示)进行处理。针对每个gop,特征提取模块可以提取i帧的第一帧特征xi,提取各p帧中运动向量m
t
的初始向量特征和残差r
t
初始残差特征的之后,可以通过空间通道压缩编码模块(spatial channel compressed encoder,图中简称为scce),更新初始向量特征和初始残差特征分别得到目标向量特征和目标向量特征并根据目标向量特征和目标向量特征确定p帧的第二帧特征
[0113]
本公开实施例的技术方案,对补偿信息包括运动向量和残差的情况下,确定各前向预测编码帧的第二帧特征的步骤进行了详细描述。针对任一前向预测编码帧,通过根据对应的第一帧特征对运动向量的初始向量特征以及对残差的初始残差特征进行更新,能够得到特征表达更为丰富准确的目标向量特征和目标残差特征。进而,可以综合目标向量特征和目标残差特征确定前向预测编码帧的帧特征。
[0114]
此外,本公开实施例提供的视频的特征提取方法与上述实施例提供的视频的特征提取方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且相同的技术特征在本实施例与上述实施例中具有相同的有益效果。
[0115]
实施例四
[0116]
图5为本公开实施例四所提供的一种视频的切片方法的流程示意图。本公开实施例适用于视频切片的情形,例如适用于对mpeg-4编码格式的视频数据进行切片的情形。该方法可以由视频的切片装置来执行,该装置可以通过软件和/或硬件的形式实现,该装置可配置于电子设备中,例如配置于计算机中。
[0117]
如图5所示,本实施例提供的视频的切片方法,可以包括:
[0118]
s510、确定目标视频数据中各视频帧的帧特征。
[0119]
其中,可以基于传统方法提取各视频帧的帧特征,也可以根据本公开任一的视频的特征提取方法,确定目标视频数据中各视频帧的帧特征,例如可以包括:
[0120]
确定目标视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征;根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到目标视频数据中各视频帧的帧特征。
[0121]
若基于本公开任一实施例的特征提取方法提取各视频帧的帧特征,则可无需完全解码各视频帧,可实现节省存储空间、减少解码时间的有益效果,从而可在解码层面上提高了切片效率。
[0122]
此外,由于视频信息存在大量的时序冗余信息,使得视频理解具有挑战性。为提取时序信息,传统视频切片方法通常会采用光流信息作为预测网络额外的输入,以提高切片精度。但是,光流信息的提取非常耗时,往往可占据切片时间的90%以上。可认为现有切片方法,以高耗时为代价来提高切片精度。
[0123]
然而,本实施例提供的切片方法中,若基于本公开任一实施例的特征提取方法提取各视频帧的帧特征,p帧中的补偿信息能够提供丰富的时序信息。通过提取补偿特征并在通道维度和空间维度对补偿特征进行丰富,可以提高视频帧的帧特征的精度,进而可提高切片精度。相较于传统方法,可在减少耗时的基础上保证切片精度。
[0124]
其中,根据第一帧特征对各补偿特征进行更新,可以包括:将第一帧特征、运动补偿信息和补偿特征进行拼接,得到拼接图像;分别确定拼接图像在通道维度的第一权值,以及在空间维度的第二权值;根据第一权值和第二权值对第一帧特征进行处理得到更新参数,并根据更新参数对补偿特征进行更新。
[0125]
其中,分别确定拼接图像在通道维度的第一权值,以及在空间维度的第二权值,可以包括:提取拼接图像的拼接特征;拼接特征与第一帧特征具有相同尺寸;将拼接特征在空间维度进行池化,并将池化结果进行全连接,得到拼接图像在通道维度的第一权值;将拼接特征中各通道的特征图进行卷积,并将卷积结果进行逻辑回归,得到拼接图像在空间维度的第二权值。
[0126]
其中,根据第一权值和第二权值对第一帧特征进行处理得到更新参数,可以包括:将第一帧特征与第一权值和第二权值相乘,得到更新参数。
[0127]
其中,根据更新参数对补偿特征进行更新,可以包括:将补偿特征在空间维度进行池化,并将池化结果与更新参数相加。
[0128]
其中,运动补偿信息包括运动向量和残差;相应的,根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,可以包括:根据第一帧特征,分别对各运动向量的初始向量特征,以及各残差的初始残差特征进行更新,得到目标向量特征和目标残差特征;根据各目标向量特征和目标残差特征,确定各前向预测编码帧的第二帧特征。
[0129]
其中,各前向预测编码帧相对于帧内编码帧的运动补偿信息,基于下述步骤确定:分别以各前向预测编码帧为起点,循环依时序向前确定当前帧的引用帧,并将引用帧作为新的当前帧,直至引用帧为帧内编码帧为止;在循环过程中,对当前帧与引用帧之间的运动补偿信息进行累积;在循环停止时,得到各前向预测编码帧相对于帧内编码帧的运动补偿信息。
[0130]
在一些可选的实现方式中,确定目标视频数据中各视频帧的帧特征,可以包括:确定各帧内编码帧的第一帧特征,以及各前向预测编码帧的第二帧特征;将各第一帧特征进行尺寸变换,以使尺寸变换后的各第一帧特征与各第二帧特征的尺寸相同。
[0131]
由于第一帧特征可以为表征i帧的特征图,第二帧特征可以为表征p帧信息的特征向量,为了使各帧特征具备可比较性,可以将第一帧特征进行尺寸变换,以使尺寸变换后的各第一帧特征与各第二帧特征的尺寸相同。例如,可以将尺寸较大的第一帧特征进行上采样、池化等方式实现尺寸降维、变小,得到与第二帧特征的尺寸相同的特征。
[0132]
此外,也可以将各第二帧特征进行尺寸升维、扩大,使其与各第一帧特征的尺寸相同,以使各帧特征具备可比较性。但是这种方式可能导致后续计算量增大,故可优选将第一帧特征处理为与第二帧特征尺寸相同。
[0133]
在这些可选的实现方式中,通过将i帧特征和p帧特征处理为相同尺寸,可以使各帧特征具备可比较性,有利于实现边界帧的识别操作。
[0134]
s520、确定目标视频数据的候选边界帧,根据比候选边界帧时序靠前的视频帧的
帧特征确定左特征,以及根据比候选边界帧时序靠后的视频帧的帧特征确定右特征。
[0135]
在确定候选边界帧时,可将目标视频数据的各帧皆作为候选边界帧,也可以通过随机采样得到至少一个候选边界帧,还可以使用其他方式确定候选边界帧,在此不做穷举。
[0136]
针对任意一个候选边界帧,可以根据比当前帧时序靠前的k1个视频帧的帧特征确定左特征,可以根据比当前帧时序靠后的k2个视频帧的帧特征确定右特征。其中,k1和k2的数值可以根据经验值或实验值进行确定,例如可以皆为3。其中,在确定左、右特征时,可以将前k1个视频帧的帧特征中的最大值、最小值或平均值作为左特征,可以将后k2个视频帧的帧特征中的最大值、最小值或平均值作为右特征,且左、右特征的确定方式通常一致。
[0137]
在一些可选的实现方式中,左特征基于比候选边界帧时序靠前的视频帧的帧特征加权求和得到;右特征基于比候选边界帧时序靠后的视频帧的帧特征加权求和得到。
[0138]
示例性的,左特征的确定步骤可以通过公式表示;其中,l可表示当前候选边界帧的帧序号;φ
l
可表示当前候选边界帧的左特征;l-j可以表示当前候选边界帧第前j个视频帧的帧序号,且j的取值范围可以为[1,k1];可表示当前候选边界帧第前j个视频帧的帧特征;wj可表示当前候选边界帧第前j个视频帧的帧特征的权重。其中,wj为可学习的参数,且
[0139]
相应的,右特征的确定步骤可以通过公式表示;其中,l可表示当前候选边界帧的帧序号;ψ
l
可表示当前候选边界帧的右特征;l+j可以表示当前候选边界帧第后j个视频帧的帧序号,且j的取值范围可以为[1,k2];可表示当前候选边界帧第后j个视频帧的帧特征;wj可表示当前候选边界帧第后j个视频帧的帧特征的权重。其中,wj为可学习的参数,且
[0140]
在这些可选的实现方式中,可以利用一维卷积运算可以有效地实现帧特征的加权求和,得到左特征和右特征。
[0141]
s530、将左特征与右特征输入预先训练的分类器,以使分类器确定候选边界帧是否为目标边界帧,并根据各目标边界帧对目标视频数据进行切片。
[0142]
可将左特征和右特征分别输入分类器,也可以将左特征和右特征按预设规则连接后输入分类器。例如,可通过[φ
l
;ψ
l
]将右特征ψ
l
连接到左特征φ
l
后。相应的,分类器确定当前候选帧的左特征和右特征后,可以将左特征和右特征进行特征比对,以确定当前候选边界帧是否为目标边界帧。进而,可以将各目标边界帧的作为切片位置对目标视频数据进行切片。
[0143]
本公开实施例提供的切片方法相较于传统切片方法,其优势至少包括下述方面:
[0144]
一、传统的切片方法中,通常将视频切片任务定义为二元分类任务,即对输入的每一帧都预测其是否为边界。为了考虑时域的上下文信息,每一帧的前后预设帧(例如前后5帧)都会被输入预测网络。预测网络在提取输入帧的特征后,再预测该帧是否为边界。这将引入大量的冗余计算,导致切片效率非常低。
[0145]
然而,本实施例提供的切片方法中,在将各视频帧的帧特征提取完成后,后续对各候选视频帧的预测操作可皆建立在该些帧特征的基础上,从而消除了大量的冗余计算,可在模型层面上提高了切片效率,大大减少了预测所需时间,能够达到实时级别的切片。
[0146]
二、传统的切片方法中,为了精确预测切片的边界位置,需要对比每两个相邻帧的特征,判别方式非常低效。然而,本实施例提供的切片方法中,通过划分候选边界帧的左、右特征,并根据左、右特征预测边界,可以为边界预测提供更具有判别力的信息,判别方式更加高效、灵巧。
[0147]
图6为本公开实施例四所提供的一种视频的切片方法中训练分类器的流程框图。参见图6,在一些可选的实现方式中,分类器可基于下述步骤训练:
[0148]
首先,根据本公开任一的视频的特征提取方法,确定样本视频数据中各视频帧的帧特征,以及确定样本视频数据的边界帧标签(例如图中的)。
[0149]
接着,确定样本视频数据的样本候选边界帧,根据比样本候选边界帧时序靠前的视频帧的帧特征(例如图中的)确定样本左特征φ
l
,以及根据比样本候选边界帧时序靠后的视频帧的帧特征(例如图中的)确定样本右特征ψ
l

[0150]
然后,将样本左特征与样本右特征输入分类器,以使分类器确定样本候选边界帧是否为样本目标边界帧。例如,将样本左特征φ
l
和样本右特征ψ
l
连接(图中用cat表示)得到特征χ
l
;将χ
l
输入分类器,通过分类器中的各卷积层(图中的conv)和各激活层(图中的relu)预测出样本目标边界帧(例如图中的s1,s2,...,sm)。
[0151]
最后,根据分类器确定的样本目标边界帧与边界帧标签,对分类器进行训练。例如,可以通过损失函数求取s1,s2,...,sm和的损失值,并根据损失值调整分类器中各网络层的参数,以实现对分类器进行训练。其中,损失函数例如可以为图中的二分类交叉熵损失函数(binary cross entropy loss,bce loss),也可以为其他用于分类器的损失函数。
[0152]
通过训练完毕的分类器,可以根据输入的候选边界帧的左特征与右特征,确定该候选边界帧是否为目标边界帧。
[0153]
本公开实施例的技术方案,根据本公开实施例任一的视频的特征提取方法,确定目标视频数据中各视频帧的帧特征;确定目标视频数据的候选边界帧,根据比候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比候选边界帧时序靠后的视频帧的帧特征确定右特征;将左特征与右特征输入预先训练的分类器,以使分类器确定候选边界帧是否为目标边界帧,并根据各目标边界帧对目标视频数据进行切片。
[0154]
该切片方法除了可实现节省存储空间,减少解码时间的有益效果外,还无需重复对视频帧的特征进行提取,而是将整段目标视频数据作为输入以确定各帧的帧特征。后续可共享该些帧特征进行边界帧预测,从而消除了大量冗余计算,提高了切片效率。此外,相较于传统的根据各输入帧的帧特征进行边界预测,本公开通过划分候选边界帧的左、右特征,并根据左、右特征预测边界,可以为边界预测提供更具有判别力的信息,提高判别精确度。
[0155]
此外,本公开实施例提供的视频的切片方法与上述实施例提供的视频的特征提取
方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且相同的技术特征在本实施例与上述实施例中具有相同的有益效果。
[0156]
实施例五
[0157]
图7为本公开实施例五所提供的一种视频的特征提取装置的结构示意图。本实施例提供的视频的特征提取装置适用于提取视频特征的情形,例如适用于提取依据mpeg-4编码的视频数据中各视频帧的帧特征的情形。
[0158]
如图7所示,本实施例提供的视频的特征提取装置,可以包括:
[0159]
图片组确定模块710,用于确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;
[0160]
特征提取模块720,用于针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征;
[0161]
特征更新模块730,用于根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到视频数据中各视频帧的帧特征。
[0162]
在一些可选的实现方式中,特征更新模块可以用于:
[0163]
将第一帧特征、运动补偿信息和补偿特征进行拼接,得到拼接图像;
[0164]
分别确定拼接图像在通道维度的第一权值,以及在空间维度的第二权值;
[0165]
根据第一权值和第二权值对第一帧特征进行处理得到更新参数,并根据更新参数对补偿特征进行更新。
[0166]
在一些可选的实现方式中,特征更新模块可以用于:
[0167]
提取拼接图像的拼接特征;拼接特征与第一帧特征具有相同尺寸;
[0168]
将拼接特征在空间维度进行池化,并将池化结果进行全连接,得到拼接图像在通道维度的第一权值;
[0169]
将拼接特征中各通道的特征图进行卷积,并将卷积结果进行逻辑回归,得到拼接图像在空间维度的第二权值。
[0170]
在一些可选的实现方式中,特征更新模块可以用于:
[0171]
将第一帧特征与第一权值和第二权值相乘,得到更新参数。
[0172]
在一些可选的实现方式中,特征更新模块可以用于:
[0173]
将补偿特征在空间维度进行池化,并将池化结果与更新参数相加。
[0174]
在一些可选的实现方式中,运动补偿信息包括运动向量和残差;
[0175]
相应的,特征更新模块可以用于:
[0176]
根据第一帧特征,分别对各运动向量的初始向量特征,以及各残差的初始残差特征进行更新,得到目标向量特征和目标残差特征;
[0177]
根据各目标向量特征和目标残差特征,确定各前向预测编码帧的第二帧特征。
[0178]
在一些可选的实现方式中,特征提取装置还可以包括:
[0179]
运动补偿信息确定模块,可用以基于下述步骤确定各前向预测编码帧相对于帧内编码帧的运动补偿信息:
[0180]
分别以各前向预测编码帧为起点,循环依时序向前确定当前帧的引用帧,并将引用帧作为新的当前帧,直至引用帧为帧内编码帧为止;
[0181]
在循环过程中,对当前帧与引用帧之间的运动补偿信息进行累积;
[0182]
在循环停止时,得到各前向预测编码帧相对于帧内编码帧的运动补偿信息。
[0183]
本公开实施例所提供的视频的特征提取装置,可执行本公开任意实施例所提供的视频的特征提取方法,具备执行方法相应的功能模块和有益效果。
[0184]
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
[0185]
实施例六
[0186]
图8为本公开实施例六所提供的一种视频的切片装置的结构示意图。本实施例提供的视频的切片装置适用于视频切片的情形,例如适用于对mpeg-4编码格式的视频数据进行切片的情形。
[0187]
如图8所示,本实施例提供的视频的切片装置,可以包括:
[0188]
帧特征确定模块810,用于确定目标视频数据中各视频帧的帧特征;
[0189]
双侧特征确定模块820,用于确定目标视频数据的候选边界帧,根据比候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比候选边界帧时序靠后的视频帧的帧特征确定右特征;
[0190]
切片模块830,用于将左特征与右特征输入预先训练的分类器,以使分类器确定候选边界帧是否为目标边界帧,并根据各目标边界帧对目标视频数据进行切片。
[0191]
其中,帧特征确定模块810,可用于根据本公开实施例中任一的视频的特征提取方法,确定目标视频数据中各视频帧的帧特征。
[0192]
在一些可选的实现方式中,帧特征确定模块可以用于:
[0193]
确定各帧内编码帧的第一帧特征,以及各前向预测编码帧的第二帧特征;
[0194]
将各第一帧特征进行尺寸变换,以使尺寸变换后的各第一帧特征与各第二帧特征的尺寸相同。
[0195]
在一些可选的实现方式中,左特征基于比候选边界帧时序靠前的视频帧的帧特征加权求和得到;右特征基于比候选边界帧时序靠后的视频帧的帧特征加权求和得到。
[0196]
在一些可选的实现方式中,帧特征确定模块还可以用于:根据本公开实施例任一的视频的特征提取方法,确定样本视频数据中各视频帧的帧特征,以及确定样本视频数据的边界帧标签;
[0197]
双侧特征确定模块,还可以用于确定样本视频数据的样本候选边界帧,根据比样本候选边界帧时序靠前的视频帧的帧特征确定样本左特征,以及根据比样本候选边界帧时序靠后的视频帧的帧特征确定样本右特征;
[0198]
切片模块,还可以用于将样本左特征与样本右特征输入分类器,以使分类器确定样本候选边界帧是否为样本目标边界帧;
[0199]
相应的,切片装置还可以包括:分类器训练模块,用于根据分类器确定的样本目标边界帧与边界帧标签,对分类器进行训练。
[0200]
本公开实施例所提供的视频的切片装置,可执行本公开任意实施例所提供的视频的切片方法,具备执行方法相应的功能模块和有益效果。
[0201]
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名
称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
[0202]
实施例七
[0203]
下面参考图9,其示出了适于用来实现本公开实施例的电子设备(例如图9中的终端设备或服务器)900的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0204]
如图9所示,电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(read-only memory,rom)902中的程序或者从存储装置906加载到随机访问存储器(random access memory,ram)903中的程序而执行各种适当的动作和处理。在ram 903中,还存储有电子设备900操作所需的各种程序和数据。处理装置901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0205]
通常,以下装置可以连接至i/o接口905:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0206]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置906被安装,或者从rom902被安装。在该计算机程序被处理装置901执行时,执行本公开实施例的视频的特征提取方法,或者视频的切片方法中限定的上述功能。
[0207]
本公开实施例提供的电子设备与上述实施例提供的视频的特征提取方法,以及视频的切片方法属于同一公开构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0208]
实施例八
[0209]
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的视频的特征提取方法,或者视频的切片方法。
[0210]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read-only memory,eprom)或闪存(flash)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开
中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0211]
在一些实施方式中,客户端、服务器可以利用诸如http(hyper text transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0212]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0213]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
[0214]
确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取帧内编码帧的第一帧特征,提取各前向预测编码帧相对于帧内编码帧的运动补偿信息的补偿特征;根据第一帧特征对各补偿特征进行更新,得到各前向预测编码帧的第二帧特征,以得到视频数据中各视频帧的帧特征。
[0215]
或者,使得该电子设备:
[0216]
确定目标视频数据中各视频帧的帧特征;确定目标视频数据的候选边界帧,根据比候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比候选边界帧时序靠后的视频帧的帧特征确定右特征;将左特征与右特征输入预先训练的分类器,以使分类器确定候选边界帧是否为目标边界帧,并根据各目标边界帧对目标视频数据进行切片。
[0217]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0218]
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基
本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0219]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元、模块的名称在某种情况下并不构成对该单元、模块本身的限定。
[0220]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(field programmable gate array,fpga)、专用集成电路(application specific integrated circuit,asic)、专用标准产品(application specific standard parts,assp)、片上系统(system on chip,soc)、复杂可编程逻辑设备(cpld)等等。
[0221]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行装置或设备使用或与指令执行装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0222]
根据本公开的一个或多个实施例,【示例一】提供了一种视频的特征提取方法,该方法包括:
[0223]
确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;
[0224]
针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;
[0225]
根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。
[0226]
根据本公开的一个或多个实施例,【示例二】提供了一种视频的特征提取方法,还包括:
[0227]
在一些可选的实现方式中,所述根据所述第一帧特征对各所述补偿特征进行更新,包括:
[0228]
将所述第一帧特征、所述运动补偿信息和所述补偿特征进行拼接,得到拼接图像;
[0229]
分别确定所述拼接图像在通道维度的第一权值,以及在空间维度的第二权值;
[0230]
根据所述第一权值和所述第二权值对所述第一帧特征进行处理得到更新参数,并根据所述更新参数对所述补偿特征进行更新。
[0231]
根据本公开的一个或多个实施例,【示例三】提供了一种视频的特征提取方法,还包括:
[0232]
在一些可选的实现方式中,所述分别确定所述拼接图像在通道维度的第一权值,
以及在空间维度的第二权值,包括:
[0233]
提取所述拼接图像的拼接特征;所述拼接特征与所述第一帧特征具有相同尺寸;
[0234]
将所述拼接特征在空间维度进行池化,并将池化结果进行全连接,得到所述拼接图像在通道维度的第一权值;
[0235]
将所述拼接特征中各通道的特征图进行卷积,并将卷积结果进行逻辑回归,得到所述拼接图像在空间维度的第二权值。
[0236]
根据本公开的一个或多个实施例,【示例四】提供了一种视频的特征提取方法,还包括:
[0237]
在一些可选的实现方式中,所述根据所述第一权值和所述第二权值对所述第一帧特征进行处理得到更新参数,包括:
[0238]
将所述第一帧特征与所述第一权值和所述第二权值相乘,得到更新参数。
[0239]
根据本公开的一个或多个实施例,【示例五】提供了一种视频的特征提取方法,还包括:
[0240]
在一些可选的实现方式中,所述根据所述更新参数对所述补偿特征进行更新,包括:
[0241]
将所述补偿特征在空间维度进行池化,并将池化结果与所述更新参数相加。
[0242]
根据本公开的一个或多个实施例,【示例六】提供了一种视频的特征提取方法,还包括:
[0243]
在一些可选的实现方式中,所述运动补偿信息包括运动向量和残差;
[0244]
相应的,所述根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,包括:
[0245]
根据所述第一帧特征,分别对各所述运动向量的初始向量特征,以及各所述残差的初始残差特征进行更新,得到目标向量特征和目标残差特征;
[0246]
根据各所述目标向量特征和目标残差特征,确定各所述前向预测编码帧的第二帧特征。
[0247]
根据本公开的一个或多个实施例,【示例七】提供了一种视频的特征提取方法,还包括:
[0248]
在一些可选的实现方式中,所述各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息,基于下述步骤确定:
[0249]
分别以各所述前向预测编码帧为起点,循环依时序向前确定当前帧的引用帧,并将所述引用帧作为新的当前帧,直至所述引用帧为所述帧内编码帧为止;
[0250]
在所述循环过程中,对所述当前帧与所述引用帧之间的运动补偿信息进行累积;
[0251]
在所述循环停止时,得到各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息。
[0252]
根据本公开的一个或多个实施例,【示例八】提供了一种视频的切片方法,该方法包括:
[0253]
确定目标视频数据中各视频帧的帧特征;
[0254]
确定所述目标视频数据的候选边界帧,根据比所述候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比所述候选边界帧时序靠后的视频帧的帧特征确定右特
征;
[0255]
将所述左特征与所述右特征输入预先训练的分类器,以使所述分类器确定所述候选边界帧是否为目标边界帧,并根据各所述目标边界帧对所述目标视频数据进行切片。
[0256]
根据本公开的一个或多个实施例,【示例九】提供了一种视频的切片方法,还包括:
[0257]
在一些可选的实现方式中,所述确定目标视频数据中各视频帧的帧特征,包括:
[0258]
确定各帧内编码帧的第一帧特征,以及各前向预测编码帧的第二帧特征;
[0259]
将各所述第一帧特征进行尺寸变换,以使尺寸变换后的各所述第一帧特征与各所述第二帧特征的尺寸相同。
[0260]
根据本公开的一个或多个实施例,【示例十】提供了一种视频的切片方法,还包括:
[0261]
在一些可选的实现方式中,所述左特征基于比所述候选边界帧时序靠前的视频帧的帧特征加权求和得到;所述右特征基于比所述候选边界帧时序靠后的视频帧的帧特征加权求和得到。
[0262]
根据本公开的一个或多个实施例,【示例十一】提供了一种视频的切片方法,还包括:
[0263]
在一些可选的实现方式中,所述分类器基于下述步骤训练:
[0264]
根据本公开实施例中任一所述的视频的特征提取方法,确定样本视频数据中各视频帧的帧特征,以及确定所述样本视频数据的边界帧标签;
[0265]
确定所述样本视频数据的样本候选边界帧,根据比所述样本候选边界帧时序靠前的视频帧的帧特征确定样本左特征,以及根据比所述样本候选边界帧时序靠后的视频帧的帧特征确定样本右特征;
[0266]
将所述样本左特征与所述样本右特征输入分类器,以使所述分类器确定所述样本候选边界帧是否为样本目标边界帧;
[0267]
根据所述分类器确定的样本目标边界帧与所述边界帧标签,对所述分类器进行训练。
[0268]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0269]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0270]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征:
1.一种视频的特征提取方法,其特征在于,包括:确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一帧特征对各所述补偿特征进行更新,包括:将所述第一帧特征、所述运动补偿信息和所述补偿特征进行拼接,得到拼接图像;分别确定所述拼接图像在通道维度的第一权值,以及在空间维度的第二权值;根据所述第一权值和所述第二权值对所述第一帧特征进行处理得到更新参数,并根据所述更新参数对所述补偿特征进行更新。3.根据权利要求2所述的方法,其特征在于,所述分别确定所述拼接图像在通道维度的第一权值,以及在空间维度的第二权值,包括:提取所述拼接图像的拼接特征;所述拼接特征与所述第一帧特征具有相同尺寸;将所述拼接特征在空间维度进行池化,并将池化结果进行全连接,得到所述拼接图像在通道维度的第一权值;将所述拼接特征中各通道的特征图进行卷积,并将卷积结果进行逻辑回归,得到所述拼接图像在空间维度的第二权值。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一权值和所述第二权值对所述第一帧特征进行处理得到更新参数,包括:将所述第一帧特征与所述第一权值和所述第二权值相乘,得到更新参数。5.根据权利要求2所述的方法,其特征在于,所述根据所述更新参数对所述补偿特征进行更新,包括:将所述补偿特征在空间维度进行池化,并将池化结果与所述更新参数相加。6.根据权利要求1所述的方法,其特征在于,所述运动补偿信息包括运动向量和残差;相应的,所述根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,包括:根据所述第一帧特征,分别对各所述运动向量的初始向量特征,以及各所述残差的初始残差特征进行更新,得到目标向量特征和目标残差特征;根据各所述目标向量特征和目标残差特征,确定各所述前向预测编码帧的第二帧特征。7.根据权利要求1所述的方法,其特征在于,所述各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息,基于下述步骤确定:分别以各所述前向预测编码帧为起点,循环依时序向前确定当前帧的引用帧,并将所述引用帧作为新的当前帧,直至所述引用帧为所述帧内编码帧为止;在所述循环过程中,对所述当前帧与所述引用帧之间的运动补偿信息进行累积;在所述循环停止时,得到各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信
息。8.一种视频的切片方法,其特征在于,包括:确定目标视频数据中各视频帧的帧特征;确定所述目标视频数据的候选边界帧,根据比所述候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比所述候选边界帧时序靠后的视频帧的帧特征确定右特征;将所述左特征与所述右特征输入预先训练的分类器,以使所述分类器确定所述候选边界帧是否为目标边界帧,并根据各所述目标边界帧对所述目标视频数据进行切片。9.根据权利要求8所述的方法,其特征在于,所述确定目标视频数据中各视频帧的帧特征,包括:确定各帧内编码帧的第一帧特征,以及各前向预测编码帧的第二帧特征;将各所述第一帧特征进行尺寸变换,以使尺寸变换后的各所述第一帧特征与各所述第二帧特征的尺寸相同。10.根据权利要求8所述的方法,其特征在于,所述左特征基于比所述候选边界帧时序靠前的视频帧的帧特征加权求和得到;所述右特征基于比所述候选边界帧时序靠后的视频帧的帧特征加权求和得到。11.根据权利要求8所述的方法,其特征在于,所述分类器基于下述步骤训练:确定样本视频数据中各视频帧的帧特征,以及确定所述样本视频数据的边界帧标签;确定所述样本视频数据的样本候选边界帧,根据比所述样本候选边界帧时序靠前的视频帧的帧特征确定样本左特征,以及根据比所述样本候选边界帧时序靠后的视频帧的帧特征确定样本右特征;将所述样本左特征与所述样本右特征输入分类器,以使所述分类器确定所述样本候选边界帧是否为样本目标边界帧;根据所述分类器确定的样本目标边界帧与所述边界帧标签,对所述分类器进行训练。12.一种视频的特征提取装置,其特征在于,包括:图片组确定模块,用于确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;特征提取模块,用于针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;特征更新模块,用于根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。13.一种视频的切片装置,其特征在于,包括:帧特征确定模块,用于确定目标视频数据中各视频帧的帧特征;双侧特征确定模块,用于确定所述目标视频数据的候选边界帧,根据比所述候选边界帧时序靠前的视频帧的帧特征确定左特征,以及根据比所述候选边界帧时序靠后的视频帧的帧特征确定右特征;切片模块,用于将所述左特征与所述右特征输入预先训练的分类器,以使所述分类器确定所述候选边界帧是否为目标边界帧,并根据各所述目标边界帧对所述目标视频数据进行切片。14.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频的特征提取方法,或者实现如权利要求8-11中任一所述的视频的切片方法。15.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的视频的特征提取方法,或者实现如权利要求8-11中任一所述的视频的切片方法。

技术总结
本公开实施例公开了一种视频的特征提取及切片方法、装置、电子设备及存储介质,该特征提取方法包括:确定视频数据的各图片组;每个图片组依时序包括一个帧内编码帧和至少一个前向预测编码帧;针对各图片组,提取所述帧内编码帧的第一帧特征,提取各所述前向预测编码帧相对于所述帧内编码帧的运动补偿信息的补偿特征;根据所述第一帧特征对各所述补偿特征进行更新,得到各所述前向预测编码帧的第二帧特征,以得到所述视频数据中各视频帧的帧特征。该特征提取方法无需完全解码各视频帧,而根据压缩编码的视频数据中的帧内编码帧的信息和前向预测编码帧的运动补偿信息,确定各帧的帧特征,能够节省存储空间,减少解码时间。减少解码时间。减少解码时间。


技术研发人员:王欣尧 文珑银 李聪聪 洪德祥
受保护的技术使用者:脸萌有限公司
技术研发日:2022.02.11
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐