视频识别方法、设备和存储介质与流程
未命名
09-13
阅读:72
评论:0

1.本发明涉及人工智能技术领域,尤其涉及一种视频识别方法、设备和存储介质。
背景技术:
2.利用人工智能技术已经能够实现视频识别也即是识别视频中对象的姿态。视频识别可以应用在众多场景中,比如在虚拟现实(vi rtual real ity,简称vr)、增强现实(augmented real ity,简称ar)、混合现实(mixed real ity,简称mr)等在内的扩展现实(extended real ity,简称xr)场景,此场景中通过识别视频中的用户动作以实现与用户之间的体感交互。又比如安防场景,通过对摄像头采集到的安防视频进行识别以确定视频中是否存在可疑人员等等。
3.因此,在视频识别的实际使用过程中,如何提高视频识别的准确性就成为一个亟待解决的问题。
技术实现要素:
4.有鉴于此,本发明实施例提供一种视频识别方法、设备和存储介质,用以保证视频识别的准确率。
5.第一方面,本发明实施例提供一种视频识别方法,包括:
6.获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;
7.根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
8.根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。
9.第二方面,本发明实施例提供一种视频识别方法,包括:
10.响应于作用在操作界面上的输入指令,获取待识别视频;
11.获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;
12.根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
13.根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。
14.在所述操作界面上显示所述识别结果。
15.第三方面,本发明实施例提供一种视频识别方法,应用于增强现实ar设备或者虚拟现实vr设备,包括:
16.采集包含用户动作的待识别视频;
17.获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧征;
18.根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
19.根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频包含的动作信息;
20.显示与所述动作信息对应的图像。
21.第四方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面至第三方面中任一方面的视频识别方法。该电子设备还可以包括通信接口,用于与其他设备或通信系统通信。
22.第五方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如上述第一方面至第三方面中任一方面的视频识别方法。
23.本发明实施例提供的视频识别方法中,识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同视频帧在时序上的关联,即能够反映不同视频帧之间的上下文信息。然后,识别设备确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息以及高层特征实现待识别视频的识别。
24.上述过程中,语义提示信息和时序提示信息共同用来引导识别设备对视频的识别方向。相比于图像,视频是一种动态影像,因此,利用语义和上下文信息两种提示信息能够为识别设备提供更加准确、丰富的引导方向,从而使识别设备能够更加准确地进行视频识别。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1为本发明实施例提供的一种视频识别方法的流程图;
27.图2为本发明实施例提供的一种语义提示信息确定方法的流程图;
28.图3为本发明实施例提供的一种视频识别的示意图;
29.图4为本发明实施例提供的一种信息池训练过程的示意图;
30.图5为本发明实施例提供的另一种视频识别方法的流程图;
31.图6为本发明实施例提供的另一种视频识别的示意图;
32.图7为本发明实施例提供的另一种信息池训练过程的示意图;
33.图8为本发明实施例提供的又一种视频识别方法的流程图;
34.图9为本发明实施例提供的一种视频识别的操作界面示意图;
35.图10为本发明实施例提供的又一种视频识别方法的流程图;
36.图11为在vr场景下使用本发明实施例提供的视频识别方法的示意图;
37.图12为在安防场景下使用本发明实施例提供的视频识别方法的示意图;
38.图13为本发明实施例提供的一种视频识别装置的结构示意图;
39.图14为本发明实施例提供的另一种视频识别装置的结构示意图;
40.图15为本发明实施例提供的又一种视频识别装置的结构示意图;
41.图16为本发明实施例提供的一种电子设备的结构示意图;
42.图17为本发明实施例提供的另一种电子设备的结构示意图;
43.图18为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
46.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
47.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
48.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
49.在对本发明下述各实施例提供的视频识别方法进行详细描述之前,还可以对下述各实施例中涉及到的相关概念进行解释:
50.预训练模型:一个通过使用大量数据进行训练并被保存下来的模型。通过执行历史任务使得该模型可以具有一部分历史功能,当出现新增功能时,可以不再从零开始训练新模型,而是可以直接在此模型的基础上进一步执行新增功能对应的增量任务,以使模型具有新增功能。
51.提示信息(prompt)用于指导预训练模型对原始输入数据的识别方向。提示信息可以与原始输入数据可以构成最新输入数据一并输入至预训练模型,以由预训练模型对最新输入数据进行识别。提示信息用于对预训练模型的识别方向进行指导。
52.视频识别:视频识别可以是对视频中目标对象的动作进行识别。可选地,可以利用预训练模型进行视频识别。
53.视频增量学习:新的动作会不断产生,则可以将新增动作作为新增任务进行训练,即需要获取包含新增动作的视频样本集,并根据此视频样本集进行训练,以使模型能够正确地识别新增动作。
54.基于上述描述,下面可以结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方
法实施例中的步骤时序仅为一种举例,而非严格限定。
55.图1为本发明实施例提供的一种视频识别方法的流程图。本发明实施例提供的该视频识别方法可以由具有数据处理能力的识别设备执行。如图1所示,该方法可以包括如下步骤:
56.s101,获取待识别视频的高层特征以及待识别视频中视频帧的视频帧特征。
57.识别设备可以先获取待识别视频,并利用自身配置的编码器对待识别视频进行编码,以分别得到该待识别视频的高层特征以及该待识别视频中不同视频帧各自的视频帧特征。其中,高层特征用于反映待识别视频的整体语义。多个视频帧各自的视频帧特征用于反映待识别视频中不同视频帧在时序上的关联关系,即反映不同视频帧之间的上下文关联。
58.对于视频帧特征的获取,可选地,识别设备中的视频编码器可以对待识别视频中的各帧进行编码,编码结果可以直接作为视频帧特征。但考虑到编码过程的计算量以及后续视频识别过程的计算量,可选地,识别设备也可以先对待识别视频进行采样,再由编码器对采样得到的少数视频帧进行编码,以得到视频帧特征。可选地,采样方式可以是均匀采样或其他任一种可实现的采样方式,本发明并不进行限定。可选地,通过采样得到的视频帧数量可以是8帧、16帧、24帧等等。
59.s102,根据视频帧特征,确定待识别视频对应的时序提示信息。
60.接着,识别设备可以确定该视频对应的语义提示信息,同时也可以根据上述编码得到的视频帧特征确定出该视频对应的时序提示信息。其中,语义提示信息用于引导识别设备在进行视频识别时重点考虑视频语义。类似的,时序提示信息用于引导识别设备在进行视频识别时重点考虑视频各视频帧之间的上下文关联。其中,视频帧特征、高层特征以及两种提示信息具体都可以表现为特征向量形式。
61.对于语义提示信息的确定,一种可选地方式,识别设备可以根据待识别视频的高层特征,从语义提示信息对应的信息池中筛选出该待识别视频对应的语义提示信息。其中,可选地,信息池中可以存储有成对的信息索引和语义提示信息,即一条信息索引指向语义提示信息,一条信息索引及其指向的语义提示信息具体可以表现为键值对的形式。并且相比于信息池中的其他语义提示信息,筛选出的语义提示信息在信息池中对应的信息索引与待识别视频的高层特征之间可以具有最高的相似度。
62.类似地,对于时序提示信息的确定,一种可选地方式,识别设备可以从时序提示信息对应的信息池中筛选出该待识别视频对应的时序提示信息。其中,可选地,信息池中可以存储有成对的信息索引和时序提示信息,一条信息索引及其指向的时序提示信息具体可以表现为键值对。并且相比于信息池中的其他时序提示信息,筛选出的时序提示信息在信息池中对应的信息索引与待识别视频的视频帧特征之间可以具有最高的相似度。
63.s103,根据待识别视频对应的语义提示信息、时序提示信息以及高层特征,确定待识别视频的识别结果。
64.最终,识别设备可以将待识别视频的语义提示信息、时序提示信息以及待识别视频的高层特征进行融合(stacking)处理,以利用融合特征进行视频识别。正如背景技术中提及的,也即是识别视频中目标对象的动作。
65.对于视频识别,一种可选地方式,可以将待识别视频的语义提示信息、时序提示信息以及高级特征一并输入识别设备中的识别模型,以由识别模型中的视频编码器对融合特
征进行进一步编码,并根据编码结果实现视频识别。可选地,识别模型可以是预训练模型,比如可以是基于imagenet预训练出的vit(vi s ion transformer)模型。
66.需要说明的有,承接背景技术中提及的各种使用场景,本实施例以及下述各实施例中的识别设备的具体表现也可以不同。举例来说,对于ar场景,识别设备可以是ar设备本身或者是提供ar服务的服务器。vr场景也是类似的。对于安防场景,识别设备可以是与安防摄像头配套的服务器,该服务器可以存储有安防摄像头采集到的安防视频并进一步对此视频进行识别。可选地,视频识别还可以应用到体育赛事中,比如用于对运动动作进行打分或者是否规范的判定等等。此时,识别设备可以是赛事的专用视频采集设备。
67.本实施例中,识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同视频帧在时序上的关联,即能够反映不同视频帧之间的上下文。然后,识别设备确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息和高层特征实现待识别视频的识别。
68.上述过程中,语义提示信息和时序提示信息共同用来引导识别设备对视频的识别方向。相比于图像,视频是一种动态影像,因此,利用反映语义和上下文信息的两种提示信息能够为识别设备提供更加准确、丰富的引导方向,从而使识别设备能够更加准确地进行视频识别。
69.对于待识别视频对应的语义提示信息,除了图1所示实施例中根据高层特征确定的方式,另一种可选地方式,还可以利用待识别视频的低层特征来确定。则图2为本发明实施例提供的一种语义提示信息确定方式的流程图。如图2所示,还可以包括以下步骤:
70.s201,获取待识别视频的低层特征,低层特征包含空间特征、时间特征和整体特征中的至少一种。
71.识别设备可以先获取待识别视频,并利用自身配置的编码器对待识别视频进行编码,以得到该待识别视频的低层特征。其中,低层特征用于反映待识别视频的纹理、颜色、边缘、棱角等信息。并且低层特征可以包括至少一种维度的特征,比如可以包括空间特征、时间特征和整体特征中的至少一种。其中,时间特征用于描述待识别视频中各视频帧随时间变化的特征。空间特征用于描述待识别视频中各视频帧的颜色特征,也可以认为是rgb特征。整体特征用于描述待识别视频的整体信息。
72.需要说明的有,对于视频的编码处理,识别设备中可以部署有相同或不同的编码器。可选地,可以使用不同的编码器以分别输出待识别视频的高层特征和低层特征。可选地,也使用同一编码器分别得到待识别视频的高层特征和低层特征。其中,编码器可以包括多个编码层,使用更多的编码层进行编码能够得到层级更高的特征。
73.s202,确定低层特征中目标低层特征对应的语义提示信息,目标低层特征为低层特征中的任一种特征。
74.对于低层特征中的任一种特征即目标低层特征,识别设备可以根据目标低层特征与信息池中信息索引之间的相似度确定目标索引。其中,每种低层特征都有与该种类特征对应的信息池。可选地,目标索引与目标低层特征之间可以具有最高相似度。然后,将目标信息索引在信息池对应的提示信息确定为该目标低层特征对应的语义提示信息。
75.其中,低层特征中空间特征对应的信息池可以表示为:
76.其中,k
s1
、k
s2
……ksn
为空间特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,表现为向量形式的提示信息的大小为l1*d1,l1为语义提示信息的长度,d1为空间特征的维度。
77.类似的,低层特征中时间特征对应的信息池可以表示为:
78.其中,k
t1
、k
t2
……ktn
为时间特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,提示信息的大小也为l1*d1。
79.整体特征对应的信息池可以表示为:
80.其中,k
c1
、k
c2
……kcn
为时间特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,提示信息的大小也为l1*d1。
81.照上述方式,识别设备可以分别得到不同种类的低层特征各自对应的语义提示信息。
82.s203,根据低层特征中至少一种特征各自对应的语义提示信息,确定待识别视频对应的语义提示信息。
83.最终,可以将低层特征中至少一种特征各自对应的语义提示信息确定为高层特征对应的语义提示信息。可选地,至少一种特征各自对应的语义提示信息可以表现为向量形式,则可以直接将向量相加,相加结果即可确定为待识别视频对应的语义提示信息,此时,待识别视频对应的语义提示信息可以表示为其中,和分别为从上述不同种类低层特征对应的信息池中得到的不同维度的语义提示信息。i1、i2、i3为1~n中的任一整数。
84.本实施例中,可以从语义提示信息以及上下文信息等角度对识别设备进行提示。其中,语义提示信息又是根据不同维度的低层特征获取到的不同维度的语义提示信息,并且还由于不同维度的语义提示信息是相对独立的,不是杂糅在一起的,因此,使用多维度的语义提示信息可以更清晰地引导识别设备进行视频识别,以进一步提高视频识别的准确性。
85.其中,上述各实施例中提及的确定语义提示信息和时序提示信息的方式都使用到了信息池,为了描述清楚,可以将确定语义提示信息使用到的信息池称为第一提示信息池,将确定时序提示信息使用到的信息池称为第二提示信息池。其中,低层特征中包含的至少一种特征均可以有各自对应的第一提示信息池。
86.则基于图2所示的语义提示信息的获取方式,待识别视频的整体识别过程还可以结合图3理解。
87.对于时序提示信息的获取,除了图1所示实施例中将最高相似度的信息索引对应的时序提示信息直接确定为待识别视频的时序提示信息,另一种可选地方式,识别设备可以将视频帧特征与信息池中的各信息索引之间的相似度确定为该各信息索引的权重,然后再根据信息池中各信息索引及其权重综合确定该待识别视频的时序提示信息。
88.举例来说,假设信息池中各信息索引对应的提示信息分别为a、b、c、d,视频帧特征与上述各信息索引之间的相似度分别为a,b,c,d,则该视频帧特征对应的时序提示信息为a*a+b*b+c*c+d*d。
89.其中,视频帧特征对应的信息池可以表示为:pm={(k
m1
,p
m1
),(k
m2
,p
m2
),
……
(k
mn
,p
mn
)}
90.其中,k
m1
、k
m2
……kmn
为视频帧特征对应的信息池中的n个信息索引,p
m1
、p
m2
……
p
mn
分别为前述n个信息索引各自指向的时序提示信息,向量形式的提示信息的大小为l2*d2,l2为时序提示信息的长度,d2为视频帧特征的维度。
91.本实施例中,在确定时序提示信息时综合考虑了信息池中的多个提示信息,并且还将相似度设置为用以反映多个提示信息重要性的权重,使得最终得到的时序提示信息更加综合、全面,并最终可以更精准地引导识别设备进行视频识别,以进一步提高视频识别的准确性。
92.可选地,确定语义提示信息所使用到的至少一个第一提示信息池,以及确定时序提示信息使用到的第二提示信息池都可以通过预先训练得到。
93.由于任一第一提示信息池的训练过程都是相同的,因此,可以以低层特征中目标种类的特征所对应的第一提示信息池为例,该信息池的创建过程可以为:
94.识别设备可以先获取视频样本集,并提取出视频样本集中各视频样本的低层特征和各视频样本的帧视频特征。其中,低层特征和帧视频特征的提取过程可以参见上述各实施例中的相关描述,在此不再赘述。然后,对各视频样本的目标类型的特征进行聚类,可以将聚类中心直接确定为目标种类的特征对应的第一提示信息池中的信息索引,同时为各信息索引设置初始提示信息。此时也即是创建完成了目标种类的特征对应的第一提示信息池。
95.类似的,还可以对视频样本集中各视频样本的视频帧特征进行聚类,并将聚类中心直接确定为第二提示信息池中的信息索引,同时为各信息索引设置初始提示信息。此时也即是完成了第二提示信息池的创建。
96.之后,还可以一并完成两种信息池的训练:
97.基于上述创建完成的两种信息池,识别设备可以按照图1所示实施例的方式,根据视频样本集中视频样本的高层特征、该视频样本的初始语义提示信息和初始时序提示信息输出视频样本的识别结果。该识别结果也可以认为是有可能存在偏差的预测结果,并且可选地,该预测结果可以由识别设备中部署的识别模型输出。此时,通过比对预测结果与视频样本的真实结果,以得到结果偏差,并利用此结果偏差调整初始语义提示信息以及初始时序提示提示信息,从而实现两种信息池的训练。可选地,可以借助损失函数计算得到预测结果与真实结果之间的结果偏差。
98.其中,可以按照图2所示实施例中方式,根据视频样本的低层特征,在不同类型的低层特征各自对应的第一提示信息池中确定初始语义提示信息,还可以根据视频样本的视频帧特征,在第二提示信息池中确定视频样本对应的初始时序提示信息。
99.可见,在使用各视频样本输出的预测结果进行提示信息调整时,只会调整输出预测结果时使用到的提示信息,而提示信息池中的其他信息并不会调整。上述训练过程也可以结合图4理解。
100.另外,由于识别设备进行视频识别重点是靠提示信息的引导,因此,信息池中包含的提示信息是否丰富、是否准确都可以对识别模型的识别能力即模型所能识别出的动作种类有至关重要的影响。则一种可选地方式,可以固定识别模型,并通过丰富信息池中的提示信息来提高识别模型的识别能力。而在实际中,随着时间的推移,需要识别模型能够识别出的动作类型也会逐渐增多,因此,还可以通过多次分批的方式来不断丰富信息池中的提示信息。
101.具体来说,在到达t1时间时,目标对象常见的动作可以包括原始的m种,该m种可以作为原始任务来训练得到适用于此m种动作的第一提示信息池,以使识别模型具有识别出m种动作的能力。在到达t1之后的t2时间时,目标对象的动作又新增了k种,则可以再次训练适用此k种动作的第一提示信息池,也即是将新增的k种动作作为增量任务进行信息池的训练。最终,利用多次训练出的第一提示信息池中的提示信息可以使识别模型具有识别出m+k种动作的能力。
102.可见,通过增量任务可以得到针对本次训练的第一提示信息池,也即是说第一提示信息池不仅对应于某一种类型的低层特征,还对应于某一训练任务即对应于该训练任务中包含的至少一种动作。
103.可选地,在分批训练第一提示信息池的同时也可以一并训练第二提示信池,即通过分批训练得到两种提示信息池。但考虑到在实际中,无论是包含原始m种动作的视频样本还是包含新增k种动作的视频样本,由于视频帧之间的上下文信息相差不大,因此,第二提示信息池也可以不采用分批训练的方式,而是在和第一提示信息池经过至少一次训练后即可不再训练。
104.由于任一种低层特征对应的第一提示信息池可以是分批训练得到的,因此,上述实施例中提及的空间特征对应的第一提示信息池ps具体又可以表示为:其中,分别为l批训练分别得到的空间特征对应的l个第一提示信息池。
105.类似的,时间特征对应的第一提示信息池p
t
具体又可以表示为:整体特征对应的第一提示信息池pc具体又可以表示为:
106.按照上述方式可以通过分批训练得到适用于不同动作的第一提示信息池,通过信息池中提示信息的丰富以提高识别模型的识别能力。相比于直接使用视频样本集训练识别模型以提高识别模型的识别能力,一方面,由于第一提示信息池包含的参数比识别模型的参数数量更少,因此,通过训练少量的参数即可快速提高识别模型的识别能力。其中,第一提示信息池中的提示信息可以认为是该信息池的参数。另一方面,当出现增量任务时,为了使识别模型不出现灾难性遗忘,就要获取增量任务对应的视频样本集以及历史任务对应的视频样本集。而当历史任务对应的视频样本集的获取难度较大时,便无法提高识别模型的识别能力。而在上述过程中,由于适用于不同动作的第一提示信息池是分批训练的,即在训练适用于新增k种动作的提示信息池时,不会使用到适用于原始m种动作的提示信息池,因此,也就能使识别设备保证对原始m种动作的识别能力,即不会出现灾难性遗忘。同时在分配训练得到适用于新增任务的第一提示信息池时也不会使用到历史任务对应的视频样本集,从而可以改善上述情况,降低提高识别模型的识别能力的难度。
107.与提示信息池类似的,可选地,当识别设备使用识别模型进行视频识别时,该识别
模型也可以进行预先训练。该预先训练完成的识别模型可以在分别从第一提示信息池和第二提示信息池中筛选出的语义提示信息和时序提示信息的指导下,对待识别视频的高层特征进行进一步编码,以识别出视频中目标对象的不同动作。
108.上述各实施例中,识别设备可以使用单一模态的数据(即视频模态的数据)进行视频识别,即可以利用待识别视频的高层特征、以及该待识别视频的语义提示信息和时序提示信息实现视频识别。其中,识别的具体过程可以由识别模型执行,即可以将前述得到的特征和提示信息进行融合,并将融合得到的融合特征输入识别模型,以由识别模型对融合特征进行编码,并根据编码结果输出待识别视频的识别结果。
109.可选地,识别设备还可以使用多模态的数据(比如视频模态的数据和文本模态的数据)进行视频识别,则图5为本发明实施例提供的另一种视频识别方法的流程图。如图5所示,该方法可以包括如下步骤:
110.s301,获取待识别视频的高层特征以及待识别视频中视频帧的视频帧特征。
111.s302,根据视频帧特征,确定待识别视频对应的时序提示信息。
112.上述步骤s301~步骤s302的具体实现过程可以参见图1所示实施例中相关步骤的具体描述,在此不再赘述。
113.s303,获取待识别视频对应的多个备选识别结果各自的文本特征。
114.s304,确定文本特征对应的文本提示信息。
115.备选识别结果可以是表现为文本形式的、识别设备能够识别出的各种动作,则识别设备可以利用自身的编码器对多个备选识别结果进行编码,以得到各备选识别结果各种的文本特征。
116.可选地,识别设备中可以设置有不同的编码器,用以分别对待识别视频和备选识别结果进行编码,以由不同的编码器输出待识别视频的高层特征、视频帧特征以及文本特征。
117.然后,识别设备可以进一步得到文本特征各自对应的文本提示信息。一种可选地方式,识别设备可以从第一提示信息池中确定文本信息各自对应的文本提示信息。根据图1所示实施例中的描述可知,第一提示信息池中的信息索引和提示信息是以键值对的形式存储的。在此基础上,第一提示信息池中的一条信息索引可以指向一组提示信息,一组提示信息可以包括不同种类的提示信息即同时包含语义提示信息和文本提示信息。因此,当识别设备按照图1或图2所示方式确定出语义提示信息后,即可同时确定出文本提示信息,其中,与语义提示信息相同的,文本提示信息也属于不同维度。
118.当采用图2所示方式确定语义提示信息时,文本提示信息的具体确定过程可以为:根据目标低层特征与第一提示信息池中信息索引之间的相似度,确定目标索引。其中,目标低层特征为低层特征中的任一种特征,第一提示信息池与目标特征的种类对应。然后,根据低层特征中至少一种低层特征各自对应的目标索引,在第一提示信息池中确定文本特征对应的文本提示信息。
119.可见,当具体采用图2所示方式确定语义提示信息时,由于低层特征包含至少一种特征,不同种特征又属于不同维度,则从第一提示信息池中确定出的语义提示信息也属于不同维度,比如属于空间维度、时间维度和整体维度等,因此,确定出的文本提示信息也是属于不同维度的,即文本提示信息的维度与语义提示信息的维度相同。
120.在本实施例中,低层特征中空间特征对应的第一提示信息池可以表示为:
121.其中,k
s1
、k
s2
……ksn
为空间特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,分别为前述n个信息索引各自指向的文本提示信息。语义提示信息的尺寸为l1*d1,l1为语义提示信息的长度,d1为空间特征的维度;文本提示信息的尺寸为l2*d2,l2为文本提示信息的长度,d2为文本特征的维度。
122.类似的,低层特征中时间特征对应的信息池可以表示为:
123.其中,k
t1
、k
t2
……ktn
为时间特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,分别为前述n个信息索引各自指向的文本提示信息。语义提示信息的尺寸为l1*d1;文本提示信息的尺寸为l2*d2。
124.低层特征中整体特征对应的信息池可以表示为:
125.其中,k
c1
、k
c2
……kcn
为整体特征对应的信息池中的n个信息索引,分别为前述n个信息索引各自指向的语义提示信息,分别为前述n个信息索引各自指向的文本提示信息。语义提示信息的尺寸为l1*d1;文本提示信息的尺寸为l2*d2。
126.s305,根据待识别视频对应的语义提示信息、时序提示信息、文本提示信息以及高层特征,确定待识别视频的识别结果。
127.最终,识别设备可以利用视频模态的数据(即待识别视频的高层特征、语义提示信息和时序提示信息)和文本模态的数据(即文本提示信息)共同进行待识别视频的识别。
128.可选地,本步骤中的识别过程具体可以由识别设备中的识别模型执行。识别模型具体也可以是预训练模型,比如对比文本-图像对的预训练(contrastive language-image pre-training,简称clip)模型。
129.具体地,识别模型可以先将待识别视频对应的语义提示信息、时序提示信息与高层特征进行融合,以得到视频融合特征v
p
=[p
vm
;v],同时将文本提示信息和文本特征进行融合,以得到文本融合特征w
p
=[p
t
;w]。
[0130]
其中,v为待识别视频的高层特征,p
vm
为待识别视频的语义提示信息和时序提示信息之和,w为待识别视频的文本特征,p
t
为文本提示信息。
[0131]
之后,识别模型再将视频融合特征和文本融合特征输入识别模型,以由识别模型输出待识别视频的识别结果。其中,由于文本特征是对一备选识别结果进行特征提取后得到的,因此,文本特征对应于该备选识别结果,则融合有文本特征的文本融合特征也对应于该备选识别结果。
[0132]
可选地,识别模型具体可以包括用于对视频进行编码的第一编码器和用于对文本进行编码的第二编码器。则基于此结构,识别模型的具体识别过程可以为:
[0133]
识别模型中的第一编码器对视频融合特征进行特征提取,识别模型中的第二编码器对文本融合特征进行特征提取。并且文本融合特征对应于某一备选识别结果,第二编码器对文本融合特征提取出的特征与该文本融合特征对应于同一备选识别结果。识别模型先分别计算第一编码器提取出的特征与第二编码器提取出的特征之间的相似度,将最高相似度对应的第二编码器提取出的特征作为目标特征。确定此目标特征对应的备选识别结果确定为为待识别视频的识别结果。
[0134]
并且基于上述的识别模型,本实施例提供的视频识别方法也可以结合图6理解。
[0135]
本实施例中采用多模态的数据实现视频识别。本实施例中未详细描述的内容以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
[0136]
可选地,当使用多模态数据进行视频识别时,同样可以使用到第一提示信息池和第二提示信息池,并且与图1~图4所示实施例中区别的是:第一提示信息池中一个信息索引指向的是一组同时包含语义提示信息和文本提示信息的提示信息。此时,低层特征中任一类型的特征(即目标类型的特征)对应的第一提示信息池的创建和训练过程可以描述为:
[0137]
识别设备可以先获取视频样本集,并提取出视频样本集中各视频样本的低层特征和各视频样本的帧视频特征。其中,低层特征和帧视频特征的提取过程可以参见上述各实施例中的相关描述,在此不再赘述。然后,对各视频样本的目标类型的特征进行聚类,可以将聚类中心直接确定为目标类型的特征对应的第一提示信息池中的信息索引,同时为各信息索引设置初始语义提示信息和初始文本提示信息。此时也即是创建完成了目标类型的特征对应的第一提示信息池。
[0138]
第二提示信息池的创建过程可以参见上述相关实施例中的描述,在此不再赘述。
[0139]
之后,还可以一并完成两种信息池的训练:
[0140]
基于上述创建完成的信息池,识别设备可以按照图5所示实施例的方式,根据视频样本集中视频样本的高层特征、该视频样本的初始语义提示信息、初始时序提示信息,备选识别结果的文本特征以及初始文本提示信息输出视频样本的识别结果。该识别结果也可以认为是有可能存在偏差的预测结果,可选地,该预测结果可以由识别设备中部署的识别模型输出。
[0141]
此时,可以借助损失函数对预测结果与视频样本的真实结果进行损失计算,并根据计算得到的损失值调整输入识别模型的初始语义提示信息、初始文本提示信息以及初始时序提示提示信息,也即是实现两种信息池的训练。
[0142]
其中,可以根据视频样本的低层特征,在不同类型的低层特征各自对应的第一提示信息池中一并确定初始语义提示信息和初始文本提示信息。还可以根据视频样本的视频帧特征,在第二提示信息池中确定视频样本对应的初始时序提示信息。
[0143]
另外,根据上述实施例可知,第一提示信息池和第二提示信息池可以分批进行训练,也即是可以使用不同批次各自对应的视频样本集合分别训练出各批次各自对应的第一提示信息池和第二提示信息池。
[0144]
在任一批次的训练过程中,若此批次训练使用的各视频样本中目标对象的动作是图5所示实施例中提及的多个备选识别结果,则按照上述过程可以训练得到对应于多个备选识别结果的第一提示信息池和第二提示信息池。可选地,这多个备选识别结果可以是识别设备所能识别出的目标对象的全部或者部分动作。
[0145]
上述训练过程同样可以通过丰富信息池中提示信息来提高识别模型的识别能力。并且还可以通过多次分批的方式来不断丰富信息池中的提示信息。相比于直接使用视频样本集训练识别模型以提高识别模型的识别能力,按照上述训练方式,一方面,由于第一提示信息池包含的参数比识别模型的参数数量更少,因此,通过训练少量的参数即可快速提高识别模型的识别能力。另一方面,由于适用于不同动作的第一提示信息池是分批训练的,并且在训练适用于新增任务的提示信息池时,不会使用到适用于原始任务的提示信息池,因此,也就能保证识别模型对原始m种动作的识别能力,即模型不会出现灾难性遗忘。同时在分批训练得到适用于新增任务的第一提示信息池时也不会使用到历史任务对应的视频样本集,从而可以改善历史任务对应的视频样本集的获取难度较大而无法提高识别模型的识别能力的问题。
[0146]
可选地,在分批训练第一提示信息池的同时虽然也可以一并训练第二提示信池,即同时训练两种提示信息池。但考虑到在实际中,无论是包含原始m种动作的视频样本还是包含新增k种动作的视频样本,由于视频帧之间的上下文信息相差不大,因此,第二提示信息池也可以不采用分批训练的方式,而是在和第一提示信息池经过至少一次训练后即可不再训练。
[0147]
上述各实施例已经从流程角度描述了实现识别视频的过程。在此基础上,该视频识别还可以作为一种能够与用户产生交互的服务。并且根据视频的内容不同,承接背景技术中的举例,提供给用户的服务具体还可以是ar服务、vr服务、视频分类服务、安防服务、赛事打分服务等等。
[0148]
则图8为本发明实施例提供的一种视频识别方法的流程图。该方法的执行主体可以为服务平台。可选地,此服务平台可以部署于上述各实施例提及的识别设备中。如图8所示,该方法可以包括如下步骤:
[0149]
s401,响应于作用在操作界面上的输入指令,获取待识别视频。
[0150]
s402,获取待识别视频的高层特征以及待识别视频中视频帧的视频帧特征。
[0151]
s403,根据视频帧特征,确定待识别视频对应的时序提示信息。
[0152]
s404,根据待识别视频对应的语义提示信息、时序提示信息以及高层特征,确定待识别视频的识别结果。
[0153]
s405,在操作界面上显示识别结果。
[0154]
服务平台提供的一种可选地操作界面(平台首页)可以图9所示,在该操作界面上用户可以选择服务内容并输入对应的待识别视频。之后,服务平台便可以执行上述步骤s402~步骤s405以使识别结果显示在服务平台的操作界面上(识别结果页)。以安防场景为例,识别结果页上可以显示“无异常”的识别结果。
[0155]
上述各步骤的具体实现过程可以参见上述各实施例中相关步骤的具体描述,在此不再赘述。
[0156]
本实施例中,服务平台借助操作界面输入待识别视频,之后可以进一步获取到待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同视频帧在时序上的关联,即能够反映不同视频帧之间的上下文。然后,识别设备确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息和高层特征实现待识别视频的识别,识
别结果可以展示在服务平台提供的操作界面上。
[0157]
上述过程中,语义提示信息和时序提示信息共同用来引导服务平台对视频的识别方向。相比于图像,视频是一种动态影像,因此,利用反映语义和上下文信息的两种提示信息能够为服务平台提供更加准确、丰富的引导方向,从而使服务平台能够更加准确地进行视频识别。
[0158]
另外,本实施例所能达到的其他技术效果还可以参见上述实施例中的描述,在此不再赘述。
[0159]
当上述各实施例中提及的视频识别方法具体使用到vr或者ar场景时,图10为本发明实施例提供的一种特征提取方法的流程图。该方法的执行主体具体还可以为vr设备或者ar设备。如图10所示,该方法可以包括如下步骤:
[0160]
s501,采集包含用户动作的待识别视频。
[0161]
s502,获取待识别视频的高层特征以及待识别视频中视频帧的视频帧特征。
[0162]
s503,根据视频帧特征,确定待识别视频对应的时序提示信息。
[0163]
s504,根据待识别视频对应的语义提示信息、时序提示信息以及高层特征,确定待识别视频包含的动作信息。
[0164]
s505,显示与动作信息对应的图像。
[0165]
以vr场景为例,vr设备可以用户动作时采集待识别视频,之后,vr设备便可以执行上述步骤s502~步骤s505以使vr设备显示与动作信息对应的图像。
[0166]
上述各步骤的具体实现过程可以参见上述各实施例中相关步骤的具体描述,在此不再赘述。
[0167]
本实施例中,设备采集包含用户动作的待识别视频,之后可以进一步获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同视频帧在时序上的关联,即能够反映不同视频帧之间的上下文。然后,识别设备确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息和高层特征识别出视频中的动作信息,以在设备上显示与动作信息对应的图像。
[0168]
上述过程中,语义提示信息和时序提示信息共同用来引导设备对视频的识别方向。相比于图像,视频是一种动态影像,因此,利用反映语义和上下文信息的两种提示信息能够为设备提供更加准确、丰富的引导方向,从而使设备能够更加准确地进行视频识别。
[0169]
另外,本实施例所能达到的其他技术效果还可以参见上述实施例中的描述,在此不再赘述。
[0170]
下面可以以vr场景为例,对上述各实施例提供的视频识别方法的具体实现过程进行描述。
[0171]
用户在t1时间使用vr设备时,看到的景象是房间内桌子上有一个杯子,则用户在t2时间可以产生包含“拿起”这一动作,则vr设备上配置的摄像头可以采集包含“拿起”动作的待识别视频,之后该待识别视频以及备选识别结果可以被vr设备中设置的不同编码器进行编码以分别得到该待识别视频的高层特征、低层特征、视频帧特征、文本特征。其中,备选识别结果可以包括vr设备能够识别的各种动作,比如拿起、方向、行走、咀嚼、微笑等等。
[0172]
接着,一方面,从包含不同种类的低层特征各自对应的第一提示信息池中,分别确
定出不同种类低层特征各自对应的语义提示信息和文本提示信息,并将多个语义提示信息之和确定为待识别视频对应的语义提示信息,将多个文本提示信息之和确定为文本特征对应的文本提示信息。另一方面,从第二提示信息池中确定该待识别视频而对应的时序提示信息。
[0173]
然后,vr设备可以将高层特征、待识别视频对应的语义提示信息、时序提示信息进行融合,以得到视频融合特征;将备选识别结果的文本特征以及文本特征对应的文本提示信息进行融合,以得到文本融合特征。再将这两种融合特征输入vr设备中部署的预训练模型,以由该模型分别对视频融合特征和文本融合特征进行编码,并根据编码结果确定待识别视频中包含的动作信息。
[0174]
相比于其他备选识别结果,预训练模型确定出“拿起”这一备选识别结果对应的文本融合特征的编码结果与待识别视频的视频融合特征的编码结果之间具有最高的相似度,此时,别模型可以输出识别结果为“拿起”,则vr设备响应于此识别结果可以在t3时间为用户显示桌上水杯被拿起的场景。
[0175]
上述场景实施例的内容还可以结合图11理解。
[0176]
使用上述方式进行视频识别时,语义提示信息和时序提示信息共同用来引导设备对视频的识别方向,从而使设备能够更加准确地进行视频识别。
[0177]
另外,实现上述识别的前提是训练参数数量较少的两种提示信息池,而无需训练参数数量较大的预训练模型,而提示信息池的训练也可以快速提高识别模型的识别能力。其中,第一提示信息池和第二提示信息池的训练过程可以参见上述各实施例中的相关描述。另外,由于第一提示信息池是分批训练的,并且不同批次使用的视频样本是不重复的,因此,在预训练模型不出现灾难性遗忘的同时,也可以改善因视频样本集获取难度较大而无法提高识别模型的识别能力的问题。
[0178]
下面还可以以安防场景为例,对上述各实施例提供的视频识别方法的具体实现过程进行描述。
[0179]
用户可以在服务平台提供的如图12所示的首页上选择安防服务,并进一步输入待识别视频,服务平台则可以进行对待识别视频进行处理,一种情况,服务平台识别结果页上可以显示“无异常”的识别结果。
[0180]
本场景下服务平台的具体工作过程以及所能达到的技术效果可以参见上述各实施例中的相关描述,在此不再赘述。
[0181]
以下将详细描述本发明的一个或多个实施例的视频识别装置。本领域技术人员可以理解,这些数据处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
[0182]
图13为本发明实施例提供的一种视频识别装置的结构示意图,如图13所示,该装置包括:
[0183]
第一综合特征获取模块11,用于获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征。
[0184]
第一时序提示信息确定模块12,用于根据所述视频帧特征,确定所述待识别视频对应的时序提示信息。
[0185]
第一识别结果确定模块13,用于根据所述待识别视频对应的语义提示信息、所述
时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。
[0186]
可选地,所述装置还包括:低层特征获取模块14,用于获取所述待识别视频的低层特征,所述低层特征包含空间特征、时间特征和整体特征中的至少一种。
[0187]
语义提示信息确定模块15,用于确定所述低层特征中目标低层特征对应的语义提示信息,所述目标低层特征为所述低层特征中的任一种特征;根据所述低层特征中至少一种特征各自对应的语义提示信息,确定所述待识别视频对应的语义提示信息。
[0188]
可选地,所述语义提示信息确定模块15,用于根据所述目标低层特征与第一提示信息池中信息索引之间的相似度,确定目标索引,所述第一提示信息池与所述目标特征所属的种类对应;根据所述目标索引,在所述第一提示信息池中确定所述目标低层特征对应的语义提示信息。
[0189]
可选地,所述第一时序提示信息确定模块12,用于将所述视频帧特征与第二提示信息池中的各信息索引之间的相似度确定为所述第二提示信息池中各信息索引的权重;根据所述权重以及所述第二提示信息池中的各提示信息确定所述时序提示信息。
[0190]
可选地,所述装置还包括:文本特征获取模块16,用于获取所述待识别视频对应的多个备选识别结果各自的文本特征。
[0191]
文本提示信息确定模块17,用于确定所述文本特征对应的文本提示信息。
[0192]
所述第一识别结果确定模块13,用于将所述待识别视频对应的语义提示信息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型,以由所述识别模型输出所述待识别视频的识别结果。
[0193]
可选地,所述文本提示信息确定模块17,用于根据所述目标低层特征与第一提示信息池中信息索引之间的相似度,确定目标索引,所述第一提示信息池与所述目标特征所属的种类对应;所述第一提示信息池中同一信息索引指向一组提示信息,所述一组提示信息包括语义提示信息和文本提示信息;在所述第一提示信息池中,将所述低层特征中至少一种低层特征各自对应的目标索引指向的文本提示信息确定为所述文本特征对应的文本提示信息。
[0194]
可选地,所述第一识别结果确定模块13,用于将所述语义提示信息、所述时序提示信息与所述高层特征进行融合,以得到视频融合特征,所述时序提示信息根据所述视频帧特征与第二提示信息池中的各信息索引之间的相似度得到;将所述文本提示信息和所述文本特征进行融合,以得到文本融合特征;将所述视频融合特征和文本融合特征输入所述识别模型。
[0195]
可选地,所述识别模型包括第一编码器和第二编码器。所述第一识别结果确定模块13,还用于所述第一编码器对所述视频融合特征进行特征提取,所述第二编码器对所述文本融合特征进行特征提取;确定所述第一编码器提取出的特征与所述第二编码器提取出的特征之间的相似度;将所述第二编码器提取出的目标特征对应的备选识别结果确定为所述待识别视频的识别结果,所述目标特征对应于最高的相似度。
[0196]
可选地,所述装置还包括:创建模块18,用于获取视频样本集中视频样本的低层特征以及所述视频样本中各视频帧的视频帧特征,所述低层特征包括包含空间特征、时间特征和整体特征中的至少一种,所述视频样本集对应于目标识别任务;对所述视频样本的低层特征中目标种类的特征进行聚类,将聚类中心确定为第一提示信息池中的信息索引,所
述第一提示信息池与所述目标种类对应;对所述视频帧特征进行聚类,将聚类中心确定为第二提示信息池的信息索引;分别为所述第一提示信息池和所述第二提示信息池设置初始提示信息。
[0197]
可选地,所述装置还包括:训练模块19,用于获取所述视频样本集中视频样本的高层特征、视频帧特征以及所述视频样本的备选识别结果的文本特征;根据所述视频样本的低层特征,在所述第一提示信息池中确定所述视频样本对应的初始语义提示信息以及初始文本提示信息;根据所述视频样本的视频帧特征,在所述第二提示信息池中确定所述视频样本对应的初始时序提示信息;将所述视频样本的高层特征、所述视频样本的文本特征、所述视频样本的所述初始语义提示信息、所述初始时序提示信息以及所述初始文本提示信息输入所述识别模型;根据所述识别模型输出的识别结果和所述视频样本的参考结果进行损失计算;根据计算得到的损失值调整所述初始语义提示信息、所述初始时序提示信息以及所述初始文本提示信息,以得到对应于所述多个备选识别结果的所述第一提示信息池和所述第二提示信息池。
[0198]
图13所示装置可以执行图1至图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1至图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图7所示实施例中的描述,在此不再赘述。
[0199]
在一个可能的设计中,上述各实施例提供的视频识别方法可以应用在一电子设备中,如图14所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持该电子设备执行上述图1~图7所示实施例中提供的视频识别方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
[0200]
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
[0201]
获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;
[0202]
根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
[0203]
根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。
[0204]
可选地,第一处理器21还用于执行前述图1~图7所示实施例中的全部或部分步骤。
[0205]
其中,电子设备的结构中还可以包括第一通信接口23,用于该电子设备与其他设备或通信系统通信。
[0206]
图15为本发明实施例提供的另一种视频识别装置的结构示意图,如图15所示,该装置包括:
[0207]
视频获取模块31,用于响应于作用在操作界面上的输入指令,获取待识别视频。
[0208]
第二特征获取模块32,用于获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征。
[0209]
第二时序提示信息确定模块33,用于根据所述视频帧特征,确定所述待识别视频对应的时序提示信息。
[0210]
第二识别结果确定模块34,用于根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。
[0211]
识别结果显示模块35,用于在所述操作界面上显示所述识别结果。
[0212]
图15所示装置可以执行图8至图9所示实施例的方法,本实施例未详细描述的部分,可参考对图8至图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图8至图9所示实施例中的描述,在此不再赘述。
[0213]
在一个可能的设计中,上述各实施例提供的视频识别方法可以应用在另一电子设备中,如图16所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储支持该电子设备执行上述图8~图9所示实施例中提供的视频识别的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
[0214]
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
[0215]
响应于作用在操作界面上的输入指令,获取待识别视频;
[0216]
获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;
[0217]
根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
[0218]
根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果;
[0219]
在所述操作界面上显示所述识别结果。
[0220]
可选地,第二处理器41还用于执行前述图8~图9所示实施例中的全部或部分步骤。
[0221]
其中,电子设备的结构中还可以包括第二通信接口43,用于该电子设备与其他设备或通信系统通信。
[0222]
图17为本发明实施例提供的又一种视频识别装置的结构示意图,如图17所示,该装置包括:
[0223]
采集模块51,用于采集包含用户动作的待识别视频。
[0224]
第三特征获取模块52,用于获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧征。
[0225]
第三时序提示信息确定模块53,用于根据所述视频帧特征,确定所述待识别视频对应的时序提示信息。
[0226]
动作信息确定模块54,用于根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频包含的动作信息。
[0227]
动作信息显示模块55,用于显示与所述动作信息对应的界面。
[0228]
图17所示装置可以执行图10所示实施例的方法,本实施例未详细描述的部分,可参考对图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图10所示实施例中的描述,在此不再赘述。
[0229]
在一个可能的设计中,上述各实施例提供的视频识别方法可以应用在另一电子设备中,如图18所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储支持该电子设备执行上述图10所示实施例中提供的视频识别方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
[0230]
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
[0231]
采集包含用户动作的待识别视频;
[0232]
获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧征;
[0233]
根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;
[0234]
根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频包含的动作信息;
[0235]
显示与所述动作信息对应的界面。
[0236]
可选地,第三处理器61还用于执行前述图10所示实施例中的全部或部分步骤。
[0237]
其中,电子设备的结构中还可以包括第三通信接口63,用于该电子设备与其他设备或通信系统通信。
[0238]
另外,本发明实施例提供了一种计算机存储介质,用于储存上述电子设备所用的计算机软件指令,其包含用于执行上述图1~图10所示的视频识别方法所涉及的程序。
[0239]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种视频识别方法,其特征在于,包括:获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述待识别视频的低层特征,所述低层特征包含空间特征、时间特征和整体特征中的至少一种;确定所述低层特征中目标低层特征对应的语义提示信息,所述目标低层特征为所述低层特征中的任一种特征;根据所述低层特征中至少一种特征各自对应的语义提示信息,确定所述待识别视频对应的语义提示信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述低层特征中目标低层特征对应的语义提示信息,包括:根据所述目标低层特征与第一提示信息池中信息索引之间的相似度,确定目标索引,所述第一提示信息池与所述目标特征所属的种类对应;根据所述目标索引,在所述第一提示信息池中确定所述目标低层特征对应的语义提示信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述视频帧特征,确定所述待识别视频的时序提示信息,包括:将所述视频帧特征与第二提示信息池中的各信息索引之间的相似度确定为所述第二提示信息池中各信息索引的权重;根据所述权重以及所述第二提示信息池中的各提示信息确定所述时序提示信息。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述待识别视频对应的多个备选识别结果各自的文本特征;确定所述文本特征对应的文本提示信息;所述根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果,包括:将所述待识别视频对应的语义提示信息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型,以由所述识别模型输出所述待识别视频的识别结果。6.根据权利要求5所述的方法,其特征在于,第一提示信息池中同一信息索引指向一组提示信息,所述一组提示信息包括语义提示信息和文本提示信息;所述确定所述文本特征对应的文本提示信息,包括;根据所述目标低层特征与第一提示信息池中信息索引之间的相似度,确定目标索引,所述第一提示信息池与所述目标特征所属的种类对应;在所述第一提示信息池中,将所述低层特征中至少一种低层特征各自对应的目标索引指向的文本提示信息确定为所述文本特征对应的文本提示信息。7.根据权利要求5所述的方法,其特征在于,所述将所述待识别视频对应的语义提示信
息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型,包括:将所述语义提示信息、所述时序提示信息与所述高层特征进行融合,以得到视频融合特征,所述时序提示信息根据所述视频帧特征与第二提示信息池中的各信息索引之间的相似度得到;将所述文本提示信息和所述文本特征进行融合,以得到文本融合特征;将所述视频融合特征和文本融合特征输入所述识别模型。8.根据权利要求7所述的方法,其特征在于,所述识别模型包括第一编码器和第二编码器;所述识别模型输出所述待识别视频的识别结果,包括:所述第一编码器对所述视频融合特征进行特征提取,所述第二编码器对所述文本融合特征进行特征提取;确定所述第一编码器提取出的特征与所述第二编码器提取出的特征之间的相似度;将所述第二编码器提取出的目标特征对应的备选识别结果确定为所述待识别视频的识别结果,所述目标特征对应于最高的相似度。9.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取视频样本集中视频样本的低层特征以及所述视频样本中各视频帧的视频帧特征,所述低层特征包括包含空间特征、时间特征和整体特征中的至少一种,所述视频样本集对应于目标识别任务;对所述视频样本的低层特征中目标种类的特征进行聚类,将聚类中心确定为第一提示信息池中的信息索引,所述第一提示信息池与所述目标种类对应;对所述视频帧特征进行聚类,将聚类中心确定为第二提示信息池的信息索引;分别为所述第一提示信息池和所述第二提示信息池设置初始提示信息。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:获取所述视频样本集中视频样本的高层特征、视频帧特征以及所述视频样本的备选识别结果的文本特征;根据所述视频样本的低层特征,在所述第一提示信息池中确定所述视频样本对应的初始语义提示信息以及初始文本提示信息;根据所述视频样本的视频帧特征,在所述第二提示信息池中确定所述视频样本对应的初始时序提示信息;将所述视频样本的高层特征、所述视频样本的文本特征、所述视频样本的所述初始语义提示信息、所述初始时序提示信息以及所述初始文本提示信息输入所述识别模型;根据所述识别模型输出的识别结果和所述视频样本的参考结果进行损失计算;根据计算得到的损失值调整所述初始语义提示信息、所述初始时序提示信息以及所述初始文本提示信息,以得到对应于所述多个备选识别结果的所述第一提示信息池和所述第二提示信息池。11.一种视频识别方法,其特征在于,包括:响应于作用在操作界面上的输入指令,获取待识别视频;获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;
根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果;在所述操作界面上显示所述识别结果。12.一种视频识别方法,其特征在于,应用于增强现实ar设备或者虚拟现实vr设备,包括:采集包含用户动作的待识别视频;获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧征;根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频包含的动作信息;显示与所述动作信息对应的界面。13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1~12中任一项所述的视频识别方法。14.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1~12中任一项所述的视频识别方法。
技术总结
本发明实施例提供一种视频识别方法、设备和存储介质,该方法包括:识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同帧在时序上的上下文关系。然后,确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息以及高层特征实现待识别视频的识别。其中,语义提示信息和时序提示信息可以作为提示用来引导识别设备利用高层特征进行视频识别的方向。上述过程中,利用语义和上下文信息两种提示信息能够为识别设备提供更加准确、丰富的引导方向,从而使识别设备能够更加准确地进行视频识别。使识别设备能够更加准确地进行视频识别。使识别设备能够更加准确地进行视频识别。
技术研发人员:裴逸璇 张士伟 张迎亚 吕逸良 赵德丽
受保护的技术使用者:阿里巴巴达摩院(杭州)科技有限公司
技术研发日:2023.04.10
技术公布日:2023/9/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/