解说视频检索方法、装置、电子设备及存储介质与流程
未命名
09-22
阅读:96
评论:0

1.本技术涉及人工智能技术领域,特别是涉及一种解说视频检索方法、装置、电子设备及存储介质。
背景技术:
2.目前,可以基于图像来搜索相关的视频数据,例如,可以基于待检索的图像,从预先构建的检索数据库中检索出对应的视频数据。
3.相关技术中,检索数据库的数据通常是通过搜索引擎根据关键词抓取得到的,然而,通过这种方式抓取的数据一般存在大量噪声,提高了数据清洗和整理的要求,从而降低了检索数据库的构建效率。
技术实现要素:
4.以下是对本技术详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
5.本技术实施例提供了一种解说视频检索方法、装置、电子设备及存储介质,能够提升检索数据库的构建效率。
6.一方面,本技术实施例提供了一种解说视频检索方法,包括:
7.从短视频平台的同一个视频类目中获取已被发布的候选解说视频;对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像;提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库;接收基于所述短视频平台的客户端上传的目标图像,提取所述目标图像的目标图像特征,基于所述目标图像特征在所述候选特征库中进行相似度匹配,根据匹配结果从所述候选解说片段中确定目标解说片段,根据所述目标解说片段得到所述目标图像的检索结果。
8.另一方面,本技术实施例还提供了一种解说视频检索装置,包括:第一获取模块,用于从短视频平台的同一个视频类目中获取已被发布的候选解说视频;第一处理模块,用于对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像;第二处理模块,用于提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库;第三处理模块,用于接收基于所述短视频平台的客户端上传的目标图像,提取所述目标图像的目标图像特征,基于所述目标图像特征在所述候选特征库中进行相似度匹配,根据匹配结果从所述候选解说片段中确定目标解说片段,根据所述目标解说片段得到
所述目标图像的检索结果。
9.进一步地,第二处理模块还用于:对所述片段图像进行人脸区域检测,得到若干个目标人脸框;将所述目标人脸框中各个像素点的像素值置零,或者,确定除了所述目标人脸框中的像素点以外的像素点的像素均值,将所述目标人脸框中各个像素点的像素值置为所述像素均值。
10.进一步地,第二处理模块还用于:对所述片段图像进行多次缩放,得到图像金字塔;对所述图像金字塔中各个图像进行人脸区域检测,得到若干个第一候选人脸框,对所述第一候选人脸框进行非极大值抑制,得到第二候选人脸框;对所述第二候选人脸框进行二分类,根据分类结果剔除不存在人脸的所述第二候选人脸框,对剩余的所述第二候选人脸框进行回归校准以及非极大值抑制,得到第三候选人脸框;对所述第三候选人脸框进行回归校准以及非极大值抑制,得到若干个目标人脸框。
11.进一步地,第二处理模块还用于:确定所述候选特征元素对应的注意力权重,根据所述注意力权重对所述候选特征元素进行加权,得到所述候选特征元素对应的注意力元素;基于各个所述注意力元素构建所述片段图像的所述注意力特征,基于所述注意力特征构建候选特征库。
12.进一步地,第二处理模块还用于:确定所述候选图像特征中所有所述候选特征元素的特征均值;确定所述候选特征元素与所述特征均值之间的特征差值,根据所述特征差值确定所述候选特征元素对应的注意力权重。
13.进一步地,第二处理模块还用于:对所述特征差值进行转置,得到转置差值,根据所述特征差值和所述转置差值生成所述候选图像特征的协方差矩阵;构建所述协方差矩阵的对角矩阵,基于所述对角矩阵对所述协方差矩阵进行特征值分解,得到参考特征;提取所述参考特征中首列的参考特征元素,对所述转置差值与所述参考特征元素之间的乘积进行归一化,得到所述候选特征元素对应的注意力权重。
14.进一步地,第一获取模块还用于:从短视频平台的同一个视频类目中获取已被发布的候选短视频,获取所述候选短视频标注的视频标签;当所述视频标签指示所述用于对待解说对象进行解说时,将所述候选短视频确定为候选解说视频。
15.进一步地,第一处理模块还用于:对所述候选解说视频进行特征提取,得到所述候选解说视频的候选视频特征;将所述候选视频特征与所述候选解说视频的直方图特征进行拼接,得到拼接视频
特征;根据所述拼接视频特征预测所述候选解说视频中每帧的边界帧概率;将所述边界帧概率大于或者等于预设概率阈值的帧确定为视频镜头边界帧,根据所述视频镜头边界帧将所述候选解说视频切分为若干个候选解说片段。
16.进一步地,第一处理模块还用于:从所述候选视频特征中提取所述候选解说片段的片段特征;根据所述片段特征对所述候选解说片段进行分类,得到所述候选解说片段的对象标签,其中,所述对象标签用于指示所述候选解说片段中包含的待解说对象的子对象;利用所述对象标签标记对应的所述候选解说片段。
17.进一步地,第三处理模块还用于:获取各个所述候选解说片段的所述对象标签;在除了所述目标解说片段以外的其他所述候选解说片段中,确定与所述目标解说片段标记有相同所述对象标签的所述参考解说片段;将所述目标解说片段以及所述参考解说片段作为所述目标图像的检索结果。
18.进一步地,第三处理模块还用于:根据所述目标图像特征与所述候选图像特征之间的相似度由高到低的顺序,对所述候选图像特征进行排序,将排名位于预设排名阈值之前的所述候选图像特征所对应的所述候选解说片段,确定为目标解说片段;或者,根据所述目标图像特征与所述候选图像特征之间的相似度由低到高的顺序,对所述候选图像特征进行排序,将排名位于预设排名阈值之后的所述候选图像特征所对应的所述候选解说片段,确定为目标解说片段。
19.另一方面,本技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的解说视频检索方法。
20.另一方面,本技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现上述的解说视频检索方法。
21.另一方面,本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的解说视频检索方法。
22.本技术实施例至少包括以下有益效果:通过从短视频平台的同一个视频类目中获取已被发布的候选解说视频,再对候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取候选解说片段中各帧的片段图像,提取各个片段图像的候选图像特征,基于候选图像特征构建候选特征库,由于候选解说视频位于短视频平台的同一个视频类目下,也就是说,获取到的候选解说视频已经预先由短视频平台进行整理分类,从而降低了构建候选特征库的数据清洗和整理的要求,提升了检索数据库的构建效率;并且,通过对候选解说视频进行视频镜头切分,能够细化候选特征库中的数据颗粒度,能够更好地支持后续的解说视频检索,进而提升解说视频检索的准确性;在此基础上,通过接收基于短视频平台的客户端上传的目标图像进而得到检索结果,相当于将解说视频检索的功能集成于短视频平台,一方面可以便捷地从短视频平台中获取候选解说视频,另一方面,也可以使得短视频平台
的功能更加多样化。
23.本技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。
附图说明
24.附图用来提供对本技术技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
25.图1为本技术实施例提供的一种可选的实施环境的示意图;图2为本技术实施例提供的解说视频检索方法的一种可选的流程示意图;图3为本技术实施例提供的在从短视频平台获取候选解说视频的一种可选的示意图;图4为本技术实施例提供的在对候选解说视频进行细化处理的一种可选的示意图;图5为本技术实施例提供的构建候选特征库的一种可选的示意图;图6为本技术实施例提供的深度特征提取模型的一种可选的结构示意图;图7为本技术实施例提供的对片段图像的像素值进行去扰处理的一种可选的示意图;图8为本技术实施例提供的对片段图像进行人脸区域检测的一种可选的示意图;图9为本技术实施例提供的确定注意力权重的一种可选的示意图;图10为本技术实施例提供的对候选解说视频进行视频镜头切分的一种可选的示意图;图11为本技术实施例提供的利用视频镜头边界帧进行视频镜头切分的一种可选的效果示意图;图12为本技术实施例提供的候选解说片段的对象标签的一种可选的示意图;图13为本技术实施例提供的扩展检索结果的一种可选的示意图;图14为本技术实施例提供的解说视频检索的一种可选的过程示意图;图15为本技术实施例提供的解说视频检索方法的一种可选的实际流程示意图;图16为本技术实施例提供的解说视频检索方法的一种可选的整体流程示意图;图17为本技术实施例提供的解说视频检索装置的一种可选的结构示意图;图18为本技术实施例提供的终端的部分结构框图;图19为本技术实施例提供的服务器的部分结构框图。
具体实施方式
26.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
27.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标
准。其中,目标对象可以是用户。此外,当本技术实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的目标对象相关数据。
28.为便于理解本技术实施例提供的技术方案,这里先对本技术实施例使用的一些关键名词进行解释:短视频,是一种互联网内容传播方式,是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,几秒到几分钟不等。
29.短视频平台,一种互联网新型媒体服务载体,用于向用户提供在互联网新媒体上传播的短视频(例如时长在5分钟以内的视频)。
30.云技术(cloud technology),是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
31.计算机视觉技术(computer vision,cv),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
32.人工智能(artificial intelligence,简称ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
33.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
34.相关技术中,检索数据库的数据通常是通过搜索引擎根据关键词抓取得到的,然而,通过这种方式抓取的数据一般存在大量噪声,提高了数据清洗和整理的要求,从而降低了检索数据库的构建效率。
35.为了解决上述问题,本技术实施例提供了一种解说视频检索方法、装置、电子设备及存储介质,能够提升检索数据库的构建效率。
36.参照图1,图1为本技术实施例提供的一种可选的实施环境的示意图,该实施环境包括终端101和服务器102,其中,终端101和服务器102之间通过通信网络连接。
37.服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外,服务器102还可以是区块链网络中的一个节点服务器。可选地,服务器102可以从短视频平台的同一个视频类目中获取已被发布的候选解说视频,根据候选解说视频构建用于进行解说视频检索的候选特征库,并且可以根据终端101发送的目标图像进行解说视频检索得到目标图像的检索结果。
38.终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等,但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例在此不做限制。可选地,终端101可以安装有短视频平台或者可以用于与短视频平台进行数据交互的客户端,通过短视频平台或者客户端可以向上传用于进行对象识别检索的目标图像至服务器102,并可以接收服务器102根据目标图像检索得到的检索结果。
39.示例性地,服务器102可以从短视频平台的同一个视频类目中获取已被发布的候选解说视频。接着,服务器102可以对候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取候选解说片段中各帧的片段图像;然后,服务器102可以提取各个片段图像的候选图像特征,基于候选图像特征构建候选特征库。安装有客户端的终端101可以向服务器102上传用于进行对象识别的目标图像,服务器102在接收到终端101上传的目标图像之后,可以提取目标图像的目标图像特征,基于目标图像特征在预先构建的候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果,从而终端101可以接收服务器102返回的检索结果,进而播放检索结果中的目标解说片段。由于候选解说视频位于短视频平台的同一个视频类目下,也就是说,获取到的候选解说视频已经预先由短视频平台进行整理分类,从而降低了构建候选特征库的数据清洗和整理的要求,提升了检索数据库的构建效率;并且,通过对候选解说视频进行视频镜头切分,能够细化候选特征库中的数据颗粒度,能够更好地支持后续的解说视频检索,进而提升解说视频检索的准确性;在此基础上,通过接收基于所述短视频平台的客户端上传的目标图像进而得到检索结果,相当于将解说视频检索的功能集成于短视频平台,一方面可以便捷地从短视频平台中获取候选解说视频,另一方面,也可以使得短视频平台的功能更加多样化。
40.本技术实施例提供的方法可应用于不同的技术领域,包括但不限于云技术、视频检索、人工智能、智慧交通、辅助驾驶等多种场景。
41.参照图2,图2为本技术实施例提供的解说视频检索方法的一种可选的流程示意图,该解说视频检索方法可以由终端执行,或者也可以由服务器执行,或者也可以由终端和服务器配合执行,在本技术实施例中,以该方法由服务器执行为例进行说明,该解说视频检索方法包括但不限于以下步骤201至步骤204。
42.步骤201:从短视频平台的同一个视频类目中获取已被发布的候选解说视频。
43.在一种可能的实现方式中,视频类目用于将短视频平台中的短视频进行分类,候选解说视频是指用于对待解说对象进行解说的视频,待解说对象为候选解说视频中出现的被解说的主体,其中,视频类目可以包括旅游、美食、游戏、电影、音乐、电子设备等,例如,候选解说视频可以是针对景点地标物进行解说的视频,或者可以是对家用电器的功能进行解说的视频,也可以是针对游戏画面中触发的游戏事件进行解说的视频,还可以是针对美食进行点评解说的视频,等等,相应地,待解说对象可以为景点地标物、家用电器、游戏事件、美食等等。
44.其中,获取候选解说视频的视频类目可以根据后续构建候选特征库的需求而定,例如,若需要检索的是景点相关的解说视频,则视频类目可以是旅游。
45.在一种可能的实现方式中,从短视频平台中获取的已被发布的候选解说视频可以是指通过该短视频平台上传发布的解说视频,也可以是指通过其他新媒体平台转载至该短视频平台进行发布的解说视频,也可以是指能够通过该短视频平台查看的其他新媒体平台中已被发布的解说视频,换句话说,从短视频平台中获取的已被发布的候选解说视频不限定于从该短视频平台中直接发布的视频,例如,短视频平台与另一个视频平台可以进行数据交互,可以通过短视频平台查询获得另一个视频平台的已被发布的数据,从而候选解说视频可以包括该短视频平台中已被发布的视频数据,以及在另一个视频平台发布的视频数据。
46.由于候选解说视频位于短视频平台的同一个视频类目下,也就是说,获取到的候选解说视频已经预先由短视频平台进行整理分类,从而降低了构建候选特征库的数据清洗和整理的要求,提升了检索数据库的构建效率。
47.在一种可能的实现方式中,在从短视频平台的同一个视频类目中获取已被发布的候选解说视频的过程中,具体可以从短视频平台的同一个视频类目中获取已被发布的候选短视频,获取所述候选短视频标注的视频标签,当所述视频标签指示所述候选短视频用于对待解说对象进行解说时,将所述候选短视频确定为候选解说视频。
48.其中,候选短视频被发布后,短视频平台可以利用视频标签对候选短视频进行标注,视频标签用于更加细化地对候选短视频进行分类,视频标签可以用于指示候选短视频是否为解说视频,例如,在视频类目“旅游”下,视频标签可以为“导游”或者“解说”,另外,视频标签也可以用于指示待解说对象的具体名称,例如,在视频类目“旅游”下,视频标签可以为“景点a”等等。
49.在一种可能的实现方式中,视频标签的数量可以为多个,多个视频标签分别用于指示候选短视频是否为解说视频以及用于指示待解说对象的具体名称,从而对候选短视频进行更加细致的标注,此时,可以结合多个视频标签判断候选短视频是否用于对特定的待解说对象进行解说。
50.可见,短视频平台具有大量的短视频数据,且短视频平台预先针对短视频的视频类目和视频表现形式一一识别、分类和整理,而不同视频类目下具有多种视频表现形式的短视频,分别通过不同的视频标签进行标注,因此,通过短视频平台获取已被发布的候选解说视频时,可以从短视频平台对应的视频类目中获取已被发布的候选短视频,利用短视频平台的视频类目对候选短视频进行初步筛选;接着,再根据短视频平台为各个候选短视频
标注的视频标签,从多个候选短视频中确定出候选解说视频,从而实现对候选短视频的二次筛选,有效地提升获取候选解说视频的准确性和精细化程度。
51.例如,参照图3,图3为本技术实施例提供的在从短视频平台获取候选解说视频的一种可选的示意图,可以从多个视频类目中选择“旅游”视频类目下的所有短视频作为候选短视频,进而将视频标签为“解说”和视频标签为“景点a”的候选短视频确定为候选解说视频。
52.可以理解的是,示例性地,当短视频平台以“景点解说”作为一个视频类目时,该视频类目下所有的候选短视频均为候选解说视频。
53.步骤202:对候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取候选解说片段中各帧的片段图像。
54.相关技术中,由于候选解说视频中可能包括针对多个待解说对象的解说内容,例如,通过多个不同待解说对象的视频片段拼凑剪辑形成的候选解说视频,所以,若直接对候选解说视频进行识别,容易出现遗漏识别或者错误识别的情况。相应地,可以通过对候选解说视频进行视频镜头切分,能够细化候选特征库中的数据颗粒度,能够更好地支持后续的解说视频检索,进而提升解说视频检索的准确性。
55.其中,对候选解说视频进行视频镜头切分,即根据视频镜头的变化对候选解说视频进行切分,可以是指将候选解说视频按照不同的动作、场景、角度和特写等因素进行切分,从而区分候选解说视频中不同的视频镜头。其中,可以针对拍摄的待解说对象一个动作的部分状态变化或部分细节展示进行切分,以将表现时间与事件区分开,得到多个待解说对象的视频片段,或者得到一个拍摄对象中多个部分细节展示的视频片段。例如,针对于景点景区进行拍摄的解说视频,一个景点景区的解说视频的时长可能在几分钟至十几分钟时间,而一个景点景区可以包括有多个子景点,且部分景点景区难以通过同一镜头进行拍摄,因此,可以通过对候选解说视频进行视频镜头切分,分割出多个子景点对应的候选解说片段,或者分割出同一景点景区中不同部分细节展示的候选解说片段,从而能够细化候选解说视频,以不同展示内容的候选解说片段为粒度进行检索,有助于提高解说视频检索的准确率。
56.具体地,参照图4,图4为本技术实施例提供的在对候选解说视频进行细化处理的一种可选的示意图,可见,可以先对候选解说视频进行视频镜头切分得到候选解说片段a、候选解说片段b和候选解说片段c,接着,对候选解说片段进行进一步的细化处理,抽取候选解说片段中各帧的片段图像,细化候选解说视频,以候选解说片段b为例,可以抽取得到六帧的片段图像,用于后续处理。
57.在一种可能的实现方式中,可以基于服务器处理能力,在对候选解说视频进行视频镜头切分的基础上,增加基于视频的时长比例、固定时间间隔或者分割片段数量的视频分割规则,对候选解说视频进行初步分割,或者对候选解说片段进行二次分割,以降低单个解说片段的数据处理量,提高服务器处理效率。另外,针对候选解说片段的抽帧处理,可以是对候选解说片段的每帧图像进行抽取处理,也可以是根据预设采样频率进行采样抽取处理。
58.步骤203:提取各个片段图像的候选图像特征,基于候选图像特征构建候选特征库。
59.在一种可能的实现方式中,候选图像特征能够表征为该片段图像所携带的信息,从而可以通过候选图像特征对各个片段图像、各个解说片段以及各个候选解说视频进行区分,因此,利用候选图像特征构建候选特征库,能够提供精细化的视频检索功能,提高视频检索的准确率。相应地,候选特征库中包括有各个片段图像的候选图像特征,同时,各个候选图像特征与对应的片段图像存在关联关系,以便可以根据候选图像特征确定对应的片段图像。
60.例如,参照图5,图5为本技术实施例提供的构建候选特征库的一种可选的示意图,可以利用预先训练好的深度特征提取网络模型,对所有片段图像,如片段图像a至片段图像n,一一进行深度特征提取,提取得到各个片段图像的候选图像特征。接着,根据各个候选图像特征与片段图像、候选解说片段以及候选解说视频的对应关系进行关联并构建候选特征库,从而可以实现基于片段图像进行检索匹配,提高检索的准确率。
61.在一种可能的实现方式中,可以基于计算机视觉技术,利用预先训练好的深度特征提取模型对片段图像进行候选图像特征的提取。参照图6,图6为本技术实施例提供的深度特征提取模型的一种可选的结构示意图,可见,深度特征提取模型可以采用经过对比损失和captioning损失(描述损失)训练的编码器-解码器架构,其中,解码器解耦形成两部分,分别是单模态解码器和多模态解码器,省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。在编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,利用有标签图像数据和带噪声图像-文本数据对深度特征提取模型进行训练。其中,在对深度特征提取模型进行训练的过程中,可以借助手工标注的标准的数据集(即正样本数据)和大量带噪声的开源的图像文本对(即负样本数据),通过对比损失预训练深度特征提取模型,使得提高正样本数据中的图像与文本之间的相似度,而降低负样本数据中的图像与文本之间的相似度,从而能够提高深度特征提取模型的特征提取准确性。
62.步骤204:接收基于短视频平台的客户端上传的目标图像,提取目标图像的目标图像特征,基于目标图像特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果。
63.在一种可能的实现方式中,目标图像即待检索的图像,目标图像可以是由客户端通过短视频平台上传的图像数据,而该图像数据可以是预先存储于客户端中的图像数据,也可以是短视频平台通过调用客户端中的拍摄功能实时拍摄的图像数据,也可以该客户端在短视频平台中正在播放的短视频的截图图像数据。由于目标图像是通过同一短视频平台上传的,目标图像的数据格式与各个候选解说视频的片段图像的数据格式相同或相近,对数据的处理要求低,无需对因数据源不同而带来的数据差异性进行修正,处理效率高,数据的兼容性高,因此,可以利用相同的图像特征提取处理过程对目标图像进行特征提取,得到的目标图像特征的数据格式与候选图像特征的数据格式相同,从而可以直接基于目标图像特征在候选特征库中进行相似度匹配,提高特征匹配的速率。
64.并且,通过接收基于所述短视频平台的客户端上传的目标图像进而得到检索结果,相当于将解说视频检索的功能集成于短视频平台,一方面可以便捷地从短视频平台中获取候选解说视频,另一方面,也可以使得短视频平台的功能更加多样化。
65.在一种可能的实现方式中,客户端可以与短视频平台的服务器进行数据交互,客户端可以向服务器上传目标图像,服务器在接收得到客户端发送的目标图像之后,可以采用前述对片段图像进行特征提取的方式对目标图像进行特征提取处理,得到目标图像的目标图像特征;接着,根据目标图像特征在预先构建好的候选特征库中进行相似度匹配,得到匹配结果,即匹配出与目标图像特征相似的候选图像特征,其中,相似度匹配可以采用计算余弦相似度、欧氏距离等方式实现;然后,根据匹配得到的候选图像特征从多个候选解说片段中确定出目标解说片段,具体可以是当候选解说片段中任意一个片段图像的候选图像特征,与目标图像特征之间的相似度大于或者等于预设的相似度阈值时,将该候选解说片段确定为目标解说片段。后续再根据目标解说片段确定出目标图像的检索结果,在得到目标图像的检索结果之后,服务器可以向该客户端返回检索结果。
66.在一种可能的实现方式中,在提取各个片段图像的候选图像特征之前,可以先对片段图像进行人脸区域检测,得到若干个目标人脸框;然后,将目标人脸框中各个像素点的像素值置零,或者,确定除了目标人脸框中的像素点以外的像素点的像素均值,将目标人脸框中各个像素点的像素值置为像素均值。针对于除了人物解说介绍的解说视频之外的解说视频,部分解说视频的片段图像中会出现人物部分图像,而人物部分图像并非该解说视频的待解说对象,即人物部分为干扰对象,且人物部分图像会存在遮挡解说对象,影响识别结果,例如,针对于景区景点解说视频,景区景点解说视频通过实在景区场景中现场录制的,片段图像中通常会包含有解说者的自身形象,而解说者形象会占据片段图像中的部分区域,并且在景区场景中往往存在大量的游客,导致片段图像中会出现大量的人物部分图像,遮挡景区景点的部分特征,影响景区景点的识别效果。
67.因此,通过对片段图像进行人脸图像检测确定出人物部分图像在片段图像中的区域,即干扰区域,然后将干扰区域部分进行去扰处理,提高待解说对象的识别效果。其中,通过将目标人脸框中各个像素点的像素值置为像素均值,可以最大限度地恢复片段图像中与待解说对象相关联的信息,有利于进一步提升提高待解说对象的识别效果。
68.例如,参照图7,图7为本技术实施例提供的对片段图像的像素值进行去扰处理的一种可选的示意图,通过对片段图像进行人脸区域检测,从片段图像中确定出目标人脸框,接着对片段图像进行像素化处理,并根据目标人脸框确定出干扰区域部分的像素点,如图7所示,目标人脸框的区域可以通过像素值为x的像素点来表示,而除了目标人脸框以外的区域可以通过像素值为y的像素点来表示。对片段图像中的目标人脸框进行去扰处理,可以将目标人脸框的像素值置零,或将目标人脸框的像素值置为除了目标人脸框以外的像素点的像素均值,其中,除了目标人脸框以外的像素点的像素均值可以通过像素值为z的像素点来表示,即片段图像中像素值为y的像素点的均值。需要说明的是,人脸区域检测包括对人物面部特征进行识别,还包括对人物整体形象特征进行识别,相应地,目标人脸框包括人脸面部图像,也可以包括人物整体图像。
69.在一种可能的实现方式中,在对片段图像进行人脸区域检测,得到若干个目标人脸框的过程中,可以先对片段图像进行多次缩放,得到图像金字塔;其次,对图像金字塔中各个图像进行人脸区域检测,得到若干个第一候选人脸框,对第一候选人脸框进行非极大值抑制,得到第二候选人脸框;接着,对第二候选人脸框进行二分类,根据分类结果剔除不存在人脸的第二候选人脸框,对剩余的第二候选人脸框进行回归校准以及非极大值抑制,
得到第三候选人脸框;然后,可以对第三候选人脸框进行回归校准以及非极大值抑制,得到若干个目标人脸框。
70.在一种可能的实现方式中,人脸检测是计算机视觉中的一个问题,即在片段图像中定位一张或多张人脸。在片段图像中定位人脸是指在片段图像中找到人脸的坐标,并通过人脸周围的边界框来划分人脸的范围,形成候选人脸框。因此,可以利用人脸检测模型对片段图像进行人脸区域检测。
71.例如,参照图8,图8为本技术实施例提供的对片段图像进行人脸区域检测的一种可选的示意图。首先,可以将片段图像重新缩放为不同大小的范围,得到不同尺寸的缩放图像,即图像金字塔。其中,人脸检测模型是一个深度级联多任务框架,可以包括有多个神经网络子模型如区域候选网络(proposal network,p-net)、区域筛选网络(refine network,r-net)以及区域输出网络(output network,o-net)。在第一阶段中,可以利用p-net对图像金字塔中各个缩放图像进行人脸区域检测,其中,通过一个人脸分类器判断各个图像的区域是否存在人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议,得到多个可能存在人脸的第一候选人脸框。另外,在第一阶段中,可以对初步生成的第一候选人脸输入框进行非极大值抑制,将在片段图像中空间位置距离接近的第一候选人脸输入框进行校准,合并高度重叠的第一候选人脸输入框,从而得到第二候选人脸框。接着,将这些第二候选人脸框输入至r-net进行进一步处理,r-net可以对第二候选人脸框进行人脸-非人脸二分类,从第二候选人脸框中筛选出仅存在人脸的第二候选人脸框。接着对存在人脸的第二候选人脸框进行边界回归校准处理和非极大值抑制,来抑制假正例的第二候选人脸框,从而得到第三候选人脸框。然后,将第三候选人脸框输入至o-net进行处理,再次进行人脸判别(二分类)、候选人脸框的边界回归和人脸特征点定位,并利用人脸特征点进行回归,再进行人脸特征点的回归处理之后,再次进行非极大值抑制处理,能够保留更多的图像特征,从第三候选人脸框中确定出准确的目标人脸框。需要说明的是,三个神经网络子模型不直接连接,是将前一阶段的输出作为输入送到下一阶段,并且可以在各个阶段之间执行额外的处理;例如,第二候选人脸框可以在将第一阶段中p-net提出的第一候选人脸框提供给第二阶段的r-net模型之前对第一候选人脸框进行非极大值抑制过滤处理得到。
72.在一种可能的实现方式中,在基于候选图像特征构建候选特征库的过程中,可以先确定候选特征元素对应的注意力权重,根据注意力权重对候选特征元素进行加权,得到候选特征元素对应的注意力元素;然后,基于各个注意力元素构建片段图像的注意力特征,基于注意力特征构建候选特征库。其中,候选图像特征包括多个候选特征元素。由于每张片段图像对应一个候选图像特征,候选图像特征可以表征为片段图像的整体图像描述,而候选图像特征包括多个候选特征元素,片段图像也包括多个候选对象,每个候选特征元素可以表征为片段图像中各个对象的对象图像描述。但一个片段图像中通常会出现多个对象的相关内容,例如出现部分与待解说对象相关的内容,也会出现部分与待解说对象无关的内容。
73.对于深度特征提取的到的候选图像特征,可以直接对所有候选图像特征进行特征平均汇合处理,即直接计算所有候选图像特征的均值作为构建候选特征库的基础特征,但这种方式忽略候选图像特征所需要表达的图像信息,还容易将与待解说对象无关的内容融合至基础特征,影响候选特征库中基础特征的数据准确性,进而影响解说视频检索的准确
性。因此,可以确定出各个候选特征元素对应的注意力权重,利用注意力权重对候选特征元素进行加权修正,突出片段图像中所表达的图像信息,以及有助于抑制与待解说对象无关的信息内容,从而能够提高候选特征库中数据的准确性。
74.在一种可能的实现方式中,可以根据候选特征元素所对应的对象与待解说对象的相关性,确定出候选特征元素对应的注意力权重。其中,候选特征元素所对应的对象与待解说对象的相关性越高,该候选特征元素对应的注意力权重越大,从而可以利用注意力权重对候选特征元素进行加权修正处理,得到候选特征元素对应的注意力元素,进而能够提高与待解说对象的相关性高的候选特征元素的影响,而抑制与待解说对象的相关性低的候选特征元素的影响,提高解说视频检索的准确率。
75.在一种可能的实现方式中,可以根据候选特征元素所对应的对象(除人物形象等干扰对象之外的对象)在片段图像中所占据面积的比例,确定出候选特征元素对应的注意力权重。当候选特征元素所对应的对象在片段图像中所占据面积的比例越大,可以认为候选特征元素所对应的对象为当前片段图像中所要表达的图像信息的重要性越高,因此,该候选特征元素对应的注意力权重越大,从而能够突出各个片段图像中所要表达的主体图像信息,抑制无关信息内容的干扰,提高解说视频检索的准确率。例如,可以根据候选特征元素的特征值的大小,对候选特征元素进行排序,特征值越大的候选特征元素可以认为其重要性越高,从而为其分配更大的注意力权重,来强调片段图像中所要表达的主体图像信息。
76.在一种可能的实现方式中,在确定候选特征元素对应的注意力权重的过程中,可以先确定候选图像特征中所有候选特征元素的特征均值;然后,确定候选特征元素与特征均值之间的特征差值,根据特征差值确定候选特征元素对应的注意力权重。通过计算候选特征元素与特征均值之间的特征差值,可以确定出各个候选特征元素相对于片段图像的平均水平的偏离程度,即确定出各个候选特征元素的显著性,从而可以根据各个候选特征元素对于片段图像中的重要性,分配相应的注意力权重,能够强调片段图像中所要表达的主要信息内容。
77.在一种可能的实现方式中,在根据特征差值确定候选特征元素对应的注意力权重的过程中,在计算出各个候选特征元素与特征均值之间的特征差值之后,可以利用特征差值与所有候选特征元素之和的比例,确定出候选特征元素对应的注意力权重。另外,在计算出各个候选特征元素与特征均值之间的特征差值之后,还可以利用各个候选特征元素对应的特征差值与自身特征值的比例,确定出候选特征元素对应的注意力权重。
78.在一种可能的实现方式中,在根据特征差值确定候选特征元素对应的注意力权重的过程中,可以先对特征差值进行转置,得到转置差值,根据特征差值和转置差值生成候选图像特征的协方差矩阵;然后,构建协方差矩阵的对角矩阵,基于对角矩阵对协方差矩阵进行特征值分解,得到参考特征;接着,提取参考特征中首列的参考特征元素,对转置差值与参考特征元素之间的乘积进行归一化,得到候选特征元素对应的注意力权重。
79.例如,参照图9,图9为本技术实施例提供的确定注意力权重的一种可选的示意图。可见,当通过对某个候选解说片段抽取得到张片段图像,并且对所有片段图形进行候选图像特征进行提取,得到个候选图像特征,各个候选图像特征包括有个候选特征元素,其中,第张片段图像的候选图像特征为。首先,计算所有候选图像特征的均值,具体计算公式如下:
[0080][0081]
其中,为特征均值,为抽取得到的片段图像的总数,为其中一个片段图像中的候选特征元素的总数,为第张片段图像的第个候选特征元素,、、和均为正整数。然后,计算候选图像特征的协方差矩阵,具体计算公式如下:
[0082][0083]
其中,为协方差矩阵。由于协方差矩阵是一个实对称矩阵,因此,可以进行特征值分解,即如下公式所示:
[0084][0085]
其中,矩阵是协方差矩阵的候选特征元素组成的矩阵,矩阵是协方差矩阵的对角矩阵,矩阵的对角线上的特征元素是协方差矩阵的候选特征元素,且矩阵的对角线上的特征元素按照左上到右下的方向,根据特征元素的特征值由大至小进行排列。经过对协方差矩阵进行特征值分解后,可以得到参考特征,参考特征为矩阵,而提取参考特征中首列的参考特征元素,即为矩阵中的第一列的特征元素,且参考特征元素是矩阵中具有最大特征值的特征元素,参考特征元素能够表示特征经过中心化后在新的坐标系下的最大方差方向,因此,参考特征元素能够表征片段图像中的重要性高的信息。对于第张片段图像的各个候选特征元素,利用转置差值与参考特征元素之间的乘积进行归一化,得到候选特征元素对应的注意力权重,具体计算公式如下:
[0086][0087]
其中,为参考特征元素,为第张片段图像的第个候选特征元素的注意力权重。需要说明的是,为sigmoid函数,用于对数据进行归一化。因此,基于注意力权重,对片段图像的各个候选特征元素进行加权处理,得到各个片段图像的注意力元素,具体计算公式如下:
[0088][0089]
其中,表示为第个候选特征元素对应的注意力元素。接着,基于各个注意力元素构建片段图像的注意力特征,即,进而可以利用各个片段图像的注意力特征构建候选特征库。
[0090]
可以理解的是,在提取目标图像的目标图像特征时也可以采用类似的方式,即:目标图像特征为为目标特征元素,各个目标特征元素的注意力权重为:
[0091][0092]
各个目标特征元素对应的注意力元素为:
[0093]
最后可以得到目标图像的注意力特征,基于目标图像的注意力特征与候选特征库中的各个片段图像的注意力特征进行相似度匹配。
[0094]
在一种可能的实现方式中,在对候选解说视频进行视频镜头切分的过程中,可以先对候选解说视频进行特征提取,得到候选解说视频的候选视频特征;其次,将候选视频特征与候选解说视频的直方图特征进行拼接,得到拼接视频特征;接着,根据拼接视频特征预测候选解说视频中每帧的边界帧概率;然后,将边界帧概率大于或者等于预设概率阈值的帧确定为视频镜头边界帧,根据视频镜头边界帧将候选解说视频切分为若干个候选解说片段。通过将候选解说视频进行特征提取,得到候选解说视频的候选视频特征,然后将候选视频特征进行分割形成多个特征片段,每个特征片段可以表示候选解说视频中的一个对象的镜头片段。接着,利用分类模块对各个特征片段进行分类,并对分类后的特征片段进行定位,然后,根据定位结果,将候选解说视频切分为若干个候选解说片段,从而能够将候选解说视频中分割出各个对象对应的视频片段。
[0095]
例如,参照图10,图10为本技术实施例提供的对候选解说视频进行视频镜头切分的一种可选的示意图。将候选解说视频输入至64通道的深度离散卷积神经网络模型(depth decoupling convolutional neural network,dd-cnn)进行特征提取,得到第一视频初次特征,接着再将第一视频初次特征输入至64通道的dd-cnn中进行特征提取,得到第一视频二次特征,然后,将第一视频初次特征和第一视频二次特征混合后进行平均池化处理,得到第一池化特征。
[0096]
在得到第一池化特征之后,将第一池化特征输入至128通道的dd-cnn中进行特征提取,得到第二视频初次特征,接着再将第二视频初次特征输入至128通道的dd-cnn中进行特征提取,得到第二视频二次特征,然后,将第二视频初次特征和第二视频二次特征混合后进行平均池化处理,得到第二池化特征。
[0097]
在得到第二池化特征之后,将第二池化特征输入至256通道的dd-cnn中进行特征提取,得到第三视频初次特征,接着再将第三视频初次特征输入至256通道的dd-cnn中进行特征提取,得到第三视频二次特征,然后,将第三视频初次特征和第三视频二次特征混合后进行平均池化处理,得到第三池化特征。
[0098]
在得到第三池化特征之后,将第一池化特征、第二池化特征和第三池化特征输入至可学习相似模块进行相似度度量,输出相似度评分特征,相似度评分特征能够表示第一池化特征、第二池化特征和第三池化特征之间的共性和差异,使得相似的特征数据能够在特征空间中更靠近,不相似的特征数据则更加分散,从而提高预测准确率。然后,将候选解说视频的直方图特征、相似度评分特征以及压缩处理后的第三池化特征输入至全连接层进行连接处理后,得到全连接数据,再将全连接数据输入至分类模块进行分类处理,能够得到候选解说视频中的从局部预测单个过渡帧,以及从整体预测过渡片段(或者过渡帧)。
[0099]
例如,参照图11,图11为本技术实施例提供的利用视频镜头边界帧进行视频镜头切分的一种可选的效果示意图,可以结合局部过渡帧和整体过渡片段确定出候选解说视频的视频镜头边界帧,而一个候选解说视频中可以包括有多个视频镜头边界帧,进而可以利
用视频镜头边界帧将候选解说视频切分为若干个候选解说片段,其中,各个候选解说片段的时长可以相同或不同。
[0100]
在一种可能的实现方式中,在对候选解说视频进行视频镜头切分,得到若干个候选解说片段之后,可以先从候选视频特征中提取候选解说片段的片段特征;然后,根据片段特征对候选解说片段进行分类,得到候选解说片段的对象标签,其中,对象标签用于指示候选解说片段中包含的待解说对象的子对象;接着,利用对象标签标记对应的候选解说片段。
[0101]
具体地,在得到候选视频特征之后,可以采用时序分割模块将候选视频特征进行分割,形成多个候选解说片段的片段特征,其中,时序分割模块可以根据候选解说视频的时间长度按预设时长阈值或预设比例时长,进行视频片段的分割,或者根据候选解说视频的待解说对象一个动作的部分状态变化或部分细节展示进行切分,以将表现时间与事件区分开。待解说对象即为候选解说视频中的主要对象,由于待解说对象可以包括有多个子对象,而各个片段特征可以表示出子对象对应的特征,因此,可以基于片段特征对候选解说片段进行视频分类,得到各个候选解说片段的对象标签,进而利用对象标签对相应候选解说频段进行标记,从而有助于利用对象标签对候选解说视频进行检索匹配,提高解说视频检索的准确率。
[0102]
例如,参照图12,图12为本技术实施例提供的候选解说片段的对象标签的一种可选的示意图。可见,为候选解说片段添加的对象标签可以包括有用于指示候选解说片段中包含的对象的子对象的子对象标记信息,也可以包含有用于指示候选解说片段中包含的对象的对象标记信息。需要说明的是,对象标签可以包括有上述的子对象标记信息、对象标记信息、对象标记信息中的至少一种。如图12所示,候选解说视频1是在“旅行”的视频类目下针对景点a进行解说的解说视频,其中,候选解说视频1经过视频镜头切分之后,得到3个候选解说片段,其中,第一候选解说片段是针对景点a进行解说的视频片段,第二候选解说频段是针对景点a中的子景点b进行解说的视频片段,第三候选解说频段是针对景点a中的子景点c进行解说的视频片段。因此,第一候选解说片段的对象标签可以包括有
ꢀ“
景点a”的对象标记信息;第二候选解说片段可以包括有“景点a”的对象标记信息,以及“子景点b”的子对象标记信息;相应地,第三候选解说片段可以包括有“景点a”的对象标记信息,以及“子景点c”的子对象标记信息。所以,利用对象标签可以便于区分出各个不同的候选解说片段,提高视频检索效率。
[0103]
在一种可能的实现方式中,在根据目标解说片段得到目标图像的检索结果的过程中,可以先获取各个候选解说片段的对象标签;在除了目标解说片段以外的其他候选解说片段中,确定与目标解说片段标记有相同对象标签的参考解说片段;然后,将目标解说片段以及参考解说片段作为目标图像的检索结果。通过获取候选解说片段的对象标签,并与目标解说片段的对象标签进行比较,可以确定与目标解说片段相关的候选解说片段,这样可以筛选出与目标解说片段相关性较高的解说片段,从而缩小搜索范围,减少冗余信息。在除目标解说片段以外的其他候选解说片段中,确定与目标解说片段标记有相同对象标签的参考解说片段,可以提供多样化的参考信息。参考解说片段可以提供与目标解说片段不同的视角、观点或补充信息,或者相近对象的解说信息,从而丰富了目标图像的检索结果。通过将目标解说片段和相关的参考解说片段作为目标图像的检索结果,可以提高检索结果的准确性和丰富度。目标解说片段提供了对目标图像的具体描述,而参考解说片段则提供了更
全面或更细致的描述,从多个角度验证目标图像的内容,有助于提高目标图像的检索质量,提高检索结果多样性、准确性以及与目标图像的相关性。通过精确的解说片段匹配和综合扩展相近的片段内容,可以获得更准确更全面的检索结果。
[0104]
例如,参照图13,图13为本技术实施例提供的扩展检索结果的一种可选的示意图。如图13所示,目标解说片段可以包括有多个,其中,第一目标解说片段的对象标签可以包括有“景点a”和“子景点b”的标记信息,第二目标解说片段的对象标签可以包括有“景点a”和“子景点c”的标记信息,其中,景点a中包括有子景点b、子景点c和子景点d。而除目标解说片段以外的其他候选解说片段中,包括有第一候选解说片段、第二候选解说片段、第三候选解说片段和第四候选解说片段,其中,第一候选解说片段的对象标签可以包括有“景点a”和“子景点d”的标记信息,第二候选解说片段的对象标签可以包括有“景点x”和“子景点y”的标记信息,第三候选解说片段的对象标签可以包括有“子景点y”和“子景点c”,而第四候选解说片段的对象标签可以包括有“子景点z”和“子景点d”,其中,景点x包括有子景点y和子景点z。在确定与目标解说片段标记有相同对象标签的参考解说片段的过程中,标记相同的对象标签可以表示对象标签中标记信息完全一致或部分一致,如图13所示,第一候选解说片段的对象标签的标记信息与第一目标解说片段的对象标签的标记信息部分一致,因此,第一候选解说片段的对象标签与第一目标解说片段的对象标签相同;相应地,第三候选解说片段的对象标签与第二目标解说片段的对象标签相同,因此,第一候选解说片段和第三候选解说片段可以作为参考解说片段,并将第一目标解说片段、第二目标解说片段、第一候选解说片段和第三候选解说片段共同作为目标图像的检索结果。
[0105]
另外,标记相同的对象标签可以表示具有同一对象的任意子对象或所属相同对象的标记信息,如图13所示,第四候选解说片段的对象标签包括有“子景点d”的标记信息,即包括有“景点a”对象的“子景点d”子对象的标记信息,而第一目标解说片段的对象标签包括有所属相同对象“景点a”的标记信息,以及具有同一对象“景点a”的任意子对象“子景点b”的标记信息,因此,也可以将第四候选解说片段作为参考解说片段。
[0106]
在一种可能的实现方式中,在根据匹配结果从候选解说片段中确定目标解说片段的过程中,可以根据目标图像特征与候选图像特征之间的相似度由高到低的顺序,对候选图像特征进行排序,将排名位于预设排名阈值之前的候选图像特征所对应的候选解说片段,确定为目标解说片段;或者,根据目标图像特征与候选图像特征之间的相似度由低到高的顺序,对候选图像特征进行排序,将排名位于预设排名阈值之后的候选图像特征所对应的候选解说片段,确定为目标解说片段。
[0107]
通过根据目标图像特征与候选图像特征之间的相似度进行排序,可以将相似度高的候选解说片段排在前面,从而可以筛选出与目标图像相似度高的解说片段,提高目标解说片段的检索准确度。通过选择不同的排名阈值可以满足不同的匹配需求,可以控制匹配算法的灵敏度,从而控制匹配精度,较低的排名阈值可以强调精确的相似度匹配,而较高的排名阈值可以注重广泛的相关性匹配。在将相似度由高至低对候选图像特征进行排序的情况下,选择将排名在预设排名阈值之前的候选解说片段确定为目标解说片段,可以优先选择相似度较高的解说片段,提高检索结果的准确度;而在将相似度由低至高对候选图像特征进行排序的情况下,选择将排名在预设排名阈值之后的候选解说片段确定为目标解说片段,可以优先去除相似度低(即不相关)的解说片段,并保留更多可能相关的解说片段,以提
高检索结果的丰富度。
[0108]
参照图14,图14为本技术实施例提供的解说视频检索的一种可选的过程示意图。可见,服务器可以通过短视频平台获取指定的属于景点解说的视频类目的短视频作为候选解说视频,然后将候选解说视频进行视频镜头切分处理,得到多个候选解说片段。然后,对各个候选解说片段进行抽帧处理,得到候选解说片段中各帧的片段图像。接着,对所有片段图像进行人脸检测处理,将目标人脸框的像素点置零,从而可以抑制目标人脸框对片段图像的影响,实现对片段图像的去扰处理。将去扰处理后的片段图像进行特征提取,得到候选图像特征,然后确定候选图像特征中各个候选特征元素与各个候选特征元素的特征均值之间的特征差值,并利用特征差值生成候选图像特征的协方差矩阵。在构建得到协方差矩阵之后,可以对协方差矩阵进行特征值分解,得到参考特征元素,并利用参考特征元素计算出各个候选特征元素对应的注意力权重。然后,利用各个候选特征元素对应的注意力权重对候选特征元素进行加权处理,得到注意力元素,并利用注意力元素构建片段图像的注意力特征,接着,基于注意力特征构建候选特征库。
[0109]
客户端可以向服务器上传目标图像,服务器在接收到目标图像后,可以先对目标图像进行人脸区域检测,得到若干个目标人脸框;然后,将目标人脸框中各个像素点的像素值置零,或者,确定除了目标人脸框中的像素点以外的像素点的像素均值,将目标人脸框中各个像素点的像素值置为像素均值。在抑制目标图像中目标人脸框的影响之后,可以利用预先训练好的深度特征提取模型对目标图像进行目标图像特征的提取。在确定出目标图像的目标图像特征之后,可以确定出目标图像特征中各个目标特征元素对应的注意力权重,根据注意力权重对目标特征元素进行加权,得到目标特征元素对应的注意力元素;基于各个注意力元素构建目标图像的目标注意力特征。在得到目标图像的目标注意力特征之后,可以基于目标注意力特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果。由于目标图像可能会出现人物部分图像,而人物部分图像并非目标图片的检索对象,即人物部分为干扰对象,且人物部分图像会存在遮挡检索对象,影响检索结果,例如,针对于景区照片进行景点解说视频的检索,景区照片通过实在景区场景中现场录制的,在景区场景中往往存在大量的游客,导致目标图像中会出现大量的人物部分图像,遮挡景区景点的部分特征,影响景区景点的识别效果。需要说明的是,人脸区域检测包括对人物面部特征进行识别,还包括对人物整体形象特征进行识别,相应地,目标人脸框包括人脸面部图像,也可以包括人物整体图像。
[0110]
在一种可能的实现方式中,在对目标图像进行人脸区域检测,得到若干个目标人脸框的过程中,可以先对目标图像进行多次缩放,得到图像金字塔;其次,对图像金字塔中各个图像进行人脸区域检测,得到若干个第一候选人脸框,对第一候选人脸框进行非极大值抑制,得到第二候选人脸框;接着,对第二候选人脸框进行二分类,根据分类结果剔除不存在人脸的第二候选人脸框,对剩余的第二候选人脸框进行回归校准以及非极大值抑制,得到第三候选人脸框;然后,可以对第三候选人脸框进行回归校准以及非极大值抑制,得到若干个目标人脸框。
[0111]
在一种可能的实现方式中,可以利用人脸检测模型对目标图像进行人脸区域检测,由于目标图像中通常会出现多个对象的相关内容,例如出现部分与检索对象相关的内容,也会出现部分与检索对象无关的内容。对于深度特征提取的到的目标图像特征,若直接
对所有目标图像特征进行特征平均汇合处理,即直接计算所有目标图像特征的均值作为进行解说视频检索的特征,则不仅容易忽略目标图像特征所需要表达的检索信息,还容易将与检索对象无关的内容融合至基础特征,影响目标图像特征的数据准确性,进而影响解说视频检索的准确性。因此,可以确定出各个目标特征元素对应的注意力权重,利用注意力权重对目标特征元素进行加权修正,突出目标图像中所表达的图像检索信息,以及有助于抑制与检索对象无关的信息内容,从而能够提高解说视频检索的准确性。
[0112]
在一种可能的实现方式中,可以根据目标特征元素所对应的对象(除人物形象等干扰对象之外的对象)在目标图像中所占据面积的比例,确定出目标特征元素对应的注意力权重。当目标特征元素所对应的对象在片段图像中所占据面积的比例越大,可以认为目标特征元素所对应的对象为当前目标图像中所要表达的图像检索信息的重要性越高,因此,该目标特征元素对应的注意力权重越大,从而能够突出各个目标图像中所要表达的主体检索信息,抑制无关信息内容的干扰,提高解说视频检索的准确率。例如,可以根据目标特征元素的特征值的大小,对目标特征元素进行排序,特征值越大的目标特征元素可以认为其重要性越高,从而为其分配更大的注意力权重,来强调目标图像中所要表达的主体检索信息。
[0113]
在一种可能的实现方式中,在确定目标特征元素对应的注意力权重的过程中,可以先确定目标图像特征中所有目标特征元素的特征均值;然后,确定目标特征元素与特征均值之间的特征差值,根据特征差值确定目标特征元素对应的注意力权重。通过计算目标特征元素与特征均值之间的特征差值,可以确定出各个目标特征元素相对于目标图像的平均水平的偏离程度,即确定出各个目标特征元素的显著性,从而可以根据各个目标特征元素对于目标图像中的重要性,分配相应的注意力权重,能够强调目标图像中所要表达的主要检索信息内容。
[0114]
在一种可能的实现方式中,在根据特征差值确定目标特征元素对应的注意力权重的过程中,在计算出各个目标特征元素与特征均值之间的特征差值之后,可以利用特征差值与所有目标特征元素之和的比例,确定出目标特征元素对应的注意力权重。另外,在计算出各个目标特征元素与特征均值之间的特征差值之后,还可以利用各个目标特征元素对应的特征差值与自身特征值的比例,确定出目标特征元素对应的注意力权重。
[0115]
在一种可能的实现方式中,在根据特征差值确定目标特征元素对应的注意力权重的过程中,可以先对特征差值进行转置,得到转置差值,根据特征差值和转置差值生成目标图像特征的协方差矩阵;然后,构建协方差矩阵的对角矩阵,基于对角矩阵对协方差矩阵进行特征值分解,得到参考特征;接着,提取参考特征中首列的参考特征元素,对转置差值与参考特征元素之间的乘积进行归一化,得到目标特征元素对应的注意力权重。因此,在到目标特征元素对应的注意力权重之后,可以根据注意力权重对目标特征元素进行加权,得到目标特征元素对应的注意力元素;基于各个注意力元素构建目标图像的目标注意力特征。
[0116]
下面以具体例子详细说明本技术实施例提供的解说视频检索方法的原理。
[0117]
参照图15,图15为本技术实施例提供的解说视频检索方法的一种可选的实际流程示意图。服务器102可以通过短视频平台获取旅游类目下的所有短视频作为候选解说视频,然后将所有关于景点解说的候选解说视频进行视频镜头切分处理,得到多个候选解说片段。然后,对各个候选解说片段进行抽帧处理,得到候选解说片段中各帧的片段图像。接着,
对所有片段图像进行人脸检测处理,将目标人脸框的像素点置零或者将目标人脸框的像素点替换为除目标人脸框以外的像素均值的像素点,从而可以抑制目标人脸框对片段图像的影响,实现对片段图像的去扰处理。将去扰处理后的片段图像进行特征提取,得到候选图像特征,然后确定候选图像特征中各个候选特征元素与各个候选特征元素的特征均值之间的特征差值,并利用特征差值生成候选图像特征的协方差矩阵。在构建得到协方差矩阵之后,可以对协方差矩阵进行特征值分解,得到参考特征元素,并利用参考特征元素计算出各个候选特征元素对应的注意力权重。然后,利用各个候选特征元素对应的注意力权重对候选特征元素进行加权处理,得到注意力元素,并利用注意力元素构建片段图像的注意力特征,接着,基于注意力特征构建候选特征库,即候选特征库中可以存储有关于景点景区以及地标物的特征信息。
[0118]
终端101可以安装有短视频平台的客户端,且终端101配备有摄像头组件。当终端101运行短视频平台的客户端后,显示客户端界面1501,此时可以通过触发客户端界面1501中的“扫一扫识物”控件1502,调用终端101的摄像头组件以采集目标图像,在客户端获得目标图像之后,可以向服务器102上传目标图像。
[0119]
服务器102在接收到目标图像后,可以先对目标图像进行人脸区域检测,得到若干个目标人脸框;然后,将目标人脸框中各个像素点的像素值置零,或者,确定除了目标人脸框中的像素点以外的像素点的像素均值,将目标人脸框中各个像素点的像素值置为像素均值。在抑制目标图像中目标人脸框的影响之后,可以利用预先训练好的深度特征提取模型(如coca模型)对目标图像进行目标图像特征的提取。在确定出目标图像的目标图像特征之后,可以确定出目标图像特征中各个目标特征元素对应的注意力权重,根据注意力权重对目标特征元素进行加权,得到目标特征元素对应的注意力元素;基于各个注意力元素构建目标图像的目标注意力特征。在得到目标图像的目标注意力特征之后,可以基于目标注意力特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果,然后服务器102通过短视频平台向对应客户端推送检索结果,从而能够在终端101的客户端界面1501中显示查看目标图像的检索结果,而检索结果为与目标图像相匹配的解说视频或解说片段。
[0120]
其中,当检索结果中包括多个目标解说片段时,终端101的客户端界面1501中可以先显示相似度最高的目标注意力特征对应的目标解说片段,在目标解说片段被播放完毕后,客户端界面1501中可以进一步显示剩余的目标解说片段,供用户选择播放。或者,也可以显示目标解说片段对应的候选解说视频供用户选择播放。
[0121]
可见,当目标图像所显示的主体对象为地标景物,服务器102可以从关于景点景物以及地标物相关的候选解说片段(即“旅行”同一视频类目下的候选解说片段)中确定出目标解说片段,并基于目标解说片段得到目标图像相匹配的景点解说视频或景点解说片段,从而用户可以通过拍摄一张景区照片即可得到对应的景区解说介绍的短视频,便于用户快速了解景点相关信息,且基于短视频进行介绍的形式比通过文字资料介绍方式更生动。
[0122]
另外,虽然图15所示的例子中以检索景点解说视频为例进行说明,实际上本技术实施例提供的解说视频检索方法也可以应用于其他场景。
[0123]
例如,在构建候选特征库时,可以从视频类目“科技”中获取已被发布的候选解说视频,此时,候选解说视频可以为对智能手机、家用电器等电子设备的解说视频。终端101在
采集目标图像时,可以针对某个家用电器进行图像采集,进而向服务器102上传目标图像,服务器102可以得到对应的检索结果。此时,检索结果中可以包括对该家用电器的目标解说片段,因此,可以通过目标解说片段快速了解该家用电器的功能、使用方法等信息,无须查看相关的说明书或者资料。
[0124]
又例如,在构建候选特征库时,可以从视频类目“农业”中获取已被发布的候选解说视频,此时,候选解说视频可以为对花朵、盆栽等植物的解说视频。终端101在采集目标图像时,可以针对某个植物进行图像采集,进而向服务器102上传目标图像,服务器102可以得到对应的检索结果。此时,检索结果中可以包括对该植物的目标解说片段,因此,可以通过目标解说片段快速了解该植物的生长特性、种植方法等信息,无须查看相关的说明书或者资料。
[0125]
下面详细说明本技术实施例提供的解说视频检索方法。
[0126]
参照图16,图16为本技术实施例提供的解说视频检索方法的一种可选的整体流程示意图,其中,该解说视频检索方法包括但不限于以下步骤1601至步骤1615:步骤1601:从短视频平台的同一个视频类目中获取已被发布的候选短视频。
[0127]
步骤1602:获取候选短视频标注的视频标签,当视频标签指示用于对待解说对象进行解说时,将候选短视频确定为候选解说视频。
[0128]
步骤1603:对候选解说视频进行特征提取,得到候选解说视频的候选视频特征。
[0129]
步骤1604:将候选视频特征与候选解说视频的直方图特征进行拼接,得到拼接视频特征。
[0130]
步骤1605:根据拼接视频特征预测候选解说视频中每帧的边界帧概率。
[0131]
步骤1606:将边界帧概率大于或者等于预设概率阈值的帧确定为视频镜头边界帧,根据视频镜头边界帧将候选解说视频切分为若干个候选解说片段。
[0132]
步骤1607:对所述片段图像进行人脸区域检测,得到若干个目标人脸框,将所述目标人脸框中各个像素点的像素值置零后,提取各个片段图像的候选图像特征。
[0133]
步骤1608:确定候选图像特征中所有候选特征元素的特征均值,并确定候选特征元素与特征均值之间的特征差值。
[0134]
步骤1609:生成协方差矩阵,对协方差矩阵进行特征值分解,得到参考特征;提取参考特征元素,对转置差值与参考特征元素之间的乘积进行归一化,得到候选特征元素对应的注意力权重。
[0135]
本步骤中,根据特征差值和转置差值生成候选图像特征的协方差矩阵;转置差值通过对特征差值进行转置得到;构建协方差矩阵的对角矩阵后,基于对角矩阵对协方差矩阵进行特征值分解;参考特征元素为参考特征中的首列元素。
[0136]
步骤1610:根据注意力权重对候选特征元素进行加权,得到候选特征元素对应的注意力元素。
[0137]
步骤1611:基于各个注意力元素构建片段图像的注意力特征,基于注意力特征构建候选特征库。
[0138]
步骤1612:接收基于短视频平台的客户端上传的目标图像。
[0139]
步骤1613:提取目标图像的目标图像特征,基于目标图像特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,获取目标解说片段标
注的对象标签,根据对象标签确定对应的参考解说片段,将目标解说片段和参考解说片段作为检索结果。
[0140]
步骤1614:向客户端发送目标图像的检索结果。
[0141]
步骤1615:结束步骤流程。
[0142]
本技术实施例提供的解说视频检索方法,通过从短视频平台的同一个视频类目中获取已被发布的候选解说视频,再对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像,提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库,由于候选解说视频位于短视频平台的同一个视频类目下,也就是说,获取到的候选解说视频已经预先由短视频平台进行整理分类,从而降低了构建候选特征库的数据清洗和整理的要求,提升了检索数据库的构建效率;并且,通过对候选解说视频进行视频镜头切分,能够细化候选特征库中的数据颗粒度,能够更好地支持后续的解说视频检索,进而提升解说视频检索的准确性;在此基础上,通过接收基于所述短视频平台的客户端上传的目标图像进而得到检索结果,相当于将解说视频检索的功能集成于短视频平台,一方面可以便捷地从短视频平台中获取候选解说视频,另一方面,也可以使得短视频平台的功能更加多样化。
[0143]
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0144]
参照图17,图17为本技术实施例提供的解说视频检索装置1700的一种可选的结构示意图,该解说视频检索装置1700包括:第一获取模块1701,用于从短视频平台的同一个视频类目中获取已被发布的候选解说视频;第一处理模块1702,用于对候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取候选解说片段中各帧的片段图像;第二处理模块1703,用于提取各个片段图像的候选图像特征,基于候选图像特征构建候选特征库;第三处理模块1704,用于接收基于短视频平台的客户端上传的目标图像,提取目标图像的目标图像特征,基于目标图像特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果。
[0145]
进一步地,第二处理模块1703还用于:对片段图像进行人脸区域检测,得到若干个目标人脸框;将目标人脸框中各个像素点的像素值置零,或者,确定除了目标人脸框中的像素点以外的像素点的像素均值,将目标人脸框中各个像素点的像素值置为像素均值。
[0146]
进一步地,第二处理模块1703还用于:对片段图像进行多次缩放,得到图像金字塔;
对图像金字塔中各个图像进行人脸区域检测,得到若干个第一候选人脸框,对第一候选人脸框进行非极大值抑制,得到第二候选人脸框;对第二候选人脸框进行二分类,根据分类结果剔除不存在人脸的第二候选人脸框,对剩余的第二候选人脸框进行回归校准以及非极大值抑制,得到第三候选人脸框;对第三候选人脸框进行回归校准以及非极大值抑制,得到若干个目标人脸框。
[0147]
进一步地,第二处理模块1703还用于:确定候选特征元素对应的注意力权重,根据注意力权重对候选特征元素进行加权,得到候选特征元素对应的注意力元素;基于各个注意力元素构建片段图像的注意力特征,基于注意力特征构建候选特征库。
[0148]
进一步地,第二处理模块1703还用于:确定候选图像特征中所有候选特征元素的特征均值;确定候选特征元素与特征均值之间的特征差值,根据特征差值确定候选特征元素对应的注意力权重。
[0149]
进一步地,第二处理模块1703还用于:对特征差值进行转置,得到转置差值,根据特征差值和转置差值生成候选图像特征的协方差矩阵;构建协方差矩阵的对角矩阵,基于对角矩阵对协方差矩阵进行特征值分解,得到参考特征;提取参考特征中首列的参考特征元素,对转置差值与参考特征元素之间的乘积进行归一化,得到候选特征元素对应的注意力权重。
[0150]
进一步地,第一获取模块1701还用于:从短视频平台的同一个视频类目中获取已被发布的候选短视频;获取候选短视频标注的视频标签,当视频标签指示用于对待解说对象进行解说时,将候选短视频确定为候选解说视频。
[0151]
进一步地,第一处理模块1702还用于:对候选解说视频进行特征提取,得到候选解说视频的候选视频特征;将候选视频特征与候选解说视频的直方图特征进行拼接,得到拼接视频特征;根据拼接视频特征预测候选解说视频中每帧的边界帧概率;将边界帧概率大于或者等于预设概率阈值的帧确定为视频镜头边界帧,根据视频镜头边界帧将候选解说视频切分为若干个候选解说片段。
[0152]
进一步地,第一处理模块1702还用于:从候选视频特征中提取候选解说片段的片段特征;根据片段特征对候选解说片段进行分类,得到候选解说片段的对象标签,其中,对象标签用于指示候选解说片段中包含的对象的子对象;利用对象标签标记对应的候选解说片段。
[0153]
进一步地,第三处理模块1704还用于:获取各个候选解说片段的对象标签;在除了目标解说片段以外的其他候选解说片段中,确定与目标解说片段标记有相
同对象标签的参考解说片段;将目标解说片段以及参考解说片段作为目标图像的检索结果。
[0154]
进一步地,第三处理模块1704还用于:根据目标图像特征与候选图像特征之间的相似度由高到低的顺序,对候选图像特征进行排序,将排名位于预设排名阈值之前的候选图像特征所对应的候选解说片段,确定为目标解说片段;或者,根据目标图像特征与候选图像特征之间的相似度由低到高的顺序,对候选图像特征进行排序,将排名位于预设排名阈值之后的候选图像特征所对应的候选解说片段,确定为目标解说片段。
[0155]
上述解说视频检索装置1700与解说视频检索方法基于相同的发明构思,通过从短视频平台的同一个视频类目中获取已被发布的候选解说视频,再对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像,提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库,由于候选解说视频位于短视频平台的同一个视频类目下,也就是说,获取到的候选解说视频已经预先由短视频平台进行整理分类,从而降低了构建候选特征库的数据清洗和整理的要求,提升了检索数据库的构建效率;并且,通过对候选解说视频进行视频镜头切分,能够细化候选特征库中的数据颗粒度,能够更好地支持后续的解说视频检索,进而提升解说视频检索的准确性;在此基础上,通过接收基于所述短视频平台的客户端上传的目标图像进而得到检索结果,相当于将解说视频检索的功能集成于短视频平台,一方面可以便捷地从短视频平台中获取候选解说视频,另一方面,也可以使得短视频平台的功能更加多样化。
[0156]
本技术实施例提供的用于执行上述解说视频检索方法的电子设备可以是终端,参照图18,图18为本技术实施例提供的终端的部分结构框图,该终端包括:摄像头组件1810、第一存储器1820、输入单元1830、显示单元1840、传感器1850、音频电路1860、无线保真(wireless fidelity,简称wifi)模块1870、第一处理器1880、以及第一电源1890等部件。本领域技术人员可以理解,图18中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0157]
摄像头组件1810可用于采集图像或视频。可选地,摄像头组件1810包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。
[0158]
第一存储器1820可用于存储软件程序以及模块,第一处理器1880通过运行存储在第一存储器1820的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。
[0159]
输入单元1830可用于接收输入的数字或字符信息,以及产生与终端的设置以及功能控制有关的键信号输入。具体地,输入单元1830可包括触摸面板1818以及其他输入装置1832。
[0160]
显示单元1840可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1840可包括显示面板1841。
[0161]
音频电路1860、扬声器1861,传声器1862可提供音频接口。
[0162]
第一电源1890可以是交流电、直流电、一次性电池或可充电电池。
[0163]
传感器1850的数量可以为一个或者多个,该一个或多个传感器1850包括但不限于:加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中:加速度传感器可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器1880可以根据加速度传感器采集的重力加速度信号,控制显示单元1840以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。
[0164]
陀螺仪传感器可以检测终端的机体方向及转动角度,陀螺仪传感器可以与加速度传感器协同采集用户对终端的3d动作。第一处理器1880根据陀螺仪传感器采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0165]
压力传感器可以设置在终端的侧边框和/或显示单元1840的下层。当压力传感器设置在终端的侧边框时,可以检测用户对终端的握持信号,由第一处理器1880根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元1840的下层时,由第一处理器1880根据用户对显示单元1840的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0166]
光学传感器用于采集环境光强度。在一个实施例中,第一处理器1880可以根据光学传感器采集的环境光强度,控制显示单元1840的显示亮度。具体地,当环境光强度较高时,调高显示单元1840的显示亮度;当环境光强度较低时,调低显示单元1840的显示亮度。在另一个实施例中,第一处理器1880还可以根据光学传感器采集的环境光强度,动态调整摄像头组件1810的拍摄参数。
[0167]
在本实施例中,该终端所包括的第一处理器1880可以执行前面实施例的解说视频检索方法。
[0168]
本技术实施例提供的用于执行上述解说视频检索方法的电子设备也可以是服务器,参照图19,图19为本技术实施例提供的服务器的部分结构框图,服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上第二处理器1922和第二存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储装置)。其中,第二存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器1900中的一系列命令操作。更进一步地,第二处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列命令操作。
[0169]
服务器1900还可以包括一个或一个以上第二电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,和/或,一个或一个以上操作系统1941,例如windows servertm,mac os xtm,unixtm ,linuxtm,freebsdtm等等。
[0170]
服务器1900中的处理器可以用于执行解说视频检索方法。
[0171]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,该计算机程序用于执行前述各个实施例的解说视频检索方法。
[0172]
本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的解说视频检索方法。
[0173]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
[0174]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0175]
应了解,在本技术实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
[0176]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0177]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0178]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0179]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代
码的介质。
[0180]
还应了解,本技术实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
[0181]
以上是对本技术的较佳实施进行了具体说明,但本技术并不局限于上述实施方式,熟悉本领域的技术人员在不违背本技术精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本技术权利要求所限定的范围内。
技术特征:
1.一种解说视频检索方法,其特征在于,包括:从短视频平台的同一个视频类目中获取已被发布的候选解说视频;对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像;提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库;接收基于所述短视频平台的客户端上传的目标图像,提取所述目标图像的目标图像特征,基于所述目标图像特征在所述候选特征库中进行相似度匹配,根据匹配结果从所述候选解说片段中确定目标解说片段,根据所述目标解说片段得到所述目标图像的检索结果。2.根据权利要求1所述的解说视频检索方法,其特征在于,所述提取各个所述片段图像的候选图像特征之前,所述解说视频检索方法还包括:对所述片段图像进行人脸区域检测,得到若干个目标人脸框;将所述目标人脸框中各个像素点的像素值置零,或者,确定除了所述目标人脸框中的像素点以外的像素点的像素均值,将所述目标人脸框中各个像素点的像素值置为所述像素均值。3.根据权利要求2所述的解说视频检索方法,其特征在于,所述对所述片段图像进行人脸区域检测,得到若干个目标人脸框,包括:对所述片段图像进行多次缩放,得到图像金字塔;对所述图像金字塔中各个图像进行人脸区域检测,得到若干个第一候选人脸框,对所述第一候选人脸框进行非极大值抑制,得到第二候选人脸框;对所述第二候选人脸框进行二分类,根据分类结果剔除不存在人脸的所述第二候选人脸框,对剩余的所述第二候选人脸框进行回归校准以及非极大值抑制,得到第三候选人脸框;对所述第三候选人脸框进行回归校准以及非极大值抑制,得到若干个目标人脸框。4.根据权利要求1所述的解说视频检索方法,其特征在于,所述候选图像特征包括多个候选特征元素,所述基于所述候选图像特征构建候选特征库,包括:确定所述候选特征元素对应的注意力权重,根据所述注意力权重对所述候选特征元素进行加权,得到所述候选特征元素对应的注意力元素;基于各个所述注意力元素构建所述片段图像的注意力特征,基于所述注意力特征构建候选特征库。5.根据权利要求4所述的解说视频检索方法,其特征在于,所述确定所述候选特征元素对应的注意力权重,包括:确定所述候选图像特征中所有所述候选特征元素的特征均值;确定所述候选特征元素与所述特征均值之间的特征差值,根据所述特征差值确定所述候选特征元素对应的注意力权重。6.根据权利要求5所述的解说视频检索方法,其特征在于,所述根据所述特征差值确定所述候选特征元素对应的注意力权重,包括:对所述特征差值进行转置,得到转置差值,根据所述特征差值和所述转置差值生成所述候选图像特征的协方差矩阵;构建所述协方差矩阵的对角矩阵,基于所述对角矩阵对所述协方差矩阵进行特征值分
解,得到参考特征;提取所述参考特征中首列的参考特征元素,对所述转置差值与所述参考特征元素之间的乘积进行归一化,得到所述候选特征元素对应的注意力权重。7.根据权利要求1所述的解说视频检索方法,其特征在于,所述从短视频平台的同一个视频类目中获取已被发布的候选解说视频,包括:从短视频平台的同一个视频类目中获取已被发布的候选短视频,获取所述候选短视频标注的视频标签;当所述视频标签指示所述候选短视频用于对待解说对象进行解说时,将所述候选短视频确定为候选解说视频。8.根据权利要求1所述的解说视频检索方法,其特征在于,所述对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,包括:对所述候选解说视频进行特征提取,得到所述候选解说视频的候选视频特征;将所述候选视频特征与所述候选解说视频的直方图特征进行拼接,得到拼接视频特征;根据所述拼接视频特征预测所述候选解说视频中每帧的边界帧概率;将所述边界帧概率大于或者等于预设概率阈值的帧确定为视频镜头边界帧,根据所述视频镜头边界帧将所述候选解说视频切分为若干个候选解说片段。9.根据权利要求8所述的解说视频检索方法,其特征在于,所述对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段之后,所述解说视频检索方法还包括:从所述候选视频特征中提取所述候选解说片段的片段特征;根据所述片段特征对所述候选解说片段进行分类,得到所述候选解说片段的对象标签,其中,所述对象标签用于指示所述候选解说片段中包含的待解说对象的子对象;利用所述对象标签标记对应的所述候选解说片段。10.根据权利要求9所述的解说视频检索方法,其特征在于,所述根据所述目标解说片段得到所述目标图像的检索结果,包括:获取各个所述候选解说片段的所述对象标签;在除了所述目标解说片段以外的其他所述候选解说片段中,确定与所述目标解说片段标记有相同所述对象标签的参考解说片段;将所述目标解说片段以及所述参考解说片段作为所述目标图像的检索结果。11.根据权利要求1所述的解说视频检索方法,其特征在于,所述根据匹配结果从所述候选解说片段中确定目标解说片段,包括:根据所述目标图像特征与所述候选图像特征之间的相似度由高到低的顺序,对所述候选图像特征进行排序,将排名位于预设排名阈值之前的所述候选图像特征所对应的所述候选解说片段,确定为目标解说片段;或者,根据所述目标图像特征与所述候选图像特征之间的相似度由低到高的顺序,对所述候选图像特征进行排序,将排名位于预设排名阈值之后的所述候选图像特征所对应的所述候选解说片段,确定为目标解说片段。12.一种解说视频检索装置,其特征在于,包括:第一获取模块,用于从短视频平台的同一个视频类目中获取已被发布的候选解说视
频;第一处理模块,用于对所述候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取所述候选解说片段中各帧的片段图像;第二处理模块,用于提取各个所述片段图像的候选图像特征,基于所述候选图像特征构建候选特征库;第三处理模块,用于接收基于所述短视频平台的客户端上传的目标图像,提取所述目标图像的目标图像特征,基于所述目标图像特征在所述候选特征库中进行相似度匹配,根据匹配结果从所述候选解说片段中确定目标解说片段,根据所述目标解说片段得到所述目标图像的检索结果。13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的解说视频检索方法。14.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的解说视频检索方法。
技术总结
本申请实施例公开了一种解说视频检索方法、装置、电子设备及存储介质,该方法包括:从短视频平台的同一个视频类目中获取已被发布的候选解说视频;对候选解说视频进行视频镜头切分,得到若干个候选解说片段,抽取候选解说片段中各帧的片段图像;提取各个片段图像的候选图像特征,基于候选图像特征构建候选特征库;接收基于短视频平台的客户端上传的目标图像,提取目标图像的目标图像特征,基于目标图像特征在候选特征库中进行相似度匹配,根据匹配结果从候选解说片段中确定目标解说片段,根据目标解说片段得到目标图像的检索结果,能够提升检索数据库的构建效率,可应用于云技术、视频检索、人工智能、智慧交通、辅助驾驶等多种场景。场景。场景。
技术研发人员:张皓
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2023.08.15
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/