视频检测方法、装置、设备及可读存储介质与流程

未命名 09-01 阅读:98 评论:0


1.本技术涉及视频处理技术领域,更具体的说,是涉及一种视频检测方法、装置、设备及可读存储介质。


背景技术:

2.随着社交网络的快速发展,视频逐渐成为了移动互联网的主导内容形态之一。由于视频具有参与性强和传播价值高等特点,因此,视频的上传量越来越大;因此需要对视频进行检测,以确定检测的视频是否与已上传的视频构成重复视频。
3.目前,多利用人工智能技术,从视频的画面方面对视频进行检测,以确定检测的视频是否与已上传的视频构成重复视频,但是,这种视频检测方式需要对比两个视频的图像帧,而视频的图像帧数量众多,导致视频检测的效率低下。
4.因此,如何提供一种视频检测方法,以提升视频检测的效率,成为本领域技术人员亟待解决的技术问题。


技术实现要素:

5.鉴于上述问题,本技术提出了一种视频检测方法、装置、设备及可读存储介质。具体方案如下:一种视频检测方法,所述方法包括:确定待检测视频以及待对比视频;确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
6.可选地,所述确定待检测视频的文本片段信息,包括:确定所述待检测视频中的各个子音频片段;针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
7.可选地,所述确定所述子音频片段对应的文本片段信息,包括:确定所述子音频片段对应的文本;确定所述子音频片段对应的文本中第一个字对应的起始时间戳;基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;
将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
8.可选地,所述确定所述子音频片段对应的文本,包括:对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
9.可选地,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳,包括:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
10.可选地,所述比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复,包括:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则确定所述待检测视频与所述待对比视频不重复;如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
11.可选地,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
12.可选地,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述方法还包括:输出所述待对比视频在所述视频库中的存储路径。
13.可选地,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述方法还包括:将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
14.一种视频检测装置,所述装置包括:视频确定单元,用于确定待检测视频以及待对比视频;
文本片段信息确定单元,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;文本片段信息获取单元,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较单元,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
15.可选地,所述文本片段信息确定单元,包括:子音频片段确定单元,用于确定所述待检测视频中的各个子音频片段;子音频片段处理单元,用于针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
16.可选地,所述子音频片段处理单元,包括:文本确定单元,用于确定所述子音频片段对应的文本;起始时间戳确定单元,用于确定所述子音频片段对应的文本中第一个字对应的起始时间戳;文本信息确定单元,用于基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;时间戳确定单元,用于将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
17.可选地,所述文本确定单元,包括:语音识别单元,用于对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;字幕识别单元,用于对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;对齐与校正处理单元,用于对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
18.可选地,所述起始时间戳确定单元,具体用于:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
19.可选地,所述比较单元,具体用于:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则确定所述待检测视频与所述待对比视频不重复;如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测
视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
20.可选地,所述比较单元,具体用于:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
21.可选地,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述装置还包括:输出单元,用于输出所述待对比视频在所述视频库中的存储路径。
22.可选地,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述装置还包括:存储单元,用于将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
23.一种视频检测设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的视频检测方法的各个步骤。
24.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的视频检测方法的各个步骤。
25.借由上述技术方案,本技术公开了一种视频检测方法、装置、设备及可读存储介质。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。
附图说明
26.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本技术实施例公开的一种视频检测方法的流程示意图;图2为本技术实施例公开的一种视频检测装置结构示意图;图3为本技术实施例公开的一种视频检测设备的硬件结构框图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.接下来,通过下述实施例对本技术提供的视频检测方法进行介绍。
29.参照图1,图1为本技术实施例公开的一种视频检测方法的流程示意图,该方法可以包括:步骤s101:确定待检测视频以及待对比视频。
30.在本技术中,待检测视频和待对比视频可以为任意时长或任意格式的视频,对此,本技术不进行任何限定。在一些场景下,视频检测的目的是确定待检测视频是否可以存储至预设视频库,这种场景下,如果待检测视频与预设视频库中的视频均不重复,才会将待检测视频存储至预设视频库中,以减小对预设视频库的存储空间的无效占用,这种情况下,待对比视频可以是预设视频库中存储的任一视频。
31.步骤s102:确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳。
32.需要说明的是,文本信息可以表征视频片段对应的文本,文本信息的时间戳可以表征视频片段对应的文本是在该视频片段中的哪个时刻开始出现的。
33.在本技术中,可以将待检测视频划分为多个视频片段,针对每个视频片段确定该视频片段对应的文本片段信息,具体实现方式将通过后续实施例详细说明,此处不再展开描述。
34.步骤s103:获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳。
35.在本技术中,预设视频库中可以存储有视频以及视频的文本片段信息,则可以从预设视频库中获取待对比视频的文本片段信息。需要说明的是,可以在每个视频的各个文本片段信息中添加视频标识,这样,不同视频的文本片段信息便可以通过不同的视频标识进行区分。
36.步骤s104:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
37.在本技术中,通过比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,可以确定所述待检测视频与所述待对比视频的相似度,基于所述待检测视频与所述待对比视频的相似度,即可确定所述待检测视频与所述待对比视频是否重复,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
38.本实施例公开了一种视频检测方法。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含
文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。
39.在本技术的另一个实施例中,对步骤s102确定所述待检测视频的文本片段信息的具体实现方式进行说明,该方式可以包括如下步骤:步骤s201:确定所述待检测视频中的各个子音频片段。
40.在本技术中,可以先提取所述待检测视频的音频信息,再依据vad(voice activity detection,语音活性检测)技术从所述待检测视频的音频信息提取有效音频片段,作为所述待检测视频中的各个子音频片段。
41.步骤s202:针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳。
42.需要说明的是,确定所述子音频片段对应的文本片段信息的具体实现方式,将通过后面的实施例详细说明,此处不再展开描述。
43.步骤s203:各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
44.在本技术的另一个实施例中,对步骤s202确定所述子音频片段对应的文本片段信息的具体实现方式进行说明,该方式可以包括如下步骤:步骤s301:确定所述子音频片段对应的文本。
45.作为一种可实施方式,所述确定所述子音频片段对应的文本的具体实现方式可以包括如下步骤:步骤s3011:对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本。
46.在本技术中,可以利用asr(automatic speech recognition,自动语音识别)技术,对所述子音频片段进行语音识别,得到所述音频片段对应的第一文本。
47.步骤s3012:对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本。
48.在本技术中,可以利用ocr(optical character recognition,光学字符识别)对所述子音频片段对应的视频片段中的图像帧进行字幕识别,得到所述子音频片段对应的第二文本。
49.步骤s3013:对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
50.考虑到asr技术和ocr技术的实现原理的区别,得到的子音频片段对应的第一文本与子音频片段对应的第二文本可能存在不完全一致的情况,因此,在本技术中,需要对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
51.作为一种可实施方式,在本技术中可以采用文本编辑距离算法实现所述第一文本及所述第二文本的对齐,在所述第一文本及所述第二文本的对齐之后,可以基于预设的校正规则对所述第一文本及所述第二文本进行校正,得到校正后的文本作为所述子音频片段对应的文本。预设的校正规则包括但不限于句首位置对齐、同音字以第二文本为准、同型字以第一文本为准,第一文本丢字基于第二文本补全、第二文本丢字基于第一文本补全、第一
文本尾部多余字词截断、英文翻译成中文字幕以第一文本为准等。
52.为便于理解,假设第一文本为:咕咕我这还没出发呢菜某某待会在草丛里好好给我辅助啊 ok 嗯;第二文本为:我这还没出发蔡某某待会儿在草丛里好好拾我辅助啊 好首先采用文本编辑距离将所述第一文本及所述第二文本进行对齐后,结果如下:咕咕我这还没出发呢菜某某待会 在草丛里好好给我辅助啊 ok 嗯我这还没出发 蔡某某待会儿在草丛里好好拾我辅助啊 好在所述第一文本及所述第二文本的对齐之后,可以基于预设的校正规则对所述第一文本及所述第二文本进行校正,具体如下:规则一,句首位置对齐如上述示例中将以“我这”确认为句首位置。
53.规则二,同音字以第二文本为准如上述示例中“菜某某”和“蔡某某”,将以“蔡某某”为准。
54.规则三,同型字以第一文本为准如上述示例中“给我”和“拾我”,将以“给我”为准。
55.规则四,第一文本丢字基于第二文本补全如上述示例中基于“待会儿”补全“待会”规则五,第二文本丢字基于第一文本补全如上述示例中基于第一文本中“我还没出发呢”在第一文本中“我还没出发”后补全“呢”规则六,第一文本尾部多余字词截断如上述示例中第一文本尾部的“嗯”截断规则七,英文翻译成中文字幕以第一文本为准如上述示例中以“ok”为准。
56.基于预设的校正规则对上述第一文本及第二文本进行校正,得到校正后的文本如下:我这还没出发呢 蔡某某待会儿在草丛里好好给我辅助啊 ok步骤s302:确定所述子音频片段对应的文本中第一个字对应的起始时间戳。
57.作为一种可实施方式,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳的实现方式可以为:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
58.在本技术中,可以基于语音识别中的强制对齐技术将所述第一文本与对应子音频片段进行强制对齐,从而确定所述第一文本中各个字在所述子音频片段中的起始时间戳。在确定所述子音频片段对应的文本之后,确定该文本中第一个字对应第一文本中哪个字,将该字在所述子音频片段中的起始时间戳,作为所述子音频片段对应的文本中第一个字对应的起始时间戳。
59.为便于理解,基于上述示例,所述子音频片段对应的文本中第一个字为“我这”中的“我”,则确定第一文本中“我这”中的“我”对应的起始时间戳为所述子音频片段对应的文本中“我这”中的“我”对应的起始时间戳。
60.步骤s303:基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信
息。
61.作为一种可实施方式,可以计算所述子音频片段对应的文本的哈希值,作为所述子音频片段对应的文本信息。
62.步骤s304:将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳,所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
63.在本技术的另一个实施例中,对步骤s104比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复的具体实现方式进行详细说明,该方式可以包括如下步骤:步骤s401:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则执行步骤s402;如果存在,则执行步骤s403;为便于理解,假设待检测视频的文本片段信息包括两个,其中一个文本信息为abc,其对应时间戳为10,另一个文本信息为bcd,其对应时间戳为20;待对比视频的文本片段信息包括三个,其中一个文本信息为abc,其对应时间戳为60,另一个文本信息为bcd,其对应时间戳为70,再一个文本信息为abc,其对应时间戳为90;其中,文本信息abc和bcd为目标文本信息。
64.步骤s402:确定所述待检测视频与所述待对比视频不重复。
65.步骤s403:针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
66.其中,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
67.为便于理解,以步骤s401的示例为例,假设预设阈值为80%,文本信息abc的时间戳偏差为50和80,文本信息bcd的时间戳偏差为50。则时间戳偏差50对应的目标文本信息的个数为2,时间戳偏差80对应的目标文本信息的个数为1,则时间戳偏差对应的目标文本信息的个数中的最大个数为2,待检测视频的文本片段信息的个数为2,则最大个数与所述待检测视频的文本片段信息的个数的比值为100%,其大于预设阈值,则确定所述待检测视频与所述待对比视频重复。
68.上述实施例中提到,在一些场景下,视频检测的目的是确定待检测视频是否可以存储至预设视频库,这种场景下,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则输出所述待对比视频在所述视频库中的存储路径,以便提示用户视频库中已存储有类似视频。如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则可以将所述待检测视频以及所述待检测视频的文本片段信息存储至
所述视频库中。
69.下面对本技术实施例公开的视频检测装置进行描述,下文描述的视频检测装置与上文描述的视频检测方法可相互对应参照。
70.参照图2,图2为本技术实施例公开的一种视频检测装置结构示意图。如图2所示,该视频检测装置可以包括:视频确定单元11,用于确定待检测视频以及待对比视频;文本片段信息确定单元12,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;文本片段信息获取单元13,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较单元14,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
71.作为一种可实施方式,所述文本片段信息确定单元,包括:子音频片段确定单元,用于确定所述待检测视频中的各个子音频片段;子音频片段处理单元,用于针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。
72.作为一种可实施方式,所述子音频片段处理单元,包括:文本确定单元,用于确定所述子音频片段对应的文本;起始时间戳确定单元,用于确定所述子音频片段对应的文本中第一个字对应的起始时间戳;文本信息确定单元,用于基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;时间戳确定单元,用于将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。
73.作为一种可实施方式,所述文本确定单元,包括:语音识别单元,用于对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;字幕识别单元,用于对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;对齐与校正处理单元,用于对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。
74.作为一种可实施方式,所述起始时间戳确定单元,具体用于:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。
75.作为一种可实施方式,所述比较单元,具体用于:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则确定所述待检测视频与所述待对比视频不重复;如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。
76.作为一种可实施方式,所述比较单元,具体用于:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。
77.作为一种可实施方式,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述装置还包括:输出单元,用于输出所述待对比视频在所述视频库中的存储路径。
78.作为一种可实施方式,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述装置还包括:存储单元,用于将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。
79.参照图3,图3为本技术实施例提供的一种视频检测设备的硬件结构框图,参照图3,该视频检测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:确定待检测视频以及待对比视频;确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定
所述待检测视频与所述待对比视频是否重复。
80.可选的,所述程序的细化功能和扩展功能可参照上文描述。
81.本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:确定待检测视频以及待对比视频;确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。
82.可选的,所述程序的细化功能和扩展功能可参照上文描述。
83.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
84.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
85.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种视频检测方法,其特征在于,所述方法包括:确定待检测视频以及待对比视频;确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测视频的文本片段信息,包括:确定所述待检测视频中的各个子音频片段;针对每个子音频片段,确定所述子音频片段对应的文本片段信息,每个子音频片段对应的文本片段信息包括所述子音频片段对应的文本信息,以及所述子音频片段对应的文本信息的时间戳;各个子音频片段对应的文本片段信息,组合成为所述待检测视频的文本片段信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述子音频片段对应的文本片段信息,包括:确定所述子音频片段对应的文本;确定所述子音频片段对应的文本中第一个字对应的起始时间戳;基于所述子音频片段对应的文本,确定所述子音频片段对应的文本信息;将所述子音频片段对应的文本中第一个字对应的起始时间戳,确定为所述子音频片段对应的文本信息的时间戳;所述子音频片段对应的文本信息以及所述子音频片段对应的文本信息的时间戳组合得到所述子音频片段对应的文本片段信息。4.根据权利要求3所述的方法,其特征在于,所述确定所述子音频片段对应的文本,包括:对所述子音频片段进行语音识别,得到所述子音频片段对应的第一文本;对所述子音频片段对应的视频片段中的字幕进行识别,得到所述子音频片段对应的第二文本;对所述第一文本及所述第二文本进行对齐与校正处理,得到所述子音频片段对应的文本。5.根据权利要求4所述的方法,其特征在于,所述确定所述子音频片段对应的文本中第一个字对应的起始时间戳,包括:确定所述第一文本中各个字在所述子音频片段中的起始时间戳;基于所述第一文本中各个字在所述子音频片段中的起始时间戳,确定所述子音频片段对应的文本中第一个字在所述子音频片段中的起始时间戳。6.根据权利要求1所述的方法,其特征在于,所述比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复,包括:比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述
待检测视频与所述待对比视频是否存在目标文本信息,所述目标文本信息为既在所述待检测视频中出现又在所述待对比视频中出现的文本信息;如果不存在,则确定所述待检测视频与所述待对比视频不重复;如果存在,则针对每个所述目标文本信息,基于所述目标文本信息在所述待检测视频中的时间戳,与所述目标文本信息在所述待对比视频中的时间戳,确定所述目标文本信息对应的时间戳偏差;基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复。7.根据权利要求6所述的方法,其特征在于,所述基于各个目标文本信息对应的时间戳偏差,确定所述待检测视频与所述待对比视频是否重复,包括:确定一个时间戳偏差对应的目标文本信息的个数;计算最大个数与所述待检测视频的文本片段信息的个数的比值;如果所述比值超过预设阈值,则确定所述待检测视频与所述待对比视频重复;如果所述比值不超过预设阈值,则确定所述待检测视频与所述待对比视频不重复。8.根据权利要求1所述的方法,其特征在于,所述待对比视频为预设视频库中的视频,如果确定所述待检测视频与所述待对比视频重复,则所述方法还包括:输出所述待对比视频在所述视频库中的存储路径。9.根据权利要求8所述的方法,其特征在于,如果确定所述待检测视频与所述预设视频库中的各个视频均不重复,则所述方法还包括:将所述待检测视频以及所述待检测视频的文本片段信息存储至所述视频库中。10.一种视频检测装置,其特征在于,所述装置包括:视频确定单元,用于确定待检测视频以及待对比视频;文本片段信息确定单元,用于确定所述待检测视频的文本片段信息,所述待检测视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;文本片段信息获取单元,用于获取所述待对比视频的文本片段信息,所述待对比视频的每个文本片段信息包括一个文本信息,以及所述文本信息的时间戳;比较单元,用于比较所述待检测视频的文本片段信息以及所述待对比视频的文本片段信息,确定所述待检测视频与所述待对比视频是否重复。11.一种视频检测设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至9中任一项所述的视频检测方法的各个步骤。12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的视频检测方法的各个步骤。

技术总结
本申请公开了一种视频检测方法、装置、设备及可读存储介质。在确定待检测视频以及待对比视频之后;先确定待检测视频的文本片段信息;待检测视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;然后,获取待对比视频的文本片段信息;待对比视频的每个文本片段信息包括一个文本信息,以及文本信息的时间戳;最后,比较待检测视频的文本片段信息以及待对比视频的文本片段信息,确定待检测视频与待对比视频是否重复。基于该方案,由于视频的文本片段,相对于视频的图像帧来说,数量要少很多,而且,文本片段信息仅仅包含文本信息和其时间戳,比对文本片段信息相对于比对图像帧要更为简单,因此,采用本方案能够提升视频检测的效率。检测的效率。检测的效率。


技术研发人员:潘青华 丁杰 汪锦想 于振华 胡国平 刘聪 魏思 王士进 刘权
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2023.07.24
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐