基于PPT的视频内容切割方法、装置、电子设备及介质与流程

未命名 08-02 阅读:139 评论:0

基于ppt的视频内容切割方法、装置、电子设备及介质
技术领域
1.本发明涉及视觉领域,尤其涉及一种基于ppt的视频内容切割方法、装置、电子设备及可读存储介质。


背景技术:

2.视频内容切割是指根据一段完整视频的切割点对视频进行剪切的过程,例如,金融领域中,某公司需要对某个保险产品进行视频介绍时,需要用到视频剪辑的手法。
3.当前常见的判断视频切割点的方法有两种,一种是基于图像的信息进行切割,比如镜头切换,或者识别图像帧与帧之间的相似度,把相似度低的作为分割点;一种根据视频中的文本信息进行切割,比如视频中包含语音,通过asr识别出语音的文本信息,然后通过语义理解,根据不同语义段落去切分。这两种方法适用于知识点结构清晰的视频,并且在图像切换过程中是无语音信号的视频。针对培训讲解类的视频,其特点是讲解员不断的在表达,输出语音信息。同时也会切换ppt,展示对应的讲解内容。这就会经常出现切换ppt的同时,讲解员还在说话,对应的文本语义信息横跨了两个不同的图像内容。如果只用单纯的图像作为分割点,那么会截断讲解员的一句完整的话,视频切割不完整。如果只用单纯的文本语义作为分割点,又会出现ppt被翻页,图像信息不完整。


技术实现要素:

4.本发明提供一种基于ppt的视频内容切割方法、装置、电子设备及可读存储介质,其目的在于实现对包含ppt内容的培训类视频的视频内容精准切割。
5.为实现上述目的,本发明提供的一种基于ppt的视频内容切割方法,所述方法包括:
6.获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;
7.对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;
8.根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
9.可选地,所述计算相邻的所述视频帧之间的图片相似度,包括:
10.对所述不同所述校验结果的相邻视频帧进行灰度化处理,得到灰度视频帧;
11.统计所述灰度视频帧中像素值数量,根据所述像素值数量计算所述灰度视频帧的直方图;
12.统计所述直方图中相同像素值的像素点的概率分布,并根据所述概率分布计算所述灰度视频帧的图片相似度。
13.可选地,所述提取所述待切割视频中的语音文本信息,包括:
14.提取所述待切割视频中的音频数据,得到语音序列流;
15.利用预设的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取,得到流式语音特征序列向量集;
16.将所述流式语音特征序列向量集转化为流式语音序列向量矩阵,利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码,得到流式语音序列关联矩阵;
17.利用预设的语音识别模型中的掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码,得到遮蔽流式语音序列矩阵;
18.利用预设的语音识别模型中的残差连接层计算所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵的残差矩阵,得到残差流式语音序列矩阵;
19.利用预设的语音识别模型中的全连接层计算所述残差流式语音序列矩阵对应字符,得到语音文本信息。
20.可选地,所述对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,包括:
21.判断所述图像滑动时间窗内的语音文本信息是否是连续语音文本信息;
22.当所述图像滑动时间窗内的语音文本信息不是连续语音文本信息时,根据所述视频分割时间点切割所述待切割视频,得到目标视频;
23.当所述图像滑动时间窗内的语音文本信息是连续语音文本信息时,对所述图像滑动时间窗内的所述连续语音文本信息及与所述连续语音文本信息相邻的两段语音文本信息分别进行分词处理,得到连续分词语音文本、前端分词语音文本及后端分词语音文本;
24.利用预设的特殊字符将所述前端分词语音文本与所述连续分词语音文本进行拼接,得到第一拼接语音文本;
25.利用预设的特殊字符将所述连续分词语音文本与所述后端分词语音文本进行拼接,得到第二拼接语音文本;
26.利用预设的语言表征模型中的编码层分别对所述第一拼接语音文本及所述第二拼接语音文本进行编码,得到第一编码语音文本及第二编码语音文本;
27.利用预设的语言表征模型中全连接层的激活函数分别计算所述第一编码语音文本及所述第二编码语音文本的目标值,得到第一目标值及第二目标值;
28.将所述第一目标值的数值与所述第二目标值的数值进行比较,得到比较结果,并根据比较结果对所述图像滑动时间窗内的连续语音文本信息进行划分,得到划分结果。
29.可选地,所述计算相邻的所述视频帧之间的图片相似度之前,还包括:
30.利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像;
31.提取所述背景图像中的文本信息,并利用投票算法对所述文本信息进行校验,得校验结果。
32.可选地,所述利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像,包括:
33.复制两遍所述视频帧,得到第一复制视频帧、第二复制视频帧及原视频帧;
34.利用预设的语义分割网络中的第一下采样层对所述第一复制视频帧、所述第二复制视频帧及所述原视频帧分别进行不同尺度的下采样,得到低分辨率图像、中分辨率图像
及高分辨率图像;
35.利用预设的语义分割网络中的第二下采样层对所述低分辨率图像、中分辨率图像及高分辨率图像分别进行相同尺度的下采样,得到第一特征图、第二特征图及第三特征图;
36.利用预设的语义分割网络中的级联特征融合层对所述第一特征图进行上采样,得到第一上采样特征图,将所述第一上采样特征图与所述第二特征图中的每一个像素值进行求和计算,得到第一和值特征图,并利用预设的激活函数对所述第一和值特征图进行线性计算,得到第一目标特征图;
37.利用预设的语义分割网络中的级联特征融合层对所述第一目标特征图进行上采样,得到第二上采样特征图,将所述第二上采样特征图与所述第三特征图中的每一个像素值进行求和计算,得到第二和值特征图,并利用预设的激活函数对所述第二和值特征图进行线性计算,得到第二目标特征图;
38.利用预设的语义分割网络中的第一上采样层对所述第二目标特征图进行上采样,得到上采样图像;
39.将所述上采样图像与预设的人物标签图像及预设的背景标签图像进行比较,得到比较结果,并根据所述比较结果中的像素差异对所述上采样图像进行分割,得到上采样人物图像及上采样背景图像;
40.利用预设的语义分割网络中的第二上采样层对所述上采样人物图像及所述上采样背景图像分别进行上采样,得到人物图像及背景图像。
41.可选地,所述提取所述背景图像中的文本信息,包括:
42.对所述背景图像中的像素值进行灰度化处理,得到灰度背景图像;
43.对所述灰度背景图像中的像素值进行降噪处理,得到降噪背景图像;
44.对所述降噪背景图像中的像素值进行二值化处理,得到目标背景图象;
45.对所述目标背景图像进行字符切分,得到文字图块;
46.将所述文字图块与预设的字符库进行比对,得到背景图像中的文本信息。
47.为了解决上述问题,本发明还提供一种基于ppt的视频内容切割装置,所述装置包括:
48.视频分割时间点获取模块,用于获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;
49.语音文本信息判断模块,用于对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;
50.视频切割模块,用于根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
51.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
52.存储器,存储至少一个计算机程序;及
53.处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于ppt的视频内容切割方法。
54.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存
储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于ppt的视频内容切割方法。
55.本发明实施例通过获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点,从视频背景图像文本内容及背景图像相似度两个维度对所述待切割视频进行判断,提高了所述视频切割点位的准确率,进一步地,对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,,根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频,确保了所述目标视频中不存在语音与背景不匹配的情况,从而完成对包含ppt内容的培训类视频的视频内容切割。因此,本发明提供的一种基于ppt的视频内容切割方法、装置、设备及存储介质,能够实现对包含ppt内容的培训类视频的视频内容精准切割。
附图说明
56.图1为本发明一实施例提供的基于ppt的视频内容切割方法的流程示意图;
57.图2至图3为本发明一实施例提供的基于ppt的视频内容切割方法的中其中一个步骤的详细实施流程图;
58.图4为本发明一实施例提供的基于ppt的视频内容切割装置的模块示意图;
59.图5为本发明一实施例提供的实现基于ppt的视频内容切割方法的电子设备的内部结构示意图;
60.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
61.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
62.本发明实施例提供一种基于ppt的视频内容切割方法。所述基于ppt的视频内容切割方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于ppt的视频内容切割方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端可以包括独立的服务器,也可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
63.参照图1所示的本发明一实施例提供的基于ppt的视频内容切割方法的流程示意图,在本发明实施例中,所述基于ppt的视频内容切割方法包括:
64.s1、获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;
65.本发明实施例中,所述待切割视频可以是含有ppt讲解的培训式视频,例如,金融行业中,新员工的培训视频。所述图片相似度可以是所述视频帧的相似程度。所述预设阈值可以是操作人员根据多组数据训练之后的结果定下的数值。
66.本发明可选实施例中,通过视频接收端口接收用户输入的待切割视频,并将所述
待切割视频的视频帧一一抽取出来,得到所述待切割视频的视频帧,进一步地,由于需要将所述视频帧输入至预设的语义分割网络,因此,需要对所述视频帧进行处理,得到符合所述语义分割网络的输入。
67.本发明实施例中,为降低相邻的所述视频帧之间的图片相似度的计算难度,可以在计算相邻的所述视频帧之间的图片相似度之前,对所述视频帧进行图像语义分割,得到人物图像及背景图像,并单独计算相邻的所述视频帧之间的背景图像的相似度,从而提高了基于ppt的视频内容切割的效率。
68.详细地,所述计算相邻的所述视频帧之间的图片相似度之前,还包括:
69.利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像;
70.提取所述背景图像中的文本信息,并利用投票算法对所述文本信息进行校验,得校验结果。
71.本发明实施例中,所述预设的语义分割网络可以是训练完成的能处理高分辨率图像的icnet(image cascade network,图像级联网络)。所述投票算法可以是寻找数组中的众数的一种算法。
72.本发明可选实施例中,通过视频接收端口接收用户输入的待切割视频,并将所述待切割视频的视频帧一一抽取出来,得到所述待切割视频的视频帧,进一步地,由于需要将所述视频帧输入至预设的语义分割网络,因此,需要对所述视频帧进行处理,得到符合所述语义分割网络的输入。
73.本发明实施例中,所述预设的语义分割网络包含级联特征融合层、第一上采样层、第二上采样层、第一下采样层及第二下采样层,其中所述第一下采样层及第二下采样层可以对图像进行卷积池化的地方;所述第一上采样层及第二上采样层可以对图像进行反卷积操作。
74.进一步地,作为本发明一可选实施例,参考图2所示,所述利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像,包括:
75.s11、复制两遍所述视频帧,得到第一复制视频帧、第二复制视频帧及原视频帧;
76.s12、利用预设的语义分割网络中的第一下采样层对所述第一复制视频帧、所述第二复制视频帧及所述原视频帧分别进行不同尺度的下采样,得到低分辨率图像、中分辨率图像及高分辨率图像;
77.s13、利用预设的语义分割网络中的第二下采样层对所述低分辨率图像、中分辨率图像及高分辨率图像分别进行相同尺度的下采样,得到第一特征图、第二特征图及第三特征图;
78.s14、利用预设的语义分割网络中的级联特征融合层对所述第一特征图进行上采样,得到第一上采样特征图,将所述第一上采样特征图与所述第二特征图中的每一个像素值进行求和计算,得到第一和值特征图,并利用预设的激活函数对所述第一和值特征图进行线性计算,得到第一目标特征图;
79.s15、利用预设的语义分割网络中的级联特征融合层对所述第一目标特征图进行上采样,得到第二上采样特征图,将所述第二上采样特征图与所述第三特征图中的每一个像素值进行求和计算,得到第二和值特征图,并利用预设的激活函数对所述第二和值特征
图进行线性计算,得到第二目标特征图;
80.s16、利用预设的语义分割网络中的第一上采样层对所述第二目标特征图进行上采样,得到上采样图像;
81.s17、将所述上采样图像与预设的人物标签图像及预设的背景标签图像进行比较,得到比较结果,并根据所述比较结果中的像素差异对所述上采样图像进行分割,得到上采样人物图像及上采样背景图像;
82.s18、利用预设的语义分割网络中的第二上采样层对所述上采样人物图像及所述上采样背景图像分别进行上采样,得到人物图像及背景图像。
83.本发明实施例中,所述预设的激活函数可以是relu激活函数。所述预设的人物标签图像可以是包含人物特征的标签图像。所述预设的背景标签图像可以是包含ppt文档特征的标签图像。
84.本发明实施例中,所述利用预设的语义分割网络中的第一下采样层对所述第一复制视频帧、所述第二复制视频帧及所述原视频帧分别进行不同尺度的下采样中所述不同尺度通常为四分之一尺度、二分之一尺度及原尺度。所述利用预设的语义分割网络中的第二下采样层对所述低分辨率图像、中分辨率图像及高分辨率图像分别进行相同尺度的下采样中所述相同尺度通常为八分之一尺度。所述利用预设的语义分割网络中的级联特征融合层对所述第一特征图进行上采样,得到第一上采样特征图中上采样的倍数通常为二倍。所述利用预设的语义分割网络中的级联特征融合层对所述第一目标特征图进行上采样,得到第二上采样特征图中上采样的倍数通常为二倍。所述利用预设的语义分割网络中的第一上采样层对所述第二目标特征图进行上采样中上采样的倍数通常为二倍。所述利用预设的语义分割网络中的第二上采样层对所述上采样人物图像及所述上采样背景图像分别进行上采样中上采样的倍数通常为四倍。
85.本发明一可选实施例中,将视频帧复制输入至由三个通道组成的瀑布图像输入通道中,得到低分辨率图像、中分辨率图像及高分辨率图像,进一步地,将所述低分辨率图像、中分辨率图像及高分辨率图像分别输入至下采样率为8的psp网络中,得到第一特征图、第二特征图及第三特征图,将所述第一特征图、所述第二特征图及所述第三特征图分别输入到cff(csacade-feature-fusion,级联特征融合)模块中,得到第二目标特征图,并将所述第二目标特征图经过经过系数为2的上采样后得到原始分辨率1/4大小的特征图,此时参考大小为1/4的label guidance之后以系数为4进行上采样得到最终结果。
86.本发明实施例利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像,为切割所述待切割视频提供了背景模板及人物模板,确保包含ppt讲解的培训类视频能够精准地进行视频内容切割,例如,在金融科技行业中,某企业新推出的保险产品需要进行视频模式的产品分段式介绍,可在对所述ppt视频进行剪辑之前,利用预设的语义分割网络分割所述ppt视频中的保险产品介绍人员及保险产品简介,从而减少了包含ppt讲解的保险产品介绍视频中人声和背景不同步的情况。
87.进一步地,本发明实施例通过提取所述背景图像中的文本信息,从而判断所述背景图像中的背景是否发生改变。
88.详细地,所述提取所述背景图像中的文本信息,包括:
89.对所述背景图像中的像素值进行灰度化处理,得到灰度背景图像;
90.对所述灰度背景图像中的像素值进行降噪处理,得到降噪背景图像;
91.对所述降噪背景图像中的像素值进行二值化处理,得到目标背景图象;
92.对所述目标背景图像进行字符切分,得到文字图块;
93.将所述文字图块与预设的字符库进行比对,得到背景图像中的文本信息。
94.本发明实施例中,所述预设的字符库可以是包含有各种文字信息的数据库,例如,汉字信息及英文信息等。
95.本发明可选实施例中,通过将背景图像中的彩色部分转化为灰度图像,从而减少计算难度,进一步地,为保证文字提取的准确率,对灰度背景图像进行降噪处理,改变所述灰度背景图像中差距较大的像素值,得到降噪背景图像,进一步地,对所述降噪背景图像中的像素值进行黑白两级分化,从而得到非黑即白的目标背景图像,其中,所述目标背景图像中的黑色像素部分即为文字部分,最后将所述文字部分与预设的字符库进行比对,即可得到所述文字部分对应的文本信息。
96.本发明实施例利用投票算法对所述文本信息进行校验,得校验结果,确保了所述文本信息的一致性,为后续对含ppt讲解的培训式视频进行视频切割提供了准确的背景图像。
97.进一步地,作为本发明一可选实施例,所述利用投票算法对所述文本信息进行校验,得校验结果,包括:
98.将每一个视频帧所对应的文本信息与其余视频帧所对应的文本信息进行文本内容比对,得到比对结果,并根据所述比对结果,对所述文本信息进行组别划分,得到文本信息组;
99.利用最大字符串匹配算法提取所述文本信息组中的最大公共字符串区域;
100.利用字符串转化算法将所述文本信息组转化为字符串区域,并将所述字符串区域中与所述最大公共字符串区域不同的区域作为不同字符串区域;
101.计算所述文本信息组中的不同字符串区域中各个字符串的出现次数,将出现次数最大的字符串作为所述不同字符串区域的目标字符串;
102.将所述最大公共字符串区域中的字符串与所述目标字符串进行归一整合,得到目标字符串区域,并对所述目标字符串区域进行内容检验,得到校验结果。
103.本发明实施例中,所述最大字符串匹配算法可以是kmp(knuth morris pratt,字符串查找)算法。
104.本发明实施例中,在利用投票算法对所述文本信息进行校验,得校验结果之前,为保证校验结果的准确性,还需要将不同视频帧所对应的文本信息进行对比,对所述文本信息进行组别划分。
105.进一步地,本发明实施例通过计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点,进一步验证所述视频帧分组的准确性,确保所述基于ppt的视频内容切割的精准度。
106.进一步地,作为本发明一可选实施例,所述计算相邻的所述视频帧之间的图片相似度,包括:
107.对相邻的所述视频帧进行灰度化处理,得到灰度视频帧;
108.统计所述灰度视频帧中像素值数量,根据所述像素值数量计算所述灰度视频帧的
直方图;
109.统计所述直方图中相同像素值的像素点的概率分布,并根据所述概率分布计算所述灰度视频帧的图片相似度。
110.本发明实施例中,所述直方图可以是一系列高度不等的纵向条纹或线段构成的统计报告图。
111.本发明可选实施例中,通过计算相邻的所述视频帧的直方图像素分布概率,实现了图像相似度的计算,且由于计算方法较为简便,从而提高了图片相似度的计算速度。
112.进一步地,本发明另一可选实施例中,当所述图片相似度低于预设阈值时,表明所述相邻视频帧不相同的区域多,因此,可将所述图片相似度低于预设阈值的相邻视频帧之间作为视频分割时间点。
113.s2、对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果。本发明实施例中,所述图像滑动时间窗可以是一连串视频帧中基于时间可滑动的窗口。
114.本发明可选实施例中,可以根据专业人员的经验,对所述视频分割时间点设定图像滑动时间窗的大小,从而提高视频内容切割的效率。
115.进一步地,本发明实施例可以利用预设的语音识别模型提取所述待切割视频中的语音文本信息,其中,所述预设的语音识别模型可以是训练完成的基于深度学习的语音模型,包括二维注意力机制层、编码层、掩蔽多头注意力机制层、残差连接层及全连接层。
116.本发明实施例通过利用预设的语音识别模型提取所述待切割视频中的语音文本信息,保证了所述待切割视频语音维度的准确率,并提供了所述待切割视频语音维度的切割点位,从而使得视频内容切割更为精准。
117.进一步地,作为本发明一可选实施例,参考图3所示,所述提取所述待切割视频中的语音文本信息,包括:
118.s21、提取所述待切割视频中的音频数据,得到语音序列流;
119.s22、利用预设的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取,得到流式语音特征序列向量集;
120.s23、将所述流式语音特征序列向量集转化为流式语音序列向量矩阵,利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码,得到流式语音序列关联矩阵;
121.s24、利用预设的语音识别模型中的掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码,得到遮蔽流式语音序列矩阵;
122.s25、利用预设的语音识别模型中的残差连接层计算所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵的残差矩阵,得到残差流式语音序列矩阵;
123.s26、利用预设的语音识别模型中的全连接层计算所述残差流式语音序列矩阵对应字符,得到语音文本信息。
124.本发明实施例中,所述流式语音序列向量矩阵可以是由流式语音特征序列向量集拼接而成的矩阵。所述流式语音序列关联矩阵指的是包含所述流式语音特征序列向量集的上下字符语义特征的矩阵,且所述流式语音序列向量矩阵和所述流式语音序列关联矩阵的维度一致。
125.本发明实施例通过提取所述待切割视频中的语音文本信息,从文本层面确定所述待切割视频的视频分割时间点,例如,在某保险产品的介绍ppt视频中,通过提取所述介绍ppt视频中的背景ppt文档中的语音文本信息,确认所述介绍ppt视频中产品介绍人所说话语是否与所述语音文本信息相同,从而确定所述介绍ppt视频的视频分割时间点。
126.本发明可选实施例中,使用掩蔽多头注意力机制层主要目的是帮助当前节点获取到当前需要关注的重要内容,遮蔽的内容是真实标签序列中当前结点之后的文本标签,且利用掩蔽多头注意力机制层可以使得输入的语音特征的干净部分和噪声部分有较为明显的区分,进而对噪声部分进行掩蔽处理,能够更有效地抑制噪声,进一步提高语音识别的准确率。
127.本发明实施例通过对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,从而确定所述连续语音文本信息的所属区域,进而更为精准地给所述待切割视频进行视频内容切割。
128.进一步地,作为本发明一可选实施例,所述对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,包括:
129.判断所述图像滑动时间窗内的语音文本信息是否是连续语音文本信息;
130.当所述图像滑动时间窗内的语音文本信息不是连续语音文本信息时,根据所述视频分割时间点切割所述待切割视频,得到目标视频;
131.当所述图像滑动时间窗内的语音文本信息是连续语音文本信息时,对所述图像滑动时间窗内的所述连续语音文本信息及与所述连续语音文本信息相邻的两段语音文本信息分别进行分词处理,得到连续分词语音文本、前端分词语音文本及后端分词语音文本;
132.利用预设的特殊字符将所述前端分词语音文本与所述连续分词语音文本进行拼接,得到第一拼接语音文本;
133.利用预设的特殊字符将所述连续分词语音文本与所述后端分词语音文本进行拼接,得到第二拼接语音文本;
134.利用预设的语言表征模型中的编码层分别对所述第一拼接语音文本及所述第二拼接语音文本进行编码,得到第一编码语音文本及第二编码语音文本;
135.利用预设的语言表征模型中全连接层的激活函数分别计算所述第一编码语音文本及所述第二编码语音文本的目标值,得到第一目标值及第二目标值;
136.将所述第一目标值的数值与所述第二目标值的数值进行比较,得到比较结果,并根据比较结果对所述图像滑动时间窗内的连续语音文本信息进行划分,得到划分结果。
137.本发明实施例中,所述连续语音文本可以是上下文具有关联的语音文本信息。所述预设的语言表征模型可以是训练完成的bert(bidirectionalencoder representations fromtransformer,基于变压器的双向编码器表示)模型。所述前端分词语音文本可以是所述连续语音文本信息在所述视频帧中所在位置的前一段语音文本信息。所述后端分词语音文本可以是所述连续语音文本信息在所述视频帧中所在位置的后一段语音文本信息。所述全连接层是由多层感知器构建的人工神经网络。所述激活函数可以是sigmoid激活函数。
138.本发明可选实施例中,由于包含ppt讲解的培训式视频的特征,容易出现背景ppt已发生改变,但人物讲师还在述说前面的内容,或者人物讲师已在述说下一段内容,但背景ppt还未发生改变的情况,导致声画不同步,从而无法精准地对包含ppt的待切割视频进行
视频内容切割,因此,在对所述包含ppt的待切割视频进行视频内容切割之前,还需要判断所述视频分割时间点相邻两侧的视频帧对应的语音文本信息是否是连续语音文本信息。
139.进一步地,本发明可选实施例中,首先识别所述语音信息的文本内容,其次,根据所述文本内容,对所述语音文本信息进行分段,得到语音文本信息段,最后,按照所述语音文本信息段对应的视频帧帧数,判断所述视频分割时间点相邻两侧的视频帧对应的语音文本信息是否为连续语音文本信息。
140.本发明可选实施例中,当所述视频分割时间点相邻两侧的视频帧对应的语音文本信息不是连续语音文本信息时,说明没有出现背景ppt已发生改变,但人物讲师还在述说前面的内容,或者人物讲师已在述说下一段内容,但背景ppt还未发生改变的情况,即所述包含ppt讲解的待切割视频不存在声画不同步的问题,因此,只需要根据所述视频分割时间点切割所述待切割视频,即可得到目标视频。
141.本发明实施例中,所述将所述第一目标值的数值与所述第二目标值的数值进行比较,得到比较结果,其中,所述比较结果可以存在以下两种情况,第一,所述第一目标数值小于所述第二目标数值,即所述连续分词语音文本的语境与所述前端分词语音文本的语境连接更为贴切,因此,可将所述连续分词语音文本对应的连续语音文本信息划分为所述前端分词语音文本对应的语音文本信息片段之内;第二,所述第一目标数值大于所述第二目标数值,即所述连续分词语音文本的语境与所述后端分词语音文本的语境连接更为贴切,因此,可将所述连续分词语音文本对应的连续语音文本信息划分为所述后端分词语音文本对应的语音文本信息片段之内。
142.本发明实施例通过分别将所述连续语音文本信息与前后相邻的语音文本信息进行拼接,再利用激活函数计算拼接之后的值,从而简化了判断所述连续语音文本信息所属问题的计算难度,且提高了切割所述待切割视频的精准度。
143.s3、根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
144.本发明可选实施例中,当得到划分结果时,可以将所述连续语音文本信息结束时对应的视频帧的帧数作为目标分割时间点。
145.本发明一可选实施例中,将所述连续语音文本信息对应的视频帧的背景图像替换为所述划分结果对应视频帧的背景图像,其中,所述对应视频帧的背景图像指的是所述视频帧对应文本信息所在文本信息组的最大公共字符串区域中的字符串与目标字符串的整合,从而保证所述连续语音文本信息对应的视频帧的背景图像与所述划分结果对应视频帧的背景图像相连接时不会出现太大的变化。
146.进一步地,本发明实施例中,由于语音信息比图像信息更难修改,因此,选择将所述划分结果中的划分点作为目标分割时间点,根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频,提高了所述待切割视频的内容切割的简便性,提高了切割所述待切割视频内容的效率及精准度。
147.本发明实施例通过获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点,从视频背景图像文本内容及背景图像相似度两个维度对所述待切割视频进行判断,提高了所述视频切割点位的准确率,进一步地,对所述视频分割时间点设定图像滑动时间窗,
提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,,根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频,确保了所述目标视频中不存在语音与背景不匹配的情况,从而完成对包含ppt内容的培训类视频的视频内容切割。因此,本发明提供的一种基于ppt的视频内容切割方法、装置、设备及存储介质,能够实现对包含ppt内容的培训类视频的视频内容精准切割。
148.如图4所示,是本发明基于ppt的视频内容切割装置的功能模块图。
149.本发明所述基于ppt的视频内容切割装置100可以安装于电子设备中。根据实现的功能,所述基于ppt的视频内容切割装置100可以包括视频分割时间点获取模块101、语音文本信息判断模块102及视频切割模块103,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
150.在本实施例中,关于各模块/单元的功能如下:
151.所述视频分割时间点获取模块101用于获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点。
152.所述语音文本信息判断模块102用于对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果。
153.所述视频切割模块103用于根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
154.如图5所示,是本发明实现基于ppt的视频内容切割方法的电子设备的结构示意图。
155.所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于ppt的视频内容切割程序。
156.其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于ppt的视频内容切割程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
157.所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器
及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于ppt的视频内容切割程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
158.所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
159.图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
160.例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
161.可选地,所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
162.可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
163.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
164.所述电子设备中的所述存储器11存储的基于ppt的视频内容切割程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
165.获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;
166.对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;
167.根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
168.具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
169.进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读
介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
170.本发明实施例还可以提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
171.获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;
172.对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;
173.根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。
174.进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
175.在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
176.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
177.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
178.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
179.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
180.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
181.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
182.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照
较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.一种基于ppt的视频内容切割方法,其特征在于,所述方法包括:获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。2.如权利要求1所述的基于ppt的视频内容切割方法,其特征在于,所述计算相邻的所述视频帧之间的图片相似度,包括:对所述不同所述校验结果的相邻视频帧进行灰度化处理,得到灰度视频帧;统计所述灰度视频帧中像素值数量,根据所述像素值数量计算所述灰度视频帧的直方图;统计所述直方图中相同像素值的像素点的概率分布,并根据所述概率分布计算所述灰度视频帧的图片相似度。3.如权利要求1所述的基于ppt的视频内容切割方法,其特征在于,所述提取所述待切割视频中的语音文本信息,包括:提取所述待切割视频中的音频数据,得到语音序列流;利用预设的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取,得到流式语音特征序列向量集;将所述流式语音特征序列向量集转化为流式语音序列向量矩阵,利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码,得到流式语音序列关联矩阵;利用预设的语音识别模型中的掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码,得到遮蔽流式语音序列矩阵;利用预设的语音识别模型中的残差连接层计算所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵的残差矩阵,得到残差流式语音序列矩阵;利用预设的语音识别模型中的全连接层计算所述残差流式语音序列矩阵对应字符,得到语音文本信息。4.如权利要求1所述的基于ppt的视频内容切割方法,其特征在于,所述对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果,包括:判断所述图像滑动时间窗内的语音文本信息是否是连续语音文本信息;当所述图像滑动时间窗内的语音文本信息不是连续语音文本信息时,根据所述视频分割时间点切割所述待切割视频,得到目标视频;当所述图像滑动时间窗内的语音文本信息是连续语音文本信息时,对所述图像滑动时间窗内的所述连续语音文本信息及与所述连续语音文本信息相邻的两段语音文本信息分别进行分词处理,得到连续分词语音文本、前端分词语音文本及后端分词语音文本;利用预设的特殊字符将所述前端分词语音文本与所述连续分词语音文本进行拼接,得到第一拼接语音文本;利用预设的特殊字符将所述连续分词语音文本与所述后端分词语音文本进行拼接,得到第二拼接语音文本;
利用预设的语言表征模型中的编码层分别对所述第一拼接语音文本及所述第二拼接语音文本进行编码,得到第一编码语音文本及第二编码语音文本;利用预设的语言表征模型中全连接层的激活函数分别计算所述第一编码语音文本及所述第二编码语音文本的目标值,得到第一目标值及第二目标值;将所述第一目标值的数值与所述第二目标值的数值进行比较,得到比较结果,并根据比较结果对所述图像滑动时间窗内的连续语音文本信息进行划分,得到划分结果。5.如权利要求1所述的基于ppt的视频内容切割方法,其特征在于,所述计算相邻的所述视频帧之间的图片相似度之前,还包括:利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像;提取所述背景图像中的文本信息,并利用投票算法对所述文本信息进行校验,得校验结果。6.如权利要求5所述的基于ppt的视频内容切割方法,其特征在于,所述利用预设的语义分割网络对所述视频帧进行图像语义分割,得到人物图像及背景图像,包括:复制两遍所述视频帧,得到第一复制视频帧、第二复制视频帧及原视频帧;利用预设的语义分割网络中的第一下采样层对所述第一复制视频帧、所述第二复制视频帧及所述原视频帧分别进行不同尺度的下采样,得到低分辨率图像、中分辨率图像及高分辨率图像;利用预设的语义分割网络中的第二下采样层对所述低分辨率图像、中分辨率图像及高分辨率图像分别进行相同尺度的下采样,得到第一特征图、第二特征图及第三特征图;利用预设的语义分割网络中的级联特征融合层对所述第一特征图进行上采样,得到第一上采样特征图,将所述第一上采样特征图与所述第二特征图中的每一个像素值进行求和计算,得到第一和值特征图,并利用预设的激活函数对所述第一和值特征图进行线性计算,得到第一目标特征图;利用预设的语义分割网络中的级联特征融合层对所述第一目标特征图进行上采样,得到第二上采样特征图,将所述第二上采样特征图与所述第三特征图中的每一个像素值进行求和计算,得到第二和值特征图,并利用预设的激活函数对所述第二和值特征图进行线性计算,得到第二目标特征图;利用预设的语义分割网络中的第一上采样层对所述第二目标特征图进行上采样,得到上采样图像;将所述上采样图像与预设的人物标签图像及预设的背景标签图像进行比较,得到比较结果,并根据所述比较结果中的像素差异对所述上采样图像进行分割,得到上采样人物图像及上采样背景图像;利用预设的语义分割网络中的第二上采样层对所述上采样人物图像及所述上采样背景图像分别进行上采样,得到人物图像及背景图像。7.如权利要求5所述的基于ppt的视频内容切割方法,其特征在于,所述提取所述背景图像中的文本信息,包括:对所述背景图像中的像素值进行灰度化处理,得到灰度背景图像;对所述灰度背景图像中的像素值进行降噪处理,得到降噪背景图像;
对所述降噪背景图像中的像素值进行二值化处理,得到目标背景图象;对所述目标背景图像进行字符切分,得到文字图块;将所述文字图块与预设的字符库进行比对,得到背景图像中的文本信息。8.一种基于ppt的视频内容切割装置,其特征在于,所述装置包括:视频分割时间点获取模块,用于获取待切割视频中的视频帧,计算相邻的所述视频帧之间的图片相似度,并将所述图片相似度低于预设阈值的相邻的所述视频帧之间作为视频分割时间点;语音文本信息判断模块,用于对所述视频分割时间点设定图像滑动时间窗,提取所述待切割视频中的语音文本信息,对所述图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;视频切割模块,用于根据所述划分结果,确定所述待切割视频的目标分割时间点,并根据所述目标分割时间点对横跨语义的所述待切割视频进行分离平滑,得到目标视频。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于ppt的视频内容切割方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于ppt的视频内容切割方法。

技术总结
本发明涉及视觉领域,揭露一种基于PPT的视频内容切割方法、装置、电子设备及存储介质,可应用于金融科技领域,改善了保险产品视频介绍时音画不同步的问题,其中,所述方法包括:获取待切割视频的视频帧,计算相邻视频帧之间的图片相似度,并将图片相似度低于预设阈值的相邻视频帧之间作为视频分割时间点;对视频分割时间点设定图像滑动时间窗,提取待切割视频中的语音文本信息,对图像滑动时间窗内的语音文本信息进行语义划分,得到划分结果;根据划分结果,确定待切割视频的目标分割时间点,并根据目标分割时间点对横跨语义的待切割视频进行分离平滑,得到目标视频。本发明可以实现对包含PPT内容的培训类视频的视频内容精准切割。割。割。


技术研发人员:舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.30
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐