一种混剪视频生成方法、系统、存储介质及电子设备与流程

未命名 10-08 阅读：94 评论：0

1.本发明涉及视频剪辑技术领域，特别涉及一种混剪视频生成方法、系统、存储介质及电子设备。

背景技术：

2.视频二次创作是指利用已有的视频素材进行创作，生成新的视频。单目标混剪是视频二次创作的一种类型，是指将同一个目标的镜头拼接在一起而形成的视频。目前，混剪视频生成方法通常是先构建一个视频库，视频库中包含许多的视频片段，然后根据输入的音频或者文本去视频库中检索匹配的视频进行合成。由于合成视频的质量依赖于从视频库中检索出的合成片段的质量，使得合成视频的镜头质量无法保障，合成后的视频清晰度效果不佳。

技术实现要素：

3.本发明提供一种混剪视频生成方法、系统、存储介质及电子设备，可以确保混剪视频的质量。
4.为实现上述目的，本发明提供如下技术方案：
5.本发明提供了一种混剪视频生成方法，包括：
6.获取目标视频；
7.从所述目标视频中检测获得含有目标对象的多个单帧图像；
8.对多个所述单帧图像进行组合，得到至少一个视频片段；
9.对所述目标视频进行音乐提取，获得所述视频片段的背景音乐；
10.基于所述视频片段和所述背景音乐，生成混剪视频。
11.可选的，所述从所述目标视频中检测获得含有目标对象的多个单帧图像，包括：
12.对所述目标视频的各帧图像进行特征检测，得到每帧图像中的特征框尺寸；
13.对所述目标视频的各帧图像进行特征识别，得到每帧图像中各对象的对象标识；
14.对所述目标视频的各帧图像进行目标检测，得到每帧图像中的目标框个数；
15.对所述目标视频的各帧图像进行文本检测，得到每帧图像中的文本框个数；
16.基于目标参数中的一种或多种及所述对象标识，从所述目标视频中获得含有目标对象的单帧图像；其中，所述目标参数包括所述特征框尺寸、所述目标框个数和所述文本框个数。
17.可选的，所述基于目标参数中的一种或多种及所述对象标识，从所述目标视频中获得含有目标对象的单帧图像，包括：
18.基于所述对象标识，从所述目标视频的各帧图像中筛选出含有目标对象的第一图像；
19.采用如下方式的一种或多种，对所述第一图像进行筛选，获得所述含有目标对象的单帧图像：
20.方式一：从所述第一图像中筛选出所述目标框个数为1的图像；
21.方式二：从所述第一图像中筛选出所述文本框个数为0的图像；
22.方式三：从所述第一图像中筛选出所述特征框尺寸大于预设尺寸的图像。
23.可选的，所述基于所述对象标识，从所述目标视频的各帧图像中筛选出含有目标对象的第一图像，包括：
24.从所述目标视频的各帧图像中筛选出所述对象标识的个数为1且所述对象标识为所述目标对象的标识的图像，获得所述第一图像。
25.可选的，所述对多个所述单帧图像进行组合，得到至少一个视频片段，包括：
26.对连续的多个所述单帧图像进行组合，得到多个候选片段；
27.从多个所述候选片段中筛选出片段时长大于预设时长的片段，得到至少一个所述视频片段。
28.可选的，所述对所述目标视频进行音乐提取，获得所述视频片段的背景音乐，包括：
29.对所述目标视频进行音乐提取，获得音频文件；
30.将所述音频文件划分为多个音频片段；
31.对每个所述音频片段进行分类，并将同一类型的音频片段进行合并，得到各类型的合并后的音频；
32.将目标类型的合并后的音频作为所述视频片段的背景音乐。
33.可选的，所述基于所述视频片段和所述背景音乐，生成混剪视频，包括：
34.在所述视频片段的个数为多个的情况下，对所述视频片段进行拼接，得到拼接后的视频；
35.对所述背景音乐的时长进行调整，以使所述拼接后的视频的时长与所述背景音乐的时长一致；
36.将调整后的背景音乐作为所述拼接后的视频的音乐，获得所述混剪视频。
37.本发明还提供一种混剪视频生成系统，包括：
38.视频获取模块，用于获取目标视频；
39.人物检测模块，用于从所述目标视频中检测获得含有目标对象的多个单帧图像；
40.组合模块，用于对多个所述单帧图像进行组合，得到至少一个视频片段；
41.音乐提取模块，用于对所述目标视频进行音乐提取，获得所述视频片段的背景音乐；
42.视频生成模块，用于基于所述视频片段和所述背景音乐，生成混剪视频。
43.本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时实现如上所述的混剪视频生成方法。
44.本发明还提供一种电子设备，包括：
45.至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；
46.所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如上所述的混剪视频生成方法。
47.由以上技术方案可以看出，本发明中公开了一种混剪视频生成方法、系统、存储介质及电子设备，从目标视频中检测获得含有目标对象的多个单帧图像；对多个单帧图像进
行组合，得到至少一个视频片段；对目标视频进行音乐提取，获得视频片段的背景音乐；基于视频片段和背景音乐，生成混剪视频。本发明通过直接从目标视频中提取视频片段，无需构建视频库，合成视频的镜头质量不依赖于从视频库中检索出的合成片段的质量，可以保证混剪视频的质量。
48.当然，实施本发明的任一产品或方法必不一定需要同时达到以上的所有优点。
附图说明
49.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1为本发明实施例提供的一种混剪视频生成方法流程图；
51.图2为本发明实施例提供的一种混剪视频生成系统结构图；
52.图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.本发明提供一种为混剪视频生成方法，如图1所示，该方法，包括：
55.步骤101：获取目标视频。
56.混剪是视频二次创作的一种类型，本发明提供的混剪视频生成方法，可以对目标视频进行二次创作，即将目标视频中的多个镜头进行拼接，从而形成混剪视频。本发明提供的混剪视频生成方法，直接利用原视频，也就是直接对目标视频进行处理得到混剪视频，而没有采用现有构建视频库的方法，生成的混剪视频质量不依赖视频库中检索出的合成片段的质量，可以保证混剪视频的质量。
57.步骤102：从目标视频中检测获得含有目标对象的多个单帧图像。
58.本发明提供的混剪视频生成方法可以针对单目标生成混剪视频，也就是生成的混剪视频中仅出现唯一的目标对象，该目标对象的个数为1个，而目标视频中除目标对象以外的对象不出现在混剪视频中。该目标对象可以为人物，也可以为动物，当然其他类型的对象如生活用品、家具等也可以最为目标对象。当然，本发明提供的混剪视频生成方法也可以针对多目标生成混剪视频，若针对多目标生成混剪视频，则目标对象的个数为多个。
59.为生成混剪视频，可以从目标视频的多帧图像中筛选出含有目标对象的图像。若生成单目标混剪视频，则可以从目标视频的多帧图像中筛选出仅含有一个目标对象的图像。若生成多目标混剪视频，则可以从目标视频的多帧图像中筛选出含有多个目标对象的图像。筛选出的图像可以为多个单帧图像，筛选出的图像可以为连续图像，也可以为不连续图像。
60.作为一可选的实施方式，从目标视频中检测获得含有目标对象的多个单帧图像，
包括：
61.对目标视频的各帧图像进行特征检测，得到每帧图像中的特征框尺寸；
62.对目标视频的各帧图像进行特征识别，得到每帧图像中各对象的对象标识；
63.对目标视频的各帧图像进行目标检测，得到每帧图像中的目标框个数；
64.对目标视频的各帧图像进行文本检测，得到每帧图像中的文本框个数；
65.基于目标参数中的一种或多种及对象标识，从目标视频中获得含有目标对象的单帧图像；其中，目标参数包括特征框尺寸、目标框个数和文本框个数。
66.在对目标视频的各帧图像检测是否含有目标对象时，可以通过特征检测和特征识别实现。在进行特征检测时，检测图像中是否含有目标对象具有的特征，若具有目标对象具有的特征，则可以进一步通过特征识别确定具有该特征的对象是否为目标对象。对于目标对象为人物来说，该特征检测可以为人脸检测，通过人脸检测可以框选出图像中的所有人脸，获得一个或多个人脸框，再对各人脸框进行特征识别，该特征识别可以为人脸识别，通过人脸识别可以确定图像中各对象的对象标识，该对象标识可以为对象名称或对象编号，从而通过对象标识确定图像中是否有目标对象。通过人脸检测可以得到人脸坐标，进而可以确定出人脸框尺寸。可选的，人脸检测可以采用retina face模型，人脸识别可以采用insight face模型。
67.在特征识别得到的对象标识指示图像中含有目标对象后，还可以对该图像进行目标检测，以判断图像中出现的对象个数。若该目标对象为人物，则该目标检测可以为人体检测，通过人体检测可以得到人体框个数，即可得到该图像中含有几个人物。除进行人体检测外，还可以进行文本检测，通过文本检测得到的文本框个数可以确定图像中是否有文本存在。可选的，人体检测可以采用yolov7模型，文本检测可以采用pixel link模型。
68.为了提高混剪视频的质量，可以通过对检测出含有目标对象的图像进一步筛选，即通过对象标识对目标视频中各帧图像进行初步筛选，得到含有目标对象的图像，而得到含有目标对象的图像可以包含出目标对象以外的其他对象，或者含有目标对象的图像含有字幕，或者目标对象在图像的占比较小，图像显示目标对象的清晰度较低等。基于此，可以基于目标参数中的一种或多种及对象标识，从目标视频中获得含有目标对象的单帧图像，即可以基于对象标识与特征框尺寸，或基于对象标识与目标框个数，或基于对象标识与文本框个数，或基于对象标识、特征框尺寸与目标框个数，或基于对象标识、目标框个数和文本框个数，或基于对象标识、特征框尺寸与文本框个数，或基于特征框尺寸、目标框个数和文本框个数，得到仅含有目标对象的单帧图像，该单帧图像使得目标对象呈现效果较好。对于目标对象为人物来说，特征框尺寸可以为人脸框尺寸，目标框个数可以为人体框个数。
69.作为一可选的实施方式，基于目标参数中的一种或多种及对象标识，从目标视频中获得含有目标对象的单帧图像，包括：
70.基于对象标识，从目标视频的各帧图像中筛选出含有目标对象的第一图像；
71.采用如下方式的一种或多种，对第一图像进行筛选，获得含有目标对象的单帧图像：
72.方式一：从第一图像中筛选出目标框个数为1的图像；
73.方式二：从第一图像中筛选出文本框个数为0的图像；
74.方式三：从第一图像中筛选出特征框尺寸大于预设尺寸的图像。
75.可选的，基于对象标识，从目标视频的各帧图像中筛选出含有目标对象的第一图像，包括：
76.从目标视频的各帧图像中筛选出对象标识的个数为1且对象标识为目标对象的标识的图像，获得第一图像。
77.对象标识个数为1说明图像中能识别出的对象仅有一个，而这个对象的标识又为目标对象的标识，说明该图像中能识别出的唯一一个对象为目标对象。将目标视频的各帧图像进行筛选，挑选出仅能识别出目标对象的图像作为第一图像。
78.然而，该第一图像中存在未能识别出的对象，即第一图像中既有目标对象，也有未识别出但存在于图像中的对象。为了挑选出仅有目标对象的图像，可以从第一图像中筛选出目标框个数为1的图像，当目标框个数为1且该对象为目标对象时，可以确定该图像仅有目标对象。
79.当然，为了挑选画面更干净的含有目标对象的图像，可以将含有字幕的图像剔除，仅保留不含有字幕的且仅有目标对象的图像。具体可以从第一图像中筛选出文本框个数为0的图像，当文本框个数为0时，可以确定仅有目标对象的图像中不含有字幕。
80.进一步的，为了提高图像质量，若目标对象占图像比例较小也可进行剔除，具体可以挑选出特征框尺寸大于预设尺寸的图像，对于目标对象为人物来说，该特征框尺寸可以为人脸框尺寸，当人脸框尺寸大于预设尺寸时，即人脸框长度尺寸和/或宽度尺寸大于预设尺寸时，说明目标对象较为清晰可见，挑选出目标对象较为清晰的图像，在后续生成混剪视频时有利于提高混剪视频画面质量。
81.在一可选的实施例中，假设目标视频总共包括3万帧图像{1，2，3，
…
，30000}。本发明提供的混剪视频生成方法，可以首先对第1帧图像进行处理，通过人脸检测得到第1帧图像中的所有人脸框{box1，box2，
…
boxn}
face
，人脸框坐标可以包括人脸的左上角和右下角坐标，通过人脸的左上角和右下角坐标可以得到人脸框尺寸。对第1帧中所有的人脸框进行人脸识别，识别出人脸框对应的人名{name1，name2，
…
，namen}。经过了人脸检测和人脸识别之后，可以继续进行人体检测，获得所有的人体框{box1，box2，
…
boxn}
person
，统计人体框的个数n
person
；然后进行文本检测，获取所有的文本框{box1,box2,
…
，boxn}
text
，统计文本框的个数n
text
；最后获得第1帧的所有信息，包括人名、人脸框坐标、出现了人体的数量和出现了文本的数量。第2帧到第30000帧以此经过上述步骤，得到所有帧的检测结果。
82.然后根据所有帧的检测结果，从3万帧图像中筛选可用于生成混剪视频的图像。其中，不可用于生成混剪视频的图像包括：未出现目标人脸、出现非目标人脸、出现非目标人体、出现字幕、人脸占图像比例较小。具体的，对未出现目标人脸的图像的判断可以依据人名不是目标对象的名字，对出现非目标人脸的图像的判断可以依据人名数量大于1或人名数量为1且人名不是目标对象的名字。对出现非目标人体的图像的判断可以依据人体框的个数n
person
大于1。对出现字幕的图像的判断可以依据文本框的个数n
text
大于0。对出现人脸占图像比例较小的判断可以依据人脸框尺寸小于预设尺寸。
83.步骤103：对多个单帧图像进行组合，得到至少一个视频片段。
84.将筛选出的图像进行组合，可以得到一个或多个视频片段。
85.作为一可选的实施方式，对多个单帧图像进行组合，得到至少一个视频片段，包括：
86.对连续的多个单帧图像进行组合，得到多个候选片段；
87.从多个候选片段中筛选出片段时长大于预设时长的片段，得到至少一个视频片段。
88.为了保证视频播放的连续性，可以针对连续的图像进行组合，组合后的片段时长与进行组合的图像数量有关，若进行组合的连续的图像数量较少，则得到的候选片段时长也较短，若进行组合的连续的图像数量较多，则得到的候选片段时长也较长。为了保证生成混剪视频的时长，可以从多个候选片段中筛选时长大于预设时长的片段，从而得到一个或多个视频片段。
89.例如，预设时长为2秒，假设剩下的视频帧是{1,2,3,4,5,10,11,
…
,60}，通过组合连续帧可以得到两个候选片段{[1,5],[10,60]}，分别代表从第1帧到第5帧的候选片段和从第10帧到第60帧的候选片段，假设视频的帧率是25，两秒的视频就有50帧，那么此时第一个候选片段只有5帧，不满足预设时长要求应该被丢弃，第二个候选片段有50帧，满足预设时长要求应该被保留，从而得到的视频片段个数为1个。
[0090]
步骤104：对目标视频进行音乐提取，获得视频片段的背景音乐。
[0091]
在生成混剪视频时，可以对视频片段添加背景音乐，该背景音乐可以直接从目标视频中进行音乐提取获得，而无需通过构建视频库的方式获得。
[0092]
作为一可选的实施方式，对目标视频进行音乐提取，获得视频片段的背景音乐，包括：
[0093]
对目标视频进行音乐提取，获得音频文件；
[0094]
将音频文件划分为多个音频片段；
[0095]
对每个音频片段进行分类，并将同一类型的音频片段进行合并，得到各类型的合并后的音频；
[0096]
将目标类型的合并后的音频作为视频片段的背景音乐。
[0097]
在对目标视频进行音乐提取时，可以采用yoho模型从目标视频中提取出纯音频文件。将音频文件切分成一个一个的音频片段，每个音频片段的时长可以是308毫秒。然后可以采用yoho模型对每个音频片段进行分类，音频片段类型可以包括但不限于人声、音乐、特效音、自然音等。所有音频片段分类完毕后将属于同一类别的相邻片段合并，得到合并后的音频。若目标类型为音乐，则挑选属于音乐类别的音频作为视频片段的背景音乐，当然，为了保证背景音乐时长，可以挑选属于音乐类别且时长大于预设时长的音频作为背景音乐，该预设时长可以为90秒。得到的属于音乐类别的合并后的音频可以包括目标视频的片头曲、片尾曲。
[0098]
步骤105：基于视频片段和背景音乐，生成混剪视频。
[0099]
得到视频片段和背景音乐后，则可以生成混剪视频。
[0100]
作为一可选的实施方式，基于视频片段和背景音乐，生成混剪视频，包括：
[0101]
在视频片段的个数为多个的情况下，对视频片段进行拼接，得到拼接后的视频；
[0102]
对背景音乐的时长进行调整，以使拼接后的视频的时长与背景音乐的时长一致；
[0103]
将调整后的背景音乐作为拼接后的视频的音乐，获得混剪视频。
[0104]
在对视频片段进行拼接时，可以直接按时间顺序拼接所有视频片段，也可以每次随机抽取一个视频片段进行拼接。可选的，在拼接时可以在视频片段和片段之间添加视频
转场，例如可以添加淡入淡出转场，也可以为视频添加滤镜，如通过将原始图像的蓝色(b)通道像素值开根号，再乘一个权重参数产生“流年”的滤镜效果。在添加背景音乐时，可以从多个合并后的音频中选取一个音频，比较音频和视频片段的时长，若音频长，则按照视频片段的时长进行截断，若视频片段长，则可以循环音频使其时长与合成视频保持一致。此外，在背景音乐的末尾可以使用淡出效果以提高听感，还可以去除视频片段的原音频，并添加调整后的背景音乐为拼接后的视频的音乐，最终获得混剪视频。
[0105]
本发明还提供一种混剪视频生成系统，如图2所示，该系统，包括：
[0106]
视频获取模块201，用于获取目标视频。
[0107]
人物检测模块202，用于从目标视频中检测获得含有目标对象的多个单帧图像。
[0108]
组合模块203，用于对多个单帧图像进行组合，得到至少一个视频片段。
[0109]
音乐提取模块204，用于对目标视频进行音乐提取，获得视频片段的背景音乐。
[0110]
视频生成模块205，用于基于视频片段和背景音乐，生成混剪视频。
[0111]
作为一可选的实施方式，人物检测模块202，包括：
[0112]
检测单元，用于对目标视频的各帧图像进行特征检测，得到每帧图像中的特征框尺寸；对目标视频的各帧图像进行特征识别，得到每帧图像中各对象的对象标识；对目标视频的各帧图像进行目标检测，得到每帧图像中的目标框个数；对目标视频的各帧图像进行文本检测，得到每帧图像中的文本框个数；
[0113]
筛选单元，用于基于目标参数中的一种或多种及对象标识，从目标视频中获得含有目标对象的单帧图像；其中，目标参数包括特征框尺寸、目标框个数和文本框个数。
[0114]
可选的，筛选单元，包括：
[0115]
第一图像获得子单元，用于基于对象标识，从目标视频的各帧图像中筛选出含有目标对象的第一图像；
[0116]
筛选子单元，用于采用如下方式的一种或多种，对第一图像进行筛选，获得含有目标对象的单帧图像：
[0117]
方式一：从第一图像中筛选出目标框个数为1的图像；
[0118]
方式二：从第一图像中筛选出文本框个数为0的图像；
[0119]
方式三：从第一图像中筛选出特征框尺寸大于预设尺寸的图像。
[0120]
可选的，第一图像获得子单元，具体用于：
[0121]
从目标视频的各帧图像中筛选出对象标识的个数为1且对象标识为目标对象的标识的图像，获得第一图像。
[0122]
作为一可选的实施方式，组合模块203，具体用于：
[0123]
对连续的多个单帧图像进行组合，得到多个候选片段；
[0124]
从多个候选片段中筛选出片段时长大于预设时长的片段，得到至少一个视频片段。
[0125]
作为一可选的实施方式，音乐提取模块204，具体用于：
[0126]
对目标视频进行音乐提取，获得音频文件；
[0127]
将音频文件划分为多个音频片段；
[0128]
对每个音频片段进行分类，并将同一类型的音频片段进行合并，得到各类型的合并后的音频；
[0129]
将目标类型的合并后的音频作为视频片段的背景音乐。
[0130]
作为一可选的实施方式，视频生成模块205，具体用于：
[0131]
在视频片段的个数为多个的情况下，对视频片段进行拼接，得到拼接后的视频；
[0132]
对背景音乐的时长进行调整，以使拼接后的视频的时长与背景音乐的时长一致；
[0133]
将调整后的背景音乐作为拼接后的视频的音乐，获得混剪视频。
[0134]
本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述混剪视频生成方法。
[0135]
本发明实施例提供了一种电子设备，如图3所示，电子设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303；其中，处理器301、存储器302通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述的混剪视频生成方法。本文中的电子设备可以是服务器、pc、pad、手机等。
[0136]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有上述的混剪视频生成方法包括的步骤的程序。
[0137]
本技术是参照根据本技术实施例的方法、系统和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
在一个典型的配置中，设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0139]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0140]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。
[0141]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0142]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0143]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0144]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种混剪视频生成方法，其特征在于，包括：获取目标视频；从所述目标视频中检测获得含有目标对象的多个单帧图像；对多个所述单帧图像进行组合，得到至少一个视频片段；对所述目标视频进行音乐提取，获得所述视频片段的背景音乐；基于所述视频片段和所述背景音乐，生成混剪视频。2.根据权利要求1所述的混剪视频生成方法，其特征在于，所述从所述目标视频中检测获得含有目标对象的多个单帧图像，包括：对所述目标视频的各帧图像进行特征检测，得到每帧图像中的特征框尺寸；对所述目标视频的各帧图像进行特征识别，得到每帧图像中各对象的对象标识；对所述目标视频的各帧图像进行目标检测，得到每帧图像中的目标框个数；对所述目标视频的各帧图像进行文本检测，得到每帧图像中的文本框个数；基于目标参数中的一种或多种及所述对象标识，从所述目标视频中获得含有目标对象的单帧图像；其中，所述目标参数包括所述特征框尺寸、所述目标框个数和所述文本框个数。3.根据权利要求2所述的混剪视频生成方法，其特征在于，所述基于目标参数中的一种或多种及所述对象标识，从所述目标视频中获得含有目标对象的单帧图像，包括：基于所述对象标识，从所述目标视频的各帧图像中筛选出含有目标对象的第一图像；采用如下方式的一种或多种，对所述第一图像进行筛选，获得所述含有目标对象的单帧图像：方式一：从所述第一图像中筛选出所述目标框个数为1的图像；方式二：从所述第一图像中筛选出所述文本框个数为0的图像；方式三：从所述第一图像中筛选出所述特征框尺寸大于预设尺寸的图像。4.根据权利要求3所述的混剪视频生成方法，其特征在于，所述基于所述对象标识，从所述目标视频的各帧图像中筛选出含有目标对象的第一图像，包括：从所述目标视频的各帧图像中筛选出所述对象标识的个数为1且所述对象标识为所述目标对象的标识的图像，获得所述第一图像。5.根据权利要求1所述的混剪视频生成方法，其特征在于，所述对多个所述单帧图像进行组合，得到至少一个视频片段，包括：对连续的多个所述单帧图像进行组合，得到多个候选片段；从多个所述候选片段中筛选出片段时长大于预设时长的片段，得到至少一个所述视频片段。6.根据权利要求1至5任一项所述的混剪视频生成方法，其特征在于，所述对所述目标视频进行音乐提取，获得所述视频片段的背景音乐，包括：对所述目标视频进行音乐提取，获得音频文件；将所述音频文件划分为多个音频片段；对每个所述音频片段进行分类，并将同一类型的音频片段进行合并，得到各类型的合并后的音频；将目标类型的合并后的音频作为所述视频片段的背景音乐。
7.根据权利要求1至5任一项所述的混剪视频生成方法，其特征在于，所述基于所述视频片段和所述背景音乐，生成混剪视频，包括：在所述视频片段的个数为多个的情况下，对所述视频片段进行拼接，得到拼接后的视频；对所述背景音乐的时长进行调整，以使所述拼接后的视频的时长与所述背景音乐的时长一致；将调整后的背景音乐作为所述拼接后的视频的音乐，获得所述混剪视频。8.一种混剪视频生成系统，其特征在于，包括：视频获取模块，用于获取目标视频；人物检测模块，用于从所述目标视频中检测获得含有目标对象的多个单帧图像；组合模块，用于对多个所述单帧图像进行组合，得到至少一个视频片段；音乐提取模块，用于对所述目标视频进行音乐提取，获得所述视频片段的背景音乐；视频生成模块，用于基于所述视频片段和所述背景音乐，生成混剪视频。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时实现权利要求1-7任一项所述的混剪视频生成方法。10.一种电子设备，其特征在于，包括：至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-7任一项所述的混剪视频生成方法。

技术总结
本发明涉及一种混剪视频生成方法、系统、存储介质及电子设备。其中，方法包括：获取目标视频；从目标视频中检测获得含有目标对象的多个单帧图像；对多个单帧图像进行组合，得到至少一个视频片段；对目标视频进行音乐提取，获得视频片段的背景音乐；基于视频片段和背景音乐，生成混剪视频。本发明通过直接从目标视频中提取视频片段，无需构建视频库，合成视频的镜头质量不依赖于从视频库中检索出的合成片段的质量，可以保证混剪视频的质量。可以保证混剪视频的质量。可以保证混剪视频的质量。

技术研发人员：张康王心莹姚广孙钱丽杨杰
受保护的技术使用者：湖南快乐阳光互动娱乐传媒有限公司
技术研发日：2023.07.31
技术公布日：2023/10/6

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：用于空调系统的控制方法、装置及空调系统、存储介质与流程 下一篇：一种汽车零部件用冲孔装置的制作方法

一种混剪视频生成方法、系统、存储介质及电子设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种混剪视频生成方法、系统、存储介质及电子设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表