一种基于语音识别的视频拍摄方法与流程
未命名
09-10
阅读:107
评论:0

1.本发明属于视频拍摄技术领域,具体涉及一种基于语音识别的视频拍摄方法。
背景技术:
2.视频拍摄是指利用摄像机或其他设备进行录制和采集镜头,以获得所需信息和记录的短片、艺术影像或视频的总称。
3.随着互联网和智能手机的普及,拍摄各类短视频逐渐成为人们生活中的一种娱乐方式,目前的视频拍摄方式一般是寻找路人帮助或者通过支撑架架起拍摄设备,通过来回跑动控制拍摄设备开始或停止拍摄,前一种视频拍摄方法需要频繁寻找路人帮助,难以实现拍摄自由,后一种视频拍摄方法由于需要频繁跑动,较为麻烦。
4.鉴于此,设计一种基于语音识别的视频拍摄方法,以解决上述问题。
技术实现要素:
5.为解决上述背景技术中提出的问题。本发明提供了一种基于语音识别的视频拍摄方法,具有提高拍摄便捷性以及视频拍摄满意度的特点。
6.为实现上述目的,本发明提供如下技术方案:一种基于语音识别的视频拍摄方法,包括以下步骤:
7.s1:视频拍摄前,预设拍摄设备的控制视频拍摄人员语音信息以及参与视频拍摄人员的面部信息;
8.s2:视频拍摄时,拍摄设备的语音采集器采集拍摄设备周围的语音进行识别,直至识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“开始拍摄”,拍摄设备开始拍摄视频,视频拍摄过程中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖,直至拍摄设备的语音采集器识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“停止拍摄”,拍摄设备停止拍摄视频,获得仅含参与视频拍摄人员的视频;
9.s3:视频拍摄后,参与视频拍摄人员可以根据自身需求控制拍摄设备剪辑视频,输出需求视频。
10.优选的,所述步骤s1中,控制视频拍摄人员语音信息的预设是以语音采集器被设置采集的语音为优先,以通过语音采集器采集拍摄设备包括使用和未使用过程中次数出现累加最高的语音信息为次要,在拍摄设备未被设置采集控制视频拍摄人员语音信息时,拍摄设备默认采集累计次数最高的语音信息为控制视频拍摄人员语音信息。
11.优选的,所述步骤s2中,语音采集器的语音识别包括:
12.s21:采集到的语音信息进行滤波、降噪的数字化处理;
13.s22:数字化处理后的语音信息进行预加重、分帧和加窗处理;
14.s23:每一个语音信息的短时分帧窗通过fft得到对应的频谱;
15.s24:将频谱通过mel滤波器组得到mel频谱;
16.s25:在mel频谱上进行倒谱分析,获得mel频谱倒谱系数,输出语音信号的特征;
17.s26:将获得语音信息分为训练数据集和验证数据集;
18.s27:通过训练数据集和验证数据集训练出语音识别模型;
19.s28:通过语音识别模型进行语音识别,输出语音识别结果。
20.优选的,所述步骤s2中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖包括:
21.s2a:视频拍摄过程中,按照时间戳依次播放拍摄完成视频的每一帧;
22.s2b:提取每一帧图像通过图像识别模型进行识别,若识别结果是包括树木和鸟类的非人类静态和动态图像,则视频帧保留,若识别结果是人类静态或动态图像,则视频帧与预设的参与视频拍摄人员面部信息进行比较,若比较结果是预设的参与视频拍摄人员面部信息,则视频帧保留,若比较结果是非预设的参与视频拍摄人员面部信息,则将该视频帧替换为预设的空白视频帧保留。
23.优选的,所述步骤s2b中,图像识别模型的图像识别包括:
24.s2b1:获取图像信息形成数据集;
25.s2b2:将数据集分为训练数据集和验证数据集;
26.s2b3:通过训练数据集和验证数据集训练出图像识别模型;
27.s2b3:通过图像识别模型进行图像识别。
28.优选的,所述步骤s3中,参与视频拍摄人员可以根据自身需求控制拍摄设备剪辑视频包括:若参与视频拍摄人员有三名,其中,一名参与视频拍摄人员需要单独个人的视频,则通过拍摄设备输入参数,拍摄设备按照时间戳依次播放该拍摄视频,按照上述方法进行多余参与视频拍摄人员面部信息的空白替换,即可以得到所需视频。
29.与现有技术相比,本发明的有益效果是:
30.本发明通过语音控制拍摄设备进行拍摄或结束拍摄,相较于现在拍摄设备的手动控制而言,无需控制拍摄人员来回跑动,提高拍摄便捷性,同时视频拍摄前预设控制拍摄人员语音信息和参与视频拍摄人员面部信息,拍摄过程中拍摄到除参与视频拍摄人员面部信息外的人面部信息自动进行空白帧替换,能够使拍摄设备在拍摄时实现精准拍摄,减少拍摄视频中多余人物的影响,同时视频输出时能够根据参与视频拍摄人员的需求进行空白帧替换输出所需视频,提高视频拍摄的满意度。
附图说明
31.图1为本发明基于语音识别的视频拍摄方法流程图。
具体实施方式
32.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.请参阅图1,本发明提供以下技术方案:一种基于语音识别的视频拍摄方法,包括以下步骤:
34.s1:视频拍摄前,预设拍摄设备的控制视频拍摄人员语音信息以及参与视频拍摄人员的面部信息,其中,控制视频拍摄人员语音信息的预设是以语音采集器被设置采集的语音为优先,以通过语音采集器采集拍摄设备包括使用和未使用过程中次数出现累加最高的语音信息为次要,在拍摄设备未被设置采集控制视频拍摄人员语音信息时,拍摄设备默认采集累计次数最高的语音信息为控制视频拍摄人员语音信息;
35.s2:视频拍摄时,拍摄设备的语音采集器采集拍摄设备周围的语音进行识别,直至识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“开始拍摄”,拍摄设备开始拍摄视频,视频拍摄过程中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖,直至拍摄设备的语音采集器识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“停止拍摄”,拍摄设备停止拍摄视频,获得仅含参与视频拍摄人员的视频,其中,语音采集器的语音识别包括:
36.s21:采集到的语音信息进行滤波、降噪的数字化处理;
37.s22:数字化处理后的语音信息进行预加重、分帧和加窗处理;
38.s23:每一个语音信息的短时分帧窗通过fft得到对应的频谱;
39.s24:将频谱通过mel滤波器组得到mel频谱;
40.s25:在mel频谱上进行倒谱分析,获得mel频谱倒谱系数,输出语音信号的特征;
41.s26:将获得语音信息分为训练数据集和验证数据集;
42.s27:通过训练数据集和验证数据集训练出语音识别模型;
43.s28:通过语音识别模型进行语音识别,输出语音识别结果;
44.其中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖包括:
45.s2a:视频拍摄过程中,按照时间戳依次播放拍摄完成视频的每一帧;
46.s2b:提取每一帧图像通过图像识别模型进行识别,若识别结果是包括树木和鸟类的非人类静态和动态图像,则视频帧保留,若识别结果是人类静态或动态图像,则视频帧与预设的参与视频拍摄人员面部信息进行比较,若比较结果是预设的参与视频拍摄人员面部信息,则视频帧保留,若比较结果是非预设的参与视频拍摄人员面部信息,则将该视频帧替换为预设的空白视频帧保留
47.其中,图像识别模型的图像识别包括:
48.s2b1:获取图像信息形成数据集;
49.s2b2:将数据集分为训练数据集和验证数据集;
50.s2b3:通过训练数据集和验证数据集训练出图像识别模型;
51.s2b3:通过图像识别模型进行图像识别;
52.s3:视频拍摄后,若参与视频拍摄人员有三名,其中,一名参与视频拍摄人员需要单独个人的视频,则通过拍摄设备输入参数,拍摄设备按照时间戳依次播放该拍摄视频,按照上述方法进行多余参与视频拍摄人员面部信息的空白替换,即可以得到所需视频,输出需求视频。
53.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于语音识别的视频拍摄方法,其特征在于,包括以下步骤:s1:视频拍摄前,预设拍摄设备的控制视频拍摄人员语音信息以及参与视频拍摄人员的面部信息;s2:视频拍摄时,拍摄设备的语音采集器采集拍摄设备周围的语音进行识别,直至识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“开始拍摄”,拍摄设备开始拍摄视频,视频拍摄过程中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖,直至拍摄设备的语音采集器识别出与预设控制视频拍摄人员语音信息相同的语音信息且语音内容为“停止拍摄”,拍摄设备停止拍摄视频,获得仅含参与视频拍摄人员的视频;s3:视频拍摄后,参与视频拍摄人员可以根据自身需求控制拍摄设备剪辑视频,输出需求视频。2.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于:所述步骤s1中,控制视频拍摄人员语音信息的预设是以语音采集器被设置采集的语音为优先,以通过语音采集器采集拍摄设备包括使用和未使用过程中次数出现累加最高的语音信息为次要,在拍摄设备未被设置采集控制视频拍摄人员语音信息时,拍摄设备默认采集累计次数最高的语音信息为控制视频拍摄人员语音信息。3.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于:所述步骤s2中,语音采集器的语音识别包括:s21:采集到的语音信息进行滤波、降噪的数字化处理;s22:数字化处理后的语音信息进行预加重、分帧和加窗处理;s23:每一个语音信息的短时分帧窗通过fft得到对应的频谱;s24:将频谱通过mel滤波器组得到mel频谱;s25:在mel频谱上进行倒谱分析,获得mel频谱倒谱系数,输出语音信号的特征;s26:将获得语音信息分为训练数据集和验证数据集;s27:通过训练数据集和验证数据集训练出语音识别模型;s28:通过语音识别模型进行语音识别,输出语音识别结果。4.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于:所述步骤s2中,出现与参与视频拍摄人员面部信息不符的面部信息自动进行空白覆盖包括:s2a:视频拍摄过程中,按照时间戳依次播放拍摄完成视频的每一帧;s2b:提取每一帧图像通过图像识别模型进行识别,若识别结果是包括树木和鸟类的非人类静态和动态图像,则视频帧保留,若识别结果是人类静态或动态图像,则视频帧与预设的参与视频拍摄人员面部信息进行比较,若比较结果是预设的参与视频拍摄人员面部信息,则视频帧保留,若比较结果是非预设的参与视频拍摄人员面部信息,则将该视频帧替换为预设的空白视频帧保留。5.根据权利要求4所述的一种基于语音识别的视频拍摄方法,其特征在于:所述步骤s2b中,图像识别模型的图像识别包括:s2b1:获取图像信息形成数据集;s2b2:将数据集分为训练数据集和验证数据集;s2b3:通过训练数据集和验证数据集训练出图像识别模型;
s2b3:通过图像识别模型进行图像识别。6.根据权利要求1所述的一种基于语音识别的视频拍摄方法,其特征在于:所述步骤s3中,参与视频拍摄人员可以根据自身需求控制拍摄设备剪辑视频包括:若参与视频拍摄人员有三名,其中,一名参与视频拍摄人员需要单独个人的视频,则通过拍摄设备输入参数,拍摄设备按照时间戳依次播放该拍摄视频,按照上述方法进行多余参与视频拍摄人员面部信息的空白替换,即可以得到所需视频。
技术总结
本发明公开了一种基于语音识别的视频拍摄方法,属于视频拍摄技术领域,包括以下步骤:S1:预设拍摄设备的控制视频拍摄人员语音信息以及参与视频拍摄人员的面部信息;S2:识别出预设控制视频拍摄人员的“开始拍摄”语音后开始拍摄视频,针对性拍摄,直至识别出预设控制视频拍摄人员的“停止拍摄”语音后停止拍摄视频,获得仅含参与视频拍摄人员的视频;S3:剪辑并输出需求视频;本发明通过语音控制拍摄设备进行拍摄或结束拍摄,无需控制拍摄人员来回跑动,提高拍摄便捷性,同时拍摄设备在拍摄时能够实现精准拍摄,减少拍摄视频中多余人物的影响,同时视频输出时能够根据参与视频拍摄人员的需求进行空白帧替换输出所需视频,提高视频拍摄满意度。拍摄满意度。拍摄满意度。
技术研发人员:代伟光 杨亚宁 武秀英
受保护的技术使用者:哈尔滨鹏博普华科技发展有限责任公司
技术研发日:2023.06.19
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/