人声基频范围确定方法、电子设备及存储介质与流程
未命名
07-22
阅读:102
评论:0

1.本发明涉及语音技术相关技术领域,特别是一种人声基频范围确定方法、电子设备及存储介质。
背景技术:
2.音高(pitch):是指各种音调高低不同的声音,即音的高度,是音的基本特征的一种。声音的本质是机械波,所以声速一定时,音的高低是由机械波的频率和波长决定的。频率高、波长短,则音"高",反之,频率低、波长长,则音"低"。
3.声音可以分解成很多正弦波。傅立叶从数学上证明了,任何的一种非正弦的振动,都可以分解为若干个不同频率的正弦波的叠加。频率最低的波就是基频(f0)。
4.尽管音高与基频有所不同,但通常并不区分。音高增高八度音程相当于基频翻倍。在1000hz以下,基频翻倍略小于音高的八度音程;而在1000-5000hz范围,基频翻倍略大于音高的。其中,男性的基频一般处于100-300hz之间,但是有些男低音会处于60-120hz.女性的基频一般处于200-500hz之间,有些女生音调比较尖,或者小孩的基频会达到600-700hz.
5.在语音合成、语音识别、声纹识别及其他声学应用领域,存在提取基频的需求。现有的基频提取错误一般是半频、倍频错误造成,解决这种错误的一个有效手段就是确定基频的范围,即确定基频范围的最小值和最大值,其中最小值对基频提取的准确度有较大的影响。但是由于不同的人的基频范围差异很大,很难给出基频的有效范围。
技术实现要素:
6.基于此,有必要针对现有技术存在无法确定基频的频率范围的边界值的技术问题,提供一种人声基频范围确定方法、电子设备及存储介质。
7.本发明提供一种人声基频范围确定方法,包括:
8.获取人声基频分布,所述人声基频分布包括人声基频的多个频率以及对应幅值;
9.对所述人声基频分布进行双拟合,得到两个拟合分布;
10.基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值和/或最大边界值。
11.进一步地,所述对所述人声基频分布进行双拟合,得到两个拟合分布,具体包括:
12.采用双高斯对所述人声基频分布进行拟合,得到两个拟合分布。
13.进一步地,所述基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值,具体包括:
14.比较两个所述拟合分布的最小频率、中心线频率和/或最大频率;
15.根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
16.更进一步地,所述根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
17.如果两个所述拟合分布的最小频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值在预设差值阈值,则以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值。
18.再进一步地,所述以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值,具体包括:
19.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
20.以所述主拟合分布的最小频率作为所述频率范围的最小边界值。
21.再进一步地,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
22.如果两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值,则:
23.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
24.计算第一参考值为low_mu+a*low_sigma,计算第二参考值为main_mu-a*main_sigma,其中low_mu为所述低频拟合分布的频率均值,low_sigma为所述低频拟合分布的频率方差,main_mu为所述主拟合分布的频率均值,main_sigma为所述主拟合分布的频率方差,a为第一常数;
25.根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
26.再进一步地,所述根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
27.如果所述第一参考值小于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=low_mu+a*low_sigma,其中min_freq为所述最小边界值;
28.如果所述第一参考值大于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=mean(main_mu-a*main_sigma,low_mu+a*low_sigma),其中mean为求均值函数。
29.再进一步地,所述确定所述人声基频分布的频率范围的最大边界值,具体包括:确定所述人声基频分布的最大边界值为:max_freq=max(b,main_mu+c*main_sigma),其中max_freq为所述最大边界值,b为第二常数,c为第三常数。
30.本发明提供一种电子设备,包括:
31.至少一个处理器;以及,
32.与至少一个所述处理器通信连接的存储器;其中,
33.所述存储器存储有可被至少一个所述处理器执行的指令,所述指令被至少一个所述处理器执行,以使至少一个所述处理器能够执行如前所述的人声基频范围确定方法。
34.本发明提供一种存储介质,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如前所述的人声基频范围确定方法的所有步骤。
35.本发明通过对人声基频分布进行双拟合得到两个拟合分布,并基于两个拟合分布进行比较,准确确定人声基频分布的频率范围的最小边界值和/或最大边界值,从而可以正确的计算基频的值。
附图说明
36.图1为本发明一实施例一种人声基频范围确定方法的工作流程图;
37.图2为本发明另一实施例一种人声基频范围确定方法的工作流程图;
38.图3为本发明的双拟合分布示意图;
39.图4为本发明最佳一实施例一种人声基频范围确定方法的工作流程图;
40.图5为本发明一种电子设备的硬件结构示意图。
具体实施方式
41.下面结合附图来进一步说明本发明的具体实施方式。其中相同的零部件用相同的附图标记表示。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
42.如图1所示为本发明一实施例一种人声基频范围确定方法的工作流程图,包括:
43.步骤s101,获取人声基频分布,所述人声基频分布包括人声基频的多个频率以及对应幅值;
44.步骤s102,对所述人声基频分布进行双拟合,得到两个拟合分布;
45.步骤s103,基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值和/或最大边界值。
46.具体来说,本发明可以应用在具有处理能力的电子设备上。
47.首先,执行步骤s101获取人声基频分布。其中人声基频分布为人声基频的多个频率以及对应幅值。其中频率的有效范围即为人声基频的频率范围。
48.然后,执行步骤s102,对人声基频分布进行双拟合。双拟合指的是对人声基频分布分别进行两次拟合,分别得到两个拟合分布,每个拟合分布为频率与幅值的分布。
49.然后执行步骤s103,基于两个拟合分布的比较结果,确定人声基频分布的频率范围。该频率范围即基频范围,优选为人声基频的频率的有效范围。频率范围的两个参数为最大边界值和最小边界值。最大边界值为频率范围的最大频率,最小边界值为频率范围的最小频率。其中,由于人声基频分布的提取中,低频经常出错,因此准确确定频率范围的最小边界值,对频率范围提取的准确度有较大影响。
50.本发明通过对人声基频分布进行双拟合得到两个拟合分布,并基于两个拟合分布进行比较,准确确定人声基频分布的频率范围的最小边界值和/或最大边界值,从而可以正确的计算基频的值。
51.如图2所示为本发明另一实施例中的工作流程图,包括:
52.步骤s201,获取人声基频分布,所述人声基频分布包括人声基频的多个频率以及对应幅值。
53.步骤s202,采用双高斯对所述人声基频分布进行拟合,得到两个拟合分布。
54.步骤s203,比较两个所述拟合分布的最小频率、中心线频率和/或最大频率。
55.步骤s204,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
56.在其中一个实施例中,所述根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
57.如果两个所述拟合分布的最小频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值在预设差值阈值,则以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值。
58.在其中一个实施例中,所述以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值,具体包括:
59.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
60.以所述主拟合分布的最小频率作为所述频率范围的最小边界值。
61.在其中一个实施例中,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
62.如果两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值,则:
63.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
64.计算第一参考值为low_mu+a*low_sigma,计算第二参考值为main_mu-a*main_sigma,其中low_mu为所述低频拟合分布的频率均值,low_sigma为所述低频拟合分布的频率方差,main_mu为所述主拟合分布的频率均值,main_sigma为所述主拟合分布的频率方差,a为第一常数;
65.根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
66.在其中一个实施例中,所述根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
67.如果所述第一参考值小于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=low_mu+a*low_sigma,其中min_freq为所述最小边界值;
68.如果所述第一参考值大于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=mean(main_mu-a*main_sigma,low_mu+a*low_sigma),其中mean为求均值函数。
69.步骤s205,确定所述人声基频分布的频率范围的最大边界值。
70.在其中一个实施例中,所述确定所述人声基频分布的频率范围的最大边界值,具体包括:确定所述人声基频分布的最大边界值为:max_freq=max(b,main_mu+c*main_sigma),其中max_freq为所述最大边界值,b为第二常数,c为第三常数。
71.具体来说,首先执行步骤s201,获取人声基频分布。人声基频分布为待确定频率范围的数据。人声基频分布为人声基频的多个频率以及对应幅值。其中频率的有效范围即为
人声基频的频率范围。可以通过一个比较大的范围(55hz-600hz)求取人声基频,可以得到一个人声基频的分布,即人声基频分布。
72.然后执行步骤s202,采用双高斯对所述人声基频分布进行拟合,得到两个拟合分布。
73.其中,一个说话人的基频分布应该满足一个正态分布,即使是低频的错误pitch也基本满足正态分布。因此,可以采用双高斯对人声基频分布进行拟合,得到两个拟合分布,这两个拟合分布均为正态分布。
74.本实施例采用双高斯是基于先验假设,如果人声基频分布提取正常,则两个高斯分布基本重合;如果两个差异较大,则低频的高斯分布是有问题的。其中,双高斯拟合即双重高斯分布拟合,可以采用现有的双高斯拟合算法对人声基频分布进行拟合。
75.然后执行步骤s203,比较两个所述拟合分布的最小频率、中心线频率和/或最大频率。其中最小频率为拟合分布的频率最小值,中心线频率为拟合分布的中心线对应的频率值,最大频率为拟合分布的频率最大值。
76.可以比较:
77.两个拟合分布的最小频率、中心线频率或最大频率;或者
78.两个拟合分布的最小频率和中心线频率;或者
79.两个拟合分布的最大频率和中心线频率;或者
80.两个拟合分布的最小频率和最大频率;或者
81.两个拟合分布的最小频率、中心线频率和最大频率。
82.然后执行步骤s204,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
83.具体来说,可以根据两个拟合分布的以下比较结果,确定所述人声基频分布对应的频率范围的最小边界值:
84.两个拟合分布的最小频率、中心线频率或最大频率的比较结果;或者
85.两个拟合分布的最小频率和中心线频率的比较结果;或者
86.两个拟合分布的最大频率和中心线频率的比较结果;或者
87.两个拟合分布的最小频率和最大频率的比较结果;或者
88.两个拟合分布的最小频率、中心线频率和最大频率的比较结果。
89.在其中一个实施例中,所述根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
90.如果两个所述拟合分布的最小频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值在预设差值阈值,则以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值。
91.具体来说,当基频提取正常时,两个拟合分布的最小频率、最大频率、中心线频率均非常接近,因此,可以选择最小频率、最大频率、中心线频率的单独或组合方式,来判断两个拟合分布是否一致。即,如果两个所述拟合分布的最小频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值在预设差值阈值,则判断两个拟合分布接近,基频提取
正常,可以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值。
92.本实施例提供基频提取是否正常的判断条件,并在基频提取正常时,确定所述频率范围的最小边界值。
93.在其中一个实施例中,所述以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值,具体包括:
94.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
95.以所述主拟合分布的最小频率作为所述频率范围的最小边界值。
96.具体来说,在两个拟合分布中,选择中心线频率较大的拟合分布为主拟合分布,另一拟合分布,即中心线频率较小的拟合分布为低频拟合分布。然后,以主拟合分布的最小频率作为频率范围的最小边界值。
97.在其中一个实施例中,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
98.如果两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值,则:
99.选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;
100.计算第一参考值为low_mu+a*low_sigma,计算第二参考值为main_mu-a*main_sigma,其中low_mu为所述低频拟合分布的频率均值,low_sigma为所述低频拟合分布的频率方差,main_mu为所述主拟合分布的频率均值,main_sigma为所述主拟合分布的频率方差,a为第一常数;
101.根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
102.具体来说,如果两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值,则两个拟合分布不一致。
103.判断两个拟合分布不一致,可以为:
104.两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值;或者
105.两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值;或者
106.两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值;或者
107.两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值,且两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值;或者
108.两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值,且两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值;或者
109.两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值,且两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值;或者
110.两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值,且两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值,且两个所述拟合分布的最大频率的差
值绝对值大于预设差值阈值。
111.其中,差值阈值可以根据需要设定。
112.在两个拟合分布不一致的情况下,选择中心线频率较大的拟合分布为主拟合分布,另一拟合分布,即中心线频率较小的拟合分布为低频拟合分布。
113.然后分别计算第一参考值=low_mu+a*low_sigma,计算第二参考值=main_mu-a*main_sigma。其中,low_sigma为所述低频拟合分布的频率方差,main_mu为所述主拟合分布的频率均值,main_sigma为所述主拟合分布的频率方差,a为第一常数。
114.优选地,a=3,即计算第一参考值为low_mu+3*low_sigma,计算第二参考值为main_mu-3*main_sigma。
115.然后,根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
116.本实施例在拟合分布不一致的情况下,确定准确的最小边界值。
117.在其中一个实施例中,所述根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:
118.如果所述第一参考值小于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=low_mu+a*low_sigma,其中min_freq为所述最小边界值;
119.如果所述第一参考值大于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=mean(main_mu-a*main_sigma,low_mu+a*low_sigma),其中mean为求均值函数。
120.具体来说,如图3所示为两个拟合分布示意图,图3的横坐标为频率,纵坐标为幅值。第一参考值为图3中的第一垂线31所在频率,第二参考值为图3中的第二垂线32所在频率。
121.当第一参考值小于第二参考值,即第一垂线31在第二垂线32的左边,此时确定人声基频分布对应的频率范围的最小边界值为:
122.min_freq=low_mu+a*low_sigma,其中min_freq为所述最小边界值;
123.当第一参考值大于第二参考值,即第一垂线31在第二垂线32的右边,此时确定所述人声基频分布对应的频率范围的最小边界值为:
124.min_freq=mean(main_mu-a*main_sigma,low_mu+a*low_sigma),其中mean为求均值函数。
125.由于一个人声的正常基频分布是一个单高斯分布,因此如果低频部分也拟合出一个分布,则本实施例把低频部分丢弃。通过在上述两种情况下确定最小边界值,可以保证低频部分不会再出现,从而准确确定人声基频分布对应的频率范围的最小边界值。
126.最后,执行步骤s205,确定所述人声基频分布的频率范围的最大边界值。
127.在其中一个实施例中,所述确定所述人声基频分布的频率范围的最大边界值,具体包括:确定所述人声基频分布的最大边界值为:max_freq=max(b,main_mu+c*main_sigma),其中max_freq为所述最大边界值,b为第二常数,c为第三常数。
128.具体来说,b优选为500,c优选为3,即max_freq=max(500,main_mu+3*main_sigma)。
129.由于人声基频的高频范围较广,因此本实施例给一个相对较宽的范围,以保证高
频部分更加准确一些,防止最大边界值小于实际的值而导致高频部分不准确,准确确定人声基频分布对应的频率范围的最大边界值。
130.本实施例通过动态调整基频低频时的范围,能够提取出更加准确的基频信息。
131.如图4所示为本发明最佳实施例一种人声基频范围确定方法的工作流程图,包括::
132.步骤s401,先通过一个比较大的范围(55hz-600hz)求取基频,可以得到一个基频分布。
133.步骤s402,确定基频的频率范围的最小边界:
134.a.用双高斯分布去拟合这个基频分布,得到两个高斯分布;
135.b.比较两个高斯分布的边界点,做出决策:
136.i.如果两个高斯分布的边界点及中心线非常接近,说明基频提取正常,无需再次提取。
137.ii.如果两个高斯分布边界点相差较大,根据不同的情形确定新的提取范围的最小值。
138.比较low_mu+3*low_sigma(图3中的第一垂线31)与main_mu-3*main_sigma(图3中的第二垂线32)的大小:
139.若第一垂线31在左边,则最小边界min_freq为:
140.min_freq=low_mu+3*low_sigma;
141.若第一垂线31在右边,则最小边界min_freq为:
142.min_freq=mean(main_mu-3*main_sigma,low_mu+3*low_sigma);
143.步骤s303,确定基频的频率范围的最大边界。
144.最大边界:max_freq=max(500,main_mu+5*main_sigma)。
145.本实施例通过动态调整基频提频时的范围,能够提取出更加准确的基频信息。
146.如图5所示为本发明一种电子设备的硬件结构示意图,包括:
147.至少一个处理器501;以及,
148.与至少一个所述处理器501通信连接的存储器502;其中,
149.所述存储器502存储有可被至少一个所述处理器执行的指令,所述指令被至少一个所述处理器执行,以使至少一个所述处理器能够执行如前所述的人声基频范围确定方法。
150.图5中以一个处理器501为例。
151.电子设备还可以包括:输入装置503和显示装置504。
152.处理器501、存储器502、输入装置503及显示装置504可以通过总线或者其他方式连接,图中以通过总线连接为例。
153.存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的人声基频范围确定方法对应的程序指令/模块,例如,图1、图2所示的方法流程。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述实施例中的人声基频范围确定方法。
154.存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系
统、至少一个功能所需要的应用程序;存储数据区可存储根据人声基频范围确定方法的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至执行人声基频范围确定方法的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
155.输入装置503可接收输入的用户点击,以及产生与人声基频范围确定方法的用户设置以及功能控制有关的信号输入。显示装置504可包括显示屏等显示设备。
156.在所述一个或者多个模块存储在所述存储器502中,当被所述一个或者多个处理器501运行时,执行上述任意方法实施例中的人声基频范围确定方法。
157.本发明通过对人声基频分布进行双拟合得到两个拟合分布,并基于两个拟合分布进行比较,准确确定人声基频分布的频率范围的最小边界值和/或最大边界值,从而可以正确的计算基频的值。
158.本发明一实施例提供一种存储介质,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如前所述的人声基频范围确定方法的所有步骤。
159.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
技术特征:
1.一种人声基频范围确定方法,其特征在于,包括:获取人声基频分布,所述人声基频分布包括人声基频的多个频率以及对应幅值;对所述人声基频分布进行双拟合,得到两个拟合分布;基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值和/或最大边界值。2.根据权利要求1所述的人声基频范围确定方法,其特征在于,所述对所述人声基频分布进行双拟合,得到两个拟合分布,具体包括:采用双高斯对所述人声基频分布进行拟合,得到两个拟合分布。3.根据权利要求1所述的人声基频范围确定方法,其特征在于,所述基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值,具体包括:比较两个所述拟合分布的最小频率、中心线频率和/或最大频率;根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。4.根据权利要求3所述的人声基频范围确定方法,其特征在于,所述根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:如果两个所述拟合分布的最小频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值在预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值在预设差值阈值,则以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值。5.根据权利要求4所述的人声基频范围确定方法,其特征在于,所述以其中一个所述拟合分布的最小频率作为所述频率范围的最小边界值,具体包括:选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;以所述主拟合分布的最小频率作为所述频率范围的最小边界值。6.根据权利要求4所述的人声基频范围确定方法,其特征在于,根据两个所述拟合分布的最小频率、中心线频率和/或最大频率的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:如果两个所述拟合分布的最小频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的中心线频率的差值绝对值大于预设差值阈值、和/或两个所述拟合分布的最大频率的差值绝对值大于预设差值阈值,则:选择中心线频率大的所述拟合分布作为主拟合分布,另一拟合分布作为低频拟合分布,所述中心线频率为所述拟合分布的中心线对应的频率;计算第一参考值为low_mu+a*low_sigma,计算第二参考值为main_mu-a*main_sigma,其中low_mu为所述低频拟合分布的频率均值,low_sigma为所述低频拟合分布的频率方差,main_mu为所述主拟合分布的频率均值,main_sigma为所述主拟合分布的频率方差,a为第一常数;根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值。
7.根据权利要求6所述的人声基频范围确定方法,其特征在于,所述根据所述第一参考值与所述第二参考值的比较结果,确定所述人声基频分布对应的频率范围的最小边界值,具体包括:如果所述第一参考值小于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=low_mu+a*low_sigma,其中min_freq为所述最小边界值;如果所述第一参考值大于所述第二参考值,则确定所述人声基频分布对应的频率范围的最小边界值为:min_freq=mean(main_mu-a*main_sigma,low_mu+a*low_sigma),其中mean为求均值函数。8.根据权利要求6所述的人声基频范围确定方法,其特征在于,所述确定所述人声基频分布的频率范围的最大边界值,具体包括:确定所述人声基频分布的最大边界值为:max_freq=max(b,main_mu+c*main_sigma),其中max_freq为所述最大边界值,b为第二常数,c为第三常数。9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被至少一个所述处理器执行的指令,所述指令被至少一个所述处理器执行,以使至少一个所述处理器能够执行如权利要求1至8任一项所述的人声基频范围确定方法。10.一种存储介质,其特征在于,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如权利要求1至8任一项所述的人声基频范围确定方法的所有步骤。
技术总结
本发明公开一种人声基频范围确定方法、电子设备及存储介质。方法包括:获取人声基频分布,所述人声基频分布包括人声基频的多个频率以及对应幅值;对所述人声基频分布进行双拟合,得到两个拟合分布;基于两个所述拟合分布的比较结果,确定所述人声基频分布的频率范围的最小边界值和/或最大边界值。本发明通过对人声基频分布进行双拟合得到两个拟合分布,并基于两个拟合分布进行比较,准确确定人声基频分布的频率范围的最小边界值和/或最大边界值,从而可以正确的计算基频的值。从而可以正确的计算基频的值。从而可以正确的计算基频的值。
技术研发人员:胡云燎 杨明祺 张博闻
受保护的技术使用者:名日之梦(北京)科技有限公司
技术研发日:2023.04.27
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/