一种智能语音客服问答方法及系统与流程
未命名
07-12
阅读:110
评论:0

1.本发明涉及语音客服服务技术领域,具体涉及一种智能语音客服问答方法及系统。
背景技术:
2.随着各行各业市场的成熟,同质化竞争严重,用户对客户服务的要求也逐渐提高,一对一的客户服务必然能够给客户带来更好的客户体验,但是出于成本和效率的考虑,客服人员通常是一对多位客户;这样服务方式就会带来一系列的问题,比如客服人员沟通不及时、回答的专业度不够、灵活度比较低等;因此设计实现一个智能语音客服问答系统便有了重要的意义。
3.客服系统需要回答的问题往往具有普遍性,因此通过总结客户的问题,提取关键词,制定相应的回答话术,可以解决绝大多数客户提出的问题;智能语音客服问答系统在接通用户语音后,检测用户语音中包含的关键词,依据关键字搜索对应的解决方案,并复述给用户,以此实现智能语音客服;而在现有的关键字识别方法中,受应用场景,低内存,低资源消耗的限制,大部分方法都趋向于降低模型参数,因此识别的准确率受到了一定的影响,因此如何使用更少的参数量和更低的资源消耗来实现更高的准确率的关键字识别模型成为实现智能语音客服问答系统中的亟待解决的问题。
技术实现要素:
4.针对上述问题,本发明的一个目的是提供一种智能语音客服问答方法,该方法将深度学习技术应用到智能客服问答,同时应用的卷积神经网络与注意力机制相结合的关键字识别模型,以较低的资源消耗,实现了准确、高效的智能客服问答功能。
5.本发明的第二个目的是提供一种基于智能语音客服问答系统。
6.本发明所采用的第一个技术方案是:一种智能语音客服问答方法,包括以下步骤:
7.s100:获取用户语音信号;
8.s200:对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;
9.s300:基于所述待处理问题的关键字生成用户语音问题指令序列;
10.s400:基于所述用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户。
11.优选地,所述步骤s200中对所述用户语音信号进行预处理以获得低维音频特征,包括:
12.1)对所述用户语音信号进行重采样;
13.2)进行预加重处理;
14.3)基于短时傅立叶变换算法进行处理;
15.4)基于梅尔频谱的转换获得低维音频特征。
16.优选地,所述步骤s200中将所述低维音频特征输入原始特征提取器,从而获得高维音频特征包括:
17.低维音频特征先经过unsqueeze操作,再通过卷积操作,以获得高维音频特征。
18.优选地,所述步骤s200中将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征包括以下子步骤:
19.s210:将所述高维音频特征输入隐藏特征处理器中的全局特征提取器,以获得第一隐藏特征;
20.s220:将所述高维音频特征和第一隐藏特征输入隐藏特征处理器中的局部特征提取器,以获得第二隐藏特征。
21.优选地,第一隐藏特征通过以下公式计算得到:
22.q=bn(conv(x
^
))
23.k=bn(conv(x
^
))
24.v=bn(conv(x
^
))
25.x
attention
=softmax(pe+q
×
k)
26.x
self_attention
=gelu(v
×
x
attention
)
27.x
第一隐藏特征
=bn(conv(x
self_attention
))
28.式中,q、k、v均为归一化后的高维音频特征;x
^
为高维音频特征;bn代表归一化函数;conv代表卷积操作;x
attention
为注意力的值;softmax代表归一化函数;pe代表位置编码;x
self_attention
为自注意力的值;gelu代表激活函数;x
第一隐藏特征
为第一隐藏特征。
29.优选地,所述第二隐藏特征通过以下公式表示:
30.x
频率
=ssn(conv(swish(bn(conv(x
^
)))))
31.x
时间
=conv(swish(bn(conv(pool(x
频率
)))))
32.x
第二隐藏
=relu(x
时间
+x
频率
+x
第一隐藏特征
)
33.式中,x
频率
为频率特征;ssn代表归一化函数;conv代表卷积操作;swish代表激活函数;bn代表归一化函数;x
^
为高维音频特征;x
时间
为时间特征;pool代表平均池化;x
第二隐藏
为第二隐藏特征;relu为激活函数。
34.优选地,所述步骤s300包括:
35.基于所述待处理问题的关键字生成关键词序列;
36.将所述关键词序列与预设的关键词进行对比,从而形成用户语音问题指令序列。
37.优选地,所述步骤s400包括:
38.基于用户语音问题指令序列检索与待处理问题的关键字最匹配的内容作为对应回答,并将检索到的对应回答反馈给用户。
39.优选地,所述步骤s400还包括:基于对用户问题响应的正确率以及时间,对所述对应回答进行测试分析。
40.本发明所采用的第二个技术方案是:一种智能语音客服问答系统,包括语音信号获取模块、关键字识别模块、问题指令生成模块和反馈模块;
41.所述语音信号获取模块用于获取用户语音信号;
42.所述关键字识别模块用于对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;
43.所述问题指令生成模块用于基于所述待处理问题的关键字生成用户语音问题指令序列;
44.所述反馈模块用于基于所述用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户。
45.上述技术方案的有益效果:
46.(1)本发明公开的一种智能语音客服问答方法将深度学习技术应用到智能客服问答,同时应用的卷积神经网络与注意力机制相结合的关键字识别模型,以较低的资源消耗,实现了准确、高效的智能客服问答功能。
47.(2)本发明提出了适合噪声条件下关键字识别的关键字识别模型(即频率压缩模型),该关键字识别模型采用卷积神经网络与注意力机制相结合,适用于低计算资源、低内存的终端设备,该模型以极低的模型参数量,实现了真实终端设备的关键字识别;该模型在干净语音条件下达到优秀的识别效果,在噪声条件下也有较好的效果,尤其适用于电话通话时的应用场景,即该关键字识别模型既满足了关键字识别模型实际应用场景低参数、低内存的性能要求,同时弥补了设备捕获音频时可能存在噪音导致模型准确率降低的不足,增强了模型的鲁棒性。
48.(3)本发明提出的关键字识别模型(即频率压缩模型)以提取的mfcc音频特征作为输入,首先使用原始特征提取器将mfcc音频特征维度进行提升,以便于对mfcc音频特征进行进一步的处理;在隐藏特征处理器中首先对输入特征进行频率方向的二维频率卷积以获得频率特征,之后将维度压缩后对特征进行一维时间卷积以获得时间特征,通过与注意力机制的结果相加将特征维度恢复,经过多次重复,充分提取时间、频率信息后,进入最后的分类特征判别器,输出最后识别出的关键字。
附图说明
49.图1为本发明的一个实施例提供的一种智能语音客服问答方法的流程示意图;
50.图2为本发明一个实施例提供的关键字识别模型的结构示意图;
51.图3为本发明一个实施例提供的全局特征提取器的结构示意图;
52.图4为本发明一个实施例提供的局部特征提取器的结构示意图;
53.图5为本发明的一个实施例提供的一种智能语音客服问答系统的结构示意图。
具体实施方式
54.下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。
55.在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以上;术语“第一”“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性;对于本领
域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。
56.实施例一
57.如图1和图2所示,本发明的一个实施例提供了一种智能语音客服问答方法,包括以下步骤:
58.s100:获取用户语音信号;
59.智能语音问答系统开启,通过采音装置中的麦克风阵列采集用户音频信号,所述麦克风阵列包括多个麦克风;采音装置中的波束成形器通过对麦克风阵列采集的音频信号进行语音增强处理而从中提取用户语音信号(即增强后的语音信号)。
60.s200:对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;
61.(1)对所述用户语音信号进行预处理以获得低维音频特征;
62.1)根据表1中的参数对用户语音信号进行重采样,将所有用户语音信号的采样率转换到22050hz;
63.2)进行0.97的预加重处理;
64.3)基于短时傅立叶变换(stft)算法进行处理,帧移为256,窗长和帧长都为1024;
65.4)基于梅尔频谱的转换获得mfcc(梅尔频率倒谱系数)音频特征,mfcc音频特征即为低维音频特征;梅尔滤波器采用80个的梅尔滤波器组,从0的最小频率提升到8000的最大频率,而并非11025的最大频率。
66.表1音频参数
67.参数名值采样率22050hz帧长1024点窗长1024点帧移256点mel最小频率0hzmel最大频率8000hz预加重系数0.97
68.(2)基于低维音频特征获得预测关键字;
69.如图2所示,关键字识别模型包括原始特征提取器(original feature extractor)、隐藏特征处理器(hidden feature processor)和分类特征判别器(classified feature discriminator);
70.隐藏特征处理器包括全局特征提取器和局部特征提取器;如图3所示,全局特征提取器以注意力机制为基础;全局特征提取器对输入的特征分别进行三次卷积操作,分别得到q,k,v;q与k进行乘法操作后,将位置编码pe(poisition encoding)加入其中,得到注意力的值;注意力的值再通过一次softmax操作后,与v进行乘法操作,并送入一次gelu激活后,通过卷积核大小为1的2维卷积,将自注意力的维度设置到原始维度,通过最后的一个bn层,完成一次注意力操作;经过多次迭代后,赋予不同的权重值,馈送给局部特征提取器做
维度的广播恢复。
71.如图4所示,局部特征提取器主要由卷积神经网络构成,局部特征提取器包含迭代4次的频率特征提取器卷和时间特征提取器卷;
72.频率特征提取器卷:首先对输入的特征进行频率卷积,频率卷积首先通过一次卷积核大小为1的2维卷积将特征维度进行抬升;再通过1个bn层1个swish激活后;再通过一次padding为2,步长为2,卷积核大小为5的2维的分组卷积;最后经过1个ssn层完成频率卷积,获得频率特征;
73.时间特征提取器卷:首先通过平均池化将频率特征的维度压缩到1,,通过1个dilation为2,padding为4,卷积核为5的分组卷积;再通过1个bn层,一个swish激活后;再通过一次卷积核大小为1的逐点卷积和drop率为0.1的dropout,结束时间卷积并输出时间特征;
74.将频率特征提取器卷、时间特征提取器卷以及全局特征处理器的输出相加,将维度恢复至初始维度后,经过1个relu激活后,进行多次迭代。
75.1)将低维音频特征输入原始特征提取器,从而获得高维音频特征;
76.由常用的音频特征提取工具从原始音频中提取mfcc特征,特征维数不满足模型操作需求,需要进行维数扩展;因此将低维音频特征输入原始特征提取器中,进行unsqueeze操作以实现维数扩展,再通过卷积操作,将扩展的维数提升到高维度,得到高维音频特征。
77.2)将高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;
78.s210:将高维音频特征输入隐藏特征处理器中的全局特征提取器,,以获得第一隐藏特征;
79.高维音频特征分别通过两个相同卷积降低维度,使用bn层归一化后,得到q、k,通过一个卷积操作,使用bn层归一化后,得到v;使用q对k进行查询,并将位置编码pe(poisition encoding)加入其中,经过softmax层归一化,与v进行加权后,通过gelu函数激活,使用卷积核大小为1的卷积操作调整特征维度,再经过bn层归一化后,得到第一隐藏特征;其公式如下所示:
80.q=bn(conv(x
^
))
81.k=bn(conv(x
^
))
82.v=bn(conv(x
^
))
83.x
attention
=softmax(pe+q
×
k)
84.x
self_attention
=gelu(v
×
x
attention
)
85.x
第一隐藏特征
=bn(conv(x
self_attention
))
86.式中,q、k、v均为归一化后的高维音频特征;x
^
为高维音频特征;bn代表归一化函数;conv代表卷积操作;x
attention
为注意力的值;softmax代表归一化函数;pe(poisition encoding)代表位置编码;x
self_attention
为自注意力的值;gelu代表激活函数;x
第一隐藏特征
为第一隐藏特征。
87.s220:将高维音频特征和第一隐藏特征输入隐藏特征处理器中的局部特征提取器,以获得第二隐藏特征;
88.①
将高维音频特征输入局部特征提取器,通过频率特征提取器卷进行频率方向的卷积操作,以获得频率特征,包括:
89.对高维音频特征进行卷积核大小为1的卷积操作,将其维度提高,通过bn层进行归一化后,使用swish激活函数去线性化,再通过一次卷积核大小为5,步长为2的逐通道卷积操作,并通过padding保持边界信息,逐通道卷积不改变特征维度,只获得更值得注意的局部特征,最后通过一次ssn函数,得到频率特征;
90.②
通过时间特征提取器卷对频率特征进行时间方向的卷积操作,以获得时间特征,包括:
91.通过一次平均池化操作,延频率方向将频率特征进行压缩,得到适合提取时间方向的时间特征,对适合提取时间方向的时间特征首先通过卷积核为5,扩展率为2的逐通道卷积,并通过padding保持边界信息,通过bn层进行归一化后,使用swish激活函数去线性化,再通过一次逐点卷积和drop率为0.1的dropout后,获得时间特征;
92.③
将频率特征、时间特征和第一隐藏特征赋予一定权重后相加进行广播,将相加后的特征恢复到初始维度(即高维音频特征中的高维度),经过relu激活函数去线性化后,进行多次迭代,得到第二隐藏特征;其公式如下所示:
93.x
频率
=ssn(conv(swish(bn(conv(x
^
)))))
94.x
时间
=conv(swish(bn(conv(pool(x
频率
)))))
95.x
第二隐藏
=relu(x
时间
+x
频率
+x
第一隐藏特征
)
96.式中,x
频率
为频率特征;ssn代表归一化函数;conv代表卷积操作;swish代表激活函数;bn代表归一化函数;x
^
为高维音频特征;x
时间
为时间特征;pool代表平均池化;x
第二隐藏
为第二隐藏特征;relu为激活函数。
97.将高维音频特征输入隐藏特征处理器从而获得第二隐藏特征的总体公式如下所示:
98.x
第二隐藏
=wia(x
^
)+f1(avgpool(f2(x
^
)))+f2(x
^
)
99.式中,x
第二隐藏
为第二隐藏特征;wi代表全局特征提取器的权重;a()代表全局特征提取器;x
^
为高维音频特征;f1()代表局部特征提取器中的时间特征提取;avgpool代表平均池化;f2()代表局部特征提取器中的频率特征提取。
100.本发明局部特征提取器和全局特征提取器的输入均为高维音频特征;全局特征提取器对输入的高维音频特征进行全局的特征提取,关注特征的全局信息,得到第一隐藏特征;局部特征提取器对输入的高维音频特征进行局部的特征提取,关注特征的局部重点信息,并和得到的第一隐藏特征相加得到初步的第二隐藏特征;将初步的第二隐藏特征送入下一个局部特征提取器和全局特征提取器,重复提取重要信息,得到最终的第二隐藏特征。
101.本发明以频率压缩为条件的带权注意力(带权注意力是指模型中给全局特征提取器的输出乘以一个权重),将全局特征更好的馈送给局部特征,从而达到更加快速、准确、优秀的识别关键字的效果。
102.3)将第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;
103.将第二隐藏特征输入分类特征判别器中,第二隐藏特征通过一次卷积核大小为5的分组卷积,对隐藏特征分类器所输出的第二隐藏特征进行进一步融合处理,再通过自适应池化层将融合处理后的第二隐藏特征进行压缩;最后通过一次2维卷积,将特征维度压缩至预定义关键字个数的维度,得到多个候选关键字的概率值,将最大概率值所对应的候选
关键字作为预测结果,即作为用户语音信号中待处理问题的关键字。
104.其中,关键字识别模型通过以下方式进行训练:
105.(1)获取具有目标关键字标注的语音数据;对语音数据进行预处理以获得低维音频特征;
106.1)获取具有不同类别关键字标注的语音数据包括:
107.从英文开源纯净语音关键字数据集中收集语音数据及其对应的文本;以及通过真实应用场景的终端设备进行自行录制语音数据,并获取其对应的文本,例如根据实际应用场景要求,以手机通话为应用背景,录制14956句电话通话时常用的20种短句,例如,“你好”、“喂”等;
108.预定义关键字及其类别,根据预定义的关键字及其类别、语音数据所对应的文本内容对语音数据进行标注,以获得具有不同类别关键词标注的语音数据,具有不同类别关键词标注的语音数据即为具有目标关键字标注的语音数据;所述语音数据为不同语种的语音数据。
109.2)对语音数据进行预处理以获得低维音频特征;包括:
110.根据表1中的参数先对语音数据进行重采样,将所有语音数据的采样率转换到22050hz,将重采样后的语音数据进行0.97的预加重处理;然后通过短时傅立叶变换(stft)算法进行处理,帧移为256,窗长和帧长都为1024;最后进行梅尔频谱的转换获得mfcc音频特征,mfcc音频特征即为低维音频特征;梅尔滤波器采用80个的梅尔滤波器组,从0的最小频率提升到8000的最大频率,而并非11025的最大频率。
111.表1音频参数
112.参数名值采样率22050hz帧长1024点窗长1024点帧移256点mel最小频率0hzmel最大频率8000hz预加重系数0.97
113.(2)将低维音频特征输入所述关键字识别模型以获得预测关键字;
114.将第二隐藏特征输入分类特征判别器中,第二隐藏特征通过一次卷积核大小为5的分组卷积,对隐藏特征分类器所输出的第二隐藏特征进行进一步融合处理,再通过自适应池化层将融合处理后的第二隐藏特征进行压缩;最后通过一次2维卷积,将特征维度压缩至预定义关键字的个数的维度,得到多个候选预测关键字的概率值,将最大概率值所对应的候选预测关键字作为预测结果,即作为最终的预测关键字。
115.(3)基于预测关键字和目标关键字训练所述关键字识别模型。
116.将预测关键字与目标关键字进行比较,以计算交叉熵损失值,训练关键字识别模型直到交叉熵损失值不再下降或在某一值附近震荡,达到收敛;
117.训练时,优化器采用了adam优化器,beta值为0.9和0.98,学习率为0.002;在经过200个的迭代训练后收敛,每一步的样本数为64,每一次选取都在当前回合中随机选取;使
用不同语种的语音数据进行训练,能得到适合不同语种的关键字识别器。
118.进一步的,在一个实施例中,还包括对训练好的关键字识别模型进行测试;
119.获取少量未知关键字音频及其对应的文本,对其进行步骤s100中的操作以获得低维音频特征;将低维音频特征输入训练好的关键字识别模型中,同时冻结模型所有参数,直接使未知关键字音频的低维音频特征经过原始特征提取器、隐藏特征处理器和分类特征判别器后,得到预测关键字;
120.对预测关键字进行测试并分析;对预测关键字进行测试并分析时,主要考虑预测的正确率;预测的关键字和对应的文本内容相同为预测正确,预测正确赋1分,预测的关键字和对应的文本内容不同为预测错误,预测错误赋0分,最后将得分除以测试的音频总数,得到预测的正确率;其次关注实现关键字识别功能时占用的内存和计算资源。
121.如表2所示,在对训练好的关键字识别模型评测中,将keyword-transformer、matchboxnet-3
×1×
64、tenet、lg_net3和本发明的训练好的关键字识别模型(ours)进行预测正确率以及所需参数量的比较,从表2中的数据可知,相较于其他模型,本发明的训练好的关键字识别模型的识别效果非常好。
122.表2训练好的关键字识别模型的预测正确率以及所需参数量
[0123][0124]
s300:基于待处理问题的关键字生成用户语音问题指令(即语音指令);
[0125]
基于用户语音信号中待处理问题的关键字生成关键词序列,例如查-话费;将关键词序列输入中控模块中的关键词处理模块,关键词处理模块将接收的关键词序列与数据库中预设的关键词进行对比,从而形成用户语音问题指令序列,例如查询-话费。
[0126]
s400:基于用户语音问题指令序列在数据库中检索,以获得对应回答;将对应回答反馈给用户。
[0127]
本发明的中控模块接收用户语音问题指令序列,从数据库中检索与用户语音信号中待处理问题的关键字(即用户所提出问题的关键字)最匹配的内容作为对应回答,检索到对应回答后,中控模块将检索到的对应回答传递给扬声器,扬声器进行播放反馈给用户,同时等待下一条用户语音问题指令的到来。
[0128]
进一步的,在一个实施例中,还包括对对应回答进行测试分析,对对应回答进行测试分析时主要考虑对用户问题响应的正确率以及时间,其次关注完成对应回答时占用的内存和计算资源。
[0129]
实施例二
[0130]
如图5所示,本发明的一个实施例提供了一种智能语音客服问答系统,包括一种智能语音客服问答系统,包括语音信号获取模块、关键字识别模块、问题指令生成模块和反馈模块;
[0131]
所述语音信号获取模块用于获取用户语音信号;
[0132]
所述关键字识别模块用于对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;
[0133]
所述问题指令生成模块用于基于所述待处理问题的关键字生成用户语音问题指令序列;
[0134]
所述反馈模块用于基于所述用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户。
[0135]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0136]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0137]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0138]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0139]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种智能语音客服问答方法,其特征在于,包括以下步骤:s100:获取用户语音信号;s200:对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;s300:基于所述待处理问题的关键字生成用户语音问题指令序列;s400:基于所述用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户。2.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s200中对所述用户语音信号进行预处理以获得低维音频特征,包括:1)对所述用户语音信号进行重采样;2)进行预加重处理;3)基于短时傅立叶变换算法进行处理;4)基于梅尔频谱的转换获得低维音频特征。3.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s200中将所述低维音频特征输入原始特征提取器,从而获得高维音频特征包括:低维音频特征先经过unsqueeze操作,再通过卷积操作,以获得高维音频特征。4.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s200中将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征包括以下子步骤:s210:将所述高维音频特征输入隐藏特征处理器中的全局特征提取器,以获得第一隐藏特征;s220:将所述高维音频特征和第一隐藏特征输入隐藏特征处理器中的局部特征提取器,以获得第二隐藏特征。5.根据权利要求4所述的智能语音客服问答方法,其特征在于,第一隐藏特征通过以下公式计算得到:q=bn(conv(x
^
))k=bn(conv(x
^
))v=bn(conv(x
^
))x
attention
=softmax(pe+q
×
k)x
self_attention
=gelu(v
×
x
attention
)x
第一隐藏特征
=bn(conv(x
self_attention
))式中,q、k、v均为归一化后的高维音频特征;x
^
为高维音频特征;bn代表归一化函数;conv代表卷积操作;x
attention
为注意力的值;softmax代表归一化函数;pe(poisition encoding)代表位置编码;x
self_attention
为自注意力的值;gelu代表激活函数;x
第一隐藏特征
为第一隐藏特征。6.根据权利要求4所述的智能语音客服问答方法,其特征在于,所述第二隐藏特征通过以下公式表示:x
频率
=ssn(conv(swish(bn(conv(x
^
)))))
x
时间
=conv(swish(bn(conv(pool(x
频率
)))))x
第二隐藏
=relu(x
时间
+x
频率
+x
第一隐藏特征
)式中,x
频率
为频率特征;ssn代表归一化函数;conv代表卷积操作;swish代表激活函数;bn代表归一化函数;x
^
为高维音频特征;x
时间
为时间特征;pool代表平均池化;x
第二隐藏
为第二隐藏特征;relu为激活函数。7.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s300包括:基于所述待处理问题的关键字生成关键词序列;将所述关键词序列与预设的关键词进行对比,从而形成用户语音问题指令序列。8.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s400包括:基于用户语音问题指令序列检索与待处理问题的关键字最匹配的内容作为对应回答,并将检索到的对应回答反馈给用户。9.根据权利要求1所述的智能语音客服问答方法,其特征在于,所述步骤s400还包括:基于对用户问题响应的正确率以及时间,对所述对应回答进行测试分析。10.一种智能语音客服问答系统,其特征在于,包括语音信号获取模块、关键字识别模块、问题指令生成模块和反馈模块;所述语音信号获取模块用于获取用户语音信号;所述关键字识别模块用于对所述用户语音信号进行预处理以获得低维音频特征;以及将所述低维音频特征输入原始特征提取器,从而获得高维音频特征;将所述高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将所述第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;所述问题指令生成模块用于基于所述待处理问题的关键字生成用户语音问题指令序列;所述反馈模块用于基于所述用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户。
技术总结
本发明涉及语音客服服务技术领域,具体公开了一种智能语音客服问答方法及系统,包括获取用户语音信号;对用户语音信号进行预处理以获得低维音频特征;以及将低维音频特征输入原始特征提取器,从而获得高维音频特征;将高维音频特征输入隐藏特征处理器,从而获得第二隐藏特征;将第二隐藏特征输入分类特征判别器中,以获得用户语音信号中待处理问题的关键字;基于待处理问题的关键字生成用户语音问题指令序列;基于用户语音问题指令序列在数据库中检索,以获得对应回答;并将对应回答反馈给用户;该方法以较低的资源消耗,实现了准确、高效的智能客服问答功能。效的智能客服问答功能。效的智能客服问答功能。
技术研发人员:柯登峰 杜宝乐 王运峰 徐艳艳
受保护的技术使用者:澳克多普有限公司
技术研发日:2023.04.03
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/