一种语音信息处理方法、装置、介质、电子设备与流程
未命名
08-26
阅读:77
评论:0

1.本技术涉及自然语言处理技术领域,特别地,涉及一种语音信息处理方法、装置、介质、电子设备。
背景技术:
2.随着现有的自然语言处理技术的不断普及,现有的生活中出现越来越多不同形式的语音助手,常见地,应用于智能车载等领域。但是现有的语音助手通常会存在无法理解的语义,此时由于简单的自然语言处理模型而无法进行二次解析,直接向用户反馈“对不起,没听懂”“请您再说一遍”等等之类的提示。
3.因此,现有的自然语言处理技术中存在着智能化程度不高且无法自主更新学习的问题,无法有效理解用户所想表达的真正意思,在下一次用户输入同样的语音信息时,仍旧无法识别到用户的意图,进而导致用户体验感差的问题。
技术实现要素:
4.本技术提供了一种语音信息处理方法、装置、介质、电子设备,可以通过深度识别单元对一些基础识别单元无法理解的语音信息进行深度解析,进而能够识别用户真正的意图,提高智能化程度的同时能够使得用户在第二次输入相同或相似的语音信息时可以准确识别用户意图,提升用户的体验感。
5.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面,提供了一种语音信息处理方法,所述方法应用于语音处理系统,所述语音处理系统包括基础识别单元以及深度识别单元,所述方法包括:
7.获取用户输入的语音信息;
8.通过所述基础识别单元识别所述语音信息中的目标关键词信息;
9.判断所述目标关键词信息是否能够被所述基础识别单元完全解析;
10.若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果;
11.基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
12.在本技术的一个实施例中,基于前述方案,所述基础识别单元包括自然语言基础处理单元,所述通过所述基础识别单元识别所述语音信息中的目标关键词信息,包括:
13.通过所述自然语言基础处理单元将所述语音信息转换为与所述语音信息对应的语言文本信息;
14.通过所述自然语言基础处理单元提取所述语言文本信息中的目标关键词信息。
15.在本技术的一个实施例中,基于前述方案,所述深度识别单元包括自然语言深度处理单元以及语义理解单元;所述通过所述深度识别单元对所述目标关键词信息进行深度
解析,得到深度解析结果,包括:
16.通过所述自然语言深度处理单元将所述目标关键词信息转换为与所述目标关键词信息对应的向量信息;
17.通过所述语义理解单元对所述向量信息进行深度解析,得到所述深度解析结果。
18.在本技术的一个实施例中,基于前述方案,所述在判断所述目标关键词信息是否能够被所述基础识别单元完全解析之后,还包括:
19.若所述目标关键词信息能够被所述基础识别单元完全解析,通过所述基础识别单元输出与所述目标关键词信息对应的基础解析结果;
20.基于所述基础解析结果控制终端执行与所述基础解析结果对应的操作。
21.在本技术的一个实施例中,基于前述方案,所述深度识别单元还包括语法编辑器,所述基于所述深度解析结果对所述基础识别单元进行在线训练,包括:
22.通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息;
23.基于所述训练信息对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
24.在本技术的一个实施例中,基于前述方案,所述通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息,包括:
25.通过所述语法编辑器将所述深度解析结果转换为向量化表示的量化信息;
26.将所述量化信息转换为与所述深度解析结果对应的训练信息。
27.在本技术的一个实施例中,基于前述方案,所述基于所述训练信息对所述基础识别单元进行在线训练,包括:
28.基于所述训练信息获取多个泛化版本的语句信息,所述语句信息与所述深度解析结果相匹配;
29.将多个所述泛化版本的语句信息输入到所述基础识别单元中,以更新所述基础识别单元的识别范围。
30.根据本技术实施例的一个方面,提供了一种语音信息处理装置,应用于语音处理系统,所述语音处理系统包括基础识别单元以及深度识别单元,所述装置包括:获取单元,被用于获取用户输入的语音信息;识别单元,被用于通过所述基础识别单元识别所述语音信息中的目标关键词信息;判断单元,被用于判断所述目标关键词信息是否能够被所述基础识别单元完全解析;深度解析单元,被用于若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果;训练单元,被用于基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
31.在本技术的一个实施例中,基于前述方案,所述基础识别单元包括自然语言基础处理单元,所述识别单元配置为:通过所述自然语言基础处理单元将所述语音信息转换为与所述语音信息对应的语言文本信息;
32.通过所述自然语言基础处理单元提取所述语言文本信息中的目标关键词信息。
33.在本技术的一个实施例中,基于前述方案,所述深度识别单元包括自然语言深度处理单元以及语义理解单元,所述深度解析单元配置为:通过所述自然语言深度处理单元
将所述目标关键词信息转换为与所述目标关键词信息对应的向量信息;
34.通过所述语义理解单元对所述向量信息进行深度解析,得到所述深度解析结果。
35.在本技术的一个实施例中,基于前述方案,所述语音信息处理装置还包括输出单元,所述输出单元被用于若所述目标关键词信息能够被所述基础识别单元完全解析,通过所述基础识别单元输出与所述目标关键词信息对应的基础解析结果;控制单元,被用于基于所述基础解析结果控制终端执行与所述基础解析结果对应的操作。
36.在本技术的一个实施例中,基于前述方案,所述深度识别单元还包括语法编辑器,所述训练单元配置为:通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息;基于所述训练信息对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
37.在本技术的一个实施例中,基于前述方案,所述训练单元配置为:通过所述语法编辑器将所述深度解析结果转换为向量化表示的量化信息;将所述量化信息转换为与所述深度解析结果对应的训练信息。
38.在本技术的一个实施例中,基于前述方案,所述训练单元配置为:基于所述训练信息获取多个泛化版本的语句信息,所述语句信息与所述深度解析结果相匹配;将多个所述泛化版本的语句信息输入到所述基础识别单元中,以更新所述基础识别单元的识别范围。
39.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包括可执行指令,当该可执行指令被处理器执行时,实现如上述实施例中所述的语音信息处理方法。
40.根据本技术实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储所述处理器的可执行指令,当所述可执行指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的语音信息处理方法。
41.在本技术实施例的技术方案中,通过基础识别单元快速识别用户输入的语音信息中的目标关键词信息,继而判断目标关键词信息是否能够被所述基础识别单元完全解析。在目标关键词信息不能够被所述基础识别单元完全解析的情况下,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果,进而根据深度解析结果准确识别用户的意图,以此提高智能化程度。同时基于深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围,使得用户在第二次输入相同或相似的语音信息时可以准确识别用户意图,提升用户的体验感。
42.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
44.图1为根据本技术实施例示出的语音信息处理方法的流程图;
45.图2为根据本技术实施例示出的通过所述深度识别单元对所述目标关键词信息进
行深度解析,得到深度解析结果的流程图;
46.图3为根据本技术实施例示出的语音信息处理装置的框图;
47.图4为根据本技术实施例示出的电子设备的系统结构的示意图。
具体实施方式
48.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
49.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
50.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制节点装置中实现这些功能实体。
51.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
52.需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
53.以下对本技术实施例的技术方案的实现细节进行详细阐述:
54.首先,需要说明的是,本技术中所提出的语音信息处理方案可以应用于自然语言处理的相关技术领域。通过基础识别单元快速识别用户输入的语音信息中的目标关键词信息,继而判断目标关键词信息是否能够被所述基础识别单元完全解析。在目标关键词信息不能够被所述基础识别单元完全解析的情况下,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果,进而根据深度解析结果准确识别用户的意图,以此提高智能化程度。同时基于深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围,使得用户在第二次输入相同或相似的语音信息时可以准确识别用户意图,提升用户的体验感。
55.根据本技术的一个方面,提供了一种语音信息处理方法,图1为根据本技术实施例示出的语音信息处理方法的流程图。所述语音信息处理方法应用于语音处理系统,所述语音处理系统包括基础识别单元以及深度识别单元;该语音信息处理方法至少包括步骤110至步骤150,详细介绍如下:
56.在步骤110中,获取用户输入的语音信息。
57.具体地,自然语言处理模块也称nlp(natural language processing),本技术所提供的实施例中包含两层nlp结构,其中第一层nlp结构就是基础识别单元中的自然语言基
础处理单元,用于快速响应用户输入的语音信息,保证系统的响应速度和稳定性。第二层nlp结构是用于针对第一层nlp结构中无法解析的信息进行深度解析以及学习,提高语音信息分析的精确度。
58.第一层nlp结构(自然语言基础处理单元)使用预先定义的规则来解析自然语言文本并提取出其中的信息。可以根据具体的不同规则进行准确的文本分析,因此可以实现非常高的精度和稳定性。但这种这种方法是基于规则的,因此在一定程度上受到规则限制,不能处理那些超出规则范围的文本。如果处理的文本复杂或者规则没有涵盖到所有情况,则可能会产生错误或漏洞。另外,该方法也没有自学习能力,更新依赖于规则的人工维护,如果没有足够的语料数据,更新也会比较慢。
59.如当前用户输入的语音信息为:“我想预定明天下午四点到六点的电影票。”,这个句子的语法结构是正确的,但是我们需要进一步理解它的含义和意图。这时,我们可以使用基于规则的语义理解模块来分析这个句子,从中提取出需要的信息和意图。
60.基于规则的语义理解模块可以使用某组规则来识别关键词和短语,例如“预定”、“明天下午四点到六点”和“电影票”。然后,基础识别单元可以根据这些规则,确定需要预订的是电影票,预订的时间是明天下午四点到六点。
61.通过这种基于规则的方法,我们可以从句子中提取出关键信息和意图,以便后续处理和分析。然而,基于规则的方法通常需要人工编写和维护大量的规则,难以应对复杂的自然语言场景。因此,随着自然语言处理技术的不断发展和进步,越来越多的新技术,例如深度学习和自然语言生成模型,正在被应用于语义理解中,以提高效率和准确性。
62.需要说明的是,预先设定的规则可以根据实际需要去设定,如上述例子中的规则是提取语音信息中的时间信息以及操作信息。具体不同的规则都可以在第一层nlp结构中实现。
63.在步骤120中,通过所述基础识别单元识别所述语音信息中的目标关键词信息。
64.在本技术的一个实施例中,所述基础识别单元包括自然语言基础处理单元,所述通过所述基础识别单元识别所述语音信息中的目标关键词信息,包括:
65.通过所述自然语言基础处理单元将所述语音信息转换为与所述语音信息对应的语言文本信息;
66.通过所述自然语言基础处理单元提取所述语言文本信息中的目标关键词信息。
67.具体地,通过自然语言基础处理单元(第一层nlp结构)快速地将用户输入的语音信息转换为与所述语音信息对应的语言文本信息,可以根据具体的不同规则进行准确的文本分析得到目标关键词信息,因此可以实现非常高的精度和稳定性。如在车载语音处理的应用场景中,用户输入的信息为“我想在5分钟后播放音乐”,那么提取出来的目标关键词信息为“5分钟后”、“播放音乐”。通过快速识别用户输入的语音信息,来执行对应的操作,以此提高语音处理的智能化程度。
68.在步骤130中,判断所述目标关键词信息是否能够被所述基础识别单元完全解析。
69.具体地,通过基础识别单元去识别用户的语音信息会在一定程度上受到规则限制,不能处理那些超出规则范围的文本。如果处理的文本复杂或者规则没有涵盖到所有情况,则可能会产生错误或漏洞。比如用户说了一大段话,但其实他真正想表达的意思与这一大段话是不同的,因此基础识别单元(第一层nlp结构)无法识别到用户的真正意图,那么也
就是无法对用户所输入的语音信息进行完全解析。
70.在步骤140中,若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果。
71.在本技术的一个实施例中,所述深度识别单元包括自然语言深度处理单元以及语义理解单元,步骤140可以按照步骤s1-s2进行:
72.步骤s1:通过所述自然语言深度处理单元将所述目标关键词信息转换为与所述目标关键词信息对应的向量信息。
73.步骤s2:通过所述语义理解单元对所述向量信息进行深度解析,得到所述深度解析结果。
74.具体地,自然语言深度处理单元也就是第二层nlp结构,第二层nlp结构是基于transformer模型构造的语义理解模型(即本技术中的语义理解单元)和语法编码器。当第一层nlp遇到无法理解的语料时,第二层的语义理解模型(即本技术中的语义理解单元)会进一步对语料进行深度理解。
75.transformer(变换)就是一个基于多头注意力机制的模型,比如transformer encoder(变换编码器)模型的输入是一句话的字嵌入表示和其对应的位置编码信息,该模型的核心层是一个多头注意力机制。注意力机制最初应用在图像特征提取任务上,比如人在观察一幅图像时,并不会把图像中每一个部分都观察到,而是会把注意力放在重要的部分,因此把注意力机制应用到了nlp结构务中。多头注意力机制就是使用多个注意力机制进行单独计算,以获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组合,得到最终的结果,输出最终的向量信息,即词向量矩阵。
76.基于transformer架构的大模型理解语义方法:
77.通过prompt工程(prompt是给input加的一段文字或一组向量,让模型根据input和外加的prompt做masked language modeling即掩码语言建模),将json格式和语义表格提供给大模型学习,让大模型完成语义判断任务:对于大模型理解的是指令语句,返回对应json;对于大模型理解的非指令语句,返回unknow。举例:
78.query1(语句1):我想打开车窗
79.返回:
80.{
81."operation":"instrction",
82."service":"cmd",
83."semantic":{
84."slots"{
85."instype:"open_car_window"
86.}
87.}
88.}
89.query2(语句2):我想那个打开
90.返回:unknow
91.基于transformer模型构造的语义理解单元,是由多个transformer模块堆叠而成
的。这种模型可以将自然语言文本转换为向量表示,以便进一步的分析和处理。该模型能够分析上下文信息,从而更好地理解自然语言文本。它能够考虑整个句子的语境,并根据句子中的单词之间的关系进行分析和预测。这种模型可以应用于多种应用场景,并具有较强的鲁棒性。
92.在本技术的一个实施例中,在判断所述目标关键词信息是否能够被所述基础识别单元完全解析之后,还包括:
93.若所述目标关键词信息能够被所述基础识别单元完全解析,通过所述基础识别单元输出与所述目标关键词信息对应的基础解析结果;
94.基于所述基础解析结果控制终端执行与所述基础解析结果对应的操作。
95.具体地,如果第一层nlp结构能够准确快速地识别到用户的语音信息,如用户的语音信息为“两分钟后打开车辆的前照灯”,那么此时通过识别目标关键词信息“两分钟后”、“打开前照灯”,此时通过控制车辆在两分钟后打开前照灯,使得整个操作系统更加智能化。
96.在步骤150中,基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
97.在本技术的一个实施例中,所述深度识别单元还包括语法编辑器,所述基于所述深度解析结果对所述基础识别单元进行在线训练,包括:
98.通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息;
99.基于所述训练信息对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
100.在本技术的一个实施例中,所述通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息,包括:
101.通过所述语法编辑器将所述深度解析结果转换为向量化表示的量化信息;
102.将所述量化信息转换为与所述深度解析结果对应的训练信息。
103.在本技术的一个实施例中,所述基于所述训练信息对所述基础识别单元进行在线训练,包括:
104.基于所述训练信息获取多个泛化版本的语句信息,所述语句信息与所述深度解析结果相匹配;
105.将多个所述泛化版本的语句信息输入到所述基础识别单元中,以更新所述基础识别单元的识别范围。
106.具体地,语法编码器是用于当语义理解单元输出有效语义时,根据语义内容生成相应的语法结构和特征,用于后台训练更新第一层nlp结构。其中,语法编码器也是基于transformer模型构造的,会将语义理解单元正确理解的语料的文本信息转换为一个向量表示形式,并通过基于transformer模型的解码器,输出多个泛化版本的目标语句。每个泛化版本的目标语句都与原始目标语句(即用户输入的语音信息)具有相同的意思或含义,但其具体词汇和结构可能不同。这样就极大的丰富了规则维护的语料,能够使得用户在下一次输入具有相同或相似意思的语句时能够准确识别得到,通过在线训练学习来提升用户的体验感。
107.综上所述,以下为对本技术的处理流程作简单的解释:
108.第一步,当用户输入语音信息时,首先由第一层nlp结构进行处理。如果第一层nlp结构可以理解并响应,处理流程结束。
109.第二步,如果第一层nlp结构无法理解用户输入的语音信息,将该语料传递给第二层nlp结构。在第二层nlp结构中,结合语义理解单元会对语料进行进一步理解。
110.第三步,如果语义理解单元输出有效语义,将该语义通过语法编码器得出语法结构和特征。
111.第四步,将得到的语法结构和特征用于后台训练,以更新第一层nlp结构。
112.因此,本技术通过基础识别单元快速识别用户输入的语音信息中的目标关键词信息,继而判断目标关键词信息是否能够被所述基础识别单元完全解析。在目标关键词信息不能够被所述基础识别单元完全解析的情况下,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果,进而根据深度解析结果准确识别用户的意图,以此提高智能化程度。同时基于深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围,使得用户在第二次输入相同或相似的语音信息时可以准确识别用户意图,提升用户的体验感。
113.图3为根据本技术实施例示出的一种语音信息处理装置300的框图,根据本技术的一个实施例的语音信息处理装置300,所述装置300包括:获取单元301、识别单元302、判断单元303、深度解析单元304、训练单元305。
114.获取单元301,被用于获取用户输入的语音信息。
115.识别单元302,被用于通过所述基础识别单元识别所述语音信息中的目标关键词信息。
116.判断单元303,被用于判断所述目标关键词信息是否能够被所述基础识别单元完全解析。
117.深度解析单元304,被用于若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果。
118.训练单元305,被用于基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
119.在本技术的一个实施例中,基于前述方案,所述基础识别单元包括自然语言基础处理单元,所述识别单元配置为:通过所述自然语言基础处理单元将所述语音信息转换为与所述语音信息对应的语言文本信息;
120.通过所述自然语言基础处理单元提取所述语言文本信息中的目标关键词信息。
121.在本技术的一个实施例中,基于前述方案,所述深度识别单元包括自然语言深度处理单元以及语义理解单元,所述深度解析单元配置为:通过所述自然语言深度处理单元将所述目标关键词信息转换为与所述目标关键词信息对应的向量信息;
122.通过所述语义理解单元对所述向量信息进行深度解析,得到所述深度解析结果。
123.在本技术的一个实施例中,基于前述方案,所述语音信息处理装置还包括输出单元,所述输出单元被用于若所述目标关键词信息能够被所述基础识别单元完全解析,通过所述基础识别单元输出与所述目标关键词信息对应的基础解析结果;控制单元,被用于基于所述基础解析结果控制终端执行与所述基础解析结果对应的操作。
124.在本技术的一个实施例中,基于前述方案,所述深度识别单元还包括语法编辑器,
所述训练单元配置为:通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息;基于所述训练信息对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。
125.在本技术的一个实施例中,基于前述方案,所述训练单元配置为:通过所述语法编辑器将所述深度解析结果转换为向量化表示的量化信息;将所述量化信息转换为与所述深度解析结果对应的训练信息。
126.在本技术的一个实施例中,基于前述方案,所述训练单元配置为:基于所述训练信息获取多个泛化版本的语句信息,所述语句信息与所述深度解析结果相匹配;将多个所述泛化版本的语句信息输入到所述基础识别单元中,以更新所述基础识别单元的识别范围。
127.作为另一方面,本技术还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述所提供的方法的程序产品。在一些可能的实施方式中,本技术的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“实施例方法”部分中描述的根据本技术各种示例性实施方式的步骤。
128.根据本技术的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
129.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
130.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
131.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
132.可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
133.作为另一方面,本技术还提供了一种能够实现上述方法的电子设备。
134.所属技术领域的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
135.下面参照图4来描述根据本技术的这种实施方式的电子设备400。图4显示的电子设备400仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
136.如图4所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
137.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述“实施例方法”部分中描述的根据本技术各种示例性实施方式的步骤。
138.存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)421和/或高速缓存存储单元422,还可以进一步包括只读存储单元(rom)423。
139.存储单元420还可以包括具有一组(至少一个)程序模块425的程序/实用工具424,这样的程序模块425包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
140.总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制节点、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
141.电子设备400也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
142.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括如果干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本技术实施方式的方法。
143.此外,上述附图仅是根据本技术示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
144.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
技术特征:
1.一种语音信息处理方法,其特征在于,所述方法应用于语音处理系统,所述语音处理系统包括基础识别单元以及深度识别单元,所述方法包括:获取用户输入的语音信息;通过所述基础识别单元识别所述语音信息中的目标关键词信息;判断所述目标关键词信息是否能够被所述基础识别单元完全解析;若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果;基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。2.根据权利要求1所述的语音信息处理方法,其特征在于,所述基础识别单元包括自然语言基础处理单元,所述通过所述基础识别单元识别所述语音信息中的目标关键词信息,包括:通过所述自然语言基础处理单元将所述语音信息转换为与所述语音信息对应的语言文本信息;通过所述自然语言基础处理单元提取所述语言文本信息中的目标关键词信息。3.根据权利要求1所述的语音信息处理方法,其特征在于,所述深度识别单元包括自然语言深度处理单元以及语义理解单元;所述通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果,包括:通过所述自然语言深度处理单元将所述目标关键词信息转换为与所述目标关键词信息对应的向量信息;通过所述语义理解单元对所述向量信息进行深度解析,得到所述深度解析结果。4.根据权利要求1所述的语音信息处理方法,其特征在于,所述在判断所述目标关键词信息是否能够被所述基础识别单元完全解析之后,还包括:若所述目标关键词信息能够被所述基础识别单元完全解析,通过所述基础识别单元输出与所述目标关键词信息对应的基础解析结果;基于所述基础解析结果控制终端执行与所述基础解析结果对应的操作。5.根据权利要求1所述的语音信息处理方法,其特征在于,所述深度识别单元还包括语法编辑器,所述基于所述深度解析结果对所述基础识别单元进行在线训练,包括:通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息;基于所述训练信息对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。6.根据权利要求5所述的语音信息处理方法,其特征在于,所述通过所述语法编辑器将所述深度解析结果转换为与所述深度解析结果对应的训练信息,包括:通过所述语法编辑器将所述深度解析结果转换为向量化表示的量化信息;将所述量化信息转换为与所述深度解析结果对应的训练信息。7.根据权利要求6所述的语音信息处理方法,其特征在于,所述基于所述训练信息对所述基础识别单元进行在线训练,包括:基于所述训练信息获取多个泛化版本的语句信息,所述语句信息与所述深度解析结果
相匹配;将多个所述泛化版本的语句信息输入到所述基础识别单元中,以更新所述基础识别单元的识别范围。8.一种语音信息处理装置,其特征在于,应用于语音处理系统,所述语音处理系统包括基础识别单元以及深度识别单元,所述装置包括:获取单元,被用于获取用户输入的语音信息;识别单元,被用于通过所述基础识别单元识别所述语音信息中的目标关键词信息;判断单元,被用于判断所述目标关键词信息是否能够被所述基础识别单元完全解析;深度解析单元,被用于若所述目标关键词信息不能够被所述基础识别单元完全解析,通过所述深度识别单元对所述目标关键词信息进行深度解析,得到深度解析结果;训练单元,被用于基于所述深度解析结果对所述基础识别单元进行在线训练,以更新所述基础识别单元的识别范围。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至7任一项所述的方法所执行的操作。10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至7任一项所述的方法所执行的操作。
技术总结
本申请涉及自然语言处理技术领域,揭示了一种语音信息处理方法、装置、介质、电子设备。所述语音信息处理方法包括:获取用户输入的语音信息;通过基础识别单元识别语音信息中的目标关键词信息;判断目标关键词信息是否能够被基础识别单元完全解析;若目标关键词信息不能够被基础识别单元完全解析,通过深度识别单元对目标关键词信息进行深度解析,得到深度解析结果;基于所述深度解析结果对所述基础识别单元进行在线训练,以更新基础识别单元的识别范围。可以通过深度识别单元对一些基础识别单元无法理解的语音信息进行深度解析,在提高智能化程度的同时能够使得用户在下次输入相同或相似的语音信息时可以准确识别用户意图,提升用户的体验感。用户的体验感。用户的体验感。
技术研发人员:段至诚 张贵海 周冰
受保护的技术使用者:岚图汽车科技有限公司
技术研发日:2023.05.31
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种钙钛矿太阳能电池及其制备方法 下一篇:一种废水回收利用装置及其使用方法与流程