一种语义泛化的方法、系统、电子设备、存储介质及车辆与流程

未命名 09-08 阅读:149 评论:0


1.本发明涉及语义处理技术领域,特别是涉及一种语义泛化的方法、系统、电子设备、存储介质及车辆。


背景技术:

2.近年来,随着人工智能、芯片技术的发展,带动汽车行业新革新——智能汽车越来越受欢迎。智能汽车由车联网、智能座舱、自动驾驶三部分组成。智能座舱配备了智能化和网联化的车载软件,可以与人、路、车进行智能交互,是人车关系从工具向伙伴演进的重要纽带和关键节点。智能驾舱将人们从枯燥的驾驶操作中解脱出来,通过语音对话就可以完成对汽车功能的操作,从而减少双手脱离方向盘引发的安全问题,使得智能座舱成为人们驾驶、休息、娱乐、工作的地方。语音交互则是智能驾驶舱中最核心的功能之一。
3.车载语音交互领域,如何从浩瀚的线上数据中快速准确地筛选出对模型泛化有效的数据,让模型可以理解越来越广泛的人类的语言,变得越来越智能,即提高模型的泛化能力,一直是一个棘手的问题。
4.因此,如何快速筛选出相同意图下的泛化数据,准确找出相同意图下的同类语义的泛化,是本领域技术人员有待解决的技术问题。


技术实现要素:

5.为解决现有技术中的车载语音交互领域不能快速筛选出相同意图下的泛化数据,不能准确找出相同意图下的同类语义的泛化的技术问题,本发明提供一种语义泛化的方法、系统、电子设备、存储介质及车辆。
6.为实现本发明目的提供的一种语义泛化的方法,包括:
7.基于语义模板,生成语义模型训练所需的语义数据;
8.根据语义模板和语义数据对语义模型进行训练;
9.基于线上语义数据的聚类权重和预测权重,计算泛化值;
10.当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;
11.其中,线上语义数据的预测权重通过语义模型生成。
12.在其中一些具体实施例中,所述语义模板具体包括:
13.基于应用场景,结合语句规则创建语义模板。
14.在其中一些具体实施例中,当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化之前,所述方法还包括:
15.根据语义模型,基于线上语义数据的聚类结果,判断线上语义数据是否为同类语义的泛化。
16.在其中一些具体实施例中,根据语义模板和语义数据对语义模型进行训练,具体包括:
17.根据语义模板生成常见说法作为第一语义模型对语义数据进行初步训练;
18.根据初步训练后的语义数据采用第二语义模型进行深度训练。
19.在其中一些具体实施例中,基于线上语义数据的聚类权重和预测权重,计算泛化值,具体包括:
20.将线上语义数据进行聚类,根据聚类簇大小对每条数据赋予权重;
21.根据语义模型对数据进行预测,并将预测结果的分数值转换为权重;
22.将聚类权重和预测权重进行融合计算泛化值。
23.在其中一些具体实施例中,判断线上语义数据是否为同类语义的泛化,具体包括:
24.当语义模型对线上语义数据的分类结果相同,且聚类同一簇,则直接认为是泛化说法;
25.当语义模型对线上语义数据的分类结果不相同,且聚类不是同一簇,则直接认为互相不是泛化说法。
26.基于同一构思,本发明还提供一种语义泛化的系统,包括:
27.语义数据生成模块,用于基于语义模板,生成语义模型训练所需的语义数据;
28.语义模型训练模块,用于根据语义模板和语义数据对语义模型进行训练;
29.泛化值计算模块,用于基于线上语义数据的聚类权重和预测权重,计算泛化值;
30.语义泛化判断模块,用于当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;
31.其中,线上语义数据的预测权重通过语义模型生成。
32.基于同一构思,本发明还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述语义泛化的方法的步骤。
33.基于同一构思,本发明还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行上述语义泛化的方法的步骤。
34.基于同一构思,本发明还提供一种车辆,所述车辆搭载有如上所述的语义泛化的系统。
35.与现有技术相比,本发明具有以下有益效果:
36.本发明公开了一种语义泛化的方法、系统、电子设备、存储介质及车辆,包括基于语义模板,生成语义模型训练所需的语义数据;根据语义模板和语义数据对语义模型进行训练;基于线上语义数据的聚类权重和预测权重,计算泛化值;当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;其中,线上语义数据的预测权重通过语义模型生成。通过上述方法,可以快速筛选出相同意图下的泛化数据,准确找出相同意图下的同类语义的泛化。
附图说明
37.图1是本发明一种语义泛化的方法在一些具体实施例的结构示意图;
38.图2是本发明一种语义泛化的方法在一些应用中的流程图;
39.图3是图2中聚类结果的示意图;
40.图4是本发明一种语义泛化的系统在一些具体实施例的结构示意图;
41.图5是本发明一种电子设备在一些具体实施例的结构示意图。
具体实施方式
42.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
43.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
44.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
45.应当理解,尽管在本技术实施例中可能采用术语第一、第二、第三等来描述,但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如,在不脱离本技术实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
46.取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
47.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
48.特别需要说明的是,在说明书中存在的符号和/或数字,如果在附图说明中未被标记的,均不是附图标记。
49.参照图1、图2和图3,一种语义泛化的方法,包括:
50.s101,基于语义模板,生成语义模型训练所需的语义数据;
51.具体的,本步骤基于语义模板生成语义模型训练所需的语义数据;
52.在其中一些应用中,可以结合实际需要创建语义模板,通过语义模板生成语义数据,最后对语义模板进行拓展。
53.s102,根据语义模板和语义数据对语义模型进行训练;
54.具体的,本步骤根据语义模板和语义模板生成的语义数据对语义模型进行训练;
55.在其中一些应用中,可以通过语义模板生成常见说法,结合语义数据对语义模型进行训练。
56.在其中一些应用中,根据语义模板生成常见说法作为第一语义模型对语义数据进行初步训练;
57.根据初步训练后的语义数据采用第二语义模型进行深度训练。
58.s103,基于线上语义数据的聚类权重和预测权重,计算泛化值;
59.具体的,本步骤基于线上语义数据的聚类权重和预测权重,计算泛化值;
60.在其中一些应用中,首先通过语义模型对线上语义数据进行预测,接着对语义数据进行聚类,基于线上语义数据的聚类权重和预测权重的总和,计算泛化值。
61.在其中一些应用中,将线上语义数据进行聚类,根据聚类簇大小对每条数据赋予权重;
62.根据语义模型对数据进行预测,并将预测结果的分数值转换为权重;
63.将聚类权重和预测权重进行融合计算泛化值。
64.s104,当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;
65.在其中一些应用中,预设泛化阈值,当根据线上语义数据的聚类权重和预测权重的总和,计算出的泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化。
66.在本发明一些具体实施例中,为了准确获取语义模型训练所需的语义数据,所述语义模板具体包括:
67.基于应用场景,结合语句规则创建语义模板。
68.在其中一些应用中,应用场景可以是要完成的任务领域及相关应用场景,语句规则可以是句式和语法规律。
69.在本发明一些具体实施例中,为了判断线上语义数据为同类语义的泛化,当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化之前,所述方法还包括:
70.根据语义模型,基于线上语义数据的聚类结果,判断线上语义数据是否为同类语义的泛化。
71.在其中一些应用中,首先结合语义模型和线上语义数据的聚类结果,判断线上语义数据是否为同类语义的泛化。
72.在其中一些应用中,当语义模型对线上语义数据的分类结果相同,且聚类同一簇,则直接认为是泛化说法;
73.当语义模型对线上语义数据的分类结果不相同,且聚类不是同一簇,则直接认为互相不是泛化说法。
74.下面说明本发明一种语义泛化的方法在一些应用中的实施例:
75.一、研究句法语法规律,根据任务目标和研究结果制作语义模板,目的是用语义模板来批量快速生成语义模型训练所需的数据,且语义数据质量可以保证;
76.1、确定任务领域及相关应用场景
77.2、根据应用场景确定常见说法
78.3、从常见说法中研究总结句法语法结构,如:主谓宾,宾语前置,仅动宾,仅谓语,疑问句,相近意思的动词、名词等;
79.4提取句式结构生成句式模板
80.5对模板中的槽位的不同说法进行扩展
81.示例:
82.输入:query集合:把空调温度调高一点,请帮我空调温度降低一些
83.输出:pattern:[d:pre][d:ac_control][d:set][d:level]
[0084]
term:[d:pre]:把,帮我,请给我;
[0085]
[d:set]:调高,调低,增大,减小;
[0086]
[d:level]:一些,一点,很多;
[0087]
二、用语义模板生成常见说法作为初版模型训练数据
[0088]
1、加载制备完的pattern和term
[0089]
2、生成语义数据
[0090]
示例:
[0091]
输入:第一步的pattern,term;
[0092]
输出:数据集,示例:将空调温度减小,请给我把空调温度升高3度。
[0093]
三、训练初版深度学习模型,这里采用fasttext模型,因为在文本分类任务中,fasttext(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。模型结构简单,只有一层的隐层以及输出层,因此训练速度非常快,fasttext自己会训练。且会进行softmax和n-gram的优化。
[0094]
1、准备训练集、测试集;
[0095]
2、采用fasttext模型并进行架构;
[0096]
3、训练及调参;
[0097]
4、模型保存。
[0098]
示例:
[0099]
输入:第一步的数据集;
[0100]
输出:训练结束后的模型。
[0101]
四、将线上语义数据进行聚类,其中融合贝叶斯优化算法,并根据聚类的簇大小对每条数据赋予权重
[0102]
1、用重复二分聚类算法对在线语义数据进行聚类。因为这个算法是k均值聚类算法的加强版,准确率更高且速度更快,且可以自动确定聚类簇的个数不需要提前指定。且此算法也可以解决初始化k个随机的质心点时其中一个或多个点由于位置太极端而导致迭代的过程中消失的问题。
[0103]
度量聚类算法好坏的一个重要指标是sse(sum ofsquared error),即平方误差和,sse越小说明数据点越接近所属的簇质心,聚类效果也越好。
[0104]
这个算法其实非常类似于决策树的算法。在决策树节点由父节点划分成子节点的过程中,用的是基尼不纯度来判断是否需要划分,我们选择不纯度差值最大的那个特征来做划分。这里也类似,我们最后的目标是最小化sse,所以对每一个族来说,都可以得出该族在划分出成2个族之后总体上sse降低了多少,我们需要做的就是保持其他的族不变,选取的就是那个能够最大程度的降低sse的那个族进行kmeans二分类。
[0105]
记录每个族计算划分后sse的差值,以便后期直接使用。
[0106]
聚类过程融入贝叶斯优化算法:
[0107]
贝叶斯优化算法主要思想:给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说,就是考虑了上一次参数的信息,从而更好的调整当前的参数。
[0108]
核心过程:先验函数(priorfunction,pf)与采集函数(acquisition function,ac),采集函数也可以叫效能函数(utility funtcion),但一般还是称呼为采集函数。pf主要利用高斯过程回归(也可以是其它pf函数,但高斯过程回归用的多);ac主要包括ei,pi,ucb这几种方法,同时exploration与exploitation的平衡,也是通过ac来完成的。
[0109]
探索(exploration):简单来说就是尽量选择远离已知点的点为下一次用于迭代的参考点,即尽量探索未知的区域,点的分布会尽可能的平均。
[0110]
利用(exploitation):简单来说就是尽量选择靠近已知点的点为下一次用于迭代的参考点,即尽量挖掘已知点周围的点,点的分布会出现一个密集区域,容易进入局部最大。
[0111]
贝叶斯优化是一种十分有效的全局优化算法,目标是找到全局最优解.贝叶斯优化有效地解决了序贯决策理论中经典的机器智能问题:根据对未知目标函数f获取的信息,找到下一个评估位置,从而最快地达到最优解。实际上就是一种超参数优化方式。
[0112]
贝叶斯优化框架主要包含两个核心部分——概率代理模型(probabilistic surrogate model)和采集函数(acquisition function)。
[0113]
概率代理模型包含先验概率模型和观测模型:先验概率模型即p(f);观测模型描述观测数据生成机制,即似然分布p(d1:t|f),更新概率代理模型意味着根据公式得到包含更多数据信息的后验概率分布p(f|d1:t)。概率代理模型用于代理未知目标函数,从假设先验开始,通过迭代地增加信息量、修正先验,从而得到更准确的代理模型。
[0114]
采集函数是根据后验概率分布构造的,通过最大化采集函数来选择下一个最有“潜力”的评估点。同时,有效的采集函数能够保证选择的评估点序列使得总损失(loss)最小。
[0115]
2、以每条数据所在簇的大小来赋予权重。因为所在簇越大,认为与这条数据越相似的数据越多,则彼此互为泛化说法的可能性越大;
[0116]
示例:
[0117]
输入:调高一点,给我降低一些,太热了,好冷啊,太凉了,调大一些
[0118]
输出:[调高一点:0.8,调大一些:0.8,调大许多:0.8],[好冷啊:0.75,太凉了:0.75],[太热了:0.5];聚类结果如图3所示;
[0119]
五、用初版模型对数据进行预测,并将预测结果的分数值转换为权重
[0120]
1,加载训练好的模型
[0121]
2,用模型对在线语义数据集进行预测
[0122]
示例:
[0123]
输入:在线语义数据集
[0124]
输出:调高一点:temperature_up:0.95,调低一些:temperature_down:0.92
[0125]
六、将聚类和模型预测的权重值进行融合得总分数
[0126]
情况1,模型分类结果相同,且聚类同一簇,则直接认为是泛化说法
[0127]
情况2,模型分类结果相同,但不是同一簇,则将聚类分数减半再与模型分数相加得总分数
[0128]
情况3,模型分类结果不同,但是同一簇,则将模型分数减半再与聚类分数相加得总分数
[0129]
情况4,模型分类结果不同,且不是同一簇,则直接认为互相不是泛化说法
[0130]
示例:
[0131]
输入:温度调高一点:聚类:0.8,模型:temperature_up:0.95;
[0132]
温度升高一些:聚类:0.8,模型:temperature_up:0.92;
[0133]
输出:温度调高一点、温度升高一些互为泛化说法。
[0134]
七、设定泛化阈值,取最高的总分数大于泛化阈值则认为是同类说法的泛化。
[0135]
对于上述实施例公开的方法步骤,出于简单描述的目的将方法步骤表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0136]
流程图或以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序执行并实现功能,或者按照循环、分支等程序结构执行计算机指令并实现相应的功能,这是本领域技术人员在实施本发明实施例时理所当然可以理解的。
[0137]
如图4所示,本发明还提供一种语义泛化的系统,包括:
[0138]
语义数据生成模块201,用于基于语义模板,生成语义模型训练所需的语义数据;
[0139]
语义模型训练模块202,用于根据语义模板和语义数据对语义模型进行训练;
[0140]
泛化值计算模块203,用于基于线上语义数据的聚类权重和预测权重,计算泛化值;
[0141]
语义泛化判断模块204,用于当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;
[0142]
其中,线上语义数据的预测权重通过语义模型生成。
[0143]
具体的,本实施例中的语义泛化的系统包括语义数据生成模块201、语义模型训练模块202、泛化值计算模块203和语义泛化判断模块204,其中语义数据生成模块201,用于基于语义模板,生成语义模型训练所需的语义数据;语义模型训练模块202,用于根据语义模板和语义数据对语义模型进行训练;泛化值计算模块203,用于基于线上语义数据的聚类权重和预测权重,计算泛化值;语义泛化判断模块204,用于当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化。
[0144]
值得注意的是,虽然在本发明实施例中只披露了一些基本功能模块,但并不意味着本系统的组成仅仅局限于上述基本功能模块,相反,本实施例所要表达的意思是:在上述基本功能模块的基础之上本领域技术人员可以结合现有技术任意添加一个或多个功能模块,形成无穷多个实施例或技术方案,也就是说本系统是开放式而非封闭式的,不能因为本实施例仅仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于所公开的基本功能模块。同时,为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本发明时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
[0145]
以上所描述的系统的实施方式仅仅是示意性的,例如:其中作为系统中的各个功能模块、单元或子系统等可以是也可以不是物理上分开的,或者可以是或者也可以不是物理单元,即可以位于同一个地方,也可以分布到多个不同的系统及其子系统或模块上。本领域技术人员可以根据实际的需要选择其中的部分或者全部功能模块、单元或子系统来实现本发明实施例的目的,对于上述情形本领域普通技术人员在不付出创造性劳动的情况下即可以理解并实施。
[0146]
如图5所示,本发明还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述语义泛化的方法的步骤。
[0147]
具体的,图5为本发明实施例提供的一种电子设备的结构示意图,图5示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图5显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:一个或者多个处理单元或者处理器516,存储器528,连接不同系统组件(包括存储器528和处理器516)的总线518。总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。电子设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)530和/或高速缓存存储器532。电子设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,存储系统534可以提供用于对可移动非易失性磁盘(例如:软盘、移动硬盘、可热拔插存储介质)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明实施例所描述的实施例中的功能和/或方法。电子设备500也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口522进行。并且,电子设备500还可以通过网络适配器520与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图5所示,网络适配器520通过总线518与电子设备500的其它模块通信。应
当明白,尽管图中未示出,但本领域技术人员可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。处理器516通过运行存储在存储器528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意一个或多个实施例所提供的方法。
[0148]
本发明还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行上述语义泛化的方法的步骤。
[0149]
具体的,本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0150]
本发明还提供一种车辆,所述车辆搭载有如上所述的语义泛化的系统。
[0151]
通过应用以上技术方案,一种语义泛化的方法、系统、电子设备、存储介质及车辆,包括基于语义模板,生成语义模型训练所需的语义数据;根据语义模板和语义数据对语义模型进行训练;基于线上语义数据的聚类权重和预测权重,计算泛化值;当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;其中,线上语义数据的预测权重通过语义模型生成。通过上述方法,可以快速筛选出相同意图下的泛化数据,准确找出相同意图下的同类语义的泛化。
[0152]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0153]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如:在权利要求书中所要求保护的实施例的任意之一都可以以本发明实施例以任意的组合方式来使用。
[0154]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0155]
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0156]
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书中公开的任一特征,除非特别叙述,均可被其它等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而己。在整个说明书中,同样的附图标记指示同样的元件。
[0157]
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括相应的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括相应的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0158]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种语义泛化的方法,其特征在于,包括:基于语义模板,生成语义模型训练所需的语义数据;根据语义模板和语义数据对语义模型进行训练;基于线上语义数据的聚类权重和预测权重,计算泛化值;当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;其中,线上语义数据的预测权重通过语义模型生成。2.根据权利要求1所述的语义泛化的方法,其特征在于,所述语义模板具体包括:基于应用场景,结合语句规则创建语义模板。3.根据权利要求1所述的语义泛化的方法,其特征在于,当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化之前,所述方法还包括:根据语义模型,基于线上语义数据的聚类结果,判断线上语义数据是否为同类语义的泛化。4.根据权利要求1所述的语义泛化的方法,其特征在于,根据语义模板和语义数据对语义模型进行训练,具体包括:根据语义模板生成常见说法作为第一语义模型对语义数据进行初步训练;根据初步训练后的语义数据采用第二语义模型进行深度训练。5.根据权利要求1所述的语义泛化的方法,其特征在于,基于线上语义数据的聚类权重和预测权重,计算泛化值,具体包括:将线上语义数据进行聚类,根据聚类簇大小对每条数据赋予权重;根据语义模型对数据进行预测,并将预测结果的分数值转换为权重;将聚类权重和预测权重进行融合计算泛化值。6.根据权利要求3所述的语义泛化的方法,其特征在于,判断线上语义数据是否为同类语义的泛化,具体包括:当语义模型对线上语义数据的分类结果相同,且聚类同一簇,则直接认为是泛化说法;当语义模型对线上语义数据的分类结果不相同,且聚类不是同一簇,则直接认为互相不是泛化说法。7.一种语义泛化的系统,其特征在于,包括:语义数据生成模块,用于基于语义模板,生成语义模型训练所需的语义数据;语义模型训练模块,用于根据语义模板和语义数据对语义模型进行训练;泛化值计算模块,用于基于线上语义数据的聚类权重和预测权重,计算泛化值;语义泛化判断模块,用于当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;其中,线上语义数据的预测权重通过语义模型生成。8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项所述方法的步骤。9.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述计算机程序在所述电子设备上运行时,使得所述电子设备执行权利要求1至6中任一
项所述方法的步骤。10.一种车辆,其特征在于,所述车辆搭载有如权利要求7所述的语义泛化的系统。

技术总结
本申请公开了一种语义泛化的方法、系统、电子设备、存储介质及车辆,包括基于语义模板,生成语义模型训练所需的语义数据;根据语义模板和语义数据对语义模型进行训练;基于线上语义数据的聚类权重和预测权重,计算泛化值;当泛化值大于预设泛化阈值时,则线上语义数据为同类语义的泛化;其中,线上语义数据的预测权重通过语义模型生成。通过上述方法,可以快速筛选出相同意图下的泛化数据,准确找出相同意图下的同类语义的泛化。图下的同类语义的泛化。图下的同类语义的泛化。


技术研发人员:张伦齐
受保护的技术使用者:一汽(北京)软件科技有限公司
技术研发日:2023.05.15
技术公布日:2023/9/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐