意图识别方法、装置、电子设备及存储介质与流程
未命名
08-26
阅读:85
评论:0

1.本公开涉及医学领域,具体地,涉及一种意图识别方法、装置、电子设备及存储介质。
背景技术:
2.随着现代医学的发展,icu(intensive care unit,重症监护室)逐渐成为了一个非常重要的科室。在重症监护室中,重症患者往往很难明确表达自身的诉求,医护人员也很难理解患者的意图。因此,为了提高重症患者的医护体验,分析语言表达困难的重症患者的意图成为了亟待解决的问题。
技术实现要素:
3.为克服相关技术中存在的问题,本公开提供一种意图识别方法、装置、电子设备及存储介质。
4.根据本公开实施例的第一方面,提供一种意图识别方法,所述包括:
5.获取目标人物的口型特征和肢体特征;
6.将所述口型特征和所述肢体特征进行拼接,得到联合特征;
7.利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,所述意图识别结果包括所述目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。
8.可选地,在所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果之前,所述方法还包括:
9.获取第一训练数据,所述第一训练数据包括口型样本特征、肢体样本特征,以及所述口型样本特征和肢体样本特征的特征标签;所述特征标签包括所述口型样本特征或肢体样本特征的多级标签,所述多级标签用于表征人物是否异常以及所述异常的描述信息;
10.将所述第一训练数据输入预先建立的联合预测模型中进行训练,得到所述训练好的联合预测模型。
11.可选地,所述第一训练数据包括多个训练轮次的训练数据,一个训练轮次的训练数据包括多个批次的训练数据,每个批次的训练数据中包括多个所述口型样本特征和多个所述肢体样本特征;所述将所述口型特征和所述肢体特征进行拼接,得到联合特征,包括:
12.对于任一训练轮次的训练数据,将所述第一训练数据中的所述口型样本特征、所述肢体样本特征以及所述特征标签,按照所属批次进行加权拼接,得到所述训练轮次的训练数据中各个批次对应的拼接特征,以及所述拼接特征对应的拼接标签,作为所述各个批次的联合训练数据。
13.可选地,所述将所述训练数据输入预先建立好的联合预测模型中进行训练,得到所述训练好的联合预测模型,包括:
14.在当前训练轮次的训练过程中,将所述当前训练轮次对应的所述各个批次的联合
训练数据按照批次输入所述预先建立好的联合预测模型中进行训练,得到所述当前训练轮次训练后的联合预测模型;
15.根据设定的损失函数,确定所述当前训练轮次训练后的联合预测模型是否达到收敛条件;
16.在未达到所述收敛条件时,再次执行所述在当前训练轮次的训练过程中,将所述当前训练轮次对应的所述各个批次的联合训练数据按照批次输入所述预先建立好的联合预测模型中进行训练,得到所述当前训练轮次训练后的联合预测模型;
17.在达到所述收敛条件时,将所述当前训练轮次训练后的联合预测模型作为所述训练好的联合预测模型。
18.可选地,所述损失函数包括:
[0019][0020]
其中,l表示所述联合预测模型的损失函数,γ1表示口型样本特征的权重,x1表示所述口型样本特征,分别表示所述口型样本特征的多级标签,γ2表示肢体样本特征的权重,x2表示所述肢体样本特征,分别表示所述肢体样本特征的多级标签。
[0021]
可选地,所述方法还包括:
[0022]
获取第二训练数据,所述第二训练数据包括语音样本特征和所述语音样本特征的特征标签,所述语音样本特征的特征标签包括所述语音样本特征的多级标签,所述语音样本特征的多级标签用于表征人物是否异常以及所述异常的描述信息;
[0023]
将所述第二训练数据输入预先建立的声音预测模型中进行训练,得到训练好的声音预测模型。
[0024]
可选地,所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,包括:
[0025]
获取所述目标人物的声音特征;
[0026]
根据所述训练好的声音预测模型和所述训练好的联合预测模型得到集成模型;
[0027]
将所述声音特征、所述口型特征和所述肢体特征输入所述集成模型,得到所述集成模型预测的意图识别结果。
[0028]
可选地,所述集成模型包括:
[0029][0030]
其中,f表示所述集成模型输出的意图识别结果,c1表示所述声音预测模型的置信度,β1表示所述声音预测模型的权重系数,f1表示所述声音预测模型,c2表示所述联合预测模型的置信度,β2表示所述联合预测模型的权重系数,f2表示所述联合预测模型。
[0031]
可选地,所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,包括:
[0032]
将所述联合特征输入所述联合预测模型,得到所述联合预测模型输出的联合预测结果,作为所述目标人物的意图识别结果。
[0033]
可选地,所述多级标签采用独热编码方式进行标注。
[0034]
根据本公开实施例的第二方面,提供一种意图识别装置,所述装置包括:
[0035]
特征获取模块,用于获取目标人物的口型特征和肢体特征;
[0036]
特征拼接模块,用于将所述口型特征和所述肢体特征进行拼接,得到联合特征;
[0037]
意图识别模块,用于利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,所述意图识别结果包括所述目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。
[0038]
根据本公开实施例的第三方面,提供一种意图识别装置,包括:处理器;用于存储处理器可执行指令的存储器;
[0039]
其中,所述处理器被配置为:执行所述可执行指令以实现上述第一方面中的任一实施方式所述的意图识别方法的步骤。
[0040]
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时实现本公开第一方面所述的意图识别方法的步骤。
[0041]
本公开的实施例提供的技术方案可以包括以下有益效果:
[0042]
在上述技术方案中,获取目标人物的口型特征和肢体特征,将口型特征和肢体特征进行拼接,得到联合特征,利用该联合特征和训练好的联合预测模型,得到目标人物的意图识别结果,该意图识别结果包括目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。通过上述技术方案,可以将目标人物的口型特征和肢体特征相结合,根据目标人物的口型特征和肢体特征以及联合预测模型判断目标人物的意图,能够分析语言表达困难的目标人物的意图,一定程度上能提高重症患者的医护体验。
[0043]
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0044]
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0045]
图1是根据一示例性实施例示出的一种意图识别方法的流程图。
[0046]
图2是根据一示例性实施例示出的另一种意图识别方法的流程图。
[0047]
图3是根据一示例性实施例示出的另一种意图识别方法的流程图。
[0048]
图4是根据一示例性实施例示出的另一种意图识别方法的流程图。
[0049]
图5是根据一示例性实施例示出的又一种意图识别方法的流程图。
[0050]
图6是根据一示例性实施例示出的一种意图识别装置的框图。
[0051]
图7是根据一示例性实施例示出的又一种意图识别装置的框图。
[0052]
图8是根据一示例性实施例示出的一种用于意图识别方法的电子设备的框图。
具体实施方式
[0053]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0054]
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0055]
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一训练数据也可以被称为第二训练数据,类似地,第二训练数据也可以被称为第一训练数据。
[0056]
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
[0057]
需要说明的是,本技术中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0058]
本公开中的意图识别方法可以应用于医学领域中识别重症患者的意图,由于重症患者往往在表达上存在困难,例如,气管插管的患者在与医护人员进行沟通过的时候存在严重的障碍。随着深度学习日渐发展,对于视频,图像,声音等数据的处理能力也在不断地加强,并且一般意图识别类应用所涉及到的词汇等表达方式种类繁多,所表达的意图需要识别精确。申请人发现,在重症监护室中,由于重症患者的状态基本是无法自理状态,所涉及的表达意图类别较少,并且医护人员通常也只关心少数的几种表义,不需要知道患者精确的语义。因此,虽然重症患者可能无法通过语言来清晰表达自己的意图,但是通过患者的口型和肢体语言能够对医护人员所关心的表义进行分析,从而识别出患者的意图。因此本公开提出了一种意图识别方法,以解决重症患者意图难以理解的问题。
[0059]
图1是根据一示例性实施例示出的一种意图识别方法的流程图,如图1所示,该方法包括以下步骤。
[0060]
在步骤s101中,获取目标人物的口型特征和肢体特征。
[0061]
示例地,可以通过摄像头采集重症监护室中目标人物的图像数据,该目标人物可以是重症监护室中的患者,并利用目标检测算法对目标人物的口部位置和肢体位置进行检测,并根据得到的口部位置和肢体位置对该图像数据进行裁切,得到包含目标人物口部的口部图像,以及包含目标人物肢体的肢体图像,再通过特征提取模型对该口部图像和肢体图像进行特征提取,该特征提取模型例如可以采用c3d network等技术,从而获取目标人物的口型特征和肢体特征。
[0062]
在步骤s102中,将口型特征和肢体特征进行拼接,得到联合特征。
[0063]
可以理解的是,在获取到目标人物的口型特征和肢体特征后,可以将口型特征和肢体特征结合,由于同一位患者在同一时刻,其意图内容是相同的,也就是说,患者在同一时间通过口型和肢体所表达的意图是一致的,因此在进行特征拼接时,可以将同一时间采
集的口型特征和肢体特征拼接为联合特征,这样的联合特征能够提高模型的识别准确率,并且打破不同类型数据之间的统一性,能够大大地增加数据的多样性,提高模型的泛化性能。
[0064]
在步骤s103中,利用联合特征和训练好的联合预测模型,得到目标人物的意图识别结果,该意图识别结果包括目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。
[0065]
该训练好的联合预测模型,是预先通过训练数据完成训练后得到的,该训练数据可以大量的训练数据,每个训练数据都可以通过多级标签进行标注,该多级标签可以分别用于标识人物是否异常以及异常的描述信息,从而通过这些训练数据完成训练后的联合预测模型能够识别出任一人物是否异常以及异常的描述信息以及对应的置信度。
[0066]
因此,可以理解的是,将目标人物的联合特征输入训练好的联合预测模型后,即可得到目标人物的意图识别结果,意图识别结果可以包括目标人物的是否处于异常状态以及异常的描述信息和对应的置信度。其中,对应的置信度包括分别对应多级标签的多个置信度,即人物是否异常和异常的描述信息分别对应的置信度,该置信度用于表示可信程度。例如,当多级标签为三级标签时,该三级标签可以包括一级标签、二级标签和三级标签时,一级标签可以用于表征人物的是否处于异常状态,二级标签可以用于表征异常状态的类型,三级标签可以用于表征出现异常状态的部位,可能获取到的目标人物处于异常状态且置信度为90%,目标人物的异常状态类型为疼痛且置信度为75%,目标人物出现异常状态的部位是头部且置信度为80%。
[0067]
在上述技术方案中,获取目标人物的口型特征和肢体特征,将口型特征和肢体特征进行拼接,得到联合特征,利用该联合特征和训练好的联合预测模型,得到目标人物的意图识别结果,该意图识别结果包括目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。通过上述技术方案,可以将目标人物的口型特征和肢体特征相结合,根据目标人物的口型特征和肢体特征以及联合预测模型判断目标人物的意图,能够分析语言表达困难的目标人物的意图,一定程度上能提高重症患者的医护体验。
[0068]
可选地,图2是根据一示例性实施例示出的另一种意图识别方法的流程图,如图2所示,在步骤s103之前,该方法可以包括以下步骤。
[0069]
在步骤s104中,获取第一训练数据,该第一训练数据包括口型样本特征、肢体样本特征,以及该口型样本特征和肢体样本特征的特征标签;该特征标签包括口型样本特征或肢体样本特征的多级标签,该多级标签用于表征人物是否异常以及该异常的描述信息,例如,当样本特征需要三级标签进行描述时,即多级标签可以包括一级标签、二级标签和三级标签时,一级标签可以用于表征人物的是否处于异常状态,二级标签可以用于表征异常状态的类型,三级标签可以用于表征出现异常状态的部位。
[0070]
在步骤s105中,将第一训练数据输入预先建立的联合预测模型中进行训练,得到训练好的联合预测模型。
[0071]
可以理解的是,在步骤s103中的训练好的联合预测模型,可以通过步骤s104和步骤s105所示的方法进行训练得到。其中,特征标签可以采用上述的多级标签,可选地,该多级标签可以采用独热(one-hot)编码方式进行标注。
[0072]
下面对独热编码方式进行介绍,例如,一级标签用“1”表征人物的处于异常状态,
用“0”表征人物的未处于异常状态;二级标签用“000”表征未有异常状态,用“100”表征疼,用“010”表征晕,用“001”表征闷,用“110”表征即疼又闷,用“111”表征疼,晕且闷,这里仅用此三种异常类型举例,不代表实际使用中仅有三种异常类型,其他内容视情况而定,在此不再赘述;三级标签用“0000”表征未有异常状态,用“1000”表征目标人物头部,用“0100”表征目标人物手部,用“0010”表征目标人物胸部,用“0001”表征目标人物腿部,类似的,可以用“1010”表征目标人物头部和胸部,用“1110”表征目标人物头部、手部和胸部,这里仅用此四种部位举例,不代表实际使用中仅有四种部位,其他内容视情况而定,在此不再赘述。
[0073]
示例的,以含义为“我胸闷”、“我头晕还腿疼”和“我没事”的三条口型样本特征为例,说明标注多级标签的过程。这三条数据中,以三级标签为例,每条数据可以包含三个特征标签,每个特征标签描述不同的信息,其中,“我胸闷”的一级标签为1、二级标签为001、三级标签为0010;“我头晕还腿疼”的一级标签为1、二级标签为110、三级标签为1001;“我没事”的一级标签为0、二级标签为000、三级标签为0000。
[0074]
以一条包含口型特征的训练数据a为例,在按照上述方法进行三级标签的标注之后,该数据a包含口型特征和对应的三级标签,可以描述如下:
[0075][0076]
其中,d表示标注后的训练数据a,其中表示口型特征,表示口型特征的三级标签,n为特征编号,n为口型特征的特征总数,n小于或等于n,t表示时刻,t为总时刻,t小于等于t,例如,t时刻的口型特征分别存在三级标签为
[0077]
同理,肢体样本特征和声音样本特征的标签标注过程类似,在此不再赘述。
[0078]
可以理解的是,在神经网络处理数据的过程中,由于数据量通常较大,一次性处理所有数据计算量会非常巨大,从而使得运行时间过长。为了加速数据处理速度,通常要分批处理,即所谓的batch。即在处理输入数据的过程中,每次可以输入batch_size个数据至待训练的网络中进行训练,从而进行批梯度优化等处理过程。其中,batch*batch_size=n,n表示数据总量,batch表示批次的数量。
[0079]
因此,可选地,该第一训练数据包括多个训练轮次的训练数据,一个训练轮次的训练数据包括多个批次的训练数据,每个批次的训练数据中包括多个口型样本特征和多个肢体样本特征;步骤s102,包括:
[0080]
对于任一训练轮次的训练数据,将第一训练数据中的口型样本特征、肢体样本特征以及特征标签,按照所属批次进行加权拼接,得到训练轮次的训练数据中各个批次对应的拼接特征,以及拼接特征对应的拼接标签,作为各个批次的联合训练数据。
[0081]
示例的,可以将上述第一训练数据分成多个批次(batch),每个批次有多个(batch_size)训练数据,则训练数据总量n=batch*batch_size,这里batch表示批次的总数,batch_size表示每一个批次的数据量。
[0082]
对于第i个训练轮次的第j个批次中,选择一条口型样本特征和肢体样本特征,可以获取到标签为的口型样本特征和标签为的肢体样本特征其中,m为口型样本特征的序号,k为肢体样本特征的序号,m和k均小于batch_size。其中,i,j为大于1的整数,口型样本特征和肢体样本特征可以是在同一时间采集的口型样本特征和肢体样
本特征,同一时间可以理解为同一时间范围或者同一时刻。
[0083]
将口型样本特征和肢体样本特征拼接,得到联合样本特征联合样本特征hi对应的拼接标签其中,γ为口型样本特征的权重系数,(1-γ)为肢体样本特征的权重系数,口型样本特征和肢体样本特征权重系数可以是预先设定,可以根据联合预测模型的训练结果进行调整,cat表示拼接函数,用于表征将口型样本特征和肢体样本特征按照各自对应的权重进行拼接。
[0084]
可选地,图3是根据一示例性实施例示出的另一种意图识别方法的流程图,如图3所示,步骤s105可以包括:
[0085]
在步骤s1051中,在当前训练轮次的训练过程中,将当前训练轮次对应的各个批次的联合训练数据按照批次输入预先建立好的联合预测模型中进行训练,得到当前训练轮次训练后的联合预测模型。
[0086]
在步骤s1052中,根据设定的损失函数,确定当前训练轮次训练后的联合预测模型是否达到收敛条件。
[0087]
在步骤s1053中,在未达到收敛条件时,再次执行在当前训练轮次的训练过程中,将当前训练轮次对应的各个批次的联合训练数据按照批次输入预先建立好的联合预测模型中进行训练,得到当前训练轮次训练后的联合预测模型。
[0088]
在步骤s1054中,在达到收敛条件时,将当前训练轮次训练后的联合预测模型作为训练好的联合预测模型。
[0089]
可选的,可以将上述收敛条件设定为:当损失函数小于等于设定阈值时,或者当损失函数不再减小时。当训练后的联合预测模型满足收敛条件时,即可作为训练好的联合预测模型,当训练后的联合预测模型不满足收敛条件时,可以对联合样本特征中口腔样本特征和肢体样本特征的权重系数进行调整,并重复执行上述的训练过程,直至训练后的联合预测模型满足收敛条件。
[0090]
可选地,该损失函数可以包括:
[0091][0092]
其中,l表示联合预测模型的损失函数,γ1表示口型样本特征的权重,x1表示口型样本特征,分别表示口型样本特征的多级标签,γ2表示肢体样本特征的权重,x2表示肢体样本特征,分别表示肢体样本特征的多级标签。需要说明的是,x1、x2中的上标数字1和2用于区分不同的特征,和中的上标数字1和2也是用于区分不同的特征。
[0093]
例如,在多级标签为三级标签的情况下,每条数据可以包含三个特征标签,即上述的一级标签可以用于表征人物的是否处于异常状态,二级标签可以用于表征异常状态的类型,三级标签可以用于表征出现异常状态的部位。此时,该损失函数可以表示为:
[0094]
[0095]
其中,l表示联合预测模型的损失函数,γ1表示口型样本特征的权重,x1表示口型样本特征,分别表示口型样本特征的一级标签、二级标签和三级标签,γ2表示肢体样本特征的权重,x2表示肢体样本特征,分别表示肢体样本特征的一级标签、二级标签和三级标签。
[0096]
可选地,在上述口型特征和肢体特征的基础上,还可以进一步结合语音特征来进行语音识别,图4是根据一示例性实施例示出的另一种意图识别方法的流程图,如图4所示,该方法还可以包括:
[0097]
在步骤s401中,获取第二训练数据,该第二训练数据包括语音样本特征和语音样本特征的特征标签,该语音样本特征的特征标签包括语音样本特征的多级标签,该语音样本特征的多级标签用于表征人物是否异常以及异常的描述信息,例如,当多级标签包括一级标签、二级标签和三级标签时,该一级标签可以用于表征人物的是否处于异常状态,该二级标签可以用于表征异常状态的类型,该三级标签可以用于表征出现异常状态的部位。
[0098]
在步骤s402中,将第二训练数据输入预先建立的声音预测模型中进行训练,得到训练好的声音预测模型。
[0099]
可以理解的是,第二训练数据可以通过拾音器等音频采集设备获取音频数据,从而提取语音样本特征,并设置语音样本特征的特征标签,示例地,语音特征的提取模型可以采用l3-net。类似的,对于第二训练数据的特征标签,也可以使用前文所述的多级标签的方式,例如,以三个标签为例,一级标签用“1”表征人物的处于异常状态,用“0”表征人物的未处于异常状态;二级标签用“000”表征未有异常状态,用“100”表征疼,用“010”表征晕,用“001”表征闷,用“110”表征即疼又闷,用“111”表征疼,晕且闷等等,具体可以参照前文实施例,在此不再赘述。
[0100]
在训练声音预测模型时,同样需要将语音样本特征分为多个批次,每个批次具有多个训练数据,不同的是,由于声音预测模型仅需要语音样本特征和语音样本特征的特征标签作为训练数据,因此不需要进行样本特征拼接以及特征标签拼接。
[0101]
与第一训练数据类似,该第二训练数据分为多个轮次,每个轮次中包含多个批次,其划分方法可以参照前文的第一训练数据,不在赘述。
[0102]
对于任一训练轮次,可以将当前训练轮次的各个批次中的语音样本特征输入预先建立好的声音预测模型中进行训练,得到当前训练轮次训练后的声音预测模型,根据设定的损失函数,确定当前训练轮次训练后的声音预测模型是否达到收敛条件,可以将收敛条件设定为:当损失函数小于等于设定阈值时,或者当损失函数不再减小时。
[0103]
当训练后的声音预测模型满足收敛条件时即可作为训练好的声音预测模型,当训练后的声音预测模型不满足收敛条件时,可以对声音预测模型的参数进行调整,并重复执行上述的训练过程,直至训练后的声音预测模型满足收敛条件。
[0104]
在得到训练好的声音预测模型后,可以将训练好的声音预测模型和训练好的联合预测模型进行集成,得到集成模型,从而可以利用集成模型联合语音特征、口型特征和肢体特征进行联合预测。可选地,图5是根据一示例性实施例示出的又一种意图识别方法的流程图,如图5所示,步骤s103可以包括:
[0105]
在步骤s1031中,获取目标人物的声音特征。
[0106]
在步骤s1032中,根据训练好的声音预测模型和训练好的联合预测模型得到集成模型。
[0107]
在步骤s1033中,将声音特征、口型特征和肢体特征输入集成模型,得到该集成模型预测的意图识别结果。
[0108]
可以理解的是,在声音预测模型和联合预测模型均完成训练后,可以将训练好的声音预测模型和训练好的联合预测模型进行集成,得到集成模型,从而使得该集成模型可以根据目标任务的声音特征、口型特征和肢体特征输出目标人物的意图识别结果。
[0109]
可选地,该集成模型包括:
[0110][0111]
其中,f表示该集成模型输出的意图识别结果,c1表示声音预测模型的置信度,β1表示声音预测模型的权重系数,f1表示声音预测模型,c2表示联合预测模型的置信度,β2表示联合预测模型的权重系数,f2表示联合预测模型。β1和β2为三维向量,三维向量中的每一个向量分别表示对应标签的预测权重;c1和c2也为三维向量,三维向量中的每一个向量分别表示对应标签的预测的置信度,c1、c2越大说明预测结果越可信,对应的预测模型也应该在集成模型中占更大的权重。
[0112]
可选地,在另一种实现方式中,也可以不进行语音特征的联合,仅通过口型特征和肢体特征进行识别,即直接使用训练好的联合预测模型来输入预测结果,相应地,步骤s103还可以包括:将联合特征输入联合预测模型,得到该联合预测模型输出的联合预测结果,作为目标人物的意图识别结果。
[0113]
可以理解的是,由于目标人物可能无法通过声音表达自身的意图,因此,本公开中,也可以只利用联合预测模型作为识别目标人物意图的工具。
[0114]
在上述技术方案中,对训练数据根据多级标签进行处理,并将目标人物的口型样本特征和肢体样本特征结合,并根据联合样本特征训练得到联合预测模型,而且能够兼顾声音预测模型,利用联合预测模型和声音预测模型集成得到的集成模型,从声音特征、口型特征和肢体特征三方面对目标人物的意图进行识别,能够处理更多种类的数据。对特征进行多个特征标签的处理能够提供目标人物在多个特征标签的意图以及置信度,并且多个特征标签互不影响。一定程度上提高了目标人物意图识别的效率和准确率,并且集成模型相较多个模型同时进行识别,节省了服务器内存,便于部署。
[0115]
图6是根据一示例性实施例示出的一种意图识别装置的框图。参照图6,该意图识别装置600可以包括。
[0116]
特征获取模块601,用于获取目标人物的口型特征和肢体特征。
[0117]
特征拼接模块602,用于将口型特征和肢体特征进行拼接,得到联合特征。
[0118]
意图识别模块603,用于利用联合特征和训练好的联合预测模型,得到目标人物的意图识别结果,该意图识别结果包括目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。
[0119]
可选地,图7是根据一示例性实施例示出的又一种意图识别装置的框图。参照图7,该意图识别装置600还可以包括:
[0120]
第一获取模块604,用于获取第一训练数据,该第一训练数据包括口型样本特征、
肢体样本特征,以及该口型样本特征和肢体样本特征的特征标签;该特征标签包括口型样本特征或肢体样本特征的多级标签,该多级标签用于表征人物是否异常以及该异常的描述信息。例如,当多级标签包括一级标签、二级标签和三级标签时,该一级标签可以用于表征人物的是否处于异常状态,该二级标签可以用于表征异常状态的类型,该三级标签可以用于表征出现异常状态的部位。
[0121]
第一训练模块605,用于将第一训练数据输入预先建立的联合预测模型中进行训练,得到训练好的联合预测模型。
[0122]
可选地,多级标签采用独热编码方式进行标注。
[0123]
可选地,该第一训练数据包括多个训练轮次的训练数据,一个训练轮次的训练数据包括多个批次的训练数据,每个批次的训练数据中包括多个口型样本特征和多个肢体样本特征;该特征拼接模块602,用于:
[0124]
对于任一训练轮次的训练数据,将第一训练数据中的口型样本特征、肢体样本特征以及特征标签,按照所属批次进行加权拼接,得到训练轮次的训练数据中各个批次对应的拼接特征,以及拼接特征对应的拼接标签,作为各个批次的联合训练数据。
[0125]
可选地,该第一训练模块605,用于:
[0126]
在当前训练轮次的训练过程中,将当前训练轮次对应的各个批次的联合训练数据按照批次输入预先建立好的联合预测模型中进行训练,得到当前训练轮次训练后的联合预测模型。
[0127]
根据设定的损失函数,确定当前训练轮次训练后的联合预测模型是否达到收敛条件。
[0128]
在未达到收敛条件时,再次执行在当前训练轮次的训练过程中,将当前训练轮次对应的各个批次的联合训练数据按照批次输入预先建立好的联合预测模型中进行训练,得到当前训练轮次训练后的联合预测模型。
[0129]
在达到收敛条件时,将当前训练轮次训练后的联合预测模型作为训练好的联合预测模型。
[0130]
可选地,该损失函数可以包括:
[0131][0132]
其中,l表示联合预测模型的损失函数,γ1表示口型样本特征的权重,x1表示口型样本特征,分别表示口型样本特征的多级标签,γ2表示肢体样本特征的权重,x2表示肢体样本特征,分别表示肢体样本特征的多级标签。需要说明的是,x1、x2中的上标数字1和2用于区分不同的特征,和中的上标数字1和2也是用于区分不同的特征。
[0133]
可选地,该意图识别装置600还可以包括:
[0134]
第二获取模块,用于获取第二训练数据,该第二训练数据包括语音样本特征和语音样本特征的特征标签,该语音样本特征的特征标签包括语音样本特征的多级标签,该语音样本特征的多级标签用于表征人物是否异常以及异常的描述信息。
[0135]
第二训练模块,用于将第二训练数据输入预先建立的声音预测模型中进行训练,得到训练好的声音预测模型。
[0136]
可选地,该意图识别模块603,用于:
[0137]
获取目标人物的声音特征。
[0138]
根据训练好的声音预测模型和训练好的联合预测模型得到集成模型。
[0139]
将声音特征、口型特征和肢体特征输入集成模型,得到该集成模型预测的意图识别结果。
[0140]
可选地,该集成模型包括:
[0141][0142]
其中,f表示该集成模型输出的意图识别结果,c1表示声音预测模型的置信度,β1表示声音预测模型的权重系数,f1表示声音预测模型,c2表示联合预测模型的置信度,β2表示联合预测模型的权重系数,f2表示联合预测模型。
[0143]
可选地,该意图识别模块603,还用于:将联合特征输入联合预测模型,得到该联合预测模型输出的联合预测结果,作为目标人物的意图识别结果。
[0144]
在上述技术方案中,对训练数据根据多级标签进行处理,并将目标人物的口型样本特征和肢体样本特征结合,并根据联合样本特征训练得到联合预测模型,而且能够兼顾声音预测模型,利用联合预测模型和声音预测模型集成得到的集成模型,从声音特征、口型特征和肢体特征三方面对目标人物的意图进行识别,能够处理更多种类的数据。对特征进行多个特征标签的处理能够提供目标人物在多个特征标签的意图以及置信度,并且多个特征标签互不影响。一定程度上提高了目标人物意图识别的效率和准确率,并且集成模型相较多个模型同时进行识别,节省了服务器内存,便于部署。
[0145]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0146]
图8是根据一示例性实施例示出的一种用于意图识别方法的电子设备800的框图。如图8所示,该电子设备800可以包括:处理器801,存储器802。该电子设备800还可以包括多媒体组件803,输入/输出(i/o)接口804,以及通信组件805中的一者或多者。
[0147]
其中,处理器801用于控制该电子设备800的整体操作,以完成上述的意图识别方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作,这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,
按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件805可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
[0148]
在一示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的意图识别方法。
[0149]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的意图识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由电子设备800的处理器801执行以完成上述的意图识别方法。
[0150]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的意图识别方法的代码部分。
[0151]
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
[0152]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
[0153]
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
技术特征:
1.一种意图识别方法,其特征在于,所述方法包括:获取目标人物的口型特征和肢体特征;将所述口型特征和所述肢体特征进行拼接,得到联合特征;利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,所述意图识别结果包括所述目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。2.根据权利要求1所述的方法,其特征在于,在所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果之前,所述方法还包括:获取第一训练数据,所述第一训练数据包括口型样本特征、肢体样本特征,以及所述口型样本特征和肢体样本特征的特征标签;所述特征标签包括所述口型样本特征或肢体样本特征的多级标签,所述多级标签用于表征人物是否异常以及所述异常的描述信息;将所述第一训练数据输入预先建立的联合预测模型中进行训练,得到所述训练好的联合预测模型。3.根据权利要求2所述的方法,其特征在于,所述第一训练数据包括多个训练轮次的训练数据,一个训练轮次的训练数据包括多个批次的训练数据,每个批次的训练数据中包括多个所述口型样本特征和多个所述肢体样本特征;所述将所述口型特征和所述肢体特征进行拼接,得到联合特征,包括:对于任一训练轮次的训练数据,将所述第一训练数据中的所述口型样本特征、所述肢体样本特征以及所述特征标签,按照所属批次进行加权拼接,得到所述训练轮次的训练数据中各个批次对应的拼接特征,以及所述拼接特征对应的拼接标签,作为所述各个批次的联合训练数据。4.根据权利要求3所述的方法,其特征在于,所述将所述训练数据输入预先建立好的联合预测模型中进行训练,得到所述训练好的联合预测模型,包括:在当前训练轮次的训练过程中,将所述当前训练轮次对应的所述各个批次的联合训练数据按照批次输入所述预先建立好的联合预测模型中进行训练,得到所述当前训练轮次训练后的联合预测模型;根据设定的损失函数,确定所述当前训练轮次训练后的联合预测模型是否达到收敛条件;在未达到所述收敛条件时,再次执行所述在当前训练轮次的训练过程中,将所述当前训练轮次对应的所述各个批次的联合训练数据按照批次输入所述预先建立好的联合预测模型中进行训练,得到所述当前训练轮次训练后的联合预测模型;在达到所述收敛条件时,将所述当前训练轮次训练后的联合预测模型作为所述训练好的联合预测模型。5.根据权利要求4所述的方法,其特征在于,所述损失函数包括:其中,l表示所述联合预测模型的损失函数,γ1表示口型样本特征的权重,x1表示所述口型样本特征,分别表示所述口型样本特征的多级标签,γ2表示肢体样本特征的权重,x2表示所述肢体样本特征,分别表示所述肢体样本特征的多
级标签。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第二训练数据,所述第二训练数据包括语音样本特征和所述语音样本特征的特征标签,所述语音样本特征的特征标签包括所述语音样本特征的多级标签,所述语音样本特征的多级标签用于表征人物是否异常以及所述异常的描述信息;将所述第二训练数据输入预先建立的声音预测模型中进行训练,得到训练好的声音预测模型。7.根据权利要求6所述的方法,其特征在于,所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,包括:获取所述目标人物的声音特征;根据所述训练好的声音预测模型和所述训练好的联合预测模型得到集成模型;将所述声音特征、所述口型特征和所述肢体特征输入所述集成模型,得到所述集成模型预测的意图识别结果。8.根据权利要求7所述的方法,其特征在于,所述集成模型包括:其中,f表示所述集成模型输出的意图识别结果,c1表示所述声音预测模型的置信度,β1表示所述声音预测模型的权重系数,f1表示所述声音预测模型,c2表示所述联合预测模型的置信度,β2表示所述联合预测模型的权重系数,f2表示所述联合预测模型。9.根据权利要求1所述的方法,其特征在于,所述利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,包括:将所述联合特征输入所述联合预测模型,得到所述联合预测模型输出的联合预测结果,作为所述目标人物的意图识别结果。10.根据权利要求2-8任一项所述的方法,其特征在于,所述多级标签采用独热编码方式进行标注。11.一种意图识别装置,其特征在于,所述装置包括:特征获取模块,用于获取目标人物的口型特征和肢体特征;特征拼接模块,用于将所述口型特征和所述肢体特征进行拼接,得到联合特征;意图识别模块,用于利用所述联合特征和训练好的联合预测模型,得到所述目标人物的意图识别结果,所述意图识别结果包括所述目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。12.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行所述可执行指令以实现权利要求1~10中任一项所述意图识别方法的步骤。13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1~10中任一项所述的意图识别方法的步骤。
技术总结
本公开涉及一种意图识别方法、装置、电子设备及存储介质,涉及医学领域,该方法包括:获取目标人物的口型特征和肢体特征,将口型特征和肢体特征进行拼接,得到联合特征,利用该联合特征和训练好的联合预测模型,得到目标人物的意图识别结果,该意图识别结果包括目标人物的是否处于异常状态、异常状态的类型以及出现异常状态的部位以及对应的置信度。通过上述技术方案,可以将目标人物的口型特征和肢体特征相结合,根据目标人物的口型特征和肢体特征以及联合预测模型判断目标人物的意图,能够分析语言表达困难的目标人物的意图,一定程度上能提高重症患者的医护体验。提高重症患者的医护体验。提高重症患者的医护体验。
技术研发人员:孙巧杰 孙永樯 孙牧
受保护的技术使用者:东软集团股份有限公司
技术研发日:2023.05.12
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/