风险识别模型训练方法、装置、计算机设备及存储介质与流程
未命名
09-11
阅读:88
评论:0

1.本发明涉及人工智能技术领域,尤其涉及一种风险识别模型训练方法、装置、计算机设备及存储介质。
背景技术:
2.随着人工智能的兴起,获取数据并利用数据建模以解决相应的问题,已是非常常见的技术手段,当下针对当下金融、保险、信贷等相关业务的售后/售前服务,利用风险识别模型,对售后服务对应的语音或线上文字聊天进行识别,并根据所识别特征提供相应的识别结果,以辅助客服人员提高售后/售前服务的质量。其中,风险识别模型是一种用于对客户的意图进行识别的模型,用于在客服人员与客户沟通中,及时识别客户的意图和不满,从而根据客户的兴趣,调整对应的服务业务,提高后续客服人员的服务质量。
3.现有技术中,普遍利用机器学习的方式构建风险识别模型,较为常见的一种方式为,通过客户的静态线索(例如基本身份信息)和所讲述语音,进行特征提取和建模预测,从而在客服人员与客户进行沟通时,提前识别目标客户的意图和不满,提醒客服人员进行沟通所存在的风险。但以上方式都通过特征提取后,直接对客户沟通的语音语义进行意图识别,又或者对客户的客户信息进行特征分类,该训练方式所生成模型,无法捕捉到客户的语音语义的意图识别和客户的客户信息的之间的关联性,即不能根据不同的客户人群进行针对性意图识别,从而降低了风险识别的准确率。由上述可知,现有的风险识别模型,存在风险识别的准确率较低的问题。
技术实现要素:
4.本发明实施例提供一种风险识别模型训练方法、装置、计算机设备及存储介质,解决现有的风险识别模型,存在风险识别的准确率较低的问题。
5.本发明实施例提供了一种风险识别模型训练方法,包括:
6.获取对话语音数据,对话语音数据包括投诉标注标识;
7.对对话语音数据进行特征提取处理,获取对话语音数据对应的至少一个对话句子特征;
8.基于投诉标注标识和对话句子特征,获取每一对话句子特征对应的因子标注标识;
9.根据因子标注标识,对因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;
10.根据正样本对和负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型。
11.本发明实施例还提供了一种风险识别方法,包括:
12.获取沟通语音数据和沟通语音数据对应的客户身份标识;
13.采用目标风险识别模型,根据客户身份标识,对沟通语音数据进行风险分析,获取
风险识别结果。
14.本发明实施例还提供了一种风险识别模型训练装置,包括:
15.对话语音数据获取模块,用于获取对话语音数据,对话语音数据包括投诉标注标识;
16.对话句子特征获取模块,用于对对话语音数据进行特征提取处理,获取对话语音数据对应的至少一个对话句子特征;
17.因子标注标识获取模块,用于基于投诉标注标识和对话句子特征,获取每一对话句子特征对应的因子标注标识;
18.正负样本对获取模块,用于根据因子标注标识,对因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;
19.目标风险识别模型获取模块,用于根据正样本对和负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型。
20.本发明实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述风险识别模型训练方法,或者处理器执行计算机程序时实现上述风险识别方法。
21.本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述风险识别模型训练方法,或者处理器执行计算机程序时实现上述风险识别方法。
22.上述的风险识别模型训练方法、装置、计算机设备及存储介质,通过获取与客户沟通的对话语音数据,对对话语音数据进行特征提取处理,以获取对应的多个对话句子特征;基于对话语音数据对应的投诉标注标识和对话句子特征,确认每一对话句子特征对应的因子标注标识,从而筛选出关键语句用于提高模型训练的关键语句的特征显著性;根据因子标注标识,将对应的对话句子特征构建成正阳本对和负样本对,从而用于后续的对比训练;通过正阳本队和负样本对,对待训练风险识别模型进行训练,从而获取训练后的目标风险识别模型,以保障待训练风险识别模型的风险识别率。
附图说明
23.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1是本发明一实施例中风险识别模型训练方法的一应用环境示意图;
25.图2是本发明一实施例中风险识别模型训练方法的一流程图;
26.图3是本发明风险识别模型训练方法步骤s203的流程图;
27.图4是本发明风险识别模型训练方法步骤s204的流程图;
28.图5是本发明风险识别模型训练方法步骤s404的流程图;
29.图6是本发明风险识别模型训练方法步骤s205的流程图;
30.图7是本发明风险识别模型训练方法步骤s603的流程图;
31.图8是本发明另一实施例中风险识别方法的一流程图;
32.图9是本发明一实施例中风险识别模型训练装置的一示意图;
33.图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.本发明实施例提供的风险识别模型训练方法,可应用在如图1示出的应用环境中。如图1所示,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
36.本发明实施例提供的风险识别模型训练方法,该风险识别模型训练方法可应用如图1所示的应用环境中。具体地,该风险识别模型训练方法应用在风险识别系统中,该风险识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对对话语音数据进行处理,以训练风险识别模型获取对应的目标风险识别模型,提高风险识别的准确度。
37.可以理解地,本发明所收集、使用个人信息和对话语音,仅当收集者同意后,方对个人信息进行采集,遵循合法、正当、必要的原则,公开收集、使用规则,并明示收集、使用信息的目的、方式和范围。
38.在一实施例中,如图2所示,提供一种风险识别模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
39.s201、获取对话语音数据,对话语音数据包括投诉标注标识;
40.s202、对对话语音数据进行特征提取处理,获取对话语音数据对应的至少一个对话句子特征;
41.s203、基于投诉标注标识和对话句子特征,获取每一对话句子特征对应的因子标注标识;
42.s204、根据因子标注标识,对因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;
43.s205、根据正样本对和负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型。
44.其中,对话语音数据包括但不限于金融、保险、基金、信贷等业务,在上述业务所进行对应的客服人员与客户进行售后服务、售前服务、业务咨询服务和意见反馈服务等沟通所录制的对话语音,该对话语音数据的录制方法可以为通过语音通话期间,将客服人员与客户的沟通对话进行通话录制,还可以通过面对面交谈期间,将客服人员与客户的沟通对话进行现场录制,还可以通过线上沟通期间,将客服人员与客户的线上沟通语音和文字进
行保存,从而将获取的对话语音数据用于后续的模型训练。
45.作为一示例,步骤s201中,服务器接收客服人员与客户进行沟通所产生的对话语音数据,所接收对话语音数据包括投诉标注标识,投诉标注标识对对话语音数据的一种标注,即用于对客户进行一定的分类。
46.在本示例中,选取多个的对话语音数据,以作为样本用于模型的训练使用,每个对话语音数据对应一次沟通记录,该对话语音数据具有对应的投诉标注标识,该投诉标注标识根据客户维度的投诉记录进行预先标注,将历史发生过投诉记录的客户对应的投诉标注标识标记为1,将没有发生过投诉记录的客户对应的投诉标注标识标记为0。
47.作为一示例,步骤s202中,服务器在获取到对应的语音数据后,将对话语音数据输入语言处理模型,以对其进行特征提取,获取多个对话句子特征,用于后续的风险识别模型的训练。
48.在本示例中,将对话语音数据输入语言处理模型后,对对话语音数据进行分割处理,获取至少一句句子语音数据,从而达到将对话语音数据整体分割成多个句子,以用于后续的对结果具有影响的句子的识别;再将每一句子语音数据输入特征提取模型,获取每一句子语音数据对应的对话句子特征,也就是将句子语音数据向量化,转化为对应的对话句子特征,以挖掘各词句之间的联系。
49.其中,语言处理模型为常见的语言向量化模型,包括但不限于word2vec、glove、doc2vec以及bert。
50.作为一示例,步骤s203中,服务器基于所获取到的投诉标注标识和对话句子特征,对每一对话句子特征进行识别,确认每一对话句子特征对应的因子标注标识。根据投诉标注标识的不同,准确得确认每一对话句子特征应有的因子标注标识,以保障后续训练所使用样本的准确率。
51.在本示例中,因子标注标识用于区分某一对话句子特征是否为与投诉原因相关句子,当某一对话句子特征为与投诉原因相关句子,或疑似与投诉原因相关句子时,则将该句子特征对应的因子标注标识进行具有相关标注,可以标注为1,;若该对话句子特征不为与投诉原因相关句子,则将该句子特征对应的因子标注标识进行无相关标注,可以标注为0。
52.作为一示例,步骤s204中,服务器在确认各对话句子特征对应的因子标注标识后,根据各对话句子特征的因子标注标识所对应的相关性,将对话句子特征进行分类处理,并进行相应的组合,将各对话句子特征,构造为对应的设置为对应的正样本对和负样本对,从而用于后续模型训练。
53.在本示例中,构建正样本对和负样本对,用于对比学习对风险识别模型进行训练,对比学习(contrastive learning)的本质是通过构造正负样本对让模型能够有效的区分语义相似的表达和语义相反或者无关的表达,从而准确的区分不同语句对应的实际意图。
54.作为一示例,步骤s205中,服务器将所获取到的构建好的正样本对和负样本对,用于对待训练风险识别模型进行训练,通过特征显著的正样本对和负样本对,让风险识别模型学习区分两者之间的不同之处,从而得到风险识别更为准确的目标风险识别模型。
55.在本示例中,过获取与客户沟通的对话语音数据,对对话语音数据进行特征提取处理,以获取对应的多个对话句子特征;基于对话语音数据对应的投诉标注标识和对话句子特征,确认每一对话句子特征对应的因子标注标识,从而筛选出关键语句用于提高模型
训练的关键语句的特征显著性;根据因子标注标识,将对应的对话句子特征构建成正阳本对和负样本对,从而用于后续的对比训练;通过正阳本队和负样本对,对待训练风险识别模型进行训练,从而获取训练后的目标风险识别模型,以保障待训练风险识别模型的风险识别率。
56.在一实施例中,如图3所示,步骤s203,基于投诉标注标识和对话句子特征,获取每一对话句子特征对应的因子标注标识,包括:
57.s301、若投诉标注标识为无投诉标识,则将每一对话句子特征作为无关因子语句;
58.s302、若投诉标注标识为有投诉标识,则对每一对话句子特征进行分类处理,得到相关因子语句和无关因子语句;
59.s303、将相关因子语句对应的因子标注标识确定为相关因子标识;
60.s304、将无关因子语句对应的因子标注标识确定为无关因子标识。
61.其中,无关因子语句是与投诉所产生的原因无相关性的句子,相关因子语句则为具有为或疑似与投诉原因相关的句子,并根据是否与投诉原因具有相关性,从而进行相应的标注。
62.作为一示例,步骤s301中,服务器在获取对话句子特征后,根据对话语音数据所对应的投诉标注标识,当投诉标注标识为无投诉标识时,则认为上述的对话语音数据未产生投诉,即对话语音数据对应的多个对话句子特征也都与投诉所产生的原因无相关性的句子,将上述对话句子特征分类为无关因子语句。
63.作为一示例,步骤s302中,服务器在获取对话句子特征后,根据对话语音数据所对应的投诉标注标识,当投诉标注标识为无投诉标识时,则认为上述的对话语音数据被客户进行投诉,也就是说本次对话语音数据对应的多个对话句子特征中,其中的部分对话句子特征与投诉所产生的原因具有或疑似具有相关性,将上述对话句子特征分类为相关因子语句,则剩余部分对话句子特征则与与投诉所产生的原因不具有相关性,将其作为无关因子语句。
64.作为一示例,步骤s303中,服务器在确认对话句子特征与投诉所产生的原因是否有无相关性后,将与投诉所产生的原因有相关性的相关因子语句进行标注,将其对应的因子标注标识确定为相关因子标识。
65.作为一示例,步骤s304中,服务器在确认对话句子特征与投诉所产生的原因是否有无相关性后,将与投诉所产生的原因无相关性的无关因子语句进行标注,将其对应的因子标注标识确定为无关因子标识。
66.在本示例中,根据对话语音数据对应的投诉标识,将各对话句子特征进行分类标注,当投诉标注标识为无投诉标识,将每一对话句子特征作为无关因子语句;当投诉标注标识为有投诉标识,则对每一对话句子特征进行分类处理,得到相关因子语句和无关因子语句;最后,基于不同的句子设置对应的因子标注标识,从而筛选出与投诉所产生的原因有相关性的句子,提高后续所构成样本的显著性。
67.在一实施例中,如图4所示,步骤s204,根据因子标注标识,对因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对,包括:
68.s401、若因子标注标识为相关因子标识,则将相关因子标识对应的对话句子特征作为正样本句子;
69.s402、若因子标注标识为无关因子标识,则将无关因子标识对应的对话句子特征作为负样本句子;
70.s403、对任意两个正样本句子进行组合处理,获取正样本对;
71.s404、将一正样本句子和一负样本句子进行组合处理,获取负样本对。
72.其中,本示例中通过列举对比学习(contrastive learning)的方式,以构造风险识别模型,并通过建立对应的样本对,对风险识别模型进行构造。与通过对句子特征添加噪音构造对比样本不同,本发明所有的正负样本对皆基于历史客户是否发生投诉的因子标注标识而构造。
73.可以理解地,对比式学习着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。与生成式学习比较,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。
74.作为一示例,步骤s401中,服务器在获取到因子标注标识后,若因子标注标识为相关因子标识,则将相关因子标识对应的对话句子特征作为正样本句子,也即将与投诉所产生的原因有相关性的相关因子语句作为正样本句子,以用于后续的样本对构成,构建对比学习。
75.作为一示例,步骤s402中,服务器在获取刀因子标注标识后,若因子标注标识为无关因子标识,则将无关因子标识对应的对话句子特征作为负样本句子,也即将与投诉所产生的原因无相关性的无关因子语句作为正样本句子,以用于后续的样本对构成,构建对比学习。
76.作为一示例,步骤s403中,服务器对所有的正样本句子随机进行两两组合,也即通过将正样本句子集中的正样本句子分别进行组合,构建成正样本对。其中,构建过的正样本句子,则还可以参与正样本对的构建。
77.在本示例中,正样本对构建可以用以下表示,构造正样本对为其中,xi为一样正样本句子,是与样本xi语义相近的短句。
78.作为一示例,步骤s404中,服务器将一正样本句子和一负样本句子进行两两组合处理,构建成负样本对。其中,由于正负样本比例悬殊,正样本句子过少,负样本句子过多,本实施例将组合过的负样本句子进行限制,不再用于负样本的构建。
79.在本示例中,负样本对构建可以用以下表示,构造负样本对为其中是与样本xi语义相反或者无关的短句。
80.在一实施例中,如图5所示,步骤s404,将一正样本句子和一负样本句子进行组合处理,获取负样本对,包括:
81.s501、从负样本句子集中随机选取n个负样本句子;
82.s502、将一正样本句子和n个负样本句子分别进行组合处理,获取n个负样本对;
83.s503、将n个负样本句子从负样本句子集中删除,重复从负样本句子集中随机选取n个负样本句子。
84.作为一示例,步骤s501中,服务器在进行负样本对组合时,从负样本句子集中随机选取n个负样本句子,以用于负样本对的组合。
85.作为一示例,步骤s502中,服务器根据已有的正样本句子集和负样本句子集,将正样本句子集中的某一正样本句子和筛选出的n个负样本句子分别进行两两组合处理,获取n个负样本对。
86.在本示例中,对于每一个选出的负样本句子,从负样本句子集中剩余的正样本句子中随机采样,与此正样本组成的负样本对。为了减少信息丢失,一个正样本将与n个负样本组成负样本对,n为自定义参数。
87.作为一示例,步骤s503中,服务器在确认n各样本对后,将n个负样本句子从负样本句子集中删除,重复从负样本句子集中随机选取n个负样本句子,用于和其他正样本句子进行组合。需要注意的是,由于正负样本比例悬殊,已选出的负样本不再与其它正样本进行组合。
88.在本示例中,由此以上构造的样本对能更真实的反应客户投诉的倾向和投诉原因,在将样本对输入模型中后,具有特征更为显著的样本对能够更好的在n维空间中与一般语句区分开来,从而提高模型预测的准确率。
89.在一实施例中,如图6所示,步骤s205,根据正样本对和负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型,包括:
90.对话语音数据还包括客户身份标识
91.s601、基于待训练风险识别模型,对正样本对或负样本对进行编码处理,获取正样本对或负样本对应的第一隐层向量和第二隐层向量;
92.s602、根据第一隐层向量和第二隐层向量,获取样本向量相似性;
93.s603、基于客户身份标识对应的目标客户信息,对样本向量相似性进行过滤处理,获取目标预测值;
94.s604、根据目标预测值,对待训练风险识别模型进行更新,获取目标风险识别模型。
95.作为一示例,步骤s601中,服务器在获取正样本对或负样本对后,将正样本对或负样本对输入待训练风险识别模型进行训练,也就是将正样本对或负样本对输入编码器,以获取正样本对或负样本对对应的一个正样本句子对应的第一隐层向量,以及另一个正样本句子或负样本句子对应的第二隐层向量。
96.作为一示例,步骤s602中,服务器在获取到第一隐层向量和第二隐层向量后,对第一隐层向量和第二隐层向量进行转置处理,以确认第一隐层向量和第二隐层向量的相似性,并获取样本向量相似性。
97.在本示例中,对于正负样本对《xi,xj》,以进行转置处理》,以进行转置处理得到对应的第一隐层向量和第二隐层向量h
ci
。
98.作为一示例,步骤s603中,服务器在获取到样本向量相似性后,基于客户身份标识对应的目标客户信息,对样本向量相似性进行过滤处理,获取目标预测值。
99.在本示例中,采用基于目标客户信息所训练好的目标信息门(info gate)对对样本向量相似性进行过滤处理,获取目标预测值。
100.作为一示例,步骤s604中,服务器根据所获取的目标预测值,对待训练风险识别模型进行更新,获取目标风险识别模型。
101.在本示例中,假设一对样本对表示为其中m为总样本量,为语义相近的语句,相较于传统的对比学习所对应的函数:
[0102][0103]
其中是传统的正样本对或负样本对的隐藏向量,τ是可调节的温度参数,为隐藏向量对应的的余弦相似值。在将每客户信息样本对分别放入两层mlp中,得到隐藏层向量的相似性后:
[0104][0105]
将上述输出的客户信息向量作为权重对风险语句进行预测,将传统的对比学习所对应的函数中的修改为为其中h
ci
,h
cj
为第一隐层向量和第二隐层向量,h
si
,h
sj
为客户信息样本对的隐藏向量,w
ij
为权重,t为转置操作,最终得到以下对比学习对应的目标函数:
[0106][0107]
在本示例中,与现有发明只利用历史对话进行训练得到句子的隐藏向量不同,客户的目标客户信息也与客户是否发生投诉息且发生怎样的投诉息息相关。比如,某年龄段某种性别的客户更容易对某个特定的原因发生投诉;或者同样的对话语句在背景迥异的客户口中可能存在完全不同的意思。因此在此发明中,通过充分利用客户的目标客户信息对原有的目标函数进行改造以提高模型的预测准确率。
[0108]
在一实施例中,如图7所示,步骤s603,基于客户身份标识对应的目标客户信息,对样本向量相似性进行过滤处理,获取目标预测值,包括:
[0109]
s701、获取至少一个目标客户信息;
[0110]
s702、对每两个目标客户信息进行组合处理,获取客户信息样本对;
[0111]
s703、对客户信息样本对进行相似性计算,获取客户信息相似性;
[0112]
s704、基于客户信息相似性,生成目标信息门;
[0113]
s705、根据目标信息门,对样本向量相似性进行过滤处理,获取目标预测值。
[0114]
作为一示例,步骤s701中,服务器获取至少一个目标客户信息,以用于后续的信息门构建。其中,由于编码操作为常规编码操作,以下本示例中的所有目标客户信息为编码后的向量,在本示例中,客户的目标客户信息编码前,将客户的年龄、性别、教育程度等信息,进行结构化处理,获取到编码后的数据信息,也即目标客户信息。
[0115]
在另一示例中,还可以在与客户沟通前,进行身份认证,以区分不同客户,和相同客户在不同沟通记录时的统计。其中,可以通过唯一标识如纳税号,身份证号,身份证照片
等对个人或企业进行实名认证,在业务沟通前,通过将客户所使用手机号或账号,与其对应的身份证进行认证后,进行确认;随着模式识别技术的逐步成熟,还可以基于生物体体征对生物个体进行生物识别,如根据客户在之前办理业务中所保留的语音,在获取到客户许可后,识别客户对应的声纹,从而准确确认客户的身份。
[0116]
作为一示例,步骤s702中,服务器在获取到至少一个目标客户信息后,通过将每两个目标客户信息进行组合处理,以构成客户信息样本对,用于后续的相似性计算。
[0117]
作为一示例,步骤s703中,服务器在构建多个客户信息样本对后,采用距离函数计算客户信息样本对中,各目标客户信息对应的距离,也即客户信息相似性。
[0118]
作为一示例,步骤s704中,服务器在确定客户信息相似性后,将客户信息样本对和对应的客户信息相似性输入激活函数,以构建目标信息门,其中,激活函数所使用为sigmoid激活函数。
[0119]
在本示例中,将客户信息相似性输入sigmoid激活函数,可以将客户信息相似性对应的相似性值映射到0到1之间的范围,将其作为一个概率值,表示选择性地通过或保留信息的程度。其中,信息门用于对样本向量相似性进行加权或过滤,以实现对对话语音数据筛选的控制和选择性的关注,从而提高在不同任务中提高模型的灵活性和表现能力。
[0120]
在本示例中,将每对客户信息样本对分别放入输入sigmoid激活函数中的两层mlp中,得到隐藏层向量的相似性,样本对的客户背景信息越相似,此输入值越接近为1,反之越接近为0.因此,对于字面相同或相近的语句,客户背景越相似,语句表达同一内涵的概率便越高,反之越低。
[0121]
作为一示例,步骤s705中,服务器利用目标信息门,对样本向量相似性进行过滤处理,获取目标预测值。也即通过目标信息门筛选出,与风险识别相关性更高的目标预测值。
[0122]
在本示例中,通过将获取到的多个客户信息,随机将每两个目标客户信息进行组合处理,获取客户信息样本对,以对客户信息样本对进行相似性计算,获取客户信息相似性。基于客户信息相似性,以及相应的激活函数,生成目标信息门,该目标信息门用于对样本向量相似性进行过滤处理,从而获取更准确目标预测值。
[0123]
在另一实施例中,图8提供一种风险识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0124]
s801、获取沟通语音数据和沟通语音数据对应的客户身份标识;
[0125]
s802、采用目标风险识别模型,根据客户身份标识,对沟通语音数据进行风险分析,获取风险识别结果。
[0126]
在本示例中,当客户和客服人员在进行语音通话的过程中,服务器可以通过语音识别模型将沟通语音数据实时向量化,转化为对应的对话句子特征,并对当下的对话句子特征进行预测。由于在预测中也需要构造样本对,根据客户身份标识对应的目标客户信息,确认对应的投诉标注标识。从原始样本中随机选取n条正样本和n条负样本,分别和当下对话短句放入目标风险识别模型。和正样本组成的样本对为正样本对,和负样本组成的样本对为负样本对。模型会对每一对样本对进行语义相似性的打分。将n条正样本对和负样本对的得分分别进行加权平均,得到最后正样本相似性的分值和负样本相似性的分值。如果正样本相似性的分值》负样本相似性的分值,则此短句被判定为具有投诉风险,否则则不具有投诉风险。
[0127]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0128]
在一实施例中,提供一种风险识别模型训练装置,该风险识别模型训练装置与上述实施例中风险识别模型训练方法一一对应。如图9所示,该风险识别模型训练装置包括对话语音数据获取模块901、对话句子特征获取模块902、因子标注标识获取模块903、正负样本对获取模块904和目标风险识别模型获取模块905。各功能模块详细说明如下:
[0129]
对话语音数据获取模块901,用于获取对话语音数据,对话语音数据包括投诉标注标识;
[0130]
对话句子特征获取模块902,用于对对话语音数据进行特征提取处理,获取对话语音数据对应的至少一个对话句子特征;
[0131]
因子标注标识获取模块903,用于基于投诉标注标识和对话句子特征,获取每一对话句子特征对应的因子标注标识;
[0132]
正负样本对获取模块904,用于根据因子标注标识,对因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;
[0133]
目标风险识别模型获取模块905,用于根据正样本对和负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型
[0134]
在一实施例中,因子标注标识获取模块903,包括:
[0135]
无投诉标识分句单元,用于若投诉标注标识为无投诉标识,则将每一对话句子特征作为无关因子语句;
[0136]
有投诉标识分句单元,用于若投诉标注标识为有投诉标识,则对每一对话句子特征进行分类处理,得到相关因子语句和无关因子语句;
[0137]
相关因子标识确认单元,用于将相关因子语句对应的因子标注标识确定为相关因子标识;
[0138]
无关因子标识确认单元,用于将无关因子语句对应的因子标注标识确定为无关因子标识。
[0139]
在一实施例中,因子标注标识获取模块904,包括:
[0140]
正样本句子确认单元,用于若因子标注标识为相关因子标识,则将相关因子标识对应的对话句子特征作为正样本句子;
[0141]
负样本句子确认单元,用于若因子标注标识为无关因子标识,则将无关因子标识对应的对话句子特征作为负样本句子;
[0142]
正样本对获取单元,用于对任意两个正样本句子进行组合处理,获取正样本对;
[0143]
负样本对获取单元,用于将一正样本句子和一负样本句子进行组合处理,获取负样本对。
[0144]
在一实施例中,负样本对获取单元,包括:
[0145]
负样本句子选取子单元,用于从负样本句子集中随机选取n个负样本句子;
[0146]
负样本对获取子单元,用于将一正样本句子和n个负样本句子分别进行组合处理,获取n个负样本对;
[0147]
负样本句子删除子单元,用于将n个负样本句子从负样本句子集中删除,重复从负
样本句子集中随机选取n个负样本句子。
[0148]
在一实施例中,因子标注标识获取模块905,包括:
[0149]
隐层向量获取单元,用于基于待训练风险识别模型,对正样本对或负样本对进行编码处理,获取正样本对或负样本对应的第一隐层向量和第二隐层向量;
[0150]
样本向量相似性获取单元,用于根据第一隐层向量和第二隐层向量,获取样本向量相似性;
[0151]
目标预测值获取单元,用于基于客户身份标识对应的目标客户信息,对样本向量相似性进行过滤处理,获取目标预测值;
[0152]
目标风险识别模型获取单元,用于根据目标预测值,对待训练风险识别模型进行更新,获取目标风险识别模型。
[0153]
在一实施例中,目标预测值获取单元,包括:
[0154]
目标客户信息获取单元,用于获取至少一个目标客户信息;
[0155]
客户信息样本对获取单元,用于对每两个目标客户信息进行组合处理,获取客户信息样本对;
[0156]
客户信息相似性获取单元,用于对客户信息样本对进行相似性计算,获取客户信息相似性;
[0157]
目标信息门获取单元,用于基于客户信息相似性,生成目标信息门;
[0158]
目标预测值获取单元,用于根据目标信息门,对样本向量相似性进行过滤处理,获取目标预测值。
[0159]
在另一实施例中,提供一种风险识别装置,该风险识别装置与上述实施例中风险识别模型训练方法一一对应,包括:
[0160]
沟通语音数据获取模块,用于获取沟通语音数据和沟通语音数据对应的客户身份标识;
[0161]
风险识别结果获取模块,用于采用上述目标风险识别模型,根据客户身份标识,对沟通语音数据进行风险分析,获取风险识别结果。
[0162]
关于风险识别模型训练装置的具体限定可以参见上文中对于风险识别模型训练方法的限定,在此不再赘述。上述风险识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0163]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行风险识别模型训练方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险识别模型训练方法。
[0164]
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可
在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中风险识别模型训练方法,例如图2所示s201-s205,或者图3至图7中所示,为避免重复,这里不再赘述。例如图8所示,还可以在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中计算机程序时实现风险识别方法。或者,处理器执行计算机程序时实现风险识别模型训练装置这一实施例中的各模块/单元的功能,例如图9所示的对话语音数据获取模块901、对话句子特征获取模块902、因子标注标识获取模块903、正负样本对获取模块904和目标风险识别模型获取模块905的功能,为避免重复,这里不再赘述。
[0165]
在一实施例中,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中风险识别模型训练方法,例如图2所示s201-s205,或者图3至图7中所示,为避免重复,这里不再赘述。例如图8所示,该计算机程序还可以被处理器执行时实现上述实施例中计算机程序时实现风险识别方法。或者,该计算机程序被处理器执行时实现上述风险识别模型训练装置这一实施例中的各模块/单元的功能,例如图9所示的对话语音数据获取模块901、对话句子特征获取模块902、因子标注标识获取模块903、正负样本对获取模块904和目标风险识别模型获取模块905的功能,为避免重复,这里不再赘述。
[0166]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0167]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0168]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种风险识别模型训练方法,其特征在于,包括:获取对话语音数据,所述对话语音数据包括投诉标注标识;对所述对话语音数据进行特征提取处理,获取所述对话语音数据对应的至少一个对话句子特征;基于所述投诉标注标识和所述对话句子特征,获取每一所述对话句子特征对应的因子标注标识;根据所述因子标注标识,对所述因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;根据所述正样本对和所述负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型。2.如权利要求1所述的风险识别模型训练方法,其特征在于,所述基于所述投诉标注标识和所述对话句子特征,获取所述对话句子特征对应的因子标注标识,包括:若所述投诉标注标识为无投诉标识,则将每一所述对话句子特征作为无关因子语句;若所述投诉标注标识为有投诉标识,则对每一所述对话句子特征进行分类处理,得到相关因子语句和无关因子语句;将所述相关因子语句对应的因子标注标识确定为相关因子标识;将所述无关因子语句对应的因子标注标识确定为无关因子标识。3.如权利要求1所述的风险识别模型训练方法,其特征在于,所述根据所述因子标注标识,对所述因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对,包括:若所述因子标注标识为相关因子标识,则将所述相关因子标识对应的对话句子特征作为正样本句子;若所述因子标注标识为无关因子标识,则将所述无关因子标识对应的对话句子特征作为负样本句子;对任意两个所述正样本句子进行组合处理,获取正样本对;将一所述正样本句子和一所述负样本句子进行组合处理,获取负样本对。4.如权利要求3所述的风险识别模型训练方法,其特征在于,所述将一所述正样本句子和一所述负样本句子进行组合处理,获取负样本对,包括:从负样本句子集中随机选取n个负样本句子;将一所述正样本句子和n个所述负样本句子分别进行组合处理,获取n个负样本对;将n个所述负样本句子从所述负样本句子集中删除,重复所述从负样本句子集中随机选取n个负样本句子。5.如权利要求1所述的风险识别模型训练方法,其特征在于,所述对话语音数据还包括客户身份标识;所述根据所述正样本对和所述负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型,包括:基于所述待训练风险识别模型,对所述正样本对或所述负样本对进行编码处理,获取所述正样本对或所述负样本对应的第一隐层向量和第二隐层向量;根据所述第一隐层向量和所述第二隐层向量,获取样本向量相似性;
基于所述客户身份标识对应的目标客户信息,对所述样本向量相似性进行过滤处理,获取目标预测值;根据所述目标预测值,对所述待训练风险识别模型进行更新,获取目标风险识别模型。6.如权利要求5所述的风险识别模型训练方法,其特征在于,所述基于所述客户身份标识对应的目标客户信息,对所述样本向量相似性进行过滤处理,获取目标预测值,包括:获取至少一个目标客户信息;对每两个所述目标客户信息进行组合处理,获取客户信息样本对;对所述客户信息样本对进行相似性计算,获取客户信息相似性;基于所述客户信息相似性,生成目标信息门;根据所述目标信息门,对所述样本向量相似性进行过滤处理,获取目标预测值。7.一种风险识别方法,其特征在于,包括:获取沟通语音数据和所述沟通语音数据对应的客户身份标识;采用权利要求1-6任一项所述目标风险识别模型,根据所述客户身份标识,对所述沟通语音数据进行风险分析,获取风险识别结果。8.一种风险识别模型训练装置,其特征在于,包括:对话语音数据获取模块,用于获取对话语音数据,所述对话语音数据包括投诉标注标识;对话句子特征获取模块,用于对所述对话语音数据进行特征提取处理,获取所述对话语音数据对应的至少一个对话句子特征;因子标注标识获取模块,用于基于所述投诉标注标识和所述对话句子特征,获取每一所述对话句子特征对应的因子标注标识;正负样本对获取模块,用于根据所述因子标注标识,对所述因子标注标识对应的对话句子特征进行样本构造,获取正样本对和负样本对;目标风险识别模型获取模块,用于根据所述正样本对和所述负样本对,对待训练风险识别模型进行训练,获取目标风险识别模型。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述风险识别模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求7所述风险识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述风险识别模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求7所述风险识别方法。
技术总结
本发明涉及人工智能技术领域,本发明公开了一种风险识别模型训练方法、装置、计算机设备及存储介质。通过获取与客户沟通的对话语音数据,对对话语音数据进行特征提取处理,以获取对应的多个对话句子特征;基于对话语音数据对应的投诉标注标识和对话句子特征,确认每一对话句子特征对应的因子标注标识,从而筛选出关键语句用于提高模型训练的关键语句的特征显著性;根据因子标注标识,将对应的对话句子特征构建成正阳本对和负样本对,从而用于后续的对比训练;通过正阳本队和负样本对,对待训练风险识别模型进行训练,从而获取训练后的目标风险识别模型,以保障待训练风险识别模型的风险识别率。风险识别率。风险识别率。
技术研发人员:王璐 吴振宇 王建明 肖京
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种便携式户外直播设备的制作方法 下一篇:一种高压开关柜安全新型防护装置的制作方法