数据识别方法、模型训练方法、装置、设备及存储介质与流程

未命名 09-18 阅读:99 评论:0


1.本发明涉及计算机技术领域,特别涉及一种数据识别方法、模型训练方法、装置、设备及存储介质。


背景技术:

2.随着知识谱图的发展,跨域跨机构的图谱构建是一项迫切需要完成的重要任务,实体识别作为知识图构建的基础,则需要先完成领域文本数据的实体识别。但是,如果为每个域建立单独的识别模型,那么时间和人力成本将显著增加。然而,在单个域中的标注数据通常是有限的,为这些领域标注足够的标记数据既昂贵又耗时,还需要领域相关的大量专业知识。此外,尽管许多平台可能有一些带标注的数据集,但由于这些领域数据包含用户和公司信息,且对隐私和安全高度敏感,因此,无法直接共享这些数据来完成模型训练。
3.因此,如何在保证异构多源域数据的安全性的同时,对多源域数据进行快速高效的识别是本领域技术人员亟需解决的技术问题。


技术实现要素:

4.本发明的目的是提供一种数据识别方法,该数据识别方法可以在保证异构多源域数据的安全性的同时,对多源域数据进行快速高效的识别;本发明的另一目的是提供一种模型训练方法、数据识别装置、模型训练装置、电子设备、计算机可读存储介质,同样具有上述有益效果。
5.第一方面,本发明提供了一种数据识别方法,应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。
6.可选地,所述利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度,包括:利用所述初始识别模型对所述本地样本进行处理,获得各所述本地样本的概率分布;根据各所述概率分布计算获得所述初始识别模型的当前损失函数;利用所述当前损失函数和所述本地模型参数进行计算,获得所述本地模型梯度;利用所述当前损失函数和所述全局模型参数进行计算,获得所述全局模型梯度。
7.可选地,所述利用所述初始识别模型对所述本地样本进行处理,获得各所述本地
样本的概率分布,包括:对于每一所述本地样本,对所述本地样本进行文本划分,获得各文字数据;根据各所述文字数据组合为各词组数据;确定各所述文字数据的序列号和各所述词组数据的序列号;根据各所述文字数据的序列号生成各所述文字数据的绝对头位置和绝对尾位置;根据各所述词组数据的序列号生成各所述词组数据的绝对头位置和绝对尾位置;根据各所述文字数据的序列号、绝对头位置、绝对尾位置和各所述词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列;将各所述本地样本对应的模型输入序列输入至所述初始识别模型,获得各所述本地样本的概率分布。
8.可选地,所述根据各所述文字数据组合为各词组数据,包括:通过查询字典获得各所述文字数据对应的词组数据。
9.可选地,所述确定各所述文字数据的序列号和各所述词组数据的序列号,包括:通过查询预设词表确定各所述文字数据的序列号和各所述词组数据的序列号。
10.可选地,所述根据各所述文字数据的序列号生成各所述文字数据的绝对头位置和绝对尾位置,包括:对于每一所述文字数据,根据所述文字数据的序列号确定所述文字数据在所述本地样本中的位置信息;根据所述位置信息生成所述文字数据的绝对头位置和绝对尾位置。
11.可选地,所述根据各所述词组数据的序列号生成各所述词组数据的绝对头位置和绝对尾位置,包括:对于每一所述词组数据,确定所述词组数据中的各文字数据;根据各所述文字数据的绝对头位置和绝对尾位置生成所述词组数据的绝对头位置和绝对尾位置。
12.可选地,所述根据各所述文字数据的序列号、绝对头位置、绝对尾位置和各所述词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列,包括:对于每一所述文字数据,根据所述文字数据的序列号、绝对头位置、绝对尾位置计算获得所述文字数据对应的特征向量;对于每一所述词组数据,根据所述词组数据的序列号、绝对头位置、绝对尾位置计算获得所述词组数据对应的特征向量;将各所述文字数据的特征向量和各所述词组数据的特征向量组合为所述模型输入序列。
13.可选地,所述根据所述文字数据的序列号、绝对头位置、绝对尾位置计算获得所述文字数据对应的特征向量,包括:将所述文字数据的序列号转换为序列号向量;将所述文字数据的绝对头位置转换为绝对头位置向量;将所述文字数据的绝对尾位置转换为绝对尾位置向量;对所述文字数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得所述文字数据对应的特征向量。
14.可选地,所述根据所述词组数据的序列号、绝对头位置、绝对尾位置计算获得所述词组数据对应的特征向量,包括:将所述词组数据的序列号转换为序列号向量;将所述词组数据的绝对头位置转换为绝对头位置向量;将所述词组数据的绝对尾位置转换为绝对尾位置向量;对所述词组数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得所述词组数据对应的特征向量。
15.可选地,所述利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型,包括:利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得模型损失达到预设阈值的数据识别模型。
16.可选地,述利用所述本地模型梯度对本地模型参数进行更新,包括:确定所述本地模型参数的当前值,并获取预设学习率;根据所述本地模型梯度、所述地模型参数的当前值、所述预设学习率计算获得所述本地模型参数的更新值。
17.可选地,所述利用所述服务器模型更新参数对全局模型参数进行更新,包括:将所述服务器模型更新参数的当前值作为所述全局模型参数的更新值。
18.可选地,所述将所述全局模型梯度上传至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数,包括:将所述全局模型梯度上传至所述服务器,以使所述服务器对各所述客户端上传的全局模型梯度进行聚合处理获得聚合梯度,并利用所述聚合梯度对所述服务器模型参数进行更新处理,获得所述服务器模型更新参数。
19.可选地,所述将所述全局模型梯度上传至所述服务器,以使所述服务器对各所述客户端上传的全局模型梯度进行聚合处理获得聚合梯度,包括:将所述全局模型梯度上传至所述服务器,以使所述服务器利用聚合公式对各所述客户端上传的全局模型梯度进行加权平均计算,获得所述聚合梯度;所述聚合公式为:;;;其中,为所述聚合梯度,为第个客户端的全局模型梯度,为第
个客户端的样本占比,为第个客户端的权重,为第个客户端的本地样本数量,为所有客户端的样本总数量,为第个客户端的梯度变化,为自然常数。
20.可选地,所述利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度之前,还包括:获取所述服务器中的训练样本批大小;按照所述训练样本批大小对本地全局样本进行划分,获得各所述本地样本。
21.可选地,所述全局模型包括嵌入层、自注意力层、归一化层;所述本地模型包括前馈神经网络层、归一化层、条件随机场层。
22.第二方面,本发明提供了另一种数据识别方法,应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。
23.第三方面,本发明还公开了一种数据识别装置,应用客户端,包括:第一获取模块,用于获取初始识别模型;所述初始识别模型包括本地模型和全局模型;第一训练模块,用于利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第一上传模块,用于将所述全局模型梯度上传至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第一更新模块,用于利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;执行模块,用于利用所述数据识别模型执行数据识别操作。
24.第四方面,本发明还公开了另一种数据识别装置,应用于客户端,包括:第二获取模块,用于获取初始识别模型;所述初始识别模型包括本地模型和全局模型;第二训练模块,用于利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第二上传模块,用于将所述全局模型梯度上传至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第二更新模块,用于利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。
25.第五方面,本发明公开了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的任意一种数据识别方法的步骤和/或任意一种模型训练方法的步骤。
26.第六方面,本发明公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任意一种数据识别方法的步骤和/或任意一种模型训练方法的步骤。
27.应用本发明所提供的技术方案,具有如下技术效果:本发明所提供的数据识别方法,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
28.本发明还公开了一种模型训练方法、数据识别装置、模型训练装置、电子设备以及计算机可读存储介质,同样具有上述技术效果,本发明在此不再赘述。
附图说明
29.为了更清楚地说明现有技术和本发明实施例中的技术方案,下面将对现有技术和本发明实施例描述中需要使用的附图作简要的介绍。当然,下面有关本发明实施例的附图描述的仅仅是本发明中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本发明的保护范围。
30.图1为本发明所提供的一种数据识别方法的流程示意图;图2为本发明所提供的一种模型训练方法的流程示意图;图3为本发明所提供的另一种数据识别方法的流程示意图;图4为本发明所提供的一种数据识别模型的结构示意图;图5为本发明所提供的一种数据识别系统的结构示意图;图6为本发明所提供的一种数据识别装置的结构示意图;图7为本发明所提供的一种模型训练装置的结构示意图;图8为本发明所提供的一种电子设备的结构示意图。
具体实施方式
31.本发明的核心是提供一种数据识别方法,该数据识别方法可以在保证异构多源域数据的安全性的同时,对多源域数据进行快速高效的识别;本发明的另一核心是提供一种
模型训练方法、数据识别装置、模型训练装置、电子设备、计算机可读存储介质,同样具有上述有益效果。
32.为了对本发明实施例中的技术方案进行更加清楚、完整地描述,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行介绍。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.实施例一、本发明实施例提供了一种数据识别方法。
34.请参考图1,图1为本发明所提供的一种数据识别方法的流程示意图,该数据识别方法应用于客户端,包括s101~s105。
35.s101:获取初始识别模型;初始识别模型包括本地模型和全局模型。
36.首先,需要说明的是,本实施例所提供的数据识别方法应用于客户端。具体而言,不同的源域对应于不同的客户端,各个客户端均与服务器建立通信连接关系,通过客户端与服务器相互协作实现各个客户端上数据识别模型的训练,也就是实现各源域客户端上数据识别模型的同时构建。
37.进一步,本步骤旨在实现初始识别模型的获取。具体而言,在各个源域客户端上部署初始识别模型,各初始识别模型的模型结构一致,通过后续使用各源域客户端上的本地样本数据对初始识别模型进行训练,即可获得适用于各源域客户端的数据识别模型。其中,数据识别模型按照网络结构被划分为本地模型和全局模型,即数据识别模型中的一部分网络结构为本地模型部分,另一部分网络结构则为全局模型部分,本地模型部分基于客户端本地样本数据进行模型训练,以有效避免各源域之间进行数据交换,保证数据安全;全局模型部分则由客户端本地样本协作服务器进行模型训练,以通过服务器与其他源域的表征信息进行相互融合,保证模型的准确度。
38.在一种可能的实现方式中,上述全局模型可以包括嵌入层、自注意力层、归一化层;本地模型可以包括前馈神经网络层(ffn,feed-forward network)、归一化层、条件随机场层(crf,conditional random fields)。
39.可以理解的是,由于嵌入层、自注意力层和归一化层通常学习到通用的语义特征和实体表征,因此,可以将他们划分为全局模型,能够通过服务器和其他源域的表征信息进行相互融合;而后面的前馈神经网络层、归一化层和条件随机场层的作用是学习到本源域的特定知识进行具体的数据分类,能够根据全局模型部分的特征进行分类,不同源域的本地模型会学习到不同数据中特有的类型信息,因此,可以将他们划分为局部模型,不通过服务器与其他源域进行融合,而是能保留本源域的知识,以便于让本源域的数据识别模型更能对本源域上的数据进行更好的识别。
40.s102:利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度。
41.本步骤旨在实现初始识别模型的训练。在该过程中,可以获取当前源域客户端的本地样本(已完成标签设置),然后将该本地样本输入至初始识别模型中进行训练,得到本地模型的梯度信息(即上述本地模型梯度)和全局模型的梯度信息(即上述全局模型梯度)。需要说明的是,对于不同的源域客户端,均使用自身本地样本进行模型训练,无需与其他源域客户端进行数据交互,可有效保证本源域内数据信息的安全性。
42.s103:将全局模型梯度上传至服务器,以使服务器利用全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数。
43.本步骤旨在实现全局模型梯度的上传处理,即将全局模型梯度上传至服务器进行后续处理。对于每一个源域客户端而言,其在完成一轮模型训练获得本地模型梯度和全局模型梯度之后,可将全局模型梯度上传至服务器,由此,服务器收集所有源域客户端上传的全局模型梯度,进而利用所有全局模型梯度进行参数更新处理,此处是指对服务器模型参数进行更新,获得服务器模型更新参数。其中,服务器模型参数对应各源域客户端中的全局模型参数,也就是结合中心服务器,整合所有源域客户端的全局模型梯度对源域客户端中的全局模型进行参数更新处理。
44.s104:利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。
45.本步骤旨在实现参数(包括本地模型参数和全局模型参数)的迭代更新,进而获得数据识模型。具体而言,可以利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,从而实现本地模型参数和全局模型参数的更新处理,由此,通过迭代更新即可获得最优本地模型参数和最优全局模型参数,相应的,基于该最优本地模型参数和最优全局模型参数的训练模型即数据识别模型。
46.其中,在迭代更新过程中,在每一轮迭代更新之后,均会判定本轮训练模型是否满足预设条件,例如,当前迭代更新次数是否达到预先设定的迭代更新次数,模型训练损失是否达到预设损失范围之内,所训练的模型是否已经收敛等,若不满足该预设条件,则继续进行新一轮的迭代更新,直至训练模型满足上述预设条件,由此,当满足预设条件时,即可认为模型训练已结束,得到最终的数据识别模型。
47.由此,通过各源域客户端与服务器的协作处理,实现了各源域客户端上数据识别模型的训练,对于每一个源域客户端而言,所训练获得的数据识别模型为基于本地样本训练得到的模型,同时通过服务器学习有其他源域客户端中的数据特征,不仅可以有效保证每个源域中数据识别模型的适用性,保证模型精度,还可以有效保证异构多源域数据的安全性。
48.s105:利用数据识别模型执行数据识别操作。
49.本步骤旨在实现数据识别操作。具体而言,在完成数据识别模型训练之后,即可利用该数据识别模型执行数据识别操作,对于需要进行识别的目标数据,可将其输入至该数据识别模型中进行处理,模型的输出即为关于该目标数据的识别结果。
50.需要说明的是,上述s101~s104为数据识别模型的训练过程,在实际应用中,在完成模型训练得到数据识别模型之后,可将其保存至预设存储空间中,在接收到需识别的目标数据时,直接调取数据识别模型进行处理即可,无需在每次数据识别时重复进行模型训练。
51.可见,本发明实施例所提供的一种数据识别方法,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模
型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
52.在上述实施例的基础上:在本发明的一个实施例中,上述利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度,可以包括:利用初始识别模型对本地样本进行处理,获得各本地样本的概率分布;根据各概率分布计算获得初始识别模型的当前损失函数;利用当前损失函数和本地模型参数进行计算,获得本地模型梯度;利用当前损失函数和全局模型参数进行计算,获得全局模型梯度。
53.本发明实施例提供了一种通过初始识别模型训练计算本地模型梯度和全局模型梯度的实现方法。首先,将本地样本输入至本地初始识别模型进行处理,模型的输出即每一个本地样本的概率分布,然后利用所有本地样本的概率分布计算该初始识别模型的当前损失函数,也就是本轮模型训练的损失函数值,最后,结合本地模型参数和全局模型参数的当前值计算得到本地模型梯度和全局模型梯度。
54.在本发明的一个实施例中,上述利用初始识别模型对本地样本进行处理,获得各本地样本的概率分布,可以包括:对于每一本地样本,对本地样本进行文本划分,获得各文字数据;根据各文字数据组合为各词组数据;确定各文字数据的序列号和各词组数据的序列号;根据各文字数据的序列号生成各文字数据的绝对头位置和绝对尾位置;根据各词组数据的序列号生成各词组数据的绝对头位置和绝对尾位置;根据各文字数据的序列号、绝对头位置、绝对尾位置和各词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列;将各本地样本对应的模型输入序列输入至初始识别模型,获得各本地样本的概率分布。
55.本发明实施例提供了一种利用初始识别模型计算各个本地样本的概率分布的实现方法。具体而言,当数据识别模型用于实现命名实体识别时,本地样本具体为文本数据,由此,对于每一个本地样本,可对其进行文本划分,得到该文本中的每一个文字,即上述文字数据,然后通过组词的方式将各个文字数据组合为多个词组数据,进而得到各个文字数据和各个词组数据的序列号;进一步,结合各个序列号数据,可以生成各个文字数据的绝对头位置和绝对尾位置、各个词组数据的绝对头位置和绝对尾位置;最后,基于这些数据信息生成模型输入序列,也就是生成即将输入至初始识别模型的数据序列,将该序列输入至初始识别模型进行处理,模型的输出即为各本地样本的概率分布。
56.可见,在本发明实施例中,通过组词的方式获得了基于各个文字数据组成的词组数据,并将其与文字数据相组合,基于各个文字数据的特征信息(包括序列号和位置信息)和各个词组数据的特征信息实现模型输入序列的生成,在一定程度上实现了样本扩充功
能,有助于训练获得具有更高精度的数据识别模型,从而可以有效提高数据识别结果的准确性。
57.在本发明的一个实施例中,上述根据各文字数据组合为各词组数据,可以包括:通过查询字典获得各文字数据对应的词组数据。具体而言,为基于文字数据生成词组数据,可通过查询字典的方式进行文字组词,方可获得每一个本地样本中所包含的所有词组数据。
58.在本发明的一个实施例中,上述确定各文字数据的序列号和各词组数据的序列号,可以包括:通过查询预设词表确定各文字数据的序列号和各词组数据的序列号。具体而言,可以预先创建词表,用于记录各文本数据(包括文字数据和词组数据)与序列号的对应关系,由此,即可通过查询预设词表的方式实现序列号数据的确定。
59.在本发明的一个实施例中,上述根据各文字数据的序列号生成各文字数据的绝对头位置和绝对尾位置,可以包括:对于每一文字数据,根据文字数据的序列号确定文字数据在本地样本中的位置信息;根据位置信息生成文字数据的绝对头位置和绝对尾位置。
60.本发明实施例提供了一种计算各文字数据的绝对位置的实现方法。对于每一个文字数据,均可以根据其序列号确定该文字数据在本地样本中的位置信息,如本地样本中的第一个文字、第五个文字等,然后根据该位置信息确定该文字数据的绝对头位置和绝对尾位置,从而完成文字数据的绝对位置计算。
61.在本发明的一个实施例中,上述根据各词组数据的序列号生成各词组数据的绝对头位置和绝对尾位置,可以包括:对于每一词组数据,确定词组数据中的各文字数据;根据各文字数据的绝对头位置和绝对尾位置生成词组数据的绝对头位置和绝对尾位置。
62.本发明实施例提供了一种计算各词组数据的绝对位置的实现方法,可以理解的是,词组数据基于文字数据生成,因此,词组数据的绝对位置可以根据其中所包含的文字数据的绝对位置计算得到。具体的,对于每一个词组数据,可以先确定其中所包含的各个文字数据,然后根据各个文字数据的绝对位置计算得到该词组数据的绝对位置,即该词组数据的绝对头位置和绝对尾位置,从而完成词组数据的绝对位置计算。
63.在本发明的一个实施例中,上述根据各文字数据的序列号、绝对头位置、绝对尾位置和各词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列,可以包括:对于每一文字数据,根据文字数据的序列号、绝对头位置、绝对尾位置计算获得文字数据对应的特征向量;对于每一词组数据,根据词组数据的序列号、绝对头位置、绝对尾位置计算获得词组数据对应的特征向量;将各文字数据的特征向量和各词组数据的特征向量组合为模型输入序列。
64.本发明实施例提供了一种模型输入序列的实现方法。可以理解的是,为实现基于模型的数据处理,可以先将待处理的数据信息转换为特征向量的形式,具体的,对于每一个文字数据,根据其序列号和绝对位置信息计算其对应的特征向量,对于每一个词组数据,根据其序列号和绝对位置信息计算其对应的特征向量,由此,对于每一个本地样本而言,即可
将其中所包含的所有文字数据的特征向量和所有词组的特征向量组合为该本地样本对应的模型输入序列。
65.在本发明的一个实施例中,上述根据文字数据的序列号、绝对头位置、绝对尾位置计算获得文字数据对应的特征向量,可以包括:将文字数据的序列号转换为序列号向量;将文字数据的绝对头位置转换为绝对头位置向量;将文字数据的绝对尾位置转换为绝对尾位置向量;对文字数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得文字数据对应的特征向量。
66.本发明实施例提供了一种计算文字数据的特征向量的实现方法。对于每一个文字数据而言,可以先分别将其序列号、绝对头位置、绝对位置值依次转换为相应的特征向量,得到序列号向量、绝对头位置向量以及绝对尾位置向量,然后通过向量相加的计算方式得到该文字数据对应的特征向量。
67.在本发明的一个实施例中,上述根据词组数据的序列号、绝对头位置、绝对尾位置计算获得词组数据对应的特征向量,可以包括:将词组数据的序列号转换为序列号向量;将词组数据的绝对头位置转换为绝对头位置向量;将词组数据的绝对尾位置转换为绝对尾位置向量;对词组数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得词组数据对应的特征向量。
68.本发明实施例提供了一种计算词组数据的特征向量的实现方法,该实现流程参照上述文字数据的特征向量的计算流程即可,在此不再赘述。
69.在本发明的一个实施例中,上述利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型,可以包括:利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得模型损失达到预设阈值的数据识别模型。
70.本发明实施例提供了一种具体的预设条件。具体而言,在每一轮模型训练完成之后,都可以判断此次训练后的模型损失函数的当前值是否达到预设阈值,如若达到预设阈值,则说明模型训练结束,得到数据识别模型,反之,则认为模型训练未结束,需要继续进行迭代训练。需要说明的是,预设阈值的取值并不影响本技术方案的实施,由技术人员根据实际情况进行设定即可,本发明对此不做限定。
71.在本发明的一个实施例中,上述利用本地模型梯度对本地模型参数进行更新,可以包括:确定本地模型参数的当前值,并获取预设学习率;根据本地模型梯度、地模型参数的当前值、预设学习率计算获得本地模型参数的更新值。
72.本发明实施例提供了一种利用本地模型梯度对本地模型参数进行更新的实现方式。首先,确定本地模型参数的当前值,该当前值是上一轮模型训练结束之后更新获得的数值,同时获取超参数预设学习率,该预设学习率为预先设置的定值,然后,结合此次模型训
练获得的本地模型梯度进行公式计算,即可获得本地模型参数的更新值,从而完成本地模型参数的更新。
73.在本发明的一个实施例中,上述利用服务器模型更新参数对全局模型参数进行更新,可以包括:将服务器模型更新参数的当前值作为全局模型参数的更新值。
74.本发明实施例提供了一种利用服务器模型更新参数对全局模型参数进行更新的实现方式。如上所述,服务器模型参数对应各源域客户端中的全局模型参数,因此,在服务器完成参数更新之后,直接将全局模型参数的当前值替换为该服务器模型更新参数的当前值即可,至此,完成全局模型参数的更新。
75.在本发明的一个实施例中,上述将全局模型梯度上传至服务器,以使服务器利用全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数,可以包括:将全局模型梯度上传至服务器,以使服务器对各客户端上传的全局模型梯度进行聚合处理获得聚合梯度,并利用聚合梯度对服务器模型参数进行更新处理,获得服务器模型更新参数。
76.本发明实施例提供了一种服务器模型参数更新的实现方法。对于每一个源域客户端而言,其在完成一轮模型训练得到全局模型梯度和本地模型梯度之后,将会把全局模型梯度上传至服务器,由服务器利用该全局模型梯度进行服务器模型参数的更新处理;进一步,对于服务器而言,其在获取到所有源域客户端上传的全局模型梯度之后,即可对所有的全局模型梯度进行聚合处理,得到聚合梯度,然后利用该聚合梯度实现服务器模型参数的更新,得到服务器模型更新参数。需要说明的是,服务器对服务器模型参数的更新可参照上述本地模型参数的更新过程,同样可结合服务器模型参数的当前值和预设学习率进行公式计算,获得服务器模型更新参数。
77.在本发明的一个实施例中,上述将全局模型梯度上传至服务器,以使服务器对各客户端上传的全局模型梯度进行聚合处理获得聚合梯度,可以包括:将全局模型梯度上传至服务器,以使服务器利用聚合公式对各客户端上传的全局模型梯度进行加权平均计算,获得聚合梯度;聚合公式为:;;;其中,为聚合梯度,为第个客户端的全局模型梯度,为第个客户端的样本占比,为第个客户端的权重,为第个客户端的本地样本数量,
为所有客户端的样本总数量,为第个客户端的梯度变化,为自然常数。
78.本发明实施例提供了一种聚合处理的具体实现方式,即加权平均计算。对于服务器而言,其在获取到所有源域客户端上传的全局模型梯度之后,即可按照预设权重对所有的全局模型梯度进行加权平均计算,并将计算获得的加权平均值作为最终的聚合梯度。其中,梯度变化是指第个客户端中在当前轮次迭代训练过程中计算得到的全局模型梯度与上一轮次迭代训练过程中计算得到的全局模型梯度的差值。
79.其中,关于客户端权重的设置规则如下:考虑到不同客户端上用于进行模型训练的样本数量各有不同,因此,在服务端进行梯度聚合时各个客户端的贡献度也各有不同,显然,当某一客户端上用于进行模型训练的样本数量较多时,其对服务端聚合梯度的贡献度更大,当某一客户端上用于进行模型训练的样本数量较少时,其对服务端聚合梯度的贡献度更小,因此,可以对前一客户端设置更高的权重,对后一客户端设置更低的权重,以便于有效提高模型精度,进而提高数据识别结果的准确性。
80.在本发明的一个实施例中,上述利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度之前,还可以包括:获取服务器中的训练样本批大小;按照训练样本批大小对本地全局样本进行划分,获得各本地样本。
81.具体而言,在利用本地样本对初始识别模型进行训练之前,可以先确定本地样本,该本地样本是指本轮模型训练所使用到的样本数据。首先,从服务器获取其设定的训练样本批大小,即每轮模型训练所使用到的样本数据的数量(也即本地样本的数量),然后,利用该训练样本批大小对源域客户端中的本地全局样本进行样本划分,得到多个本地样本,其中,本地全局样本是指本源域客户端中所存在的所有的数据样本。在实现过程中,可以根据服务器中的训练样本批大小和本地全局样本的数量进行比例计算,得到每一轮模型训练所使用的本地样本的占比,并基于该占比从本地全局样本中选择本地样本进行模型训练,由此,通过设定每轮模型训练所使用的本地样本的数量,可以有效避免出现个别源域上的样本数据训练完毕,但其他源域内还有样本数据需要训练的情况,保证所有客户端上每轮训练样本的均衡性。
82.实施例二、本发明实施例提供了一种模型训练方法。
83.请参考图2,图2为本发明所提供的一种模型训练方法的流程示意图,该模型训练方法应用于客户端,包括s201至s204。
84.s201:获取初始识别模型;初始识别模型包括本地模型和全局模型;s202:利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度;s203:将全局模型梯度上传至服务器,以使服务器利用各全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;s204:利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。
85.可见,本发明实施例所提供的一种模型训练方法,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
86.实施例三、本发明实施例以命名实体识别为例,提供了又一种数据识别方法。
87.请参考图3和图5,图3为本发明所提供的另一种数据识别方法的流程示意图,图5为本发明所提供的一种数据识别系统的结构示意图,该数据识别方法的其实现流程可以包括:(1)在每个源域客户端部署命名实体初始识别模型,请参考图4,图4为本发明所提供的一种数据识别模型的结构示意图,该初始识别模型的基本结构为标准的transformer(一类以自注意力为主要部件的特定模型)+crf(条件随机场),其中,将嵌入层、自注意力层和归一化层划分为全局模型,将前馈神经网络层、归一化层和条件随机场层划分为本地模型。
88.(2)在每个源域客户端中,利用私有数据训练本地的命名实体初始识别模型。
89.(3)对于每一个本地样本,根据词表得到该本地样本中每个文字对应的序列号,然后通过查询词典得到该文字对应的所有可能的词组,同样通过查询词表得到每个词组对应的序列号。
90.(4)根据每个文字在本地样本中的位置,生成绝对位置头位置编码和绝对尾位置编码,每个词组则根据其中所包含文字的首尾位置生成该词组的绝对头位置编码和绝对尾位置编码;然后,对于各个绝对位置编码,通过初始识别模型的嵌入层将其转化为相应的特征向量,即绝对头位置向量和绝对尾位置向量,得到相应的特征向量序列。
91.(5)对于每个文字的序列号和每个词组的序列号,同样通过初始识别模型的嵌入层将其转化为相应的特征向量,即序列号向量,得到相应的序列号向量序列。
92.(6)将步骤(4)和步骤(5)中的序列号向量序列、绝对头位置向量序列、绝对尾位置向量序列,按位置加和得到最终的模型输入序列。
93.(7)将步骤(6)中的模型输入序列输入到初始识别模型,最后crf层的输出经过softmax层得到每个本地样本的概率分布。
94.(8)利用各个概率分布计算当前损失函数,标记为:;其中,表示第个源域客户端的损失函数,表示第个本地样本的概率分布,表示标准损失函数值。
95.(9)在每次训练迭代过程中,本源域客户端均选择一个最小批次的数据进行训练:;其中,是服务器设定的训练样本批大小(batch size),表示第个源域客户端上本轮模型训练所使用的本地样本的数量,为第个客户端的样本数量,为所有客户端的样本总数量。
96.(10)计算本源域内的模型梯度:在源域(第个源域客户端)中,可以利用数据集计算模型梯度的大小,本地模型梯度和全局模型梯度分别为和,其中,为第个源域客户端上的本地模型参数,为第个源域客户端上的全局模型参数。
97.(11)将每个源域的全局模型梯度上传至服务器中,以便服务器根据所有源域的全局模型梯度计算聚合梯度。
98.(12)根据本地模型参数更新公式对本地模型参数进行更新:;其中,超参数是学习率。
99.(13)服务器利用各个源域客户端上传的全局模型梯度进行加权平均计算,得到聚合梯度:;;;其中,为聚合梯度,为第个客户端的全局模型梯度,为第个客
户端的样本占比,为第个客户端的权重,为第个客户端的本地样本数量,为所有客户端的样本总数量,为第个客户端的梯度变化,为自然常数。
100.(14)服务器根据服务器模型参数更新公式对服务器模型参数进行更新:。
101.(15)将本源域客户端的全局模型参数替换为上述更新后的服务器模型参数。
102.(16)返回(2)进行迭代训练,直到模型损失收敛至目标值(预设阈值),则模型训练完成。
103.(17)每个源域中,均可利用训练好的全局模型和本地模型组合成完整的数据识别模型执行命名实体识别操作。
104.可见,本发明实施例所提供的一种数据识别方法,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
105.实施例四、本发明实施例提供了一种数据识别装置。
106.请参考图6,图6为本发明所提供的一种数据识别装置的结构示意图,该数据识别装置应用于客户端,包括:第一获取模块110,用于获取初始识别模型;初始识别模型包括本地模型和全局模型;第一训练模块120,用于利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第一上传模块130,用于将全局模型梯度上传至服务器,以使服务器利用全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第一更新模块140,用于利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;执行模块150,用于利用数据识别模型执行数据识别操作。
107.可见,本发明实施例所提供的一种数据识别装置,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模
型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
108.在本发明的一个实施例中,上述第一训练模块120可包括:处理单元,用于利用初始识别模型对本地样本进行处理,获得各本地样本的概率分布;第一计算单元,用于根据各概率分布计算获得初始识别模型的当前损失函数;第二计算单元,用于利用当前损失函数和本地模型参数进行计算,获得本地模型梯度;第三计算单元,用于利用当前损失函数和全局模型参数进行计算,获得全局模型梯度。
109.在本发明的一个实施例中,上述处理单元可包括:划分子单元,用于对于每一本地样本,对本地样本进行文本划分,获得各文字数据;组合子单元,用于根据各文字数据组合为各词组数据;确定子单元,用于确定各文字数据的序列号和各词组数据的序列号;第一生成子单元,用于根据各文字数据的序列号生成各文字数据的绝对头位置和绝对尾位置;第二生成子单元,用于根据各词组数据的序列号生成各词组数据的绝对头位置和绝对尾位置;第三生成子单元,用于根据各文字数据的序列号、绝对头位置、绝对尾位置和各词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列;输出子单元,用于将各本地样本对应的模型输入序列输入至初始识别模型,获得各本地样本的概率分布。
110.在本发明的一个实施例中,上述组合子单元可具体用于通过查询字典获得各文字数据对应的词组数据。
111.在本发明的一个实施例中,上述确定子单元可具体用于通过查询预设词表确定各文字数据的序列号和各词组数据的序列号。
112.在本发明的一个实施例中,上述第一生成子单元可具体用于对于每一文字数据,根据文字数据的序列号确定文字数据在本地样本中的位置信息;根据位置信息生成文字数据的绝对头位置和绝对尾位置。
113.在本发明的一个实施例中,上述第二生成子单元可具体用于对于每一词组数据,确定词组数据中的各文字数据;根据各文字数据的绝对头位置和绝对尾位置生成词组数据的绝对头位置和绝对尾位置。
114.在本发明的一个实施例中,上述第三生成子单元可具体用于对于每一文字数据,根据文字数据的序列号、绝对头位置、绝对尾位置计算获得文字数据对应的特征向量;对于每一词组数据,根据词组数据的序列号、绝对头位置、绝对尾位置计算获得词组数据对应的特征向量;将各文字数据的特征向量和各词组数据的特征向量组合为模型输入序列。
115.在本发明的一个实施例中,上述第三生成子单元可具体用于将文字数据的序列号转换为序列号向量;将文字数据的绝对头位置转换为绝对头位置向量;将文字数据的绝对尾位置转换为绝对尾位置向量;对文字数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得文字数据对应的特征向量。
116.在本发明的一个实施例中,上述第三生成子单元可具体用于将词组数据的序列号转换为序列号向量;将词组数据的绝对头位置转换为绝对头位置向量;将词组数据的绝对尾位置转换为绝对尾位置向量;对词组数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得词组数据对应的特征向量。
117.在本发明的一个实施例中,上述第一更新模块140可具体用于利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得模型损失达到预设阈值的数据识别模型。
118.在本发明的一个实施例中,上述第一更新模块140可具体用于确定本地模型参数的当前值,并获取预设学习率;根据本地模型梯度、地模型参数的当前值、预设学习率计算获得本地模型参数的更新值。
119.在本发明的一个实施例中,上述第一更新模块140可具体用于将服务器模型更新参数的当前值作为全局模型参数的更新值。
120.在本发明的一个实施例中,上述第一上传模块130可具体用于将全局模型梯度上传至服务器,以使服务器对各客户端上传的全局模型梯度进行聚合处理获得聚合梯度,并利用聚合梯度对服务器模型参数进行更新处理,获得服务器模型更新参数。
121.在本发明的一个实施例中,上述第一上传模块130可具体用于将全局模型梯度上传至服务器,以使服务器利用聚合公式对各客户端上传的全局模型梯度进行加权平均计算,获得聚合梯度;聚合公式为:;;;其中,为聚合梯度,为第个客户端的全局模型梯度,为第个客
户端的样本占比,为第个客户端的权重,为第个客户端的本地样本数量,为所有客户端的样本总数量,为第个客户端的梯度变化,为自然常数。
122.在本发明的一个实施例中,该数据识别装置还可包括划分模块,用于在上述利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度之前,获取服务器中的训练样本批大小;按照训练样本批大小对本地全局样本进行划分,获得各本地样本。
123.在本发明的一个实施例中,全局模型可以包括嵌入层、自注意力层、归一化层;本地模型可以包括前馈神经网络层、归一化层、条件随机场层。
124.对于本发明实施例提供的装置的介绍请参照上述方法实施例,本发明在此不做赘述。
125.实施例五、本发明实施例提供了一种模型训练装置。
126.请参考图7,图7为本发明所提供的一种模型训练装置的结构示意图,该模型训练装置应用于客户端,包括:第二获取模块210,用于获取初始识别模型;初始识别模型包括本地模型和全局模型;第二训练模块220,用于利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第二上传模块230,用于将全局模型梯度上传至服务器,以使服务器利用全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第二更新模块240,用于利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。
127.可见,本发明实施例所提供的一种模型训练装置,在各客户端部署初始识别模型进行数据识别模型的训练,并且,该初始识别模型由本地模型和全局模型两部分组成,在模型训练过程中,使用客户端本地样本对初始识别模型进行训练,分别获得本地模型梯度和全局模型梯度,其中,将全局模型梯度上传至服务器,以使服务器利用各客户端上传的全局模型梯度进行服务器模型参数的更新,由此,即可利用更新的服务器参数对客户端全局模型参数进行更新,利用本地模型梯度对客户端本地模型参数进行更新,如此通过迭代训练即可获得满足预设条件的数据识别模型,显然,基于该技术方案,通过利用不同源域上的样本数据以协作的方式实现了各源域中数据识别模型的同时构建,不仅可以有效保证每个源域中数据识别模型的适用性,还可以对多源域数据进行快速高效的识别,并且,该实现方式不需要各源域之间进行数据交换,也有效地保证了异构多源域数据的安全性。
128.对于本发明实施例提供的装置的介绍请参照上述方法实施例,本发明在此不做赘述。
129.实施例六、本发明实施例提供了一种电子设备。
130.请参考图8,图8为本发明所提供的一种电子设备的结构示意图,该电子设备可包括:
存储器11,用于存储计算机程序;处理器10,用于执行计算机程序时可实现如上述任意一种数据识别方法的步骤和/或任意一种模型训练方法的步骤。
131.如图8所示,为电子设备的组成结构示意图,电子设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
132.在本发明实施例中,处理器10可以为中央处理器(central processing unit,cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
133.处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行数据识别方法和/或模型训练方法的实施例中的操作。
134.存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本发明实施例中,存储器11中至少存储有用于实现以下功能的程序:获取初始识别模型;初始识别模型包括本地模型和全局模型;利用本地样本对初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将全局模型梯度上传至服务器,以使服务器利用各全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用本地模型梯度对本地模型参数进行更新,利用服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用数据识别模型执行数据识别操作。
135.在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
136.此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
137.通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
138.当然,需要说明的是,图8所示的结构并不构成对本发明实施例中电子设备的限定,在实际应用中电子设备可以包括比图8所示的更多或更少的部件,或者组合某些部件。
139.实施例七、本发明实施例提供了一种计算机可读存储介质。
140.本发明实施例所提供的计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上述任意一种数据识别方法的步骤和/或任意一种模型训练方法的步骤。
141.该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
142.对于本发明实施例提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
143.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实
施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
144.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
145.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom或技术领域内所公知的任意其它形式的存储介质中。
146.以上对本发明所提供的技术方案进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。

技术特征:
1.一种数据识别方法,其特征在于,应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。2.根据权利要求1所述的数据识别方法,其特征在于,所述利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度,包括:利用所述初始识别模型对所述本地样本进行处理,获得各所述本地样本的概率分布;根据各所述概率分布计算获得所述初始识别模型的当前损失函数;利用所述当前损失函数和所述本地模型参数进行计算,获得所述本地模型梯度;利用所述当前损失函数和所述全局模型参数进行计算,获得所述全局模型梯度。3.根据权利要求2所述的数据识别方法,其特征在于,所述利用所述初始识别模型对所述本地样本进行处理,获得各所述本地样本的概率分布,包括:对于每一所述本地样本,对所述本地样本进行文本划分,获得各文字数据;根据各所述文字数据组合为各词组数据;确定各所述文字数据的序列号和各所述词组数据的序列号;根据各所述文字数据的序列号生成各所述文字数据的绝对头位置和绝对尾位置;根据各所述词组数据的序列号生成各所述词组数据的绝对头位置和绝对尾位置;根据各所述文字数据的序列号、绝对头位置、绝对尾位置和各所述词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列;将各所述本地样本对应的模型输入序列输入至所述初始识别模型,获得各所述本地样本的概率分布。4.根据权利要求3所述的数据识别方法,其特征在于,所述根据各所述文字数据组合为各词组数据,包括:通过查询字典获得各所述文字数据对应的词组数据。5.根据权利要求3所述的数据识别方法,其特征在于,所述确定各所述文字数据的序列号和各所述词组数据的序列号,包括:通过查询预设词表确定各所述文字数据的序列号和各所述词组数据的序列号。6.根据权利要求3所述的数据识别方法,其特征在于,所述根据各所述文字数据的序列号生成各所述文字数据的绝对头位置和绝对尾位置,包括:对于每一所述文字数据,根据所述文字数据的序列号确定所述文字数据在所述本地样本中的位置信息;根据所述位置信息生成所述文字数据的绝对头位置和绝对尾位置。7.根据权利要求3所述的数据识别方法,其特征在于,所述根据各所述词组数据的序列号生成各所述词组数据的绝对头位置和绝对尾位置,包括:对于每一所述词组数据,确定所述词组数据中的各文字数据;
根据各所述文字数据的绝对头位置和绝对尾位置生成所述词组数据的绝对头位置和绝对尾位置。8.根据权利要求3所述的数据识别方法,其特征在于,所述根据各所述文字数据的序列号、绝对头位置、绝对尾位置和各所述词组数据的序列号、绝对头位置、绝对尾位置生成模型输入序列,包括:对于每一所述文字数据,根据所述文字数据的序列号、绝对头位置、绝对尾位置计算获得所述文字数据对应的特征向量;对于每一所述词组数据,根据所述词组数据的序列号、绝对头位置、绝对尾位置计算获得所述词组数据对应的特征向量;将各所述文字数据的特征向量和各所述词组数据的特征向量组合为所述模型输入序列。9.根据权利要求8所述的数据识别方法,其特征在于,所述根据所述文字数据的序列号、绝对头位置、绝对尾位置计算获得所述文字数据对应的特征向量,包括:将所述文字数据的序列号转换为序列号向量;将所述文字数据的绝对头位置转换为绝对头位置向量;将所述文字数据的绝对尾位置转换为绝对尾位置向量;对所述文字数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得所述文字数据对应的特征向量。10.根据权利要求8所述的数据识别方法,其特征在于,所述根据所述词组数据的序列号、绝对头位置、绝对尾位置计算获得所述词组数据对应的特征向量,包括:将所述词组数据的序列号转换为序列号向量;将所述词组数据的绝对头位置转换为绝对头位置向量;将所述词组数据的绝对尾位置转换为绝对尾位置向量;对所述词组数据的序列号向量、绝对头位置向量、绝对尾位置向量进行向量加和计算,获得所述词组数据对应的特征向量。11.根据权利要求2所述的数据识别方法,其特征在于,所述利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型,包括:利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得模型损失达到预设阈值的数据识别模型。12.根据权利要求1所述的数据识别方法,其特征在于,所述利用所述本地模型梯度对本地模型参数进行更新,包括:确定所述本地模型参数的当前值,并获取预设学习率;根据所述本地模型梯度、所述地模型参数的当前值、所述预设学习率计算获得所述本地模型参数的更新值。13.根据权利要求1所述的数据识别方法,其特征在于,所述利用所述服务器模型更新参数对全局模型参数进行更新,包括:将所述服务器模型更新参数的当前值作为所述全局模型参数的更新值。14.根据权利要求1所述的数据识别方法,其特征在于,所述将所述全局模型梯度上传
至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数,包括:将所述全局模型梯度上传至所述服务器,以使所述服务器对各所述客户端上传的全局模型梯度进行聚合处理获得聚合梯度,并利用所述聚合梯度对所述服务器模型参数进行更新处理,获得所述服务器模型更新参数。15.根据权利要求14所述的数据识别方法,其特征在于,所述将所述全局模型梯度上传至所述服务器,以使所述服务器对各所述客户端上传的全局模型梯度进行聚合处理获得聚合梯度,包括:将所述全局模型梯度上传至所述服务器,以使所述服务器利用聚合公式对各所述客户端上传的全局模型梯度进行加权平均计算,获得所述聚合梯度;所述聚合公式为:;;;其中,为所述聚合梯度,为第个客户端的全局模型梯度,为第个客户端的样本占比,为第个客户端的权重,为第个客户端的本地样本数量,为所有客户端的样本总数量,为第个客户端的梯度变化,为自然常数。16.根据权利要求1至15任一项所述的数据识别方法,其特征在于,所述利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度之前,还包括:获取所述服务器中的训练样本批大小;按照所述训练样本批大小对本地全局样本进行划分,获得各所述本地样本。17.根据权利要求1所述的数据识别方法,其特征在于,所述全局模型包括嵌入层、自注意力层、归一化层;所述本地模型包括前馈神经网络层、归一化层、条件随机场层。18.一种模型训练方法,其特征在于,应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;
利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。19.一种数据识别装置,其特征在于,应用于客户端,包括:第一获取模块,用于获取初始识别模型;所述初始识别模型包括本地模型和全局模型;第一训练模块,用于利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第一上传模块,用于将所述全局模型梯度上传至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第一更新模块,用于利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;执行模块,用于利用所述数据识别模型执行数据识别操作。20.一种模型训练装置,其特征在于,应用于客户端,包括:第二获取模块,用于获取初始识别模型;所述初始识别模型包括本地模型和全局模型;第二训练模块,用于利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;第二上传模块,用于将所述全局模型梯度上传至服务器,以使所述服务器利用所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;第二更新模块,用于利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型。21.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至17任一项所述的数据识别方法的步骤和/或实现如权利要求18所述的模型训练方法的步骤。22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的数据识别方法的步骤和/或实现如权利要求18所述的模型训练方法的步骤。

技术总结
本发明公开了一种数据识别方法、模型训练方法、装置、设备及存储介质,涉及计算机技术领域,旨在解决传统技术中无法对多源域数据进行快速高效识别的问题,所述数据识别方法应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。据识别操作。据识别操作。


技术研发人员:徐聪 李仁刚 贾麒 刘璐 范宝余 金良 闫瑞栋
受保护的技术使用者:浪潮电子信息产业股份有限公司
技术研发日:2023.08.17
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐