地址识别模型训练方法、装置、计算机设备及存储介质与流程
未命名
08-14
阅读:129
评论:0

1.本发明涉及模型构建技术领域,尤其涉及一种地址识别模型训练方法、装置、计算机设备及存储介质。
背景技术:
2.随着保险公司业务的快速发展。因此越来越多的文本数据需要进行地址识别,尤其是在保险领域中需要对客户的新地址信息进行维护,即对文本数据中地址信息进行提取,从而实现对地址信息的识别。
3.现有技术中,往往是通过保险公司的工作人员人工输入或人工复制的方式对大量的文本数据进行地址识别,但是在保险领域中由于涉及地址信息的文本数据较多,且在人工输入或人工复制地址信息的过程中容易出现错误,从而导致人工识别地址信息的效率较低且准确率较低。采用模型识别的方式进行地址识别,但是由于文本数据中部分地址信息习惯性的省略或重复,从而导致模型识别的效果不佳,以及模型地址识别的准确率较低。
技术实现要素:
4.本发明实施例提供一种地址识别模型训练方法、装置、计算机设备及存储介质,以解决现有技术中地址识别准确率低的问题。
5.一种地址识别模型训练方法,包括:
6.获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据;
7.对所述地址数据进行噪音处理,得到至少一个噪音地址信息;
8.获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本;
9.通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果;
10.根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值;
11.在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。
12.一种地址识别方法,包括:
13.获取目标文本数据,所述目标文本数据包括至少一个地址信息;
14.调用地址识别模型,所述地址识别模型为根据所述地址识别模型训练方法训练得到的地址识别模型;
15.基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。
16.一种地址识别模型训练装置,包括:
17.地址解析模块,用于获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据;
18.噪音处理模块,用于对所述地址数据进行噪音处理,得到至少一个噪音地址信息;
19.地址填充模块,用于获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本;
20.地址识别模块,用于通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果;
21.损失预测模块,用于根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值;
22.模型收敛模块,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。
23.一种地址识别装置,包括:
24.获取模块,用于获取目标文本数据,所述目标文本数据包括至少一个地址信息;
25.调用模块,用于调用地址识别模型,所述地址识别模型为根据所述地址识别模型训练方法训练得到的地址识别模型;
26.识别模块,用于基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。
27.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述地址识别模型训练方法,或所述处理器执行所述计算机程序时实现上述地址识别方法。
28.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述地址识别模型训练方法;或所述计算机程序被处理器执行时实现上述地址识别方法。
29.本发明提供一种地址识别模型训练方法、装置、计算机设备及存储介质,该方法通过地址解析模型对待识别地址数据进行地址解析,实现了从待识别地址数据中切分出地址数据,并确保了地址数据切分的准确率,以及地址数据的完整性。对地址数据添加噪音,从而使得地址数据更加接近实际情况(如asr识别时重复字情况,以及人说话时重复和省略的情况),使得地址数据的分布更倾向于线上分布。预设识别模型通过对目标文本中的地址信息添加预设地址注释,从而实现了对地址识别结果的确定,以及提高了保险领域中地址识别结果的准确率,进而提高了保险领域中地址识别模型的准确率。
附图说明
30.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
31.图1是本发明一实施例中地址识别模型训练方法的应用环境示意图;
32.图2是本发明一实施例中地址识别模型训练方法的流程图;
33.图3是本发明一实施例中地址识别方法的流程图;
34.图4是本发明一实施例中地址识别模型训练装置的原理框图;
35.图5是本发明一实施例中地址识别装置的原理框图;
36.图6是本发明一实施例中计算机设备的示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.本发明实施例提供的地址识别模型训练方法,该地址识别模型训练方法可应用如图1所示的应用环境中。具体地,该地址识别模型训练方法应用在地址识别模型训练装置中,该地址识别模型训练装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中地址识别准确率低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
39.在一实施例中,如图2所示,提供一种地址识别模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
40.s10:获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据。
41.可理解地,待识别地址数据可以从不同的数据库中爬取得到,亦或者从不同的网站上采集得到,也可以为通过客户端发送到服务器中。待识别地址数据为包括地址信息的文本。每个待识别地址数据均对应一个真实地址,也即待识别地址数据中的实际地址。地址解析模型为基于jionlp开源工具包构建的,并通过大量样本地址数据训练得到的。该地址解析模型是用于对待识别地址数据中的地址信息进行解析。地址数据为待识别地址数据中地址信息对应的省、市、区以及详细地址(如街道、乡村或小区等)。
42.具体地,获取至少一个待识别地址数据,并将所有待识别地址数据输入到地址解析模型中,通过地址解析模型对所有待识别地址数据中的地址信息进行地址解析,也即根据jionlp开源工具包分别对所有待识别地址数据中的地址信息进行切分,切分出与地址信息对应的省、市、区以及详细地址,并将切分出的省、市、区以及详细地址确定为与待识别地址数据对应的地址数据。进一步地,当待识别地址数据中的地址信息对应的省、市信息缺失时,通过上下文信息以及中国地名词典对缺失省市地址信息进行补充,从而得到与待识别地址数据中的各地址信息对应的地址数据。并对切分得到的地址数据添加表示肯定意图的标识或否定意图的标识,如pos-地址表示肯定,neg-地址表示否定。例如:在保险领域场景中,用户的住址发生了变化,我还在北京,从朝阳区搬到了海淀区,通过预设地址解析模型
可以得到北京市朝阳区或北京朝阳区地址数据,是表示否定意图,用neg-地址进行标识,以及北京市海淀区或北京海淀区地址数据,是表示肯定意图,用pos-地址进行标识,如此,需要对用户的地址信息进行维护更改。
43.s20:对所述地址数据进行噪音处理,得到至少一个噪音地址信息。
44.可理解地,噪音地址信息为对地址数据添加噪音后得到的,该噪音地址书数据用于模仿自动语音识别技术中的噪声分布和沟通的重复性及省略性。
45.具体地,在得到与各地址信息对应的地址数据之后,对所有解析得到的地址数据进行噪音处理,也即对地址数据随机添加噪音,构建重复性或省略性的地址数据,也即通过特定的扩散步骤对每个地址数据添加噪音,并对添加噪音后的地址数据进行逆扩散处理,从而得到至少一个噪音地址信息。如此,通过上述方式对每一个地址数据进行噪音处理,从而得到与各个地址数据对应的至少一个噪音地址信息。例如,地址数据为江苏省南京市,随机添加噪音后得到江江苏省南京市、江苏省南南南京市、江苏南京、江苏南京市、江苏省南京等至少一个噪音地址信息。
46.s30,获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本。
47.可理解地,待填充模板为用于填充噪音地址信息的文本。目标文本为将噪音地址信息填充到待填充模板中得到的。
48.具体地,在得到与各地址数据对应的所有噪音地址信息之后,从数据库中调取待填充模板,选取与各地址数据对应的所有噪音地址信息中的一个填充到待填充模板中对应的位置,也即根据地址数据的肯定意图的标识或否定意图的标识所对应的选取的噪音地址信息填充至待填充模板对应的位置,也即将表示否定意图的噪音地址信息填充到neg-地址,将表示肯定意图的噪音地址信息填充到pos-地址,直至所有选取的噪音地址信息填充完成,从而得到目标文本。其中,可以将与各地址数据对应的所有噪音地址信息分别填充到不同的待填充模板中,从而得到至少一个目标文本。例如:待填充模板为我的住址变了,不住在xx了,现在住xx。当噪音地址信息为北京朝阳区区,表示否定意图,当噪音地址信息为北北京市海淀区,表示肯定意图,并将选取的噪音地址信息填充到待填充模板对应的位置,即可得到我的住址变了,不住在北京朝阳区区了,现在住北北京市海淀区。
49.s40:通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果。
50.可理解地,预设识别模型为基于lear模型构建的,并可以将地址标签语义信息融合到地址数据中。地址识别结果为用于表征对目标文本进行地址识别得到的地址。
51.具体地,在得到所有目标文本之后,从数据库中获取预设识别模型,将所有目标文本输入到预设识别模型中,通过预设识别模型分别对每个目标文本中的地址信息进行识别,也即通过权重共享的两个编码器分别对目标文本中的地址信息和预设地址注释进行编码处理,得到与地址填充文本对应的地址向量,以及与预设地址注释对应的标签向量,并通过注意力机制对标签向量和地址向量进行融合处理,即将标签向量中的地址信息融合到地址向量中的地址信息中,从而得到融合向量。再通过最近匹配原则对融合向量进行地址识别,从而得到与各目标文本对应的地址识别结果。例如,预设地址注释可以为广东省深圳市,目标文本为我的住址发生了变化,从深圳福田区xx小区xx栋xx号搬到了深圳市龙岗区xx小区xx栋xx号,对目标文本进行地址识别,即可得到广东省深圳市福田区xx小区xx栋xx
号,以及广东省深圳市龙岗区xx小区xx栋xx号。
52.s50,根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值。
53.可理解地,预测损失值为预设识别模型对待识别地址数据进行预测的过程中生成的,用于表征真实地址和地址识别结果之间的差值。
54.具体地,在得到地址识别结果之后,将每个待识别地址数据对应的地址识别结果按照样本地址集中待识别地址数据的顺序进行排列,进而将待识别地址数据关联的真实地址,与序列相同的待识别地址数据的地址识别结果进行比较;也即按照待识别地址数据排序,将位于第一的待识别地址数据对应的真实地址,与位于第一的待识别地址数据对应的地址识别结果进行比较,通过损失函数确定真实地址与地址识别结果之间的损失值;进而将位于第二的待识别地址数据对应的真实地址,与位于第二的待识别地址数据对应的地址识别结果进行比较,直至所有地址识别结果与真实地址均比较完成,即可确定预设识别模型的预测损失值。
55.s60,在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。
56.可理解地,该收敛条件可以为预测损失值小于设定阈值的条件,也即在预测损失值小于设定阈值时,停止训练;收敛条件还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件,也即预测损失值经过500次计算后值很小且不会下降时,停止训练,将收敛之后的预设识别模型记录为地址识别模型。
57.具体地,确定预设识别模型的预测损失值之后,在预测损失值未达到预设的收敛条件时,根据该预测损失值调整预设识别模型的初始参数,并将所有待识别地址数据重新输入至调整初始参数后的预设识别模型中,以在待识别地址数据的预测损失值达到预设的收敛条件时,选取其它的待识别地址数据,执行上述步骤s10至s50,得到与调整初始参数的预设识别模型相对应的预测损失值,并在该预测损失值未达到预设的收敛条件时,根据该预测损失值再次调整预设识别模型的初始参数,使得再次调整初始参数的预设识别模型的预测损失值达到预设的收敛条件。
58.如此,在通过所有待识别地址数据对预设识别模型进行训练之后,使得预设识别模型输出的结果可以不断向准确地结果靠拢,让预测准确率越来越高,直至所有待识别地址数据的预测损失值均达到预设的收敛条件时,将收敛之后的预设识别模型记录为地址识别模型。
59.在本发明实施例中的一种地址识别模型训练方法,该方法通过地址解析模型对待识别地址数据进行地址解析,实现了从待识别地址数据中切分出地址数据,并确保了地址数据切分的准确率,以及地址数据的完整性。对地址数据添加噪音,从而使得地址数据更加接近实际情况(如asr识别时重复字情况,以及人说话时重复和省略的情况),使得地址数据的分布更倾向于线上分布。预设识别模型通过对目标文本中的地址信息添加预设地址注释,从而实现了对地址识别结果的确定,以及提高了保险领域中地址识别结果的准确率,进而提高了保险领域中地址识别模型的准确率。
60.在一实施例中,步骤s20中,也即对所述地址数据进行噪音处理,得到至少一个噪
音地址信息,包括:
61.s201,对所述地址数据进行噪音扩散处理,得到噪音地址数据。
62.可理解地,噪音地址数据对地址数据增加高斯噪音并逐步扩散得到的。
63.具体地,在得到地址数据之后,对每个地址数据进行噪音扩散处理,即在第一个时间步内对地址数据增加高斯噪音,并根据特征的扩散步骤在t-1个时间步内将增加的高斯噪音扩散到整个地址数据,也即加噪过程持续t次,产生一系列带噪声地址数据x1、x2、、、x
t
。在由x
t-1
加噪至x
t
的过程中,噪声的标准差/方差是以一个在区间(0,1)内的固定值β
t
来确定的,均值是以固定值β
t
和当前时刻的地址数据x
t-1
来确定的。也即该扩散步骤的公式为来确定的。也即该扩散步骤的公式为q(x
t
|x
t-1
)为高斯噪音从x
t-1
到x
t
的过程,高斯噪音满足分布(是指以为均值,β
t
为方差的高斯分布),如此,只需在地址数据的基础上确定每一步的固定值β
t
,即可得到每一时间步内的噪音地址数据,直至到最后一个时间步内扩散完成,即可得到噪音地址数据。
64.s202,对所述噪音地址数据进行去噪预测处理,得到至少一个所述噪音地址信息。
65.具体地,在得到噪音地址数据之后,对噪音地址数据进行逆扩散过程,对噪音地址数据进行去噪处理,即根据地址数据对噪音地址数据进行预测处理,也即只需将上述步骤的过程进行逆处理,从q(x
t-1
|x
t
)中采样,可以从一个随机的高斯分布n(0,i)中重建出至少一个真实的噪音地址信息,也就是从一个完全杂乱无章的噪声地址数据中得到一个真实地址信息。从噪音地址数据中找到数据分布,因此需要一个模型p
θ
来近似模拟条件概率,从而对噪音地址数据进行逆扩散过程。该逆扩散的公式为p
θ
(x
t-1
|x
t
):=n(x
t-1
;μ
θ
(x
t
,t),∑
θ
(x
t
,t)),其中,为预测的平均值参数化表示,在对去噪预测处理时,需要根据地址数据(x0)对x
t
到x
t-1
的预测(q(x
t-1
|x
t
,x0))进行条件概率计算,从而得到至少一个噪音地址信息。
66.本发明实施例通过对地址数据增加高斯噪音,并根据特征扩散步骤将高斯噪音扩散到整个地址数据,实现了对噪音地址数据的获取。通过根据地址数据对噪音地址数据进行去噪处理,实现对噪音地址数据中噪音的去除,进而提高了后续金融或保险等行业中地址识别的准确性。
67.在一实施例中,步骤s30中,也即获取待填充模板,还包括:
68.s301,获取预设地址模板,通过预设扩写模型的编码层对所述预设地址模板进行编码处理,得到地址模板向量。
69.s302,通过所述预设扩写模型的扩展层对所述地址模板向量进行语义扩展,得到至少一个相似模板向量。
70.可理解地,预设地址模板为通过标注少量客服的对话文本,抽取出有地址信息的对话文本,抹掉具体的地址信息从而构建地址模板,例如:在保险领域信息维护场景中,对用户的地址信息维护时,我不在朝阳区了,我搬到海淀区了。构建的预设地址模板为:我不在{neg-地址}了,我搬到{pos-地址}了。预设扩写模型为基于mt5模型构建的,并通过大量样本数据训练的得到的。地址模板向量为对预设地址模板向量化得到的。相似模板向量为对地址模板向量进行语义扩展得到的。
71.具体地,获取至少一个预设地址模板,将所有预设地址模板输入到预设扩写模型
中,通过预设扩写模型的编码层对每个预设地址模板进行编码处理,也即先对预设地址模板中的文本信息进行切分,再将切分后的结果采用向量表示即词向量。通过正余弦函数得到位置向量,并对每个词向量添加一个位置向量(词向量在文本中的位置),得到嵌入向量。通过多组注意力处理,通过多组注意力机制对嵌入向量的q向量,k向量,v向量进行计算,得到注意力结果,最后将不同组的注意力结果拼接起来,得到组合向量。对组合向量进行归一化处理,得到归一组合向量,避免经过多层注意力处理向量发生退化,再通过全连接层中的前反馈神经网络对归一组合向量进行非线性变换,并对归一组合向量进行激活处理,得到激活组合向量。对激活组合向量进行标准化处理,也即随着层数的增加,通过多层的计算后参数可能开始出现过大或过小的情况,因此,通过规范化层使其特征数值在合理范围内。再经过残差处理,并重复多个编码层过程,即可得到地址模板向量。进一步地,对每个与预设地址模板对应的地址模板向量进行语义扩展,从而得到至少一个与地址模板向量对应的相似模板向量。例如,在保险领域信息维护场景中,地址模板向量为我不在xx了,我搬到xx了,则语义扩展为我的住址变更了,不住在xx了,现在住xx了。
72.s303,通过所述预设扩写模型的解码层对所有所述相似模板向量进行解码处理,得到至少一个扩写地址模板。
73.可理解地,扩写地址模板为与预设地址模板相似的模板文本,例如,我搬家了,不住在{neg-地址}了,现在住在{pos-地址}了。
74.具体地,通过预设扩写模型的解码层分别对所有相似模板向量进行解码,也即将相似模板向量转换为扩写地址模板。其中,解码过程与编码过程相似,只是在每个单独的解码层和编码层相比,在注意力层中和全连接层之间增加了编码解码注意力层,用于计算当前相似模板向量和地址模板向量之间的关系。解码层中第一层是预测多组注意力层,使用掩码的原因是因为在预测句子的时候,当前时刻是不能获取未来时刻信息的。第二层与编码层相同,但q向量,k向量,v向量的来源不同,q向量来源于上一层解码层的输出,而k向量,v向量来源于最后一层编码层的输出。后续几层与编码层相同,在此不在赘述。最后通过一个线性层和一个softmax层完成最后输出,即可得到至少一个扩写地址模板。
75.s304,对所有所述扩写地址模板进行筛选,得到所述待填充模板。
76.具体地,在得到所有扩写地址模板之后,对所有扩写地址模板进行筛选,也即通过所有噪音地址信息对所有扩写地址模板进行填充,得到扩写填充文本。进而根据所有扩写填充文本分别对各个扩写地址模板的置信度进行计算,也即检测每个扩写地址模板对应的所有扩写填充文本进行是否正确。当扩写地址模板置信度超过设置的置信度阈值(可以根据实际情况进行设置,如90%或95%或99%)时,则将扩写地址模板确定为待填充模板。当扩写地址模板置信度未超过设置的置信度阈值时,将扩写地址模板进行删除。其中,在将噪音地址信息填充到待填充模板时,则从所有待填充模板中随机选取一个进行填充。
77.本发明实施例通过预设扩写模型对预设地址模板进行编码及扩展,实现了对相似模板向量的获取。通过解码层对相似模板向量进行解码,实现了对扩写地址模板的获取,保证了扩写地址模板的准确性。通过计算置信度对所有扩写地址模板进行筛选,提升了噪音地址信息的利用率。
78.在一实施例中,步骤s30中,也即根据所述待填充模板和所述噪音地址信息生成目标文本,包括:
79.s305,将选取的所述噪音地址信息填充至所述待填充模板中,得到地址填充文本。
80.可理解地,地址填充文本为将噪音地址信息填充至待填充模板中得到的文本信息。
81.具体地,在得到与各地址数据对应的所有噪音地址信息之后,在与各地址数据对应的所有噪音地址信息中随机选取一个,并将选取的噪音地址信息填充到待填充模板中对应的位置,也即根据表征肯定意图标识的噪音地址信息填充到待填充中表征肯定意图标识的位置,和表征否定意图标识的噪音地址信息填充到待填充中表征否定意图标识的位置,从而得到地址填充文本。例如,表征肯定意图标识(pos-地址)的噪音地址信息为北北北京市海淀区,表征否定意图标识(neg-地址)的噪音地址信息为北京市朝阳区区区,待填充模板为我现在住在xx,不住在xx了,将与各地址数据对应的噪音地址信息填充到待填充模板,即可得到我现在住在北北北京市海淀区,不住北京市朝阳区区区了的地址填充文本。
82.s306,将所述地址填充文本反馈至客户端,并接收客户端对所述地址填充文本进行数据校验的数据校验结果。
83.s307,在所述数据校验结果表征校验成功时,将所述地址填充文本确定为目标文本。
84.可理解地,数据校验结果用于表征地址填充文本是否正确。校验成功表征地址填充文本正确。校验失败表征地址填充文本错误。
85.具体的,将地址填充文本发送到客户端,由工作人员检测地址填充文本是否正确,并得到数据校验结果。数据校验结果包括表征地址填充文本正确的数据校验结果,即校验成功,以及表征地址填充文本的校验失败的数据校验结果,即校验失败。并将数据校验结果从客户端发送到服务器中。对表征地址填充文本正确的数据校验结果进行确定,在数据校验结果表征校验成功时,将地址填充文本确定为目标文本。在数据校验结果表征校验失败时,将与各地址数据对应的所有噪音地址信息发送到客户端,并在客户端对地址填充文本进行修改,并将修改后的正确文本反馈至服务器,则重新对待填充模板进行二次填充及校验。
86.本发明实施例通过将噪音地址数据填充至待填充模板,实现了对地址填充文本的获取。对地址填充文本进行校验,实现了在表征校验成功时对目标文本的确定。通过在表征校验失败时根据噪音地址信息对错误的地址填充文本进行修改,提升了后续地址识别的准确性。
87.在一实施例中,步骤s40中,也即通过预设识别模型对所述目标文本进行地址识别,得到地址识别结果,包括:
88.s401,通过所述预设识别模型的编码层对所述目标文本进行编码,得到地址向量。
89.s402,获取预设地址注释,并对所述地址注释进行编码处理,得到标签向量。
90.可理解地,地址向量为目标文本中地址信息的向量。预设地址注释为提前设置用于表征肯定意图或否定意图的省、市、区以及详细地址的解释。标签向量为对地址注释进行编码得到的。
91.具体地,在得到目标文本之后,获取预设地址注释,将目标文本和预设地址注释输入到预设识别模型中,通过预设识别模型的编码层对目标文本和预设地址注释进行编码处理,也即通过两个权重共享的编码器分别对目标文本和预设地址注释中的所有字词进行向
量化处理,得到词向量。再对每个句子进行编码,并在每个句子的起始位置和结束位置分别添加[cls]和[sep],从而得到句向量。然后通过对每个词向量或句向量添加位置向量(该功能在预设识别模型中是通过学习得到的),得到嵌入向量。通过多组注意力处理,即通过多组注意力机制对嵌入向量的q向量,k向量,v向量进行计算,得到注意力结果,并将不同组的注意力结果拼接起来,得到组合向量。在对组合向量进行一系列归一化和残差处理,并重复多个上述过程,再通过全连接层对结果进行预测,即可将目标文本转换为地址向量,以及将预设地址注释转换为标签向量。其中,通过两个权重共享的编码器分别对目标文本和预设地址注释进行编码,该方法可以更好的得到表征的标签向量,也没有额外的参数产生。
[0092]
s403,通过所述预设预设识别模型的融合层对所述地址向量和所述标签向量进行注意力处理,得到融合向量。
[0093]
s404,通过所述预设预设识别模型的识别层对所述融合向量进行地址识别,得到地址识别结果。
[0094]
可理解地,融合向量为通过注意力融合地址向量和标签向量得到的。
[0095]
具体地,在得到标签向量之后,将地址向量和标签向量输入到融合层中,先通过一层全连接层将地址向量和标签向量映射到相同的空间维度中,再通过注意力机制计算每个标签向量对每个地址向量的重要程度,并将标签向量添加到相应的地址向量上。再通过一层全连接层将添加标签向量的地址向量恢复到原来的维度,再采用tanh激活函数对添加标签向量的地址向量进行激活,从而得到融合向量。
[0096]
进一步地,将融合向量输入到识别层中先通过一层全连接层和sigmoid激活函数对融合向量进行地址识别,得到每个地址在融合向量中的类别。根据最近匹配原则选取同一类地址的起始位置和对应的最近的结束位置为该类地址的起始位置和结束位置,截取起始位置和结束位置的文本信息即为识别的该类地址识别结果。其中,在保险领域信息维护场景中,地址识别抽取出的字段为:neg-省,neg-市,neg-区,neg-详细地址,pos-省,pos-市,pos-区,pos-详细地址。
[0097]
本发明实施例实现了对地址向量和标签向量的确定,进而可以使得标签向量得到较好的表征,并避免额外参数的产生。通过注意力机制将地址向量和标签向量进行融合,实现了将标签向量引入地址向量中,进而提升了地址识别的准确率。
[0098]
在一实施例中,如图3所示,提供一种地址识别方法,包括如下步骤:
[0099]
s11,获取目标文本数据,所述目标文本数据包括至少一个地址信息。
[0100]
s12,调用地址识别模型,所述地址识别模型为根据所述地址识别模型训练方法训练得到的地址识别模型。
[0101]
可理解地,目标文本数据可以为从不同的数据库中爬取得到,也可以为用人工客服通过客户端发送到服务器中。也即获取至少一个目标文本数据,目标文本数据包括至少一个地址信息。例如,在保险公司客服询问场景下,目标文本数据为人工客服或智能客服和用户之间的对话文本,地址信息为用户回答的当前住址(如成都市武侯区等)。进一步地,从数据库中调取根据上述所述地址识别模型训练方法训练得到的地址识别模型。
[0102]
s13,基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。
[0103]
可理解地,目标地址为从目标文本数据中识别出来的地址。
[0104]
具体的,将所有目标文本数据输入至地址识别模型中,地址识别模型分别对每个目标文本数据进行地址识别,从而得到与各目标文本数据对应的目标地址。例如,在保险业务办理场景中,得知用户住址信息(深圳福田区xx小区xx栋xx号)的文本数据,通过地址识别模型对该文本数据进行地址识别,即可得到目标地址(广东省深圳福田区xx小区xx栋xx号)。地址识别模型的具体识别过程与上述地址识别模型训练方式的具体过程相同,在此不再赘述。
[0105]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0106]
在一实施例中,提供一种地址识别装置,该地址识别装置与上述实施例中地址识别方法一一对应。如图5所示,该地址识别装置包括获取模块11、调用模块12和识别模块13。各功能模块详细说明如下:
[0107]
获取模块11,用于获取目标文本数据,所述目标文本数据包括至少一个地址信息;
[0108]
调用模块12,用于调用地址识别模型,所述地址识别模型为根据所述地址识别模型训练方法训练得到的地址识别模型;
[0109]
识别模块13,用于基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。
[0110]
在一实施例中,提供一种地址识别模型训练装置,该地址识别模型训练装置与上述实施例中地址识别模型训练方法一一对应。如图4所示,该地址识别装置包括地址解析模块10、噪音处理模块20、地址填充模块30、地址识别模块40、损失预测模块50和模型收敛模块60。各功能模块详细说明如下:
[0111]
地址解析模块10,用于获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据;
[0112]
噪音处理模块20,用于对所述地址数据进行噪音处理,得到至少一个噪音地址信息;
[0113]
地址填充模块30,用于获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本;
[0114]
地址识别模块40,用于通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果;
[0115]
损失预测模块50,用于根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值;
[0116]
模型收敛模块60,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。
[0117]
在一实施例中,所述噪音处理模块20包括:
[0118]
噪音扩散单元,用于对所述地址数据进行噪音扩散处理,得到噪音地址数据;
[0119]
去噪预测单元,用于对所述噪音地址数据进行去噪预测处理,得到至少一个所述噪音地址信息。
[0120]
在一实施例中,所述地址填充模块30包括:
[0121]
模板编码单元,用于获取预设地址模板,通过预设扩写模型的编码层对所述预设地址模板进行编码处理,得到地址模板向量;
[0122]
模板扩展单元,用于通过所述预设扩写模型的扩展层对所述地址模板向量进行语义扩展,得到至少一个相似模板向量;
[0123]
模板解码单元,用于通过所述预设扩写模型的解码层对所有所述相似模板向量进行解码处理,得到至少一个所述扩写地址模板;
[0124]
模板筛选单元,用于对所有所述扩写地址模板进行筛选,得到所述待填充模板
[0125]
在一实施例中,所述地址填充模块30还包括:
[0126]
信息填充单元,用于将选取的所述噪音地址信息填充至所述待填充模板中,得到地址填充文本;
[0127]
信息校验单元,用于将所述地址填充文本反馈至客户端,并接收客户端对所述地址填充文本进行数据校验的数据校验结果;
[0128]
地址结果单元,用于在所述数据校验结果表征校验成功时,将所述地址填充文本确定为目标文本。
[0129]
在一实施例中,所述地址识别模块40包括:
[0130]
地址向量单元,用于通过所述预设识别模型的编码层对所述目标文本进行编码,得到地址向量;
[0131]
标签向量单元,用于获取预设地址注释,并对所述地址注释进行编码处理,得到标签向量;
[0132]
融合向量单元,用于通过所述预设识别模型的融合层对所述地址向量和所述标签向量进行注意力处理,得到融合向量;
[0133]
地址识别单元,用于通过所述预设识别模型的识别层对所述融合向量进行地址识别,得到地址识别结果。
[0134]
关于地址识别模型训练装置的具体限定可以参见上文中对于地址识别模型训练方法的限定,在此不再赘述。上述地址识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0135]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中地址识别模型训练方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址识别模型训练方法,或所述处理器执行所述计算机程序时以实现一种地址识别方法。
[0136]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上
并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中地址识别模型训练方法,或处理器执行计算机程序时实现上述实施例中地址识别方法。
[0137]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中地址识别模型训练方法,或计算机程序被处理器执行时实现上述实施例中地址识别方法。
[0138]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0139]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0140]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围内。
技术特征:
1.一种地址识别模型训练方法,其特征在于,包括:获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据;对所述地址数据进行噪音处理,得到至少一个噪音地址信息;获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本;通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果;根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值;在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。2.如权利要求1所述的地址识别模型训练方法,其特征在于,所述获取待填充模板,包括:获取预设地址模板,通过预设扩写模型的编码层对所述预设地址模板进行编码处理,得到地址模板向量;通过所述预设扩写模型的扩展层对所述地址模板向量进行语义扩展,得到至少一个相似模板向量;通过所述预设扩写模型的解码层对所有所述相似模板向量进行解码处理,得到至少一个扩写地址模板;对所有所述扩写地址模板进行筛选,得到所述待填充模板。3.如权利要求1所述的地址识别模型训练方法,其特征在于,所述根据所述待填充模板和所述噪音地址信息生成目标文本,包括:将选取的所述噪音地址信息填充至所述待填充模板中,得到地址填充文本;将所述地址填充文本反馈至客户端,并接收客户端对所述地址填充文本进行数据校验的数据校验结果;在所述数据校验结果表征校验成功时,将所述地址填充文本确定为目标文本。4.如权利要求1所述的地址识别模型训练方法,其特征在于,所述通过预设识别模型对所述目标文本进行地址识别,得到地址识别结果,包括:通过所述预设识别模型的编码层对所述目标文本进行编码,得到地址向量;获取预设地址注释,并对所述地址注释进行编码处理,得到标签向量;通过所述预设识别模型的融合层对所述地址向量和所述标签向量进行注意力处理,得到融合向量;通过所述预设识别模型的识别层对所述融合向量进行地址识别,得到地址识别结果。5.如权利要求1所述的地址识别模型训练方法,其特征在于,所述对所述地址数据进行噪音处理,得到至少一个噪音地址信息,包括:对所述地址数据进行噪音扩散处理,得到噪音地址数据;对所述噪音地址数据进行去噪预测处理,得到至少一个所述噪音地址信息。6.一种地址识别方法,其特征在于,所述地址识别方法包括:
获取目标文本数据,所述目标文本数据包括至少一个地址信息;调用地址识别模型,所述地址识别模型为根据权利要求1-5中任意一项所述地址识别模型训练方法训练得到的地址识别模型;基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。7.一种地址识别模型训练装置,其特征在于,包括:地址解析模块,用于获取待识别地址数据以及与待识别地址数据对应的真实地址,通过地址解析模型对所述待识别地址数据进行地址解析,得到与所述待识别地址数据对应的地址数据;噪音处理模块,用于对所述地址数据进行噪音处理,得到至少一个噪音地址信息;地址填充模块,用于获取待填充模板,根据所述待填充模板和所述噪音地址信息生成目标文本;地址识别模块,用于通过预设识别模型对各所述目标文本进行地址识别,得到与各所述目标文本分别对应的地址识别结果;损失预测模块,用于根据同一所述待识别地址数据对应的所述真实地址和所述地址识别结果进行损失预测,得到所述预设识别模型的预测损失值;模型收敛模块,用于在所述预测损失值未达到预设的收敛条件时,迭代更新所述预设识别模型中的初始参数,直至所述预测损失值达到所述收敛条件时,将收敛之后的所述预设识别模型记录为地址识别模型。8.一种地址识别装置,其特征在于,包括:获取模块,用于获取目标文本数据,所述目标文本数据包括至少一个地址信息;调用模块,用于调用地址识别模型,所述地址识别模型为根据权利要求1-5中任意一项所述地址识别模型训练方法训练得到的地址识别模型;识别模块,用于基于所述地址识别模型对所述目标文本数据中的地址信息进行识别,得到目标地址。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述地址识别模型训练方法,或所述处理器执行所述计算机程序时实现如权利要求6所述地址识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述地址识别模型训练方法;或所述计算机程序被处理器执行时实现如权利要求6所述地址识别方法。
技术总结
本发明公开了一种地址识别模型训练方法,该方法包括获取待识别地址数据以及真实地址,对待识别地址数据进行地址解析,得到地址数据;对数据进行噪音处理,得到至少一个噪音地址信息;根据待填充模板和噪音地址信息生成目标文本;通过预设识别模型对目标文本进行地址识别,得到地址识别结果;根据真实地址和地址识别结果进行损失预测,得到预测损失值;在预测损失值达到预设的收敛条件时,将收敛之后的预设识别模型记录为地址识别模型。本发明对地址数据添加噪音,从而使得地址数据更加接近实际情况。预设识别模型对目标文本中的地址信息添加预设地址注释,从而提高了地址识别结果的准确率,进而提高了保险领域中地址识别模型的准确率。准确率。准确率。
技术研发人员:于凤英 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/