一种实体的检测方法、装置及设备与流程

未命名 09-17 阅读:103 评论:0


1.本文件涉及计算机技术领域,尤其涉及一种实体的检测方法、装置及设备。


背景技术:

2.不同对象之间的关系的挖掘,对于风险防控来说非常重要。例如,在对象为商户的场景下,在进行风险防控时可以利用的信息往往只有该商户的门店名称、地址信息、地理位置信息等,而如何有效利用商户的上述文本类的信息进行同实体挖掘,是当前阶段需要考虑的事情。
3.通常,可以基于强介质信息进行同实体挖掘,具体地,可以根据两个对象的身份信息、营业执照信息、手机号、邮箱等信息直接进行关联处理,同时,根据上述信息的相似度判断是否属于同实体,但是,当前大家对自己的隐私数据越来越重视,很多信息很难获取到,因此,使得对象的同实体挖掘的效率低、准确性差。为此,需要提供一种更优的对象的同实体挖掘技术方案,从而可以提高对象的同实体挖掘的效率和准确性。


技术实现要素:

4.本说明书实施例的目的是提供一种更优的对象的同实体挖掘技术方案,从而可以提高对象的同实体挖掘的效率和准确性。
5.为了实现上述技术方案,本说明书实施例是这样实现的:
6.本说明书实施例提供的一种实体的检测方法,所述方法包括:分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现。将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型。基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息。基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。
7.本说明书实施例提供的一种实体的检测装置,所述装置包括:文本信息获取模块,分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现。属性相似度确定模块,将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型。空间相似度确定模块,基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息。实体检测模块,基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间
相似度信息,确定所述两个对象是否为同一实体。
8.本说明书实施例提供的一种实体的检测设备,所述实体的检测设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现。将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型。基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息。基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。
9.本说明书实施例还提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现。将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型。基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息。基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。
附图说明
10.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
11.图1a为本说明书一种实体的检测方法实施例;
12.图1b为本说明书一种实体的检测过程的示意图;
13.图2a为本说明书另一种实体的检测方法实施例;
14.图2b为本说明书一种数据召回过程的示意图;
15.图3为本说明书又一种实体的检测方法实施例;
16.图4为本说明书又一种实体的检测方法实施例;
17.图5为本说明书又一种实体的检测方法实施例;
18.图6为本说明书又一种实体的检测方法实施例;
19.图7为本说明书又一种实体的检测方法实施例;
20.图8为本说明书又一种实体的检测方法实施例;
21.图9为本说明书一种实体的检测装置实施例;
22.图10为本说明书一种实体的检测设备实施例。
具体实施方式
23.本说明书实施例提供一种实体的检测方法、装置及设备。
24.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
25.本说明书实施例提供一种实体的检测识别机制,该实体的检测识别机制可以应用于用户同实体的挖掘(如判断两个账号对应的用户是否为同一个用户等)、商户同实体的挖掘(如判断两个店铺对应的商户是否为同一个商户或者判断两个不同标识的店铺是否为同一个店铺等),还可以实现外部数据挂载,从而将内部门店和外部门店的门店数据打通,形成完整的门店体系,同时,还可以对内部门店的真实性进行校验等,此外,还可以对虚假门店进行识别。具体处理可以参见下述实施例中的具体内容。
26.如图1a所示,本说明书实施例提供一种实体的检测方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为iot设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
27.在步骤s102中,分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,属性信息通过文本信息的形式呈现。
28.其中,对象可以包括多种,例如,用户、商户、账户、店铺(可以包括线上店铺和/或线下门店等)等,具体可以根据实际情况设定,本说明书实施例对此不做限定。属性信息可以包括多种,例如,属性信息可以包括对象的名称、使用的网络信息(如ip地址、连接的wifi名称等)、对象所在的地址信息(如门店所在的地址,具体如a市b区c路112号,或者也可以是地理位置坐标,具体如,东经116
°
23'28.841",北纬39
°
54'19.417"等)等中的一种或多种,具体可以根据实际情况设定,本说明书实施例对此不做限定。空间距离信息可以是两个对象的地理位置之间的距离,具体如,如果对象为商户,则空间距离信息可以是两个商户所在地理位置坐标之间的距离,具体也可以根据实际情况设定,本说明书实施例对此不做限定。
29.在实施中,不同对象之间的关系的挖掘,对于风险防控来说非常重要。例如,在对象为商户的场景下,在进行风险防控时可以利用的信息往往只有该商户的门店名称、地址信息、地理位置信息等,而如何有效利用商户的上述文本类的信息进行同实体挖掘,是当前阶段需要考虑的事情。通常,可以基于强介质信息进行同实体挖掘,具体地,可以根据两个对象的身份信息、营业执照信息、手机号、邮箱等信息直接进行关联处理,同时,根据上述信息的相似度判断是否属于同实体,但是,当前大家对自己的隐私数据越来越重视,很多信息很难获取到,因此,使得对象的同实体挖掘的效率低、准确性差。为此,需要提供一种更优的对象的同实体挖掘技术方案,从而可以提高对象的同实体挖掘的效率和准确性。本说明书
实施例提供一种可实现的技术方案,具体可以包括以下内容。
30.当某用户需要比较两个对象是否为同一实体,或者,用户需要对比多对不同的对象是否为同一实体,或者,用户需要查找与指定的对象属于同一实体的对象时,可以获取需要比较的两个对象的属性信息和两个对象之间的空间距离信息,并可以将获取的上述信息提供给服务器,例如,服务器中可以设置有判断两个对象是否为同一实体的页面,如图2所示,该页面中可以包括对象1的属性信息输入框、对象2的属性信息输入框,以及两个对象之间的空间距离信息的输入框,其中还可以包括提交按键和输出结果的展示框等,用户可以将两个对象的属性信息和两个对象之间的空间距离信息分别输入到上述相应的输入框中,输入完成后,用户可以点击提交按键,此时,用户的终端设备可以获取输入框中的信息,并可以将获取的上述信息发送给服务器。服务器可以获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息。
31.需要说明的是,上述示例中设置了两个对象之间的空间距离信息的输入框,在实际应用中,还可以不需要设置两个对象之间的空间距离信息的输入框,而是可以通过两者的属性信息中的地理位置信息进行计算后得到两个对象之间的空间距离信息,或者,也可以基于两个对象的卫星定位信息确定两个对象之间的空间距离信息,或者,还可以基于两个对象使用的网络的ip地址确定两个对象之间的空间距离信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
32.在步骤s104中,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型。
33.其中,目标语言模型可以包括多种,例如,可以通过支持向量机构建目标语言模型,或者,可以通过神经网络模型构建目标语言模型,其中的神经网络模型可以包括多种,例如,卷积神经网络模型、循环神经网络模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
34.在实施中,可以获取相应的算法(如上述的支持向量机对应的算法、神经网络模型对应的算法等),并可以基于该算法构建目标语言模型,可以通过提示学习的方式对目标语言模型进行模型训练,具体地,该目标语言模型的输入数据可以为两个对象样本的样本属性信息和针对样本属性信息构建的针对目标语言模型中每个网络层的输入数据中的提示信息,输出数据可以为两个对象样本之间的属性相似度信息,然后,可以获取用于训练目标语言模型的训练样本,可以使用该训练样本对目标语言模型进行模型训练,在进行模型训练的过程中,考虑到在实际业务场景下,简单的对训练样本中的数据进行编码处理,得到相应的表征向量,并可以基于得到的表征向量计算两个对象样本之间的属性相似度,可以预先设定目标函数,可以基于该目标函数对目标语言模型中的模型参数进行优化处理,其中,针对目标函数,可以对上述目标语言模型进行调整。之后,可以使用训练样本对目标语言模型进行模型训练,同时通过上述目标函数对模型参数进行优化处理,最终得到训练后的目标语言模型。
35.需要说明的是,在本说明书的另一个实施例中,还可以不需要使用提示学习的方
式对目标语言模型进行模型训练,而是通过对象样本的样本属性信息构建的拼接文本样本对目标语言模型进行模型训练,即该目标语言模型的输入数据只有两个对象样本的样本属性信息拼接的信息,输出数据可以为两个对象样本之间的属性相似度信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。
36.可以将两个对象的属性信息进行拼接,得到拼接文本信息,例如,两个对象包括对象a和对象b,对象a的属性信息包括a名称和a地址,对象b的属性信息包括b名称和b地址,则将两个对象的属性信息进行拼接即为:a名称;a地址;b名称;b地址,或者,也可以在上述拼接文本信息的指定位置处插入预定的分隔符,例如,如图1b所示,上述拼接文本信息也可以为:[cls]a名称;a地址[sep]b名称;b地址[sep],其中,[cls]和[sep]可以为两种不同用途的分隔符,在实际应用中,还可以通过多种不同的方式拼接两个对象的属性信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。可以将拼接文本信息输入到训练后的目标语言模型中,通过训练后的目标语言模型对拼接文本信息进行编码处理,得到相应的表征向量,可以基于表征向量进行相似度计算,得到两个对象之间的属性相似度信息,或者,训练后的目标语言模型可以用于生成拼接文本信息对应的表征信息,此时,可以将拼接文本信息输入到训练后的目标语言模型中,通过训练后的目标语言模型对拼接文本信息进行编码处理,得到相应的表征信息,然后,可以使用预设的相似度算法,基于表征信息进行相似度计算,得到两个对象之间的属性相似度信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。
[0037]
在步骤s106中,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息。
[0038]
在实施中,如图1b所示,可以预先设定不同空间距离与向量之间的对应关系,或者,也可以预先设定不同空间距离与地理空间相似度之间的对应关系,例如,空间距离为1千米,则地理空间相似度为1,空间距离为0.5千米,则地理空间相似度为1/0.5=2,空间距离为100千米,则地理空间相似度为1/100=0.01等,具体可以根据实际情况设定。可以根据两个对象之间的空间距离信息,从上述对应关系中获取相应的地理空间相似度,或者,获取相应的向量,可以使用获取的向量表征两个对象之间的地理空间相似度信息或将获取的向量进行指定的变换,得到两个对象之间的地理空间相似度信息等。
[0039]
在步骤s108中,基于两个对象之间的属性相似度信息和两个对象之间的地理空间相似度信息,确定两个对象是否为同一实体。
[0040]
在实施中,可以对属性相似度信息与地理空间相似度信息进行加权计算,得到相应的计算结果,可以将该计算结果与预先设定的阈值进行比较,根据比较结果确定两个对象是否为同一实体。或者,如图1b所示,也可以根据实际业务需求,预先构建相应的决策模型,并可以使用相应的样本训练该决策模型直至其收敛,得到训练后的决策模型,然后,可以将两个对象之间的属性相似度信息和两个对象之间的地理空间相似度信息输入到训练后的决策模型中,通过训练后的决策模型可以输出两个对象是否为同一实体的相关信息,进而可以得到两个对象是否为同一实体,除了可以通过上述方式两个对象是否为同一实体外,还可以通过多种不同的方式两个对象是否为同一实体,具体可以根据实际情况设定,本说明书实施例对此不做限定。
[0041]
本说明书实施例提供一种实体的检测方法,通过分别获取针对待比较的两个对象
的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0042]
在实际应用中,上述每个对象的属性信息可以包括对象的标识、对象的地址信息和网络标识信息中的一项或多项,其中,对象的标识可以是对象的名称、编码等,具体如商户的店铺名称、店铺编号等,具体可以根据实际情况设定。
[0043]
上述步骤s102中待比较的两个对象可以预先指定的两个对象,此外,如图2a所示,待比较的两个对象也可以包括第一对象和第二对象,第一对象可以是预设的待匹配的对象,第二对象可以是召回关系库中的任一对象,针对召回关系库,可以在步骤s102之前确定,具体可以通过下述步骤s202~步骤s206的处理实现。
[0044]
在步骤s202中,将第一对象的属性信息中包含的每一项子属性信息输入到预先训练的文本表征模型中,得到每一项子属性信息对应的表征信息。
[0045]
其中,文本表征模型可以包括多种,例如,可以通过支持向量机构建文本表征模型,或者,可以通过神经网络模型构建文本表征模型,其中的神经网络模型可以包括多种,例如,卷积神经网络模型、循环神经网络模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
[0046]
在实施中,可以获取相应的算法(如上述的支持向量机对应的算法、神经网络模型对应的算法等),并可以基于该算法构建文本表征模型,该文本表征模型的输入数据可以为文本类的属性信息,输出数据可以为文本类的属性信息对应的表征信息,然后,可以获取用于训练文本表征模型的训练样本,可以使用该训练样本对文本表征模型进行模型训练,在进行模型训练的过程中,对训练样本进行编码处理,得到相应的表征信息,并可以基于得到的表征信息和预先设定目标函数,可以基于该目标函数对文本表征模型中的模型参数进行优化处理,其中,针对目标函数,可以对上述文本表征模型进行调整。之后,可以使用训练样本对文本表征模型进行模型训练,同时通过上述目标函数对模型参数进行优化处理,最终得到训练后的文本表征模型。
[0047]
可以将第一对象的属性信息中包含的每一项子属性信息输入到预先训练的文本表征模型中,例如,如图2b所示,第一对象的属性信息包括对象的标识、对象的地址信息和网络标识信息(如wifi名称等),则第一对象的属性信息中包括三项子属性信息,分别为对象的标识、对象的地址信息和网络标识信息,可以将对象的标识输入到预先训练的文本表征模型中,得到对象的标识对应的表征信息,同时,可以将对象的地址信息输入到预先训练的文本表征模型中,得到对象的地址信息对应的表征信息,可以将网络标识信息输入到预先训练的文本表征模型中,得到网络标识信息对应的表征信息,从而可以得到每一项子属
性信息对应的表征信息。
[0048]
在步骤s204中,从第一数据库中分别获取与每一项子属性信息对应的表征信息相匹配的表征信息对应的目标对象的信息。
[0049]
在实施中,如图2b所示,第一数据库中可以包括多种不同的对象的相关信息,表征信息的匹配处理可以包括多种,例如,可以通过相似度的方式呈现,即可以计算子属性信息对应的表征信息与第一数据库中的每个对象的子属性信息对应的表征信息之间的相似度,如果得到的相似度大于预设阈值,则可以确定两者匹配,否则两者不匹配,或者,可以通过指定的算法,计算子属性信息对应的表征信息与第一数据库中的每个对象的子属性信息对应的表征信息之间的匹配度,如果得到的匹配度大于预设匹配阈值,则可以确定两者匹配,否则两者不匹配等,具体也可以根据实际情况设定。通过上述方式,可以从第一数据库中分别获取与每一项子属性信息对应的表征信息相匹配的表征信息对应的目标对象的信息。
[0050]
在步骤s206中,基于获取的目标对象的信息构建召回关系库。
[0051]
上述步骤s204的具体处理方式可以多种多样,以下再提供一种可选的处理方式,如图3所示,具体可以包括以下步骤s2042和步骤s2044的处理。
[0052]
在步骤s2042中,确定第一数据库中包含的对象的每一项子属性信息对应的表征信息分别与第一属性信息中包含的相应子属性信息之间的相似度。
[0053]
在步骤s2044中,将第一数据库中相似度大于预设相似度阈值的子属性信息对应的对象作为目标对象。
[0054]
通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0055]
针对上述目标语言模型,具体可以通过下述方式进行模型训练,如图4所示,具体可以参见下述步骤302~步骤s308的处理。
[0056]
在步骤s302中,获取对象样本对的样本属性信息,该样本属性信息通过文本信息的形式呈现。
[0057]
其中,对象样本可以包括多种,例如,用户、商户、账户、店铺(可以包括线上店铺和/或线下门店等)等,具体可以根据实际情况设定。样本属性信息可以包括对象样本的名称、使用的网络信息、对象样本所在的地址信息等中的一种或多种。
[0058]
在实施中,对象样本对的样本属性信息可以是预先记录的,也可以是来自于相应的数据库中等,具体可以根据实际情况设定。
[0059]
在步骤s304中,将对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本。
[0060]
上述步骤s304的具体处理过程可以参见前述相关内容,在此不再赘述。
[0061]
在步骤s306中,针对拼接文本样本构建针对目标语言模型中每个网络层的输入数据中的提示信息。
[0062]
在实施中,考虑到prompt tuning的提示学习机制中只用了一层bilstm来编码输入数据(可以为pseudo token),即只是在输入层加入可学习的微调向量(即提示信息),上述处理方式是该提示学习机制存在推理能力不足的原因之一,为此,可以使用另一种提示学习机制,即可以将可学习的微调向量(即提示信息)以前缀的形式添加至预训练的目标语言模型中每个网络层的输入数据中,基于此,可以针对拼接文本样本构建针对目标语言模型中每个网络层的输入数据中的提示信息,在构建上述提示信息的过程中,针对第一次构建的提示信息,可以通过随机构建的方式生成上述提示信息,然后,可以对目标语言模型进行不断的迭代,在迭代的过程中上述随机构建的提示信息也会逐次学习优化,直到最终目标语言模型收敛,或者,也可以根据专家经验为目标语言模型中每个网络层的输入数据设置初始的前缀提示信息等,具体可以根据实际情况设定。
[0063]
在步骤s308中,基于提示信息和拼接文本样本对目标语言模型进行模型训练,得到训练后的目标语言模型。
[0064]
通过上述步骤s302~步骤s308的处理,可以将可学习的微调向量以前缀的形式添加到目标语言模型中每个网络层的输入数据中,从而可以使得模型训练优化更加平稳,同时模型效果更优。
[0065]
除了可以通过上述直接进行模型训练的方式得到训练后的目标语言模型外,为了提高模型的推理速度,还可以通过蒸馏学习的方式得到训练后的目标语言模型,如图5所示,具体可以参见下述步骤s402~步骤s410的处理。
[0066]
在步骤s402中,获取对象样本对的样本属性信息,该样本属性信息通过文本信息的形式呈现。
[0067]
上述步骤s402的具体处理过程可以参见前述相关内容,在此不再赘述。
[0068]
在步骤s404中,将对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本。
[0069]
上述步骤s404的具体处理过程可以参见前述相关内容,在此不再赘述。
[0070]
在步骤s406中,针对拼接文本样本构建针对目标语言模型对应的教师模型中每个网络层的输入数据中的提示信息。
[0071]
其中,教师模型与目标语言模型具有相似的模型架构,但教师模型的模型结构比目标语言模型的模型结构更加复杂,例如,教师模型中可以包括12个transformer层,目标语言模型中包含2个transformer层,或者,教师模型中可以包括50个transformer层,目标语言模型中包含10个transformer层等,具体可以根据实际情况设定,本说明书实施例对此不做限定。在实际应用中,教师模型可以基于tinybert模型构建,基于此,可以采用基于tinybert模型进行后续的知识蒸馏处理。
[0072]
上述步骤s406的具体处理过程可以参见前述相关内容,在此不再赘述。
[0073]
在步骤s408中,基于提示信息和拼接文本样本对教师模型进行模型训练,得到训练后的教师模型。
[0074]
在步骤s410中,将目标语言模型作为学生模型,基于训练后的教师模型对学生模
型进行蒸馏学习,得到训练后的目标语言模型。
[0075]
在实施中,以教师模型中包括12个transformer层,目标语言模型中包含2个transformer层为例,可以从教师模型中选择2个transformer层用于transformer层的知识蒸馏处理,可以每隔6个transformer层计算一个transformer loss(即transformer层的损失信息),具体对应可以为目标语言模型的第1个transformer层对应教师模型的第6个transformer层,目标语言模型的第2个transformer层对应教师模型的第12个transformer层。在上述知识蒸馏的过程中,可以先对中间层的注意力attention部分和隐藏层的状态hidden states进行知识蒸馏处理,然后,可以对输出层进行知识蒸馏处理,并计算教师模型的输出数据的概率分布和目标语言模型的输出数据的概率分布的损失信息(例如,可以通过交叉熵损失函数确定该损失信息等),最后,可以利用对象样本对的样本属性信息对目标语言模型的模型参数进行微调,直到得到满足预设条件的目标语言模型为止。
[0076]
上述步骤s302或步骤s402中的对象样本对可以预先指定的两个对象,此外,该对象样本对中可以包括第一对象样本和样本召回库中的第二对象样本,针对样本召回库,可以在步骤s302或步骤s402之前确定,具体可以通过下述步骤a2~步骤a6的处理实现。
[0077]
在步骤a2中,将第一对象样本的样本属性信息中包含的每一项子样本属性信息输入到预先训练的文本表征模型中,得到每一项子样本属性信息对应的样本表征信息。
[0078]
在步骤a4中,从第二数据库中分别获取与每一项子样本属性信息对应的样本表征信息相匹配的样本表征信息对应的样本对象的信息。
[0079]
其中,第二数据库可以与上述第一数据库相同,也可以与第一数据库不同,还可以与第一数据库中包含的数据存在部分相同等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
[0080]
在步骤a6中,基于获取的样本对象的信息构建样本召回库。
[0081]
上述步骤a2~步骤a6的具体处理过程可以参见前述相关内容,在此不再赘述。
[0082]
通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0083]
针对上述文本表征模型,具体可以通过下述方式进行模型训练,如图6所示,具体可以参见下述步骤s502~步骤s508的处理。
[0084]
在步骤s502中,获取第三对象样本的样本属性信息。
[0085]
在步骤s504中,基于第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对。
[0086]
其中,数据增强规则可以包括多种,例如,可以包括基于随机替换的数据增强规
则、基于调整样本属性信息中的词语顺序的数据增强规则、基于样本属性信息裁剪的数据增强规则以及基于同义词替换的数据增强规则中的一项或多项,其中的基于随机替换的数据增强规则可以用于随机替换样本属性信息中的字符、词语或语句等,基于样本属性信息裁剪的数据增强规则可以用于裁剪样本属性信息中的某个字符、词语或语句等,基于同义词替换的数据增强规则可以用于使用与样本属性信息中的某个字符或词语具有相同语义的字符或词语替换样本属性信息中的相应字符或词语等,具体可以根据实际情况设定。
[0087]
在实施中,可以将第三对象样本的样本属性信息中包含的某一项子样本属性信息作为基础信息,可以使用上述预设的数据增强规则对该基础信息进行数据增强处理,得到一个或两个新的子样本属性信息,其中,如果得到了一个新的子样本属性信息,则可以将新的子样本属性信息与上述基础信息组成子样本属性对,如果得到了两个新的子样本属性信息,则可以将两个新的子样本属性信息组成子样本属性对。通过上述方式,可以构建其它子样本属性信息对应的子样本属性对。需要说明的是,上述构建的子样本属性对可以是正样本对,为了使得文本表征模型的效果更优,可以构建一些负样本对,以及正样本和负样本构建的正负样本对,其中的正负样本对,可以通过下述方式构建,即从上述正样本对中随机选取一个正样本,然后,从除该正样本对之外的子样本属性信息中选择一个子样本属性信息(可以是新的子样本属性信息,也可以是原有的子样本属性信息),将上述选取的两个子样本属性信息构建为一个正负样本对,从而可以得到第三对象样本的样本属性信息中包含的每一项子样本属性信息对应的子样本属性对。
[0088]
需要说明的是,在实际应用中,数据增强规则除了可以包括上述实现方式外,可以基于simcse模型对应的对比学习方式对文本表征模型进行模型训练,通过基于simcse模型对应的对比学习方式可以利用自监督学习来提升句子的表示能力,基于此,还可以基于随机失活dropout算法构建相应的数据增强规则,dropout算法可以随机移除文本表征模型中的部分隐藏层的神经元,同时移除掉对应的输入数据与输出数据,但只是暂时移除,在下一次模型训练时,又可以在文本表征模型的神经元中随机移除固定比例的神经元等,通过基于随机失活dropout算法构建的数据增强规则,可以构建相应的子样本属性对。
[0089]
此外,在实际应用中,子样本属性对可以包括对象样本的标识对(即对象样本的标识-对象样本的标识)、对象样本的地址信息对(即对象样本的地址信息-对象样本的地址信息)、对象样本的标识-网络标识信息和对象样本的标识-对象样本的地址信息中的一项或多项。
[0090]
在步骤s506中,将子样本属性对中的子样本属性信息分别输入到文本表征模型中,得到子样本属性对中的子样本属性信息对应的样本表征信息。
[0091]
在步骤s508中,基于子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整文本表征模型的模型参数,以对文本表征模型进行模型训练,直到文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。
[0092]
其中,文本表征模型对应的损失函数可以包括多种,例如交叉熵损失函数或均值损失函数等,具体可以根据实际情况设定。
[0093]
在实施中,对于整体子样本属性对,需要达到的目标是:正样本对的相似度大于非正样本对的相似度,正样本对的相似度大于非正样本对的相似度所需要达到的程度可以由文本表征模型决定,从而可以使得文本表征模型的损失函数只跟预测结果的相对顺序有
关,而不依赖于具体的数值。可以通过对比学习的方式(可以使用上述基于simcse模型对应的对比学习方式),基于子样本属性对对文本表征模型进行模型训练,即可以通过拉近相似的子样本属性对,推开不相似的子样本属性对,从而提升文本表征模型的语句表征能力,以此对文本表征模型进行模型训练,直到文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。其中的相似度可以通过基于余弦距离的相似度算法确定。
[0094]
在实际应用中,对于每一个batch的句向量而言,可以设计两个损失函数,一个是有监督的基于余弦距离的相似度对应的损失函数(即相似度损失函数),另一个是无监督的基于simcse模型对应的对比学习方式对应的损失函数(即对比学习的损失函数),最终可以将上述两个损失函数得到的损失信息进行加权,得到相应的损失信息,基于此,上述文本表征模型对应的损失函数可以由预设的对比学习的损失函数和预设的相似度损失函数确定,具体可以如下:
[0095][0096]
对于任意的正样本对(i,j)∈ω
pos
和非正样本对(k,l)∈ω
neg
,都有cos(ui,uj)大于cos(uk,u
l
),其中,ω
pos
表示正样本对集合,ω
neg
表示非正样本对集合,ui样本i的表征信息,cos(ui,uj)样本对之间的余弦距离的相似度。
[0097]
需要说明的是,上述是一种基于余弦距离和对比学习的联合训练方案,该多任务联合训练方案可以降低过拟合的风险,具有更好的泛化能力,文本表征模型会去尝试得到适合于所有任务的表征信息,而不是仅局限于单个任务。
[0098]
除了可以通过上述直接进行模型训练的方式得到训练后的文本表征模型外,为了提高模型的推理速度,还可以通过蒸馏学习的方式得到训练后的文本表征模型,如图7所示,具体可以参见下述步骤s602~步骤s610的处理。
[0099]
在步骤s602中,获取第三对象样本的样本属性信息。
[0100]
在步骤s604中,基于第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对。
[0101]
在步骤s606中,将子样本属性对中的子样本属性信息分别输入到文本表征模型对应的教师模型中,得到子样本属性对中的子样本属性信息对应的样本表征信息。
[0102]
其中,教师模型可以基于tinybert模型构建,基于此,可以采用基于tinybert模型进行后续的知识蒸馏处理。
[0103]
在步骤s608中,基于子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整教师模型的模型参数,以对教师模型进行模型训练,得到训练后的教师模型。
[0104]
在步骤s610中,将文本表征模型作为学生模型,基于训练后的教师模型对学生模型进行蒸馏学习,直到文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。
[0105]
上述步骤s602~步骤s610的具体处理过程可以参见前述相关内容,在此不再赘述。
[0106]
本说明书实施例中,上述文本表征模型可以为bert模型,上述目标语言模型可以
为bert模型,具体可以是交互式bert模型等。
[0107]
上述处理方式可以应用于多种不同的场景,例如,用于置信店铺识别:当前某些业务因店铺信息重复及包含非真实信息而导致无法准确预估活动预算或选择高质量品牌参与促销活动,为了提升头部品牌店铺数字化运营,需要识别出真实的物理店铺数量及覆盖情况,在返佣场景中,需要对重复店铺风险进行识别和拦截,保障资源安全;用于外部数据挂载:通过商户文本同实体挖掘,可以打通内外两种店铺的数据,互补修正,形成完整的店铺体系,同时也可以对内部店铺的真实性进行校验;用于虚假门店识别:如在服务商拉新冒用场景,通过识别虚假冒用店铺,降低拉新场景的资损。同时,上述处理方式也可以复用到国际的应用场景中,以进行同实体识别和数据补全等。
[0108]
本说明书实施例提供一种实体的检测方法,通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0109]
以下结合具体的应用场景对本说明书实施例提供一种实体的检测方法进行详细说明,其中的文本表征模型为bert模型,目标语言模型可以为交互式bert模型,对象可以店铺等。如图8所示,本说明书实施例提供一种实体的检测方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为iot设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
[0110]
在步骤s802中,获取第三店铺样本的样本属性信息。
[0111]
在步骤s804中,基于第三店铺样本的样本属性信息中包含的每一项子样本属性信息,通过基于随机失活dropout算法构建的数据增强规则,构建相应的子样本属性对。
[0112]
在步骤s806中,将子样本属性对中的子样本属性信息分别输入到文本表征模型对应的教师模型中,得到子样本属性对中的子样本属性信息对应的样本表征信息。
[0113]
在步骤s808中,基于子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整教师模型的模型参数,以对教师模型进行模型训练,得到训练后的教师模型。
[0114]
在步骤s810中,将文本表征模型作为学生模型,基于训练后的教师模型对学生模型进行蒸馏学习,直到文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模
型。
[0115]
其中,上述文本表征模型对应的损失函数可以由预设的对比学习的损失函数和预设的相似度损失函数确定。
[0116]
在步骤s812中,获取店铺样本对的样本属性信息,该样本属性信息通过文本信息的形式呈现。
[0117]
在步骤s814中,将店铺样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本。
[0118]
在步骤s816中,针对拼接文本样本构建针对交互式bert模型对应的教师模型中每个网络层的输入数据中的提示信息。
[0119]
在步骤s818中,基于提示信息和拼接文本样本对教师模型进行模型训练,得到训练后的教师模型。
[0120]
在步骤s820中,将交互式bert模型作为学生模型,基于训练后的教师模型对学生模型进行蒸馏学习,得到训练后的交互式bert模型。
[0121]
在步骤s822中,将第一店铺的属性信息中包含的每一项子属性信息输入到文本表征模型中,得到每一项子属性信息对应的表征信息。
[0122]
在步骤s824中,确定第一数据库中包含的店铺的每一项子属性信息对应的表征信息分别与第一属性信息中包含的相应子属性信息之间的相似度。
[0123]
在步骤s826中,将第一数据库中相似度大于预设相似度阈值的子属性信息对应的店铺作为目标店铺。
[0124]
在步骤s828中,基于获取的目标店铺的信息构建召回关系库。
[0125]
在步骤s830中,分别获取针对待比较的两个店铺的属性信息和两个店铺之间的空间距离信息,属性信息通过文本信息的形式呈现,待比较的两个店铺也可以包括第一店铺和第二店铺,第一店铺可以是预设的待匹配的店铺,第二店铺可以是召回关系库中的任一店铺。
[0126]
在步骤s832中,将两个店铺的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息输入目标语言模型中,得到拼接文本信息对应的表征信息,使用余弦距离的相似度算法,基于拼接文本信息对应的表征信息,确定两个店铺之间的属性相似度信息。
[0127]
在步骤s834中,基于两个店铺之间的空间距离信息,确定两个店铺之间的地理空间相似度信息。
[0128]
在步骤s836中,将两个店铺之间的属性相似度信息和两个店铺之间的地理空间相似度信息输入到预先训练的决策神经网络中,得到两个店铺是否为同一实体的输出结果。
[0129]
需要说明的是,在属性相似度信息与地理空间相似度信息融合的过程中,可以参考多模态学习中的门控多模态单元(gmu,可以根据来自不同模态的数据的组合找到中间表征信息)的方式,可以使用乘法门来决定模态如何影响单元的激活,直接从训练样本中学习输入数据的哪些部分更有可能有助于生成正确的输出结果。
[0130]
本说明书实施例提供一种实体的检测方法,通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的
样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0131]
以上为本说明书实施例提供的实体的检测方法,基于同样的思路,本说明书实施例还提供一种实体的检测装置,如图9所示。
[0132]
该实体的检测装置包括:文本信息获取模块901、属性相似度确定模块902、空间相似度确定模块903和实体检测模块904,其中:
[0133]
文本信息获取模块901,分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现;
[0134]
属性相似度确定模块902,将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;
[0135]
空间相似度确定模块903,基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息;
[0136]
实体检测模块904,基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。
[0137]
本说明书实施例中,所述属性信息包括对象的标识、对象的地址信息和网络标识信息中的一项或多项。
[0138]
本说明书实施例中,所述待比较的两个对象包括第一对象和第二对象,所述第一对象是预设的待匹配的对象,所述第二对象是召回关系库中的任一对象,所述装置还包括:
[0139]
第一表征确定模块,将所述第一对象的属性信息中包含的每一项子属性信息输入到预先训练的文本表征模型中,得到所述每一项子属性信息对应的表征信息;
[0140]
第一匹配模块,从第一数据库中分别获取与所述每一项子属性信息对应的表征信息相匹配的表征信息对应的目标对象的信息;
[0141]
第一构建模块,基于获取的目标对象的信息构建所述召回关系库。
[0142]
本说明书实施例中,所述第一匹配模块,包括:
[0143]
相似度确定单元,确定所述第一数据库中包含的对象的每一项子属性信息对应的表征信息分别与所述第一属性信息中包含的相应子属性信息之间的相似度;
[0144]
匹配单元,将所述第一数据库中相似度大于预设相似度阈值的子属性信息对应的对象作为所述目标对象。
[0145]
本说明书实施例中,所述装置还包括:
[0146]
第一样本获取模块,获取对象样本对的样本属性信息,所述样本属性信息通过文本信息的形式呈现;
[0147]
第一拼接模块,将所述对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本;
[0148]
第一提示信息构建模块,针对所述拼接文本样本构建针对所述目标语言模型中每个网络层的输入数据中的提示信息;
[0149]
第一模型训练模块,基于所述提示信息和拼接文本样本对所述目标语言模型进行模型训练,得到训练后的目标语言模型。
[0150]
本说明书实施例中,所述装置还包括:
[0151]
第二样本获取模块,获取对象样本对的样本属性信息,所述样本属性信息通过文本信息的形式呈现;
[0152]
第二拼接模块,将所述对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本;
[0153]
第二提示信息构建模块,针对所述拼接文本样本构建针对所述目标语言模型对应的教师模型中每个网络层的输入数据中的提示信息;
[0154]
第二模型训练模块,基于所述提示信息和拼接文本样本对所述教师模型进行模型训练,得到训练后的教师模型;
[0155]
第一蒸馏模块,将所述目标语言模型作为学生模型,基于所述训练后的教师模型对所述学生模型进行蒸馏学习,得到训练后的目标语言模型。
[0156]
本说明书实施例中,所述对象样本对中包括第一对象样本和样本召回库中的第二对象样本,所述装置还包括:
[0157]
第二表征确定模块,将所述第一对象样本的样本属性信息中包含的每一项子样本属性信息输入到预先训练的文本表征模型中,得到所述每一项子样本属性信息对应的样本表征信息;
[0158]
第二匹配模块,从第二数据库中分别获取与所述每一项子样本属性信息对应的样本表征信息相匹配的样本表征信息对应的样本对象的信息;
[0159]
第二构建模块,基于获取的样本对象的信息构建所述样本召回库。
[0160]
本说明书实施例中,所述装置还包括:
[0161]
第三样本获取模块,获取第三对象样本的样本属性信息;
[0162]
第一数据增强模块,基于所述第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对;
[0163]
第一样本表征确定模块,将所述子样本属性对中的子样本属性信息分别输入到所述文本表征模型中,得到所述子样本属性对中的子样本属性信息对应的样本表征信息;
[0164]
第三模型训练模块,基于所述子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整所述文本表征模型的模型参数,以对所述文本表征模型进行模型训练,直到所述文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。
[0165]
本说明书实施例中,所述装置还包括:
[0166]
第四样本获取模块,获取第三对象样本的样本属性信息;
[0167]
第二数据增强模块,基于所述第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对;
[0168]
第二样本表征确定模块,将所述子样本属性对中的子样本属性信息分别输入到所
述文本表征模型对应的教师模型中,得到所述子样本属性对中的子样本属性信息对应的样本表征信息;
[0169]
第四模型训练模块,基于所述子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整所述教师模型的模型参数,以对所述教师模型进行模型训练,得到训练后的教师模型;
[0170]
第二蒸馏模块,将所述文本表征模型作为学生模型,基于所述训练后的教师模型对所述学生模型进行蒸馏学习,直到所述文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。
[0171]
本说明书实施例中,所述文本表征模型对应的损失函数由预设的对比学习的损失函数和预设的相似度损失函数确定,所述文本表征模型为bert模型,所述目标语言模型为bert模型。
[0172]
本说明书实施例中,所述数据增强规则包括基于随机失活dropout算法构建的数据增强规则,所述子样本属性对包括对象样本的标识对、对象样本的地址信息对、对象样本的标识-网络标识信息和对象样本的标识-对象样本的地址信息中的一项或多项。
[0173]
本说明书实施例提供一种实体的检测装置,通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0174]
以上为本说明书实施例提供的实体的检测装置,基于同样的思路,本说明书实施例还提供一种实体的检测设备,如图10所示。
[0175]
所述实体的检测设备可以为上述实施例提供终端设备或服务器等。
[0176]
实体的检测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1001和存储器1002,存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对实体的检测设备中的一系列计算机可执行指令。更进一步地,处理器1001可以设置为与存储器1002通信,在实体的检测设备上执行存储器1002中的一系列计算机可执行指令。实体的检测设备还可以包括一个或一个以上电源1003,一个或一个以上有线或无线网络接口1004,一个或一个以上输入输出接口1005,一个或一个以上键盘1006。
[0177]
具体在本实施例中,实体的检测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对实体的检测设备中的一系列计算机可执行指令,且经
配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
[0178]
分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现;
[0179]
将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;
[0180]
基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息;
[0181]
基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。
[0182]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于实体的检测设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0183]
本说明书实施例提供一种实体的检测设备,通过分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现,然后,将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到,之后,基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息,最终,可以基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体,这样,针对对象同实体挖掘场景的数据特点,采用设置于目标语言模型中每个网络层的输入数据中的提示信息的方式对目标语言模型进行提示学习,同时综合考虑了对象的属性信息和空间距离信息,从而可以提高对象的同实体挖掘的效率和准确性。
[0184]
进一步地,基于上述图1a到图8所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
[0185]
分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现;
[0186]
将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;
hardware description language)等,目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0193]
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0194]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0195]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0196]
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0197]
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0198]
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0199]
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使
得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0200]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0201]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0202]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0203]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0204]
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0205]
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0206]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0207]
以上所述仅为本说明书的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

技术特征:
1.一种实体的检测方法,所述方法包括:分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现;将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息;基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。2.根据权利要求1所述的方法,所述属性信息包括对象的标识、对象的地址信息和网络标识信息中的一项或多项。3.根据权利要求2所述的方法,所述待比较的两个对象包括第一对象和第二对象,所述第一对象是预设的待匹配的对象,所述第二对象是召回关系库中的任一对象,所述方法还包括:将所述第一对象的属性信息中包含的每一项子属性信息输入到预先训练的文本表征模型中,得到所述每一项子属性信息对应的表征信息;从第一数据库中分别获取与所述每一项子属性信息对应的表征信息相匹配的表征信息对应的目标对象的信息;基于获取的目标对象的信息构建所述召回关系库。4.根据权利要求3所述的方法,所述从第一数据库中获取分别与所述每一项子属性信息对应的表征信息相匹配的表征信息对应的目标对象的信息,包括:确定所述第一数据库中包含的对象的每一项子属性信息对应的表征信息分别与所述第一属性信息中包含的相应子属性信息之间的相似度;将所述第一数据库中相似度大于预设相似度阈值的子属性信息对应的对象作为所述目标对象。5.根据权利要求1所述的方法,所述方法还包括:获取对象样本对的样本属性信息,所述样本属性信息通过文本信息的形式呈现;将所述对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本;针对所述拼接文本样本构建针对所述目标语言模型中每个网络层的输入数据中的提示信息;基于所述提示信息和拼接文本样本对所述目标语言模型进行模型训练,得到训练后的目标语言模型。6.根据权利要求1所述的方法,所述方法还包括:获取对象样本对的样本属性信息,所述样本属性信息通过文本信息的形式呈现;将所述对象样本对中的对象样本的样本属性信息进行拼接,得到拼接文本样本;针对所述拼接文本样本构建针对所述目标语言模型对应的教师模型中每个网络层的
输入数据中的提示信息;基于所述提示信息和拼接文本样本对所述教师模型进行模型训练,得到训练后的教师模型;将所述目标语言模型作为学生模型,基于所述训练后的教师模型对所述学生模型进行蒸馏学习,得到训练后的目标语言模型。7.根据权利要求5或6所述的方法,所述对象样本对中包括第一对象样本和样本召回库中的第二对象样本,所述方法还包括:将所述第一对象样本的样本属性信息中包含的每一项子样本属性信息输入到预先训练的文本表征模型中,得到所述每一项子样本属性信息对应的样本表征信息;从第二数据库中分别获取与所述每一项子样本属性信息对应的样本表征信息相匹配的样本表征信息对应的样本对象的信息;基于获取的样本对象的信息构建所述样本召回库。8.根据权利要求3所述的方法,所述方法还包括:获取第三对象样本的样本属性信息;基于所述第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对;将所述子样本属性对中的子样本属性信息分别输入到所述文本表征模型中,得到所述子样本属性对中的子样本属性信息对应的样本表征信息;基于所述子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整所述文本表征模型的模型参数,以对所述文本表征模型进行模型训练,直到所述文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。9.根据权利要求3所述的方法,所述方法还包括:获取第三对象样本的样本属性信息;基于所述第三对象样本的样本属性信息中包含的每一项子样本属性信息,通过预设的数据增强规则,构建相应的子样本属性对;将所述子样本属性对中的子样本属性信息分别输入到所述文本表征模型对应的教师模型中,得到所述子样本属性对中的子样本属性信息对应的样本表征信息;基于所述子样本属性对中的两个子样本属性信息对应的样本表征信息之间的相似度调整所述教师模型的模型参数,以对所述教师模型进行模型训练,得到训练后的教师模型;将所述文本表征模型作为学生模型,基于所述训练后的教师模型对所述学生模型进行蒸馏学习,直到所述文本表征模型对应的损失函数收敛为止,得到训练后的文本表征模型。10.根据权利要求8或9所述的方法,所述文本表征模型对应的损失函数由预设的对比学习的损失函数和预设的相似度损失函数确定,所述文本表征模型为bert模型,所述目标语言模型为bert模型。11.根据权利要求8或9所述的方法,所述数据增强规则包括基于随机失活dropout算法构建的数据增强规则,所述子样本属性对包括对象样本的标识对、对象样本的地址信息对、对象样本的标识-网络标识信息和对象样本的标识-对象样本的地址信息中的一项或多项。12.一种实体的检测装置,所述装置包括:文本信息获取模块,分别获取针对待比较的两个对象的属性信息和所述两个对象之间
的空间距离信息,所述属性信息通过文本信息的形式呈现;属性相似度确定模块,将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;空间相似度确定模块,基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息;实体检测模块,基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。13.一种实体的检测设备,所述实体的检测设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:分别获取针对待比较的两个对象的属性信息和所述两个对象之间的空间距离信息,所述属性信息通过文本信息的形式呈现;将所述两个对象的属性信息进行拼接,得到拼接文本信息,基于所述拼接文本信息,通过预先训练的目标语言模型,确定所述两个对象之间的属性相似度信息,其中,所述目标语言模型是基于对象样本的样本属性信息构建的拼接文本样本和针对所述拼接文本样本构建的针对所述目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到的语言模型;基于所述两个对象之间的空间距离信息,确定所述两个对象之间的地理空间相似度信息;基于所述两个对象之间的属性相似度信息和所述两个对象之间的地理空间相似度信息,确定所述两个对象是否为同一实体。

技术总结
本说明书实施例公开了一种实体的检测方法、装置及设备,该方法包括:分别获取针对待比较的两个对象的属性信息和两个对象之间的空间距离信息,该属性信息通过文本信息的形式呈现;将两个对象的属性信息进行拼接,得到拼接文本信息,基于拼接文本信息,通过预先训练的目标语言模型,确定两个对象之间的属性相似度信息,其中,目标语言模型基于对象样本的样本属性信息构建的拼接文本样本和针对拼接文本样本构建的针对目标语言模型中每个网络层的输入数据中的提示信息进行模型训练后得到;基于两个对象之间的空间距离信息,确定两个对象之间的地理空间相似度信息;基于属性相似度信息和地理空间相似度信息,确定两个对象是否为同一实体。同一实体。同一实体。


技术研发人员:高培鑫 郑霖 金宏
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.05.26
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐