一种获取小区押品数量的方法及装置与流程

未命名 08-15 阅读:233 评论:0


1.本技术涉及信息提取技术领域,特别是涉及一种获取小区押品数量的方法及装置。


背景技术:

2.在银行统计小区押品(借贷的房产抵押品)时,需要针对工作人员手动填写的地址信息提取小区信息,并根据提取的小区信息进行统计。但是,由于人工填写的押品地址的具体信息没有固定格式,导致小区押品的地址信息格式繁杂,无法准确统计某一小区押品的数量。


技术实现要素:

3.本技术提供了一种获取小区押品数量的方法及装置,能够较为准确地统计小区押品的数量。
4.第一方面,本技术提供了一种获取小区押品数量的方法,包括:
5.根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多个所述第一地址信息为从小区押品地址数据库获取的地址信息;获取第一集合,所述第一集合包括多个所述目标地址信息,多个所述目标地址信息具有相同的行政区信息,所述行政区信息包括省级信息、市级信息或县区级信息;
6.从所述目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,所述行政区信息包括省级信息、市级信息或县区级信息;
7.根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息;
8.对所述多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得所述多个目标地址信息中各目标地址信息对应的目标小区信息;
9.统计与所述目标小区信息对应的目标地址信息的数量,所述目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。
10.可选地,所述根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息,包括:
11.根据预设正则表达式,剔除所述多个目标地址信息的楼栋信息,获得多个第二地址信息;
12.基于预设小区后缀集合中的小区后缀,剔除所述多个第二地址信息各第二地址信息中位于所述小区后缀之后的信息,获得所述多个目标地址信息对应的初始小区信息。
13.可选地,在所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合之前,所述方法还包括:
14.根据预设清洗规则对初始地址信息进行清洗,获得多个所述第一地址信息,所述预设清洗规则包括:剔除所述初始地址信息中的特殊字符和/或修改所述初始地址信息中
的普通字符的格式。
15.可选地,第一地址信息包括多个地址文本,所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,包括:
16.对所述第一地址信息的多个地址文本进行遍历,若所述多个地址文本中的地址文本与行政区数据库匹配,则根据所述行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,所述行政区数据库包括省级数据库、市级数据库和县区级数据库;
17.对所述第三地址信息去重,获得第四地址信息,所述目标地址信息集合包括多个所述第四地址信息。
18.第二方面,本技术还提供了一种获取小区押品数量的装置,包括:
19.转换单元,用于根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多个所述第一地址信息为从小区押品地址数据库获取的地址信息;
20.获取单元,用于从所述目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,所述行政区信息包括省级信息、市级信息或县区级信息;
21.剔除单元,用于根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息;
22.匹配单元,用于对所述多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得所述多个目标地址信息中各目标地址信息对应的目标小区信息;
23.统计单元,用于统计与所述目标小区信息对应的目标地址信息的数量,所述目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。
24.可选地,所述剔除单元具体用于:
25.根据预设正则表达式,剔除所述多个目标地址信息的楼栋信息,获得多个第二地址信息;
26.基于预设小区后缀集合中的小区后缀,剔除所述多个第二地址信息各目标地址信息中位于所述小区后缀之后的信息,获得所述多个目标地址信息对应的初始小区信息。
27.可选地,在所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合之前,所述装置还包括:
28.清洗单元,用于根据预设清洗规则对初始地址信息进行清洗,获得多个所述第一地址信息,所述预设清洗规则包括:剔除所述初始地址信息中的特殊字符和/或修改所述初始地址信息中的普通字符的格式。
29.可选地,所述第一地址信息包括多个地址文本,所述转换单元具体用于:
30.对所述第一地址信息的多个地址文本进行遍历,若所述多个地址文本中的地址文本与行政区数据库匹配,则根据所述行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,所述行政区数据库包括省级数据库、市级数据库和县区级数据库;
31.对所述第三地址信息去重,获得第四地址信息,所述目标地址信息集合包括多个所述第四地址信息。
32.第三方面,本技术还提供了一种电子设备,所述电子设备包括处理器以及存储器:
33.所述存储器用于存储计算机程序;
34.所述处理器用于根据所述计算机程序执行上述第一方面提供的所述方法。
35.第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质
用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述方法。
36.由此可见,本技术具有如下有益效果:
37.本技术提供了一种获取小区押品数量的方法,包括:根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多第一地址信息为从小区押品地址数据库获取的地址信息;从目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,行政区信息包括省级信息、市级信息或县区级信息;根据预设剔除规则剔除多个目标地址信息的楼栋信息,获得多个目标地址信息中各目标地址信息对应的初始小区信息;对多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得多个目标地址信息中各目标地址信息对应的目标小区信息;统计与目标小区信息对应的目标地址信息的数量,目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。如此,通过获取相同行政区信息下多个目标地址信息对应的目标小区信息,统计与目标小区信息对应的目标地址信息的数量,从而获得与目标小区信息对应的小区中押品的数量。
附图说明
38.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
39.图1为本技术实施例中一种获取小区押品数量的方法的流程示意图;
40.图2为本技术实施例中一种获取小区押品数量的方法的一实例的流程示意图;
41.图3为本技术实施例提供的一种获取小区押品数量的装置300的结构示意图;
42.图4为本技术实施例提供的一种电子设备400的结构示意图。
具体实施方式
43.本技术实施例涉及的多个,是指大于或等于两个。需要说明的是,在本技术实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.在银行统计小区押品(借贷的房产抵押品)时,需要针对工作人员手动填写的地址信息提取小区信息,并根据提取的小区信息进行统计。现有技术中,可以通过自然语言处理将文本中的地址信息提取出来,也可以通过购买企业(例如高德地图、百度地图)提供的地址编码服务将经纬度信息转换为格式化地址信息,但发明人研究发现,经自然语言处理提取的地址信息包含楼栋信息,无法用于小区信息的聚类分析,地址编码服务需要购买地图服务权限调用外部接口,而且通过地址编码服务获取的地址信息可能丢失小区信息。由于人工填写的押品地址的具体信息没有固定格式,导致小区押品的地址信息格式繁杂,无法准确统计某一小区押品的数量。
46.基于此,本技术实施例提供了一种获取小区押品数量的方法,包括:根据预设地址
转换规则将多个第一地址信息标准化,获得目标地址信息集合,多第一地址信息为从小区押品地址数据库获取的地址信息;从目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,行政区信息包括省级信息、市级信息或县区级信息;根据预设剔除规则剔除多个目标地址信息的楼栋信息,获得多个目标地址信息中各目标地址信息对应的初始小区信息;对多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得多个目标地址信息中各目标地址信息对应的目标小区信息;统计与目标小区信息对应的目标地址信息的数量,目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。如此,通过获取相同行政区信息下多个目标地址信息对应的目标小区信息,统计与目标小区信息对应的目标地址信息的数量,从而获得与目标小区信息对应的小区中押品的数量。
47.为了便于理解本技术实施例提供的获取小区押品数量的方法的具体实现,下面将结合附图进行说明。
48.需要说明的是,实施该获取小区押品数量的方法的主体可以为本技术实施例提供的获取小区押品数量的装置,该获取小区押品数量的装置可以承载于电子设备或电子设备的功能模块中。本技术实施例中的电子设备,可以是任意的能够实施本技术实施例中的获取小区押品数量的方法的设备,例如可以是物联网(internet ofthings,iot)设备。
49.请参阅图1,图1为本技术实施例提供的一种获取小区押品数量的方法的流程示意图。该方法可以应用于获取小区押品数量的装置,该获取小区押品数量的装置例如可以是如图3所示的获取小区押品数量的装置300,或者,该获取小区押品数量的装置也可以是集成于图4所示的电子设备400中的功能模块。
50.如图1所示,该方法例如可以包括:
51.s101:根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多个第一地址信息为从小区押品地址数据库获取的地址信息。
52.第一地址信息包括多个地址文本,本技术实施例提供的方法可以包括:对第一地址信息的多个地址文本进行遍历,若多个地址文本中的地址文本与行政区数据库匹配,则根据行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,行政区数据库包括省级数据库、市级数据库和县区级数据库;对第三地址信息去重,获得第四地址信息,目标地址信息集合包括多个第四地址信息。
53.需要说明的是,省级数据库可以包括省、自治区、特别行政区或直辖市,市级数据库可以包括地级市或自治州,县区级数据库可以包括县级市、市辖区或自治县。
54.作为一个示例,第一地址信息为“山西运城市运城经开区库东路2号金源水岸小区81号楼1单元9层901室”,该第一地址信息可以视为由多个地址文本“山西”、“运城市”、“运城”、“经开区”和“库东路2号金源水岸小区81号楼1单元9层901室”组成。对上述多个地址文本进行遍历,其中,“山西”与省级数据库匹配,可以根据省级数据库对应的省份名称补全的转换规则,将“山西”标准化为“山西省”;“运城市”与市级数据库匹配,“运城市”为标准化的地址文本则不做转换,需要说明的是,若市级数据库对应的转换规则是将市级全称转换为市级简称,则也可以将“运城市”标准化为“运城”;“经开区”与县区级数据库匹配,将“经开区”标准化为“经济技术开发区”;“库东路2号金源水岸小区81号楼1单元9层901室”无匹配的数据库则不做更改。
55.根据上述举例,将第一地址信息标准化后获得第三地址信息为“山西省运城市运城市经济技术开发区库东路2号金源水岸小区81号楼1单元9层901室”,可以对第三地址信息去重,获得第四地址信息为“山西省运城市经济技术开发区库东路2号金源水岸小区81号楼1单元9层901室”。在一些实现方式中,可以通过省级名称与省级名称之后的字符串对比、市级名称与市级名称之后的字符串对比或者县区级名称与县区级名称之后的字符串对比,从而达到去重的目的。在另一些实现方式中,若第三地址信息为“山西省运城市经济技术开发区库东路2号金源水岸小区金源水岸小区81号楼1单元9层901室”,则也可以通过去重“金源水岸小区”获得第四地址信息为“山西省运城市经济技术开发区库东路2号金源水岸小区81号楼1单元9层901室”。
56.为了使得获得的地址信息满足数据质量要求,在s101之前,本技术实施例提供的方法还可以包括:根据预设清洗规则对多个初始地址信息进行清洗,获得多个初始地址信息对应的多个第一地址信息,该预设清洗规则可以包括:剔除初始地址信息中的特殊字符和/或修改初始地址信息中的普通字符的格式。
57.作为一个示例,初始地址信息中有特殊符号如

*’、

.’、

。’、

·’、

\’或

|’,可以将初始地址信息中的特殊符号剔除,或者初始地址信息中有普通字符如中文括号

()’、

【】’或

{}’,可以将普通字符的格式从中文格式转换为英文格式如

()’、

[]’或

{}’。
[0058]
s102:从目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,行政区信息包括省级信息、市级信息或县区级信息。
[0059]
需要说明的是,具有相同市级信息的目标地址信息也具有相同的省级信息,具有相同县区级信息的目标地址信息也具有相同的省级信息和市级信息。即,此处相同的行政区信息不仅指文字信息的相同,同时还指实际地理位置信息相同。例如,“河南省郑州市经济技术开发区”和“山西省运城市经济技术开发区”的县区级信息均为“经济技术开发区”,但是并不具有相同的省级信息和市级信息,所以不能视为具有相同的行政区信息。
[0060]
作为一个示例,获取的具有相同的行政区信息的多个目标地址信息为第一集合,该第一集合具有相同的县区级信息,包括“山西省运城市经济技术开发区金源水岸小区37幢1201”和“山西省运城市经济技术开发区库东路2号金源水岸小区81号楼1单元9层901室”。
[0061]
s103:根据预设剔除规则剔除多个目标地址信息的楼栋信息,获得多个目标地址信息中各目标地址信息对应的初始小区信息。
[0062]
在一些实现方式中,本技术实施例提供的方法可以包括:根据预设正则表达式,剔除多个目标地址信息中的楼栋信息,获得多个第二地址信息;基于预设小区后缀集合中的小区后缀,剔除多个第二地址信息各第二地址信息中位于所述小区后缀之后的信息,获得多个目标地址信息对应的初始小区信息。
[0063]
正则表达式和对应匹配示例如表1所示,需要说明的是,“[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+”可以匹配由阿拉伯数字(0-9)、中文数字(一二三四五六七八九十)、(大写字母(a-z)、
‘‑’
、小写字母(a-z)、括号、逗号(中文逗号和英文逗号)、顿号和单引号任意组合起来的字符串。

[]’表示字符集;

$’匹配每行结尾字符;

*’表示正则表达式中的一个限定符,用来修饰前一个字符或分组,限定匹配重复的数量为任意数量(零次或多次),例如

第*’就可以匹配

第’、
‘’
(空)或者

第第’等字符串。
[0064]
表1
[0065]
正则表达式匹配示例'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+号商业住宅'第3-8号商业住宅'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+号商住楼'第3-8号商住楼'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+号住宅'第3-8号住宅'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+号楼'第3-8号楼'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+号房'第3-8号房'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+住宅'第3-8住宅'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+地块'第3-8地块'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+单元'第3-8单元'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+楼'第3-8楼'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+栋'第3-8栋'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+层'第3-8层'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+幢'第3-8幢'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+排'第3-8排'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+座'第3-8座'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+门'第3-8门'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+户'第3-8户'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+房'第3-8房'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+室'第3-8室'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+#'第3-8#'弄第*[0-9-,、,
‘’
()一二三四五六七八九十]+号'弄第3-8号'第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+$'第(三-八)'第*[0-9a-za-z]+-[0-9-,、,
‘’
()一二三四五六七八九十]+号$'第3-8号'第*[0-9-,、,
‘’
()一二三四五六七八九十]+室$'第3-8室
[0066]
作为一个示例,目标地址信息为“辽宁省大连市金州区淮河中路湾里东小区湾里东50号3单元501室”,可以通过正则表达式“第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+室”剔除“501室”,获得“辽宁省大连市金州区淮河中路湾里东小区湾里东50号3单元”;再通过正则表达式“第*[0-9a-za-z-,、,
‘’
()一二三四五六七八九十]+单元”剔除“3单元”,获得“辽宁省大连市金州区淮河中路湾里东小区湾里东50号”;然后通过正则表达式“第*[0-9a-za-z]+-[0-9-,、,
‘’
()一二三四五六七八九十]+号$”剔除“50号”,获得第二地址信息为“辽宁省大连市金州区淮河中路湾里东小区湾里东”。
[0067]
需要说明的是,小区后缀集合中的小区后缀例如可以是

小区’、

花苑’、

花园’、

名府’、

新苑’、

名都’、

家园’、

豪庭’、

华庭’、

山庄’、

公馆’、

华苑’或

金岸’。在一些实现方式中,可以根据实际需求更改(例如添加、删除)小区后缀集合的小区后缀;在另一些实现方式中,还可以通过深度学习的方式训练优化小区后缀集合,均不影响本技术实施例的实现。基于上述举例,根据小区后缀

小区’对第二地址信息“辽宁省大连市金州区淮河中路湾里东小区湾里东”剔除,即剔除位于小区后缀

小区’之后的

湾里东’,获得目标地址信息对应的初始小区信息为“辽宁省大连市金州区淮河中路湾里东小区”。
[0068]
s104:对多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹
配,获得多个目标地址信息中各目标地址信息对应的目标小区信息。
[0069]
根据上述第一集合的举例,获得“山西省运城市经济技术开发区金源水岸小区37幢1201”对应的初始小区信息为“金源水岸小区”,“山西省运城市经济技术开发区库东路2号金源水岸小区81号楼1单元9层901室”对应的初始小区信息为“库东路2号金源水岸小区”。对“金源水岸小区”和“库东路2号金源水岸小区”进行逆向匹配,获得目标小区信息为“金源水岸小区”。
[0070]
在另一些实现方式中,如果根据第一集合中的目标地址信息获得的初始小区信息均为“库东路2号金源水岸小区”,经过逆向匹配仍为“库东路2号金源水岸小区”,则“库东路2号金源水岸小区”即为获得的目标小区信息。
[0071]
s105:统计与目标小区信息对应的目标地址信息的数量,目标地址信息的数量表征与目标小区信息对应的小区中押品的数量。
[0072]
统计获得与目标小区信息“金源水岸小区”对应的目标地址信息的数量为2条,即表示该“金源水岸小区”中的押品数量为2个。需要说明的是,可以通过计算机编程语言python的数据分析包(pandas)统计小区的押品数量,也可以通过其他方式统计获得小区的押品数量,均不影响本技术实施例的实现。
[0073]
如此,通过本技术实施例提供的方法,不依赖特定编程语言和外部接口,就能够获取规范的地址信息及对应的小区信息,可以通过内网部署,实现较为准确地统计小区押品数量,对各小区押品数量进行聚类,使得地址信息的可分析性提高。
[0074]
为了使得本技术实施例提供的方法更加清楚且易于理解,下面结合具体的场景,对该方法的一个具体实例进行说明。
[0075]
s201:根据预设清洗规则对初始地址信息进行清洗,获得多个第一地址信息。
[0076]
第一地址信息由多个地址文本组成,预设清洗规则包括:剔除初始地址信息中的特殊字符和/或统一初始地址信息中的普通字符的格式。
[0077]
s202:对第一地址信息的多个地址文本进行遍历,若多个地址文本中的地址文本与行政区数据库匹配,则根据该行政区数据库对应的转换规则将地址文本标准化,获得第三地址信息。
[0078]
行政区数据库包括省级数据库、市级数据库和县区级数据库。
[0079]
s203:对第三地址信息去重,获得第四地址信息,目标地址信息集合包括多个第四地址信息。
[0080]
s204:从目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息。
[0081]
行政区信息包括省级信息、市级信息或县区级信息。
[0082]
s205:根据预设正则表达式,剔除多个目标地址信息的楼栋信息,获得多个第二地址信息。
[0083]
s206:基于预设小区后缀集合中的小区后缀,剔除多个第二地址信息各第二地址信息中位于所述小区后缀之后的信息,获得多个目标地址信息对应的初始小区信息。
[0084]
s207:对多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得多个目标地址信息中各目标地址信息对应的目标小区信息。
[0085]
s208:统计与目标小区信息对应的目标地址信息的数量,目标地址信息的数量表征与目标小区信息对应的小区中押品的数量。
[0086]
需要说明的是,可以根据小区对应的县区级信息做统计,例如“山西省运城市经济开发区”的小区押品数量,还可以根据小区对应的市级信息做统计,例如“山西省运城市”的小区押品数量,同理,还可以根据小区对应的省级信息做统计。
[0087]
如此,通过本技术实施例提供的方法,可以较为准确地统计小区押品的数量,当小区押品的覆盖率较高时,银行可以对该小区的风险进行监测,降低了银行亏损的风险,还可以根据小区押品的数量及其现估值判断是否为房屋增值空间较大的客户提供再担保服务,一定程度提高银行企业的收入。
[0088]
参见图3,本技术实施例还提供了一种获取小区押品数量的装置300的结构示意图,包括:
[0089]
转换单元301,用于转换单元,用于地址信息集合,多个所述第一地址信息为从小区押品地址数据库获取的地址信息;
[0090]
获取单元302,用于从所述目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,所述行政区信息包括省级信息、市级信息或县区级信息;
[0091]
剔除单元303,用于根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息;
[0092]
匹配单元304,用于对所述多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得所述多个目标地址信息中各目标地址信息对应的目标小区信息;
[0093]
统计单元305,用于统计与所述目标小区信息对应的目标地址信息的数量,所述目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。
[0094]
可选地,所述剔除单元303具体用于:
[0095]
根据预设正则表达式,剔除所述多个目标地址信息的楼栋信息,获得多个第二地址信息;
[0096]
基于预设小区后缀集合中的小区后缀,剔除所述多个第二地址信息各目标地址信息中位于所述小区后缀之后的信息,获得所述多个目标地址信息对应的初始小区信息。
[0097]
可选地,在所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合之前,所述装置300还包括:
[0098]
清洗单元,用于根据预设清洗规则对初始地址信息进行清洗,获得多个所述第一地址信息,所述预设清洗规则包括:剔除所述初始地址信息中的特殊字符和/或修改所述初始地址信息中的普通字符的格式。
[0099]
可选地,所述第一地址信息包括多个地址文本,所述转换单元301具体用于:
[0100]
对所述第一地址信息的多个地址文本进行遍历,若所述多个地址文本中的地址文本与行政区数据库匹配,则根据所述行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,所述行政区数据库包括省级数据库、市级数据库和县区级数据库;
[0101]
对所述第三地址信息去重,获得第四地址信息,所述目标地址信息集合包括多个所述第四地址信息。
[0102]
需要说明的是,该装置300具体实现方式以及达到的技术效果均可以参见图1或图2所示的方法中的相关描述。
[0103]
此外,本技术实施例还提供了一种电子设备400,如图4所示,所述电子设备400包括处理器401以及存储器402:
[0104]
所述存储器402用于存储计算机程序;
[0105]
所述处理器401用于根据所述计算机程序执行图1或图2提供的方法。
[0106]
此外,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本技术实施例提供的方法。
[0107]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0108]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目标。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0109]
以上所述仅是本技术的优选实施方式,并非用于限定本技术的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:
1.一种获取小区押品数量的方法,其特征在于,包括:根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多个所述第一地址信息为从小区押品地址数据库获取的地址信息;从所述目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,所述行政区信息包括省级信息、市级信息或县区级信息;根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息;对所述多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得所述多个目标地址信息中各目标地址信息对应的目标小区信息;统计与所述目标小区信息对应的目标地址信息的数量,所述目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。2.根据权利要求1所述的方法,其特征在于,所述根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息,包括:根据预设正则表达式,剔除所述多个目标地址信息的楼栋信息,获得多个第二地址信息;基于预设小区后缀集合中的小区后缀,剔除所述多个第二地址信息各第二地址信息中位于所述小区后缀之后的信息,获得所述多个目标地址信息对应的初始小区信息。3.根据权利要求1所述的方法,其特征在于,在所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合之前,所述方法还包括:根据预设清洗规则对初始地址信息进行清洗,获得多个所述第一地址信息,所述预设清洗规则包括:剔除所述初始地址信息中的特殊字符和/或修改所述初始地址信息中的普通字符的格式。4.根据权利要求1所述的方法,其特征在于,第一地址信息包括多个地址文本,所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,包括:对所述第一地址信息的多个地址文本进行遍历,若所述多个地址文本中的地址文本与行政区数据库匹配,则根据所述行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,所述行政区数据库包括省级数据库、市级数据库和县区级数据库;对所述第三地址信息去重,获得第四地址信息,所述目标地址信息集合包括多个所述第四地址信息。5.一种获取小区押品数量的装置,其特征在于,包括:转换单元,用于根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合,多个所述第一地址信息为从小区押品地址数据库获取的地址信息;获取单元,用于从所述目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息,所述行政区信息包括省级信息、市级信息或县区级信息;剔除单元,用于根据预设剔除规则剔除所述多个目标地址信息的楼栋信息,获得所述多个目标地址信息中各目标地址信息对应的初始小区信息;匹配单元,用于对所述多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得所述多个目标地址信息中各目标地址信息对应的目标小区信息;
统计单元,用于统计与所述目标小区信息对应的目标地址信息的数量,所述目标地址信息的数量表征与所述目标小区信息对应的小区中押品的数量。6.根据权利要求5所述的装置,其特征在于,所述剔除单元具体用于:根据预设正则表达式,剔除所述多个目标地址信息的楼栋信息,获得多个第二地址信息;基于预设小区后缀集合中的小区后缀,剔除所述多个第二地址信息各目标地址信息中位于所述小区后缀之后的信息,获得所述多个目标地址信息对应的初始小区信息。7.根据权利要求5所述的装置,其特征在于,在所述根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合之前,所述装置还包括:清洗单元,用于根据预设清洗规则对初始地址信息进行清洗,获得多个所述第一地址信息,所述预设清洗规则包括:剔除所述初始地址信息中的特殊字符和/或修改所述初始地址信息中的普通字符的格式。8.根据权利要求5所述的装置,其特征在于,第一地址信息包括多个地址文本,所述转换单元具体用于:对所述第一地址信息的多个地址文本进行遍历,若所述多个地址文本中的地址文本与行政区数据库匹配,则根据所述行政区数据库对应的转换规则将所述地址文本标准化,获得第三地址信息,所述行政区数据库包括省级数据库、市级数据库和县区级数据库;对所述第三地址信息去重,获得第四地址信息,所述目标地址信息集合包括多个所述第四地址信息。9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序执行权利要求1-4任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-4任一项所述的方法。

技术总结
本申请公开了一种获取小区押品数量的方法及装置。该方法中,根据预设地址转换规则将多个第一地址信息标准化,获得目标地址信息集合;从目标地址信息集合中获取具有相同的行政区信息的多个目标地址信息;根据预设剔除规则剔除多个目标地址信息的楼栋信息,获得多个目标地址信息中各目标地址信息对应的初始小区信息;对多个目标地址信息中各目标地址信息对应的初始小区信息进行逆向匹配,获得多个目标地址信息中各目标地址信息对应的目标小区信息;统计与目标小区信息对应的目标地址信息的数量。如此,通过获取相同行政区信息下的目标小区信息,统计与目标小区信息对应的目标地址信息的数量,从而获得与目标小区信息对应的小区中押品的数量。区中押品的数量。区中押品的数量。


技术研发人员:朱福源
受保护的技术使用者:中银金融科技有限公司
技术研发日:2023.03.23
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐