一种基于数据清洗的信息分析系统的制作方法
未命名
09-01
阅读:217
评论:0

1.本发明涉及数据清洗的信息分析技术领域,具体为一种基于数据清洗的信息分析系统。
背景技术:
2.目前,数字化发展越来越快,很多租赁平台都在使用数据清洗的信息分析系统对租客的租赁信息进行重新审查和校验,最终的目的是删除重复信息、纠正存在错误的信息、并且检查数据的准确性,数据清洗技术是提高数据质量的有效方法,提高租赁业务的工作效率,所以,数据清洗的信息分析系统的应用会越来越普及。
3.尽管如此,现有的数据清洗的信息分析系统,仍存在部分租赁的业务数据,由于数据时间跨度较大、对于字段的约束不够严谨和业务审核机制不健全等一系列问题,导致很多记录的业务数据与实际数据相差较大,同时因为统计的机制不够清晰,导致无法保证出租人、房源和租户可以完全对应起来,从而对租赁带来一定的经济损失。
技术实现要素:
4.本发明的目的在于提供一种基于数据清洗的信息分析系统,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于数据清洗的信息分析系统,包括数据输入单元,所述数据输入单元将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;
6.数据清洗单元,所述数据清洗单元对数据输入单元传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;
7.数据分析单元,所述数据分析单元对数据分析单元传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;
8.数据输出单元,所述数据输出单元将分析后准确的出租人信息、房源信息和租户信息数据输出。
9.优选的,所述数据输入单元包括出租人信息模块、房源信息模块和租户信息模块,所述出租人信息模块输入出租人的姓名、性别、年龄和联系方式后系统会自动生成唯一出租人id,一旦退租出租人id就会空出来,被下一位出租人使用,所述房源信息模块输入房源的面积、位置和租金后系统会自动生成唯一房源id,一旦退租房源id就会空出来,被下一位房源使用,所述租户信息模块输入租户的姓名、性别、年龄和联系方式系统会自动生成唯一租户id,一旦退租租户id就会空出来,被下一位租户使用。
10.优选的,所述数据清洗单元包括数据审核模块和数据校验模块,所述数据审核模块将输入的出租人信息、房源信息和租户信息进行审核,保证每个字段没有缺失的情况,所述数据校验模块将输入的出租人信息、房源信息和租户信息进行校验,对于重复的数据再次校验重复的次数、重复的时间和数据来源检验出来,对于不符合常规的数据比如房源面
积小于0平方米和联系方式不是11位的情况校验出来。
11.优选的,所述数据清洗单元还包括数据自清洗模块和数据清洗模块所述数据自清洗模块是针对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,所述数据清洗模块是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留。
12.优选的,所述数据分析单元包括审核分析模块和校验分析模块,所述审核分析模块对出租人信息、房源信息和租户信息审核后并进行分析,所述校验分析模块对出租人信息、房源信息和租户信息校验后并进行分析。
13.优选的,所述数据分析单元还包括自清洗分析模块和清洗分析模块,所述自清洗分析模块对自清洗后的数据进行分析,所述清洗分析模块对人工干预清洗后的数据进行再次分析。
14.优选的,所述数据输出单元包括出租人信息输出模块和房源信息输出模块,所述出租人信息输出模块将准确的出租人的姓名、性别、年龄和出租人id输出,所述房源信息输出模块将准确的房源的面积、位置、租金和房源id输出。
15.优选的,所述数据输出单元还包括租户信息输出模块,所述租户信息输出模块将准确的租户的姓名、性别、年龄和租户id输出。
16.数据清洗算法包括数据质量算法,数据质量算法具体为:
[0017][0018]
其中,#recodes
right
代表清洗后的正确数据,#rows代表数据行数,#colums
error
代表错误数据所在例的个数,quality代表数据质量。
[0019]
数据清洗算法还包括缺失值算法,缺失值算法具体为:
[0020][0021]
其中a代表缺失值,ai代表缺失值所在属性的属性值,n代表该类记录的总数。
[0022]
与现有技术相比,本发明的有益效果是:
[0023]
本发明通过对出租人、房源和租户设置id,保证出租人、房源和租户都是一对一或一对多的对应关系,产生退租的情况id会自动空出被新的租户使用,方便数据清洗分析系统的统计,并且退租后,id就会被重新启用,减少了数据冗余,并且使数据更加清晰,对数据审核校验对字段进行约束和业务审核,对于字段缺失严重的,影响分析结果的自动删除,对于字段缺失不严重的比如性别,不影响分析结果的字段保留,经过清洗降低记录的业务数据与实际数据之前的数据差,数据清洗技术提高了数据质量的同时也提高租赁的经济效益。
附图说明
[0024]
图1为本发明的数据清洗分析系统框图;
[0025]
图2为本发明的数据输入单元模块框图;
[0026]
图3为本发明的数据清洗单元内部模块框图;
[0027]
图4为本发明的数据分析单元内部模块框图;
[0028]
图5为本发明的数据输出单元内部模块框图。
[0029]
图中:1、数据输入单元;101、出租人信息模块;102、房源信息模块;103、租户信息模块;2、数据清洗单元;201、数据审核模块;202、数据校验模块;203、数据自清洗模块;204、数据清洗模块;3、数据分析单元;301、审核分析模块;302、校验分析模块;303、自清洗分析模块;304、清洗分析模块;4、数据输出单元;401、出租人信息输出模块;402、房源信息输出模块;403、租户信息输出模块。
具体实施方式
[0030]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031]
请参阅图1-5,本发明提供一种技术方案:一种基于数据清洗的信息分析系统,包括数据输入单元1,数据输入单元1将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;
[0032]
数据清洗单元2,数据清洗单元2对数据输入单元1传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;
[0033]
数据分析单元3,数据分析单元3对数据分析单元3传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;
[0034]
数据输出单元4,数据输出单元4将分析后准确的出租人信息、房源信息和租户信息数据输出。
[0035]
数据输入单元1包括出租人信息模块101、房源信息模块102和租户信息模块103,出租人信息模块101输入出租人的姓名、性别、年龄和联系方式后系统会自动生成唯一出租人id,一旦退租出租人id就会空出来,被下一位出租人使用,房源信息模块102输入房源的面积、位置和租金后系统会自动生成唯一房源id,一旦退租房源id就会空出来,被下一位房源使用,租户信息模块103输入租户的姓名、性别、年龄和联系方式系统会自动生成唯一租户id,一旦退租租户id就会空出来,被下一位租户使用。
[0036]
数据清洗单元2包括数据审核模块201和数据校验模块202,数据审核模块201将输入的出租人信息、房源信息和租户信息进行审核,保证每个字段没有缺失的情况,数据校验模块202将输入的出租人信息、房源信息和租户信息进行校验,对于重复的数据再次校验重复的次数、重复的时间和数据来源检验出来,对于不符合常规的数据比如房源面积小于0平方米和联系方式不是11位的情况校验出来。
[0037]
数据清洗单元2还包括数据自清洗模块203和数据清洗模块204数据自清洗模块203是针对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,数据清洗模块204是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留。
[0038]
数据分析单元3包括审核分析模块301和校验分析模块302,审核分析模块301对出租人信息、房源信息和租户信息审核后并进行分析,校验分析模块302对出租人信息、房源信息和租户信息校验后并进行分析。
[0039]
数据分析单元3还包括自清洗分析模块303和清洗分析模块304,自清洗分析模块303对自清洗后的数据进行分析,清洗分析模块304对人工干预清洗后的数据进行再次分析。
[0040]
数据输出单元4包括出租人信息输出模块401和房源信息输出模块402,出租人信息输出模块401将准确的出租人的姓名、性别、年龄和出租人id输出,房源信息输出模块402将准确的房源的面积、位置、租金和房源id输出。
[0041]
数据输出单元4还包括租户信息输出模块403,租户信息输出模块403将准确的租户的姓名、性别、年龄和租户id输出。
[0042]
数据清洗算法包括数据质量算法,数据质量算法具体为:
[0043][0044]
其中,#recodes
right
代表清洗后的正确数据,#rows代表数据行数,#colums
error
代表错误数据所在例的个数,quality代表数据质量。
[0045]
数据清洗算法还包括缺失值算法,缺失值算法具体为:
[0046][0047]
其中a代表缺失值,ai代表缺失值所在属性的属性值,n代表该类记录的总数。
[0048]
工作原理:本发明通过数据输入单元1将出租人的姓名、性别、年龄和联系方式输入数据清洗分析系统后会自动生成唯一出租人id,一旦退租出租人id就会空出来,被下一位出租人使用,将房源信息输入房源的面积、位置和租金输入数据清洗分析系统后会自动生成唯一房源id,一旦退租房源id就会空出来,被下一位房源使用,将租户信息输入租户的姓名、性别、年龄和联系方式输入数据清洗分析系统后会自动生成唯一租户id,一旦退租租户id就会空出来,被下一位租户使用,将数据输入单元1的数据传输至数据清洗单元2,通过数据审核将输入的出租人信息、房源信息和租户信息进行审核,保证每个字段没有缺失的情况,对审核后的出租人信息、房源信息和租户信息进行校验,对于重复的数据再次校验重复的次数、重复的时间和数据来源检验出来,对于不符合常规的数据比如房源面积小于0平方米和联系方式不是11位的情况校验出来,对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留,将数据清洗单元2的数据传输至数据分析单元3,并对出租人信息、房源信息和租户信息审核校验并通过数据清洗算法进行分析,最后将准确的出租人的姓名、性别、年龄和出租人id信息输出至数据输出单元4,房源的面积、位置、租金和房源id信息输出至数据输出单元4,租户的姓名、性别、年龄和租户id信息输出至数据输出单元4。
[0049]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0050]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于数据清洗的信息分析系统,其特征在于:包括数据输入单元(1),所述数据输入单元(1)将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;数据清洗单元(2),所述数据清洗单元(2)对数据输入单元(1)传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;数据分析单元(3),所述数据分析单元(3)对数据分析单元(3)传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;数据输出单元(4),所述数据输出单元(4)将分析后准确的出租人信息、房源信息和租户信息数据输出。2.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据输入单元(1)包括出租人信息模块(101)、房源信息模块(102)和租户信息模块(103),所述出租人信息模块(101)输入出租人的姓名、性别、年龄和联系方式后系统会自动生成唯一出租人id,一旦退租出租人id就会空出来,被下一位出租人使用,所述房源信息模块(102)输入房源的面积、位置和租金后系统会自动生成唯一房源id,一旦退租房源id就会空出来,被下一位房源使用,所述租户信息模块(103)输入租户的姓名、性别、年龄和联系方式系统会自动生成唯一租户id,一旦退租租户id就会空出来,被下一位租户使用。3.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据清洗单元(2)包括数据审核模块(201)和数据校验模块(202),所述数据审核模块(201)将输入的出租人信息、房源信息和租户信息进行审核,所述数据校验模块(202)将输入的出租人信息、房源信息和租户信息进行校验。4.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据清洗单元(2)还包括数据自清洗模块(203)和数据清洗模块(204)所述数据自清洗模块(203)是针对校验后的数据进行系统默认的清洗方式进行数据清洗,所述数据清洗模块(204)是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗。5.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据分析单元(3)包括审核分析模块(301)和校验分析模块(302),所述审核分析模块(301)对出租人信息、房源信息和租户信息审核后并进行分析,所述校验分析模块(302)对出租人信息、房源信息和租户信息校验后并进行分析。6.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据分析单元(3)还包括自清洗分析模块(303)和清洗分析模块(304),所述自清洗分析模块(303)对自清洗后的数据进行分析,所述清洗分析模块(304)对人工干预清洗后的数据进行再次分析。7.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据输出单元(4)包括出租人信息输出模块(401)和房源信息输出模块(402),所述出租人信息输出模块(401)将准确的出租人的姓名、性别、年龄和出租人id输出,所述房源信息输出模块(402)将准确的房源的面积、位置、租金和房源id输出。8.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据输出单元(4)还包括租户信息输出模块(403),所述租户信息输出模块(403)将准确的租户的姓名、性别、年龄和租户id输出。
技术总结
本发明公开了一种基于数据清洗的信息分析系统,涉及数据清洗的信息分析技术领域,包括数据输入单元,所述数据输入单元将出租人信息、房源信息和租户信息依次录入数据清洗分析系统。本发明通过输入房源的面积、位置和租金后系统会自动生成唯一房源ID,一旦退租房源ID就会空出来,被下一位房源使用,所述数据自清洗模块是针对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,所述数据清洗模块是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留。不影响分析结果的字段保留。不影响分析结果的字段保留。
技术研发人员:金文光 臧宇灵
受保护的技术使用者:无锡数科云软件有限公司
技术研发日:2023.06.09
技术公布日:2023/8/30
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/