一种具有数据归纳存储功能的大数据采集系统的制作方法
未命名
08-22
阅读:113
评论:0
1.本发明涉及大数据采集技术领域,具体为一种具有数据归纳存储功能的大数据采集系统。
背景技术:
2.大数据价值的完美体现需要多种技术的协同。根据涉及领域的不同,大数据的关键技术可以分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等几大方面,在互联网行业技术快速发展的今天,数据采集广泛应用于互联网及分布式领域(常见的摄像头、麦克风等都可以成为数据采集的工具),此外还集合了信号、传感器、激励器、信号调流、数据采集设备和软件应用等。大数据采集技术通过rfid射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化、非结构化的海量数据。因此,大数据采集技术也面临着诸多挑战。
3.现有的大数据采集系统在使用中由于数据的类型繁杂、数据量大,在数据采集中,主服务器常常出现宕机情况,需要后续进行维护,并且同类型数据一起重复的储存到主服务器内,导致数据库臃肿,为后续数据备份和分片储存带来困扰。
技术实现要素:
4.本发明的目的在于提供一种具有数据归纳存储功能的大数据采集系统,以解决上述背景技术中提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种具有数据归纳存储功能的大数据采集系统,一个企业系统,用于收集客户关系管理数据、企业资源计划数据、库存数据和销售数据,并将数据推送给业务数据单元和行业数据单元,对数据进行储存;
6.一个机器系统,用于收集智能仪表数据、工业设备传感器数据、智能设备数据和视频监控数据,并将数据推送给业务数据单元和线下行为数据单元,对数据进行储存;
7.一个互联网系统,用于收集电商系统数据、服务行业业务数据、政府监管数据,并将数据推送给业务数据单元和线上行为数据单元;
8.一个社交系统,用于收集社交软件数据,并将数据推送给业务数据单元和线上行为数据单元;
9.一个归纳分析系统,用于个案数据的分类,把个收集系统数据根据个案的特点把个案划分为若干类别,并且对变量的数据降维处理,对应分析找出相关的两个变量之间取值的对应关系,能够借助一个比较简单的因素变量,能够对最终结果快速做出判定;
10.一个分布式数据库系统,用于对归纳分析后的数据,记录多少个存储节点,并且记录存放在不同的数据库,用来对数据访问进行权限检查、路由访问,以及对计算结果的储存。
11.进一步的,所述业务数据单元内记录的数据包括有消费者数据、客户关系数据、库存数据、账目数据;
12.行业数据单元内记录的数据包括有车流量数据、能耗数据、pm2.5数据;
13.内容数据单元内记录的数据包括有应用日志、电子文档、机器数据、语音数据、社交媒体数据;
14.线上行为数据单元内记录的数据包括有页面数据、交互数据、表单数据、会话数据、反馈数据;
15.线下行为数据单元内记录的数据包括有车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹。
16.进一步的,所述归纳分析系统具有客户数据模块、zk1服务器、zk2服务器、zk3服务器、降为分析单元、聚类分析单元和主服务器组成。
17.进一步的,所述归纳分析系统具体步骤如下;
18.s1:通过客户数据模块,将业务数据单元、行业数据单元、内容数据单元、线上行为数据单元和线下行为数据单元进行储存;
19.s2:通过zk1服务器、zk2服务器和zk3服务器对该数据进行计算排列,将数据分类,将个案设为行,将变量设为列;
20.s3:通过降维分析单元和聚类分析单元,将个案设置为个案团和将变量设置为变量团,通过计算欧式距离,对定序变量之间距离的度量以及对个案团或变量团之间距离的测定;
21.s4:通过测定结果输送给主服务器,主服务器将数据排列归纳,分成各个库;
22.s5:通过光纤输送,将归纳后的数据,输送给分布式数据库系统。
23.进一步的,所述欧式距离的具体算法为:
24.步骤一、测算两个节点中对应数据的差值,采用欧式距离以坐标点之间的直线距离作为其结果,在三维坐标系下,其计算公式为:离作为其结果,在三维坐标系下,其计算公式为:
25.δx2,δy2,δz2,是两个节点中对应数据的差值;
26.步骤二、测算平方欧式距离,即欧式距离的平方,其公式为:ed2=δx2+δy2+δz2;
27.步骤三、余弦距离是两个结点夹角的余弦值,代表结点之间的距离,其计算公式为:余弦距离=cos(θ
ij
),
28.步骤四、两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
29.其中符号ρ是上式总体相关系数的代表符号,同时其中符号r是上式估算样本的协方差和标准差的代表符号,即皮尔逊相关系数,
[0030][0031]
步骤五、切比雪夫距离是用结点中的最大差值的绝对值作为两个元祖之间的距离,
[0032]
步骤六、块距离以两个结点中所有对应数据的差值的绝对值之和来表示两个结点之间的距离。
[0033]
步骤七、明可夫斯基距离是对欧式距离的改进,其公式是
[0034][0035]
步骤八、自定义
[0036]
进一步的,所述步骤七中,测定明可夫斯基距离中,当p=1时,此公式退化为块距离公式,当p=2时,此公式退化为欧式距离公式。
[0037]
进一步的,所述步骤八中,测定自定义“设定距离”,当r=p时,此公式退化为明可夫斯基距离公式,当r=p=2时,此公式就是欧式距离公式。
[0038]
进一步的,所述分布式数据库系统具有由sql计算单元、元数据单元、第一存储单元、第二存储单元、第三存储单元和第n+1存储单元组成。
[0039]
进一步的,所述分布式数据库系统的具体步骤为;
[0040]
s1、sql计算单元对采集后的各数据进行分片,将每个分片分发给第一存储单元、第二存储单元、第三存储单元和第n+1存储单元;
[0041]
s2、同时,元数据单元对数据进行备份;
[0042]
s3、当sql计算单元发生宕机,第一存储单元的从服务器会接替原先的sql计算单元,继续提供服务。
[0043]
与现有技术相比,本发明的有益效果如下:
[0044]
本大数据采集系统采用分布式数据库系统作为数据储存系统能够满足庞大的数据储存需求,并且,分布式数据库系统具有高可用性、可扩展性、容错性、可移植性和可伸缩性等特点,可以提供更高的性能和更可靠的服务。它还可以支持多种数据库管理系统,支持多种数据库技术,并可以支持多种数据库操作系统,分布式数据库系统是指将数据分散存储在不同计算机节点上,通过网络协议进行通信和协调,形成一个具有统一视图和访问方式的数据库系统,满足数据归纳存储的需求,为整个庞大的计算量提供基础保证,同时其高安全性,能够有效。
附图说明
[0045]
图1为本发明一种具有数据归纳存储功能的大数据采集系统的系统示意图;
[0046]
图2为本发明一种具有数据归纳存储功能的大数据采集系统的归纳分析系统示意图;
[0047]
图3为本发明一种具有数据归纳存储功能的大数据采集系统的分布式数据库系统示意图。
具体实施方式
[0048]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
请参阅图1-3,本发明提供一种技术方案:一种具有数据归纳存储功能的大数据采集系统,一个企业系统,用于收集客户关系管理数据、企业资源计划数据、库存数据和销售
数据,并将数据推送给业务数据单元和行业数据单元,对数据进行储存;一个机器系统,用于收集智能仪表数据、工业设备传感器数据、智能设备数据和视频监控数据,并将数据推送给业务数据单元和线下行为数据单元,对数据进行储存;一个互联网系统,用于收集电商系统数据、服务行业业务数据、政府监管数据,并将数据推送给业务数据单元和线上行为数据单元;一个社交系统,用于收集社交软件数据,并将数据推送给业务数据单元和线上行为数据单元,业务数据单元内记录的数据包括有消费者数据、客户关系数据、库存数据、账目数据;行业数据单元内记录的数据包括有车流量数据、能耗数据、pm2.5数据;内容数据单元内记录的数据包括有应用日志、电子文档、机器数据、语音数据、社交媒体数据;线上行为数据单元内记录的数据包括有页面数据、交互数据、表单数据、会话数据、反馈数据;线下行为数据单元内记录的数据包括有车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹;
[0050]
一个归纳分析系统,用于个案数据的分类,把个收集系统数据根据个案的特点把个案划分为若干类别,并且对变量的数据降维处理,对应分析找出相关的两个变量之间取值的对应关系,能够借助一个比较简单的因素变量,能够对最终结果快速做出判定,归纳分析系统具有客户数据模块、zk1服务器、zk2服务器、zk3服务器、降为分析单元、聚类分析单元和主服务器组成,归纳分析系统具体步骤如下;
[0051]
s1:通过客户数据模块,将业务数据单元、行业数据单元、内容数据单元、线上行为数据单元和线下行为数据单元进行储存;
[0052]
s2:通过zk1服务器、zk2服务器和zk3服务器对该数据进行计算排列,将数据分类,将个案设为行,将变量设为列;
[0053]
s3:通过降维分析单元和聚类分析单元,将个案设置为个案团和将变量设置为变量团,通过计算欧式距离,对定序变量之间距离的度量以及对个案团或变量团之间距离的测定;
[0054]
s4:通过测定结果输送给主服务器,主服务器将数据排列归纳,分成各个库;
[0055]
s5:通过光纤输送,将归纳后的数据,输送给分布式数据库系统。
[0056]
欧式距离的具体算法为:
[0057]
步骤一、测算两个节点中对应数据的差值,采用欧式距离以坐标点之间的直线距离作为其结果,在三维坐标系下,其计算公式为:ed=
[0058]
δx2,δy2,δz2,是两个节点中对应数据的差值;
[0059]
步骤二、测算平方欧式距离,即欧式距离的平方,其公式为:ed2=δx2+δy2+δz2;
[0060]
步骤三、余弦距离是两个结点夹角的余弦值,代表结点之间的距离,其计算公式为:余弦距离=cos(θ
ij
),
[0061]
步骤四、两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
[0062]
其中符号ρ是上式总体相关系数的代表符号,同时其中符号r是上式估算样本的协方差和标准差的代表符号,即皮尔逊相关系数,
[0063][0064]
步骤五、切比雪夫距离是用结点中的最大差值的绝对值作为两个元祖之间的距
离,
[0065]
步骤六、块距离以两个结点中所有对应数据的差值的绝对值之和来表示两个结点之间的距离。
[0066]
步骤七、明可夫斯基距离是对欧式距离的改进,其公式是
[0067][0068]
步骤八、自定义
[0069]
步骤七中,测定明可夫斯基距离中,当p=1时,此公式退化为块距离公式,当p=2时,此公式退化为欧式距离公式,步骤八中,测定自定义“设定距离”,当r=p时,此公式退化为明可夫斯基距离公式,当r=p=2时,此公式就是欧式距离公式;
[0070]
一个分布式数据库系统,用于对归纳分析后的数据,记录多少个存储节点,并且记录存放在不同的数据库,用来对数据访问进行权限检查、路由访问,以及对计算结果的储存,归纳分析系统具有客户数据模块、zk1服务器、zk2服务器、zk3服务器、降为分析单元、聚类分析单元和主服务器组成,分布式数据库系统具有由sql计算单元、元数据单元、第一存储单元、第二存储单元、第三存储单元和第n+1存储单元组成。
[0071]
分布式数据库系统的具体步骤为;
[0072]
s1、sql计算单元对采集后的各数据进行分片,将每个分片分发给第一存储单元、第二存储单元、第三存储单元和第n+1存储单元;
[0073]
s2、同时,元数据单元对数据进行备份;
[0074]
s3、当sql计算单元发生宕机,第一存储单元的从服务器会接替原先的sql计算单元,继续提供服务,分布式数据库系统具有高可用性、可扩展性、容错性、可移植性和可伸缩性等特点,可以提供更高的性能和更可靠的服务。它还可以支持多种数据库管理系统,支持多种数据库技术,并可以支持多种数据库操作系统,分布式数据库系统是指将数据分散存储在不同计算机节点上,通过网络协议进行通信和协调,形成一个具有统一视图和访问方式的数据库系统,满足数据归纳存储的需求,为整个庞大的计算量提供基础保证。
[0075]
本实施例的工作原理:该具有数据归纳存储功能的大数据采集系统的具体步骤为,
[0076]
步骤一、首先将企业系统、机器系统、互联网系统和社交系统的数据根据类型储存输送;
[0077]
步骤二、根据数据类型分别发送给业务数据单元、行业数据单元、内容数据单元、线上行为数据单元和线下行为数据单元;
[0078]
步骤三、客户数据模块对业务数据单元、行业数据单元、内容数据单元、线上行为数据单元和线下行为数据单元进行储存,通过zk1服务器、zk2服务器和zk3服务器对该数据进行计算排列,将数据分类,将个案设为行,将变量设为列;
[0079]
步骤四,通过降维分析单元和聚类分析单元,将个案设置为个案团和将变量设置为变量团,通过计算欧式距离,对定序变量之间距离的度量以及对个案团或变量团之间距离的测定,测定结果输送给主服务器,主服务器将数据排列归纳,分成各个库,通过光纤输送,将归纳后的数据,输送给分布式数据库系统;
[0080]
步骤五、sql计算单元对采集后的各数据进行分片,将每个分片分发给第一存储单元、第二存储单元、第三存储单元和第n+1存储单元,同时,元数据单元对数据进行备份,当sql计算单元发生宕机,第一存储单元的从服务器会接替原先的sql计算单元,继续提供服务。
[0081]
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种具有数据归纳存储功能的大数据采集系统,其特征在于:一个企业系统,用于收集客户关系管理数据、企业资源计划数据、库存数据和销售数据,并将数据推送给业务数据单元和行业数据单元,对数据进行储存;一个机器系统,用于收集智能仪表数据、工业设备传感器数据、智能设备数据和视频监控数据,并将数据推送给业务数据单元和线下行为数据单元,对数据进行储存;一个互联网系统,用于收集电商系统数据、服务行业业务数据、政府监管数据,并将数据推送给业务数据单元和线上行为数据单元;一个社交系统,用于收集社交软件数据,并将数据推送给业务数据单元和线上行为数据单元;一个归纳分析系统,用于个案数据的分类,把个收集系统数据根据个案的特点把个案划分为若干类别,并且对变量的数据降维处理,对应分析找出相关的两个变量之间取值的对应关系,能够借助一个比较简单的因素变量,能够对最终结果快速做出判定;一个分布式数据库系统,用于对归纳分析后的数据,记录多少个存储节点,并且记录存放在不同的数据库,用来对数据访问进行权限检查、路由访问,以及对计算结果的储存。2.根据权利要求1所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述业务数据单元内记录的数据包括有消费者数据、客户关系数据、库存数据、账目数据;行业数据单元内记录的数据包括有车流量数据、能耗数据、pm2.5数据;内容数据单元内记录的数据包括有应用日志、电子文档、机器数据、语音数据、社交媒体数据;线上行为数据单元内记录的数据包括有页面数据、交互数据、表单数据、会话数据、反馈数据;线下行为数据单元内记录的数据包括有车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹。3.根据权利要求1所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述归纳分析系统具有客户数据模块、zk1服务器、zk2服务器、zk3服务器、降为分析单元、聚类分析单元和主服务器组成。4.根据权利要求3所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述归纳分析系统具体步骤如下;s1:通过客户数据模块,将业务数据单元、行业数据单元、内容数据单元、线上行为数据单元和线下行为数据单元进行储存;s2:通过zk1服务器、zk2服务器和zk3服务器对该数据进行计算排列,将数据分类,将个案设为行,将变量设为列;s3:通过降维分析单元和聚类分析单元,将个案设置为个案团和将变量设置为变量团,通过计算欧式距离,对定序变量之间距离的度量以及对个案团或变量团之间距离的测定;s4:通过测定结果输送给主服务器,主服务器将数据排列归纳,分成各个库;s5:通过光纤输送,将归纳后的数据,输送给分布式数据库系统。5.根据权利要求4所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述欧式距离的具体算法为:步骤一、测算两个节点中对应数据的差值,采用欧式距离以坐标点之间的直线距离作
为其结果,在三维坐标系下,其计算公式为:为其结果,在三维坐标系下,其计算公式为:δx2,δy2,δz2,是两个节点中对应数据的差值;步骤二、测算平方欧式距离,即欧式距离的平方,其公式为:ed2=δx2+δy2+δz2;步骤三、余弦距离是两个结点夹角的余弦值,代表结点之间的距离,其计算公式为:余弦距离=cos(θ
ij
),步骤四、两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:其中符号ρ是上式总体相关系数的代表符号,同时其中符号r是上式估算样本的协方差和标准差的代表符号,即皮尔逊相关系数,步骤五、切比雪夫距离是用结点中的最大差值的绝对值作为两个元祖之间的距离,步骤六、块距离以两个结点中所有对应数据的差值的绝对值之和来表示两个结点之间的距离。步骤七、明可夫斯基距离是对欧式距离的改进,其公式是步骤八、自定义6.根据权利要求5所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述步骤七中,测定明可夫斯基距离中,当p=1时,此公式退化为块距离公式,当p=2时,此公式退化为欧式距离公式。7.根据权利要求5所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述步骤八中,测定自定义“设定距离”,当r=p时,此公式退化为明可夫斯基距离公式,当r=p=2时,此公式就是欧式距离公式。8.根据权利要求1所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述分布式数据库系统具有由sql计算单元、元数据单元、第一存储单元、第二存储单元、第三存储单元和第n+1存储单元组成。9.根据权利要求8所述的一种具有数据归纳存储功能的大数据采集系统,其特征在于:所述分布式数据库系统的具体步骤为;s1、sql计算单元对采集后的各数据进行分片,将每个分片分发给第一存储单元、第二存储单元、第三存储单元和第n+1存储单元;s2、同时,元数据单元对数据进行备份;s3、当sql计算单元发生宕机,第一存储单元的从服务器会接替原先的sql计算单元,继续提供服务。
技术总结
本发明涉及一种具有数据归纳存储功能的大数据采集系统,一个企业系统,用于收集客户关系管理数据、企业资源计划数据、库存数据和销售数据,并将数据推送给业务数据单元和行业数据单元,对数据进行储存;一个机器系统,用于收集智能仪表数据、工业设备传感器数据、智能设备数据和视频监控数据。本发明采用分布式数据库系统作为数据储存系统能够满足庞大的数据储存需求,并且,分布式数据库系统具有高可用性、可扩展性、容错性、可移植性和可伸缩性等特点,可以提供更高的性能和更可靠的服务。它还可以支持多种数据库管理系统,支持多种数据库技术。库技术。库技术。
技术研发人员:丁旋
受保护的技术使用者:上海楚业成互联网科技有限公司
技术研发日:2023.04.04
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
