一种基于载客数据的划分时间DBSCAN聚类方法

未命名 09-12 阅读:225 评论:0

一种基于载客数据的划分时间dbscan聚类方法
技术领域
1.本发明涉及计算机信息处理技术领域,具体为用于数据挖掘分支中的dbscan聚类方法。


背景技术:

2.近年来,互联网的普及率逐年增加。互联网的普及率增加代表着科技的飞速发展与进步。科技所带来的互联网产物时时刻刻伴随着人们的生活。同时也产生了海量的数据,这些数据蕴含着大量的信息。通过对数据的挖掘进行分析得到有价值的信息及规律,对生活生产有着重要的作用。近年来数据挖掘在当今海量数据时代引起了极大的关注,是一个重要的研究方向。在互联网飞速发展的今天,各种电子设备的产生同时也伴随大量数据的产生。例如智能手机、卫星、无人机等设备的运行都会产生和记录各种数据。其中产生的同时具有时间和空间维度的数据称为时空数据。
3.聚类是数据挖掘中比较活跃且很重要的一种研究方法,可以用于获取数据潜在的信息,目前时空数据的聚类算法己经被广泛地应用于诸多领域,如对于灾害信息分析、城市路径规划、人群聚集等领域有广泛的应用。对安装gps的出租车产生的数据进行分析研究、寻找潜在的规律和信息。通过聚类算法,对载客数据进行聚类,能够对交通、城市规划、司机载客有着重要的帮助。但传统的聚类算法还有待完善,对于载客信息的时间特征分析较少。未经过时间分析处理的载客数据在不同时间分布情况差异较大。故而提出一种基于载客数据的划分时间dbscan聚类方法,来解决上述问题。


技术实现要素:

4.针对现有技术的不足,本发明提供了用于载客数据的划分时间dbscan聚类方法,解决了现有技术方案存在的聚类方法消耗时间长,聚类结果不符合真实载客情况的问题。
5.为实现上述降低模型复杂度,在保证准确率的前提下提高效率,本发明提供如下技术方案:
6.用于划分时间dbscan聚类方法,其特征在于,包括以下步骤:
7.读取载客数据,对载客数据集进行处理。去掉重复的数据、筛选不符合正常逻辑以及不符合日常生活规律的数据。
8.对数据进行清洗之后,对数据的时间属性进行处理。读取到的载客数据的时间属性是字符串属性,将其转化成日期格式的属性,便于后续的试验处理。
9.选取不同日期的载客数据,将每日的乘车点绘制在地图上。通过对比每日乘车点的分布情况,不同日期的乘车点分布差异较小,体现出居民日常出行的规律性。
10.选取上述的载客数据,绘制载客次数与时间的关系曲线图。通过分析曲线图,不同日期下的载客次数与时间的关系曲线图基本形状相似。且都呈现出在早高峰和晚高峰曲线图成波峰状,在夜晚凌晨等呈现出波谷状。在一天之中,不同时间段的载客数据规模相差较大。
11.dbscan是一种基于密度的聚类算法,用于将数据集中的样本点分组成具有高密度区域的集群,并识别出低密度区域的噪音点。dbscan算法不需要预先指定聚类的数量,能够自动识别出数据中的任意形状的聚类。
12.原生的dbscan算法并不具有时间处理的特性,对载客数据进行聚类所得到的结果并不能反映相对具体时间下的载客情况。因此提出一种基于载客数据的划分时间dbscan聚类算法,新增时间参数及时间约束参数。与载客数据的时间特性充分结合。
13.本发明提供的一种基于载客数据的划分时间dbscan聚类算法,具有以下优势:
14.(1)相比原生的dbscan算法,本发明处理数据运行所消耗时间较少,性能得到优化。
15.(2)相比原生的dbscan算法,本发明充分利用到载客数据的时间特性,能够自由的选择具体时间下的聚类结果。
16.(3)戴维斯-博尔丁指数是一种用于评估聚类结果质量的指标。它基于聚类簇之间的相似性和分离性,值越小表示聚类效果越好。轮廓系数是一种常用的聚类评估指标,用于衡量聚类结果的紧密度和分离度。它结合了样本点与其所属聚类簇内部的距离(紧密度)和与其他聚类簇之间的距离(分离度),用于评估聚类的质量。相比原生的dbscan算法,本发明在戴维斯-博尔丁指数和轮廓系数指标均表现更加优秀。
附图说明
17.为了更清楚地说明本发明实施的实施处理流程,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的大致思想,对于本领域普通技术人员来讲,可以在此基础上,与其他算法相结合。
18.图1为本发明的体系框架示意图;
具体实施方式
19.下面将结合本发明的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
20.算法参数定义如下:
21.epsilon:用于定义邻域的半径,表示一个样本点周围的距离阈值。
22.minpts(最小样本点数):用于定义一个核心点的邻域内最小样本点数。
23.currenttime:用于规定当前时间下的载客数据。
24.aftertime:用于约束当前时间范围内的载客数据。
25.算法具体步骤如下:
26.步骤一:通过currenttime参数及aftertime参数对载客数据进行时间划分处理,得到当前所规定时间范围下的载客数据。
27.步骤二:选择一个未访问的样本点作为当前核心点(core point)。
28.步骤三:以当前核心点为中心,以epsilon为半径,找到其邻域内的所有样本点。
29.步骤四:若当前核心点的邻域内的样本点数大于等于minpts,将其标记为核心点,
并创建一个新的簇。
30.步骤五:从步骤2中找到的邻域样本点中选择一个未被访问的样本点,作为新的核心点,继续从步骤2开始执行。
31.步骤六:若当前核心点的邻域内的样本点数小于minpts,将其标记为边界点。
32.步骤七:重复步骤三至步骤五,直到所有样本点都被访问。
33.步骤八:将属于同一簇的样本点归为一类。
34.本发明通过分析载客数据的特点及规律,提出了一种基于载客数据的划分时间dbscan聚类算法。新增的时间参数及时间约束参数与载客数据的时间属性充分结合,解决原dbscan算法运行时间消耗过长的问题,同时解决原dbscan算法聚类结果区分度差的问题。并且在改进的dbscan算法在聚类指标上相比原生dbscan算法更加优秀。尽管已经描述了本发明的实施方法,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对其他类型的载客数据进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。


技术特征:
1.基于载客数据的划分时间dbscan聚类算法,其特征在于,包括:读取载客数据,对载客数据集进行处理。去掉重复的数据、筛选不符合正常逻辑以及不符合日常生活规律的数据。对数据进行清洗之后,对数据的时间属性进行处理。读取到的载客数据的时间属性是字符串属性,将其转化成日期格式的属性,便于后续的试验处理。选取不同日期的载客数据,将每日的乘车点绘制在地图上。通过对比每日乘车点的分布情况,不同日期的乘车点分布差异较小,体现出居民日常出行的规律性。选取上述的载客数据,绘制载客次数与时间的关系曲线图。通过分析曲线图,不同日期下的载客次数与时间的关系曲线图基本形状相似。且都呈现出在早高峰和晚高峰曲线图成波峰状,在夜晚凌晨等呈现出波谷状。在一天之中,不同时间段的载客数据规模相差较大。2.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,载客数据是具有精确地理位置信息和具体时间的时空数据。3.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,载客数据在不同日期下的分布情况差异较小,但一天内的不同时间段下的分布差异较大。4.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,原生的dbscan算法并不具有时间处理的特性,对载客数据进行聚类所得到的结果并不能反映相对具体时间下的载客情况。5.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,在原生dbscan算法上新增时间参数及时间约束参数。6.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,通过新增的时间参数与载客数据的时间特性相结合。7.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,通过时间参数的约束可以得到任意时间范围下的聚类结果。8.根据权利要求1所述的基于载客数据的划分时间dbscan聚类算法,其特征在于,通过时间约束后算法运行所消耗时间得到减少。

技术总结
本发明涉及大数据的数据挖掘方法中的聚类算法,分析出租车载客数据,是结合计算机科学与实际生活领域的学科课题。载客数据分布并不均匀,使用的聚类算法有限。常规的DBSCAN聚类算法对数据量大的情况下,聚类时间消耗过长,并且参数调节困难。本发明从载客数据的时间特点入手,通过分析不同时间下的载客情况。提出一种基于载客数据的划分时间DBSCAN聚类算法,新增时间参数及时间约束参数。相对于常规的算法而言,本发明处理数据运行所消耗时间较少,性能得到优化。并且能够自由的选择具体时间下的聚类结果,聚类指标结果相比原算法均有提高。有提高。


技术研发人员:吴征 程媛 孙悦恭
受保护的技术使用者:哈尔滨理工大学
技术研发日:2023.06.11
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐