时空数据评估方法、设备及计算机可读存储介质与流程

未命名 09-13 阅读:58 评论:0


1.本发明涉及大数据技术领域,尤其涉及一种时空数据评估方法、设备及计算机可读存储介质。


背景技术:

2.时空数据是指同时具有时间和空间维度的数据,如车辆、行人轨迹数据、卡口抓拍数据等,具有多源、海量、更新快速的综合特点,目前,时空数据在许多领域得到应用,如交通管理、疾病监控、环境监测、公共卫生与医疗健康等,通过开发和应用新兴的计算技术来分析海量、高维的时空数据,发掘时空数据中有价值的信息。在大数据的背景下,数据价值的高低将取决于数据的质量,进而影响人们的分析和决策,而质量较低的数据所带来的影响,一直是各领域、各大研究机构甚至是企业面临的重要问题。
3.目前,虽然已有多种方案用来对数据质量进行评估,但在实际应用于对海量的时空数据进行质量评估时,往往难以兼顾准确性和高效性。


技术实现要素:

4.本发明的主要目的在于提供一种时空数据评估方法、设备及计算机可读存储介质,旨在通过多层次的层层递进的质量评估方式,在保证质量评估准确性的情况下提高质量评估效率。
5.为实现上述目的,本发明提供一种时空数据评估方法,所述方法包括以下步骤:
6.获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;
7.对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;
8.若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;
9.若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;
10.若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。
11.为实现上述目的,本发明还提供一种时空数据评估装置,所述装置包括:
12.获取模块,用于获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;
13.第一评估模块,用于对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;
14.第二评估模块,用于若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;
15.第三评估模块,用于若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;
16.输出模块,用于若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。
17.为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的时空数据评估程序,所述时空数据评估程序被所述处理器执行时实现如上所述的时空数据评估方法的步骤。
18.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有时空数据评估程序,所述时空数据评估程序被处理器执行时实现如上所述的时空数据评估方法的步骤。
19.本发明实施例中,通过获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值,对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果,实现了对所述待评估时空数据集的宏观质量评估,进而通过若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果,实现了在所述待评估时空数据集的数据集质量评估指标满足宏观质量要求之后,进一步对所述待评估时空数据集的维度质量评估指标进行评估,进而通过若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果,实现了在所述待评估时空数据集的维度质量评估指标满足中观质量要求之后,进一步对所述待评估时空数据集的数据质量评估指标进行评估,进而通过若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果,实现了对待评估时空数据集从宏观到中观到微观,从数据集到维度到数据的多层次递进式质量评估。一方面,相比于对时空数据进行全面的质量评估的方式,本发明通过逐层递进式评估,从宏观到微观,评估粒度从数据集到维度到数据层层递进的质量评估方式,随着评估粒度的细化,计算量逐层增加,只有满足上层质量要求的待评估时空数据集可以进行下层质量评估,故而可以有效减少不满足上层质量要求的待评估时空数据集进行下层质量评估所需耗费的时间和资源,提高质量评估的效率,另一方面,相比于通过减少质量评估维度提高质量评估效率的方式,本发明最终输出的待评估时空数据集需要全面满足宏观、中观和微观的质量要求,故而可以确保质量评估的准确性,克服了对海量的时空数据进行质量评估时,往往难以兼顾准确性和高效性的技术缺陷。
附图说明
20.图1为本发明时空数据评估方法一实施例的流程示意图;
21.图2为本发明时空数据评估方法的一种示例的场景示意图;
22.图3为本发明时空数据评估方法的一种示例的流程示意图;
23.图4为本发明时空数据评估方法步骤s20的一实施例的流程示意图;
24.图5为本发明时空数据评估方法步骤s60至步骤s70的一实施例的流程示意图;
25.图6为本发明时空数据评估方法中对噪声点进行检测的步骤的流程示意图;
26.图7为本发明时空数据评估方法中对异常情况进行数据处理的一种示例的流程示意图;
27.图8为本发明时空数据评估方法步骤s60的另一实施例的流程示意图;
28.图9为本发明时空数据评估方法中对异常情况进行数据处理的另一种示例的流程示意图;
29.图10为本发明实施例方案涉及的硬件运行环境的结构示意图。
30.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
31.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。需要说明的是,本说明书针对所有数据的获取和处理,均是在得到相应用户知晓且授权的情况下执行。
32.参照图1,图1为本发明时空数据评估方法一实施例的流程示意图。
33.本发明实施例提供了时空数据评估方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,时空数据评估方法的执行主体可以是智能手机、个人电脑、服务器等设备,在本实施例中并不做限制。在本实施例中,为便于表述,省略执行主体进行阐述。在本实施例中,所述时空数据评估方法包括以下步骤:
34.步骤s10,获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;
35.在本实施例中,时空数据是指同时具有时间和空间维度的数据,如车辆轨迹数据、卡口抓拍数据等,具有多源、海量、更新快速的综合特点,所述待评估时空数据集是指通过采集设备采集到的多个待评估时空数据构成的集合,每一条待评估时空数据均具有多个维度的属性值,至少包括时间维度的属性值和空间维度的属性值,还可以包括识别码维度的属性值、速度维度的属性值、数据种类维度的属性值等,其中,所述采集设备可以为gps(global positioning system,全球定位系统)传感器、摄像头等。
36.在一可行实施方式中,可以从采集设备获取采集设备采集到并上传的待评估时空数据集,也可以从数据库中获取采集设备采集到并存储于数据库中的待评估时空数据集,在本实施例中并不做限制。
37.步骤s20,对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;
38.在本实施例中,宏观质量评估是指对待评估时空数据集中的全部待评估时空数据进行计算、统计和/或评价等分析得到所述待评估时空数据集的数据集质量评估指标值过程,所述数据集质量评估指标可以用于表征数据集中全部数据的整体质量,包括数据量、时
效性、数据种类等,所述数据量是指待评估时空数据集中全部待评估时空数据的数量,所述时效性是指待评估时空数据集中全部待评估时空数据所处的时间范围,所述数据种类是指待评估时空数据集中全部待评估时空数据所覆盖的数据的种类,数据集质量评估指标的具体选用可以根据所述待评估时空数据集的实际用途确定,在本实施例中并不做限制。在获取到待评估时空数据集之后,可以统计所述待评估时空数据集中的待评估时空数据的数据量、所述待评估时空数据集中的待评估时空数据的采样时间范围、所述待评估时空数据集中的待评估时空数据的数据种类。
39.在一可行实施方式中,可以预先根据实际需要或用户选择等确定所述待评估时空数据集所需进行评估的至少一个数据集质量评估指标,进而可以对所述待评估时空数据集中各条待评估时空数据进行统计分析,确定所述待评估时空数据集的各项数据集质量评估指标的数据集质量评估指标值,可以将各所述数据集质量评估指标值作为宏观质量评估结果,也可以进一步根据各所述数据集质量评估指标值对所述待评估时空数据集进行数据集质量评分或数据集质量分类等分析,将得到的数据集质量评分值或数据集质量分类结果等分析结果作为宏观质量评估结果,所述数据集质量分类结果可以包括满足宏观质量要求、不满足宏观质量要求、满足宏观质量要求但需要进行数据处理等,所述宏观质量评估结果还可以包括宏观质量评估的具体信息。示例性地,对所述待评估时空数据集的数据量进行评估,所述待评估时空数据集的数据量为4万,实际用途所需的数据量为5万,评估结果可以为不满足宏观质量要求,可以将4万与5万的比值80%作为评分,将评分80%作为评估结果,评估结果还可以包括待评估时空数据集的数据量为4万的具体信息。
40.步骤s30,若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;
41.在本实施例中,中观质量评估是指对待评估时空数据集中至少一个维度全部属性值进行计算、统计和/或评价等分析得到所述待评估时空数据集的维度质量评估指标值过程,所述维度质量评估指标可以用于表征数据集中某一维度的全部属性值的整体质量,包括维度稳定性、维度完整性和维度准确性,其中,所述维度稳定性用于表征时空数据某一维度的全部属性值的波动幅度的特性,时空数据在一定维度范围需要具有一定的稳定性,例如,城市道路上行驶的车辆的车速相近,而高速公路上行驶的车辆的车速相近,所述稳定性可以通过计算标准差、方差等进行表征,标准差或方差越小,稳定性越高,时空数据在特定维度的波动幅度越小,示例性地,所述稳定性可以为时空逻辑稳定性(例如采样帧率波动情况、轨迹平滑度等)、数值稳定性(例如同周期同时刻流量值的波动情况等)等中的至少一个;所述维度完整性用于表征时空数据某一维度的全部属性值的缺失情况,时空数据在一定维度上需要覆盖时空数据实际用途所需的范围,所述完整性可以通过计算缺失的时空数据的占比进行表征,缺失的时空数据的占比越小,完整性越高,缺失的时空数据越少,示例性地,所述完整性可以为时间完整性(例如一段时间范围内的时空数据是否有缺失等)、空间完整性(例如时空数据是否覆盖某一个城市的每一个区等)等中的至少一个;所述准确性用于表征时空数据某一维度的全部属性值的逻辑正确程度,时空数据在一定维度范围需要符合一定的逻辑,例如一辆车不会一分钟之前在海南,一分钟之后就到了北京,可以通过计算逻辑不正确的时空数据的占比进行表征,逻辑不正确的时空数据的占比越小,准确性越
高,逻辑正确的时空数据越多,示例性地,所述准确性可以为格式准确性(例如时间格式是否正确、经纬度格式是否正确等)、时空逻辑准确性(例如轨迹噪声点、速度异常点等)、上下文逻辑准确性(例如设备数据冲突等)等中的至少一个。
42.在一可行实施方式中,可以预先根据实际需要或用户选择等确定所述待评估时空数据集中需要进行评估的至少一个待评估维度以及各所述待评估维度各自对应的至少一个维度质量评估指标,根据所述宏观质量评估结果判断所述待评估时空数据集是否满足宏观质量要求,若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则可以对所述待评估时空数据集中各所述待评估维度各自对应的全部属性值分别进行统计分析,确定各所述待评估维度各自对应的各项维度质量评估指标的维度质量评估指标值,可以将各所述维度质量评估指标值作为中观质量评估结果,也可以进一步根据各所述维度质量评估指标值对各所述待评估维度和/或所述待评估时空数据集进行维度质量评分或维度质量分类等分析,将得到的维度质量评分值或维度质量分类结果等分析结果作为中观质量评估结果,所述维度质量分类结果可以包括满足中观质量要求、不满足中观质量要求、满足中观质量要求但需要进行数据处理等,还可以包括中观质量评估的具体信息。示例性地,所述维度稳定性评分为70分,所述维度完整性评分为50分,所述维度准确性评分为75分,可以将维度稳定性评分为70分、维度完整性评分为50分、维度准确性评分为75分作为中观质量评估结果,也可以将平均分65分或总分195分作为中观质量评估结果。
43.若根据所述宏观质量评估结果确定所述待评估时空数据集不满足宏观质量要求,则可以返回执行所述获取待评估时空数据集的步骤,重新获取待评估时空数据集,还可以输出提示信息以提醒用户当前获取到的待评估时空数据集不满足宏观质量要求,可以重新获取待评估时空数据集。不满足宏观质量要求的时空数据不论中观质量评估结果和微观质量评估结果如何,都无法满足时空数据的实际用途所需,例如,数据量太少,即使每一个数据的质量都很高,也可能失去统计学意义,又例如,十年前的数据,即使每一个数据的质量都很高,也可能不符合现在的实际情况,又例如,仅有轨迹数据,而没有城市路网数据,即使每一个数据的质量都很高,也无法确定高峰期车流集中在什么区域,故而不满足宏观质量要求的时空数据可以无需继续进行后续的时空数据评估方法的步骤,进而可以有效减少无效数据进行评估和微观质量评估所需耗费的时间和资源,提高了质量评估的效率。
44.在具体实施方式中,若所述宏观质量评估结果为数据集质量分类结果,则所述根据所述宏观质量评估结果判断所述待评估时空数据集是否满足宏观质量要求的方式可以为,直接根据所述数据集质量分类结果判断所述待评估时空数据集是否满足宏观质量要求;若所述宏观质量评估结果为数据集质量评分值,则所述根据所述宏观质量评估结果判断所述待评估时空数据集是否满足宏观质量要求的方式可以为,将所述数据集质量评分值与预设数据集质量评分阈值进行比较,根据比较结果判断所述待评估时空数据集是否满足宏观质量要求,在本实施例中并不做限制。
45.在具体实施方式中,所述根据所述宏观质量评估结果判断所述待评估时空数据集是否满足宏观质量要求的方式可以为向用户终端输出所述宏观质量评估结果,获取用户基于所述宏观评估结果的反馈信息,根据反馈信息判断所述宏观质量评估结果是否满足所述宏观质量要求;所述根据所述宏观质量评估结果判断所述待评估时空数据集是否满足宏观
质量要求的方式也可以为预先设置宏观质量要求,自动判断所述宏观质量评估结果是否满足所述宏观质量要求,在本实施例中并不做限制。
46.可选地,所述对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果的步骤包括:
47.步骤s31,将所述待评估时空数据集基于预设第一维度分割成多个第一数据子集;
48.在一可行实施方式中,将所述待评估时空数据集按照预设第一维度进行排列,将排列好的待评估时空数据集分割成多个第一数据子集,其中,所述预设第一维度可以为时间、空间、长度、数据量等,所述将排列好的待评估时空数据集分割成多个第一数据子集的方式可以根据用户操作、大数据、统计分析结果等进行确定,在本实施例中并不做限制。在具体实施方式中,可以在界面中输出将按顺序排列好的所述待评估时空数据集,检测用户基于所述用户界面的第一分割操作,基于所述第一分割操作将按顺序排列好的待评估时空数据集分割成多个第一数据子集;也可以预先根据所述待评估时空数据集的实际用途、数据量等设置第一分割点,按预先设置的第一分割点将按顺序排列好的待评估时空数据集分割成多个第一数据子集;也可以结合用户操作和预设第一分割点进行分割,在本实施例中并不做限制。
49.步骤s32,基于预设第一抽样比例,从各所述第一数据子集中抽取至少一个目标第一数据子集,对各所述目标第一数据子集的维度质量评估指标进行评估,得到中观质量评估结果。
50.在一可行实施方式中,基于预设第一抽样比例,从各所述第一数据子集中抽取至少一个目标第一数据子集,分别对各所述目标第一数据子集的维度质量评估指标进行评估,得到各所述目标第一数据子集各自对应的初始中观质量评估结果,可以直接将各所述初始中观质量评估结果确定为最终的中观质量评估结果,也可以进一步对各所述初始中观质量评估结果进行组合、计算、分析等得到最终的中观质量评估结果,其中,所述预设第一抽样比例可以根据大数据、实际需要、测试结果等进行确定,在本实施例中并不做限制。
51.在本实施例中,通过抽样的方式进行评估,可以有效提高中观质量评估的效率。
52.步骤s40,若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;
53.在本实施例中,微观质量评估是指对待评估时空数据集中的至少一条时空数据的属性值进行计算、统计和/或评价等分析得到待评估时空数据集的数据质量评估指标值的过程,所述数据质量评估指标用于表征数据集中某一条数据的质量,包括数据唯一性和数据一致性,其中,所述唯一性用于表征时空数据的数据项、数据项组合、数据标签等是否重复,可以通过计算重复的时空数据的占比进行表征,重复的时空数据的占比越小,唯一性越高,重复的时空数据越少,示例性地,所述唯一性可以为数据项唯一性、数据项组合唯一性、数据标签唯一性(例如一个时空数据不会既属于a车的轨迹点又属于b车的轨迹点)等中的至少一个;所述一致性用于表征一条时空数据的属性值之间是否符合逻辑,可以通过计算不符合逻辑的时空数据的占比进行表征,逻辑不正确的时空数据的占比越小,一致性越高,逻辑统一的时空数据越多,示例性地,同一条时空数据若同时具有车牌颜色为绿色与车牌号为7位这两个属性值,则不符合逻辑。
54.在一可行实施方式中,可以预先根据实际需要或用户选择等确定所述待评估时空数据集需要进行评估的至少一个数据质量评估指标,根据所述中观质量评估结果判断所述待评估时空数据集是否满足中观质量要求,若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则可以对所述待评估时空数据集中一条、多条或全部待评估时空数据各自对应的全部属性值分别进行统计分析,确定各条待评估时空数据各自对应的各项数据质量评估指标的数据质量评估指标值,可以将各所述数据质量评估指标值作为微观质量评估结果,也可以进一步根据各所述数据质量评估指标值对各所述待评估时空数据和/或所述待评估时空数据集进行数据质量评分或数据质量分类等分析,将得到的数据质量评分值或数据质量分类结果等分析结果作为微观质量评估结果,所述数据质量分类结果可以包括满足微观质量要求、不满足微观质量要求、满足微观质量要求但需要进行数据处理等,还可以包括微观质量评估的具体信息。示例性地,所述数据唯一性评分为95分,所述数据一致性评分为97分,可以将数据唯一性评分为95分、数据一致性评分为97分作为微观质量评估结果,也可以将平均分96分或总分192分作为微观质量评估结果。
55.若根据所述中观质量评估结果确定所述待评估时空数据集不满足中观质量要求,则可以返回执行所述获取待评估时空数据集的步骤,重新获取待评估时空数据集,还可以输出提示信息以提醒用户当前获取到的待评估时空数据集不满足中观质量要求,可以重新获取待评估时空数据集。不满足中观质量要求的时空数据不论微观质量评估结果如何,都无法满足时空数据的实际用途所需,例如,数据波动幅度过大,或者数据缺失过多,或者数据噪声点过多,即使每一个数据的一致性和唯一性都很高,数据整体的准确性会较低,可能导致最终误差过大,故而不满足中观质量要求的时空数据可以无需继续进行后续的时空数据评估方法的步骤,进而可以有效减少无效数据进行评估所需耗费的时间和资源,提高了质量评估的效率。
56.示例性地,若所述中观质量评估结果为维度质量分类结果,则所述根据所述中观质量评估结果判断所述待评估时空数据集是否满足中观质量要求的方式可以为,直接根据所述维度质量分类结果判断所述待评估时空数据集是否满足中观质量要求;若所述中观质量评估结果为中观质量评分,则所述根据所述中观质量评估结果判断所述待评估时空数据集是否满足中观质量要求的方式可以为,将所述中观质量评分与预设中观质量评分阈值进行比较,根据比较结果判断所述待评估时空数据集是否满足中观质量要求,在本实施例中并不做限制。
57.在具体实施方式中,所述根据所述中观质量评估结果判断所述待评估时空数据集是否满足中观质量要求的方式可以为向用户终端输出所述中观质量评估结果,获取用户基于所述中观评估结果的反馈信息,根据反馈信息判断所述中观质量评估结果是否满足所述中观质量要求;所述根据所述中观质量评估结果判断所述待评估时空数据集是否满足中观质量要求的方式也可以为预先设置中观质量要求,自动判断所述中观质量评估结果是否满足所述中观质量要求,在本实施例中并不做限制。
58.可选地,所述对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果的步骤包括:
59.步骤s41,将所述待评估时空数据集基于预设第二维度分割成多个第二数据子集;
60.在一可行实施方式中,将所述待评估时空数据集按照预设第二维度进行排列,将排列好的待评估时空数据集分割成多个第二数据子集,其中,所述预设第二维度可以为时间、空间、长度、数据量等,所述预设第二维度与所述预设第一维度可以相同或不同,具体可以根据实际需要进行确定,在本实施例中并不做限制,所述将排列好的待评估时空数据集分割成多个第二数据子集的方式可以根据用户操作、大数据、统计分析结果等进行确定,在本实施例中并不做限制。
61.在具体实施方式中,可以在用户界面中输出将按顺序排列好的所述待评估时空数据集,检测用户基于所述用户界面的第二分割操作,基于所述第二分割操作将排列好的待评估时空数据集分割成多个第二数据子集;也可以预先根据所述待评估时空数据集的实际用途设置第二分割点,按预先设置的第二分割点将排列好的待评估时空数据集分割成多个第二数据子集;也可以结合用户操作和预设第二分割点进行分割,在本实施例中并不做限制。
62.步骤s42,基于预设第二抽样比例,从各所述第二数据子集中分别抽取至少一条目标待评估时空数据,对各所述目标待评估时空数据的数据质量评估指标进行评估,得到微观质量评估结果。
63.在一可行实施方式中,基于预设第二抽样比例,从各所述第二数据子集中分别抽取至少一条目标待评估时空数据,分别对各所述目标待评估时空数据的数据质量评估指标进行评估,得到各所述目标待评估时空数据各自对应的初始微观质量评估结果,可以直接将各所述初始微观质量评估结果确定为最终的微观质量评估结果,也可以进一步对各所述初始微观质量评估结果进行组合、计算、分析等得到最终的微观质量评估结果,其中,所述预设第二抽样比例可以根据大数据、实际需要、测试结果等进行确定,所述预设第二抽样比例可以与所述第一抽样比例相同或不同,在本实施例中并不做限制。
64.在本实施例中,通过抽样的方式进行评估,可以有效提高微观质量评估的效率。
65.步骤s50,若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。
66.在一可行实施方式中,根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求,若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则可以输出评估通过的数据集质量评估结果,输出评估通过的数据集质量评估结果之后,即可将所述待评估时空数据集用于进行建模、数据分析等。
67.若根据所述微观质量评估结果确定所述待评估时空数据集不满足微观质量要求,则可以返回执行所述获取待评估时空数据集的步骤,重新获取待评估时空数据集,还可以输出提示信息以提醒用户当前获取到的待评估时空数据集不满足中观质量要求,可以重新获取待评估时空数据集。
68.示例性地,若所述微观质量评估结果为数据质量分类结果,则所述根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求的方式可以为,直接根据所述数据质量分类结果判断所述待评估时空数据集是否满足微观质量要求;若所述微观质量评估结果为微观质量评分,则所述根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求的方式可以为,将所述微观质量评分与预设微观质量评分阈值进行比较,根据比较结果判断所述待评估时空数据集是否满足微观质量要求,在本实施例中
并不做限制。
69.在具体实施方式中,所述根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求的方式可以为向用户终端输出所述微观质量评估结果,获取用户基于所述微观评估结果的反馈信息,根据反馈信息判断所述微观质量评估结果是否满足所述微观质量要求;所述根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求的方式也可以为预先设置微观质量要求,自动判断所述微观质量评估结果是否满足所述微观质量要求,在本实施例中并不做限制。
70.在具体实施方式中,所述时空数据评估方法还包括:若确定所述待评估时空数据集的数据质量评估指标不满足宏观质量要求、中观质量要求和/或微观质量要求,则可以检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集,以提升所述待评估时空数据集的质量。示例性地,参照图2和图3,首先通过采集设备采集待评估时空数据,并存储于数据库中。时空数据评估设备或时空数据评估装置获取数据库中存储的待评估时空数据集,首先对所述待评估时空数据集进行宏观质量评估,计算可用性指标,若确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则判定数据可用,对所述待评估时空数据集进行中观质量评估,进而,若确定所述待评估时空数据集的数据集质量评估指标满足中观质量要求,则判定数据可用,对所述待评估时空数据集进行微观质量评估,进而,若确定所述待评估时空数据集的数据集质量评估指标满足微观质量要求,则判定数据可用,可以对所述待评估时空数据集进行或不进行数据处理,完成数据预处理,完成数据预处理之后的所述待评估时空数据集可以用于进行建模。若确定所述待评估时空数据集的数据集质量评估指标不满足宏观质量要求、中观质量要求和/或微观质量要求,则判定数据不可用,可以结束本次数据预处理,重新获取待评估时空数据集。判定数据不可用之后,还可以对所述待评估时空数据集进行数据监测,检测所述待评估时空数据集中是否存在可以进行数据质量提升的待处理异常情况,若检测到待处理异常情况,则对所述待评估时空数据集进行数据处理,得到优化时空数据集,将所述优化时空数据集代替所述待评估时空数据集继续进行后续质量评估,若未检测到待处理异常情况,则返回获取数据库中存储的待评估时空数据集的步骤,重新获取新的待评估时空数据集。
71.在本实施例中,通过获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值,对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果,实现了对所述待评估时空数据集的宏观质量评估,进而通过若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果,实现了在所述待评估时空数据集的数据集质量评估指标满足宏观质量要求之后,进一步对所述待评估时空数据集的维度质量评估指标进行评估,进而通过若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果,实现了在所述待评估时空数据集的维度质量评估指标满足中观质量要求之后,进一步对所述待评估时空数据集的数据质量评估指标进行评估,进而通过若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,
则输出评估通过的数据集质量评估结果,实现了对待评估时空数据集从宏观到中观到微观,从数据集到维度到数据的多层次递进式质量评估。将质量评估分成宏观质量评估、中观质量评估和微观质量评估三层,从宏观到微观,评估粒度逐层减小,需要用于进行质量评估的数据量逐层增加,算法复杂度也逐层增加,所需的处理性能也逐层增加。一方面,相比于对时空数据进行全部宏观质量评估、中观质量评估和微观质量评估之后,再综合判断是否符合质量要求的方式,本发明通过逐层递进式评估,从宏观到中观到微观,从数据集到维度到数据,通过耗费较小的时间和资源剔除掉不满足上层质量要求的待评估时空数据集,只有满足上层质量要求的待评估时空数据集可以进行下层质量评估,故而可以有效减少不满足上层质量要求的待评估时空数据集进行下层质量评估所需耗费的时间和资源,提高质量评估的效率,另一方面,相比于通过减少质量评估维度提高质量评估效率的方式,本发明最终输出的待评估时空数据集需要全面满足宏观、中观和微观的质量要求,故而可以确保质量评估的准确性,克服了对海量的时空数据进行质量评估时,往往难以兼顾准确性和高效性的技术缺陷。
72.进一步地,基于上述实施例,提出本发明时空数据评估方法另一实施例,参照图3,图3为本发明时空数据评估方法步骤s60至步骤s70的一实施例的流程示意图,在本实施例中,所述步骤s50之后,所述方法还包括:
73.步骤s60,若根据所述中观质量评估结果和所述微观质量评估结果确定需要对所述待评估时空数据集进行数据处理,则检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集;
74.在一可行实施方式中,根据所述微观质量评估结果判断所述待评估时空数据集是否满足微观质量要求,若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则根据所述中观质量评估结果和所述微观质量评估结果确定是否对所述待评估时空数据集进行数据处理,若确定对所述待评估时空数据集进行数据处理,则对所述待评估时空数据集中的待处理异常情况进行检测,确定所述待评估时空数据集中存在的至少一个待处理异常情况,根据预设的异常情况与数据处理算法之间的映射关系,确定各所述待处理异常情况各自对应的目标数据处理算法,根据各所述目标数据处理算法对所述待评估时空数据集进行数据处理,得到优化时空数据集。
75.在本实施例中,在确定对所述待评估时空数据集进行数据处理之前,已经对所述待评估时空数据集进行了宏观质量评估、中观质量评估和微观质量评估,若所述宏观质量评估、所述中观质量评估和所述微观质量评估均是对所述待评估时空数据集进行的全量评估,则可以根据所述宏观质量评估结果、所述中观质量评估结果和所述微观质量评估结果,直接确定所述待评估时空数据集中存在的全部待处理异常情况;若所述中观质量评估和/或所述微观质量评估是对所述待评估时空数据集进行的抽样评估,则可以按照一定的顺序依次对每一个待评估时空数据集进行检测,确定所述待评估时空数据集中存在的全部待处理异常情况。
76.在一可行实施方式中,若确定不对所述待评估时空数据集进行数据处理,则可以输出评估通过的数据集质量评估结果,输出评估通过的数据集质量评估结果之后,即可将所述待评估时空数据集用于进行建模、数据分析等。输出的待评估时空数据集用于进行建
模、数据分析等,建模和数据分析的结果是未知的,对所述待评估时空数据集的数据处理越少,数据的真实性越高,后续建模和数据分析的结果也就越接近真实结果。
77.在具体实施方式中,所述根据所述中观质量评估结果和所述微观质量评估结果确定是否对所述待评估时空数据集进行数据处理的方式可以为,在用户界面中输出所述中观质量评估结果和所述微观质量评估结果,检测用户基于所述用户界面的数据处理操作,基于所述数据处理操作确定是否对所述待评估时空数据集进行数据处理。
78.在具体实施方式中,所述根据所述中观质量评估结果和所述微观质量评估结果确定是否对所述待评估时空数据集进行数据处理的方式也可以为,检测所述中观质量评估结果和所述微观质量评估结果中的质量问题中是否存在可处理质量问题,其中,所述可处理质量问题可以预先根据实际需要进行设置,示例性地,可以包括噪声点、数据缺失等;若检测到所述中观质量评估结果和所述微观质量评估结果中的质量问题中存在可处理质量问题,则根据所述可处理质量问题的质量问题详细信息,判断所述可处理质量问题是否满足预设数据处理条件,其中,所述预设数据处理条件可以根据阈值的数据处理算法和实际需要等进行确定,示例性地,在通过数据补全算法进行补全处理时,对于较大范围的数据缺失可能不适合进行补全,故而可以设置一个可补全阈值,若可处理质量问题对应的数据缺失范围未超过所述可补全阈值,则确定满足预设数据处理条件;若检测到所述中观质量评估结果和所述微观质量评估结果中的质量问题中不存在可处理质量问题,则确定不对所述待评估时空数据集进行数据处理。进而,若确定所述可处理质量问题满足预设数据处理条件,则确定对所述待评估时空数据集进行数据处理;若确定所述可处理质量问题不满足预设数据处理条件,则确定不对所述待评估时空数据集进行数据处理。
79.步骤s70,输出所述优化时空数据集。
80.在一可行实施方式中,输出所述优化时空数据集,输出的所述优化时空数据集可以用于进行建模、数据分析等。
81.示例性地,所述输出所述优化时空数据集的步骤还可以包括:对所述优化时空数据集进行质量复评估,得到质量复评估结果,输出所述优化时空数据集和所述质量复评估结果。其中,所述质量复评估可以包括宏观质量评估、中观质量评估和微观质量评估。通常,质量复评估结果会优于质量评估结果,故而,质量复评估出现不满足质量要求的概率较低,故而,质量复评估的过程可以无需以分层次递进的方式进行,而是全面地对数据处理后的优化时空数据集进行再一次的评估,以供用户了解数据处理后的优化时空数据集的具体质量情况。
82.在本实施例中,时空数据的数据量较大,即使是满足宏观质量要求、中观质量要求和微观质量要求的待评估时空数据集通常也并非全部都是高质量的,也即,满足微观质量要求的待评估时空数据集中仍可能存在质量较低的低质量时空数据,对此,本实施例通过对这些低质量时空数据进行数据处理,提高输出的时空数据的质量,帮助用户在发现问题之后,及时解决问题。
83.进一步地,基于上述各实施例,提出本发明时空数据评估方法另一实施例,参照图4,图4为本发明时空数据评估方法步骤s60的一实施例的流程示意图,在本实施例中,所述待处理异常情况包括待删除处理异常情况、待补全处理异常情况和待调值处理异常情况,所述步骤s60包括:
84.步骤a10,若检测到所述待评估时空数据集中存在至少一个待删除处理异常情况,则根据预设的数据删除算法对所述待评估时空数据集进行数据处理,得到第一中间数据集;
85.在一可行实施方式中,对所述待评估时空数据集中的待删除异常情况进行检测,若检测到所述待评估时空数据集中存在至少一个待删除处理异常情况,则根据预设的数据删除算法对所述待评估时空数据集进行数据处理,得到第一中间数据集,其中,所述待删除异常情况是指需要通过删除数据解决的异常情况,例如噪声点、重复数据等,可以根据预设的待删除异常情况检测算法进行检测,例如噪声点检测算法、重复数据检测算法等,所述数据删除算法是指对数据进行删除处理的算法,例如对噪声点进行删除处理的算法等。
86.若检测到所述待评估时空数据集中不存在待删除处理异常情况,则可以直接将所述待评估时空数据集确定为第一中间数据集,进行后续待补全异常情况检测。
87.在具体实施方式中,参照图6,所述待评估时空数据集包括车辆gps传感器采集到的行驶轨迹数据,对噪声点进行检测的步骤包括:根据所述行驶轨迹数据可以计算出每辆车的任意两个相邻轨迹点之间的速度间隔、距离间隔、采样间隔等,进而可以利用箱线图或者正态分布算法找出异常速度和/或异常距离的轨迹点,将这些存在异常情况的轨迹点的参数数值和对应的预设参数阈值进行比较,筛选出数值超过预设阈值的噪声点。
88.步骤a20,若检测到所述第一中间数据集中存在至少一个待补全处理异常情况,则根据预设的数据补全算法对所述第一中间数据集进行数据处理,得到第二中间数据集;
89.在一可行实施方式中,对所述第一中间数据集中的待补全异常情况进行检测,若检测到所述第一中间数据集中存在至少一个待补全处理异常情况,则根据预设的数据补全算法对所述第一中间数据集进行数据处理,得到第二中间数据集,其中,所述待补全异常情况是指需要通过增加新数据解决的异常情况,例如数据缺失等,可以根据预设的待补全异常情况检测算法进行检测,例如数据缺失检测算法等,所述数据补全算法是指对数据进行补全处理的算法,例如对缺失数据进行补全处理的算法等。
90.若检测到所述第一中间数据集中不存在待补全处理异常情况,则可以直接将所述第一中间数据及确定为第二中间数据集,进行后续待调值异常情况检测。
91.步骤a30,若检测到所述第二中间数据集中存在至少一个待调值处理异常情况,则根据预设的数据调值算法对所述第二中间数据集进行数据处理,得到优化时空数据集。
92.在一可行实施方式中,对所述第二中间数据集中的待优化异常情况进行检测,若检测到所述第二中间数据集中存在至少一个待调值处理异常情况,则根据预设的数据调值算法对所述第二中间数据集进行数据处理,得到优化时空数据集,其中,所述待调值处理异常情况是指需要通过修改数据的数值解决的异常情况,例如数值波动、数值异常等,可以根据预设的待调值处理异常情况检测算法进行检测,例如异常数值检测算法等,所述数据调值算法是指对数据的数值进行调整的算法,例如平滑算法等。
93.若检测到所述第二中间数据集中不存在待调值处理异常情况,则可以直接将所述第二中间数据集确定为优化时空数据集。
94.示例性地,所述待评估时空数据集包括车辆gps传感器采集到的行驶轨迹数据,根据所述行驶轨迹数据可以计算出每辆车的每个轨迹点的速度、距离、采样间隔、轨迹长度等轨迹参数,进而可以通过比较各所述轨迹参数确定数值异常数据和重复数据,通过比较各
个轨迹点的速度和预设速度阈值,并比较各个轨迹点与相邻轨迹点之间的距离和预设距离阈值,确定噪声点,对所述数值异常数据、重复数据和噪声点进行删除处理。进而通过比较各个轨迹点与相邻轨迹点之间的时间间隔和预设时间阈值,确定是否存在数据缺失的情况,若存在数据缺失的情况,则先进行补全处理,再进行帧率、轨迹点坐标平滑处理,若不存在数据缺失的情况,则可以直接进行帧率、轨迹点坐标平滑处理。
95.示例性地,参照图7,所述待评估时空数据集包括车辆gps传感器采集到的行驶轨迹数据,根据所述行驶轨迹数据可以计算出每辆车的每个轨迹点的速度、距离、采样间隔、轨迹长度等轨迹参数,进而可以通过常规统计分析方法确定各所述轨迹参数对应的全局阈值;进而,根据轨迹长度和帧率确定滑窗大小,所述滑窗用于将所述待评估时空数据集分割成多个数据子集;进而,对时间异常、记录重复等问题进行诊断处理;进而遍历滑窗内的轨迹点,计算前后相邻两个轨迹点之间的速度间隔、距离间隔、时间间隔等,并结合全部和局部数据情况确认各个诊断处理方法的方法阈值,其中,局部数据情况是指按滑窗分割后的数据子集的数据情况,全部数据情况是指全量数据的全局数据情况;对速度间隔大于速度间隔阈值且距离间隔大于距离间隔阈值的数据先进行噪声点诊断处理,再进行间隔时间的比较;对速度间隔大于速度间隔阈值且距离间隔大于距离间隔阈值的数据,直接进行时间间隔的比较,对速度间隔大于速度间隔阈值、距离间隔大于距离间隔阈值的数据且时间间隔大于时间间隔阈值的数据先进行数据缺失诊断处理,再进行帧率、坐标点平滑处理;对满足速度间隔小于或等于速度间隔阈值、距离间隔小于或等于距离间隔阈值的数据、时间间隔小于或等于时间间隔阈值三者中任一条件的数据,直接进行帧率、坐标点平滑处理;对任一轨迹点进行帧率、坐标点平滑处理之后,可以返回执行遍历滑窗内的轨迹点,直至滑窗内的轨迹点遍历完全。
96.在本实施例中,目前,通常是通过输出质量评估结果,以使得用户在知晓了质量评估结果之后,自主选择需要进行处理的数据和处理方式,例如,用户通过用户界面看到两个数据点之间的间隔过大,可以通过用户界面输入在这两个数据点之间补全数据的操作指令,进而实现数据处理。然而,由于删除数据会导致数据减少,进而可能出现数据缺失的问题,导致用户操作增加,甚至可能导致数据处理结果的不可控、偏差过大等情况,故而本实施例通过自动先进行删除数据的处理,再进行补全数据的处理,进而在数据补全后再确定是否需要进行数据优化,实现了对数据处理顺序的优化以及数据处理过程的自动化执行,一方面,可以有效避免在后进行的数据处理导致在前已经解决过的异常情况的新增,减少了循环反复检测和处理耗费的不必要的时间和资源,提高了数据处理的流畅性和效率,另一方面,还可以减少用户操作,为用户提供便利。
97.进一步地,基于上述各实施例,提出本发明时空数据评估方法另一实施例,参照图8,图8为本发明时空数据评估方法步骤s60的一实施例的流程示意图,在本实施例中,所述步骤s60包括:
98.步骤b10,基于预设目标维度,对所述待评估时空数据集中的待评估时空数据进行排序;
99.在一可行实施方式中,可以预先根据实际需要或用户选择等确定用于对所述待评估时空数据集中的待评估时空数据进行排序的目标维度以及排序方式,将所述待评估时空数据集中的待评估时空数据,基于预设目标维度的属性值进行排序,示例性地,可以将各所
述待评估时空数据按时间属性值从早到晚的顺序排序,可以将各所述待评估时空数据按空间属性值(坐标值)从小到大排序等。
100.步骤b20,根据预设的统计学分类算法,将排序后的待评估时空数据集分割成多个窗口;
101.在一可行实施方式中,根据预设的统计学分类算法,确定至少一个分割点,将所述待评估时空数据集从各所述分割点进行分割,得到多个窗口,每个窗口中的待评估时空数据应符合相同的数据规律,其中,所述统计学分类算法是指通过对所述数据进行统计分析,进而根据统计分析的结果对数据进行分类的方式,统计学分类的具体方法与现有技术相近,在此不过多赘述。
102.示例性地,对于车辆行驶轨迹数据,可以将车辆行驶轨迹数据按时间顺序排列,通过统计分析确定所述车辆行驶轨迹数据的速度变化情况和采样间隔变化情况,根据速度变化情况和采样间隔变化情况确定分割时间点,从各个分割时间点对所述车辆行驶轨迹数据进行分割,得到多个窗口,以将速度和采样间隔都在均值附近一定范围内波动的车辆行驶轨迹数据划分到同一个窗口内。
103.在一可行实施方式中,还可以预先设置各个窗口内数据量的数据量阈值,若检测到数据量超过阈值的待分割窗口,则还可以进一步进行分割,避免因单个窗口内数据过多,导致数据处理效率降低。
104.步骤b30,分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口;
105.在一可行实施方式中,分别对各个窗口中的待评估时空数据进行待处理异常情况检测,将检测到至少一个待处理异常情况的窗口确定为目标窗口,从各个窗口中确定至少一个目标窗口。
106.可选地,所述分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口的步骤包括:
107.步骤b31,遍历各个窗口中的待评估时空数据,计算各个窗口中的各个待评估时空数据各自对应的异常检测参数;
108.在一可行实施方式中,遍历各个窗口中的待评估时空数据,计算各个窗口中的各个待评估时空数据各自对应的异常检测参数,其中,所述异常检测参数是指用于进行异常情况判别的参数,可以为待评估时空数据的属性值,也可以为根据待评估时空数据的属性值计算得到的其他参数,示例性地,可以为速度、轨迹长度、采样间隔时间等,具体可以根据实际需要进行确定。
109.步骤b32,分别对各所述窗口各自对应的异常检测参数进行统计分析,确定各所述窗口各自对应的异常检测参数阈值;
110.在一可行实施方式中,分别对各所述窗口各自对应的异常检测参数进行统计分析,根据统计分析的结果确定各所述窗口各自对应的异常检测参数阈值,其中,所述统计分析包括正态分布分析、箱线图分析、均值分析、众数分析等,根据统计分析的结果确定阈值的方式与现有技术相近,在此不过多赘述。相比于根据待评估时空数据集中的全部待评估时空数据确定的异常检测参数阈值,通过对每个窗口内的待评估时空数据进行统计分析确定的异常检测参数阈值,与窗口范围内数据规律相适应,故而可以使得检测到的待处理异
常情况更加精准。
111.步骤b33,分别对每一窗口对应的异常检测参数和异常检测参数阈值进行比较;
112.在一可行实施方式中,对于每一个窗口,可以分别进行异常检测参数和异常检测参数阈值的比较,从每一个窗口中的待评估时空数据中确定异常检测参数超出异常检测参数阈值的待处理时空数据。
113.步骤b34,若从各所述待评估时空数据中检测到异常检测参数超出异常检测参数阈值的待处理时空数据,则将所述待处理时空数据对应的窗口确定为目标窗口。
114.在一可行实施方式中,若从各所述待评估时空数据中检测到异常检测参数超出异常检测参数阈值的至少一个待处理时空数据,则将各所述待处理时空数据各自对应的窗口确定为目标窗口。
115.步骤b40,分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。
116.在一可行实施方式中,分别对各所述目标窗口中的待评估时空数据进行数据处理,每一个目标窗口中的待评估数据的数据处理过程均包括,确定窗口内的各个待处理异常情况各自对应的目标数据处理算法,根据各所述目标数据处理算法对窗口内的待评估时空数据进行数据处理,得到优化时空数据集。
117.在具体实施方式中,还可以对各个窗口中的待评估时空数据并行进行异常情况检测和数据处理,提高数据处理的效率,示例性地,还可以利用大数据组件,例如spark,对各个窗口中的待评估时空数据并行进行异常情况检测和数据处理。
118.可选地,所述预设目标维度包括时间维度,所述待处理异常情况包括数据缺失异常情况,所述分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集的步骤包括:
119.步骤b41,若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化超过预设驻留范围,则计算所述目标窗口的平均采样时间间隔和平均移动速度;
120.在本实施例中,所述预设目标维度包括时间维度,所述待处理异常情况包括数据缺失异常情况,所述数据缺失异常情况是指时序上相邻的两个待评估时空数据之间可能存在时空数据缺失的情况,示例性地,可以通过比较各个轨迹点与相邻轨迹点之间的时间间隔和预设时间阈值,若所述时间间隔超过预设时间阈值,则可以确定检测到数据缺失异常情况。
121.数据缺失异常情况产生的原因通常有两种,其一是由于设备故障等情况导致一段时间未采集到数据,其二是发生了驻留的情况,例如车辆在某个位置停下了,在驻留的情况下,采样时间间隔会延长,且每次采集到的数据的空间属性值可能相同或因采样误差而很接近。
122.在一可行实施方式中,对于检测到数据缺失异常情况的目标窗口,进一步确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化是否超过预设驻留范围,若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化超过预设驻留范围,则说明数据缺失是由于未采集到数据导致,需要进行补全,故而根据所述目标窗口中的全部待评估时空数据集计算所述目标窗口的平均采样
时间间隔和平均移动速度;若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化未超过预设驻留范围,则说明数据缺失是由于驻留导致,此时无需进行补全,但驻留前后的数据规律可能发生变化,故而可以直接从驻留点将所述目标窗口分割成两个窗口。
123.步骤b42,根据所述平均移动速度以及预设补全算法对应的补全距离阈值,确定补全时间阈值;
124.在一可行实施方式中,获取预设补全算法对应的补全距离阈值,将所述补全距离阈值与所述平均移动速度的比值,确定为补全时间阈值。
125.步骤b43,若确定所述数据缺失异常情况对应的待评估时空数据对应的时间间隔未超过所述补全时间阈值,则根据预设的补全算法对所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。
126.在一可行实施方式中,计算所述数据缺失异常情况对应的待评估时空数据与其相邻的待评估时空数据之间的时间间隔,比较所述时间间隔和所述补全时间阈值,若所述时间间隔未超过所述补全时间阈值,则根据预设的补全算法对所述目标窗口中所述数据缺失异常情况对应的待评估时空数据进行数据处理,得到优化时空数据集;若所述时间间隔超过所述补全时间阈值,则说明数据缺失异常情况持续的时间较长,此时不宜通过补全算法进行数据处理,且由于数据缺失异常情况持续时间较长,缺失前后的数据通常不具有相同的数据规律,故而可以将所述时间间隔的两个端点分别作为分割点,根据所述分割点将所述目标窗口分割成两个窗口。
127.示例性地,参照图9,所述待评估时空数据集包括车辆gps传感器采集到的行驶轨迹数据,对所述数据缺失异常情况进行数据处理的步骤包括:计算所述目标窗口的平均采样时间间隔t1和平均移动速度v1,判断轨迹点是否在一定范围内无规律抖动,若轨迹点在一定范围内无规律抖动,则根据轨迹点抖动情况确定驻留点,直接从驻留点将所述目标窗口分割成两个窗口;若轨迹点未在一定范围内无规律抖动,则根据预设可补全距离阈值和平均车速计算时间阈值th1,若t1<th1,则调用补全算法按间隔时间补全轨迹点,若t1≥th1,则基于轨迹点的时间将所述目标窗口分割成两个窗口。
128.在本实施例中,由于时空数据是变化的,在时空数据的整个变化轨迹的不同阶段,数据规律可能不同,例如车辆的行驶速度会随时间和路段发生变化,同一路段中行驶的车辆的车速,在上下班高峰期会较小,在夜间会较大,同一时间段中形式的车辆的车速,在市区内会较小,高速上会较大,而在市区内检测到车速为100km/h可能为异常情况,而在高速上检测到车速为100km/h则不为异常情况,故而本实施例通过根据将所述待评估时空数据集分割至多个窗口中,分别对每个窗口中的待评估时空数据进行待处理异常情况检测和数据处理,这样检测到的待处理异常情况以及对应的数据处理可以适应于时空数据的变化情况,进而可以提高数据处理的准确性。
129.此外,本发明实施例还提出一种时空数据评估装置,所述装置包括:
130.获取模块,用于获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;
131.第一评估模块,用于对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;
132.第二评估模块,用于若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;
133.第三评估模块,用于若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;
134.输出模块,用于若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。
135.可选地,所述第二评估模块还用于:
136.将所述待评估时空数据集基于预设第一维度分割成多个第一数据子集;
137.基于预设第一抽样比例,从各所述第一数据子集中抽取至少一个目标第一数据子集;
138.对各所述目标第一数据子集的维度质量评估指标进行评估,得到中观质量评估结果。
139.可选地,所述第三评估模块还用于:
140.将所述待评估时空数据集基于预设第二维度分割成多个第二数据子集;
141.基于预设第二抽样比例,从各所述第二数据子集中分别抽取至少一条目标待评估时空数据;
142.对各所述目标待评估时空数据的数据质量评估指标进行评估,得到微观质量评估结果。
143.可选地,所述时空数据评估装置还包括数据处理模块,所述数据处理模块用于:
144.若根据所述中观质量评估结果和所述微观质量评估结果确定需要对所述待评估时空数据集进行数据处理,则检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集;
145.输出所述优化时空数据集。
146.可选地,所述数据处理模块用于:
147.若检测到所述待评估时空数据集中存在至少一个待删除处理异常情况,则根据预设的数据删除算法对所述待评估时空数据集进行数据处理,得到第一中间数据集;
148.若检测到所述第一中间数据集中存在至少一个待补全处理异常情况,则根据预设的数据补全算法对所述第一中间数据集进行数据处理,得到第二中间数据集;
149.若检测到所述第二中间数据集中存在至少一个待调值处理异常情况,则根据预设的数据调值算法对所述第二中间数据集进行数据处理,得到优化时空数据集。
150.可选地,所述数据处理模块用于:
151.基于预设目标维度,对所述待评估时空数据集中的待评估时空数据进行排序;
152.根据预设的统计学分类算法,将排序后的待评估时空数据集分割成多个窗口;
153.分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口;
154.分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待
评估时空数据进行数据处理,得到优化时空数据集。
155.可选地,所述数据处理模块用于:
156.遍历各个窗口中的待评估时空数据,计算各个窗口中的各个待评估时空数据各自对应的异常检测参数;
157.分别对各所述窗口各自对应的异常检测参数进行统计分析,确定各所述窗口各自对应的异常检测参数阈值;
158.分别对每一窗口对应的异常检测参数和异常检测参数阈值进行比较;
159.若从各所述待评估时空数据中检测到异常检测参数超出异常检测参数阈值的待处理时空数据,则将所述待处理时空数据对应的窗口确定为目标窗口。
160.可选地,所述数据处理模块用于:
161.若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化超过预设驻留范围,则计算所述目标窗口的平均采样时间间隔和平均移动速度;
162.根据所述平均移动速度以及预设补全算法对应的补全距离阈值,确定补全时间阈值;
163.若确定所述数据缺失异常情况对应的待评估时空数据对应的时间间隔未超过所述补全时间阈值,则根据预设的补全算法对所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。
164.此外,本发明实施例还提出一种电子设备,如图10所示,图10是本发明实施例方案涉及的硬件运行环境的设备结构示意图。需要说明的是,本发明实施例电子设备可以是智能手机、个人计算机、服务器等设备,在此不做具体限制。
165.如图10所示,该电子设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
166.本领域技术人员可以理解,图5中示出的设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
167.如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及时空数据评估程序。操作系统是管理和控制设备硬件和软件资源的程序,支持时空数据评估程序以及其它软件或程序的运行。在图5所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的时空数据评估程序,并执行以下操作:
168.获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;
169.对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;
170.若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;
171.若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;
172.若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。
173.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
174.将所述待评估时空数据集基于预设第一维度分割成多个第一数据子集;
175.基于预设第一抽样比例,从各所述第一数据子集中抽取至少一个目标第一数据子集;
176.对各所述目标第一数据子集的维度质量评估指标进行评估,得到中观质量评估结果。
177.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
178.将所述待评估时空数据集基于预设第二维度分割成多个第二数据子集;
179.基于预设第二抽样比例,从各所述第二数据子集中分别抽取至少一条目标待评估时空数据;
180.对各所述目标待评估时空数据的数据质量评估指标进行评估,得到微观质量评估结果。
181.进一步地,在所述若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果的操作之后,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
182.若根据所述中观质量评估结果和所述微观质量评估结果确定需要对所述待评估时空数据集进行数据处理,则检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集;
183.输出所述优化时空数据集。
184.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
185.若检测到所述待评估时空数据集中存在至少一个待删除处理异常情况,则根据预设的数据删除算法对所述待评估时空数据集进行数据处理,得到第一中间数据集;
186.若检测到所述第一中间数据集中存在至少一个待补全处理异常情况,则根据预设的数据补全算法对所述第一中间数据集进行数据处理,得到第二中间数据集;
187.若检测到所述第二中间数据集中存在至少一个待调值处理异常情况,则根据预设的数据调值算法对所述第二中间数据集进行数据处理,得到优化时空数据集。
188.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,
执行以下操作:
189.基于预设目标维度,对所述待评估时空数据集中的待评估时空数据进行排序;
190.根据预设的统计学分类算法,将排序后的待评估时空数据集分割成多个窗口;
191.分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口;
192.分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。
193.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
194.遍历各个窗口中的待评估时空数据,计算各个窗口中的各个待评估时空数据各自对应的异常检测参数;
195.分别对各所述窗口各自对应的异常检测参数进行统计分析,确定各所述窗口各自对应的异常检测参数阈值;
196.分别对每一窗口对应的异常检测参数和异常检测参数阈值进行比较;
197.若从各所述待评估时空数据中检测到异常检测参数超出异常检测参数阈值的待处理时空数据,则将所述待处理时空数据对应的窗口确定为目标窗口。
198.进一步地,处理器1001还可以用于调用存储器1005中存储的时空数据评估程序,执行以下操作:
199.若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化超过预设驻留范围,则计算所述目标窗口的平均采样时间间隔和平均移动速度;
200.根据所述平均移动速度以及预设补全算法对应的补全距离阈值,确定补全时间阈值;
201.若确定所述数据缺失异常情况对应的待评估时空数据对应的时间间隔未超过所述补全时间阈值,则根据预设的补全算法对所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。
202.此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有时空数据评估程序,所述时空数据评估程序被处理器执行时实现如下所述的时空数据评估方法的步骤。
203.本发明电子设备和计算机可读存储介质各实施例,均可参照本发明时空数据评估方法各个实施例,此处不再赘述。
204.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
205.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
206.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
207.以上仅为本发明的优选实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的保护范围内。

技术特征:
1.一种时空数据评估方法,其特征在于,包括:获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。2.如权利要求1所述的时空数据评估方法,其特征在于,所述对所述待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果的步骤包括:将所述待评估时空数据集基于预设第一维度分割成多个第一数据子集;基于预设第一抽样比例,从各所述第一数据子集中抽取至少一个目标第一数据子集;对各所述目标第一数据子集的维度质量评估指标进行评估,得到中观质量评估结果。3.如权利要求1所述的时空数据评估方法,其特征在于,所述对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果的步骤包括:将所述待评估时空数据集基于预设第二维度分割成多个第二数据子集;基于预设第二抽样比例,从各所述第二数据子集中分别抽取至少一条目标待评估时空数据;对各所述目标待评估时空数据的数据质量评估指标进行评估,得到微观质量评估结果。4.如权利要求1所述的时空数据评估方法,其特征在于,所述若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果的步骤之后,所述方法还包括:若根据所述中观质量评估结果和所述微观质量评估结果确定需要对所述待评估时空数据集进行数据处理,则检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集;输出所述优化时空数据集。5.如权利要求4所述的时空数据评估方法,其特征在于,所述待处理异常情况包括待删除处理异常情况、待补全处理异常情况和待调值处理异常情况,所述检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集的步骤包括:若检测到所述待评估时空数据集中存在至少一个待删除处理异常情况,则根据预设的数据删除算法对所述待评估时空数据集进行数据处理,得到第一中间数据集;若检测到所述第一中间数据集中存在至少一个待补全处理异常情况,则根据预设的数
据补全算法对所述第一中间数据集进行数据处理,得到第二中间数据集;若检测到所述第二中间数据集中存在至少一个待调值处理异常情况,则根据预设的数据调值算法对所述第二中间数据集进行数据处理,得到优化时空数据集。6.如权利要求4所述的时空数据评估方法,其特征在于,所述检测所述待评估时空数据集中存在的至少一个待处理异常情况,根据各所述待处理异常情况对所述待评估时空数据集进行数据处理,得到优化时空数据集的步骤包括:基于预设目标维度,对所述待评估时空数据集中的待评估时空数据进行排序;根据预设的统计学分类算法,将排序后的待评估时空数据集分割成多个窗口;分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口;分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。7.如权利要求6所述的时空数据评估方法,其特征在于,所述分别对各个窗口中的待评估时空数据进行待处理异常情况检测,从各个窗口中确定存在至少一个待处理异常情况的至少一个目标窗口的步骤包括:遍历各个窗口中的待评估时空数据,计算各个窗口中的各个待评估时空数据各自对应的异常检测参数;分别对各所述窗口各自对应的异常检测参数进行统计分析,确定各所述窗口各自对应的异常检测参数阈值;分别对每一窗口对应的异常检测参数和异常检测参数阈值进行比较;若从各所述待评估时空数据中检测到异常检测参数超出异常检测参数阈值的待处理时空数据,则将所述待处理时空数据对应的窗口确定为目标窗口。8.如权利要求6所述的时空数据评估方法,其特征在于,所述预设目标维度包括时间维度,所述待处理异常情况包括数据缺失异常情况,所述分别根据各所述目标窗口各自对应的待处理异常情况对各所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集的步骤包括:若确定所述目标窗口中所述数据缺失异常情况对应的待评估时空数据的空间属性值的变化超过预设驻留范围,则计算所述目标窗口的平均采样时间间隔和平均移动速度;根据所述平均移动速度以及预设补全算法对应的补全距离阈值,确定补全时间阈值;若确定所述数据缺失异常情况对应的待评估时空数据对应的时间间隔未超过所述补全时间阈值,则根据预设的补全算法对所述目标窗口中的待评估时空数据进行数据处理,得到优化时空数据集。9.一种时空数据评估装置,其特征在于,包括:获取模块,用于获取待评估时空数据集,其中,所述待评估时空数据集包括多条待评估时空数据,每条待评估时空数据具有多个维度的属性值;第一评估模块,用于对所述待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;第二评估模块,用于若根据所述宏观质量评估结果确定所述待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对所述待评估时空数据集的维度质量评估指标进行
评估,得到中观质量评估结果;第三评估模块,用于若根据所述中观质量评估结果确定所述待评估时空数据集的维度质量评估指标满足中观质量要求,则对所述待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;输出模块,用于若根据所述微观质量评估结果确定所述待评估时空数据集的数据质量评估指标满足微观质量要求,则输出评估通过的数据集质量评估结果。10.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的时空数据评估程序,所述时空数据评估程序被所述处理器执行时实现如权利要求1至8中任一项所述的时空数据评估方法的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有时空数据评估程序,所述时空数据评估程序被处理器执行时实现如权利要求1至8中任一项所述的时空数据评估方法的步骤。

技术总结
本发明公开了一种时空数据评估方法、设备及计算机可读存储介质,方法包括:获取待评估时空数据集;对待评估时空数据集的数据集质量评估指标进行评估,得到宏观质量评估结果;若确定待评估时空数据集的数据集质量评估指标满足宏观质量要求,则对待评估时空数据集的维度质量评估指标进行评估,得到中观质量评估结果;若确定待评估时空数据集的维度质量评估指标满足中观质量要求,则对待评估时空数据集的数据质量评估指标进行评估,得到微观质量评估结果;若确定待评估时空数据集的数据质量评估指标满足微观质量要求,则输出待评估时空数据集。本发明通过多层次的层层递进的质量评估方式,在保证质量评估准确性的情况下提高质量评估效率。估效率。估效率。


技术研发人员:浦世亮 周剑刚 李林森
受保护的技术使用者:杭州海康威视数字技术股份有限公司
技术研发日:2023.05.26
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐