一种基于字典树和覆盖度的时间序列分类方法及装置

未命名 08-07 阅读:74 评论:0


1.本发明涉及数据挖掘技术领域,尤其涉及一种基于字典树和覆盖度的时间序列分类方法及装置。


背景技术:

2.时间序列数据通常是指按照固定时间间隔采集得到的实数值,比如,金融投资、地理气象、城市交通和医疗诊断等行业中随时间变化的数据,这些时间序列数据与社会生活密不可分。
3.时间序列数据中的时间序列模式特征(简称模式特征)是时间序列中一段特殊的子序列,该子序列具备较强的类别表达能力,能够有效地区分不同类别的时间序列。通过在时间序列数据中提取时间序列模式特征,以对时间序列进行分类(time series classification,tsc),是常用的技术手段。但是,由于时间序列数据维度较高,且样本数量巨大,因此模式特征数量也相当庞大,传统的模式特征处理过程计算复杂,运行效率较低。
4.因此,如何提升时间序列模式特征挖掘效率,挖掘出代表性强的模式特征,从而有效提升时间序列数据分类的效率和准确性是目前亟待解决的技术问题。


技术实现要素:

5.鉴于上述问题,本发明提供了一种克服上述问题或者至少部分地解决上述问题的基于字典树和覆盖度的时间序列分类方法及装置。
6.第一方面,本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;基于所述各个结点的评估值,确定所述字典树的模式特征代表;基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;基于所述特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
7.优选地,所述对所述数值型时间序列数据集进行预处理,得到符号化时间序列数
据集,包括:对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。
8.优选地,所述根据所述符号化时间序列数据集的模式特征,构建字典树,所述字典树中各个结点代表不同的模式特征,包括:按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;基于所述候选模式特征,构建字典树,所述字典树中各个结点代表不同的候选模式特征。
9.优选地,所述计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度,包括:计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,为任一模式特征,为的覆盖度,为评估值,为在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,为符号化时间序列数据集中类别标号为的时间序列样本(简称样本)集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为符号化时间序列数据集中类别不为的样本集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为调节系数,取值范围为[0,1]。
[0010]
优选地,所述结点包括:枝结点和叶结点,在计算所述字典树中各个结点的评估值之后,还包括:在所述结点为枝结点时,将以所述枝结点为根结点的子树中结点的最大评估值确定为所述枝结点的评估值。
[0011]
优选地,所述基于各个结点的评估值,确定字典树的模式特征代表,包括:基于所述模式特征的最小长度,确定所述字典树所对应的目标结点;基于所述目标结点的评估值,确定所述字典树的模式特征代表。
[0012]
优选地,所述基于目标结点的评估值,确定所述字典树的模式特征代表,包括:将所述目标结点按评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。
[0013]
优选地,在所述获取待分类的时间序列数据之后,还包括:对所述待分类的时间序列数据进行预处理和特征空间转换。
[0014]
第二方面,本发明还提供了一种时间序列数据的分类装置,包括:第一获取模块,用于获取时间序列数据集,所述时间序列数据集为数值型时间序
列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;第一得到模块,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;构建模块,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;计算模块,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;确定模块,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;第二得到模块,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;第三得到模块,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;第二获取模块,用于获取待分类的时间序列数据;分类模块,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。
[0015]
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:获取时间序列数据集,时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且字典树中各个结点代表不同的模式特征;计算字典树中各个结点的评估值,评估值为各个模式特征再符号化时间序列数据集中的覆盖度;基于各个结点的评估值,确定字典树的模式特征代表;基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;基于特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别,从海量模式特征中按照覆盖度挖掘模式特征代表,降低了模式特征的数量,提高了时间序列数据分类的效率和准确性。
附图说明
[0016]
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:图1示出了本发明实施例中一种基于字典树和覆盖度的时间序列分类方法的步骤流程示意图;图2示出了本发明实施例中构建的字典树的结构示意图;图3示出了本发明实施例中字典树结点评估值计算过程的示意图;图4示出了本发明实施例中基于字典树和覆盖度的时间序列分类装置的结构示意图;
图5示出了本发明实施例中实现基于字典树和覆盖度的时间序列分类方法的计算机设备的结构示意图。
具体实施方式
[0017]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整传达给本领域的技术人员。
[0018]
实施例一
[0019]
本发明的实施例提供了一种基于字典树和覆盖度的时间序列分类方法,如图1所示,包括:s101,获取时间序列数据集,该时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集中的每个时间序列是按照预设规律采集的一组数据;s102,对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;s103,根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且该字典树中各个结点代表不同的模式特征;s104,计算字典树中各个结点的评估值,该评估值为各个模式特征在符号化时间序列数据集中的覆盖度;s105,基于各个结点的评估值,确定字典树的模式特征代表;s106,基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;s107,基于特征空间数据和分类器模型,得到时间序列分类器;s108,获取待分类的时间序列数据;s109,基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类时间序列数据的类别。
[0020]
在具体的实施方式中,s101,获取的时间序列数据集中每个时间序列是按照预设规律采集的一组数据。该时间序列数据集可以是一组金融投资数据,比如,某支股票每日的收盘价等数据;时间序列数据集还可以是一组地理气象数据,比如,某个地区的日降雨量等数据,在此不再赘述。
[0021]
接下来,执行s102,对数值型时间序列数据集进行预处理,得到符号化时间序列数据集。
[0022]
具体地,先对数值型时间序列数据集中的每个数值型时间序列进行标准化,得到标准化数值型时间序列,其中具体采用z-标准化进行处理。
[0023]
接着,对标准化数值型时间序列采用符号聚合近似(symbolic aggregate approximation,sax)方法转化为字符序列,得到符号化时间序列数据集。具体根据滑动窗口大小和字符序列集大小两个参数进行转化。
[0024]
得到符号化时间序列数据集后,执行s103,根据符号化时间序列数据集的模式特征,构建字典树,该模式特征为字典树中从根结点到任意结点路径上的字符序列,该字典树包括各个结点,字典树中的各个结点代表不同的模式特征,该模式特征为随着时间变化表
现出的特征。
[0025]
具体地,按照预设模式特征的最小长度(minlen)和最大长度(maxlen),从符号化时间序列数据集中搜索得到候选模式特征;基于候选模式特征,构建字典树,该模式特征为字典树中从根结点到任意结点路径上的字符序列,且该字典树中各个结点代表不同的候选模式特征。
[0026]
具体地,按照预设模式特征的最小长度(minlen)和最大长度(maxlen),遍历长度在区间[minlen, maxlen]的所有模式特征,由此得到候选模式特征,插入到字典树。其中,根结点用“#”表示,字典树的每个结点记录的信息包括当前结点字符(character),当前结点的评估值(eval)和当前结点对应的候选模式特征(candidate)。字典树的基本结构如图2所示。举例中其中一个结点b,对应的结点字符(character)为b,该结点的评估值为0.622,对应的模式特征为bbb。
[0027]
图2中字典树根结点的左子树包含了aaaa,aaaba,aaabb,aab,abbab和abbb候选模式特征,右子树包含bba,bbbab和bbbb候选模式特征,一共有9种候选模式特征。
[0028]
接下来,执行s104,计算字典树中各个结点的评估值,该评估值为各个模式特征在符号化时间序列数据集中的覆盖度。
[0029]
具体按照如下计算公式实现:,其其中,为任一模式特征,为的覆盖度,为评估值,为在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,为符号化时间序列数据集中类别标号为的时间序列样本(简称样本)集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为符号化时间序列数据集中类别不为的样本集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量。
[0030]
其中,为调节系数,用来控制式子中后一项的影响,取值范围为[0, 1],默认取1;的取值范围为[-1, 1],值越大,表示模式特征的类别区分度越好,否则,表示其类别区分度越差。
[0031]
上述确定各个结点的评估值方法用于处理叶结点。如果某个结点不是叶结点(即枝结点),则将以该枝结点为根结点的子树中结点的最大评估值确定为该枝结点的评估值。
[0032]
综上,任意结点的评估值采用如下公式统一计算:,其中,表示当前评估的结点,表示的模式特征,表示以当前结点为根结点的子树的所有结点(含结点自身);表示当前结点
的评估值,表示结点对应的模式特征的覆盖度。
[0033]
具体地,结点基于覆盖度的评估值计算过程如图3所示。例如,候选模式特征aaaa的结点为叶结点,通过采用上述的覆盖度计算方法,得到其评估值为0.689。而对应模式特征aaab的枝结点,有两个叶结点aaaba和aaabb,该枝结点的评估值是aaaba的覆盖度、aaabb的覆盖度、以及aaab自身覆盖度中的最大值,即0.783。同理可得,aab枝结点的评估值为0.686,abbb枝结点的评估值为0.713。
[0034]
需要注意的是,计算结点评估值的时候,并不需要计算所有结点的评估值,只需要计算字典树中处于minlen层的结点评估值即可。
[0035]
在确定各个结点的评估值之后,执行s105,基于各个结点的评估值,确定字典树的模式特征代表。
[0036]
具体地,基于模式特征的最小长度所对应的结点,确定字典树所对应的目标结点;基于目标结点对应的评估值,确定字典树的模式特征代表。
[0037]
具体地,在确定模式特征代表时,是将目标结点对应的评估值排序,得到排序满足预设条件的目标结点,确定字典树的模式特征代表。
[0038]
如图3所示,模式特征的最小长度为3,对应的结点处于第3层,因此,将第3层所对应的结点的评估值进行排序,从中确定出评估值最优的k个目标结点,即k个模式特征,将这k个模式特征确定为该字典树的模式特征代表。若k值为2,从图3中可以看出,得到模式特征代表为:aaabb(0.783)和abbb(0.713)。
[0039]
在确定字典树的模式特征代表之后,基于字典树的模式特征代表,对分类器模型进行训练,得到时间序列分类器。
[0040]
具体地,执行s106基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;s107,基于特征空间数据和分类器,得到时间序列分类器。
[0041]
在具体的实施方式中,基于个模式特征代表与符号化时间序列数据集的覆盖关系,进行特征空间转换,转换后的数据集如下所示:,其中,为符号化时间序列数据集的样本数量,为模式特征代表的数量,为第个符号化时间序列数据样本到第个模式特征代表的转换值。具体转换公式如下:,其中,和均为符号化时间序列数据集中的字符序列。具体含义为在该符号化时间序列包含该模式特征代表时,则转换为1,否则转换为0。
[0042]
在得到符号化时间序列数据集的特征空间数据之后,将特征空间数据输入分类器模型中进行训练,这里采用的分类器模型包括但不限于knn、svm、随机森林、决策树以及
boss、cote等分类器模型。通过对上述任意一种分类器模型训练,得到时间序列分类器。
[0043]
最后,利用该时间序列分类器对待分类的时间序列数据进行分类。
[0044]
s108,获取待分类的时间序列数据,比如,一组当前时间采集的金融投资数据,然后,执行s109,基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别。
[0045]
当然,在得到待分类的时间序列数据之后,还包括:对待分类的时间序列数据进行预处理和特征空间转换。具体是对该待分类的时间序列数据按照s102的方法得到待分类的符号化时间序列数据,然后,需要按照s106中的方法对该待分类的符号化时间序列数据进行特征空间转换,得到待分类时间序列数据的特征空间数据,最后输入该时间序列分类器,最终得到分类结果。
[0046]
对于金融投资数据来说,可能得到的分类是涨、跌或者横盘等,当然针对不同领域的时间序列数据,类别是不相同的,分类结果也各有不同。本发明能够对任意领域的时间序列数据进行分类,由此得到其分类结果,为用户后期分析提供有力依据。
[0047]
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:本发明提供了一种基于字典树和覆盖度的时间序列分类方法,包括:获取时间序列数据集,时间序列数据集为数值型时间序列数据集,该数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为字典树中从根结点到任意结点路径上的字符序列,且字典树中各个结点代表不同的模式特征;计算字典树中各个结点的评估值,评估值为各个模式特征再符号化时间序列数据集中的覆盖度;基于各个结点的评估值,确定字典树的模式特征代表;基于模式特征代表对符号化时间序列数据集进行特征空间转换,得到符号化时间序列数据集的特征空间数据;基于特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于时间序列分类器,对待分类的时间序列数据进行分类,得到待分类的时间序列数据的类别,从海量模式特征中按照覆盖度挖掘模式特征代表,降低了模式特征的数量,提高了时间序列数据分类的效率和准确性。
[0048]
实施例二
[0049]
基于相同的发明构思,本发明实施例还提供了一种基于字典树和覆盖度的时间序列分类装置,如图4所示,包括:第一获取模块401,用于获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;第一得到模块402,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;构建模块403,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,所述字典树中各个结点代表不同的模式特征;计算模块404,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;
确定模块405,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;第二得到模块406,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;第三得到模块407,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;第二获取模块408,用于获取待分类的时间序列数据;分类模块409,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类的时间序列数据的类别。
[0050]
在一种可选的实施方式中,第一得到模块402,用于:对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。
[0051]
在一种可选的实施方式中,构建模块403,用于:按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;基于所述候选模式特征,构建字典树,所述字典树中各个结点代表不同的候选模式特征。
[0052]
在一种可选的实施方式中,所述计算模块404,用于:计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,为任一模式特征,为的覆盖度,为评估值,为在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,为符号化时间序列数据集中类别标号为的时间序列样本(简称样本)集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为符号化时间序列数据集中类别不为的样本集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为调节系数,取值范围为[0,1]。
[0053]
在一种可选的实施方式中,所述结点包括:枝结点和叶结点,所述计算模块404,还用于:在所述结点为枝结点时,将以所述枝结点为根节点的子树中节点的最大评估值确定为所述枝结点的评估值。
[0054]
在一种可选的实施方式中,确定模块405,用于:基于模式特征的最小长度,确定所述字典树所对应的目标结点;基于所述目标结点的评估值,确定所述字典树的模式特征代表。
[0055]
在一种可选的实施方式中,确定模块405,还用于:将所述目标结点对应的评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。
[0056]
在一种可选的实施方式中,还包括:处理模块,用于:在所述获取待分类的时间序列数据之后,对所述待分类的时间序列数据进行预处理和特征空间转换。
[0057]
实施例三
[0058]
基于相同的发明构思,本发明实施例提供了一种计算机设备,如图5所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器602执行所述程序时实现上述基于字典树和覆盖度的时间序列数据分类方法的步骤。
[0059]
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口506在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
[0060]
实施例四
[0061]
基于相同的发明构思,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于字典树和覆盖度的时间序列数据分类方法的步骤。
[0062]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0063]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0064]
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个实施例中所明确记载的特征更多的特征。更确切地说,如每个实施例所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0065]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单
元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0066]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在具体实施方式中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0067]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的基于字典树和覆盖度的时间序列分类装置、计算机设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0068]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

技术特征:
1.一种基于字典树和覆盖度的时间序列分类方法,其特征在于,包括:获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;基于所述各个结点的评估值,确定所述字典树的模式特征代表;基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;基于所述特征空间数据和分类器模型,得到时间序列分类器;获取待分类的时间序列数据;基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。2.如权利要求1所述的方法,其特征在于,所述对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集,包括:对所述数值型时间序列数据集中的每个数值型时间序列进行标准化处理,得到标准化数值型时间序列;对所述标准化数值型时间序列采用符号聚合近似方法转化为字符序列,得到符号化时间序列数据集。3.如权利要求1所述的方法,其特征在于,所述根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征,包括:按照预设模式特征的最小长度和最大长度,从所述符号化时间序列数据集中搜索得到候选模式特征;基于所述候选模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的候选模式特征。4.如权利要求1所述的方法,其特征在于,所述计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度,包括:计算所述字典树中各个结点的评估值,具体按照如下计算式实现:,其中,为任一模式特征,为的覆盖度,为评估值,为在所述符号化时间序列数据集中所属时间序列的类别标号,即模式特征的类别标号,为符号化时间序列数据集中类别标号为的时间序列样本集合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为符号化时间序列数据集中类别不为的样本集
合,为在中被覆盖的样本集合,为的样本数量,为的样本数量,为调节系数,取值范围为[0,1]。5.如权利要求4所述的方法,其特征在于,所述结点包括:枝结点和叶结点,在计算所述字典树中各个结点的评估值之后,还包括:在所述结点为枝结点时,将以所述枝结点为根结点的子树中结点的最大评估值确定为所述枝结点的评估值。6.如权利要求3所述的方法,其特征在于,所述基于各个结点的评估值,确定字典树的模式特征代表,包括:基于所述模式特征的最小长度,确定所述字典树所对应的目标结点;基于所述目标结点的评估值,确定所述字典树的模式特征代表。7.如权利要求6所述的方法,其特征在于,所述基于目标结点的评估值,确定所述字典树的模式特征代表,包括:将所述目标结点按评估值排序,得到排序满足预设条件的目标结点,确定所述字典树的模式特征代表。8.如权利要求1所述的方法,其特征在于,在所述获取待分类的时间序列数据之后,还包括:对所述待分类的时间序列数据进行预处理和特征空间转换。9.一种时间序列数据的分类装置,其特征在于,包括:第一获取模块,用于获取时间序列数据集,所述时间序列数据集为数值型时间序列数据集,所述数值型时间序列数据集的每个时间序列是按照预设规律采集的一组数据;第一得到模块,用于对所述数值型时间序列数据集进行预处理,得到符号化时间序列数据集;构建模块,用于根据所述符号化时间序列数据集的模式特征,构建字典树,所述模式特征为所述字典树中从根结点到任意结点路径上的字符序列,且所述字典树中各个结点代表不同的模式特征;计算模块,用于计算所述字典树中各个结点的评估值,所述评估值为各个模式特征在所述符号化时间序列数据集中的覆盖度;确定模块,用于基于所述各个结点的评估值,确定所述字典树的模式特征代表;第二得到模块,用于基于所述模式特征代表对所述符号化时间序列数据集进行特征空间转换,得到所述符号化时间序列数据集的特征空间数据;第三得到模块,用于基于所述特征空间数据和分类器模型,得到时间序列分类器;第二获取模块,用于获取待分类的时间序列数据;分类模块,用于基于所述时间序列分类器,对所述待分类的时间序列数据进行分类,得到所述待分类时间序列数据的类别。

技术总结
本发明涉及数据挖掘技术领域,尤其涉及一种基于字典树和覆盖度的时间序列分类方法及装置,方法包括:获取时间序列数据集,即数值型时间序列数据集;对数值型时间序列数据集进行预处理,得到符号化时间序列数据集;根据符号化时间序列数据集的模式特征,构建字典树,模式特征为从根结点到任意结点路径上所有结点的字符序列;采用覆盖度指标,计算字典树中各结点的评估值;基于各个结点的评估值,确定模式特征代表;基于模式特征代表和分类器模型,得到时间序列分类器;基于时间序列分类器,对待分类的时间序列数据进行分类。本发明从海量模式特征中基于字典树和覆盖度挖掘模式特征代表,得到时间序列分类器,提高时间序列数据分类的效率和准确性。分类的效率和准确性。分类的效率和准确性。


技术研发人员:杨骏 敬思远
受保护的技术使用者:乐山师范学院
技术研发日:2023.07.04
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐