一种时序排序方法及装置与流程
未命名
08-14
阅读:109
评论:0

1.本发明涉及数据识别领域,具体涉及一种时序排序方法及装置。
背景技术:
2.现实生活中的数据一直在变化。据英国皇家邮政报道,在英国,每天都有9590户搬家,1496户结婚,810户离婚,2011人退休,1500人死亡。据估计,不准确的客户数据会使公司损失6%他们的年收入。当搜索引擎中的数据过时时,一个餐厅搜索可能返回一个关闭了3年的饭馆。当基础设施资产状况的数据陈旧时,可能造成设备维修延误和停机。此外,数据驱动的决策若是基于过时的数据,可能比在没有数据的情况下做的决定更糟糕。尤其在医疗保健、零售或金融服务等关键行业中,我们根本无法根据昨天的数据做出正确的决策。然而不幸的是,82%的公司的决策都是基于过时的信息。这些问题强调了确定数据时效性的必要性。换言之,我们需要能够判断数据的新旧程度。
3.现有的模型可以用来解决数据时效性排序的问题。
4.然而,但由于时序的一些独特特点在现有的模型中没有被很好地考虑和优化,因此,直接采用现有模型对数据进行时效性排序的效果很差。
技术实现要素:
5.鉴于所述问题,提出了本技术以便提供克服所述问题或者至少部分地解决所述问题的一种时序排序方法及装置,包括:
6.一种时序排序方法,所述方法用于对数据进行时效性排序,包括:
7.获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;
8.依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;
9.依据所述时间编码对所述数据集中的数据进行时效性排序。
10.优选地,所述依据所述数据集确定目标数据的关联数据属性值的步骤,包括:
11.依据所述数据集确定目标数据的前置数据、目标数据的后置数据以及目标数据;
12.依据所述目标数据的前置数据、目标数据的后置数据、目标数据以及所述数据集确定所述目标数据的关联数据属性值。
13.优选地,所述依据所述关联数据属性值确定所述目标数据的时间编码的步骤,包括:
14.依据所述关联数据属性值确定每个目标数据的属性向量;
15.依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码。
16.优选地,所述依据所述关联数据属性值确定每个目标数据的属性向量的步骤,包括:
17.依据所述关联数据属性值确定关联数据序列;
18.依据所述关联数据序列确定每个目标数据的属性向量。
19.优选地,所述依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码的步骤,包括:
20.依据所述每个目标数据的属性向量确定数值编码;
21.依据所述每个目标数据的属性向量确定属性编码;
22.依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码。
23.优选地,所述依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码的步骤,包括:
24.依据所述属性编码和所述数值编码通过损失函数得到具有自适应间隔的所述每个目标数据的时间编码。
25.优选地,所述依据所述时间编码对所述数据集中的数据进行时效性排序的步骤,包括:
26.依据所述时间编码对所述数据集中的数据按照时间顺序进行时效性排序。
27.为实现本技术还包括一种时序排序装置,所述装置用于对数据进行时效性排序,包括:
28.获取模块,用于获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;
29.时间编码模块,用于依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;
30.时效性排序模块,用于依据所述时间编码对所述数据集中的数据进行时效性排序。
31.为实现本技术还包括一种计算机电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述的时序排序方法的步骤。
32.为实现本技术一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现所述的时序排序方法的步骤。
33.本技术具有以下优点:
34.在本技术的实施例中,相对于现有技术中的“时效性排序的效果很差”,本技术提供了“上下文感知的向量的关联数据、将向量以时间顺序进行排序的编码机制以及自适应间隔排序”的解决方案,具体为:获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。通过本技术的上下文感知的向量表示方法解决了“时效性排序的效果很差”的技术问题,达到了在对目标属性进行向量化表示的同时,也融入了相关属性的上下文信息,从而能对目标属性时效性进行准确判断。
附图说明
35.为了更清楚地说明本技术的技术方案,下面将对本技术的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
36.图1是本技术一实施例提供的一种时序排序方法的步骤流程图;
37.图2是本技术一实施例提供的一种时序排序方法的模块结构图;
38.图3是本技术一实施例提供的一种时序排序方法的数据集图;
39.图4是本技术一实施例提供的一种时序排序装置的结构框图;
40.图5是本发明一实施例提供的一种计算机设备的结构示意图;
41.12、计算机设备;14、外部设备;16、处理单元;18、总线;20、网络适配器;22、i/o接口;24、显示器;28、内存;30、随机存取存储器;32、高速缓存存储器;34、存储系统;40、程序/实用工具;42、程序模块。
具体实施方式
42.为使本技术的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.发明人通过分析现有技术发现:如图3所示,为一个数据集的图片,考虑一组属于同一个实体的记录。它们的属性值可能会过时和不准确。且可能只有部分可靠的时间戳可用。在这种情况下,我们如何能判断数据属性的新旧程度呢,也就是说,假设给定属于同一实体的两条记录t1和t2,我们需要判断t1的a属性值比t2的a属性值要新,表示为t2□at1。
44.考虑图3所示的客户记录t
1-t6已经被确认是指同一个人玛丽(mary)。每一个记录记载了她的婚姻状况,工作,孩子数量,sz(鞋码)的一些属性值。这里面一些记录的属性已经过时了。例如,她的工作、地址和姓氏分别换了4次,5次和2次。但只有某些属性值可能有可靠的时间戳,例如,t5[工作]和t6[工作]的时间戳可能分别为2016和2019,表示在那个时候,这些属性值是最新的。然而,在没有完整时间戳的情况下,我们很难知道是否t2□
ln
t6,即t2的姓氏值是被否t6的姓氏值要新,除此之外,玛丽的最近工作是什么等问题都是需要进行排序的。
[0045]
现有技术通常通过学习一个排序模型,以便我们可以根据学到的相关性、偏好或重要性对数据进行排序。在我们的问题中,我们是根据时效性进行排序。现有方法可以采用成对排序的方式。这是因为成对排序的语义和时序的语义是一致的,他们都能判断给定属于同一实体的一对记录t1和t2,t1的a属性值是否比t2的a属性值要新。除此之外,时序具有传递性,即如果t2□at1和t3□at2,那么我们可以推导出t3□at1。因此,成对排序可以帮助我们获得所有属性值的总顺序,从而得到每个属性上的最新的值。
[0046]
人们自然地希望采用现有的模型来解决数据时效性排序的问题。然而,由于时序的一些独特特点在现有的模型中没有被很好地考虑和优化,因此,直接采用现有模型对数据进行时效性排序的效果很差,具体有以下三个原因:
[0047]
属性相关性。由于在判断数据时效顺序时,我们经常需要参考其他属性来确定某一个给定属性的时效顺序。此外,由于数据的属性值可能发生来回变化。例如,玛丽的婚姻状况可能从“结婚”变为“离婚”,再从“离婚”回到“结婚”。因此,我们很难仅根据单个属性上
的信息确定该属性上最新的值。
[0048]
嵌入模型的局限性。为了确定数据的时效性,我们需要对词汇上不同但语义上相似的属性值特别小心。例如,一个人的状态中,“dead”和“expired”有着相似的含义,“已婚”和“结婚”也有着相似的含义。尽管现有的嵌入模型(如elmo或bert)被广泛采用于抽象语义信息,然而,由于他们没有接受过按时间顺序排序的数据的训练,这些嵌入模型在时效性问题中不能直接使用。
[0049]
自适应间隔。现有的排序策略并没有考虑到数据属性在现实生活中的时效性特征。例如,每个人的状态从“出生”到“订婚”的时间跨度通常比从“订婚”到“结婚”更长。在大多数现有策略中,采用的是固定间隔的方式进行排序。然而,我们需要的是一种能够体现数据时效性特征的自适应间隔方法,将排序的结果与他们的现实生活行为相结合,以证明排名结果的有效性。
[0050]
需要说明的是,在本发明任一实施例中,所述方法用于对数据进行时效性排序。
[0051]
参照图1,示出了本技术一实施例提供的一种时序排序方法的步骤流程图,具体包括如下步骤:
[0052]
s110、获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;
[0053]
s120、依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;
[0054]
s130、依据所述时间编码对所述数据集中的数据进行时效性排序。
[0055]
在本技术的实施例中,相对于现有技术中的“时效性排序的效果很差”,本技术提供了“上下文感知的向量的关联数据、将向量以时间顺序进行排序的编码机制以及自适应间隔排序”的解决方案,具体为:获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。通过本技术的上下文感知的向量表示方法解决了“时效性排序的效果很差”的技术问题,达到了在对目标属性进行向量化表示的同时,也融入了相关属性的上下文信息,从而能对目标属性时效性进行准确判断。
[0056]
下面,将对本示例性实施例中的时序排序方法作进一步地说明。
[0057]
如上述步骤s110所述,获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据。
[0058]
在本发明一实施例中,可以结合下列描述进一步说明步骤s110所述“获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据”的具体过程。
[0059]
在一具体实施例中,如图3所示,假设给定属于同一实体的两条记录t1和t2,我们需要判断t1的a属性值比t2的a属性值要新,表示为t2□at1。
[0060]
如上述步骤s120所述,依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码。
[0061]
在本发明一实施例中,可以结合下列描述进一步说明步骤s120所述“依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时
间编码”的具体过程。
[0062]
如下列步骤所述,依据所述数据集确定目标数据的前置数据、目标数据的后置数据以及目标数据;依据所述目标数据的前置数据、目标数据的后置数据、目标数据以及所述数据集确定所述目标数据的关联数据属性值。
[0063]
在一具体实施例中,所示前置数据为上文数据,所述后置数据下文数据。
[0064]
如下列步骤所示,依据所述关联数据属性值确定每个目标数据的属性向量;依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码。
[0065]
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述数据集确定目标数据的前置数据、目标数据的后置数据以及目标数据;依据所述目标数据的前置数据、目标数据的后置数据、目标数据以及所述数据集确定所述目标数据的关联数据属性值”的具体过程。
[0066]
在一具体实施例中,数据具有属性相关性。由于在判断数据时效顺序时,我们经常需要参考其他属性来确定某一个给定属性的时效顺序。此外,由于数据的属性值可能发生来回变化。例如,玛丽的婚姻状况可能从“结婚”变为“离婚”,再从“离婚”回到“结婚”。因此,我们很难仅根据单个属性上的信息确定该属性上最新的值。
[0067]
如下列步骤所述,为每个目标数据建立前置数据和后置数据,在所述数据集中将目标数据的前置数据匹配所对应的前置数据属性值、目标数据的后置数据匹配所对应的后置数据属性值、目标数据所对应的目标数据属性值。所述关联数据属性值包括前置数据属性值、后置数据属性值以及目标数据属性值。
[0068]
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述关联数据属性值确定所述目标数据的时间编码”的具体过程。
[0069]
如下列步骤所述,依据所述关联数据属性值确定每个目标数据的属性向量;依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码。
[0070]
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述关联数据属性值确定每个目标数据的属性向量”的具体过程。
[0071]
作为一种示例,排名模型mrank首先使用预训练语言模型(如elmo或bert)为每个属性值建立有上下文信息的向量表示,使得属性值本身和与该属性相关的属性值信息也被嵌入。
[0072]
如下列步骤所述,依据所述关联数据属性值确定关联数据序列;依据所述关联数据序列确定每个目标数据的属性向量。
[0073]
在一具体实施例中,为了能参考与目标数据相关的关联数据属性值,我们将每条记录看作序列,采用序列化的思想,使得记录中的信息能够有效地被模型消化并嵌入向量中去。具体来说,给定一条记录t,我们序列化它的值为:
[0074]
serialize(t)=《col》a1《val》t[a1]...《col》an《val》t[an],
[0075]
其中《col》和《val》是特殊的标识符号,分别表示属性和属性值的开始。t的序列化将作为输入传入一个预训练的语言模型emb()中,从而为t的每一个a属性值计算一个d维的嵌入式向量,用emb(t[a])表示。除此之外,我们对所有的属性嵌入向量取平均值,得到一个记录t的上下文表示个记录t的上下文表示最终,对于记录t的每一个a属性值,我
们可以得到一个上下文感知的向量表示:
[0076]et[a]
=[emb(t[a]);emb(t)],
[0077]
其中,[;]表示向量的拼接。根据这个策略,数值向量e
t[a]
不仅表示了属性a上的数值信息,它还包含了其他相关属性的上下文信息,从而方便了我们对属性a的数值进行时效性排序。与数值向量相似,我们也可以对属性名进行向量化表示。具体来说,我们将属性名a(如“婚姻状态”)传入预训练语言模型,即可得到一个属性向量ea=emb(a)。
[0078]
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码”的具体过程。
[0079]
如下列步骤所述,依据所述每个目标数据的属性向量确定数值编码;依据所述每个目标数据的属性向量确定属性编码;依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码。
[0080]
作为一种示例,基于构建的向量表示,mrank对每个属性名a编码得到一个目标编码。同样地,对于每一个属性值t[a]的向量表示,我们也对它进行编码得到一个数值编码。如果t[a]的数值编码距离属性a的目标编码越近,那么我们就认为t[a]的属性值越新。同时,t[a]的数值编码与属性a的目标编码的距离反映了他们在时效排序中的时间跨度。如图2所示。
[0081]
在一具体实施例中,虽然基于预训练语言模型进行向量化表示的方法已经被广泛用于捕获语义信息,但他们并没有专门被用于进行时效性排序。因此,我们采取了按时间顺序编码的方式,重新组织基于语言模型获得的向量化表示,以保持时效性。具体思路是使用属性向量作为目标向量,使更新的数值对应的数值向量更接近目标向量;此外,与采取固定间隔的大部分现有排序不同的是,我们使目标编码和数值编码具有自适应的间隔,且该间隔符合时效排序中的时间跨度。
[0082]
具体来说,给定记录t的a属性的数值向量e
t[a]
,我们使用上下文编码器enccxtx(
·
)对其进行编码,如下所示:
[0083]
φ
t[a]
=enc
cxtx
(e
t[a]
)=σ(w2*σ(w1*e
t[a]
)),
[0084]
其中w1和w2是编码器的可学参数,σ是sigmoid激活函数,即
[0085]
同样地,对于a属性的属性向量ea来说,我们也可以通过一个属性编码器encattr(
·
),对其进行编码,如下所示:
[0086]
φa=enc
attr
(ea),
[0087]
为了训练具有时序编码性质和自适应间隔的编码器,我们采用了以属性为中心的自适应间隔的损失函数。给定一个属性a,它的损失函数为:
[0088][0089]
其中,《
·
,
·
》表示向量点乘,γ
t1,
是记录t1和t2间的自适应间隔。通常情况下,我们设γ
t1,
为:
[0090]
[0091]
以此刻画t1[a]和t2[a]两个数值共同出现的频率。
[0092]
直观来说,对于每条训练样本t1□at2来说,最小化这个损失函数,我们就是在使我们的编码器达到如下效果:(a)相对更新的数值t2[a]的属性编码距离目标编码的距离更近,(b)t1[a]和t2[a]的属性值编码具有自适应间隔。
[0093]
换句话说,编码空间中的属性值不仅会按时间顺序排列他们到目标编码的“距离”,从而可以很容易地推导出属性的时间顺序,对应编码的间隔也是自适应确定的(不是固定的),从而体现时效性排序的语义。
[0094]
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码”的具体过程。
[0095]
如下列步骤所述,依据所述属性编码和所述数值编码通过损失函数得到具有自适应间隔的所述每个目标数据的时间编码;其中,自适应间隔是指时间顺序排列每个目标数据属性值的编码到预设数据属性值的编码的距离。
[0096]
如上述步骤s130所述,依据所述时间编码对所述数据集中的数据进行时效性排序。
[0097]
在本发明一实施例中,可以结合下列描述进一步说明步骤s130所述“依据所述时间编码对所述数据集中的数据进行时效性排序”的具体过程。
[0098]
如下列步骤所述,依据所述时间编码对所述数据集中的数据按照时间顺序进行时效性排序。
[0099]
作为一种示例,根据所有数值编码到目标编码的距离,我们可以推导出该属性下数值的时效性排序。
[0100]
在一具体实施例中,本技术提出了一个全新的数据时效性排名模型来解决现有技术的缺点,其关键点和新颖性包括:一个上下文感知的向量表示方法,可以对目标属性值及其相关的属性值同时进行向量化表示。一个可以将向量以时间顺序进行排序的编码机制。一个以属性为核心的自适应间隔排序策略。
[0101]
在一具体实施例中,首先,在判断数据时效顺序时,我们经常需要参考其他属性来确定某一个给定属性的时效顺序。现有的嵌入模型获得的向量表示通常都是以单一属性为基础的,因此无法融合其他属性上的相关信息。与之相反,本发明提出了一种全新的上下文感知的向量表示方法,在对目标属性进行向量化表示的同时,也融入了相关属性的上下文信息,从而能对目标属性时效性进行准确判断。
[0102]
其次,现有的嵌入模型的虽然被广泛采用于抽象语义信息,可以处理词汇上不同但语义上相似的属性值,然而,他们并不能将属性按时间的先后顺序排序。本发明因此提出了一个全新的编码机制,按时间顺序排列每个属性值的编码到目标编码的“距离”,从而可以很容易地推导出属性的时间顺序。
[0103]
最后,现有的排序策略并没有考虑到数据属性在现实生活中的时效性特征,采用的是固定间隔的排序方式。然而在时效性排序中,属性间的时间跨度是不同的。因此,我们提出了一种能够体现数据时效性特征的自适应间隔方法。不同的属性间会有不同的间隔,使得排序的结果与数据属性的现实行为一致。
[0104]
在一具体实施例中,我们通过在真实数据集上的实验,验证的本发明的有效性。我们实现了排序模型mrank并分别对比了不使用上下文感知的向量表示方法、不使用以时间
顺序进行排序的编码机制和不使用自适应间隔排序策略三种方案的效果。
[0105]
从实验结果来看,mrank的准确率明显优于其他三种方案。具体来说,mrank的平均准确率是0.722,而另外三种方案的准确率分别为0.641,0.613和0.714,分别提高了8.1,10.9和1个百分点。不使用上下文感知的向量表示方法,我们无法在排序中参考其他相关属性的有效信息。不使用以时间顺序进行排序的编码机制,我们无法单纯依靠现有的嵌入模型,获得很好的时间顺序。不使用自适应间隔排序策略,时间跨度的语义无法反映在排序结果中。
[0106]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0107]
参照图4,示出了本技术一实施例提供的一种时序排序装置,具体包括如下模块,
[0108]
获取模块410,用于获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;
[0109]
时间编码模块420,用于依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;
[0110]
时效性排序模块430,用于依据所述时间编码对所述数据集中的数据进行时效性排序。
[0111]
在本发明一实施例中,所述时间编码模块420包括:
[0112]
前置数据和后置数据子模块,用于依据所述数据集确定目标数据的前置数据、目标数据的后置数据以及目标数据;
[0113]
关联数据属性值子模块,用于依据所述目标数据的前置数据、目标数据的后置数据、目标数据以及所述数据集确定所述目标数据的关联数据属性值;
[0114]
属性向量子模块,用于依据所述关联数据属性值确定每个目标数据的属性向量;
[0115]
时间编码子模块,用于依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码。
[0116]
在本发明一实施例中,所述属性向量子模块包括:
[0117]
关联数据序列子模块,用于依据所述关联数据属性值确定关联数据序列;
[0118]
每个目标数据的属性向量子模块,用于依据所述关联数据序列确定每个目标数据的属性向量。
[0119]
在本发明一实施例中,所述时间编码子模块包括:
[0120]
数值编码子模块,用于依据所述每个目标数据的属性向量确定数值编码;
[0121]
属性编码子模块,用于依据所述每个目标数据的属性向量确定属性编码;
[0122]
每个目标数据的时间编码子模块,用于依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码。
[0123]
在本发明一实施例中,所述每个目标数据的时间编码子模块包括:
[0124]
自适应间隔子模块,用于依据所述属性编码和所述数值编码通过损失函数得到具有自适应间隔的所述每个目标数据的时间编码;其中,自适应间隔是指时间顺序排列每个目标数据属性值的编码到预设数据属性值的编码的距离。
[0125]
在本发明一实施例中,所述时效性排序模块430包括:
[0126]
时效性排序子模块,用于依据所述时间编码对所述数据集中的数据按照时间顺序
进行时效性排序。
[0127]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0128]
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例仅做简单描述,其余方案参考上述具体实施例描述即可。
[0129]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0130]
参照图5,示出了本技术的一种时序排序方法的计算机设备,具体可以包括如下:
[0131]
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接不同系统组件(包括内存28和处理单元16)的总线18。
[0132]
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、音视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0133]
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0134]
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本技术各实施例的功能。
[0135]
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本技术所描述的实施例中的功能和/或方法。
[0136]
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过i/o接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)),广域网(wan)和/或公共网络(例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包
括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统34等。
[0137]
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用以及数据处理,例如实现本技术实施例所提供的一种时序排序方法。
[0138]
也即,上述处理单元16执行上述程序时实现:获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。
[0139]
在本技术实施例中,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本技术所有实施例提供的一种时序排序方法。
[0140]
也即,给程序被处理器执行时实现:获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。
[0141]
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0142]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0143]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如java、smalltalk、c++,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0144]
尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为
包括优选实施例以及落入本技术实施例范围的所有变更和修改。
[0145]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0146]
以上对本技术所提供的一种时序排序方法及装置,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种时序排序方法,所述方法用于对数据进行时效性排序,其特征在于,包括:获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。2.根据权利要求1所述的时序排序方法,其特征在于,所述依据所述数据集确定目标数据的关联数据属性值的步骤,包括:依据所述数据集确定目标数据的前置数据、目标数据的后置数据以及目标数据;依据所述目标数据的前置数据、目标数据的后置数据、目标数据以及所述数据集确定所述目标数据的关联数据属性值。3.根据权利要求1所述的时序排序方法,其特征在于,所述依据所述关联数据属性值确定所述目标数据的时间编码的步骤,包括:依据所述关联数据属性值确定每个目标数据的属性向量;依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码。4.根据权利要求3所述的时序排序方法,其特征在于,所述依据所述关联数据属性值确定每个目标数据的属性向量的步骤,包括:依据所述关联数据属性值确定关联数据序列;依据所述关联数据序列确定每个目标数据的属性向量。5.根据权利要求3所述的时序排序方法,其特征在于,所述依据所述每个目标数据的属性向量确定所述每个目标数据的时间编码的步骤,包括:依据所述每个目标数据的属性向量确定数值编码;依据所述每个目标数据的属性向量确定属性编码;依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码。6.根据权利要求5所述的时序排序方法,其特征在于,所述依据所述属性编码和所述数值编码确定所述每个目标数据的时间编码的步骤,包括:依据所述属性编码和所述数值编码通过损失函数得到具有自适应间隔的所述每个目标数据的时间编码。7.根据权利要求1所述的时序排序方法,其特征在于,所述依据所述时间编码对所述数据集中的数据进行时效性排序的步骤,包括:依据所述时间编码对所述数据集中的数据按照时间顺序进行时效性排序。8.一种时序排序装置,所述装置用于对数据进行时效性排序,其特征在于,包括:获取模块,用于获取数据集,所述数据集包含数据和与其一一对应的属性值;其中,所述数据集包括至少两组数据;时间编码模块,用于依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;时效性排序模块,用于依据所述时间编码对所述数据集中的数据进行时效性排序。9.一种计算机电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要
求1至7中任一项所述的时序排序方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的时序排序方法的步骤。
技术总结
本发明实施例提供了一种时序排序方法及装置,在本申请的实施例中,相对于现有技术中的“时效性排序的效果很差”,本申请提供了“上下文感知的向量的关联数据、将向量以时间顺序进行排序的编码机制以及自适应间隔排序”的解决方案,具体为:依据所述数据集确定目标数据的关联数据属性值,并依据所述关联数据属性值确定所述目标数据的时间编码;依据所述时间编码对所述数据集中的数据进行时效性排序。通过本申请的上下文感知的向量表示方法解决了“时效性排序的效果很差”的技术问题,达到了在对目标属性进行向量化表示的同时,也融入了相关属性的上下文信息,从而能对目标属性时效性进行准确判断。行准确判断。行准确判断。
技术研发人员:王尧舒 谢珉 樊文飞
受保护的技术使用者:深圳计算科学研究院
技术研发日:2023.06.15
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/