一种基于长度约束的快速高效用量化项集挖掘方法

未命名 09-13 阅读：81 评论：0

1.本发明属于计算机信息技术处理领域，具体涉及一种基于长度约束的快速高效用量化项集挖掘方法。

背景技术：

2.随着互联网、物联网、云计算等信息技术的迅猛发展，信息技术与政治、经济、军事、科研、生活等领域的传统应用不断融合，催生了超越以往任何年代的海量数据。同时，遍布世界各地的智能移动设备、传感器、电子商务网站、社交网络每时每刻都在生成类型各异的数据。面对大量的数据，如何及时、有效地进行数据分析，从中提取与人们生活习惯密切相关的潜在模式，是信息时代政府、企业急需关注的问题。为了解决以上问题，数据挖掘技术就此衍生。
3.数据挖掘(data mining)是指在数据库中寻找重要的、未知的、潜在有用模式的过程。通俗的理解就是从数据集中发掘用户感兴趣的信息，而后对这些信息进行加工处理得到有用的知识，最后利用这些知识指导下一步的生产或实践。在现实生活的许多应用中，数据挖掘技术都是用来从数据库中提取出用价值的信息，从而对决策提供支持的。其中，高效用项集挖掘是数据挖掘中能够发现数据之间关系的技术之一。效用值在商业服务领域代表了某些商品组合的利润，高效用项集挖掘能够挖掘出数据中效用值比较大的项集——高效用项集，因此高效用项集挖掘近年来受到了更多的关注与研究。
4.目前高效用项集挖掘技术的主要目标是挖掘效用不小于用户自定义的最小阈值的所有项目集，该技术综合考虑了项目在事务中出现的次数以及用户对于单个项目的权重偏好，但并未给出项目之间的数量关系。因此，2007年yen等人首次在huqa算法引入了弱效用量化项集的概念，并提出了k-support bound方法进行剪枝，为之后的高效用量化项集挖掘打下了基础。2014年li等人提出了vhuqi算法，该算法使用了效用列表结构来存储项集的效用信息，进一步提升了高效用量化项挖掘的效率，但该算法只采用k-support bound方法进行剪枝，并没有很大程度上减少搜索空间。2019年li等人提出了huqi-miner算法，该算法利用事务加权效用twu和剩余效用ru来快速消除低效用量化项集。实验得知，huqi-miner算法的性能远远优于以上两种，但在挖掘过程中仍然存在大量的并集计算，运行时间较长。2021年mourad等人提出了一种新的改进算法fhuqi-miner算法，并针对fhm算法中使用的eucp结构进行了改进和扩展，提出了两种新的剪枝策略用于处理量化项集，大大减少了并集运算的数量。
5.目前的高效用量化项集挖掘技术只能挖掘出具有数量关系的高效用量化项集，并未考虑长项集的情况。因为长项集一般代表一些特殊情况，其出现的频率较为有限，并且在挖掘过程中存储长项集会消耗大量的额内存以及时间。

技术实现要素：

6.为了解决现有技术中存在的上述问题，本发明提供了一种基于长度约束的快速高
效用量化项集挖掘方法。本发明要解决的技术问题通过以下技术方案实现：
7.本发明实施例提供了一种基于长度约束的快速高效用量化项集挖掘方法，包括步骤：
8.s1、获取定量事务数据库、自定义的最小效用阈值、最小长度、最大长度、量化相关系数以及合并方法；
9.s2、对所述定量事务数据库进行第一次扫描，计算出所有量化项集的最大事务加权效用，并根据所述最大事务加权效用性质，利用所述最小效用阈值和所述量化相关系数对所有量化项集进行剪枝，将剪枝后的量化项集存入有希望的量化项集集合中；
10.s3、对所述剪枝后的量化项集按照所述最大事务加权效用的数值进行升序排列，并根据排列结果对所述定量事务数据库进行修订得到修订后的数据库；
11.s4、对所述修订后的数据库进行第二次扫描，创建重新定义的效用列表以及ltqcs结构；
12.s5、根据所述重新定义的效用列表的各项效用值将有希望的量化项集分为高效用量化项集、候选量化项集、弱效用量化项集；
13.s6、根据所述合并方法，将所述弱效用量化项集集合中的量化项集通过合并操作生成范围量化项集，再将所述范围量化项集与高效用量化项集、候选量化项集合并为一个集合，得到合并集合；
14.s7、当所述最小长度小于或等于1时，输出所述合并集合中的高效用量化项集，并当所述最大长度大于1时，利用所述重新定义的效用列表和ltqcs结构进行深度优先搜索search方法，直至输出所述合并集合中的所有高效用量化项集。
15.在本发明的一个实施例中，所述量化项集的最大事务加权效用为：
[0016][0017]
其中，ltu为最大事务效用，其定义为：事务tr＝{x1,x2,
…
,xk}在最大长度maxl下拥有的最大效用，记作ltu(tr)，表达式为：ltu(tr)＝∑m(tr)，m(tr)为事务的最大效用集，事务tr的最大效用集m(tr)为{u((i1,l1,u1),tr),u((i2,l2,u2),tr),
…
,u((ik,lk,uk),tr)}中最大长度的集合，xj(1≤j≤k)＝(ij,lj,uj)为量化项目，tr＝{x1,x2,
…
,xk}为事务，ij表示项的名称，lj表示项ij的数量下限，uj表示项ij的数量上限。
[0018]
在本发明的一个实施例中，根据所述量化项集的最大事务加权效用性质，利用所述最小效用阈值和所述量化相关系数对所有量化项集进行剪枝，将剪枝后的量化项集存入有希望的量化项集集合中，包括：
[0019]
根据所述量化项集的最大事务加权效用具有向下闭包属性，判断量化项集是否满足其中，θ为自定义的最小效用阈值，qrc为量化相关系数；
[0020]
若是，则保留所述量化项集，并将保留的量化项集作为所述剪枝后的量化项集存入有希望的量化项集集合中，若否，则删除所述量化项集。
[0021]
在本发明的一个实施例中，所述重新定义的效用列表包括项集名称、项集所在事务、量化项集在事务中的实际效用、量化项集在事务中的最大剩余效用集、量化项集最大剩余效用、实际效用和、剩余效用和以及量化项集的最大事务加权效用。
[0022]
在本发明的一个实施例中，所述量化项集最大剩余效用为量化项集在修订后的数
据库中最大的剩余效用，记为：
[0023][0024]
其中，lru(x,tr)为量化项集x在事务tr中的最大剩余效用，lru(x,tr)＝∑m(tr,x)，m(tr,x)定义为：量化项集x在事务tr中的最大剩余效用集为{u((n1,l1,u1),tr),u((n2,l2,u2),tr),
…
,u((nm,lm,um),tr)}中长度为maxe的子集；maxe(x)＝maxl-|x|，x可扩展的最大项目数应满足长度约束，|x|为x中包含的量化项目的数量，vj(1≤j≤m)＝(nj,lj,uj)表示在集合v中的量化项目，v(tr,x)＝v1,v2,
…
,vm是量化项集x在事务tr中可进行扩展的项集，nj表示集合v中存在的项的名称，lj表示项nj的数量下限，uj表示项nj的数量上限。
[0025]
在本发明的一个实施例中，所述量化项集在事务中的实际效用为：eu(x,tr)＝u(x,tr)，其中，u表示项集x在事务tr中的效用。
[0026]
在本发明的一个实施例中，所述量化项集在事务中的最大剩余效用集为：elist＝m(tr,x)。
[0027]
在本发明的一个实施例中，步骤s5包括：
[0028]
当所述量化项集在事务中的实际效用大于或者等于所述最小效用阈值时，将所述量化项集存入所述高效用量化项集中；
[0029]
当所述量化项集在事务中的实际效用加上最大剩余效用大于或等于所述最小效用阈值时，将所述量化项集存入所述候选量化项集中；
[0030]
当所述量化项集在事务中的实际效用加上最大剩余效用小于所述最小效用阈值时，将所述量化项集存入弱效用量化项集中。
[0031]
在本发明的一个实施例中，利用fhuqi算法中tqcs创建方法创建所述ltqcs结构；
[0032]
所述ltqcs结构由一组形式为(a,b,c)的元组组成，其中a和b是修订后的数据库中同时出现的两个量化项目，c是{ab}的最大事务效用。
[0033]
与现有技术相比，本发明的有益效果：
[0034]
1、本发明的基于长度约束的快速高效用量化项集挖掘方法提出两种更加紧凑的上限，第一种更加紧凑的上限为最大事务加权效用，第二种更加紧凑的上限为重新定义的效用列表中的最大剩余效用，更大程度上缩减搜索空间，提高了算法的运行速度，减少了内存的消耗，能够过滤掉高效用但不符合长度约束的项集，特别针对长项集过多的数据集，能够快速的挖掘出带有长度约束的高效用量化项集，提升了算法的效率。
[0035]
2、本发明的基于长度约束的快速高效用量化项集挖掘方法重新定义了效用列表结构，以便于存储最大长度的量化项集的效用。
附图说明
[0036]
图1为本发明实施例提供的一种基于长度约束的快速高效用量化项集挖掘方法的流程示意图；
[0037]
图2为本发明实施例提供的另一种基于长度约束的快速高效用量化项集挖掘方法的流程示意图；
[0038]
图3为本发明实施例提供的一种重新定义的效用列表结构示意图；
[0039]
图4为本发明实施例提供的不同算法的模式数量对比图；
[0040]
图5为本发明实施例提供的不同算法的模式运行时间对比图；
[0041]
图6为本发明实施例提供的不同算法的内存占用对比图；
[0042]
图7为choice金融终端中的基金数据示意图；
[0043]
图8为转换为定量事务数据库的部分数据示意图；
[0044]
图9为转换为外部利润表的部分数据示意图；
[0045]
图10为对每支股票名称映射成数字示意图；
[0046]
图11为挖掘结果中的单一个股示意图；
[0047]
图12为单一个股在三季度的涨幅排名示意图；
[0048]
图13为个股涨幅和经济效益前20名单一个股示意图；
[0049]
图14为挖掘结果中的组合股示意图。
具体实施方式
[0050]
下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。
[0051]
实施例一
[0052]
请参见图1和图2，图1为本发明实施例提供的一种基于长度约束的快速高效用量化项集挖掘方法的流程示意图，图2为本发明实施例提供的另一种基于长度约束的快速高效用量化项集挖掘方法的流程示意图。该基于长度约束的快速高效用量化项集挖掘方法包括步骤：
[0053]
s1、获取定量事务数据库d、自定义的最小效用阈值θ、最小长度minl、最大长度maxl、量化相关系数qrc以及合并方法cm。
[0054]
具体的，定量事务数据库d是由一组事务构成，记为d＝{t1,t2,
…
,tm}，其中每个事务tr∈d(1≤r≤m)都有唯一的标识符t
id
。设i＝{i1,i2,
…
,in}是出现在d中所有项目的集合，其中每个事务tr都包含一些项目，也是i的子集事务tr中出现的每一个项目ic∈i(1≤c≤n)都有一个对应的整数q(ic,tr)表示ic在tr中的数量，称为内部效用。事务tr中的项目ic都有一个可表示为利润的数(一般为正数)p(ic)，称为外部效用。
[0055]
最小效用阈值θ、最小长度minl、最大长度maxl、量化相关系数qrc以及合并方法cm均为用户自定义的。
[0056]
s2、对所述定量事务数据库进行第一次扫描，计算出所有量化项集的最大事务加权效用，并根据所述最大事务加权效用性质，利用所述最小效用阈值和所述量化相关系数对所有量化项集进行剪枝，将剪枝后的量化项集存入有希望的量化项集集合。
[0057]
具体的，量化项集x的最大事务加权效用为提出的第一个紧凑的上限，其定义方式为其中ltu是最大事务效用，其定义为：当事务tr＝{x1,x2,
…
,xk}在最大长度maxl下拥有的最大效用，记作ltu(tr)，表达式为：ltu(tr)＝∑m(tr)；其中m(tr)为事务的最大效用集，其定义为设用户定义的最大长度为maxl，事务tr＝{x1,x2,
…
,xk}，量化项目xj(1≤j≤k)＝(ij,lj,uj)，ij表示项的名称，lj表示项ij的数量下
限，uj表示项ij的数量上限，则事务tr的最大效用集m(tr)为{u((i1,l1,u1),tr),u((i2,l2,u2),tr),
…
,u((ik,lk,uk),tr)}中最大长度maxl的集合。
[0058]
根据ltwu的定义得知ltwu具有向下闭包属性，如果量化项集x满足则量化项集x的所有超集都不是具有长度约束的高效用量化项集，这种剪枝策略称为ltwu剪枝。
[0059]
具体的，判断量化项集是否满足其中，θ为自定义的最小效用阈值，qrc为自定义的量化相关系数。若是，则保留所述量化项集，并将保留的量化项集作为剪枝后的量化项集存入有希望的量化项集集合中，若否，则删除所述量化项集，从而完成量化项集的剪枝。
[0060]
本实施例由于ltu中加入长度的限制，因此ltwu是更加紧凑的上界，能够进一步减少搜索空间，以提升算法性能。
[0061]
s3、对所述剪枝后的量化项集按照所述最大事务加权效用的数值进行升序排列得到有希望的量化项集，并对所述定量事务数据进行修订得到修订后的数据库。
[0062]
具体的，量化项集的最大事务加权效用ltwu均为具体的数值，按照ltwu的数值将量化项集进行升序排列得到有希望的量化项集。利用剪枝后的量化项集对定量事务数据库更新修订，得到修订后的数据库。
[0063]
s4、对所述修订后的数据库进行第二次扫描，创建重新定义的效用列表以及ltqcs结构。
[0064]
具体的，重新定义的效用列表结构中包含第二个更加紧凑的上限为最大剩余效用lru。设事务tr和量化项集x，令v(tr,x)＝v1,v2,
…
,vm是x在tr中可进行扩展的项集，即vj(1≤j≤m)＝(nj,lj,uj)，nj表示集合v中存在的项的名称，lj表示项nj的数量下限，uj表示项nj的数量上限。x可扩展的最大项目数应满足长度约束，定义为maxe(x)＝maxl-|x|，其中|x|为x中包含的量化项目的数量。则x在tr中的最大剩余效用集为{u((n1,l1,u1),tr),u((n2,l2,u2),tr),
…
,u((nm,lm,um),tr)}中长度为maxe的子集，记为m(tr,x)。则x在事务tr中的最大剩余效用记为lru(x,tr)，定义为：lru(x,tr)＝∑m(tr,x)。则量化项集x在修订后的数据库d中最大的剩余效用记为lru(x)，定义为：
[0065]
如图3所示，图3为本发明实施例提供的一种重新定义的效用列表结构示意图。重新定义的效用列表中包含项集名称、项集所在事务tid、量化项集在事务tr中的效用eu(x,tr)＝u(x,tr),u表示项集x在事务tr中的效用、量化项集在事务中的最大剩余效用集elist＝m(tr,x)、量化项集最大剩余效用lru(x,tr)＝lru(x,tr)、实际效用和sumu、剩余效用和sumeu以及量化项集的最大事务加权效用ltwu(x)。通过存储量化项集的效用信息和修建搜索空间的启发信息，避免算法多次扫描数据库，提高算法效率。
[0066]
基于量化项集共现结构的最大事务加权效用(ltwu of q-items co-occurrence based structure，ltqcs)结构与快速高效用量化项集挖掘算法(fast high utility quantitative itemset mining，fhuqi)算法中基于量化项集共现结构的事务加权效用(twu of q-items co-occurrence based structure，tqcs)创建方式一致，ltqcs是由一组
形式为(a,b,c)的元组组成，其中a和b是修订后的数据库中同时出现的两个量化项目，c是{ab}的最大事务效用。
[0067]
s5、根据所述重新定义的效用列表的各项效用值将所述有希望的量化项集分为高效用量化项集、候选量化项集、弱效用量化项集。
[0068]
具体的，当所述量化项集在事务中的实际效用eu大于或者等于所述最小效用阈值θ时，将所述量化项集存入所述高效用量化项集中；
[0069]
当所述量化项集在事务中的实际效用eu加上最大剩余效用lru大于或等于所述最小效用阈值θ时，将所述量化项集存入所述候选量化项集中；
[0070]
当所述量化项集在事务中的实际效用eu加上最大剩余效用lru小于所述最小效用阈值θ时，将所述量化项集存入弱效用量化项集中；
[0071]
若上述条件均不满足，则删除对应的量化项集。
[0072]
s6、根据所述合并方法cm，将所述弱效用量化项集中的量化项集通过合并操作生成范围量化项集，再将所述范围量化项集与高效用量化项集、候选量化项集合并为一个集合，得到合并集合。
[0073]
s7、当所述最小长度小于或等于1时，输出所述合并集合中的高效用量化项集，并当所述最大长度大于1时，利用所述重新定义的效用列表和ltqcs结构进行深度优先搜索search方法，直至输出所述合并集合中的所有高效用量化项集。
[0074]
具体的，判断最小长度是否满足minl≤1，如果是则输出合并集合中的高效用量化项集，若否则结束判断最小长度进行下一步最大长度的判断。判断最大长度是否满足maxl》1，如果满足则进行深度优先搜索search方法，直到输出所有带有长度约束的高效用量化项集，如果不满足，则整个算法流程结束。
[0075]
本实施例进行深度优先搜索search方法，通过递归调用可以挖掘出项集长度为用户定义的范围内的高效用量化项集。
[0076]
本发明的基于长度约束的快速高效用量化项集挖掘方法提出两种更加紧凑的上限，第一种更加紧凑的上限为最大事务加权效用，第二种更加紧凑的上限为重新定义的效用列表中的最大剩余效用，更大程度上缩减搜索空间，提高了算法的运行速度，减少了内存的消耗，能够过滤掉高效用但不符合长度约束的项集，特别针对长项集过多的数据集，能够快速的挖掘出带有长度约束的高效用量化项集，提升了算法的效率。
[0077]
本发明的基于长度约束的快速高效用量化项集挖掘方法重新定义了效用列表结构，以便于存储最大长度的量化项集的效用。
[0078]
进一步，本实施例通过仿真对基于长度约束的快速高效用量化项集挖掘方法(以下简称fhuqi-lc)进行进一步验证。
[0079]
本实施例是在装有64位amd ryzen 7 4800u、16gb ram的计算机上进行测试，该处理器运行windows 10。数据库采用spmf网站上的foodmart数据集。该数据集是一个稀疏的数据集，包含零售商店4141个顾客的交易记录，具有1559个不同的项目，每个事务的平均长度为4.42。实验中将fhuqi-lc最小长度阈值设置为1，并以5个不同的最大长度阈值(maxl＝1、2、3、4、5)分别与目前最先进的快速的高效用量化项集挖掘算法，进行模式数量、执行时间以及内存占用的比较。
[0080]
请参见图4、图5和图6，图4为本发明实施例提供的不同算法的模式数量对比图，图
5为本发明实施例提供的不同算法的模式运行时间对比图，图6为本发明实施例提供的不同算法的内存占用对比图。
[0081]
如图4所示，当最小效用阈值小于0.1％时，maxl＝1的fhuqi-lc算法相比fhuqi算法的模式数量减少了55％-98％，maxl＝5的fhuqi-lc算法相比于fhuqi算法的模式数量减少了21％-88％，很大程度上减少了长项集的存储，缩减搜索空间，并在最大长度较小以及最小阈值较小时效果更好。如图5所示，maxl＝1时，fhuqi-lc算法的运行速度是fhuqi算法的3-15倍，当maxl越大，运行速度越慢，当maxl＝5时，fhuqi-lc算法的运行速度时fhuqi算法的1.15-2.89倍。如图6所示，fhuqi-lc的内存占用比fhuqi少1％-61％，表明使用长度约束可以缩减搜索空间以及减少连接操作，进一步节省内存占用。
[0082]
综上所述，本实施例采用基于长度约束的快速高效用量化项集挖掘算法相比其他算法能够过滤掉高效用但不符合长度约束的项集，大大减少了模式数量，并且通过提出的两种更加紧凑的上限进一步减少搜索空间，提高算法的运行速度以及减少内存的消耗。
[0083]
实施例二
[0084]
在实施例一的基础上，本实施例提供了一种应用场景，以对基于长度约束的快速高效用量化项集挖掘方法的应用进行说明。
[0085]
一、案例分析
[0086]
基金在国内金融市场扮演着非常重要的角色。随着中国经济的快速发展和金融市场的不断开放，基金成为了越来越多投资者的选择。截至2023年2月底，中国基金业管理规模已经达到了27.25万亿元，其中股票型基金是最大的一类基金。基金的发展不仅为投资者提供了便利的投资渠道，同时也推动了中国股票市场的发展，为企业融资提供了新的渠道。随着基金的不断发展，基金公司成为我国重要的投资机构。为满足基金投资者的不同需求，各基金公司的基金经理会采取差异化的投资策略，形成不同的投资风格。因此，本实施例主要针对基金投资者应当选择哪种股票进行投资，或者说基金投资者如何确定哪家基金公司的基金经理的投资能力最强进行说明。
[0087]
目前的高效用量化项集挖掘算法主要用在超市营销等应用场景上，为了体现高效用量化项集技术在当代社会中的应用价值，本实施例将提出fhuqi-lc算法应用到金融分析领域对基金重仓股持仓组合进行挖掘与分析。
[0088]
二、数据获取与处理
[0089]
本实施例的数据来自choice金融终端，使用choice金融终端选择国内所有的普通股票型基金和偏股混合型基金。由于基金本身的性质和基金经理个人操作风格和持股理念的不同，基金的持仓成分股以及持仓占比会动态变化，所以本实施例在choice内编写条件表达式提取出每支基金2022年三季度报报告中的前10大持仓股信息和过去一个季度内每支基金及其成分股的涨跌幅数据。对此数据使用实施例一提出的fhuqi-lc算法进行挖掘，通过设置不同的阈值以及长度，挖掘出带来高经济效益的个股和股票组合。分析挖掘结果，对个股未来走势进行分析评估并给出投资建议，对基金的盈利能力和基金经理的择股能力做出评价。
[0090]
图7为choice金融终端中的基金数据示意图，其中主要包括2047支基金，表头的每一列分别为基金的证券代号、证券名称、基金成立时间、前十大重仓股名称、前十大重仓股的持仓占比以及涨跌幅度。其中，选取每支基金的前十大重仓股的主要原因是基金组成复
杂(偏股混合型基金一般是由股票、债券、保险等组成)，而前十大重仓股占整个基金市值的比重最大，实际情况下对整个基金的涨跌情况影响最大。所以选择前十大重仓股具有充足的参考意义和分析价值。
[0091]
导出choice金融终端中的数据，对导出的数据进行清洗，去除前十大重仓成分中含非股票组成的基金，最终筛选出1225支基金和1295支股票进行挖掘。由于用于高效用量化项集挖掘的数据集基于spmf平台，因此，数据需要满足spmf平台的格式。spmf主要包含两个数据集，分别为定量事务数据库以及外部效用表。定量事务数据库中的格式：每一行为一条事务，在“，”之前的数据，是指事务中的项，在“，”之后的数据，是指事务中项的数量，两个项之间用空格隔开。外部效用表的格式：项与利润值之间用“，”隔开。如图8所示，图8为转换为定量事务数据库的部分数据示意图，图9为转换为外部利润表的部分数据示意图。在本案例分析的基金数据中，每支基金代表一个事务，每支股票代表一个项目，对每支股票在基金中的持仓占比进行四舍五入取整，并将取整后的整数作为股票在该基金中的数量，对每支股票的涨跌幅度进行取整后作为项的外部利润，其外部利润值有正有负。为了便于结果分析，如图10所示，图10为对每支股票名称映射成数字示意图。
[0092]
三、结果分析
[0093]
使用算法fhuqi-lc对上述的定量事务数据库进行挖掘，其中设置最小效用阈值为1500，最小长度阈值为1，最大长度阈值为1，得到1295支股票中每个单一个股对于全体基金的经济效益排名数据。如图11所示，图11为挖掘结果中的单一个股示意图，从图11可以发现经济效益最高的单股配置为(478，4)，即新莱应材持仓4％，在所有1225支基金中(478，4)带来的总经济效益为63.92％，其次是(265，6)，即钧达股份持仓6％，带来的总经济效益是46.56％。
[0094]
为区分单支股票涨跌幅和其带来的经济效益的差别和影响，以下列出1295支成分股在7月1日到9月30日之间由高到低排列的涨幅情况。如图12所示，图12为单一个股在三季度的涨幅排名示意图，从图12可以看出股票820(南网科技)在指定时间段内的涨跌幅为101％。
[0095]
分别选取挖掘所得的经济效益数据和个股涨幅数据中的前20进行对比分析。如图13所示，图13为个股涨幅和经济效益前20名单一个股示意图。
[0096]
从图13可以很清晰的发现，以往认知中的“涨幅越大，收益越高”是错误的，这其中忽略了持仓占比以及出现频次的重要性，很明显南网科技区间内的涨幅最高，是101％。但是他带来的经济效益却不是最高的，对于1225支基金来说，仅带来了整体24.24％的经济增长。反而涨幅仅有35％的兖矿能源带来的经济效益为28％，超越南网科技。这其实很符合经济运行的规律，高增长意味着波动大、风险高，高风险便导致基金经理亦或是个人投资者对于南网科技这类股票不会持仓甚至不持仓。反观图中数据也可以看出，个股涨幅前20名中的股票涨幅全部超过55％，然而个股经济效益前20的股票中，绝大多数往往都是涨幅10％-50％之间，根据k线图也可以看出走势基本为稳步向上。平稳的收益意味着更稳健的投资，所以会有更多的基金配置持仓。这可以帮助普通投资者更好的理解金融市场，为个人持仓配股提供依据。也可以通过分析基金组合中成分股的经济效益和涨幅数据判断基金经理对于投资是激进型还是保守型，从而帮助个人判断将要选择的基金是否适合自己。
[0097]
此外根据图13中个股在2022年第四季度的表现也可以看出，带来高经济效益前20
的股票，四季度90％都是亏损的，反而个股涨幅前20表中只有65％的股票在四季度亏损，仍有35％的个股可以盈利。这是因为在金融市场的投资遵循“零和游戏”的规则，是指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”，故双方不存在合作的可能。所以说如果再在四季度投资这些已经带来过巨大经济效益的股票，那无异于充当了市场的接盘的角色。所以通过对于此部分数据的挖掘分析可以得出结论：建议对于已经带来高经济效益的股票，避免“追高买入”。对于目前涨幅虽然高，但是产生的经济效益低的股票，可以考虑小仓位买入。
[0098]
从上述实验可以看出理论上最优的投资组合应该是经济效益前10的个股作为重仓股，但是在现实中这种组合很明显是基金经理无法预测的，经遍历比对也证明1225支基金中并不存在上述组合的基金。为对基金经理的择股配股能力进行评估，所以进行下面实验。将阈值设置为2800，最小阈值长度为2，最大阈值长度为10，对所有基金数据进行挖掘，得到满足在28％经济效益的前提下，具备多种股票的81种组合。将81种组合按经济效益降序排列得到部分组合如图14所示，图14为挖掘结果中的组合股示意图。
[0099]
从图14可以看出，在满足最小阈值的前提下，效用最高的组合为{(284,8),(301,5),(299,7),(797,9),(48,6),(478,4)}，对应股票分别为禾迈股份8％、天岳先进5％、昱能科技7％、拓荆科技9％、北方华创6％和新莱应材4％，其效用为38.10％。通过和原始的基金数据比对得出只有两家基金的持仓股具备如上配置，分别是国联安优选行业混合基金和国联安科技动力基金，均为同一个基金经理——潘明。根据以上持仓配比可以看出，潘明偏好于投资半导体、光伏等高新科技产业公司。所以得出结论：在鼓励科技发展大背景加持下，擅长投资科技类公司的基金经理潘明，能力表现突出，基金回报率高。对于投资者而言，如果想要选择投资科技类股票型基金或者偏股混合型基金，可以选择潘明。
[0100]
综上所述，fhuqi-lc算法能够挖掘出基金组合中个股的经济效益数据，结合个股涨跌幅情况可以为个人投资者提供持仓配股的依据，为个人投资者根据个人偏好选择激进型或保守型基金提供数据支持；还能够挖掘出满足最小效用阈值的基金组合数据，通过与原始基金数据匹配可以帮助投资者找出高经济效益的基金和基金经理，并能够对基金经理进行评价分析。
[0101]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

技术特征：
1.一种基于长度约束的快速高效用量化项集挖掘方法，其特征在于，包括步骤：s1、获取定量事务数据库、自定义的最小效用阈值、最小长度、最大长度、量化相关系数以及合并方法；s2、对所述定量事务数据库进行第一次扫描，计算出所有量化项集的最大事务加权效用，并根据所述最大事务加权效用性质，利用所述最小效用阈值和所述量化相关系数对所有量化项集进行剪枝，将剪枝后的量化项集存入有希望的量化项集集合中；s3、对所述剪枝后的量化项集按照所述最大事务加权效用的数值进行升序排列，并根据排列结果对所述定量事务数据库进行修订，得到修订后的数据库；s4、对所述修订后的数据库进行第二次扫描，创建重新定义的效用列表以及ltqcs结构；s5、根据所述重新定义的效用列表的各项效用值将有希望的量化项集分为高效用量化项集、候选量化项集、弱效用量化项集；s6、根据所述合并方法，将所述弱效用量化项集集合中的量化项集通过合并操作生成高效用的范围量化项集，再将所述高效用的范围量化项集与高效用量化项集、候选量化项集合并为一个集合，得到合并集合；s7、当所述最小长度小于或等于1时，输出所述合并集合中的高效用量化项集，并当所述最大长度大于1时，利用所述重新定义的效用列表和ltqcs结构进行深度优先搜索search方法，直至输出所述合并集合中的所有高效用量化项集。2.根据权利要求1所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，所述量化项集的最大事务加权效用为：其中，ltu为最大事务效用，其定义为：事务t
r
＝{x1,x2,
…
,x
k
}在最大长度maxl下拥有的最大效用，记作ltu(t
r
)，表达式为：ltu(t
r
)＝∑m(t
r
)，m(t
r
)为事务的最大效用集，事务t
r
的最大效用集m(t
r
)为{u((i1,l1,u1),t
r
),u((i2,l2,u2),t
r
),
…
,u((i
k
,l
k
,u
k
),t
r
)}中最大长度的集合，x
j
(1≤j≤k)＝(i
j
,l
j
,u
j
)为量化项目，t
r
＝{x1,x2,
…
,x
k
}为事务，i
j
表示项的名称，l
j
表示项i
j
的数量下限，u
j
表示项i
j
的数量上限。3.根据权利要求1所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，根据所述量化项集的最大事务加权效用性质，利用所述最小效用阈值和所述量化相关系数对所有量化项集进行剪枝，将剪枝后的量化项集存入有希望的量化项集集合中，包括：根据所述量化项集的最大事务加权效用具有向下闭包属性，判断量化项集是否满足其中，θ为自定义的最小效用阈值，qrc为量化相关系数；若是，则保留所述量化项集，并将保留的量化项集作为所述剪枝后的量化项集存入有希望的量化项集集合中，若否，则删除所述量化项集。4.根据权利要求1所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，所述重新定义的效用列表包括项集名称、项集所在事务、量化项集在事务中的实际效用、量化项集在事务中的最大剩余效用集、量化项集最大剩余效用、实际效用和、剩余效用和以及量化项集的最大事务加权效用。
5.根据权利要求4所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，所述量化项集最大剩余效用为量化项集在修订后的数据库中最大的剩余效用，记为：其中，lru(x,t
r
)为量化项集x在事务t
r
中的最大剩余效用，lru(x,t
r
)＝∑m(t
r
,x)，m(t
r
,x)定义为：量化项集x在事务t
r
中的最大剩余效用集为{u((n1,l1,u1),t
r
),u((n2,l2,u2),t
r
),
…
,u((n
m
,l
m
,u
m
),t
r
)}中长度为maxe的子集；maxe(x)＝maxl-|x|，x可扩展的最大项目数应满足长度约束，|x|为x中包含的量化项目的数量，v
j
(1≤j≤m)＝(n
j
,l
j
,u
j
)表示在集合v中的量化项目，v(t
r
,x)＝v1,v2,
…
,v
m
是量化项集x在事务t
r
中可进行扩展的项集，n
j
表示集合v中存在的项的名称，l
j
表示项n
j
的数量下限，u
j
表示项n
j
的数量上限。6.根据权利要求4所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，所述量化项集在事务中的实际效用为：eu(x,t
r
)＝u(x,t
r
)，其中，u表示项集x在事务t
r
中的效用。7.根据权利要求4所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，所述量化项集在事务中的最大剩余效用集为：elist＝m(t
r
,x)。8.根据权利要求4所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，步骤s5包括：当所述量化项集在事务中的实际效用大于或者等于所述最小效用阈值时，将所述量化项集存入所述高效用量化项集中；当所述量化项集在事务中的实际效用加上最大剩余效用大于或等于所述最小效用阈值时，将所述量化项集存入所述候选量化项集中；当所述量化项集在事务中的实际效用加上最大剩余效用小于所述最小效用阈值时，将所述量化项集存入弱效用量化项集中。9.根据权利要求1所述的基于长度约束的快速高效用量化项集挖掘方法，其特征在于，利用fhuqi算法中tqcs创建方法创建所述ltqcs结构；所述ltqcs结构由一组形式为(a,b,c)的元组组成，其中a和b是修订后的数据库中同时出现的两个量化项目，c是{ab}的最大事务效用。

技术总结
本发明涉及一种基于长度约束的快速高效用量化项集挖掘方法，包括获取定量事务数据库、最小效用阈值、最小长度、最大长度、量化相关系数及合并方法；对定量事务数据库进行第一次扫描，计算出所有量化项集的LTWU，并根据LTWU进行剪枝，未被剪枝的量化项集存入有希望的量化项集集合中；对有希望的量化项集按照LTWU升序排列；对修订后的数据库进行第二次扫描，创建重新定义的效用列表以及LTQCS结构；根据重新定义的效用列表的各项效用值将有希望的量化项集分别存入各集合中；合并弱效用量化项集、高效用量化项集、候选量化项集；根据最小长度和最大长度输出合并集合中的高效用量化项集。该方法能过滤掉高效用但不符合长度约束的项集，可应用于股票分析场景。可应用于股票分析场景。可应用于股票分析场景。

技术研发人员：董航尚韬李谷峰
受保护的技术使用者：西安电子科技大学
技术研发日：2023.03.16
技术公布日：2023/9/11

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种双向钢筋桁架及其混凝土叠合楼板的施工工艺的制作方法 下一篇：用于使用柔性压模压印不连续基板的设备的制作方法

一种基于长度约束的快速高效用量化项集挖掘方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于长度约束的快速高效用量化项集挖掘方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表