异常抱团投标、围标行为识别方法、装置、设备及介质与流程
未命名
07-29
阅读:93
评论:0

1.本发明涉及大数据技术领域,具体涉及一种异常抱团投标、围标行为识别方法、装置、设备及介质。
背景技术:
2.围标也称为串通投标,它是指几个投标人之间相互约定,一致抬高或压低投标报价进行投标,通过限制竞争,排挤其他投标人,使某个利益相关者中标,从而谋取利益的手段和行为。围标具有其危害性,其扰乱了市场秩序,逃避主管部门的监管;直接伤害了其它投标人的合法权益;当无标底或复合标底招标而又不采取最低价中标时,围标常常会导致中标价超出正常范围,从而加大招标人的成本等等。因此,针对抱团投标、围标的行为进行识别的技术随之出现。
3.如,公开号为:cn111274783a,名称为《一种基于语义相似分析的围串标智能识别方法》的发明申请,其公开了如下技术方案:先利用textrank算法分别从两份投标文件中抽取若干关键词构成关键词集合,计算杰卡德距离,得到两份文件的关键词相似度;过滤文件中的停用词、行业专用词,再利用tf-idf计算方法计算文本统计相似性;先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;再结合这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。
4.又如,公开号为:cn110992059a,名称为《一种基于大数据的围串标行为识别分析方法》的发明申请,其公开了如下技术方案:该发明公开了一种基于大数据的围串标行为识别分析方法,该方法在于借助大数据技术建立了识别围标串标行为的分析模型-基于复杂网络的社团检测模型,通过构造一个参与招标投标主体之间的社团关系网,该网络可以根据企业行为和诚信关系动态反馈修改权重,同时运用社团检测算法来发现其中潜在的社团关系,据此判断招标投标主体之间是否有存在围标串标的行为,具体将模型应用于查找企业投标行为复杂网络中,通过数据实验结果揭示出交易数据背后隐藏的规律,刻画出围标串标的交易轨迹和行为特点,一定程度反映出诱发围标串标行为的内在根源。
5.但前述现有技术仍然存在一定缺陷,主要为:一是,余弦相似度需要对两个向量的长度做归一化,然后度量两个向量的方向,与向量的长度无关。也就是说,两个向量只要方向一致,无论长度、程度如何,都视作“相似”,不适合应用于打分的模型需求,而在上述技术方案中需要余弦相似度结合权重最后输出投标文件之间的相似度;二是,关于围标、串标情形的判定是从多方面来判定的,判断是否围标、串标的属性较多,而社团检测算法大多只会参照一个单一标准。并且社团检测算法属于无监督学习,需要在中间过程做无监督模型的映射,结果的精准度不能得到保证;三是,上述技术方案一中需要提取关键词,会增加数据处理时间;技术方案二会出现社团重叠的情况,重叠的部分会增大社团检测的难度,使检测速度变慢。这两种实施方式都会增加程序运行时间,降低识别效率。
技术实现要素:
6.本发明的目的之一在于提供一种基于大数据ai的异常抱团投标、围标行为识别方法,其在现有的语义相似度算法上结合前缀和位置过滤的算法的方式来识别异常抱团投标、围标。
7.为实现上述目的,本发明采用以下技术方案:
8.异常抱团投标、围标行为识别方法,包括:
9.s1、选取数据并进行数据预处理、数据划分:选取各投标人的招投标交易数据,筛选指标以形成不同维度的数据集合;
10.s2、生成相似性候选集:根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集;
11.s3、从候选集中排除相矛盾的数据:运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表;
12.s4、异常行为识别:根据s3的输出结果计算相似度,当任一维度的数据相似度超过设定阈值,判定为异常抱团投标或围标。
13.进一步地,在步骤s1之前,还包括:导入公开的停用词表、相关行业专用词、招标文件和模板文件中的字符文本,构建停用词库。
14.进一步地,s1包括:
15.s11、选取各投标人的招投标交易数据,根据先验知识对串标和围标的情形判定分为不同类别的数据集合;将不同维度的数据分别输入,先对每份投标文件进行处理,根据停用词库过滤掉文件中的与停用词库相同的字符文本,得到新的投标文件;
16.s12、基于新的投标文件,将每份投标文件划分成多各不同的记录段,其中,对在一份投标文件中出现的相同段视为不同段。
17.进一步地,s4中,采用相似度模型dssm计算相似度,相似度模型dssm的输入为基于s3输出结果获得的向量。
18.进一步地,s4具体包括:
19.s41、基于s3的输出,将所有记录均生成对应的记录向量t,以transformer-dssm深度网络为主要框架,输入记录向量t经过双向gru提取特征后输出256维向量;
20.s42、将s41中输出的结果再输入到transformer层,经提取特征后输出512维向量f=((t11,t12,t13,...t1,512),...(tc1,tc2,tc3,...,tc,512)),其中,t代表向量每个维度的值,向量是c
×
512维的矩阵,t是其中的一个值,其下标是对应的位置;
21.s43、基于s42中输出的512维向量,设定其中一个投标文件向量为fq,另一个投标文件向量为fa,计算两两投标文件向量之间的杰卡德相似度:j(q,a)=jaccard(fq,fa);
22.s44:通过softmax函数将s43输出的杰卡德相似度j(q,a)转化为一个后验概率,再基于极大似然估计和最小化损失函数,根据残差最小化的目的进行训练,得到相似度模型dssm;
23.s45:根据s44相似度模型计算输出的投标文件之间的相似值,与初始设定的阈值进行比较,当任一维度的数据相似度超过阈值则认为是异常抱团投标或围标。
24.进一步地,s2中,建立hadoop环境,将输入的数据集切分为若干独立的子数据集,对所述子数据集中的记录并行处理;s44中,将相似度模型dssm部署到hadoop系统上。
25.本发明的又一目的在于提供一种异常抱团投标、围标行为识别装置,其包括:
26.数据获取模块,用于选取数据并进行数据预处理、数据划分,筛选指标以形成不同维度的数据集合;
27.相似性候选集生成模块,用于根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集;
28.筛选模块,用于从候选集中排除相矛盾的数据,其运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表;
29.异常行为识别模块,其用于根据s3的输出结果计算相似度,当任一维度的数据相似度超过设定阈值,判定为异常抱团投标或围标。
30.本发明的再一目的在于提供一种计算机设备,其计算机设备包括处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如前所述的异常抱团投标、围标行为识别方法。
31.本发明的再一目的在于提供一种计算机可读存储介质,计算机可读存储介质包括一个或多个程序指令,一个或多个程序指令被执行时,实现如前所述的异常抱团投标、围标行为识别方法。
32.采用上述技术方案后,本发明与背景技术相比,具有如下优点:
33.本发明方法在现有的语义相似度算法上结合前缀和位置过滤的算法的方式来识别异常抱团投标、围标,该方法能够有效地减少候选集的数量,减少投标文件之间的重复计算,极大地提高投标文件之间相似性的计算效率;另一方面,本发明是从多个维度判断是否异常抱团投标、围标,参照多个判定标准,避免了判断结果的单一性;最后,基于有监督算法dssm进行最后的异常抱团行为进行识别,不需要在中间过程做无监督模型的映射,因此精准度也能得到保证。
附图说明
34.图1为本发明的流程示意图;
35.图2为本发明装置的拓扑示意图。
具体实施方式
36.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。另外,需要说明的是:
37.实施例
38.请参考图1所示,本发明公开了一种异常抱团投标、围标行为识别方法,其包括:
39.s1、选取数据并进行数据预处理、数据划分:选取各投标人的招投标交易数据,筛
选指标以形成不同维度的数据集合。
40.其中,各投标人的招投标交易数据包括投标文件的编制单位或编制人、委托单位或委托人、投标文件载明的项目管理成员、投标文件、投标报价等指标,对这些指标进行预处理以形成不同维度的数据集合。
41.在一种优选的实施方式中,在s1之前,还包括构建停用词库。即通过导入公开的停用词表、相关行业专用词、招标文件和模板文件中的字符文本,构建停用词库,以用于s1中的数据预处理,避免因为相关数据而对投标文件相似性产生误判。
42.则,s1具体包括:
43.s11、选取各投标人的招投标交易数据。
44.根据先验知识对串标和围标的情形判定分为不同类别的数据集合;将不同维度的数据分别输入,先对每份投标文件进行处理,根据停用词库过滤掉文件中的与停用词库相同的字符文本,得到新的投标文件;
45.s12、基于新的投标文件,将每份投标文件划分成多各不同的记录段,其中,对在一份投标文件中出现的相同段视为不同段。
46.应当理解,s11处先验知识可以是《中华人民共和国政府采购法实施条例》判定的串标与围标情形,也可以是行业共识,本技术不做具体限定。
47.s11中,预处理具体为:根据招标企业公布的招标数据,生成招标企业所要求的不同维度的投标数据的模板。以招标文件为例进行说明,对于每个投标文件,删除与停用词库相同的相同的字符文本,得到新的投标文件,分别记为:y1,y2,y3,...,yn。
48.s12中,可能在一份投标文件当中出现相同段的情形,此时,将每个相同段按不同段处理。
49.s2、生成相似性候选集。
50.根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集。
51.具体地,s2包括:
52.s21、基于s1的输出结果,选两两记录,对两两记录之间运用前缀过滤算法,得到两两记录之间的前置过滤条件;
53.s22、根据前缀过滤来动态的建立反向索引表,该表中就是保存着满足s21输出的前缀过滤条件的记录对,如编制单位与编制单位、投标文件与投标文件等不同维度数据之间的记录对;
54.s23:依据s22中输出的反向索引表得出每个记录的相似性候选集,易于理解,此时,候选集中的记录对是潜在相似的。
55.在一个优选的实施方式中,通过hadoop的分布式计算架构来实现相似性候选集的生成。
56.则,在s2中,执行如下操作:
57.建立hadoop环境,mapreduce是一个软件框架,通常会把输入的数据集切分为若干独立的子数据集,由map任务以完全并行的方式去处理它们;
58.对子数据集中记录r并行处理,根据前缀过滤原则获取r前缀长度,它是进行位置过滤的依据。从动态建立地反向索引表中获取与r前缀有交集的记录s,将它们前缀交集信
息存储到哈希表中,形成相似候选集。
59.综上,本发明基于hadoop的分布式计算架构来实现,有较高的容错性和可扩展性,如果其中一台机器故障,将会自动切换到其他节点。并且mapreduce是一个并行处理框架,可以大大降低程序的运行时间,提高识别效率。
60.s3、从候选集中排除相矛盾的数据。
61.运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表。
62.具体地,s3中排除矛盾数据的方法为:
63.对于投标文件r,s是投标文件r相似性候选集的其中一个投标文件,对于记录段s=r[i],r被s分为左右两段,计算r的位置过滤值,若位置过滤值与前缀过滤值不一致,则将s排除出r的相似性候选集;
[0064]
依据位置过滤原则,获取r记录的候选集并更新反向索引表,存储到哈希表汇总。
[0065]
s4、异常行为识别。
[0066]
根据s3的输出结果计算不同维度投标数据之间的相似度(比如投标文件之间、投标价格之间、投标委托人之间等的相似度),当任一维度的数据相似度超过设定阈值,即判定为异常抱团投标或围标,输出提醒,反之,视为无异常。
[0067]
本技术在s4中,采用相似度模型dssm计算相似度,相似度模型dssm的输入为基于s3输出结果获得的向量,相似度模型dssm采用向量作为输入既可以减少切词的依赖,又可以提高模型的范化能力。
[0068]
具体地,s4包括:
[0069]
s41、基于bert模型,对s3输入的相似性候选集进行处理,生成记录向量t,数据t表示为:t=((t11,t12,t13,...t1l),...(tc1,tc2,tc3,...,tcl)),其中l代表词向量的长度,以transformer-dssm深度网络为主要框架,输入记录向量t经过双向gru提取特征后输出256维向量;
[0070]
s42、将s41中输出的结果再输入到transformer层,经提取特征后输出512维向量f=((t11,t12,t13,...t1,512),...(tc1,tc2,tc3,...,tc,512)),其中,t代表向量每个维度的值,向量是c
×
512维的矩阵,t是其中的一个值,其下标是对应的位置;
[0071]
s43、基于s42中输出的512维向量,设定其中一个投标文件向量为fq,另一个投标文件向量为fa,计算两两投标文件向量之间的杰卡德相似度:j(q,a)=jaccard(fq,fa);
[0072]
s44:通过softmax函数将s43输出的杰卡德相似度j(q,a)转化为一个后验概率,再基于极大似然估计和最小化损失函数,根据残差最小化的目的进行训练,得到相似度模型dssm;
[0073]
s45:根据s44相似度模型计算输出的投标文件之间的相似值,与初始设定的阈值进行比较,当任一维度的数据相似度超过阈值则认为是异常抱团投标或围标。
[0074]
传统的相似度计算模型的输入层是用embedding的方式(如word2vec的词向量)或者主题模型的方式(如lda的主题向量)来直接做词的映射,再把各个词的向量累加或者拼接起来,由于word2vec和lda都是无监督的训练,这样会给整个模型引入误差,而本技术中,相似度模型dssm采用统一的有监督训练,不需要在中间过程做无监督模型的映射,因此精
准度会比较高。
[0075]
请参考图2所示,本发明的又一目的在于提供一种异常抱团投标、围标行为识别装置,其包括数据获取模块、相似性候选集生成模块、筛选模块及异常行为识别模块。
[0076]
其中,数据获取模块用于选取数据并进行数据预处理、数据划分,筛选指标以形成不同维度的数据集合。
[0077]
相似性候选集生成模块用于根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集。
[0078]
筛选模块用于从候选集中排除相矛盾的数据,其运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表。
[0079]
异常行为识别模块用于根据s3的输出结果计算相似度,当任一维度的数据相似度超过设定阈值,判定为异常抱团投标或围标。
[0080]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,本技术不再赘述。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0081]
相应地,本发明还提供一种计算机设备,其计算机设备包括处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如前所述的异常抱团投标、围标行为识别方法。
[0082]
相应地,本发明还提供一种计算机可读存储介质,计算机可读存储介质包括一个或多个程序指令,一个或多个程序指令被执行时,实现如前所述的异常抱团投标、围标行为识别方法。
[0083]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0084]
本发明是参照根据本发明实施例的方法、装置、设备、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程
和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0085]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0086]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0087]
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0088]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0089]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
[0090]
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0091]
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0092]
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0093]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示
例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0094]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.异常抱团投标、围标行为识别方法,其特征在于,包括:s1、选取数据并进行数据预处理、数据划分:选取各投标人的招投标交易数据,筛选指标以形成不同维度的数据集合;s2、生成相似性候选集:根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集;s3、从候选集中排除相矛盾的数据:运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表;s4、异常行为识别:根据s3的输出结果计算相似度,当任一维度的数据相似度超过设定阈值,判定为异常抱团投标或围标。2.如权利要求1所述的异常抱团投标、围标行为识别方法,其特征在于,在步骤s1之前,还包括:导入公开的停用词表、相关行业专用词、招标文件和模板文件中的字符文本,构建停用词库。3.如权利要求2所述的异常抱团投标、围标行为识别方法,其特征在于,s1包括:s11、选取各投标人的招投标交易数据,根据先验知识对串标和围标的情形判定分为不同类别的数据集合;将不同维度的数据分别输入,先对每份投标文件进行处理,根据停用词库过滤掉文件中的与停用词库相同的字符文本,得到新的投标文件;s12、基于新的投标文件,将每份投标文件划分成多各不同的记录段,其中,对在一份投标文件中出现的相同段视为不同段。4.如权利要求2所述的异常抱团投标、围标行为识别方法,其特征在于:s4中,采用相似度模型dssm计算相似度,相似度模型dssm的输入为基于s3输出结果获得的向量。5.如权利要求4所述的异常抱团投标、围标行为识别方法,其特征在于,s4具体包括:s41、基于s3的输出,将所有记录均生成对应的记录向量t,以transformer-dssm深度网络为框架,输入记录向量t经过双向gru提取特征后输出256维向量;s42、将s41中输出的结果再输入到transformer层,经提取特征后输出512维向量f=((t11,t12,t13,...t1,512),...(tc1,tc2,tc3,...,tc,512)),其中,t代表向量每个维度的值,向量是c
×
512维的矩阵,t是其中的一个值,其下标是对应的位置;s43、基于s42中输出的512维向量,设定其中一个投标文件向量为fq,另一个投标文件向量为fa,计算两两投标文件向量之间的杰卡德相似度:j(q,a)=jaccard(fq,fa);s44:通过softmax函数将s43输出的杰卡德相似度j(q,a)转化为一个后验概率,再基于极大似然估计和最小化损失函数,根据残差最小化的目的进行训练,得到相似度模型dssm;s45:根据s44相似度模型计算输出的投标文件之间的相似值,与初始设定的阈值进行比较,当任一维度的数据相似度超过阈值则认为是异常抱团投标或围标。6.如权利要求5所述的异常抱团投标、围标行为识别方法,其特征在于:s2中,建立hadoop环境,将输入的数据集切分为若干独立的子数据集,对所述子数据集中的记录并行处理;s44中,将相似度模型dssm部署到hadoop系统上。7.异常抱团投标、围标行为识别装置,其特征在于,包括:
数据获取模块,用于选取数据并进行数据预处理、数据划分,筛选指标以形成不同维度的数据集合;相似性候选集生成模块,用于根据前缀过滤来动态地建立反向索引表,所述反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集;筛选模块,用于从候选集中排除相矛盾的数据,其运用建立在前缀过滤基础上的位置过滤算法,基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,若位置过滤值与前缀过滤值不一致,则将某投标文件从另一投标文件的候选集中剔除并更新反向索引表;异常行为识别模块,其用于根据s3的输出结果计算相似度,当任一维度的数据相似度超过设定阈值,判定为异常抱团投标或围标。8.一种计算机设备,其特征在于,计算机设备包括处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如权利要求1-6任一项所述的异常抱团投标、围标行为识别方法。9.一种计算机可读存储介质,其特征在于,计算机可读存储介质包括一个或多个程序指令,一个或多个程序指令被执行时,实现如权利要求1-6任一项所述的异常抱团投标、围标行为识别方法。
技术总结
本发明公开了异常抱团投标、围标行为识别方法、装置、设备及介质,其方法包括:S1、形成不同维度的数据集合;S2、根据前缀过滤来动态地建立反向索引表,反向索引表保存着满足前缀过滤条件的投标数据记录对,再依据反向索引表得出每个记录的相似性候选集;S3、基于每个招标数据记录候选集计算两两招标文件之间的位置过滤值,从候选集中排除相矛盾的数据;S4、根据S3的输出结果计算相似度,判定是否存在异常抱团投标或围标。本发明方法在现有的语义相似度算法上结合前缀和位置过滤的算法的方式来识别异常抱团投标、围标,该方法能够有效地减少候选集的数量,减少投标文件之间的重复计算,极大地提高投标文件之间相似性的计算效率。极大地提高投标文件之间相似性的计算效率。极大地提高投标文件之间相似性的计算效率。
技术研发人员:上官慧柏 林晨 陈希富
受保护的技术使用者:厦门市民数据服务股份有限公司
技术研发日:2023.03.14
技术公布日:2023/7/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/