一种基于图机器学习的级联流行度预测方法
未命名
08-22
阅读:146
评论:0
本发明涉及机器学习中的神经网络技术领域,具体指一种基于图神经网络的级联流行度预测方法。
背景技术:
级联流行度预测是一项宏观的级联预测任务,旨在根据一段时间内级联的传播预测级联在未来某个时刻的规模大小。近年来,在线社交网络取得了巨大进步,创建了微博和推特等新平台,每时每刻都在产生大量数据。用户之间的转发和转发行为使信息扩散并构建信息级联结构。例如,一张照片或一个链接可以被转发多次,从而有可能获得大量用户。了解信息级联变得非常重要,并可能带来显着的经济效益和社会影响。引起了学术界和工业界的高度关注。在过去的几十年里,它被应用于各种下游任务。现有级联流行度预测模型大多数要么通过随机过程模拟级联的生成,要么简单地通过深度神经网络进行预测,无法有效地跟踪级联生长过程的内部和外部属性,这可能导致模型预测性能不佳。
技术实现要素:
本发明的目的是解决现有的模型无法融合级联内传播模式和级联间相互影响的缺陷,提供一种基于图神经网络的级联流行度预测方法,是一种端到端的新框架,可以同时对信息级联的内部与外部属性进行建模。为了解决上述技术问题,本发明的技术方案为:一种基于图机器学习的级联流行度预测方法,包括如下步骤:s1、导入原始数据集,划分为训练集和测试集,并定义级联数据;s2、通过基于自增强的数据强化算法生成新的级联数据;s3、通过图表示学习算法对级联传播网络中的用户进行网络嵌入,得到每个用户的网络嵌入,即为每一个用户节点生成一个低维的嵌入向量;s4、设计计算级联流行度的损失函数,从而构建级联流行度预测模型,通过所述训练集对基于对比学习的级联流行度预测模型进行训练;所述级联流行度预测模型使用对比损失作为基于对比学习的级联流行度预测模型的预训练阶段的损失函数;使用均方对数误差作为级联流行度预测模型的微调阶段的损失函数,设置超参数,使用自适应动量估计adam优化器;设置初始学习率、训练批大小和总训练次数t,其中,所述级联流行度预测模型基于循环神经网络gru实现,并采用多层感知机作为分类器,具体步骤为:作为分类器,具体步骤为:
其中,为可训练的参数,tanh表示双曲正切激活函数,表示gru的隐藏层向量,x
vk
为当前时间步的输入,σ表示非线性激活函数;s5、将所述测试集输入经训练的级联流行度预测模型中,通过经训练后的级联流行度预测模型得到级联的流行度预测结果。作为优选,所述级联数据定义为:ck(to)={(vj,tj),j∈[1,n]}其中,to为观测时间,(vj,tj)为用户vj在时间tj参与到级联中,n为参与级联的用户的数量。作为优选,所述步骤s1中,通过级联数据定义级联图:对于级联ck(t)={(vj,tj),j∈[1,n]},其对应的级联图为其中为节点集合,为边的集合,表示级联中节点间的转发关系。作为优选,所述步骤s1中,通过级联数据定义级联间图:其中为节点集,包含数据集中所有节点,εg表示节点间的转发关系。作为优选,所述步骤s2中,通过数据增强生成新的级联数据的方法为:所述级联图为其对应的级联为ck(t)={(vj,tj),j∈[1,n]},基于观测时间to计算快照观测时间ts:ts=to*p,(0<p≤1)其中p为预先设置的超参数,基于快照观测时间ts以及原始级联ck(t)={(vj,tj),j∈[1,n]},可以得到与原始级联对应的增强级联ck(ts)={(vi,ti),i∈[1,n]},(ti<ts)以及增强级联图作为优选,所述步骤s3中,图表示学习算法对级联传播网络中的用户进行网络嵌入的方法包括基于rwpe的在级联间图上的整体结构学习和基于graphwave的级联图表示学习。作为优选,所述基于rwpe的在级联间图上的整体结构学习:生成级联间图上的随机游走矩阵rw=ad-1,其中a为级联间图的邻接矩阵,d为a的度矩阵,根据随机游走矩阵rw,计算节点vi的嵌入向量为:其中,k为预先设置的超参数。作为优选,所述基于graphwave的级联图表示学习:基于以节点为中心的谱图小波的扩散,学习每个节点的结构嵌入。
本发明具有以下的特点和有益效果:本发明提出了一个统一的框架,该框架集成了级联内和级联间的视角来建模级联流行度预测。本发明提出了一种新的级联数据增强和正、负样本对生成方法。该方法可以简单有效地帮助模型了解级联内的扩散特性。同时,本发明应用了一种新的图嵌入方法,通过编码用户行为来学习级联间对单个级联的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为基于图机器学习的级联流行度预测框架。图2为对编码器输出的级联表示的可视化,点的坐标表示该级联在向量空间中的位置,点的颜色表示该级联的流行度。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。本发明提供了一种基于图机器学习的级联流行度预测方法,如图1所示,包括以下步骤:s1:导入原始数据集,划分为训练集、测试集;s1.1:定义级联数据为:ck(to)={(vj,tj),j∈[1,n]}其中,to为观测时间,(vj,tj)为用户vj在时间tj参与到级联中,n为参与级联的用户的数量。
s1.2:级联流行度预测问题定义如下:给定级联ck(to),其最终流行度在预测时间t
p
时参与其中的用户数量。一般来说t
p
大小为to的数倍。s1.3:级联图定义如下:对于级联ck(t)={(vj,tj),j∈[1,n]},其对应的级联图为其中为节点集合,为边的集合,表示级联中节点间的转发关系。s1.4:级联间图定义如下:其中为节点集,包含数据集中所有节点,εg表示节点间的转发关系。s2:通过基于自增强的数据强化算法生成新的级联数据所述级联图为其对应的级联为ck(t)={(vj,tj),j∈[1,n]},基于观测时间to计算快照观测时间ts:ts=to*p,(0<p≤1)其中p为预先设置的超参数,基于快照观测时间ts以及原始级联ck(t)={(vj,tj),j∈[1,n]},可以得到与原始级联对应的增强级联ck(ts)={(vi,ti),i∈[1,n]},ti<ts)以及增强级联图s3:通过图表示学习算法对级联传播网络中的用户进行网络嵌入,得到每个用户的网络嵌入,即为每一个用户节点生成一个低维的嵌入向量;s3.1基于rwpe(random walk positional embedding)的在级联间图上的整体结构学习过程,所述学习程包括:生成级联间图上的随机游走矩阵rw=ad-1,其中a为级联间图的邻接矩阵,d为a的度矩阵,根据随机游走矩阵rw,计算节点vi的嵌入向量为:其中,k为预先设置的超参数。s3.2所述基于graphwave的级联图表示学习:基于以节点为中心的谱图小波的扩散,学习每个节点的结构嵌入。s4:设计计算级联流行度的损失函数,通过所述训练集对基于对比学习的级联流行度预测模型进行训练;使用对比损失作为基于对比学习的级联流行度预测模型的预训练阶段的损失函数;使用均方对数误差作为级联流行度预测模型的微调阶段的损失函数,设置超参数,使用自适应动量估计adam优化器;设置初始学习率、训练批大小和总训练次数t,其中,所述级联流行度预测模型基于循环神经网络gru实现,并采用多层感知机作为分类器,具体步骤为:流行度预测模型基于循环神经网络gru实现,并采用多层感知机作为分类器,具体步骤为:
cheng,lada adamic,p.alex dow,jon michael kleinberg,and jure leskovec.2014.can cascades be predicted?.in proceedings of the 23rd in-ternational conference on world wide web-www'14.acm press.】timeseries:一种将级联视为时间序列的模型,并根据早期流行度测量所给出的历史信息预测级联流行度。参考文献【henrique pinto,jussara m.almeida,and marcos a.2013.using early view patterns to predict the popularity of youtube videos.in proceedings of the sixth acm international conference on web search and data mining(rome,italy)(wsdm’13).association for computing machinery,new york,ny,usa,365
–
374.】deephawkes:通过结合hawkes生成过程和端到端深度学习方法对级联进行建模。它考虑了hawkes过程中的三个关键因素,即用户影响、自激机制和时间衰减机制,继承了hawkes过程的高可解释性和深度学习的高预测能力。参考文献【qi cao,huawei shen,keting cen,wentao ouyang,and xueqi cheng.2017.deephawkes:bridging the gap between prediction and understanding of information cascades.in proceedings of the 2017acm on conference on information and knowledge management(singapore,singapore)(cikm’17).association for computing machinery,new york,ny,usa,1149
–
1158.】cascn:将图卷积网络(gcn)和递归神经网络(rnn)相结合,提取级联图的拓扑特征和时序特征。参考文献【xueqin chen,fan zhou,kunpeng zhang,goce trajcevski,ting zhong,and fengli zhang.2019.information diffusion prediction via recurrent cascades convolution.in 2019 ieee 35th international conference on data engineering(icde).ieee,770
–
781.】dmt-lic:通过注意机制和共享表示层同时进行微观和宏观级联预测的多任务模型。参考文献【xueqin chen,kunpeng zhang,fan zhou,goce trajcevski,ting zhong,and fengli zhang.2019.information cascades modeling via deep multi-task learning.in proceedings of the 42nd international acm sigir conference on research and development in information retrieval.885
–
888】casflow:基于贝叶斯学习预测级联流行度。该方法利用节点级和级联级的不确定性,通过变分推理和归一化流,利用层次变分信息扩散模型学习级联分布的后验性。参考文献【xovee xu,fan zhou,kunpeng zhang,siyuan liu,and goce trajcevski.2021.casflow:exploring hierarchical structures and propagation uncertainty for cascade prediction.ieee transactions on knowledge and data engineering(2021)】ccgl:提出了对比学习在级联人气预测中的应用,通过比较学习来弥补有监督和无监督信息级联建模与预测之间的差距。参考文献【xovee xu,fan zhou,kunpeng zhang,and siyuan liu.2022.ccgl:contrastive cascade graph learning.ieee transactions on knowledge and data engineering(2022).】
[0062]
从表1的实验结果可以看出,我们提出的级联流行度预测方法,其预测的精度全面高于现有的一些方法。
由此可知,本发明利用了一种新的端到端级联流行度预测框架,并基于级联本身设计了一种使用历史快照的数据增强策略。为了从全局角度了解级联特性,引入级联图的概念,对用户行为进行细致的观察,实现了优于现有方法的级联流行度预测。以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
技术特征:
1.一种基于图机器学习的级联流行度预测方法,其特征在于,包括如下步骤:s1、导入原始数据集,划分为训练集和测试集,并定义级联数据;s2、通过基于自增强的数据强化算法生成新的级联数据;s3、通过图表示学习算法对级联传播网络中的用户进行网络嵌入,得到每个用户的网络嵌入,即为每一个用户节点生成一个低维的嵌入向量;s4、设计计算级联流行度的损失函数,从而构建级联流行度预测模型,通过所述训练集对基于对比学习的级联流行度预测模型进行训练;所述级联流行度预测模型使用对比损失作为基于对比学习的级联流行度预测模型的预训练阶段的损失函数;使用均方对数误差作为级联流行度预测模型的微调阶段的损失函数,设置超参数,使用自适应动量估计adam优化器;设置初始学习率、训练批大小和总训练次数t,其中,所述级联流行度预测模型基于循环神经网络gru实现,并采用多层感知机作为分类器,具体步骤为:分类器,具体步骤为:分类器,具体步骤为:分类器,具体步骤为:其中,u
r
,u
z
,u
h
,b
r
,b
z
,b
h
为可训练的参数,tanh表示双曲正切激活函数,h
k
表示gru的隐藏层向量,x
vk
为当前时间步的输入,σ表示非线性激活函数;s5、将所述测试集输入经训练的级联流行度预测模型中,通过经训练后的级联流行度预测模型得到级联的流行度预测结果。2.根据权利要求1所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述级联数据定义为:c
k
(t
o
)={(v
j
,t
j
),j∈[1,n]}其中,t
o
为观测时间,(v
j
,t
j
)为用户v
j
在时间t
j
参与到级联中,n为参与级联的用户的数量。3.根据权利要求2所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述步骤s1中,通过级联数据定义级联图:对于级联c
k
(t)={(v
j
,t
j
),j∈[1,n]},其对应的级联图为其中为节点集合,为边的集合,表示级联中节点间的转发关系。4.根据权利要求2所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述步骤s1中,通过级联数据定义级联间图:其中为节点集,包含数据集中所有节点,ε
g
表示节点间的转发关系。
5.根据权利要求4所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述步骤s2中,通过数据增强生成新的级联数据的方法为:所述级联图为其对应的级联为c
k
(t)={(v
j
,t
j
),j∈[1,n]},基于观测时间t
o
计算快照观测时间t
s
:t
s
=t
o
*p,(0<p≤1)其中p为预先设置的超参数,基于快照观测时间t
s
以及原始级联c
k
(t)={(v
j
,t
j
),j∈[1,n]},可以得到与原始级联对应的增强级联c
k
(t
s
)={(v
i
,t
i
),i∈[1,n]},{t
i
<t
s
)以及增强级联图6.根据权利要求4所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述步骤s3中,图表示学习算法对级联传播网络中的用户进行网络嵌入的方法包括基于rwpe的在级联间图上的整体结构学习和基于graphwave的级联图表示学习。7.根据权利要求6所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述基于rwpe的在级联间图上的整体结构学习:生成级联间图上的随机游走矩阵rw=ad-1,其中a为级联间图的邻接矩阵,d为a的度矩阵,根据随机游走矩阵rw,计算节点v
i
的嵌入向量为:其中,k为预先设置的超参数。8.根据权利要求6所述的一种基于图机器学习的级联流行度预测方法,其特征在于,所述基于graphwave的级联图表示学习:基于以节点为中心的谱图小波的扩散,学习每个节点的结构嵌入。
技术总结
本发明公开了一种基于图机器学习的级联流行度预测方法,包括如下步骤:S1、导入原始数据集,划分为训练集和测试集,并定义级联数据;S2、通过基于自增强的数据强化算法生成新的级联数据;S3、通过图表示学习算法对级联传播网络中的用户进行网络嵌入,得到每个用户的网络嵌入,即为每一个用户节点生成一个低维的嵌入向量;S4、设计计算级联流行度的损失函数,从而构建级联流行度预测模型,通过所述训练集对基于对比学习的级联流行度预测模型进行训练,S5、将所述测试集输入经训练的级联流行度预测模型中,通过经训练后的级联流行度预测模型得到级联的流行度预测结果。该方法是一种端到端的新框架,可以同时对信息级联的内部与外部属性进行建模。性进行建模。性进行建模。
技术研发人员:宋卫健 焦鹏飞 张纪林 唐会军 鲍青
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.05.17
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
