基于情绪感知元学习的跨事件虚假新闻检测方法

未命名 07-23 阅读:79 评论:0


1.本发明涉及信息检测技术领域,特别涉及基于情绪感知元学习的跨事件虚假新闻检测方法。


背景技术:

2.现代社交媒体的发展极大地改变了人们获取信息的方式。然而,各种虚假信息的广泛传播带来了严重的负面影响。因此,许多基于深度学习的方法已被提出用于检测虚假信息,取得了令人振奋的结果。然而,这些方法不适用于新事件,因为标记数据非常有限,并且其与现有事件的数据分布不一致。现有学者已经提出了域自适应方法来缓解这些问题。然而,由于他们的目标是对齐现有事件的域信息,并且仅使用语义信息很难捕捉真实帖子和虚假帖子之间的细粒度差异,所以他们的表现是次优的。
3.近年来,基于统计的方法和深度学习技术被广泛应用于虚假信息检测,并取得了良好的效果。然而,这种方法有两个局限性:(1)数据贪婪:训练深度学习网络通常需要大量标记数据;(2)分布不一致:现有的深度学习方法要求测试和训练数据具有相同的数据分布。然而,当新事件发生时,其帖子的数据分布与现有事件不同,并且仅有少量或完全没有标记数据,这使得难以使用由其他事件训练的模型,并且难以直接根据新事件训练模型。因此,新事件虚假信息的早期检测具有挑战性。
4.学者们提出一些方法使用辅助信息以帮助早期检测,例如社交网络和传播路径。虽然引入这样的附加数据可以帮助检测,但它也会造成严重的数据负担,在缺少所需信息时无法正常工作。其他工作使用带有域自适应的现有事件的标记数据来学习域不变表示。尽管域自适应模型可以在一定程度上学习域不变表示,但学习目标是在现有事件之间对齐域信息。因此,模型参数对新事件不敏感,难以快速适应新事件。此外,它们只关注帖子的语义信息,而忽略了真实和虚假帖子之间的细粒度差异,所以它们的性能是次优的。
5.现有的虚假信息检测方法,根据所使用的数据类型,大致可以分为三类:
6.(1)基于内容模型。它们主要使用从社会帖子中提取的文本或视觉特征进行二分类(真假)。例如,ma等人首次将深度学习技术应用于虚假信息检测,将帖子的每句话输入到循环神经网络中,使用循环神经网络的隐层向量表示帖子信息,并将隐层信息输入到分类器中得到结果。cheng等人使用变分自编码器对文本信息进行自编码,获得帖子文本的嵌入表示,然后将得到的向量用于多任务学习,提高模型的有效性。这种方法通常需要大量的标签数据进行训练,在标签数据稀缺的情况下无法有效工作。因此,在新的事件检测场景中应用它们具有挑战性。
7.(2)基于社会背景的模型。它们一般依赖于丰富的用户交互特征,如评论、转发、关注。例如jiang等人将帖子传播网络和用户社交网络建模为异构图,通过异构图神经网络对图中的节点信息进行建模,并将帖子信息和用户信息拼接在一起进行检测。这种方法会造成额外的数据负担,面临新用户冷启动的问题。
8.(3)基于外部知识模型。它们通常依赖于外部知识进行检测。知识图和外部知识库
包含了大量的知识和丰富的语义信息,可以帮助我们更好地理解帖子的内容。同时,它还包含了很多客观事实,可以与帖子的内容进行比较,以识别虚假信息的虚假性。例如,li等人使用预先训练好的事实检验模型在外部知识语料库中重新查找事实证据,将事实证据与帖子内容构建为星图,并使用gcn将帖子内容与事实证据融合以检测虚假帖子。但是,新的实体词汇表通常是在新事件发生时出现的,缺乏相应的事实证据;这种方法经常不能正常工作。


技术实现要素:

9.针对现有技术存在的上述问题,本发明要解决的技术问题是:如何在新事件下用少量样本检测虚假信息。
10.为解决上述技术问题,本发明采用如下技术方案:基于情绪感知元学习的跨事件虚假新闻检测方法,包括如下步骤:
11.s1:构建情绪感知元任务和事件自适应元任务:
12.s11:构建情绪感知元任务:
13.用k表示ds的事件集合,m∈{real,fake}是标签集合,是ds中事件为k∈k且标签为m∈m的所有样本集合,是事件为k∈k且标签为-m∈m的所有样本集合,将单个帖子当作一个第i个元任务ti的查询集ti的支持集由中和xi情绪序列最相近的q个样本以及中和xi情绪序列最相反的q个样本组成;
14.设中有n个样本,即共有n个情绪感知元任务,第i个元任务ti表示为
[0015][0016]
用ei表示xi的情绪序列,使用以下公式用来衡量xi和xj之间的情绪相似性:
[0017][0018]
其中j∈{1,2,

,|dk|}且i≠j;
[0019]
s12:构建事件自适应元任务:
[0020]
定义mmd距离由高斯核函数的特定表示φ(
·
)计算,它作用于源事件数据和目标事件数据mmd的经验近似为:
[0021][0022]
其中,表示基础检测模型的最后一个mlp的输入,即帖子的嵌入;
[0023]
s2:对情绪感知元任务进行加权元学习
[0024]
s21:为每个计算相应的类原型的计算公式为:
[0025]
[0026]
其中ε(xi)是xi的文本嵌入,语义权重的计算方法为:
[0027][0028]
其中cos函数是余弦相似度函数,n是超参数,1(
·
)是一个指示函数,表示事件为k的一个样本,k代表源域事件数量,代表不是当前样本的其余事件原型;
[0029]
s22:为源数据中的真实信息和虚假信息构建一个情绪原型dm,通过平均所有对应样本的情绪序列得到原型表示:
[0030][0031]
其中dm是ds中的标签是m的所有样本集合,情绪权重的计算方法为:
[0032][0033]
其中,dm表示与帖子标签相同的情绪原型,d-m
表示与帖子标签相反的情绪原型;
[0034]
ti的权值wi为:
[0035][0036]
其中,λ是一个平衡因子;
[0037]
s3:通过对基本检测模型进行训练得到初步检测模型
[0038]
将进行加权元学习后的情绪感知元任务输入基本检测模型进行训练,根据损失不断迭代更新基本检测模型的参数,直至损失不再变化则得到初步检测模型;
[0039]
在对基本检测模型进行训练时每次迭代中,以概率ρ∈(0,1)选择情绪感知元任务,以概率为1-ρ选择事件自适应元任务,ρ是一个超参数;
[0040]
s4:使用目标事件数据对s3所得进行微调得到最优模型
[0041]
对于新的事件数据d
t
,根据d
t
创建测试任务,其中支持集和查询集随机选择,对于一个测试任务ti′
,使用ti′
的支持集对进行n次微调:
[0042]
θ
′j=un(θ
*
;γ)
[0043]
其中,θ
′j表示用目标事件数据微调后的的参数,un表示表示对的损失梯度下降n次,θ
*
表示的参数,γ表示学习率;
[0044]
对ti′
的查询集使用进行验证,当预测准确率达到预设阈值时执行下一步,否则将作为基本检测模型返回s3继续训练;
[0045]
s5:目标领域待检测帖子的检测:
[0046]
对于一个待检测帖子,将该待检测帖子输入s4得到的最优模型输出该待检测帖子的预测标签。
[0047]
作为优选,所述s4中对s3所得m
θ*
进行微调时,如果目标领域样本数量为零时,首先根据帖子的情绪序列分配弱标签,然后为每个帖子分配权重,最后使用这些弱标签数据对
进行微调;
[0048]
根据新事件的情绪序列为帖子生成弱标签:如果帖子的情绪序列更接近真实帖子的情绪原型,则帖子的弱标签是真实的,反之亦然,公式是
[0049][0050]
其中,d
real
表示真实帖子的情绪原型,d
fake
表示虚假帖子的情绪原型;
[0051]
如果情绪序列越接近其弱标签原型,则可认为弱标签的置信度越强,权重应越大,弱样本的权值为
[0052][0053]
其中,τ是情绪阈值,使用表示弱样本的学习率γ和弱样本权重进行梯度下降n次;
[0054][0055]
作为优选,所述s3中基本检测模型基本检测模型由情绪特征提取器和语义特征提取器两部分组成,
[0056]
s31:情绪特征提取器
[0057]
根据先验知识给每个帖子构建了一个情绪序列,通过情绪序列特征将帖子情绪序列e捕获为24维向量,然后通过一层mlp层得到情绪特征fe=mlp(e);
[0058]
s32:语义特征提取器
[0059]
使用bert作为语义特征提取器,采用bert的最后一层中“[cls]”的嵌入来表示语义嵌入f
t

[0060]
s33:帖子的最终嵌入是情绪嵌入和语义嵌入的结合:
[0061]
f=fe+f
t
[0062]
然后通过带有softmax的线性分类检测器检测虚假信息:
[0063][0064]
作为优选,当输入基本检测模型进行训练的是情绪感知元任务时,所述s3中的损失采用交叉熵损失函数lc计算:
[0065][0066]
其中y表示帖子的真实标签,表示帖子的预测标签;
[0067]
当输入基本检测模型进行训练的是事件自适应元任务训练时,所述s3中的损失采用两个事件的mmd作为损失函数le计算:
[0068][0069]
作为优选,所述s3对基本检测模型进行训练得到的过程中,所述事件自适应元任务只更新基本检测模型中情绪特征提取器和语义特征提取器中的参数,所述情绪感知元任务用于更新情绪特征提取器、语义特征提取器和线性分类检测器中的参数。
[0070]
相对于现有技术,本发明至少具有如下优点:
[0071]
本发明设计了跨事件虚假信息检测的情绪感知元学习方法,并使用弱监督学习将其扩展到零样本场景,将情绪深度融入元学习过程,从已有事件中学习细粒度的元知识,构建情绪感知任务,通过双层优化目标得到能使多个已有事件损失快速达到极小值的初始化参数,通过使模型参数对多个事件敏感,使模型在只有少量标记数据的情况下快速适应目标事件。
附图说明
[0072]
图1为本发明方法的流程简图。
[0073]
图2为基础检测模型框架。
[0074]
图3为eml中不同组件的贡献,其中图3(a)-图3(e)分别表示五个不同的数据集上的消融实验结果。
[0075]
图4为弱样本的贡献。
[0076]
图5为两个不同的超参数的不同设置下模型性能,其中图5(a)表示情绪阈值,图5(b)超参数p。[说明图5(a)和图5(b)中有均有两条线重合了,所以图中只能看到3条曲线]
具体实施方式
[0077]
下面对本发明作进一步详细说明。
[0078]
将虚假信息定义为故意捏造的可以被验证为真假的帖子,并且每个帖子包含其文本信息和相应的标签。我们的目标是在新事件下用少量样本检测虚假信息。具体地说,我们将检测定义为少样本问题。
[0079]
每个元任务将被分为两个互不关联的子集:支持集和查询集。在元训练中,我们通过源数据ds构造元任务,然后通过元学习算法(双层优化目标)学习合适的初始化参数。在元测试中,我们为目标数据d
t
构造一个随机选择的元任务。通过一个小的支持集对模型参数进行微调,通过在测试元任务的所有查询集上平均结果来评估模型的性能。
[0080]
在学习过程中深入考虑情绪的动机是,帖子的情绪特征从新的角度提供了额外的辅助信息,情绪特征在不同事件中具有普遍性,而由于不同事件的实体词差异,不同事件的数据分布存在巨大差异。为了说明其普遍性,我们在图1中显示了新事件的情绪序列与源事件的情绪原型之间的相似密度。在不失通用性的前提下,我们选择charlie hebdo数据集作为新事件,其他数据集作为源事件。从图中可以看出,真实帖子在新事件中的情绪特征与源事件中的真实帖子原型更相似,反之亦然。在其他新事件上也可以得到类似的结果,表明情绪序列对跨事件虚假信息检测有积极的影响。因此,我们在eml中将情绪深度融入元学习过程。
[0081]
将情绪融入元学习过程,我们基于源事件数据的情绪特征构建情绪感知元任务,然后使用元训练算法找到能够快速适应新事件数据的初始化参数。与传统的元学习方法相比,我们的情绪感知元任务可以使模型注意到真假帖子之间的细粒度差异。
[0082]
在基于语义和情绪特征的元学习中注意到更多有价值的数据,减少噪声的影响。现有的元学习方法对所有元任务一视同仁,因此很难注意到更有价值的任务。在元训练过程中,每个元任务都应该有不同的权重,权重较高的元任务是模型学习的优先级。因此,我们根据帖子的语义和情绪特征设计了一种新的任务加权方法,使模型在元训练中更加关注
有价值的元任务。
[0083]
在零样本场景下进行检测(新事件的极端情况,没有标记数据)。我们提出了一种基于情绪特征的弱标签标注方法,对新事件中的帖子分进行标注,然后使用弱标签数据对模型进行微调。由于弱标签有不可避免的噪音,我们根据每个帖子的情绪顺序分配权重。在对模型进行微调时,权值较高的帖子会显著影响参数,从而降低噪声的影响。
[0084]
基于情绪感知元学习的跨事件虚假新闻检测方法,包括如下步骤:
[0085]
s1:构建情绪感知元任务和事件自适应元任务:
[0086]
元任务是元学习的基本单元,而情绪在新事件下的虚假信息检测中起着至关重要的作用,这为元任务的创建提供了新的视角。因此,我们根据帖子的情绪序列构建情绪感知元任务,并选择与目标样本情绪最接近和最相反的样本作为支持集。这使得模型能够更好地捕捉情绪特征,并更有效地适应新的事件数据。与传统的在同一事件下随机选择几个样本的元任务相比,由于虚假帖子通常具有一些通用的情绪特征,我们的方法可以细粒度地捕捉到真实帖子和虚假帖子之间的差异。
[0087]
s11:构建情绪感知元任务:
[0088]
用k表示ds的事件集合,m∈{real,fake}是标签集合,是ds中事件为k∈k且标签为m∈m的所有样本集合,是事件为k∈k且标签为-m∈m的所有样本集合,将单个帖子当作一个第i个元任务ti的查询集ti的支持集由中和xi情绪序列最相近的q个样本以及中和xi情绪序列最相反的q个样本组成;
[0089]
设中有n个样本,即共有n个情绪感知元任务,第i个元任务ti表示为
[0090][0091]
用ei表示xi的情绪序列,使用以下公式用来衡量xi和xj之间的情绪相似性:
[0092][0093]
其中j∈{1,2,

,|dk|}且i≠j;情绪感知元任务的本质目标是虚假信息检测,因此损失函数为交叉熵损失。
[0094]
s12:构建事件自适应元任务:
[0095]
除了让模型提取情绪进行检测外,我们还希望模型能够学习事件不变特征,使模型能够适应新的事件。因此,我们设计了事件自适应元任务,它直接对齐不同事件的数据分布,以适应事件差异。
[0096]
为了对齐不同事件的数据分布,我们使用最大平均差异(maximum mean variance,mmd)来衡量两个事件分布之间的距离。定义mmd距离由高斯核函数的特定表示φ(
·
)计算,它作用于源事件数据和目标事件数据mmd的经验近似为:
[0097][0098]
其中,表示基础检测模型的最后一个mlp的输入,即帖子的嵌入;
[0099]
我们首先从源数据中选择两个不同的事件k1和k2,从每个事件中选择p个样本形成事件适应任务的支持集,然后选择两个不同的事件k3和k4以同样的方式构建查询集。注意,支持集和查询集内部的两个事件需要不同,但支持集中的事件也可以在查询集中。
[0100]
s2:对情绪感知元任务进行加权元学习
[0101]
s21:为每个计算相应的类原型的计算公式为:这是通过平均中的所有样本的嵌入得到的。
[0102][0103]
其中ε(xi)是xi的文本嵌入,它是通过取预训练bert的最后一层的“[cls]”嵌入获得的。理想情况下,一个重要的训练样本在语义上接近它的类原型并且与其他事件的同类原型不会太远。因此,语义权重的计算方法为:
[0104][0105]
其中cos函数是余弦相似度函数,η是超参数(0<η<1),1(
·
)是一个指示函数,如果布尔输入函数为真,则返回1,表示事件为k的一个样本,k代表源域事件数量,代表不是当前样本的其余事件原型,例如当前样本是关于甲的,那么就是乙或丙的原型。
[0106]
s22:为源数据中的真实信息和虚假信息构建一个情绪原型dm(与事件无关),通过平均所有对应样本的情绪序列得到原型表示:
[0107][0108]
其中dm是ds中的标签是m的所有样本集合,同样,样本应该更接近带有相同标签的情绪原型。如果真实帖子的情绪与虚假帖子的情绪原型更接近,则该帖子对应的任务权重应该更低。因此,情绪权重的计算方法为:
[0109][0110]
其中,dm表示与帖子标签相同的情绪原型,d-m
表示与帖子标签相反的情绪原型;
[0111]
ti的权值wi为:
[0112][0113]
其中,λ是一个平衡因子。在元训练过程中,我们将根据每个元任务的权重计算梯度,注意这个加权分数仅用于情绪感知的元任务。
[0114]
s3:通过对基本检测模型进行训练得到初步检测模型
[0115]
将事件自适应元任务和经过s2进行加权元学习后的情绪感知元任务输入基本检测模型进行训练,根据损失不断迭代更新基本检测模型的参数,直至损失不再变化则得到初步检测模型;
[0116]
在对基本检测模型m
θ
进行训练时每次迭代中,以概率ρ∈(0,1)选择情绪感知元任务,以概率为1-ρ选择事件自适应元任务,ρ是一个超参数,我们发现ρ=0.9效果更好。通过
这两类元任务,模型学习了事件不变性和情绪感知的特征,从而更有效地适应新事件。
[0117]
具体的:给定初始化参数为θ的模型m
θ
和元任务集首先选择ti,然后,使用ti的支持集对m
θ
参数进行内部更新;也就是说,新的参数θ
′i是通过梯度下降n次获得的:
[0118]
θ
′i=un(θ;α)
[0119]
其中un表示对的损失进行梯度下降n次,学习率为α。例如,当应用单个梯度下降时,公式为
[0120][0121]
然后我们在内部更新的模型参数θ
′i上计算查询集的损失通过最小化相对于m
θ
的损失来进一步更新元参数θ,这一步也被称为外部更新。在元训练中,我们需要优化大量的元任务。此时,我们的目标是
[0122][0123]
外部更新的学习率为β,执行单个外部更新的公式为
[0124][0125]
其中gi是元任务ti上的元梯度,可以扩展为
[0126][0127]
由上式可以看出,我们在元梯度的计算中引入了一个高阶梯度。为了降低计算成本,我们采用了一阶近似算法。
[0128]
s4:使用目标事件数据对s3所得进行微调得到最优模型
[0129]
对于新的事件数据d
t
,根据d
t
创建测试任务,其中支持集和查询集随机选择,对于一个测试任务ti′
,使用ti′
的支持集对进行n次微调:
[0130]
θ
′j=un(θ
*
;γ)
[0131]
其中,θ
′j表示用目标事件数据微调后的的参数,un表示表示对的损失梯度下降n次,θ
*
表示的参数,γ表示学习率。
[0132]
对ti′
的查询集使用进行验证,当预测准确率达到预设阈值时执行下一步,否则将作为基本检测模型返回s3继续训练;
[0133]
s5:目标领域待检测帖子的检测:对于一个待检测帖子,将该待检测帖子输入s4得到的最优模型输出该待检测帖子的预测标签。
[0134]
具体的,所述s4中对s3所得进行微调时,如果目标领域样本数量为零时,虚假
信息的零样本检测是少样本检测的极端情况,也就是说,目标事件没有标记的数据。这种检测意义重大,因为我们需要在新事件出现时快速检测出虚假信息。首先根据帖子的情绪序列分配弱标签,然后为每个帖子分配权重以减少噪声的影响,最后使用这些弱标签数据对进行微调。
[0135]
根据新事件的情绪序列为帖子生成弱标签:如果帖子的情绪序列更接近真实帖子的情绪原型,则帖子的弱标签是真实的,反之亦然,公式是
[0136][0137]
其中,d
real
表示真实帖子的情绪原型,d
fake
表示虚假帖子的情绪原型;
[0138]
在微调时,对不同的弱样本应赋予不同的权重,具体而言:如果情绪序列越接近其弱标签原型,则可认为弱标签的置信度越强,权重应越大,弱样本的权值为
[0139][0140]
其中,τ是情绪阈值,使用表示弱样本的学习率γ和弱样本权重进行梯度下降n次;例如,对弱样本xi应用单一梯度下降的公式为:
[0141][0142]
零样本景下的元训练保持不变,元测试为:
[0143][0144]
具体的,所述s3中基本检测模型基本检测模型由情绪特征提取器和语义特征提取器两部分组成,该模型首先将帖子文本映射到情绪-语义空间,然后进行虚假信息检测。
[0145]
s31:情绪特征提取器
[0146]
帖子的情绪特征对于早期检测是必不可少的。我们根据先验知识为每个帖子构建了一个情绪序列。情绪序列的内容如表1所示,序列向量由帖子长度加权的词频表示来计算。
[0147]
根据先验知识给每个帖子构建了一个情绪序列,通过情绪序列特征将帖子情绪序列e捕获为24维向量,然后通过一层mlp层得到情绪特征fe=mlp(e);
[0148]
s32:语义特征提取器
[0149]
使用bert作为语义特征提取器,采用bert的最后一层中“[cls]”的嵌入来表示语义嵌入f
t

[0150]
s33:帖子的最终嵌入是情绪嵌入和语义嵌入的结合:
[0151]
f=fe+f
t
[0152]
然后通过带有softmax的线性分类检测器检测虚假信息:
[0153][0154]
具体的,当输入基本检测模型进行训练的是情绪感知元任务时,所述s3中的损失采用交叉熵损失函数lc计算:
[0155][0156]
其中y表示帖子的真实标签,表示帖子的预测标签;
[0157]
当输入基本检测模型进行训练的是事件自适应元任务训练时,所述s3中的损失采用两个事件的mmd作为损失函数le计算:
[0158][0159]
具体的,所述s3对基本检测模型进行训练得到的过程中,所述事件自适应元任务只更新基本检测模型中情绪特征提取器和语义特征提取器中的参数,所述情绪感知元任务用于更新情绪特征提取器、语义特征提取器和线性分类检测器中的参数。
[0160]
试验验证
[0161]
1.数据集
[0162]
我们的实验建立在五个真实的推特事件数据集pheme上,其中包含五个具体事件:ferguson unrest,ottawa shooting,sydney siege,charlie hebdo shooting,and germanwings plane crash。作者从twitter流api收集与有新闻价值的事件相关的推文,这些事件可能会引发虚假信息的发起和传播。数据集的详细统计数据显示在表1中。
[0163]
表1:数据集细节
[0164][0165]
2.实施细节
[0166]
我们使用nvidiageforce rtx 3090和pytorch 1.9.0实现了所有的深度学习基线和eml(本发明方法简称为eml)。我们在每个类别中选择q=5个相似及相反的样本来构建情绪感知元任务,在每个事件中选择p=16个样本来构建事件适应元任务。将超参数η设置为0.5,平衡因子λ设置为1.5,将更新步骤n设置为2,将一次外部更新使用的抽样元任务数量设置为32,情绪阈值τ设置为0.5。对于内部更新和外部更新的优化器,我们使用adam,学习率为5e-5,而对于元测试期间的梯度更新,我们设置学习率为1e-5。在元训练中,我们使用所有元任务执行一次外部更新;也就是说,更新元模型的次数就是元任务的次数。在元检验
中,我们进行微调,直到模型参数的梯度小于0.05。为了保证测试结果的有效性,我们基于100个测试集来评估测试性能,并报告平均性能。在我们的实验中,我们将当前事件作为目标事件,其他四个事件的数据作为源数据。
[0167]
3.基线方法
[0168]
除非另有说明,否则基线方法在源数据上进行训练,然后适应目标数据。为了证明eml的有效性,我们选择了以下竞争基线进行比较:
[0169]
(1)传统机器学习方法。我们实现了各种机器学习算法,包括决策树(dt)、朴素贝叶斯(nb)和支持向量机(svm)。它们基于tf-idf,因为它是信息检索和数据挖掘中常用的加权技术。它衡量单词在文本中的重要性,通常用作文本特征表示。
[0170]
(2)base_model。它直接使用目标任务的支持集进行微调,并在其查询集上进行验证。它反映了基本检测模型在少量样本上的性能,而不需要额外的数据。
[0171]
(3)base-pretrain。它也使用基础检测模型,该模型使用源数据预训练模型,然后在目标事件上对其进行微调。
[0172]
(4)bert-pro。原型网络为每个类别创建一个原型,然后通过比较输入与原型的相似性来对其进行分类。它的特点是通用分类能力,不仅可以应用于当前事件数据。为了保证实验的公平性,我们使用bert作为原型网络的嵌入表示。
[0173]
(5)mlada。一种用于少样本文本分类的元学习对抗网络。它可以识别重要的词汇特征,生成高质量的句子嵌入到新的领域。
[0174]
(6)dafd。新领域虚假信息的早期检测模型。它在预训练过程中应用领域自适应技术来对齐两个领域的数据分布,并在微调过程中生成对抗示例,以增强模型的鲁棒性和泛化能力。由于dafd要求源域数据为一个事件,我们依次使用四个源事件数据进行预训练,并以最好的结果作为最终结果。
[0175]
4.结果比较
[0176]
在我们的实验中,我们有5-shot和10-shot的设置。5-shot表示用于微调的数据中每个类只有5个样本(真实和虚假),这在少样本学习场景中是一个广泛的设置。表2显示了不同方法在数据集上的性能。可以看到,eml在5-shot和10-shot的设置下,在所有指标上都取得了最好的结果。
[0177]
在5-shot的设置中,传统的机器学习算法总是得到最差的结果,这在很大程度上不如深度学习算法。在这类算法中,svm几乎达到了最好的效果,而决策树的效果并不好。我们推测构建一个用于分类的超平面更适合当前场景。对于深度学习算法来说,base_model的效果总是最差的,因为它直接在几个样本上进行微调,并且很容易过拟合,从而无法学习到有意义的嵌入表示。bert-pro的性能在不同的事件数据集之间有显著差异。我们推测这是因为原型网络具有较高的数据敏感性。在样本较少的情况下,不同的数据对原型的构建影响较大,因此模型的整体稳定性较差。在大多数情况下,基础预训练的效果不如dafd,因为它只是在源数据上进行预训练,然后直接在目标数据上进行微调。毕竟,这两部分数据具有不同的分布,而目标事件的数据很少,因此其结果是次优的。eml在所有数据集的所有指标上都取得了最佳结果。
[0178]
在10-shot的设置中,我们可以看到类似的结果,其中传统的机器学习算法实现了最差的结果,这表明这种方法不擅长处理少样本学习问题。eml仍然是最好的,说明eml在处
理新事件的少样本检测方面表现出色。
[0179]
表2:在5和10-shot的设置下,每个事件数据集上的检测模型的性能比较
[0180][0181]
5.消融实验
[0182]
我们还使用eml的几种变体探索eml总体框架、加权元学习和事件适应元任务的有效性,以探索这些策略的效果:
[0183]
eml w/o-d:eml的一个变体,在元训练中没有事件适应元任务,只使用情绪感知元任务进行元训练。
[0184]
eml w/o-w:eml的一个变体,一个没有加权元学习步骤的eml变体,因此在元训练中平等对待所有元任务。
[0185]
eml w/o-d/w:eml的一种变体,它没有加权元学习和事件适应元任务,在元训练中只使用情绪感知元任务,并对它们一视同仁。
[0186]
eml w/o-all(即基本检测模型):没有所有组件和元训练步骤的eml变体,在这种情况下,它退化为基本检测模型。
[0187]
我们在5-shot的设置下对这些变体进行了消融实验,五个事件的平均结果如图5所示。从结果中,我们可以得到以下几点。
[0188]
如果没有加权元学习,模型在每个数据集上的性能都会下降,这表明它可以增强模型对新事件的鲁棒性和泛化能力。如果没有事件自适应元任务,可以观察到类似的现象,模型在每个数据集上的性能下降。这也说明我们的分析是合理的,在元训练中结合事件适应元任务可以提高模型的泛化能力。如果没有元学习过程,该模型的性能最差,并且该模型不能在少数样本场景下正确工作。
[0189]
通过对eml的成分分析可知:(1)事件适应元任务和加权元学习的成分都有助于虚假信息检测性能的提高;(2)情绪感知元学习框架非常重要,因为它可以很好地利用源数据,更有效地适应新的事件数据。
[0190]
6.零样本检测结果的分析
[0191]
我们首先根据源数据的情绪原型弱标记目标事件数据。当我们选择一个事件作为目标事件时,其余四个事件的数据都是源数据,因此不存在数据泄露的问题。有效弱标签的准确性如表3所示。
[0192]
表3:每个事件的弱标签准确率
[0193][0194]
由于弱标签有噪声,我们在计算每个弱样本对应的权重,有效弱标签指的是权重不为0的样本。从表3可以看出,我们的弱标签精度在多个事件的平均值上达到64.22,在charlie hebdo数据上达到69.39。这比随机标注要高得多,证明我们的思路是正确的;带有相同情绪的帖子更有可能带有相同的标签。在没有新的事件数据的情况下,应用帖子的情绪特征可以更好地协助检测。
[0195]
在我们的弱标记之后,所有的模型都可以用于新事件,我们采用以下基线来评估eml:
[0196]
base_model:基本检测模型直接在新的事件数据上进行训练和测试,在没有其他数据的情况下验证模型的性能。
[0197]
base-pretrain:我们使用源数据预训练基本检测模型,然后使用来自目标事件的弱样本对其进行微调。
[0198]
bert-pro:原型网络通常用于零样本场景,我们使用源数据构建原型,然后直接在新的事件样本上进行测试。
[0199]
eml:eml的元训练过程保持不变,使用新事件的弱样本进行微调。
[0200]
我们在每个类别中选择32个样本进行训练,平均结果如表4所示。我们可以得出以下结论:
[0201]
(1)大多数模型都是在弱样本的支持下获得更有竞争力的结果,这说明了弱样本
在零样本场景下的必要性。
[0202]
(2)所提出的模型eml在大多数指标上都达到了最佳性能,表明eml也可以有效地处理零样本检测。
[0203]
(3)弱样本中标注精度高的事件可以获得更好的结果。在没有标记数据的情况下,我们的方法在charlie hebdo上的准确率达到了80.94%。
[0204]
表4:在0-shot的设置下,每个事件数据集上的检测模型的性能比较
[0205][0206]
我们还进行了消融实验,以证明弱样本生成的必要性。当eml被元训练后,我们比较直接在目标事件数据上测试和在测试前使用弱样本进行微调的结果。结果如图4所示。
[0207]
结果表明,直接使用元训练模型测试目标事件的效果并不理想。这是因为元学习的目的是学习能够快速适应新事件数据的初始化参数。当前参数不是损失函数的极值点,但经过少量微调后可以迅速达到极值点,因此,弱样本的生成对于零样本检测是必不可少的。
[0208]
我们使用t-sne算法来可视化新事件的情绪序列和源数据的情绪原型,新事件中的真实帖子更接近源域的真实帖子原型,反之亦然,这表明不同事件之间的情绪特征是普遍的,以及利用情绪序列进行弱标记的有效性。
[0209]
7.超参数的影响
[0210]
我们进一步探讨了eml中两个重要超参数的影响:情绪阈值τ和选择任务比例参数ρ。实验结果如图5所示。
[0211]
对于情绪阈值τ,随着τ值的增加,eml的效果先增强后减弱。τ=0.5时效果最佳。这是因为弱标记的样本有噪声。当τ较小时,eml考虑了大量的噪声,这很容易使eml不能很好地学习有效的知识。当τ较大时,可用样本较少,eml也无法学习有效知识。
[0212]
对于超参数ρ,随着ρ的增加,eml的影响也呈现出同样的趋势。当ρ较小时,模型在元训练中使用了大量的事件适应任务,这可能会使学习虚假信息检测的知识变得困难。当ρ较大时,特别是ρ=1时,eml将退化为不使用事件自适应元任务,模型不能很好地学习事件不变表示。
[0213]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较
佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.基于情绪感知元学习的跨事件虚假新闻检测方法,其特征在于:包括如下步骤:s1:构建情绪感知元任务和事件自适应元任务:s11:构建情绪感知元任务:用k表示d
s
的事件集合,m∈{real,fake}是标签集合,是d
s
中事件为k∈k且标签为m∈m的所有样本集合,是事件为k∈k且标签为-m∈m的所有样本集合,将单个帖子当作一个第i个元任务t
i
的查询集t
i
的支持集由中和x
i
情绪序列最相近的q个样本以及中和x
i
情绪序列最相反的q个样本组成;设中有n个样本,即共有n个情绪感知元任务,第i个元任务t
i
表示为用e
i
表示x
i
的情绪序列,使用以下公式衡量x
i
和x
j
之间的情绪相似性:其中j∈{1,2,

,|d
k
|}且i≠j;s12:构建事件自适应元任务:定义mmd距离由高斯核函数的特定表示φ(
·
)计算,它作用于源事件数据和目标事件数据mmd的经验近似为:其中,表示基础检测模型的最后一个mlp的输入,即帖子的嵌入;s2:对情绪感知元任务进行加权元学习s21:为每个计算相应的类原型的计算公式为:其中ε(x
i
)是x
i
的文本嵌入,语义权重的计算方法为:其中cos函数是余弦相似度函数,η是超参数,1(
·
)是一个指示函数,表示事件为k的一个样本,k代表源域事件数量,代表不是当前样本的其余事件原型;s22:为源数据中的真实信息和虚假信息构建一个情绪原型d
m
,通过平均所有对应样本的情绪序列得到原型表示:
其中d
m
是d
s
中的标签是m的所有样本集合,情绪权重的计算方法为:其中,d
m
表示与帖子标签相同的情绪原型,d-m
表示与帖子标签相反的情绪原型;t
i
的权值w
i
为:其中,λ是一个平衡因子;s3:通过对基本检测模型进行训练得到初步检测模型将进行加权元学习后的情绪感知元任务输入基本检测模型进行训练,根据损失不断迭代更新基本检测模型的参数,直至损失不再变化则得到初步检测模型;在对基本检测模型进行训练时每次迭代中,以概率ρ∈(0,1)选择情绪感知元任务,以概率为1-ρ选择事件自适应元任务,ρ是一个超参数;s4:使用目标事件数据对s3所得进行微调得到最优模型对于新的事件数据d
t
,根据d
t
创建测试任务,其中支持集和查询集随机选择,对于一个测试任务t
i

,使用t
i

的支持集对进行n次微调:θ

j
=u
n

*
;γ)其中,θ

j
表示用目标事件数据微调后的的参数,u
n
表示表示对的损失梯度下降n次,θ
*
表示的参数,γ表示学习率;对t
i

的查询集使用进行验证,当预测准确率达到预设阈值时执行下一步,否则将作为基本检测模型返回s3继续训练;s5:目标领域待检测帖子的检测:对于一个待检测帖子,将该待检测帖子输入s4得到的最优模型输出该待检测帖子的预测标签。2.如权利要求1所述的基于情绪感知元学习的跨事件虚假新闻检测方法,其特征在于:所述s4中对s3所得进行微调时,如果目标领域样本数量为零,首先根据帖子的情绪序列分配弱标签,然后为每个帖子分配权重,最后使用这些弱标签数据对进行微调;根据新事件的情绪序列为帖子生成弱标签:如果帖子的情绪序列更接近真实帖子的情绪原型,则帖子的弱标签是真实的,反之亦然,公式是其中,d
real
表示真实帖子的情绪原型,d
fake
表示虚假帖子的情绪原型;如果情绪序列越接近其弱标签原型,则可认为弱标签的置信度越强,权重应越大,弱样本的权值为
其中,τ是情绪阈值,使用表示弱样本的学习率γ和弱样本权重进行梯度下降n次;3.如权利要求1或2所述的基于情绪感知元学习的跨事件虚假新闻检测方法,其特征在于:所述s3中基本检测模型基本检测模型由情绪特征提取器和语义特征提取器两部分组成,s31:情绪特征提取器根据先验知识给每个帖子构建了一个情绪序列,通过情绪序列特征将帖子情绪序列e捕获为24维向量,然后通过一层mlp层得到情绪特征f
e
=mlp(e);s32:语义特征提取器使用bert作为语义特征提取器,采用bert的最后一层中“[cls]”的嵌入来表示语义嵌入f
t
;s33:帖子的最终嵌入是情绪嵌入和语义嵌入的结合:f=f
e
+f
t
然后通过带有softmax的线性分类检测器检测虚假信息:4.如权利要求3所述的基于情绪感知元学习的跨事件虚假新闻检测方法,其特征在于:当输入基本检测模型进行训练的是情绪感知元任务时,所述s3中的损失采用交叉熵损失函数l
c
计算:其中y表示帖子的真实标签,表示帖子的预测标签;当输入基本检测模型进行训练的是事件自适应元任务训练时,所述s3中的损失采用两个事件的mmd作为损失函数l
e
计算:5.如权利要求3所述的基于情绪感知元学习的跨事件虚假新闻检测方法,其特征在于:所述s3对基本检测模型进行训练得到m
θ*
的过程中,所述事件自适应元任务只更新基本检测模型中情绪特征提取器和语义特征提取器中的参数,所述情绪感知元任务用于更新情绪特征提取器、语义特征提取器和线性分类检测器中的参数。

技术总结
本发明涉及基于情绪感知元学习的跨事件虚假新闻检测方法,它包括构建情绪感知元任务和事件自适应元任务;对情绪感知元任务进行加权元学习;将事件自适应元任务和经过加权元学习后的情绪感知元任务输入基本检测模型进行训练得到初步检测模型;使用目标事件数据对初步模型进行微调得到最优模型;将待检测帖子输入最优模型,输出该待检测帖子的预测标签。本发明将情绪深度融入元学习过程,从已有事件中学习细粒度的元知识,构建情绪感知任务,通过双层优化目标得到能使多个已有事件损失快速达到极小值的初始化参数,通过使模型参数对多个事件敏感,使模型在只有少量标记数据的情况下快速适应目标事件。下快速适应目标事件。下快速适应目标事件。


技术研发人员:高旻 黄胤秋 殷俊伟 王佳 熊庆宇 王悦阳 范琪琳
受保护的技术使用者:重庆大学
技术研发日:2023.03.28
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐