一种基于人脸几何关系推理的深度伪造检测方法
未命名
09-17
阅读:86
评论:0

1.本发明涉及视频取证技术领域,特别是一种基于人脸几何关系推理的深度伪造检测方法。
背景技术:
2.人工智能创作内容作为新兴技术被社交媒体广泛传播,但是人工智能内容生成技术的普及适得人脸视频篡改操作变得更易接触。深度伪造作为最初被广泛传播的人脸视频篡改技术,经过技术的发展,已经能够合成极为真实的人脸视频,人类难以直接分辨。若生成的深度伪造视频被滥用,将对隐私、政治和国家安全都带来严重风险。因此,深度伪造视频检测已经成为信息安全领域多媒体取证技术中重要的研究问题。由于真实人脸与伪造人脸之间的特征差异较小,存在的篡改痕迹难以利用现有深度学习模型识别。为提升检测的有效性,现有基于深度学习的深度伪造方法,利用多种特征注意力机制提升网络模型对细微差异的判别能力。但是深度伪造方法的不断发展,导致不同深度伪造模型生成的篡改痕迹存在较大差异。现有大部分方法,通常仅适用于单一或者少量种类的篡改痕迹,泛化性能有限,以发表于权威期刊ieee transactions on pattern analysis and machine intelligence 2022年第44卷,第10期中的文章deepfake detection based on discrepancies between faces and their context为例,该方法在以faseswap方法生成的人脸图像中取得了99.7的auc检测分数,但是难以检测改进版本的deepfakes生成的人脸图像,auc分数将会下降接近35%。针对新出现的深度伪造技术,需要进一步设计新的特征注意力模块才能够得到更好的检测效果。但是,社交媒体等实际应用环境下,需要应对时刻更新的深度伪造视频,更新模型成本较高,因此现有技术难以满足实际需求,亟须提升模型设计的泛化能力。
技术实现要素:
3.本发明的目的在于解决上述局限性,提供一种基于人脸几何关系推理的深度伪造检测方法,进一步提高对深度伪造视频的检测的泛化能力。
4.实现本发明目的的技术方案如下:
5.一种基于人脸几何关系推理的深度伪造检测方法,利用transformer构建全局特征提取器,获取人脸图像全局特征图;在人脸全局特征图基础上,通过自监督学习机制定位高信息量区域并构建人脸隐式几何关系图;利用图卷积神经网络构建人脸内部几何关系推理模块,将人脸显式和隐式几何关系图进行特征联合,对待测试视频帧进行伪造检测,以提升人脸深度伪造视频检测的准确率,包括以下主要步骤:
6.步骤1:获取同时包含真伪样本的训练视频,对视频帧进行间隔采样,使用人脸检测器按帧提取人脸及少部分背景区域作为人脸图像;
7.步骤2:针对每帧人脸图像,使用人脸关键点检测器检测人脸468个三维关键点,并根据人脸面部关系构建人脸显式几何关系图;
8.步骤3:构造全局特征提取器,提取每帧人脸图像的全局特征;
9.步骤4:构造基于自监督学习方法的高信息量区域定位器,用于定位全局特征中信息量更高的特征区域,并构造特征区域间的人脸隐式几何关系图;
10.步骤5:构造人脸几何关系推理模块,基于图卷积神经网络提取人脸显式和隐式几何关系图特征,并匹配图节点关系;
11.步骤6:将测试集中连续帧中的连续人脸图像输入训练完成的模型,得到预测属于真伪的概率分数,并对全视频帧的分数进行平均,判断视频真伪。
12.进一步地,步骤1中,人脸图像获取的具体方法为:
13.(1)预设视频帧的采样间隔,由视频第一帧开始,以所述采样间隔提取从所述视频中提取视频帧;
14.(2)使用retinaface人脸检测器确定当前视频帧中的人脸候选框,在图像左上角建立笛卡尔坐标系,候选框坐标可以表示为(x,y,w,h),其中(x,y)为候选框左上角坐标,w,h分别表示候选框的长宽;
15.(3)根据预设比例r扩大候选框范围,人脸候选框变为(x-r
×
w,y-r
×
h,w+r
×
w,h+r
×
h),将候选框范围内图像截取作为人脸图像。
16.进一步地,在步骤2中,构建人脸显式几何关系图的具体方法为:
17.(1)将所述人脸图像输入预先训练的人脸三维关键点提取器mediapipe中,获得428个人脸关键点;
18.(2)将所述人脸关键点作为显式几何关系图的节点v
l
,根据人脸关键点在人脸中所在位置,将眉毛、瞳孔、眼眶、唇部和面部轮廓的节点依次连接,形成外观轮廓,然后再根据人脸几何结构,将所述五个部分的节点相互连接,构成人脸显式几何关系图g
l
。
19.进一步地,步骤3中,所述全局特征提取器为mobilevit或者其他基于vision transformer实现的骨干网络。
20.进一步地,步骤4中,基于自监督学习方法的高信息量区域定位器的具体方法为:
21.(1)在所述人脸全局特征图中,利用区域提按网络获取m个感兴趣区域;
22.(2)将感兴趣区域的局部特征输入简单二分类器f
p
中,该分类器使用1层1
×
1卷积核将局部特征通道数降维为2通道,然后使用激活函数和批归一化层增加特征的非线性表达能力,得到局部语义信息特征利用全局平均池化将长与宽下采样为1;
23.(3)使用交叉熵损失函数计算每个局部特征的二分类结果与当前人脸真伪之间的损失值l
p
;
24.(4)将所述从每张图像中获得的全部损失值从大到小进行排列;
25.(5)将每个局部特征获得的损失值l
p
和对应的区域提案分数s
p
之间求平方差,得到全部平方差后计算均值,作为自监督学习的损失函数
26.进一步地,步骤4中,构建人脸隐式几何关系图gp具体方法为:
27.(1)根据高信息量区域定位器的信息量分数s
p
,选取分数最高的n个高信息量区域局部特征f
p
作为集合,将其中每个f
p
由尺寸为2
×w×
h的特征矩阵转换为尺寸为t
×
2的特征向量,其中t=w
×
h,将转换后的特征向量集合作为人脸隐式几何关系图节点h,将转换后的特征向量集合作为人脸隐式几何关系图节点
28.(2)将节点集合的尺寸n
×
t
×
2转换为n
×cp
,其中c
p
=t
×
2,利用softmax运算将节
点集合转换为注意力向量v
att
=softmax(v
p
);
29.(3)基于自注意力机制,计算v
p
和注意力向量转置的关系,得到隐式几何关系图节点连接的邻接矩阵其尺寸为n
×
n。
30.进一步地,步骤5中,几何关系推理模块构成包括显式人脸几何特征推理模块,隐式人脸几何特征推理模块,图特征匹配模块,以及图分类器:
31.(1)所述显式人脸几何特征推理模块,利用基于图卷积神经网络构建的点云分析模型,在人脸显式几何关系图gl的基础上,获得显式人脸几何关系的图特征表达g
gr
;
32.(2)所述隐式人脸几何特征推理模块,利用两层图卷积网络模型,在隐式几何关系图g
p
的基础上,获得隐式人脸几何关系的图特征表达g
ir
;
33.(3)所述图特征匹配模块,利用两层交互式图卷积网络模型,在几何关系图g
gr
和g
ir
的基础上,融合多视角几何关系,获得融合几何关系图gf;
34.(4)所述图分类器,利用全局平均池化和全局最大池化分别获得图节点特征的最大值和平均值,融合二种观测角度的图表示特征,基于多层感知机进行分类。
35.实施中,图特征匹配模块具体方法为:
36.(1)基于所述几何关系图g
gr
和g
ir
包含的图节点特征集合v
gr
和v
ir
,使用互注意力机制计算v
gr
和v
ir
的转置的成对关系,得到g
gr
连接g
ir
的邻接矩阵其尺寸为n
×
n;
37.(2)基于所述几何关系图g
gr
和g
ir
包含的图节点特征集合v
gr
和v
ir
,使用互注意力机制计算v
ir
和v
gr
的转置的成对关系,得到g
gr
连接g
ir
的邻接矩阵其尺寸为n
×
n;
38.(3)基于所述图节点特征集合v
gr
和v
ir
,邻接矩阵a
gi
和a
ig
,使用交互式图卷积网络模型匹配图节点特征,推理深度伪造人脸图像存在的几何异常。
39.实施中,交互式图卷积网络模型计算过程具体为:
40.(1)提取g
gr
连接g
ir
的隐式特征关系图节点特征表达:
[0041]vgi
=σ(w1×
σ(a
givgrwgi
)+v
gr
);
[0042]
其中w1和w
gi
均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数,为relu或者leaky relu函数;
[0043]
(2)提取g
ir
连接g
gr
的隐式特征关系图节点特征表达:
[0044]vig
=σ(w2×
σ(a
igvirwig
)+v
ir
);
[0045]
其中w2和w
ig
均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数,为relu或者leaky relu函数;
[0046]
(3)将所述两个图节点特征表达v
gi
和v
ig
拼接,获得多角度几何关系图节点特征表达。
[0047]
实施中,步骤5中训练总损失函数为:
[0048][0049]
其中,为二分类交叉熵损失函数,并使用标签平滑技术,为自监督损失函数。p
p
和pa分别为局部高信息量区域分类结果、全局几何关系图节点特征分类结果,s
p
为
高信息量区域定位器的区域提案分数。
[0050]
步骤6中,使用训练好的模型对全部视频帧进行预测,将全部分数平均作为对所述视频中人脸真伪的预测结果。
[0051]
本发明利用深度学习技术保障包含人脸的视频内容安全。从人脸显式几何关系和隐式几何关系中提取特征,并推理基于人脸固有几何结构下存在的异常,用于判别当前图像是否存在伪造情况。
[0052]
相对于现有技术,本发明的有益效果在于:
[0053]
1.本发明利用三维人脸关键点构建人脸几何关系图作为人脸固有特征,并利用图卷积神经网络提取关系特征。
[0054]
2.利用transformer网络提取全局特征,并使用自监督学习方法定位高信息量区域,与伪造方式无关,并利用自注意力机制构建隐式几何关系图。
[0055]
3.匹配隐式几何关系和显式几何关系特征,并推理人脸几何异常,有效避免依赖特定的伪造痕迹,有效提升了深度伪造检测模型的泛化能力。
附图说明
[0056]
图1为本发明实施例的流程图。
[0057]
图2为本发明实施例的网络结构图。
[0058]
图3为本发明实施例的人脸显式几何图。
[0059]
图4为本发明在公开验证实例中与已有方法的实验结果比较。
[0060]
图5为本发明实施例的检测效果图。
具体实施方式
[0061]
下面结合附图和具体实施例,对本发明进一步说明。
[0062]
如图1~2所示,本发明实施例构造了基于人脸几何关系推理的深度伪造检测网络,其中包括了visinon transformer主干网络、高信息量区域定位器、高信息量区域分类器、点云分析网络、图卷积模块、交互式图卷积模块以及图分类器,构成了整个模型框架。图1给出了本发明的工作流程;图2给出了本发明在一种实施方式下的具体网络结构图。
[0063]
步骤1,获取同时包含真伪样本的训练视频,对视频帧进行间隔采样,使用人脸检测器,定位采样获得视频帧中人脸位置,并裁剪人脸及其周围的少部分背景区域作为人脸图像。在一些具体的实施场合,主干网络为resnet50的retinaface作为人脸检测器,将检测框以检测结果对应长和宽的0.1倍,将四个定位坐标扩大的范围,作为人脸检测的结果。针对每帧人脸图像,使用retinaface提供的关键点,根据其中眼睛、鼻子和嘴角的人脸关键点将全部图像对齐到统一尺寸;
[0064]
步骤2,使用三维人脸关键点检测器,提取三维人脸关键点,并根据人脸面部关系,构建包含人脸五官位置信息和面部轮廓信息的显式几何关系图g
l
;
[0065]
在一些具体的实施场合,使用mediapipe检测人脸,可以获得468个3维人脸关键点;
[0066]
步骤3,构造基于vision transformer的全局特征提取器,提取人脸全局特征。在一些具体的实施例中,主干网络使用mobilevit,将在imagenet数据集的预训练参数作为模
型初始化参数,保留模型的第一个下采样以及后续五个提取特征的阶段,提取每帧人脸图像的全局特征;
[0067]
步骤4,构造基于自监督学习方法的高信息量区域定位器,使用由卷积层和全连接层构建的区域提案网络,提供全局特征图中各区域的信息量分数s
p
以及对应坐标,将各区域送入由1层1
×
1卷积层构建的简单二分类器中,获得包含图像空间语义信息的二通道语义特征图并通过全局平均池化层提供当前区域属于伪造图像的概率,将概率与当前人脸图像的标签通过二分类交叉熵损失函数获得对应损失,计算损失值与信息量分数s
p
的求平方差作为自监督学习损失函数,保证简单局部二分类损失更高即不确定性更高的区域,作为高信息量区域定位器的检测结果。将所述检测获得的高信息区域特征作为图表示特征节点,并利用对应区域的二通道语义特征图联合构成图邻接矩阵,构成特征区域间的人脸隐式几何关系图。
[0068]
在一些具体的实施场合,高信息量区域定位器在训练过程中将提供20个候选区域,使用感兴趣区域池化统一为统一尺寸,例如7
×
7。对每个候选区域计算对应的二分类交叉熵损失,并将损失与20个候选区域的提案分数分别计算平方差,通过最小化二分类交叉熵损失和监督损失完成所述模块的训练。选取候选分数最高的6个区域的二通道语义特征每个区域特征可以拉伸为向量。将6个特征向量拼接构成人脸隐式几何关系图节点基于自注意力机制,人脸隐式几何关系图邻接矩阵为尺寸为6
×
6;
[0069]
步骤5,构造人脸几何关系推理模块,将人脸显式和隐式几何关系图表示g
l
和g
p
分别经过两个由图卷积层构成的神经网络进行图特征表示增强,获得增强后几何关系图表示g
gr
和g
ir
。构建多层交互式图卷积网络模型,匹配g
gr
和g
ir
的图节点特征关系,增强的几何关系图表征,并将增强后的特征融合为gf,突出几何异常特征节点,使用全连接层将图节点特征通道转换为二分类通道,并利用全局平均池化和全局最大池化分别计算全部节点的平均二分类预测值和全部节点的最大二分类预测值,将预测值相加,作为最终的分类结果,输出当前图像属于伪造图像的概率,使用交叉熵损失计算分类损失;
[0070]
在一些具体的实施场合,对于人脸显式几何关系图表示g
l
,通道数为3,节点数为468,图特征增强网络由基于图卷积网络的点云分析网络构成,主干网络使用curvenet,将图节点数量下采样与g
p
数量相同,同时加深特征表示维度即增强关系表示能力,特征维度与g
p
一致。隐式几何关系图表示g
p
,通道数为98,节点数为6,增强网络由两层简单图卷积网络结合非线性激活函数构成,维持原始图节点数量和通道数量。
[0071]
交互式图卷积网络计算具体步骤为:1)输入两个待匹配的图表征g1和g2;2)计算g1连接g2的邻接矩阵其中v1和v2为对应图的节点特征;3)增强g1图表征能力,更新图节点特征,其中w1和w1→2均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数;4)计算g2连接g1的邻接矩阵的邻接矩阵5)增强g2图表征能力,更新图节点特征,
其中w2和w2→1均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数;
[0072]
在一些具体的实施场合,非线性激活函数为relu或者leaky relu函数。
[0073]
在一些具体的实施场合,经过交互式图卷积网络模型增强后的特征节点,可通过拼接或者相加的方式融合。
[0074]
在一些具体的实施场合,交叉熵损失函数可以使用标签平滑正则化约束,具体为:
[0075][0076]
其中y∈[0+α,1-α]为真实标签,0代表真实图像,1代表伪造图像,α表示标签平滑参数,为预测概率值。
[0077]
在一些具体的实施场合,所述步骤1至步骤5构建的网络最终的损失函数如下式所示:
[0078][0079]
其中为二分类交叉熵损失函数,可以使用标签平滑技术替换为为自监督损失函数。p
p
和pa分别为局部高信息量区域分类结果、全局几何关系图节点特征分类结果,s
p
为高信息量区域定位器的区域提案分数。
[0080]
步骤6,将测试集中连续帧中的连续人脸图像输入训练完成的模型,输出对应帧属于真伪的概率分数,将视频对应的全部帧获得的概率分数进行平均,判断视频真伪。
[0081]
实施例
[0082]
本实施例包括以下步骤:
[0083]
s1:采集训练样本;
[0084]
s1.1:输入视频,对每个输入视频使用主干网络为resnet50的retinaface人脸检测器检测每帧中的人脸位置,训练阶段采用间隔采样的方式保留数量为l的人脸图像;
[0085]
s1.2:根据retinaface提供的主要关键点位置,包括双眼中心,左右嘴角以及面部中心对齐人脸图像,统一尺寸为380
×
380;
[0086]
s1.3:每张人脸图像赋予对应视频的类别标签,0表示真实视频,1表示伪造视频
[0087]
s2:构建如图3所示人脸显式几何关系图gl;
[0088]
s2.1:使用mediapipe获取3维468个人脸关键点坐标;
[0089]
s2.2:根据关键点位置,连接眼周、唇部、鼻子、面部轮廓等关键点,并根据面部区域分布关系,连接各部位;
[0090]
s3:构造基于vision transformer的全局特征提取器,提取人脸全局特征;
[0091]
s3.1:使用轻量化网络mobilevit作为全局特征提取器,有助于降低算法计算量,有助于本发明的实际使用。选取主干网络的第一个卷积下采样模块,以及后续5个mobilevit的基础模块,作为特征提取器;
[0092]
s3.2:输入尺寸为380
×
380的人脸图像,获取尺寸为11
×
11的全局特征图fa;
[0093]
s4:构造基于自监督学习方法的高信息量区域定位器,获取信息量最高的6个区域,并构建人脸隐式几何关系图g
p
。
[0094]
如图1和图2所示,人脸隐式几何关系图g
p
具体步骤为:
[0095]
s4.1:使用双阶段目标检测器中常见的区域提案网络作为高信息量区域定位器,
基于锚框的方式,在全局特征图fa提供20个感兴趣区域候选框,候选框对应的候选分数被看作信息量分数;
[0096]
s4.2:使用感兴趣区域池化方法将候选框所在位置特征统一尺寸,变为7
×
7;
[0097]
s4.3:将20个感兴趣区域特征送入1
×
1卷积层,将每个区域特征通道变为2,获得二通道语义特征其尺寸7
×7×
2,再使用全局平局池化将每个特征图的尺寸下采样,获得真伪预测概率分数;
[0098]
s4.4:计算每个感兴趣区域的预测概率分数与对应的人脸图像标签的二分类交叉熵损失;
[0099]
s4.5:计算交叉熵损失值与候选框候选分数的平方差,保持候选分数更高的区域对应了更高的局部分类损失,代表对应的不确定性越高,或称之为不确定性越高;
[0100]
s4.6:选取候选分数最高的6个区域特征,作为当前图像的高信息量区域;
[0101]
s4.7:每个区域特征拉伸为向量,并拼接构成人脸隐式几何关系图节点
[0102]
s4.8基于自注意力机制,计算节点之间的连接关系,构建图邻接矩阵为s4.8基于自注意力机制,计算节点之间的连接关系,构建图邻接矩阵为尺寸为6
×
6;
[0103]
s5:构造人脸几何关系推理模块,分析推理人脸几何异常;
[0104]
s5.1:使用基于图卷积网络的curvenet去除分类器作为点云分析网络ψ(
·
);
[0105]
s5.2:输入人脸显式几何关系图gl,使用点云分析网络分析人脸显式几何关系,并提取其中最重要的6个特征节点,输出特征增强后的关系图g
gr
=ψ(gl),输出特征维度为96;
[0106]
s5.3:使用图卷积层和非线性激活函数共同构成图卷积模块,并使用两层图卷积模块作为人脸隐式几何关系图增强网络ω(
·
);
[0107]
s5.4:输入人脸隐式几何g
p
,使用人脸隐式几何关系图增强网络增强图特征表示,输出增强关系图g
ir
=ω(gp)
[0108]
s5.5:使用交互式图卷积层和非线性激活函数共同构成交互式图卷积模块,并使用两层交互式图卷积模块作为几何关系图匹配网络φ(
·
);
[0109]
s5.6:输入几何关系图g
gr
和g
ir
,获得节点匹配关系推理图(g
gigig
)=φ(g
gr
,g
ir
)以及相应的特征节点v
gi
和v
ig
;
[0110]
s5.7:按照通道方向进行拼接,或者融合节点特征
[0111]
s5.8:使用全连接层将融合节点特征vf的特征通道转为
[0112]
s5.8:使用全局平均池化获取节点分类平均分数p1∈[0,1];
[0113]
s5.8:使用全局最大池化获取节点分类最大分数p2∈[0,1];
[0114]
s5.9:将作为根据几何异常推理得到的真伪概率分数,与图像标签计算二分类交叉熵损失;
[0115]
s6:获取待测试视频,使用人脸检测器,检测视频中包含的全部人脸图像,将图像依次输入训练好的模型中,得到每张图像的真伪概率分数,计算视频全部图像预测分数平
均值,获得视频的真伪概率分数;
[0116]
本实施例采用roc曲线下面积(area under the roc curve,auc)作为评估指标,roc曲线是由真阳性率(tpr)和假阳性率(fpr)分别作为横纵坐标构成。其中真阳性率是指在实际为正例样本中,被正确预测为正样本的比例;假阳性率是指在实际为负例样本中,被错误预测为负样本的数量。auc分数越接近1说明模型性能越好,并且auc分数不受分类器阈值设定影响,是具有鲁棒性的评估指标。
[0117]
图4为本发明在公开验证实例中与已有方法的实验结果比较。本实施例选择使用faceforensices++(ff++)数据集中的高质量(c23)数据集训练模型,在ff++(c23)和celebdf v2数据集测试集验证方法的有效性。结果表明:本发明所提出的方法在ff++(c23)和celebdf v2两个公开数据集上都有着良好的表现。在保持较高的数据域内检测性能的同时,有效提升了针对未知深度伪造方法的检测性能。相较于对比算法具有较好的检测效果。
[0118]
图5为本发明的验证实例在不同数据集上的检测效果图,具体显示了本发明提出方法显式几何关系图,隐式几何关系图以及对应的特征grad-cam重点关注区域效果。
[0119]
以上实施例仅用于说明本发明的技术方案而非限制,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之中,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于人脸几何关系推理的深度伪造检测方法,利用transformer构建全局特征提取器,获取人脸图像全局特征图;在人脸全局特征图基础上,通过自监督学习机制定位高信息量区域并构建人脸隐式几何关系图;利用图卷积神经网络构建人脸内部几何关系推理模块,将人脸显式和隐式几何关系图进行特征联合,对待测试视频帧进行伪造检测,以提升人脸深度伪造视频检测的准确率,包括以下主要步骤:步骤1:获取同时包含真伪样本的训练视频,对视频帧进行间隔采样,使用人脸检测器按帧提取人脸及少部分背景区域作为人脸图像;步骤2:针对每帧人脸图像,使用人脸关键点检测器检测人脸468个三维关键点,并根据人脸面部关系构建人脸显式几何关系图;步骤3:构造全局特征提取器,提取每帧人脸图像的全局特征;步骤4:构造基于自监督学习方法的高信息量区域定位器,用于定位全局特征中信息量更高的特征区域,并构造特征区域间的人脸隐式几何关系图;步骤5:构造人脸几何关系推理模块,基于图卷积神经网络提取人脸显式和隐式几何关系图特征,并匹配图节点关系;步骤6:将测试集中连续帧中的连续人脸图像输入训练完成的模型,得到预测属于真伪的概率分数,并对全视频帧的分数进行平均,判断视频真伪。2.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于步骤1中,人脸图像获取的具体方法为:(1)预设视频帧的采样间隔,由视频第一帧开始,以所述采样间隔提取从所述视频中提取视频帧;(2)使用retinaface人脸检测器确定当前视频帧中的人脸候选框,在图像左上角建立笛卡尔坐标系,候选框坐标可以表示为(x,y,w,h),其中(x,y)为候选框左上角坐标,w,h分别表示候选框的长宽;(3)根据预设比例r扩大候选框范围,人脸候选框变为(x-r
×
w,y-r
×
h,w+r
×
w,h+r
×
h),将候选框范围内图像截取作为人脸图像。3.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤2中,构建人脸显式几何关系图的具体方法为:(1)将所述人脸图像输入预先训练的人脸三维关键点提取器mediapipe中,获得428个人脸关键点;(2)将所述人脸关键点作为显式几何关系图的节点v
l
,根据人脸关键点在人脸中所在位置,将眉毛、瞳孔、眼眶、唇部和面部轮廓的节点依次连接,形成外观轮廓,然后再根据人脸几何结构,将所述五个部分的节点相互连接,构成人脸显式几何关系图g
l
。4.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤3中,所述全局特征提取器为基于vision transformer实现的骨干网络,如mobilevit。5.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤4中,基于自监督学习方法的高信息量区域定位器的具体方法为:(1)在所述人脸全局特征图中,利用区域提按网络获取m个感兴趣区域;(2)将感兴趣区域的局部特征输入简单二分类器f
p
中,该分类器使用1层1
×
1卷积核将局部特征通道数降维为2通道,然后使用激活函数和批归一化层增加特征的非线性表达能
力,得到局部语义信息特征利用全局平均池化将长与宽下采样为1;(3)使用交叉熵损失函数计算每个局部特征的二分类结果与当前人脸真伪之间的损失值l
p
;(4)将所述从每张图像中获得的全部损失值从大到小进行排列;(5)将每个局部特征获得的损失值l
p
和对应的区域提案分数s
p
之间求平方差,得到全部平方差后计算均值,作为自监督学习的损失函数6.如权利要求1或5所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤4中,构建人脸隐式几何关系图g
p
具体方法为:(1)根据高信息量区域定位器的信息量分数s
p
,选取分数最高的n个高信息量区域局部特征f
p
作为集合,将其中每个f
p
由尺寸为2
×
w
×
h的特征矩阵转换为尺寸为t
×
2的特征向量,其中t=w
×
h,将转换后的特征向量集合作为人脸隐式几何关系图节点h,将转换后的特征向量集合作为人脸隐式几何关系图节点(2)将节点集合的尺寸n
×
t
×
2转换为n
×
c
p
,其中c
p
=t
×
2,利用softmax运算将节点集合转换为注意力向量v
att
=softmax(v
p
);(3)基于自注意力机制,计算v
p
和注意力向量转置的关系,得到隐式几何关系图节点连接的邻接矩阵其尺寸为n
×
n。7.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤5中,几何关系推理模块构成包括显式人脸几何特征推理模块,隐式人脸几何特征推理模块,图特征匹配模块,以及图分类器:(1)所述显式人脸几何特征推理模块,利用基于图卷积神经网络构建的点云分析模型,在人脸显式几何关系图g
l
的基础上,获得显式人脸几何关系的图特征表达g
gr
;(2)所述隐式人脸几何特征推理模块,利用两层图卷积网络模型,在隐式几何关系图g
p
的基础上,获得隐式人脸几何关系的图特征表达g
ir
;(3)所述图特征匹配模块,利用两层交互式图卷积网络模型,在几何关系图g
gr
和g
ir
的基础上,融合多视角几何关系,获得融合几何关系图g
f
;(4)所述图分类器,利用全局平均池化和全局最大池化分别获得图节点特征的最大值和平均值,融合二种观测角度的图表示特征,基于多层感知机进行分类。8.如权利要求7所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,所述图特征匹配模块具体方法为:(1)基于所述几何关系图g
gr
和g
ir
包含的图节点特征集合v
gr
和v
ir
,使用互注意力机制计算v
gr
和v
ir
的转置v
irt
的成对关系,得到g
gr
连接g
ir
的邻接矩阵其尺寸为n
×
n;(2)基于所述几何关系图g
gr
和g
ir
包含的图节点特征集合v
gr
和v
ir
,使用互注意力机制计算v
ir
和v
gr
的转置的成对关系,得到g
gr
连接g
ir
的邻接矩阵其尺寸为n
×
n;(3)基于所述图节点特征集合v
gr
和v
ir
,邻接矩阵a
gi
和a
ig
,使用交互式图卷积网络模型匹配图节点特征,推理深度伪造人脸图像存在的几何异常。9.如权利要求7所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,交互式图卷积网络模型计算过程具体为:
(1)提取g
gr
连接g
ir
的隐式特征关系图节点特征表达:v
gi
=σ(w1×
σ(a
givgr
w
gi
)+v
gr
);其中w1和w
gi
均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数,为relu或者leaky relu函数;(2)提取g
ir
连接g
gr
的隐式特征关系图节点特征表达:v
ig
=σ(w2×
σ(a
igvir
w
ig
)+v
ir
);其中w2和w
ig
均为交互式图卷积网络可学习参数,σ(
·
)表示非线性激活函数,为relu或者leaky relu函数;(3)将所述两个图节点特征表达v
gi
和v
ig
拼接,获得多角度几何关系图节点特征表达。10.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤5中,训练总损失函数为:其中,为二分类交叉熵损失函数,并使用标签平滑技术,为自监督损失函数。p
p
和p
a
分别为局部高信息量区域分类结果、全局几何关系图节点特征分类结果,s
p
为高信息量区域定位器的区域提案分数。11.如权利要求1所述的一种基于人脸几何关系推理的深度伪造检测方法,其特征在于,步骤6中,使用训练好的模型对全部视频帧进行预测,将全部分数平均作为对所述视频中人脸真伪的预测结果。
技术总结
本发明公开了一种基于人脸几何关系推理的深度伪造检测方法,涉及视频被动取证领域,用于提升深度伪造检测模型的泛化能力。本发明首先利用人脸特征点检测器检测人脸关键点特征,并根据人脸内部五官结构,构建人脸显式几何关系图;利用Transformer构建全局特征提取器,获取人脸图像全局特征图;在人脸全局特征图基础上,通过自监督学习机制定位高信息量区域并构建人脸隐式几何关系图;利用图卷积神经网络构建人脸内部几何关系推理模块,将人脸显式和隐式几何关系图进行特征联合,对待测试视频帧进行伪造检测。本发明能够有效提升人脸深度伪造视频检测的准确率,在不同数据域下模型泛化性能较好,具有实用价值。具有实用价值。具有实用价值。
技术研发人员:王宏霞 张瑞 刘汉卿 周炀 曾强
受保护的技术使用者:四川大学
技术研发日:2023.04.18
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/