一种基于相似性聚类的多隐写者检测方法、装置及计算机存储介质
未命名
07-23
阅读:71
评论:0

1.本发明涉及一种隐写者方法、装置及计算机存储介质,特别是涉及一种基于相似性聚类的多隐写者检测方法、装置及计算机存储介质。
背景技术:
2.以不为人知的方式在网络公共信道传输秘密通讯消息,即隐写术,隐写者检测旨在网络社交平台中找到利用自然载体传输秘密消息的用户,保障信息内容安全。在当今的社交媒体网络中,每天都会产生大量的通信数据,尤其是数字图像数据。图像隐写者检测是多媒体信息内容安全的一个重要任务。
3.图像隐写者检测任务分为两大步骤:用户特征提取和找出隐写者。用户特征提取主要分为两种,基于传统手工设计的特征提取和基于深度学习自主提取;找出隐写者也有两种方法,分别是基于距离分布的聚合层次聚类(agglomerative hierarchical clustering,ahc)算法和局部离群因子(local outlier factor,lof)算法。
4.从现有的隐写者检测方法来看,主要研究方向依旧在用户的特征提取方面,普遍使用层次聚类方法或异常值检测方法来找出隐写者。然而这些方法通常都有明显的局限性,比如层次聚类方法,在用户聚类时通常会将所有用户最终划分为两个簇,默认簇用户少的那一类为隐写者,但假设没有隐写者,则会造成一定的虚警率;其次就是异常值检测方法,该方法局限性尤为明显,该方法会给每个用户计算一个异常值,并根据异常值大小将用户排序,最用选出前k名用户作为隐写者,这个k需要人为指定,也就是说是需要已知隐写者的数量的。然而现实情况下隐写者数量并不可知,可能存在0个或多个隐写者,这样一来上述方法就失效了。
技术实现要素:
5.针对上述现有技术的缺陷,本发明提供了一种基于相似性聚类的多隐写者检测方法,解决需要已知隐写者数量先验知识的问题,实现未知数量的隐写者检测。本发明提供了一种基于相似性聚类的多隐写者检测装置以及一种计算机存储介质。
6.本发明技术方案如下:一种基于相似性聚类的多隐写者检测方法,包括以下步骤:
7.在待检测用户中添加一个已知隐写者,获取所述待检测用户和所述已知隐写者发送的图像,所述已知隐写者发送的图像为根据隐写算法隐写的图像;
8.对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;
9.对所述特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,所述簇中的待检测用户为检测出的隐写者。
10.进一步地,所述对待检测用户以及已知隐写者发送的图像进行特征提取是针对每张图像提取128维隐写特征。
11.进一步地,所述已知隐写者发送的图像所使用的隐写算法为0.4bpp嵌入率的wow隐写算法。
12.进一步地,所述层次聚类采用自下而上聚类的聚合层次聚类,所述聚合层次聚类中通过mmd函数计算不同用户间的差异度,mmd函数为
[0013][0014]
其中n表示用户的单个图像提取的特征维数,x和y分别表示两个不同的用户,k表示正定核函数,xi,xj表示用户x的不同图像之间的特征,yi,yj表示用户y的不同图像之间的特征。
[0015]
进一步地,所述正定核函数为高斯函数。
[0016]
本发明还提供一种基于相似性聚类的多隐写者检测装置,包括:
[0017]
添加模块,用于在待检测用户中添加一个已知隐写者,获取所述待检测用户和所述已知隐写者发送的图像,所述已知隐写者发送的图像为根据隐写算法隐写的图像;
[0018]
提取模块,用于对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;
[0019]
以及聚类检测模块,用于对所述特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,所述簇中的待检测用户为检测出的隐写者。
[0020]
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述基于相似性聚类的多隐写者检测方法。
[0021]
本发明所提供的技术方案的优点在于:
[0022]
基于相似性聚类的多隐写者检测方法可以在不知道隐写者数目的前提下,根据隐写者之间特征分布的相关性,进一步划分出与已知隐写者为同一簇的隐写者用户集,从而实现0个或多个隐写者的检测,通过在公共数据集上进一步测试,验证了本发明在跨隐写术和跨嵌入率两大源不匹配问题上可以取得优异的效果,并且在多隐写者检测上也具有显著性能。
附图说明
[0023]
图1为本发明基于相似性聚类的多隐写者检测方法流程示意图。
[0024]
图2为本发明基于相似性聚类的多隐写者检测装置模块示意图。
具体实施方式
[0025]
下面结合实施例对本发明作进一步说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本说明之后,本领域技术人员对本说明的各种等同形式的修改均落于本技术所附权利要求所限定的范围内。
[0026]
本实施例的基于相似性聚类的多隐写者检测方法首先通过以下步骤训练并得到可以用于对图像进行特征提取的特征提取模型:
[0027]
步骤一:数据采集
[0028]
采用隐写分析领域常用的通用公共数据集,即bossbase1.01和bows2,这两个数据集各包含10000张灰度空域图像,并且图像大小都是512
×
512。
[0029]
步骤二:数据集预处理
[0030]
由于现有实验硬件设备的算力限制,需对数据集做进一步处理。针对bossbase1.01数据集,使用脚本算法将图像随机从横中线或竖中线分割,并将分割后的大小调整至统一的256
×
256大小,一共获得20000张统一大小的灰度空域子图;针对bows2数据集,将所有图像大小由512
×
512调整到256
×
256,共10000张图像,且后续所有实验验证都使用该大小的灰度图像。在模型训练时,需要模拟隐写用户嵌入秘密消息,因此设计成对的隐写图像和自然图像以供隐写特征提取模型训练。采用的隐写术为wow自适应隐写算法。
[0031]
步骤三:特征提取模型训练
[0032]
在特征提取模型训练时仅使用wow隐写算法模拟嵌入秘密信息,并且嵌入率设置为0.4bpp这一种。在模型训练过程中,使用预处理后的bossbase1.01数据集的一半作为训练原始数据集,通过模拟嵌入一共得到10000对自然图像和对应的隐写图,按照7:1.5:1.5的比例,将数据集划分为7000对作为训练集,1500对作为验证集,剩下的1500对作为测试集。特征提取模型在训练集上调整权重,在验证集上观察训练是否产生过拟合,并在测试集上测试模型准确率。该特征提取模型取自文献:xu h,tao z.spatial steganalysis based on non-local block and multi-channel convolutional networks[j].ieee access,2022,10:87241-87253.,具体隐写检测性能测试如表1所示,
[0033]
表1特征提取模型在wow数据集上的准确率(%)
[0034][0035]
可以看出模型在训练100个epoch时本发明与对比方法特征提取模型在验证集上的准确率,进一步表明了本发明的优越性。网络一共训练200个epoch,并得到最终的检测模型。
[0036]
本发明中将事先训练好的模型参数去掉最后一层分类层形成用于对用户图像进行特征提取,从用户传递的每张图像中可以提取到128维隐写特征,因此所有用户可以提取到128
×nu
×
ni维特征,其中nu表示待检测的用户数量,ni表是用户一共传递的图像数量。在进行最后检测步骤之前,会先提取到所有用户的特征,作为检测步骤的输入特征。
[0037]
基于以上基础,请结合图1所示,本实施例的基于相似性聚类的多隐写者检测方法包括以下步骤:
[0038]
在待检测用户中添加一个已知隐写者,获取待检测用户和已知隐写者发送的图像,已知隐写者发送的图像为根据隐写算法隐写的图像,为了降低先验知识的束缚,该额外引入的已知隐写者统一使用0.4bpp嵌入率的wow隐写算法模拟嵌入;
[0039]
对待检测用户以及已知隐写者发送的图像采用前述的去除分类层的特征提取模型进行特征提取获取特征集;
[0040]
对特征集进行层次聚类检测,将待检测用户所发送的图像提取的特征中与已知隐
写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,簇中的待检测用户为检测出的隐写者。该检测步骤可以定义为以下函数模型:
[0041]
f(x,e):x*e
→r[0042]
其中x表示位置用户提取的特征集,e表示额外添加的已知隐写者的特征集,r表示最终找到的未知隐写者,可能为多个,也可能为零个。
[0043]
f(x,e)作为聚类模型,将x中与e具有相似性特征分布的用户聚集为统一簇,剩下的用户分为一簇。本实施例聚类模型使用的是自下而上聚类的聚合层次聚类ahc,在用户聚类迭代中,自然用户与自然用户和隐写用户与隐写用户相似性较高,因此会较早聚类,隐写用户与自然用户差异性较大,会在迭代较晚阶段发生聚类,用户与用户的差异性可以使用距离函数来度量。在这里,本发明为了更好度量两个用户之间的特征分布,选择mmd算法计算不同用户之间的差异度。
[0044][0045]
其中n表示用户的单个图像提取的特征维,即128维,x和y分别表示两个不同的用户,k表示正定核函数,在这里使用高斯函数替代。xi,xj表示用户x的不同图像之间的特征,yi,yj表示用户y的不同图像之间的特征。
[0046]
因此改进后的聚合层次聚类ahc步骤如下:
[0047]
1)首先将每个用户视为一个单独个体;
[0048]
2)通过mmd函数计算每一个用户与其他用户之间的相似性距离度量值,并构成矩阵;
[0049]
3)通过相似性矩阵选出最有可能归为一类,并将这两个簇合并为同一簇;
[0050]
4)重复上述2)、3)步骤,直到所有用户都被划分至两个簇中,算法结束。
[0051]
最终将与已知隐写者划分为同一簇的用户作为待检测隐写者。
[0052]
对于本实施例的基于相似性聚类的多隐写者检测方法进行测试验证,采用的数据集基于预处理后的10000张bossbase1.01数据集和10000张bows2缩小后的数据集,一共有两万张,模拟199个用户在社交平台传递数字图像,其中隐写者的数量是未知的。特别地,本发明额外引入的一名已知隐写者完全使用嵌入率为0.4bpp的wow隐写算法嵌入秘密消息,因此一共200名用户。实验环境完全基于ubuntu16.04系统下的pytorch1.7版本执行,用于图像计算的显卡使用的是tesla p100,此外,数据集制作是在个人pc下实现,系统为win10家庭版,且内存为16gb,cpu型号为intel(r)core(tm)i5-9400。有关测试的评价指标为检测准确率,如下式所示:
[0053][0054]
其中n表示检测次数,即50次,tp、tn、fp、fn为混淆矩阵中的四个值,分别表示真阳性率、真阴性率、假阳性率、假阴性率。
[0055]
从表2、3、4中数据可以看出本发明不仅在跨嵌入率上取得了最好的检测性能,此外在跨隐写术时依旧具有可竞争性的检测效果。
[0056]
表2跨嵌入率时的检测准确率(%)
[0057][0058]
表3跨隐写术时的检测准确率(%)
[0059][0060][0061]
表4多隐写者时的检测准确率(%)
[0062][0063]
本发明为了避免先验知识的束缚所引入的隐写者完全使用单一的嵌入算法和单一的嵌入率,且在所有测试中一直保持同一份数据,进一步摆脱了以往方法需要已知隐写者数量的框架,从而实现未知数量隐写用户的检测。然而mscnn方法所使用lof检测方法需要已知隐写者数目,所以比本发明结果略高,但并不符合现实条件。
[0064]
请结合图2所示,本发明的另一实施例为基于相似性聚类的多隐写者检测装置,包括:
[0065]
添加模块100,用于在待检测用户中添加一个已知隐写者,获取待检测用户和已知隐写者发送的图像,已知隐写者发送的图像为根据隐写算法隐写的图像;
[0066]
提取模块200,本模块使用前一实施例中的去除分类层的特征提取模型对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;
[0067]
以及聚类检测模块300,用于对特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,簇中的待检测用户为检测出的隐写者。进行层次聚类时使用了以mmd算法计算用户差异度的改进后的聚合层次聚类ahc算法。
[0068]
应当指出的是,上述实施例的具体方法可形成计算机程序产品,因此,本技术实施的计算机程序产品可存储在在一个或多个计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上。
技术特征:
1.一种基于相似性聚类的多隐写者检测方法,其特征在于,包括以下步骤:在待检测用户中添加一个已知隐写者,获取所述待检测用户和所述已知隐写者发送的图像,所述已知隐写者发送的图像为根据隐写算法隐写的图像;对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;对所述特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,所述簇中的待检测用户为检测出的隐写者。2.根据权利要求1所述的基于相似性聚类的多隐写者检测方法,其特征在于,所述对待检测用户以及已知隐写者发送的图像进行特征提取是针对每张图像提取128维隐写特征。3.根据权利要求1所述的基于相似性聚类的多隐写者检测方法,其特征在于,所述已知隐写者发送的图像所使用的隐写算法为0.4bpp嵌入率的wow隐写算法。4.根据权利要求1所述的基于相似性聚类的多隐写者检测方法,其特征在于,所述层次聚类采用自下而上聚类的聚合层次聚类,所述聚合层次聚类中通过mmd函数计算不同用户间的差异度,mmd函数为其中n表示用户的单个图像提取的特征维数,x和y分别表示两个不同的用户,k表示正定核函数,x
i
,x
j
表示用户x的不同图像之间的特征,y
i
,y
j
表示用户y的不同图像之间的特征。5.根据权利要求4所述的基于相似性聚类的多隐写者检测方法,其特征在于,所述正定核函数为高斯函数。6.一种基于相似性聚类的多隐写者检测装置,其特征在于,包括:添加模块,用于在待检测用户中添加一个已知隐写者,获取所述待检测用户和所述已知隐写者发送的图像,所述已知隐写者发送的图像为根据隐写算法隐写的图像;提取模块,用于对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;以及聚类检测模块,用于对所述特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,所述簇中的待检测用户为检测出的隐写者。7.根据权利要求6所述的基于相似性聚类的多隐写者检测装置,其特征在于,所述添加模块中对待检测用户以及已知隐写者发送的图像进行特征提取是针对每张图像提取128维隐写特征。8.根据权利要求6所述的基于相似性聚类的多隐写者检测装置,其特征在于,所述添加模块中已知隐写者发送的图像所使用的隐写算法为0.4bpp嵌入率的wow隐写算法。9.根据权利要求6所述的基于相似性聚类的多隐写者检测装置,其特征在于,所述聚类检测模块中层次聚类采用自下而上聚类的聚合层次聚类,所述聚合层次聚类中通过mmd函数计算不同用户间的差异度,mmd函数为
其中n表示用户的单个图像提取的特征维数,x和y分别表示两个不同的用户,k表示正定核函数,x
i
,x
j
表示用户x的不同图像之间的特征,y
i
,y
j
表示用户y的不同图像之间的特征。10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至5中任意一项所述的基于相似性聚类的多隐写者检测方法。
技术总结
本发明公开了一种基于相似性聚类的多隐写者检测方法,包括步骤:在待检测用户中添加一个已知隐写者,获取所述待检测用户和所述已知隐写者发送的图像,所述已知隐写者发送的图像为根据隐写算法隐写的图像;对待检测用户以及已知隐写者发送的图像进行特征提取获取特征集;对所述特征集进行层次聚类将待检测用户所发送的图像提取的特征中与已知隐写者发送的图像提取的特征具有相似性特征分布的待检测用户与已知隐写者聚集为一簇,所述簇中的待检测用户为检测出的隐写者。本发明还公开了基于相似性聚类的多隐写者检测装置以及计算机存储介质。本发明可实现未知数量的隐写者检测,并在跨隐写术和跨嵌入率两大源不匹配问题上可以取得优异的效果。上可以取得优异的效果。上可以取得优异的效果。
技术研发人员:张涛 韩旭
受保护的技术使用者:常熟理工学院
技术研发日:2023.04.14
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/