一种基于分层深度多示例学习的基因突变预测方法及系统

未命名 10-19 阅读:97 评论:0


1.本发明涉及深度学习技术领域和图像视觉处理分类技术领域,特别是涉及一种基于分层深度多示例学习的基因突变检测方法及系统。


背景技术:

2.基因突变生物标志物对于癌症的精确诊断和精准治疗非常重要。因此,临床指南建议对大多数肿瘤患者进行基因突变的检测,一般是通过分子生物学方法进行检测。多项研究探索了基因突变生物标志物在癌症诊断和治疗中的作用。例如,在膀胱癌的治疗中,fgfr3突变与靶向治疗药物的适用性相关,基因突变生物标志物ercc2、erbb2、atm、rb1突变与化疗和免疫治疗的适用性相关。然而,由于分子生物学检测方法的周转时间长、组织使用量大且成本高,在临床实践的常规流程中无法进行广泛的基因突变检测。因此,迫切需要研发容易获取且廉价的基因突变预测方法,以对病理图像wsi进行二分类任务,得到其基因突变或不突变。
3.苏木精-伊红(hematoxylin-eosin,h&e)染色的病理图像便宜且易于获得。如果仅通过病理图像就可以预测基因突变,将极大促进基因突变检测的临床接受度。一般认为,肿瘤细胞的基因改变引起功能改变,从而影响肿瘤细胞的形态或肿瘤微环境(表型改变)。这种基因型-表型相关性为基于病理图像的基因突变预测提供了理论基础。同时,已有的研究也证实了这种相关性的存在。例如,通过全切片扫描病理图像wsi预测非小细胞肺癌的10个常见基因突变,结果发现其可以有效预测六种基因突变:stk11、egfr、fat1、setbp1、kras和tp53,在癌症基因组图谱(tcga)测试集上预测的auc(受试者工作特征曲线roc下的面积)范围在0.733和0.856之间。深度学习可以直接从膀胱癌病理图像中预测患者的fgfr3突变状态。在tcga队列中,预测fgfr3突变的auc为0.701。但是,目前基于病理图像的基因突变预测方法的预测效果较低,无法满足临床实际应用的需求。另外,可解释性在病理图像分析领域很重要,但目前大多数深度学习方法都缺乏可解释性。目前,病理医生无法通过人眼观察确定染色病理图像的哪些区域受到基因突变的影响,从而无法研究组织病理学形态变化与基因突变之间的相关性。
4.伴随着深度学习技术的突破性进展,基于全切片扫描图像wsi的癌症分类方法取得了很好的效果,但是基于wsi的基因突变预测方法并没有达到类似的分类效果。这主要是因为癌变区域具有明显的图像特征,而突变区域则没有,即仅从从病理图像无法区分出哪些区域发生了基因突变。由于“基因型决定表型”,所以,一个区域发生了癌症,肯定是某种突变导致的。但是人类有几万种基因,具体是哪种基因导致的是不知道。所以,wsi中哪里是突变区域,病理医生无法识别。基于wsi的癌症分类是病理学家可以用肉眼识别的任务,而基于wsi的基因突变预测是病理学家无法用肉眼识别的任务。这使得处理这两个任务的方法有本质的不同:癌症区域可以被标注,但突变区域无法被标注。以往的研究方法无法处理这个难题或者直接忽略了这种本质差异,导致预测性能不尽如人意。
5.多示例学习是一种弱监督的机器学习方法,适用于无法识别和标注突变区域的
wsi基因突变预测应用场景。尽管深度多示例学习(dmil)在许多领域取得了不错的效果,但直接在wsi上使用dmil并没有取得很好的效果。这是因为wsi的分辨率非常高(可以高达150,000
×
150,000像素),只能从wsi中选取少量的patch(约512
×
512像素)用于dmil。显然,随机选取的少量patch的代表性是无法保证的。最近,基于聚类的patch选取方法可以部分缓解patch代表性不够的问题。然而,基于聚类的dmil方法仍然存在两个问题。(1)选取patch数量不够。受限于gpu显存大小,dmil方法只能输入少量的patch(约128张patch)。这相对于从一张wsi中可以切分出的数万张patch,其代表性是不够的。(2)选取patch准确性不够。无监督聚类结果是不完全可靠的,错误选取的patch会引入噪声影响dmil的学习。如何从wsi中选取具有代表性的patch来提高dmil的分类效果是一个巨大的挑战。


技术实现要素:

6.本发明通过分层深度多示例学习方法来解决上述现有技术存在的问题。具体来说,目前基于病理图像的基因突变预测方法效果不佳而且可解释性差,因为无法识别全切片扫描图像(wsi)中的突变区域。本发明的目的是为了应对这一挑战,提出了一个基于分层深度多示例学习的基因突变预测方法及系统。
7.针对现有技术的不足,本发明提出一种基于分层深度多示例学习的基因突变预测方法,其中包括:
8.癌症区域识别步骤,获取已标注癌症和正常区域的wsi,并将癌症和正常区域作为wsi的类别标签,对wsi切分为尺寸均等的patch,得到wsi所有patch的类别标签,基于xception构建分类网络;
9.癌症区域聚类步骤,提取各patch的特征表示,基于该特征表示进行k-means聚类,每张wsi被聚类为多个类簇;
10.分层深度多示例学习分类步骤,包括hdmil-patch阶段和hdmil-group阶段;在该hdmil-patch阶段,wsi的癌症区域被聚成k个簇,每次从一个簇中随机选取一张patch pk,从而从k个簇中选出k张patch;所有来自同一张wsi的k个pk组成一个包patch-bag用于hdmil-patch训练,patch-bag:patch-bag的标签继承自wsi是否发生基因突变的标签y;基于所有wsi的patch-bag之后,使用admil算法来训练hdmil-patch模型直至收敛;hdmil-patch模型为:
[0011][0012]
y=fc(gn),
[0013]
其中,gn是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层;
[0014]
在hdmil-group阶段,使用第n个patch-bag的包级表示作为组group的表示group-instance;在wsi上重复随机选取n次,使一张wsi产生n个group-instances,将n个group-instances组成一个包group-bag用于hdmil-group训练,group-bag:group-bag的标签继承该标签y,基于所有wsi的group-bags,使用admil算法来训练hdmil-group模型直至收敛,hdmil-group模型为:
[0015][0016]
y=fc(fm),
[0017]
其中,fm是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型;
[0018]
基因突变预测可解释性步骤,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组group;然后在每组中,分别对hdmil-patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch,最终得到t
patch
×
t
group
个patch,作为wsi中与基因突变最相关的patch。
[0019]
所述的基于分层深度多示例学习的基因突变预测方法,其中该hdmil-patch模型和该hdmil-group模型均为admil模型。
[0020]
该癌症区域识别步骤包括:丢弃该wsi中组织含量小于阈值的patch。
[0021]
该wsi为全切片扫描图像。
[0022]
本发明还提出了一种基于分层深度多示例学习的基因突变预测系统,其中包括:
[0023]
癌症区域识别模块,获取已标注癌症和正常区域的wsi,并将癌症和正常区域作为wsi的类别标签,对wsi切分为尺寸均等的patch,得到wsi所有patch的类别标签,基于xception构建分类网络;
[0024]
癌症区域聚类模块,提取各patch的特征表示,基于该特征表示进行k-means聚类,每张wsi被聚类为多个类簇;
[0025]
分层深度多示例学习分类模块,包括hdmil-patch阶段和hdmil-group阶段;在该hdmil-patch阶段,wsi的癌症区域被聚成k个簇,每次从一个簇中随机选取一张patch pk,从而从k个簇中选出k张patch;所有来自同一张wsi的k个pk组成一个包patch-bag用于hdmil-patch训练,patch-bag:patch-bag的标签继承自wsi是否发生基因突变的标签y;基于所有wsi的patch-bag之后,使用admil算法来训练hdmil-patch模型直至收敛;hdmil-patch模型为:
[0026][0027]
y=fc(gn),
[0028]
其中,gn是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层;
[0029]
在hdmil-group阶段,使用第n个patch-bag的包级表示作为组group的表示group-instance;在wsi上重复随机选取n次,使一张wsi产生n个group-instances,将n个group-instances组成一个包group-bag用于hdmil-group训练,group-bag:group-bag的标签继承该标签y,基于所有wsi的group-bags,使用admil算法来训练hdmil-group模型直至收敛,hdmil-group模型为:
[0030][0031]
y=fc(fm),
[0032]
其中,fm是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型;
[0033]
基因突变预测可解释性模块,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组group;然后在每组中,分别对hdmil-patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch,最终得到t
patch
×
t
group
个patch,作为wsi中与基因突变最相关的patch。
[0034]
所述的基于分层深度多示例学习的基因突变预测系统,其中该hdmil-patch模型和该hdmil-group模型均为admil模型。
[0035]
所述的基于分层深度多示例学习的基因突变预测系统,其中该癌症区域识别模块包括:丢弃该wsi中组织含量小于阈值的patch。
[0036]
所述的基于分层深度多示例学习的基因突变预测系统,其中该wsi为全切片扫描图像。
[0037]
本发明还提出了一种存储介质,用于存储执行所述任意一种基于分层深度多示例学习的基因突变预测方法的程序。
[0038]
本发明还提出了一种客户端,用于任意一种基于分层深度多示例学习的基因突变预测系统。
[0039]
由以上方案可知,本发明的优点在于:
[0040]
基于8个和膀胱癌临床诊疗相关的基因突变(fgfr3、tp53、ercc2、erbb2、atm、rb1、kdm6a和pik3ca),并使用所提出的方法对它们进行预测。基于tcga膀胱癌数据集的实验结果表明,所提出方法的预测效果明显优于其它的基因突变预测方法。特别是可以很好地预测其中五个基因突变(atm、pik3ca、erbb2、fgfr3和ercc2),其预测auc都在0.83以上。得益于hdmil的两阶段注意力机制,我们可以找到hdmil判断的与基因突变最相关的patch,从而提供良好的可解释性。
附图说明
[0041]
图1为实施基于分层深度多示例学习的基因突变预测的结构示意图;
[0042]
图2为基于分层深度多示例学习的基因突变预测的方法细节示意图;
[0043]
图3为hdmil-patch和hdmil-group的网络结构示意图;
[0044]
图4为hdmil的可解释性示例,即hdmil判断的wsi(tcga-2f-a9kr-01z-00-dx1)上与fgfr3突变最相关的前9个patch;
[0045]
图5为本发明的分层深度多示例学习方法对选出的八个具有临床意义的基因突变的预测结果示意图。
具体实施方式
[0046]
为了实现上述技术效果,本发明提出一种基于分层深度多示例学习的基因突变预测方法,包括:
[0047]
步骤1、病理图像上的癌症区域识别。
[0048]
癌症区域识别可以等价为以下二分类任务:从wsi中切分出的所有patch的二分类(癌症或正常)。我们首先将对wsi进行手动标注癌症和正常区域,即在wsi中分别勾画出典型的癌症和正常区域轮廓。然后,基于轮廓获得所有patch的分类标签(癌症或正常)。其中,有大量空白区域(组织含量小于70%)的patch直接被丢弃。在综合考虑了分类精度、参数量
和计算成本之后,我们最终选择了xception作为分类网络。
[0049]
步骤2、病理图像上的癌症区域聚类。
[0050]
与从wsi中随机选取patch相比,基于聚类的patch选取方法确保了所有聚类簇都被考虑在内,从而大大降低了丢失关键patch的概率。为了对癌症区域进行聚类,我们首先使用对比学习方法提取patch的特征表示,然后基于该特征表示进行聚类。具体来说,bootstrap your own latent(byol)是一种用于自监督图像表示学习的对比学习算法。当byol训练收敛后,每张patch可以提取一个2048维的特征表示向量进行k-means聚类。经过k-means聚类,每张wsi被聚类为50个类簇。
[0051]
步骤3、分层深度多示例学习分类。
[0052]
分层深度多示例学习(hdmil)是我们提出的基因突变预测方法的关键部分。hdmil包括两个阶段:hdmil-patch阶段和hdmil-group阶段。两个阶段使用的多示例学习方法都是基于注意力的深度多示例学习方法(admil)。两个阶段的主要区别在于示例和包的构造。
[0053]
步骤4、可解释性(找到与基因突变最相关的patch)。
[0054]
得益于hdmil的两阶段注意力机制,我们可以找到hdmil判断的与基因突变最相关的patch,从而提供良好的可解释性。例如,hdmil预测的与fgfr3突变最相关的前9个patch如附图4所示。获取与某个基因突变最相关的patch的具体方法如下:首先,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组;然后在每组中,分别对hdmil-patch阶段的attentionweights进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch。经过这两个阶段的筛选,我们最终可以得到t
patch
×
t
group
个patch,也就是hdmil模型判断的与预测的基因突变最相关的patch。
[0055]
该步骤3包括:
[0056]
步骤31、在hdmil-patch阶段,每张wsi的癌症区域被聚成k个簇,我们每次从一个簇中随机选取一张patch(patch-instance,pk),从而从k个簇中选出k张patch。这些来自一张wsi的k个patch-instances组成一个包(patch-bag,也称为group)用于hdmil-patch训练,符号化表示为patch-bag:相应的patch-bag的标签继承自wsi的标签y。构建好所有wsi的patch-bag之后,我们调用admil算法来训练hdmil-patch模型直至收敛。hdmil-patch模型可以形式化的描述为:
[0057][0058]
y=fc(gn),
[0059]
其中,gn是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层。
[0060]
步骤32、在hdmil-group阶段,我们首先使用第n个patch-bag(group)的包级表示作为group表示gn,我们将gn命名为group-instance。在每张wsi上重复随机选取n次,这样一张wsi产生n个group-instances。然后,我们将这n个group-instances组成一个包(group-bag)用于hdmil-group训练,符号化表示为group-bag:相应的group-bag的标签也继承自wsi的标签y。构建好所有wsi的group-bags之后,我们再次调用admil算法来训练hdmil-group模型直至收敛。hdmil-group模型可以形式化的描述为:
[0061][0062]
y=fc(fm),
[0063]
其中,fm是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型。
[0064]
上述技术主要包括如下关键技术点:
[0065]
关键点1,本发明提出基于wsi的基因突变预测方法,包括监督学习(xception)、无监督学习(byol+k-means)和弱监督学习(hdmil)。该方法的预测性能高于现有预测方法;
[0066]
关键点2,预测方法的三个相互关联的部分可以确保在预测基因突变时考虑到有代表性的patch。具体来说,与之前在完整wsi上进行的弱监督学习不同,本发明首先使用监督学习方法(xception)将目标区域缩小到癌症区域,从而减少大量不相关patch对随后的弱监督学习的噪声影响;然后,基于对比学习(byol)得到的patch特征表示和癌症区域聚类(kmeans)结果,确保patch选取的全面性。最后,本发明提出了一种新的分层深度多示例学习(hdmil)方法,该方法可以确保足够多的patch被考虑到、错误选取的patch被忽略掉;
[0067]
关键点3,我们的方法具有可解释性。hdmil可以找到与基因突变最相关的patch,从而帮助病理医生分析基因突变与组织病理学形态之间的相关性。
[0068]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0069]
本发明提出一种基于分层深度多示例学习的基因突变预测方法与系统,从而提升仅仅利用病理图像对基因突变进行预测的效果,另外,本发明提出的方法具有很好的医学可解释性,可以帮助找到与基因突变最相关的病理图像区域。其具体实施方式如下:
[0070]
步骤1:病理图像上的癌症区域识别。
[0071]
癌症区域识别可以等价为以下二分类任务:从wsi中切分出的所有patch的二分类(癌症或正常)。首先将从癌症基因组图谱(tcga)下载的457张膀胱癌wsi分配给三位病理医生去手动标注癌症和正常区域,即在wsi中分别勾画出典型的癌症和正常区域轮廓。然后,基于轮廓获得所有patch的分类标签(癌症或正常)。其中,有大量空白区域的patch直接被丢弃。
[0072]
目前,卷积神经网络(cnn)在图像分类任务上取的了非常好的效果,所以我们选择了cnn进行patch分类。在综合考虑了分类精度、参数量和计算成本之后,最优实施例选择了xception作为分类网络。xception是inception-v3的改进,主要使用深度可分离卷积来代替原来inception-v3中的卷积操作。xception的分类精度不仅得到了进一步提高,而且参数量和计算成本也更低。
[0073]
步骤2:病理图像上的癌症区域聚类。
[0074]
与从wsi中随机选取patch相比,本发明将wsi平均无重叠的切分为大小相同的小图像块(patch),基于聚类的图像块patch选取方法确保了所有聚类簇都被考虑在内,从而大大降低了丢失关键patch的概率。为了对癌症区域进行聚类,我们首先使用对比学习方法提取patch的特征表示,然后基于该特征表示进行聚类。具体来说,bootstrap your own latent(byol)是一种用于自监督图像表示学习的对比学习算法。当byol训练收敛后,每张patch可以提取一个2048维的特征表示向量进行k-means聚类。k-means是一种无监督聚类算法。算法的核心思想是:对于给定的样本集,根据样本之间的距离,将样本集分成k个簇。
使簇内的点尽可能靠近,并使簇间的点尽可能远。通过实验对比,最优的簇数量k=50。
[0075]
步骤3:分层深度多示例学习分类。
[0076]
分层深度多示例学习(hdmil)是我们提出的基因突变预测方法的核心技术部分。癌症区域识别和癌症区域聚类部分是hdmil的前期准备工作。hdmil包括两个阶段:hdmil-patch阶段和hdmil-group阶段。hdmil的网络细节如附图3所示。两个阶段使用的多示例学习方法都是admil,网络结构如附图3所示。两个阶段的主要区别在于示例和包的构造。下面我们先简单介绍下admil,然后重点介绍hdmil-patch和hdmil-group阶段。
[0077]
在多示例学习admil中,训练集由多个带标签的“包”组成,每个“包”包含多个不带标签的“示例”,标签是一张wsi对应的标签。标签内容是:突变或者不突变。可来自病人的基因检测结果。但是突变区域是wsi里面的具体的某一块区域,突变区域无法标注。如果包中至少有一个示例是正例,则该包被认为是正包;如果一个包中的所有示例都是负例,则该包被视为负包。对于我们的任务,一张wsi可以切分出多张patch,我们可以将一张wsi视为一个包,将一张patch视为一个示例。如果一张wsi中至少有一张patch是突变型的,则认为该wsi是突变型的;如果wsi中的所有patch都是野生型的(没有发生突变),则认为该wsi是野生型的。对于二分类问题,令包b={(x1,y1),...,(xd,yd)}表示一个包,其中xd表示示例,标签yd∈{0,1},包b的标签按照一下公式给出:
[0078][0079]
admil以端到端学习的方式结合了基于cnn的图像特征提取(示例嵌入)和基于注意力的mil池化(示例聚合)的优势。形式化来说,admil使用cnn提取每个示例xd的嵌入(特征向量)hd,其中l是嵌入的维度(比如512维)。我们用h={h1,...,hd}表示由d个示例嵌入组成的包。使用基于注意力的mil池化,包的表示z通过以下公式计算:
[0080][0081][0082]
其中ad是示例嵌入hd对应的注意力权重,和是可学习的参数。函数tanh(
·
)用于引入逐元素非线性以促进正确的梯度流。最后,admil使用全连接层根据包表示来得到标签。总体上说,端到端学习的优势使得admil可以根据任务和数据自适应的调节参数,从而取得更好的结果。此外,某些被分配了较大的注意力权重的示例可以视为关键示例。也就是说,注意力权重可以反映每个示例对最后分类决策的贡献。因此,注意力机制提供了一种对预测的可解释性,这在医学图像分析中极为重要。
[0083]
当admil直接应用于wsi时,仍然存在patch选取的不够和不准确这两个问题。为了解决这些问题,从而确保在多示例分类过程中有代表性的patch会被考虑到,本发明提出了hdmil。
[0084]
hdmil-patch阶段为了得到这个阶段构建的bag(patch-bag)的特征表示,这个特征表示用于下一阶段的hdmil-group的训练和预测。在hdmil-patch阶段,每张wsi的癌症区域被聚成k个簇,我们每次从一个簇中随机选取一张patch(patch-instance,pk),从而从k个簇中选出k张patch。这些来自一张wsi的k个patch-instances组成一个包(patch-bag,也称为group)用于hdmil-patch训练,符号化表示为patch-bag:相应的patch-bag的标签继承自wsi的标签y。构建好所有wsi的patch-bag之后,我们调用admil算法来训练hdmil-patch模型直至收敛。hdmil-patch模型可以形式化的描述为:
[0085][0086]
y=fc(gn),
[0087]
其中,gn是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层。
[0088]
hdmil-group。在hdmil-group阶段,我们首先使用第n个patch-bag(group)的包级表示作为group表示gn,我们将gn命名为group-instance。在每张wsi上重复随机选取n次,这样一张wsi产生n个group-instances。然后,我们将这n个group-instances组成一个包(group-bag)用于hdmil-group训练,符号化表示为group-bag:相应的group-bag的标签也继承自wsi的标签y。构建好所有wsi的group-bags之后,我们再次调用admil算法来训练hdmil-group模型直至收敛。hdmil-group模型可以形式化的描述为:
[0089][0090]
y=fc(fm),
[0091]
其中,fm是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型。
[0092]
步骤4:可解释性(找到与基因突变最相关的patch)。
[0093]
可解释性在病理图像分析领域很重要,但目前大多数深度学习方法都缺乏可解释性。目前,病理学家无法通过肉眼确定h&e染色病理图像的哪些区域受到基因突变的影响,从而无法研究组织病理学形态变化与基因突变之间的相关性。得益于hdmil的两阶段注意力机制,我们可以找到hdmil判断的与基因突变最相关的patch,从而提供良好的可解释性。例如,hdmil预测的与fgfr3突变最相关的前9个patch如附图4所示。获取与某个基因突变最相关的patch的具体方法如下:首先,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组;然后在每组中,分别对hdmil-patch阶段的attentionweights进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch。经过这两个阶段的筛选,我们最终可以得到t
patch
×
t
group
个patch,也就是hdmil模型判断的与预测的基因突变最相关的patch。
[0094]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。需要注意的是,本技术的处理对象为病理学图像,而非以有生命的人体为直接实施对象,且本技术还可用于医疗教学领域。本发明的分层深度多示例学习
bags,使用admil算法来训练hdmil-group模型直至收敛,hdmil-group模型为:
[0106][0107]
y=fc(fm),
[0108]
其中,fm是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型;
[0109]
基因突变预测可解释性模块,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组group;然后在每组中,分别对hdmil-patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch,最终得到t
patch
×
t
group
个patch,作为wsi中与基因突变最相关的patch。
[0110]
所述的基于分层深度多示例学习的基因突变预测系统,其中该hdmil-patch模型和该hdmil-group模型均为admil模型。
[0111]
所述的基于分层深度多示例学习的基因突变预测系统,其中该癌症区域识别模块包括:丢弃该wsi中组织含量小于阈值的patch。
[0112]
所述的基于分层深度多示例学习的基因突变预测系统,其中该wsi为全切片扫描图像。
[0113]
本发明还提出了一种存储介质,用于存储执行所述任意一种基于分层深度多示例学习的基因突变预测方法的程序。
[0114]
本发明还提出了一种客户端,用于任意一种基于分层深度多示例学习的基因突变预测系统。

技术特征:
1.一种基于分层深度多示例学习的基因突变预测方法,其特征在于,包括:癌症区域识别步骤,获取已标注癌症和正常区域的wsi,并将癌症和正常区域作为wsi的类别标签,对wsi切分为尺寸均等的patch,得到wsi所有patch的类别标签,基于xception构建分类网络;癌症区域聚类步骤,提取各patch的特征表示,基于该特征表示进行k-means聚类,每张wsi被聚类为多个类簇;分层深度多示例学习分类步骤,包括hdmil-patch阶段和hdmil-group阶段;在该hdmil-patch阶段,wsi的癌症区域被聚成k个簇,每次从一个簇中随机选取一张patch p
k
,从而从k个簇中选出k张patch;所有来自同一张wsi的k个p
k
组成一个包patch-bag用于hdmil-patch训练,patch-bag:patch-bag的标签继承自wsi是否发生基因突变的标签y;基于所有wsi的patch-bag之后,使用admil算法来训练hdmil-patch模型直至收敛;hdmil-patch模型为:y=fc(g
n
),其中,g
n
是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层;在hdmil-group阶段,使用第n个patch-bag的包级表示作为组group的表示group-instance;在wsi上重复随机选取n次,使一张wsi产生n个group-instances,将n个group-instances组成一个包group-bag用于hdmil-group训练,group-bag:group-bag的标签继承该标签y,基于所有wsi的group-bags,使用admil算法来训练hdmil-group模型直至收敛,hdmil-group模型为:y=fc(f
m
),其中,f
m
是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型;基因突变预测可解释性步骤,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组group;然后在每组中,分别对hdmil-patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch,最终得到t
patch
×
t
group
个patch,作为wsi中与基因突变最相关的patch。2.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该hdmil-patch模型和该hdmil-group模型均为admil模型。3.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该癌症区域识别步骤包括:丢弃该wsi中组织含量小于阈值的patch。4.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该wsi为全切片扫描图像。5.一种基于分层深度多示例学习的基因突变预测系统,其特征在于,包括:癌症区域识别模块,获取已标注癌症和正常区域的wsi,并将癌症和正常区域作为wsi
的类别标签,对wsi切分为尺寸均等的patch,得到wsi所有patch的类别标签,基于xception构建分类网络;癌症区域聚类模块,提取各patch的特征表示,基于该特征表示进行k-means聚类,每张wsi被聚类为多个类簇;分层深度多示例学习分类模块,包括hdmil-patch阶段和hdmil-group阶段;在该hdmil-patch阶段,wsi的癌症区域被聚成k个簇,每次从一个簇中随机选取一张patch p
k
,从而从k个簇中选出k张patch;所有来自同一张wsi的k个p
k
组成一个包patch-bag用于hdmil-patch训练,patch-bag:patch-bag的标签继承自wsi是否发生基因突变的标签y;基于所有wsi的patch-bag之后,使用admil算法来训练hdmil-patch模型直至收敛;hdmil-patch模型为:y=fc(g
n
),其中,g
n
是第n个patch-bag的包级表示,h
patch
(.)是去除最后一层全连接层的hdmil-patch模型,fc(.)表示全连接层;在hdmil-group阶段,使用第n个patch-bag的包级表示作为组group的表示group-instance;在wsi上重复随机选取n次,使一张wsi产生n个group-instances,将n个group-instances组成一个包group-bag用于hdmil-group训练,group-bag:group-bag的标签继承该标签y,基于所有wsi的group-bags,使用admil算法来训练hdmil-group模型直至收敛,hdmil-group模型为:y=fc(f
m
),其中,f
m
是第m个group-bag的包级表示,h
group
(.)是去除最后一层全连接层的hdmil-group模型;基因突变预测可解释性模块,对hdmil-group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组group;然后在每组中,分别对hdmil-patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个patch,最终得到t
patch
×
t
group
个patch,作为wsi中与基因突变最相关的patch。6.如权利要求5所述的基于分层深度多示例学习的基因突变预测系统,其特征在于,该hdmil-patch模型和该hdmil-group模型均为admil模型。7.如权利要求5所述的基于分层深度多示例学习的基因突变预测系统,其特征在于,该癌症区域识别模块包括:丢弃该wsi中组织含量小于阈值的patch。8.如权利要求5所述的基于分层深度多示例学习的基因突变预测系统,其特征在于,该wsi为全切片扫描图像。9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于分层深度多示例学习的基因突变预测方法的程序。10.一种客户端,用于权利要求5至8中任意一种基于分层深度多示例学习的基因突变预测系统。

技术总结
本发明提出一种基于分层深度多示例学习的基因突变预测方法和系统。本发明首先使用监督学习方法将目标区域缩小到癌症区域,从而减少大量不相关Patch对随后的弱监督学习的噪声影响;然后,基于对比学习得到的Patch特征表示和癌症区域聚类结果,确保Patch选取的全面性。最后,本发明提出了一种新的分层深度多示例学习(HDMIL)方法,该方法可以确保足够多的Patch被考虑到、错误选取的Patch被忽略掉。且本发明方法具有可解释性。本发明提出的HDMIL可以找到与基因突变最相关的Patch。到与基因突变最相关的Patch。到与基因突变最相关的Patch。


技术研发人员:颜锐 张雪媛 谭光明 任菲 刘玉东
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2023.06.08
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐