模型训练、细胞图像标注方法、装置、设备及存储介质与流程

未命名 10-08 阅读:112 评论:0


1.本技术涉及但不限于图像处理技术领域,尤其涉及一种模型训练、细胞图像标注方法、装置、设备及存储介质。


背景技术:

2.近年来,神经网络在图像分类、目标检测、实力分割等方面取得了重大进展,但是训练神经网络模型需要大量有标注的训练数据,而在生物细胞图像领域,由于细胞图像中的细胞较小、且较为密集,对细胞图像进行标注时会耗费大量的人力,且标注结果不准确。


技术实现要素:

3.有鉴于此,本技术实施例至少提供一种模型训练、细胞图像标注方法、装置、设备及存储介质,能够智能化地实现对细胞图像进行标注,提高标注效率和标注准确率。
4.本技术实施例的技术方案是这样实现的:根据本技术实施例的一个方面,提供一种模型训练方法,包括:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。
5.在一些实施例中,所述基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型,包括:基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型;采用所述第一个训练周期后的预训练模型对所述未标注的第一细胞图像进行识别,得到待更新标签;基于所述第一标签和所述待更新标签,确定第二个训练周期的第一细胞图像的第三标签;基于标注有第三标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述第一个训练周期后的预训练模型进行训练,直至得到所述第一标签预测模型。
6.在一些实施例中,所述基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型,包括:确定第一损失函数、所述第一损失函数对应的权重、第二损失函数以及所述第二损失函数对应的权重;
基于所述第一损失函数、所述第一损失函数对应的权重、所述第二损失函数以及所述第二损失函数对应的权重,确定目标损失函数;基于所述标注有第一标签的第一细胞图像、所述标注有第二标签的第二细胞图像和所述目标损失函数对所述预训练模型进行训练,得到所述第一个训练周期后的预训练模型。
7.在一些实施例中,所述方法还包括:将第n个训练周期的第一细胞图像的标签确定为所述第一细胞图像的第一目标标签;或者,采用所述第一标签预测模型对所述未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一目标标签。
8.在一些实施例中,所述方法还包括:在所述第一目标标签满足验证条件的情况下,采用图像处理软件对所述第一目标标签进行精调。
9.在一些实施例中,所述方法还包括:在所述第一目标标签不满足验证条件的情况下,对所述预训练模型中的模型参数进行调整,得到调整后的预训练模型;基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述调整后的预训练模型进行训练,得到训练好的第二标签预测模型和所述第一细胞图像的第二目标标签。
10.在一些实施例中,所述方法还包括:获取在多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的多个第三细胞图像;基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
11.在一些实施例中,所述基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像,包括:对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像;所述第一颜色通道用于表征染色后的细胞质的颜色,所述第二颜色通道用于表征染色后的细胞核的颜色;基于所述多个第四细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
12.在一些实施例中,所述对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像,包括:对每一所述第三细胞图像进行矩阵重组,去除所述每一第三细胞图像的红色通道,得到所述多个包括绿色通道和蓝色通道的第四细胞图像;所述第一颜色通道为绿色通道,所述第二颜色通道为蓝色通道。
13.根据本技术实施例的一个方面,提供一种细胞图像标注方法,包括:采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签;
基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像;其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到,n为正整数;n为大于1且小于等于n的正整数。
14.在一些实施例中,所述采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签,包括:采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率;所述预测概率用于表征对应的像素属于细胞的概率;基于所述第五细胞图像中每一像素分别对应的预测概率,确定所述第五细胞图像中的至少一个细胞区域;将所述至少一个细胞区域作为所述第四标签。
15.在一些实施例中,所述采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率,包括:基于目标细胞直径对所述第五细胞图像的图像尺寸进行调整,得到调整后的所述第五细胞图像;所述目标细胞直径表征多种不同形态的细胞的细胞直径;对所述调整后的第五细胞图像进行分割,得到多个子图像;采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图;所述预测概率子图中包括对应的子图像中每一像素属于细胞的概率;对所述多个子图像的预测概率子图进行整合处理,得到所述第五细胞图像的预测概率图;所述预测概率图中包括所述第五细胞图像中每一像素属于细胞的概率。
16.在一些实施例中,所述采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图,包括:采用所述第一标签预测模型中的编码器对所述每一子图像进行特征提取,得到所述每一子图像的第一特征图;采用所述第一标签预测模型中的全局平均池化模块对所述第一特征图进行池化处理,得到所述每一子图像的第二特征图;其中,所述第二特征图表征所述每一子图像中细胞的类别;采用所述第一标签预测模型中的解码器对所述第一特征图和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图;所述编码器和所述解码器均包括多个由卷积网络和残差网络构成的特征提取模块。
17.在一些实施例中,所述采用所述第一标签预测模型中的解码器对所述第一特征图
和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图,包括:从所述编码器中的多个第一特征提取模块中,确定通道数与所述解码器中的第i个第二特征提取模块的通道数相同的第一特征提取模块输出的第一子特征图;i为大于或等于2的正整数;确定所述解码器中的第i-1个第二特征提取模块输出的第二子特征图;所述解码器中的第一个第二特征提取模块输出的特征图为所述编码器中的最后一个第一特征提取模块输出的所述第一特征图;采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图;将所述解码器中的最后一个第二特征提取模块输出的特征图作为所述每一子图像的预测概率子图。
18.在一些实施例中,所述采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图,包括:对所述第二子特征图和所述第二特征图进行求和处理,得到第三特征图;对所述第三特征图进行上采样处理,得到处理后的所述第三特征图;对所述处理后的第三特征图和所述第一子特征图进行求和处理,得到第四特征图;对所述第四特征图进行卷积处理,得到所述解码器中的第i个第二特征提取模块输出的特征图。
19.根据本技术实施例的一个方面,提供一种模型训练装置,包括:第一识别模块,用于采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;训练模块,用于基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。
20.根据本技术实施例的一个方面,提供一种细胞图像标注装置,包括:第二识别模块,用于采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签;标注模块,用于基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像;其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;
训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到,n为正整数;n为大于1且小于等于n的正整数。
21.根据本技术实施例的一个方面,提供一种模型训练设备,包括第一存储器和第一处理器,所述第一存储器存储有可在第一处理器上运行的计算机程序,所述第一处理器执行所述程序时实现本技术实施例所述的模型训练方法。
22.根据本技术实施例的一个方面,提供一种细胞图像标注设备,包括第二存储器和第二处理器,所述第二存储器存储有可在第二处理器上运行的计算机程序,所述第二处理器执行所述程序时实现本技术实施例所述的细胞图像标注方法。
23.根据本技术实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本技术实施例所述的方法。
24.本技术实施例中,通过采用预训练模型对未标注的第一细胞图像进行识别,得到第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练,得到训练好的第一标签预测模型;第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到。这样,在采用标注有第一标签(伪标签)的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练的过程中,每个训练周期不仅会对预训练模型进行迭代训练,还会对第一细胞图像的伪标签进行更新,以使每训练阶段使用的伪标签一直是当下的最优标签,从而通过伪标签的更新和预训练模型的模型性能的更新之间的相互激励作用,可以提高训练好的第一标签预测模型的识别准确率,进而采用第一标签预测模型实现对无标签细胞图像的自动化标注,提高标注效率,并在提高标注效率的同时,保证标注准确率。
25.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术的技术方案。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本技术的实施例,并与说明书一起用于说明本技术的技术方案。
27.图1为本技术实施例提供的一种模型训练方法的实现流程示意图;图2为本技术实施例提供的另一种模型训练方法的实现流程示意图;图3为本技术实施例提供的一种标签确定方法的实现流程示意图;图4为本技术实施例提供的一种细胞图像标注方法的实现流程示意图;图5为本技术实施例提供的一种第一标签预测模型的网络架构示意图;图6为本技术实施例提供的一种模型训练装置的结构示意图;图7为本技术实施例提供的一种细胞图像标注装置的结构示意图;图8为本技术实施例提供的一种模型训练设备的硬件实体示意图;图9为本技术实施例提供的一种细胞图像标注设备的硬件实体示意图。
具体实施方式
28.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本技术的技术方案进一步详细阐述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
29.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
30.所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
31.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
32.为了更好地理解本技术实施例提供的模型训练方法,下面先对本技术所涉及的相关技术中的方案进行说明。
33.近年来深度神经网络在图像分类、目标检测与实例分割等方面取得了重大进展。然而,训练深度神经网络需要大量的训练数据,对人力标注提出了巨大的挑战。尤其对于诸如生物细胞图像等领域的标注数据集极为匮乏,这是因为细胞图像中的细胞十分密集,并且部分细胞比较隐蔽,肉眼难以识别,标注是需耗费大量人力,同时,生物细胞图像的标注还需要具备一定的专业知识。
34.相关技术中,一般采用传统的众包标注方法,该方法是将零散的个人(包括兼职人员)、小标注团队整合到同一平台上,来完成一个完整项目的数据集的标注。这种方法的主要优势为比较灵活。然而,其质量难以保证,尤其是细胞图像的标注还需具备领域专业知识。因此,众包标注方法在细胞图像领域并不流行,目前亟需一种有效的细胞图像标注方法。
35.为此,本技术实施例提供一种模型训练方法,以实现对细胞图像的自动化标注。该方法可以由模型训练设备的处理器执行。图1为本技术实施例提供的一种模型训练方法的实现流程示意图,如图1所示,该方法包括如下步骤101至步骤102:步骤101,采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签。
36.这里,预训练模型可以为预先训练的、但未完全训练好的模型;进一步地,预训练模型可以是采用有监督学习方法训练得到的。未标注的第一细胞图像可以指的是至少一个未标注的细胞图像;未标注的细胞图像,也即没有标签的细胞图像。第一标签是采用预训练模型对未标注的第一细胞图像进行识别后得到的标签。第一标签可以称之为伪标签;伪标签并不是最终确定的标签,是指还需要进行更新的标签。标签用于表征细胞图像中的细胞的属性;示例性地,标签可以包括但不限于:细胞图像中的至少一个细胞区域、细胞类别、以及细胞是否异常等。
37.在一些实施方式中,可以采用标注有第二标签的第二细胞图像对初始模型进行有
监督训练,得到预训练模型;其中,第二标签指的是第二细胞图像的标签。标注有第二标签的第二细胞图像可以指的是至少一个有标签的细胞图像。在一种可行的实现方式中,可以采用人工标注方式对未标注的第二细胞图像进行标注,得到标注有第二标签的第二细胞图像。具体地,在标签为细胞区域的情况下,采用人工标注方式,标注出第二细胞图像中的至少一个细胞区域,得到标注有第二标签的第二细胞图像。初始模型可以为预先确定的未训练过的模型;在一种可行的实现方式中,初始模型可以为卷积神经网络;示例性地,初始模型可以为全卷积神经网络模型(fully convolution network,fcn)、unet模型等。
38.步骤102,基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型。
39.其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。
40.这里,标注有第一标签的第一细胞图像可以为采用第一标签对未标注的第一细胞图像进行标注后得到的。由于第一标签是采用预训练模型获取的,第一标签的准确率较低,因此可以将第一标签称之为伪标签;伪标签不仅可以指代第一细胞图像的第一标签,还可以泛指在训练过程中每次更新后的标签。第一标签预测模型可以指的是训练好的模型,第一标签预测模型用于对待标注的细胞图像(无标签的细胞图像)进行识别,以得到待标注细胞图像的标签,实现待标注细胞图像的自动化标注。第一标签预测模型的训练过程可以包括n个训练周期,n是训练周期的总数;训练周期可以表征伪标签的更新时机。在一种可行的实现方式中,训练周期可以预先设置,每一训练周期可以包括100次迭代训练;此时是指,每对模型训练100次后,都会更新一次伪标签;第一个训练周期后的预训练模型,也即是,迭代训练100次后的预训练模型。其中,不同训练周期包括的迭代训练次数可以相同或不同,本技术对此不作限制。
41.第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;是指,每一训练周期均需要对第一细胞图像的标签(伪标签)进行更新,以使训练使用的伪标签一直是当下的最优标签。
42.由于预训练模型是未完全训练好的模型,因此采用未训练好的预训练模型进行识别后得到的第一细胞图像的标签(第一标签)不够准确,因此每一训练周期均需对第一图像图像的标签进行更新,也即,在训练过程中对未标注的第一细胞图像的伪标签进行更新,以使训练使用的伪标签一直是当下的最优标签,进而基于此不断提升模型性能;如此,通过伪标签的更新和模型性能的更新之间的相互激励作用,得到模型性能最优的第一标签预测模型。
43.在一些实施方式中,可以将标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像输入至预训练模型进行训练,得到训练好的第一标签预测模型。示例性地,可以将标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像输入至预训练模型进行训练,得到第一个训练周期后的预训练模型;基于未标注的第一细胞图像、第一个训练周期的第一细胞图像的标签、以及第一个训练周期后的预训练模型更新得到第二个训练周期的第一细胞图像的标签;将标注有第一次更新后标签(第二个训练周期的第一细胞图
像的标签)的第一细胞图像和标注有第二标签的第二细胞图像输入至第一个训练周期后的预训练模型进行训练,得到第二个训练周期后的预训练模型;基于未标注的第一细胞图像、第二个训练周期的第一细胞图像的标签、以及第二个训练周期后的预训练模型更新得到第三个训练周期的第一细胞图像的标签;继续使用标注有第二次更新后标签的第一细胞图像和标注有第二标签的第二细胞图像进行训练,以此循环,直至n个训练周期均已训练完,得到第一标签预测模型。
44.本技术实施例中,通过采用预训练模型对未标注的第一细胞图像进行识别,得到第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练,得到训练好的第一标签预测模型;第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到。这样,在采用标注有第一标签(伪标签)的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练的过程中,每个训练周期不仅会对预训练模型进行迭代训练,还会对第一细胞图像的伪标签进行更新,以使每训练阶段使用的伪标签一直是当下的最优标签,从而通过伪标签的更新和预训练模型的模型性能的更新之间的相互激励作用,可以提高训练好的第一标签预测模型的识别准确率,进而采用第一标签预测模型实现对无标签细胞图像的自动化标注,提高标注效率,并在提高标注效率的同时,保证标注准确率。
45.本技术实施例提供一种模型训练方法,该方法可以由模型训练设备的处理器执行。如图2所示,该方法包括如下步骤201至步骤204:步骤201,获取在多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的多个第三细胞图像。
46.这里,多种显微镜可以指的是多种不同类型的显微镜;示例性地,多种显微镜可以包括但不限于:亮场显微镜、相差显微镜、荧光显微镜、微分干涉差显微镜等。不同细胞类别可以指的是,细胞会按照不同的划分标准划分为不同的类别;示例性地,可以按照异常状态,将细胞划分为阴性细胞和阳性细胞这两种细胞类别;或者,还可以按照分化潜能,将细胞划分为全能性细胞、多能性细胞和单能性细胞这三个细胞类别。多个第三细胞图像可以为在多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的细胞图像。
47.在一些实施方式中,可以采用亮场显微镜、相差显微镜、荧光显微镜、微分干涉差显微镜等多种显微镜,对不同细胞类别的细胞进行拍摄,得到多个第三细胞图像。
48.步骤202,基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
49.在一些实施方式中,可以对多个第三细胞图像进行预处理;基于预处理后的多个第三细胞图像,构建未标注的第一细胞图像和标注有第二标签的第二细胞图像。
50.步骤203,采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签。
51.步骤204,基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型。
52.这里,上述步骤203至步骤204分别对应于前述步骤101至步骤102,在实施时可以参照前述步骤101至步骤102的具体实施方式。
53.本技术实施例中,采用多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的多个第三细胞图像,来构建训练第一标签预测模型时所使用的未标注的第一细胞图像和标注有第二标签的第二细胞图像。这样,可以使第一标签预测模型学习到多模态(多显微镜下多细胞类别)细胞图像的细胞特征,从而适用于对多模态细胞图像进行识别,以获取多模态细胞图像的标签,进而实现对多模态细胞图像的自动化标注。
54.在一些实施例中,上述步骤202可以包括如下步骤2021至步骤2022:步骤2021,对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像;所述第一颜色通道用于表征染色后的细胞质的颜色,所述第二颜色通道用于表征染色后的细胞核的颜色。
55.这样,每一第四细胞图像可以为对对应的第三细胞图像进行预处理后得到的包括第一颜色通道和第二颜色通道的细胞图像。第一颜色通道与第二颜色通道不同,第一颜色通道用于凸显染色后的细胞质的颜色,第二颜色通道用于凸显染色后的细胞核的颜色,也即,能够凸显细胞质的颜色通道与能够凸显细胞核的颜色通道不同;这种情况下,第四细胞图像中才可以同时包含细胞质的相关信息和细胞核的相关信息。
56.研究发现细胞图像中的主通道(绿色通道)会凸显细胞质,但是仅采用细胞质对应的主通道对细胞图像进行识别,识别效果不是很理想;因此,此处采用包括用于凸显染色后的细胞质的颜色的第一颜色通道和用于凸显染色后的细胞核的颜色的第二颜色通道的第四细胞图像来构建训练模型所使用的的数据集。
57.在一些实施方式中,为凸显细胞质和细胞核的颜色,获取第三细胞图像的实现方式可以为:采用第一染料对细胞中的细胞质进行染色,采用第二染料对细胞中的细胞核进行染色;采用显微镜观察染色后的细胞,并将观察到的细胞拍摄下来,得到第三细胞图像。示例地,第一染料可以为绿色荧光染料(bbcellprobe c02),第二染料可以为蓝色荧光染料(4,6-二氨基-2-苯基吲啶(4',6-diamidino-2-phenylindole,dapi));如此,采用绿色荧光染料将细胞中的细胞质染为绿色,采用蓝色荧光染料将细胞中的细胞核染为蓝色。如此,对多个第三细胞图像进行预处理后,可以得到多个包括第一颜色通道(绿色通道)和第二颜色通道(蓝色通道)的第四细胞图像。
58.在一些实施方式中,确定多个第四细胞图像的实现方式可以为:对每一所述第三细胞图像进行矩阵重组,去除所述每一第三细胞图像的红色通道,得到所述多个包括绿色通道和蓝色通道的第四细胞图像;所述第一颜色通道为绿色通道,所述第二颜色通道为蓝色通道。
59.这样,对每一第三细胞图像进行矩阵重组,去除每一第三细胞图像的红色通道,是为了去除第三细胞图像中与细胞无关的干扰信息,保留并突出能够体现细胞特征和细胞位置的细胞质对应的绿色通道和细胞核对应的蓝色通道。
60.实现时,若第三细胞图像中的细胞质是采用绿色荧光染料进行染色的,那么此时能够凸显细胞质的通道为绿色通道;若第三细胞图像中的细胞核是采用蓝色荧光染料进行染色,那么此时能够凸显细胞核的通道为蓝色通道。
61.在一种可行的实现方式中,对任一第三细胞图像进行矩阵重组时,可以直接去除这个第三细胞图像的红色通道,然后将这个第三细胞图像的绿色通道作为主通道,将这个第三细胞图像的蓝色通道作为第二通道,然后按照主通道对应的权重和第二通道对应的权
重,将这个第三细胞图像的绿色通道和这个第三细胞图像的蓝色通道重组在一起,得到一个第四细胞图像。
62.步骤2022,基于所述多个第四细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
63.在一些实施方式中,可以对多个第四细胞图像进行划分,得到第一细胞图像集和第二细胞图像集;将第一细胞图像集中的第一细胞图像作为无标签的第二细胞图像;对第二细胞图像集中的第二细胞图像进行标注,得到标注有第二标签的第二细胞图像。
64.在上述实施例中,通过采用包括用于凸显染色后的细胞质的颜色的第一颜色通道和用于凸显染色后的细胞核的颜色的第二颜色通道的第四细胞图像构建模型训练使用的数据集。这样,通过第一颜色通道能够获取细胞质的相关信息并定位细胞质,通过第二颜色通道能够获取细胞核的相关信息并定位细胞核,从而通过加入额外的细胞核对应的蓝色通道能够获取更多的细胞特征,进而准确地确定出细胞图像的标签。
65.在一些实施例中,上述步骤204可以包括如下步骤2041至步骤2044:步骤2041,基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型。
66.在一些实施方式中,可以从标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像中选取一细胞图像作为第一次迭代训练使用的细胞图像,并将其输入至预训练模型进行训练,得到第一次迭代训练后的预训练模型和模型输出;确定第一次迭代训练后的模型输出与所使用的细胞图像的标签之间的损失值;根据该损失值调整预训练模型的模型参数,得到第一调整后的预训练模型;继续从标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像中选取一细胞图像作为第二次迭代训练使用的细胞图像,并将其输入至预训练模型进行训练,得到第二次迭代训练后的预训练模型和模型输出;确定第二次迭代训练后的模型输出与所使用的细胞图像的标签之间的损失值;根据该损失值继续调整预训练模型的模型参数,得到第二调整后的预训练模型;继续从标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像中选取一细胞图像作为第三次迭代训练使用的细胞图像,并进行模训练,直至得到第一个训练周期后的预训练模型。
67.步骤2042,采用所述第一个训练周期后的预训练模型对所述未标注的第一细胞图像进行识别,得到待更新标签。
68.这样,待更新标签可以为采用第一个训练周期后的预训练模型对未标注的第一细胞图像进行识别后得到的标签。在训练周期为100次的情况下,待更新标签为采用迭代训练100次后的预训练模型对未标注的第一细胞图像进行识别后得到的标签。
69.步骤2043,基于所述第一标签和所述待更新标签,确定第二个训练周期的第一细胞图像的第三标签。
70.这样,第三标签可以为第二个训练周期的第一细胞图像的标签,也即,第三标签是第一个训练周期后更新得到的第三标签。在训练周期为100次的情况下,第三标签为迭代训练100次后更新的伪标签。
71.在一些实施方式中,如果标签指代的是细胞图像中的细胞区域,那么基于第一标签和待更新标签确定第一个训练周期后更新的第三标签,可以为将第一标签所指示的细胞区域与待更新标签所指示的细胞区域进行叠加,得到第三标签。
72.在其他实施方式中,如果标签指代的是细胞图像中的细胞类别,那么可以直接将待更新标签确定为第三标签;或者,还可以将第一个训练周期内出现频次最多的标签确定为第三标签。
73.步骤2044,基于标注有第三标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述第一个训练周期后的预训练模型进行训练,直至得到所述第一标签预测模型。
74.这样,基于标注有第三标签的第一细胞图像和标注有第二标签的第二细胞图像对第一个训练周期后的预训练模型进行训练,也即是,采用更新后的第一细胞图像的标签继续进行模型训练。
75.基于标注有第三标签的第一细胞图像和标注有第二标签的第二细胞图像对第一个训练周期后的预训练模型进行训练,直至得到所述第一标签预测模型;指的是,基于标注有第三标签的第一细胞图像和标注有第二标签的第二细胞图像对第一个训练周期后的预训练模型进行训练,得到第二个训练周期后的预训练模型(训练200次后的预训练模型);采用第二个训练周期后的预训练模型对未标注的第一细胞图像进行识别,得到第二个训练周期对应的待更新标签;基于第三标签和第二个训练周期对应的待更新标签确定第二个训练周期后更新的伪标签;继续采用更新后的伪标签进行训练,以此循环,直至训练完n个训练周期,得到第一标签预测模型。其中,n个训练周期对应的总迭代次数可以为2500迭代次数,此时是将迭代训练2500次后的预训练模型确定为第一标签预测模型。或者,还可以设置其他迭代停止条件,如可设置模型预测的准确率,在模型预测的准确率大于或等于准确率阈值的情况下,确定达到迭代停止条件,停止训练,得到第一标签预测模型。
76.在上述实施例中,在每对预训练模型训练一个训练周期后,均对第一细胞图像的伪标签进行一次更新。这样,通过更新后的伪标签继续训练模型,能够提高训练好的第一标签预测模型的识别准确率,进而采用第一标签预测模型实现对无标签细胞图像的自动化标注,提高标注效率,并在提高标注效率的同时,保证标注准确率。
77.在一些实施例中,上述步骤2041可以包括如下步骤2041a至步骤2041c:步骤2041a,确定第一损失函数、所述第一损失函数对应的权重、第二损失函数以及所述第二损失函数对应的权重。
78.这样,第一损失函数可以为有标签的细胞图像(标注有第二标签的第二细胞图像)对应的损失函数。第二损失函数可以为无标签的细胞图像(未标注的第一细胞图像)对应的损失函数。由于标注有第二标签的第二细胞图像是采用人工标注方式得到的,标签的准确率更高,因此可以将第一损失函数对应的权重设置地比第二损失函数对应的权重高;示例性地,第一损失函数对应的权重可以设置为0.95,第二损失函数对应的权重可以设置为0.05,第一损失函数对应的权重和第二损失函数对应的权重均可以根据实际业务场景进行调整,本技术实施例对此不作限定。
79.在一些实施方式中,第一损失函数和第二损失函数可以设置为同一损失函数,也可以设置为不同的损失函数。示例性地,损失函数可以为平方损失函数、交叉熵损失函数、以及指数损失函数等;第一损失函数和第二损失函数均可以设置为平方损失函数;或者,第一损失函数可以为平方损失函数,第二损失函数可以为交叉熵损失函数。
80.步骤2041b,基于所述第一损失函数、所述第一损失函数对应的权重、所述第二损
失函数以及所述第二损失函数对应的权重,确定目标损失函数。
81.在一些实施方式中,可以将第一损失函数与第一损失函数对应的权重进行相乘;将第二损失函数与第二损失函数对应的权重进行相乘;将两个相乘后的公式进行相加,得到目标损失函数。
82.步骤2041c,基于所述标注有第一标签的第一细胞图像、所述标注有第二标签的第二细胞图像和所述目标损失函数对所述预训练模型进行训练,得到所述第一个训练周期后的预训练模型。
83.在一些实施方式中,在获取每次迭代训练后的预训练模型和模型输出时,可以通过目标损失函数确定每次迭代训练后的模型输出与所使用的细胞图像的标签之间的损失值;根据该损失值调整预训练模型的模型参数。
84.本技术实施例中,通过针对有标签细胞图像的第一损失函数、针对无标签细胞图像的第二损失函数、以及第一损失函数对应的权重和第二损失函数对应的权重,确定目标损失函数。这样,可以通过调整权重,使模型倾向于学习有标签细胞图像的细胞特征,从而可以提高模型的识别准确率。
85.本技术实施例提供一种标签确定方法,该方法可以由模型训练设备的处理器执行。如图3所示,该方法包括如下步骤301至步骤305:步骤301,获取在多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的多个第三细胞图像。
86.步骤302,基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
87.步骤303,采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签。
88.步骤304,基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型。
89.这里,上述步骤301至步骤304分别对应于前述步骤201至步骤204,在实施时可以参照前述步骤201至步骤204的具体实施方式。
90.步骤305,采用所述第一标签预测模型对所述未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一目标标签。
91.这样,第一目标标签可以为最终确定的第一细胞图像的标签。在一些实施方式中,训练好第一标签预测模型后,可以使用第一标签预测模型对未标注的第一细胞图像进行识别,将识别结果直接确定为第一细胞图像的最终标签。
92.在其他实施方式中,还可以这样确定第一细胞图像的第一目标标签:将第n个训练周期的第一细胞图像的标签确定为所述第一细胞图像的第一目标标签。
93.将第n个训练周期的第一细胞图像的标签确定为第一细胞图像的第一目标标签;是指,将最后一次更新的细胞图像的标签确定为第一细胞图像的最终标签;如此,是在第一标签预测模型的训练过程中,确定未标注的第一细胞图像的最终标签,基于此,实现了边训练模型边确定未标注细胞图像的标签,提高了标注效率。
94.在一种可行的实现方式中,如果总的迭代次数为2500,训练周期为100,那么可以将25个训练周期后更新得到的第一细胞图像的标签作为第一目标标签;或者,还可以将第
25个训练周期使用的第一细胞图像的标签作为第一目标标签。
95.需要说明的是,由于预训练模型是采用有监督学习方法训练得到的,因此训练使用的有标注数据集可以通过人工标注方法,来保证标注的准确率以及后续训练出的预训练模型的模型性能;除了预训练模型使用的有标注数据集之外,其余的无标注数据集均可以采用训练好的第一标签预测模型实现自动化标注,因此本技术可以实现细胞图像中80%以上的自动化标注,提高标注效率。
96.在一些实施例中,上述步骤305之后,还可以包括如下步骤306,或步骤307至步骤308。
97.步骤306,在所述第一目标标签满足验证条件的情况下,采用图像处理软件,对所述第一目标标签进行精调。
98.这样,第一目标标签满足验证条件,是指第一目标标签通过标签验证。验证条件用于对第一目标标签进行验证,以保证第一目标标签的质量。示例性地,第一目标标签满足验证条件,可以指的是,第一目标标签的精确率大于精确率阈值;或者,第一目标标签满足验证条件,可以指的是,第一目标标签通过人工验证。其中,精确率阈值可以预先设置,精确率阈值可以设置为0.8。图像处理软件用于对第一目标标签进行精调,是为了保证最终标签的实用性和准确性。示例性地,图像处理软件可以为imagej plugin——labkit。
99.在一些实施方式中,可以采用f1-score,确定第一目标标签的精确率;在第一目标标签的精确率大于0.8的情况下,采用imagej plugin——labkit,对第一目标标签进行精调,得到第一细胞图像的最终标签。
100.步骤307,在所述第一目标标签不满足验证条件的情况下,对所述预训练模型中的模型参数进行调整,得到调整后的预训练模型。
101.这样,第一目标标签不满足验证条件,可以指的是,第一目标标签的精确率小于或等于精确率阈值;或者,第一目标标签不满足验证条件,可以指的是,第一目标标签未通过人工验证。
102.在一些实施方式中,在第一目标标签的精确率小于或等于0.8的情况下,对预训练模型中的模型参数进行调整,得到调整后的预训练模型,以基于调整后的预训练模型进行重新训练,并重新确定第一细胞图像的最终标签,保证模型的识别准确率和所确定的标签的准确性和实用性。
103.步骤308,基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述调整后的预训练模型进行训练,得到训练好的第二标签预测模型和所述第一细胞图像的第二目标标签。
104.实现时,基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对调整后的预训练模型进行训练,并在训练过程中对第一标签进行更新,得到第二标签预测模型和第一细胞图像的第二目标标签的操作,与基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练,并在训练过程中对第一标签进行更新,得到第一标签预测模型的操作类似,本技术实施例对此不再赘述。
105.本技术实施例提供一种细胞图像标注方法,该方法可以由细胞图像标注设备的处理器执行。图4为本技术实施例提供的一种细胞图像标注方法的实现流程示意图,如图4所示,该方法包括如下步骤401至步骤402:
步骤401,采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签。
106.这样,第五细胞图像为待标注的细胞图像,也即,第五细胞图像为当前需要进行标注的细胞图像。第四标签可以为采用第一标签预测模型对待标注的第五细胞图像进行识别后得到的标签。
107.在一些实施方式中,在获取到待标注的细胞图像后,需要对待标注的细胞图像进行预处理,得到包括第一颜色通道和第二颜色通道的第五细胞图像;将待标注的第五细胞图像输入至第一标签预测模型进行识别,得到第五细胞图像的第四标签。其中,获取第五细胞图像的实现方式可以为:可以对待标注的细胞图像进行矩阵重组,去除待标注的细胞图像的红色通道,得到包括绿色通道和蓝色通道的第五细胞图像;第一颜色通道为绿色通道,第二颜色通道为蓝色通道。
108.步骤402,基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像。
109.其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到,n为正整数;n为大于1且小于等于n的正整数。
110.在一些实施方式中,在标签为细胞区域的情况下,可以将第四标签所指示的细胞区域的轮廓在第五细胞图像中描绘出来,得到标注有第四标签的第五细胞图像。在其他实施方式中,在标签为细胞类别的情况下,可以将第四标签所指示的细胞类别以文字、字符、数字等形式标注在第五细胞图像中,得到标注有第四标签的第五细胞图像。
111.本技术实施例中,第一标签预存模型是通过基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练,并在训练过程中对第一标签进行更新得到的。这样,由于在采用标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对预训练模型进行训练的过程中,不仅对采用预训练模型识别出的第一标签(伪标签)进行更新,还采用更新后的第一细胞图像的标签对预训练模型进行迭代训练,从而通过伪标签的更新和预训练模型的模型性能的更新之间的相互激励作用,可以提高训练好的第一标签预测模型的识别准确率高,进而采用第一标签预测模型确定的第五细胞图像的第四标签的准确率高,且由于是直接采用第一标签预测模型来实现自动化标注的,因此标注效率远高于人工标注。
112.在一些实施例中,如果标签为细胞图像中的细胞区域,那么上述步骤401可以包括如下步骤4011至步骤4013:步骤4011,采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率;所述预测概率用于表征对应的像素属于细胞的概率。
113.可以理解,由于第一颜色通道用于凸显染色后的细胞质的颜色、第二颜色通道用于凸显染色后的细胞核的颜色,因此第五细胞图像重点突出了细胞质的相关信息和细胞核的相关信息,因此基于这些领域先验知识(第一颜色通道和第二颜色通道凸显的信息)能够使第一标签预测模型很好地学习到细胞特征,并准确地定位细胞,提高第一标签预测模型的识别准确率,进而采用第一标签预测模型对未标注的第五细胞图像进行处理,所确定的第五细胞图像中每一像素属于细胞的预测概率会更准确。
114.步骤4012,基于所述第五细胞图像中每一像素分别对应的预测概率,确定所述第五细胞图像中的至少一个细胞区域。
115.这样,预测概率用于表征对应的像素属于细胞的概率,因此基于第五细胞图像中每一像素分别对应的预测概率,就可以获知第五细胞图像中哪些像素属于细胞,哪些不属于细胞,根据属于细胞的像素和像素所处的位置,就可以确定出多个细胞区域。
116.在一些实施方式中,步骤4012的实现方式可以为:基于第五细胞图像的预测概率图,确定第五细胞图像的掩码图;预测概率图中包括第五细胞图像中每一像素对应的预测概率;预测概率用于表征对应的像素属于细胞的概率;采用热扩散模拟,基于第五细胞图像的掩码图对第五细胞图像中的细胞进行分割处理,得到第五细胞图像中的至少一个细胞区域。
117.可以理解,第五细胞图像的掩码图可以用于分割细胞,但是,为了获取更精确的细胞分割结果,在获取第五细胞图像的掩码图后,还可以采用热扩散模拟,基于第五细胞图像的掩码图对第五细胞图像中的细胞进行分割处理,以实现更精确地细胞分割。
118.在一种可行的实现方式中,可以采用掩码算子,对第五细胞图像的预测概率图进行处理,得到第五细胞图像的掩码图;然后,采用热扩散模拟,基于第五细胞图像的掩码图确定多个梯度向量场;基于多个梯度向量场,构建多个具有固定点的动力系统;基于多个固定点,将第五细胞图像中收敛于同一固定点的像素划分到一组,得到多个像素组;将每一像素组组成的图像区域确定为一个细胞区域,得到所第五细胞图像中的至少一个细胞区域。
119.步骤4013,将至少一个细胞区域作为第四标签。
120.在一些实施例中,上述步骤4011可以包括如下步骤4011a至步骤4011d:步骤4011a,基于目标细胞直径对所述第五细胞图像的图像尺寸进行调整,得到调整后的所述第五细胞图像;所述目标细胞直径表征多种不同形态的细胞的细胞直径。
121.这样,目标细胞直径用于表征多种不同形态的细胞的细胞直径。目标细胞直径是在目标神经网络模型的训练过程中学习得到的;具体地,采用对多种不同形态的细胞进行拍摄后的细胞图像进行模型训练时,可以根据该细胞图像中的多种不同形态细胞的细胞直径对目标细胞直径进行不断更新,以使目标细胞直径不断趋于多种不同形态细胞的细胞直径的均值,从而使目标细胞直径能够体现多种不同形态的细胞的细胞直径。在对待标注的第五细胞图像进行识别时,目标细胞直径就是一个已知值。生物学中的细胞不仅在类别上展现出多样性,同时还表现出不同的形态特征,这些特征包括细胞的大小、形状、颜色、内部结构和功能等,为了融合关于细胞形态的大量信息,采用目标细胞直径对第五细胞图像的图像尺寸进行调整。
122.在一些实施方式中,步骤4011a的实现方式可以为:确定细胞直径与细胞图像尺寸之间的自适应对应关系;其中,自适应对应关系可以是在模型的训练过程中学习得到的;基
于自适应细胞直径和自适应对应关系,确定第一图像尺寸;将第五细胞图像的图像尺寸调整为第一图像尺寸,得到调整后的第五细胞图像。
123.其中,目标对应关系是细胞直径与细胞图像尺寸之间的对应关系。目标对应关系可以表征细胞形态与细胞图像中的细胞的数量等细胞特征之间的关系;由于细胞形态存在树枝形、条形、圆形、椭圆形等多个形态,且不同形态下的细胞图像中所包含的细胞的数量、细胞的特征是不同的,因此可以通过目标对应关系来体现细胞形态和细胞特征。目标对应关系可以是在第一标签预测模型的训练过程中学习得到的,也可以是在预训练模型的训练过程中学习得到;具体地,由于同一形态的细胞在不同的摄像机的拍摄下会得到不同尺寸的细胞图像,不同形态的细胞在同一摄像机下也会得到不同尺寸的细胞图像,因此在采用多种摄像机对不同形态的细胞进行拍摄后的细胞图像进行模型训练时,可以将细胞图像的图像尺寸和该细胞图像中细胞的细胞直径建立一个对应关系,根据该对应关系对模型中的目标对应关系进行不断更新,以使目标对应关系能够表征多种形态细胞的细胞直径与多种图像尺寸之间的对应关系,从而使目标对应关系能够融合细胞形态和细胞特征。在对待标注的第五细胞图像进行识别时,目标对应关系相当于一个已知值。
124.示例地,若目标细胞直径为48,细胞直径48对应的细胞图像尺寸为,那么第一图像尺寸可以为。
125.步骤4011b,对所述调整后的第五细胞图像进行分割,得到多个子图像。
126.在一些实施方式中,可以基于预设图像尺寸对调整后的第五细胞图像进行分割,得到多个子图像。
127.这样,预设图像尺寸是预先设置好的图像尺寸;示例地,预设图像尺寸可以设置为,具体可根据实际业务需求进行设置,本技术实施例对此不作限定。多个子图像是基于预设图像尺寸对调整后的第五细胞图像进行分割后得到的。
128.可以理解,细胞图像中所包含的细胞的数量较多,且细胞信息较为细微,若是直接采用第一标签预测模型对待标注的第五细胞图像进行识别,那么在识别时会无法兼顾第五细胞图像中的所有细胞信息,忽视掉关键的细胞信息,导致识别的准确率会降低;而将第五细胞图像划分为多个子图像后,可以将第五细胞图像中的细胞信息分散在多个子图像中,每一子图像中包括的细胞信息少于第五细胞图像中包括的细胞信息,从而使第一标签预测模型充分学习到第五细胞图像中的细胞特征。
129.在其他实施方式中,在调整后的第五细胞图像的图像尺寸与预设图像尺寸之间的比值为整数的情况下,基于预设图像尺寸对调整后的第五细胞图像进行分割,得到多个子图像;在调整后的第五细胞图像的图像尺寸与预设图像尺寸之间的比值不为整数的情况下,基于预设图像尺寸和调整后的第五细胞图像的图像尺寸,确定第二图像尺寸;第二图像尺寸与预设图像尺寸之间的比值为整数;基于目标像素值对调整后的第二细胞图像进行填充处理,得到图像尺寸为第二图像尺寸的第六细胞图像;基于预设图像尺寸对第六细胞图像进行分割,得到多个子图像。
130.这样,第二图像尺寸是基于预设图像尺寸和调整后的第五细胞图像的图像尺寸确定的、且第二图像尺寸与预设图像尺寸之间的比值为整数。第六细胞图像是对调整后的第五细胞图像进行填充处理后得到的细胞图像。目标像素值用于对细胞图像进行填充,目标像素值为不影响细胞图像中所包含的细胞信息的像素值,示例地,目标像素值可以为0。
131.可以理解,调整后的第五细胞图像的图像尺寸与预设图像尺寸之间的比值为整数,说明调整后的第五细胞图像能够被完整划分为多个图像尺寸为预设图像尺寸的子图像,且每一子图像中不会存在缺失的像素,均是完整的图像区域,也即,若预设图像尺寸为,那么每一子图像的图像尺寸也为。
132.可以理解,调整后的第五细胞图像的图像尺寸与预设图像尺寸之间的比值不为整数,说明调整后的第五细胞图像不能被划分为多个图像尺寸为预设图像尺寸的子图像;这种情况下,可以基于预设图像尺寸和调整后的第五细胞图像的图像尺寸确定第二图像尺寸,将调整后的第五细胞图像填充为图像尺寸为第二图像尺寸的细胞图像(第六细胞图像),此时由于第二图像尺寸与预设图像尺寸的比例是整数,那么第六细胞图像就可以被完整分割为多个图像尺寸为预设图像尺寸的子图像。
133.示例地,若预设图像尺寸为,调整后的第五细胞图像的图像尺寸为,那么第二图像尺寸可以为,此时可以基于目标像素值0,将第五细胞图像的图像尺寸从填充至,得到第六细胞图像。可以看出,填充不是随意填充的,要保证填充的复杂度是最低的,也即填充后的图像尺寸是最接近第五细胞图像的图像尺寸,但又是预设图像尺寸的倍数。
134.步骤4011c,采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图;所述预测概率子图中包括对应的子图像中每一像素属于细胞的概率。
135.这样,任一子图像的预测概率子图中包括这个子图像中每一像素属于细胞的概率。
136.由于将第五细胞图像中的细胞信息分散在多个子图像中,因此采用第一标签预测模型对每一子图像进行识别时,就可以更精细地识别到每一子图像中的细胞信息,提高识别准确率,所得到的每一子图像的预测概率子图更准确,进而基于多个子图像的预测概率子图得到的第一细胞图像的预测概率图更准确,从而能够精确地确定出细胞图像中的细胞区域(标签)。
137.步骤4011d,对所述多个子图像的预测概率子图进行整合处理,得到所述第五细胞图像的预测概率图;所述预测概率图中包括所述第五细胞图像中每一像素属于细胞的概率。
138.在一些实施方式中,步骤4011d的实现方式可以为:根据多个子图像在第五细胞图像中的位置对多个子图像的预测概率子图进行整合处理,得到第一预测概率图;在基于目标像素值对第五细胞图像进行过填充处理的情况下,从第一预测概率图中去除填充的目标像素值对应的预测概率,得到第二预测概率图;将第二预测概率图的图像尺寸调整为第五细胞图像的初始图像尺寸,得到第五细胞图像的预测概率图。
139.其中,第一预存概率图是根据多个子图像在第五细胞图像中的位置对多个子图像的预测概率子图进行整合处理后得到的;根据多个子图像在第五细胞图像中的位置对多个子图像的预测概率子图进行整合处理,也即是根据多个子图像分割前在第五细胞图像所处的位置对多个子图像的预测概率子图进行整合处理的。第二预测概率图是从第一预测概率图中去除填充的目标像素值对应的预测概率后得到的预测概率图。
140.由于之前对第五细胞图像进行过图像尺寸的调整、填充处理、以及分割处理,因此
在得到每一子图像的预测概率子图后,需要进行整合处理、去除填充、以及调整图像尺寸,以得到第五细胞图像的预测概率图。
141.在一些实施例中,上述步骤4011c可以包括如下步骤a至步骤c:步骤a,采用所述第一标签预测模型中的编码器对所述每一子图像进行特征提取,得到所述每一子图像的第一特征图。
142.这样,第一标签预测模型可以包括编码器、解码器和全局平均池化模块。编码器用于对细胞图像进行特征提取和下采样,解码器用于进行跳转链接和上采样,全局平均池化模块用于获取表征细胞类别的特征图。每一子图像的第一特征图是采用第一标签预测模型的编码器对第一子图像进行特征提取后得到的特征图。
143.步骤b,采用所述第一标签预测模型中的全局平均池化模块对所述第一特征图进行池化处理,得到所述每一子图像的第二特征图;其中,所述第二特征图表征所述每一子图像中细胞的类别。
144.这样,第二特征图是采用第一标签预测模型的全局平均池化模块对第一特征图进行处理后得到的特征图,用于表示每一子图像中细胞的类别。
145.步骤c,采用所述第一标签预测模型中的解码器对所述第一特征图和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图;所述编码器和所述解码器均包括多个由卷积网络和残差网络构成的特征提取模块。
146.图5为本技术实施例提供的一种第一标签预测模型的网络结构示意图。如图5所示,第一标签预测模型的网络结构包括编码器、解码器和全局平均池化模块(图中未示出),编码器可以包括4个第一特征提取模块,每一第一特征提取模块包括2个由卷积网络和残差网络构成的特征提取层;同理,解码器可以包括4个第二特征提取模块,每一第二特征提取模块包括2个由卷积网络和残差网络构成的特征提取层。每一特征提取层上的数字(如第一个特征提取层上标注的32)为通道数;可以看出,编码器和解码器共用一个通道数为256的特征提取模块。所用的卷积网络均采用的卷积核。编码器中每一第一特征提取模块之间的箭头表示下采样,用于降低维度;编码器主要进行卷积操作和下采样操作。解码器中每一第二特征提取模块之间的箭头表示上采样,用于提升维度;解码器主要进行上采样操作和跳转链接操作。编码器获取细胞图像的特征图后,由解码器将特征图灰度为原始维度(原始分辨率)。另外,在通道数为256的这一特征提取模块后加入了全局平均池化模块,以获取细胞图像的tyle表示,该tyle表示表征细胞类别,在上采样阶段馈送tyle表示;馈送tyle表示是指在卷积前,对tyle表示进行一个线性变换后与解码器中的当前特征提取模块的输入相加,相加后的结果进入卷积。
147.实现时,将每一子图像输入至第一标签预测模型后,会采用编码器对每一子图像进行特征提取得到每一子图像的第一特征图,然后采用全局平均池化模块对第一特征图进行池化处理,得到每一子图像的第二特征图,接着采用编码器对第一特征图和第二特征图进行通道灰度处理,得到每一子图像的预测概率子图。
148.上述实施例中,在特征提取模块加入残差网络,是为了使第一标签预测模型更关注于细胞图像中的细胞信息,提高特征提取的能力。
149.在一些实施例中,上述步骤c可以包括如下步骤c1至步骤c4:步骤c1,从所述编码器中的多个第一特征提取模块中,确定通道数与所述解码器
中的第i个第二特征提取模块的通道数相同的第一特征提取模块输出的第一子特征图;i为大于或等于2的正整数。
150.例如,参照图5,编码器中的多个第一特征提取模块可以包括:通道数为32的第一特征提取模块,通道数为64的第一特征提取模块,通道数为128的第一特征提取模块,通道数为256的第一特征提取模块。解码器中的多个第二特征提取模块可以包括:通道数为256的第二特征提取模块、通道数为128的第二特征提取模块,通道数为64的第二特征提取模块,通道数为32的第二特征提取模块。编码器中的第一特征提取模块的通道数与解码器中的第二特征提取模块的通道数具有一一对应关系。
151.步骤c2,确定所述解码器中的第i-1个第二特征提取模块输出的第二子特征图;所述解码器中的第一个第二特征提取模块输出的特征图为所述编码器中的最后一个第一特征提取模块输出的所述第一特征图。
152.这样,第一特征图为图5中通道数为256的第一特征提取模块输出的特征图。对于解码器,通道数为256的第一特征提取模块也是解码器中的第一个第二特征提取模块,那么此时通道数为256的第一特征提取模块输出的第一特征图,也为解码器中的第一个第二特征提取模块输出的第一子特征图。
153.步骤c3,采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图。
154.可以理解,获取第一特征图(第一个第二特征提取模块输出的第一子特征图)后,对于解码器中的第二个第二特征提取模块(通道数为128的第二特征提取模块),此时需要对第一特征图(解码器中的第一个第二特征提取模块输出的第二子特征图)、第二特征图和解码器中通道数为128的第一特征提取模块输出的第一子特征图进行通道恢复处理;对于编码器中的第三个特征模块(通道数为64的第二特征提取模块),此时需要对第二个第二特征提取模块(通道数为128的第二特征提取模块)输出的第二子特征图、第二特征图、以及解码器中通道数为64的第一特征提取模块输出的第一子特征图进行通道恢复处理;对于编码器中的第四个特征模块(通道数为32的第二特征提取模块),此时需要对第三个第二特征提取模块(通道数为64的第二特征提取模块)输出的第二子特征图、第二特征图、以及解码器中通道数为32的第一特征提取模块输出的第一子特征图进行通道恢复处理。
155.在一些实施方式中,步骤c3的实现方式可以为:对所述第二子特征图和所述第二特征图进行求和处理,得到第三特征图;对所述第三特征图进行上采样处理,得到处理后的所述第三特征图;对所述处理后的第三特征图和所述第一子特征图进行求和处理,得到第四特征图;对所述第四特征图进行卷积处理,得到所述解码器中的第i个第二特征提取模块输出的特征图。
156.其中,第三特征图是对第二子特征图和第二特征图进行求和处理后得到的。对第三特征图进行上采样处理,是为了进行通道恢复,以恢复细胞图像的原始分辨率。对第四特征图进行卷积处理,是为了提取细胞特征。
157.从图5中可以看出,解码器中每一第二特征提取模块输出的特征图在和第二特征图(细胞类别)进行求和处理得到第三特征图后,会对第三特征图进行上采样处理,然后进入下一个第二特征提取模块,在下一个第二特征提取模块处理之前,需要将处理后的第三
特征图与对应的第一特征提取模块输出的特征图进行求和处理得到第四特征图,此时第四特征图即为下一个第二特征提取模块的输入。
158.需要说明的是,采用求和的方式对两个特征图进行处理,而不是采用特征拼接的方式对两个特征处理,是为了减少特征的数量,提高模型处理的速率。在采用解码器进行通道恢复处理的过程中,加入tyle表示(第二特征图),可以提高模型的识别准确率。
159.步骤c4,将所述解码器中的最后一个第二特征提取模块输出的特征图作为所述每一子图像的预测概率子图。
160.图5中通道数为32的第二特征提取模块是解码器中的最后一个第二特征提取模块输出的特征图,此时将其输出的特征图作为每一子图像的预测概率子图。
161.下面说明本技术实施例提供的细胞图像标注方法在实际场景中的应用。
162.本技术实施例提供一种多模态细胞图像的半自动标注方法,用于提高生物细胞图像的标注时间效率,主要标注的是细胞图像中的细胞区域。该方法包括如下步骤1)至步骤7):1)获取多种显微镜下对不同细胞类别的细胞进行拍摄后得到的多个细胞图像,并基于多个细胞图像构建有标注细胞图像(数量可以为2040)和待标注细胞图像(数量可以为1712)。
163.2)采用有标注细胞图像上进行训练获得预训练模型。
164.3)采用预训练模型对待标注细胞图像进行推理,获得伪标签。
165.4)通过将有标注细胞图像和伪标签细胞图像输入至预训练模型进一步训练,在训练过程中将伪标签进行时间集成累加,即每一个训练周期后采用获得的预训练模型进行推理并对伪标签进行叠加更新,经过n个训练周期后输出待标注细胞图像的最终标签。每一训练周期可以设为100次迭代训练,n可以设为25。
166.5)可以在获取最终模型后,采用最终模型对待标注细胞图像进行识别,输出待标注细胞图像的最终标签。
167.6)对待标注细胞图像的最终标签进行标签验证;具体地,可以使用评价指标f1-score,获取最终标签的精确率,在最终标签的精确率大于精确率阈值(精确率阈值可以设置为0.8)的情况下,执行步骤7);在最终标签的精确率小于或等于精确率阈值的情况下,通过调整预训练模型的模型参数进行重新训练,并重新获取待标注细胞图像的最终标签。
168.7)对待标注细胞图像的最终标签进行手动精调,以达到实用要求。
169.为了提高模型输出的标签质量,本技术中采用了时间集成模型的半监督学习方法,同时增加了核辅助分割通道及自适应直径等细胞结构领域先验知识。具体表现如下:首先,在已有的有标注数据集上训练出预训练模型,并采用预训练模型对待标注细胞图像进行推理,获得待标注细胞图像的伪标签。然后,通过使用有标注和伪标签数据集对预训练模型进一步训练,在训练过程中将伪标签进行时间集成累加,每t个迭代次数进行叠加更新,经过n迭代次数后输出待标注细胞图像的最终标签。训练过程中,目标损失函数可以由有标注损失函数(第一损失函数)与伪标签损失函数(第二损失函数)加权获得。
170.其次,在训练过程中将领域先验知识引入到模型中,增加了核辅助分割通道及自适应细胞直径(目标细胞直径)。细胞图像通常包含主通道和可选的第二通道,主通道对应细胞质标记,第二通道对应细胞核,通常使用4,6-二氨基-2-苯基吲啶(dapi)染色,呈现为
蓝色,第二个细胞核通道可以提供细胞定位信息,为了利用细胞结构优势,本技术使用额外的核通道来表达相对位置信息和细胞特征。另外,生物学中的细胞不仅在类型上展现出多样性,同时还表现出不同的形态和特征。这些特征包括细胞的大小、形状、颜色、内部结构和功能。为了融合关于细胞形态的大量信息,本技术为每个细胞图像分配了自适应细胞直径,并且将其保存到模型中。在对待标注细胞图像的伪标签进行推理叠加过程中,参数需要设置为自适应细胞直径,指导细胞图像的大小调整,以匹配模型的预先保存的平均直径。
171.最后,除了预训练模型使用的有标注数据集之外,其余的无标注细胞图像均可以在模型训练过程中获得标签,实现半自动标注,大大提高了标注效率。
172.本技术实施例再提供一种多模态细胞图像的半自动标注方法,该方法包括如下步骤1至步骤6:步骤1,本实施例中收集到2040张有标注细胞图像以及1712张未标注细胞图像以及100张有标注测试图像。
173.步骤2,2040张有标注细胞图像中包含多显微镜下对多细胞类别的细胞进行拍摄后的细胞图像。多显微镜可以包括亮场显微镜图像、相差显微镜图像、微分干涉差显微镜图像及荧光图像。细胞类别可以包括染色细胞、形态呈分枝状细胞、荧光标记组织细胞以及细菌细胞等。在训练过程中,本实施例利用核辅助分割通道及细胞自适应直径提高模型性能。
174.步骤3,本实施例在测试图像推理过程中,确定自适应细胞直径参数(diamete)。diameter可设为40像素(pixel),此值可为通过反复实验获得的最佳值。
175.步骤4,将标注数据集(2040张有标注细胞图像)和伪标注数据集(712张未标注细胞图像)同时输入至预训练模型进行进一步训练,同时叠加更新待标注细胞图像(未标注细胞图像)的伪标签。具体地,待标注细胞图像的标签伪标签每一个训练周期t后进行一次叠加更新,更新公式可以表示为:;其中,为第k次更新后的伪标签;为第k-1次更新后的伪标签;为第kt个训练迭代后中的模型输出。n个训练周期后输出最终模型和待标注细胞图像的最终标签。本技术中,总迭代次数设为2500(n为25,训练周期n包括100次迭代训练)的效果最佳(多次实验获得);此步骤还可使用输出效果最佳的模型对待标注细胞图像进行识别,输出待标注细胞图像的最终标签。
176.步骤5,标签验证过程中,标签的f1-score阈值达到的越高标签质量越好,在本实施例中f1-score阈值能达到0.8以上。
177.步骤6,得到待标注细胞图像的最终标签后,再由领域专家对待标注细胞图像的最终标签进行评估及微调精修,微调精修工具可选择imagej plugin——labkit,打开细胞原图并将最终标签导入,进行对比评估及微调。
178.本实施例中,模型结构采用了一种优化后的包含残差的unet网络结构,如图5所示,标准的unet网络中并不包含残差,而本实施例中,在unet网络中加入残差,增加残差的作用是加入注意力,使模型更关注细胞信息,提高特征提取的能力;另外,在跳转链接中,为了减少模型的参数数量,本实施例通过直接求和来进行融合,而不是使用传统的特征拼接方法。
179.本技术中提出一种有效的生物细胞图像半自动化标注方法,可应用于多种细胞显微镜图像标注,有效提高生物细胞图像的标注时间效率,有望将日益增长的细胞图像迅速
应用于深度学习中。
180.基于前述的实施例,本技术实施例提供一种模型训练装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过模型训练设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(central processing unit,cpu)、微处理器(microprocessor unit,mpu)、数字信号处理器(digital signal processor,dsp)或现场可编程门阵列(field programmable gate array,fpga)等。
181.图6为本技术实施例提供的一种模型训练装置的组成结构示意图,如图6所示,模型训练装置60包括:第一识别模块601和训练模块602,其中:第一识别模块601,用于采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;训练模块602,用于基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。
182.在一些实施例中,训练模块602还用于:基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型;采用所述第一个训练周期后的预训练模型对所述未标注的第一细胞图像进行识别,得到待更新标签;基于所述第一标签和所述待更新标签,确定第二个训练周期的第一细胞图像的第三标签;基于所述标注有第三标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述第一个训练周期后的预训练模型进行训练,直至得到所述第一标签预测模型。
183.在一些实施例中,训练模块602还用于:确定第一损失函数、所述第一损失函数对应的权重、第二损失函数以及所述第二损失函数对应的权重;基于所述第一损失函数、所述第一损失函数对应的权重、所述第二损失函数以及所述第二损失函数对应的权重,确定目标损失函数;基于所述标注有第一标签的第一细胞图像、所述标注有第二标签的第二细胞图像和所述目标损失函数对所述预训练模型进行训练,得到所述第一个训练周期后的预训练模型。
184.在一些实施例中,训练模块602还用于:将第n个训练周期的第一细胞图像的标签确定为所述第一细胞图像的第一目标标签;或者,采用所述第一标签预测模型对所述未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一目标标签。
185.在一些实施例中,训练模块602还用于:在所述第一目标标签满足验证条件的情况下,采用图像处理软件,对所述第一目标标签进行精调。
186.在一些实施例中,训练模块602还用于:在所述第一目标标签不满足验证条件的情况下,对所述预训练模型中的模型参数进行调整,得到调整后的预训练模型;基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述调整后的预训练模型进行训练,得到训练好的第二标签预测模型和所述第一细胞图像的第二目标标签。
187.在一些实施例中,训练模块602还用于:获取在多种显微镜下对属于不同细胞类别
的细胞进行拍摄后得到的多个第三细胞图像;基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
188.在一些实施例中,训练模块602还用于:对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像;所述第一颜色通道用于表征染色后的细胞质的颜色,所述第二颜色通道用于表征染色后的细胞核的颜色;基于所述多个第四细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。
189.在一些实施例中,训练模块602还用于:对每一所述第三细胞图像进行矩阵重组,去除所述每一第三细胞图像的红色通道,得到所述多个包括绿色通道和蓝色通道的第四细胞图像;所述第一颜色通道为绿色通道,所述第二颜色通道为蓝色通道。
190.基于前述的实施例,本技术实施例提供一种细胞图像标注装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过细胞图像标注设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器、微处理器、数字信号处理器或现场可编程门阵列等。
191.图7为本技术实施例提供的一种细胞图像标注装置的组成结构示意图,如图7所示,细胞图像标注装置70包括:第二识别模块701和标注模块702,其中:第二识别模块701,用于采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签;标注模块702,用于基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像;其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到,n为正整数;n为大于1且小于等于n的正整数。
192.在一些实施例中,第二识别模块701还用于:采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率;所述预测概率用于表征对应的像素属于细胞的概率;基于所述第五细胞图像中每一像素分别对应的预测概率,确定所述第五细胞图像中的至少一个细胞区域;将所述至少一个细胞区域作为所述第四标签。
193.在一些实施例中,第二识别模块701还用于:基于目标细胞直径对所述第五细胞图像的图像尺寸进行调整,得到调整后的所述第五细胞图像;所述目标细胞直径表征多种不同形态的细胞的细胞直径;对所述调整后的第五细胞图像进行分割,得到多个子图像;采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图;所述预测概率子图中包括对应的子图像中每一像素属于细胞的概率;对所述多个子图像的预测概率子图进行整合处理,得到所述第五细胞图像的预测概率图;所述预测概率图中包括所述第五细胞图像中每一像素属于细胞的概率。
194.在一些实施例中,第二识别模块701还用于:采用所述第一标签预测模型中的编码器对所述每一子图像进行特征提取,得到所述每一子图像的第一特征图;采用所述第一标签预测模型中的全局平均池化模块对所述第一特征图进行池化处理,得到所述每一子图像的第二特征图;其中,所述第二特征图表征所述每一子图像中细胞的类别;采用所述第一标签预测模型中的解码器对所述第一特征图和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图;所述编码器和所述解码器均包括多个由卷积网络和残差网络构成的特征提取模块。
195.在一些实施例中,第二识别模块701还用于:从所述编码器中的多个第一特征提取模块中,确定通道数与所述解码器中的第i个第二特征提取模块的通道数相同的第一特征提取模块输出的第一子特征图;i为大于或等于2的正整数;确定所述解码器中的第i-1个第二特征提取模块输出的第二子特征图;所述解码器中的第一个第二特征提取模块输出的特征图为所述编码器中的最后一个第一特征提取模块输出的所述第一特征图;采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图;将所述解码器中的最后一个第二特征提取模块输出的特征图作为所述每一子图像的预测概率子图。
196.在一些实施例中,第二识别模块701还用于:对所述第二子特征图和所述第二特征图进行求和处理,得到第三特征图;对所述第三特征图进行上采样处理,得到处理后的所述第三特征图;对所述处理后的第三特征图和所述第一子特征图进行求和处理,得到第四特征图;对所述第四特征图进行卷积处理,得到所述解码器中的第i个第二特征提取模块输出的特征图。
197.以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本技术实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
198.需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
199.本技术实施例提供一种模型训练设备,图8为本技术实施例提供的模型训练设备的硬件实体示意图,如图8所示,模型训练设备80包括第一存储器801和第一处理器802,第一存储器801存储有可在第一处理器802上运行的计算机程序,第一处理器802执行所述程序时实现本技术实施例所述的模型训练方法。
200.需要说明的是,第一存储器801配置为存储由第一处理器802可执行的指令和应用,还可以缓存在第一处理器802以及模型训练设备80中各模块待处理或已经处理的数据
(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
201.在本技术实施例中,模型训练设备80在实施本技术实施例所述的模型训练方法的过程中,可以是各种类型的具有信息处理能力的设备,例如模型训练80可以包括平板电脑、台式机、笔记本电脑、主机等。
202.本技术实施例提供一种细胞图像标注设备,图9为本技术实施例提供的细胞图像标注设备的硬件实体示意图,如图9所示,细胞图像标注设备90包括第二存储器901和第二处理器902,第二存储器901存储有可在第二处理器902上运行的计算机程序,第二处理器902执行所述程序时实现本技术实施例所述的细胞图像标注方法。
203.需要说明的是,第二存储器901配置为存储由第二处理器902可执行的指令和应用,还可以缓存在第二处理器902以及细胞图像标注设备90中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存或随机访问存储器实现。
204.在本技术实施例中,细胞图像标注设备90在实施本技术实施例所述的细胞图像标注方法的过程中,可以是各种类型的具有信息处理能力的设备,例如细胞图像标注设备90可以包括平板电脑、台式机、笔记本电脑、主机等。
205.本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。
206.本技术实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例提供的方法中的步骤。
207.这里需要指出的是:以上存储介质、芯片实施例和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质、存储介质和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
208.应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
209.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如对象a和/或对象b,可以表示:单独存在对象a,同时存在对象a和对象b,单独存在对象b这三种情况。
210.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该
要素的过程、方法、物品或者设备中还存在另外的相同要素。
211.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
212.上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。
213.另外,在本技术各实施例中的各功能模块可以全部集成在一个处理单元中,也可以是各模块分别单独作为一个单元,也可以两个或两个以上模块集成在一个单元中;上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
214.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
215.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
216.本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
217.本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
218.本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
219.以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。

技术特征:
1.一种模型训练方法,其特征在于,所述方法包括:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。2.根据权利要求1所述的方法,其特征在于,所述基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型,包括:基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型;采用所述第一个训练周期后的预训练模型对所述未标注的第一细胞图像进行识别,得到待更新标签;基于所述第一标签和所述待更新标签,确定第二个训练周期的第一细胞图像的第三标签;基于标注有第三标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述第一个训练周期后的预训练模型进行训练,直至得到所述第一标签预测模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到第一个训练周期后的预训练模型,包括:确定第一损失函数、所述第一损失函数对应的权重、第二损失函数以及所述第二损失函数对应的权重;基于所述第一损失函数、所述第一损失函数对应的权重、所述第二损失函数以及所述第二损失函数对应的权重,确定目标损失函数;基于所述标注有第一标签的第一细胞图像、所述标注有第二标签的第二细胞图像和所述目标损失函数对所述预训练模型进行训练,得到所述第一个训练周期后的预训练模型。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:将第n个训练周期的第一细胞图像的标签确定为所述第一细胞图像的第一目标标签;或者,采用所述第一标签预测模型对所述未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一目标标签。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在所述第一目标标签满足验证条件的情况下,采用图像处理软件对所述第一目标标签进行精调。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:在所述第一目标标签不满足验证条件的情况下,对所述预训练模型中的模型参数进行调整,得到调整后的预训练模型;
基于所述标注有第一标签的第一细胞图像和所述标注有第二标签的第二细胞图像对所述调整后的预训练模型进行训练,得到训练好的第二标签预测模型和所述第一细胞图像的第二目标标签。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取在多种显微镜下对属于不同细胞类别的细胞进行拍摄后得到的多个第三细胞图像;基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。8.根据权利要求7所述的方法,其特征在于,所述基于所述多个第三细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像,包括:对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像;所述第一颜色通道用于表征染色后的细胞质的颜色,所述第二颜色通道用于表征染色后的细胞核的颜色;基于所述多个第四细胞图像,构建所述未标注的第一细胞图像和所述标注有第二标签的第二细胞图像。9.根据权利要求8所述的方法,其特征在于,所述对所述多个第三细胞图像进行预处理,得到多个包括第一颜色通道和第二颜色通道的第四细胞图像,包括:对每一所述第三细胞图像进行矩阵重组,去除所述每一第三细胞图像的红色通道,得到所述多个包括绿色通道和蓝色通道的第四细胞图像;所述第一颜色通道为绿色通道,所述第二颜色通道为蓝色通道。10.一种细胞图像标注方法,其特征在于,所述方法包括:采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签;基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像;其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。11.根据权利要求10所述的方法,其特征在于,所述采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签,包括:采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率;所述预测概率用于表征对应的像素属于细胞的概率;基于所述第五细胞图像中每一像素分别对应的预测概率,确定所述第五细胞图像中的
至少一个细胞区域;将所述至少一个细胞区域作为所述第四标签。12.根据权利要求11所述的方法,其特征在于,所述采用所述第一标签预测模型对所述第五细胞图像中的细胞进行识别,得到所述第五细胞图像中每一像素分别对应的预测概率,包括:基于目标细胞直径对所述第五细胞图像的图像尺寸进行调整,得到调整后的所述第五细胞图像;所述目标细胞直径表征多种不同形态的细胞的细胞直径;对所述调整后的第五细胞图像进行分割,得到多个子图像;采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图;所述预测概率子图中包括对应的子图像中每一像素属于细胞的概率;对所述多个子图像的预测概率子图进行整合处理,得到所述第五细胞图像的预测概率图;所述预测概率图中包括所述第五细胞图像中每一像素属于细胞的概率。13.根据权利要求12所述的方法,其特征在于,所述采用所述第一标签预测模型对每一所述子图像进行识别,得到所述每一子图像分别对应的预测概率子图,包括:采用所述第一标签预测模型中的编码器对所述每一子图像进行特征提取,得到所述每一子图像的第一特征图;采用所述第一标签预测模型中的全局平均池化模块对所述第一特征图进行池化处理,得到所述每一子图像的第二特征图;其中,所述第二特征图表征所述每一子图像中细胞的类别;采用所述第一标签预测模型中的解码器对所述第一特征图和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图;所述编码器和所述解码器均包括多个由卷积网络和残差网络构成的特征提取模块。14.根据权利要求13所述的方法,其特征在于,所述采用所述第一标签预测模型中的解码器对所述第一特征图和所述第二特征图进行通道恢复处理,得到所述每一子图像的预测概率子图,包括:从所述编码器中的多个第一特征提取模块中,确定通道数与所述解码器中的第i个第二特征提取模块的通道数相同的第一特征提取模块输出的第一子特征图;i为大于或等于2的正整数;确定所述解码器中的第i-1个第二特征提取模块输出的第二子特征图;所述解码器中的第一个第二特征提取模块输出的特征图为所述编码器中的最后一个第一特征提取模块输出的所述第一特征图;采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图;将所述解码器中的最后一个第二特征提取模块输出的特征图作为所述每一子图像的预测概率子图。15.根据权利要求14所述的方法,其特征在于,所述采用所述解码器中的第i个第二特征提取模块对所述第二子特征图、所述第一子特征图和所述第二特征图进行通道恢复处理,得到所述解码器中的第i个第二特征提取模块输出的特征图,包括:
对所述第二子特征图和所述第二特征图进行求和处理,得到第三特征图;对所述第三特征图进行上采样处理,得到处理后的所述第三特征图;对所述处理后的第三特征图和所述第一子特征图进行求和处理,得到第四特征图;对所述第四特征图进行卷积处理,得到所述解码器中的第i个第二特征提取模块输出的特征图。16.一种模型训练装置,其特征在于,所述装置包括:第一识别模块,用于采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;训练模块,用于基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到,n为正整数;n为大于1且小于等于n的正整数。17.一种细胞图像标注装置,其特征在于,所述装置包括:第二识别模块,用于采用第一标签预测模型对待标注的第五细胞图像进行识别,得到所述第五细胞图像的第四标签;标注模块,用于基于所述第四标签对所述第五细胞图像进行标注,得到标注有第四标签的第五细胞图像;其中,所述第一标签预测模型的训练过程如下:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到所述第一标签预测模型;训练过程包括n个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;n为正整数;n为大于1且小于等于n的正整数。18.一种模型训练设备,包括第一存储器和第一处理器,所述第一存储器存储有可在第一处理器上运行的计算机程序,其特征在于,所述第一处理器执行所述程序时实现权利要求1至9任一项所述的方法。19.一种细胞图像标注设备,包括第二存储器和第二处理器,所述第二存储器存储有可在第二处理器上运行的计算机程序,其特征在于,所述第二处理器执行所述程序时实现权利要求10至15任一项所述的方法。20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法,或权利要求10至15任一项所述的方法。

技术总结
本申请实施例公开了一种模型训练、细胞图像标注方法、装置、设备及存储介质,其中,所述模型训练方法包括:采用预训练模型对未标注的第一细胞图像进行识别,得到所述第一细胞图像的第一标签;基于标注有第一标签的第一细胞图像和标注有第二标签的第二细胞图像对所述预训练模型进行训练,得到训练好的第一标签预测模型;其中,训练过程包括N个训练周期,第n个训练周期的第一细胞图像的标签是基于第n-1个训练周期的第一细胞图像的标签、所述未标注的第一细胞图像以及第n-1个训练周期后的预训练模型更新得到;N为正整数;n为大于1且小于等于N的正整数。的正整数。的正整数。


技术研发人员:请求不公布姓名
受保护的技术使用者:摩尔线程智能科技(北京)有限责任公司
技术研发日:2023.08.24
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐