一种细胞分割微调方法

文档序号:29453602发布日期:2022-03-30 12:20阅读:372来源:国知局
一种细胞分割微调方法

1.本发明涉及细胞成像、实例分割和模型微调技术领域,尤其涉及一种细胞分割微调方法。


背景技术:

2.单细胞分割的技术目前被广泛应用于细胞计数、空间转录组学、高通量药物筛选和肿瘤的转移灶检测等领域。但是,由于缺少鲁棒的容易使用的细胞分割算法,平均分析的方法仍然是最常用的方法,这不仅会导致信息损失,而且可能影响下游分析,错误地解释特征之间的关系。因此,开发一种鲁棒的性能优异的单细胞分割算法具有重要的研究价值。
3.但是由于不同的细胞类型、显微成像设备、处理方式、成像模式、染色方法能够产生各种不同风格的细胞图像,开发一种通用性的能够适用所有风格图像的算法充满巨大的挑战。
4.目前,因为深度学习的革命,通用性细胞分割的算法得到了一定的突破。2018年,一个数据科学碗的竞赛要求参赛者开发一种能够适用于来自不同实验室的各种细胞核图像的通用性算法。紧接着这个工作,2020年,有学者提出了一种通用性更强分割性能更好地能够对多种风格的细胞图像进行分割的算法cellpose。但是这种通用性模型并不能适用于所有风格的细胞图像,并且有时候,对于同一张图像,研究者可能想要分割出图像中的不同物体,如线粒体或细胞核,这种时候,通用性算法往往由于其固定的分割模式,不能得到理想的分割结果。
5.微调一个预训练好的模型被广泛应用在了计算机视觉和自然语言处理等领域,和从头训练相比,这种方法通常只需要少量的数据,并且模型的性能可以更快的收敛。但对于细胞分割领域,还并没有进行深入地研究。
6.目前,有一些研究者已经进行了有意义的尝试,比如有研究者尝试使用一个在体外细胞图像上训练的模型经过微调之后能够对体内的一些组织图像可以进行分割,还有研究者基于已有的细胞核分割模型开发适用于其他细胞核图像的微调方法。但是,这些研究并没有跟上通用性算法的研究步伐,并且这些研究通常局限于细胞核图像,还有大量其他的实例如线虫等都有分割的需求。
7.因此,迫切地需要研究一种能够对各种风格图像进行微调,并且微调之后有着优异分割性能的细胞分割微调方法。


技术实现要素:

8.为了克服现有技术的不足,本发明公开了一种细胞分割微调方法,基于现有的通用性分割算法和经典的微调方法,构建了一种通用的“预训练+微调”的细胞分割算法管道,可实现对不同风格的细胞图像的细胞分割,拓宽了通用性算法可以应用的场景,提高了通用性算法的分割性能。
9.为了实现上述目的,本发明采用如下技术方案:
10.一种细胞分割微调方法,包括以下步骤:
11.s1、预训练阶段:
12.将已知的不同风格的细胞图像数据作为预训练数据构成预训练集,利用预训练集进行模型训练,得到预训练模型;
13.s2、微调阶段:
14.从新风格的待分割的细胞图像中,标注至少8张,作为shot数据集,剩余的细胞图像作为query数据集;
15.利用shot数据集对步骤s1得到的预训练模型进行微调再训练,得到训练模型;
16.s3、推断阶段:
17.利用步骤s2得到的训练模型对步骤s2中所述的query数据集中的细胞图像进行推断分割。
18.优选地,步骤s1中所述预训练模型为通用性分割模型;进一步优选为cellpose模型。
19.更进一步优选地,所述预训练模型为scellseg模型,具体地,所述scellseg模型的构建方法为:在cellpose模型的基础上引入注意力门控机制;
20.所述注意力门在将编码过程中子块的特征传递到解码过程对应层级的子块时,为特征图增加了一个空间权重。
21.优选地,所述scellseg模型的构建方法,还包括:在cellpose模型的基础上引入层次风格信息;
22.所述层次风格信息将编码过程中各个层次的风格嵌入按层次进行整合并使用一个全连接层进行降维之后,传递给解码子块。
23.优选地,所述scellseg模型中还包括dense单元,所述dense单元在解码子块进行处理后,将解码前的特征与解码后的特征进行整合。
24.优选地,步骤s2中所述微调,包括以下步骤:
25.(1)分别将步骤s1中的预训练数据、s2中shot数据集的标注数据和query数据集中的未标注数据输入到步骤s1得到的预训练模型中进行编码,得到每个数据最后一个编码子块的特征图;
26.(2)分别使用平均池化,计算步骤(1)中三种数据的风格嵌入;
27.(3)根据步骤(2)得到的风格嵌入,计算损失;
28.(4)利用步骤(3)得到的损失,对模型权重进行微调。
29.进一步优选地,步骤(3)中所述损失的计算公式为:
30.l
total
=l
segmentation
+l
contrast
×
sigmoid(α);
31.式中,
32.l
segmentation
为cellpose中定义的分割损失函数,具体公式如下:
33.l
segentation
=bce(y
b,2
,lbl
b,0
)+0.5
×
mse(y
b,0:2
,5
×
lbl
b,1:3
);
34.其中,bce为二分类交叉熵,y表示模型的输出,lbl表示真实的标签,下标表示在y或lbl中具体的维度,b表示batch size,在本实施例中设定为8;
35.l
contrast
为对比损失函数,其使用mse计算shot和query数据之间、shot和contrast数据之间风格嵌入的差异;
36.计算公式为:
37.其中,mse指均方误差,shot指标注数据的风格嵌入,query指未标注数据的风格,contrast指预训练数据的风格嵌入,10-5
防止分母为0设的常数。
38.α系数用来控制对比损失所占的权重,sigmoid函数用来控制对比损失函数的系数光滑地在0到1之间变化。
39.与现有技术相比,本发明的有益效果为:
40.(1)本发明的基于对比学习的细胞分割微调方法,建立了一种通用的“预训练+微调”的细胞分割算法管道,该管道首先基于现有的通用性分割算法和经典的微调方法,构建了一种当需要在新风格的细胞图像进行细胞分割的时候,可以简单地通过微调算法实现对该风格进行应用的方法,拓宽了通用性算法可以应用的场景,提高了通用性算法的分割性能。
41.(2)本发明的scellseg模型为风格注意的预训练细胞分割模型,其基于cellpose结构,包括编码器、解码器和用于连接这两个部分的连接层,并在此基础上,引入了注意力门控机制来更好的提取风格相关的特征,使用层次风格信息来增强模型对不同层次的风格嵌入进行学习,并引入dense单元对解码前后的特征进行整合。该模型能够针对不同风格的细胞图像,利用注意力门控机制和层次风格信息,自动地提取风格相关的特征,使模型更加有效地利用好风格相关的信息。
42.(3)本发明构建了一个对比分支,不仅利用了传统微调算法使用的少部分标注数据,还使用了预训练该模型的数据和该实验中未标注数据的信息,同时,本发明首次引入了针对不同数据风格嵌入的对比损失函数,可以挖掘3种数据间的风格对比信息,并在反向传播过程中反馈给网络进行学习,提高了对不同风格的辨别能力,进而增加了模型的微调能力。
附图说明
43.图1为本发明细胞分割微调方法的示意图。
44.图2为本发明风格注意的预训练细胞分割模型(scellseg模型)结构图。
45.图3为本发明充分利用多种数据的对比微调算法示意图。
46.图4为本发明实施例中contrast数据中的代表性图片示例。
47.图5为采用本发明对不同风格的细胞图像分割的效果图。
48.其中,a中实例为秀丽线虫,b中实例为线粒体,c中实例为相位对比显微镜拍摄的细胞。
49.图6为不同分割微调方法的分割效果图。
具体实施方式
50.下面结合具体实施例和图1-6,对本发明的技术方案做详细的介绍。
51.如图1所示,本发明提供了一种细胞分割微调方法,包括预训练模型和微调算法,具体包括以下步骤:
52.s1、预训练阶段:
53.将已知的不同风格的细胞图像数据作为预训练数据构成预训练集,利用预训练集进行模型训练,得到预训练模型;
54.s2、微调阶段:
55.从新风格的待分割的细胞图像中,标注至少8张,作为shot数据集,剩余的细胞图像作为query数据集;
56.利用shot数据集对步骤s1得到的预训练模型进行微调再训练,得到训练模型;
57.s3、推断阶段:
58.利用步骤s2得到的训练模型对步骤s2中所述的query数据集中的细胞图像进行推断分割。
59.步骤s1中所述训练模型为任意公开的通用性分割模型;优选为cellpose模型,该模型是一个经典的u-net结构,主要由编码器、解码器和连接层三个结构组成。编码器包含4个层级的子块,网络的输入为224*224的图像,每个子块包含1个残差卷积单元和一个池化层,每个残差卷积单元由4个卷积层组成,卷积层用于提取特征,使用relu作为激活函数,池化层用于对图像进行放缩,以提取更高维的特征,4个层级的特征维数分别为32、64、128和256;解码器同样包含4个层级的子块,4个层级的特征维数倒序递减,分别为256、128、64和32,最后使用一个卷积单元对最后一个子块的特征图进行处理以适配最终的分割任务。
60.如图2所述,为了充分利用不同风格图像的特异性信息,所预述训练模型进一步优选为scellseg模型。
61.cellpose的主要创新在于其优异的实例表示方式,使用一种拓扑映射的方式对标注的mask进行预处理并让网络进行学习,在推断阶段,使用梯度追踪的方式将这种拓扑映射再转化为mask。本发明在cellpose模型的基础上引入注意力门控机制;
62.所述注意力门在将编码过程中子块的特征传递到解码过程对应层级的子块时,为特征图增加了一个空间权重,可以实现模型对细胞图像不同特征的重要程度的学习。
63.为了增强模型对风格的感知能力,所述scellseg模型,在cellpose模型的基础上引入层次风格信息;
64.所述层次风格信息将编码过程中各个层次的风格嵌入按层次进行整合并使用一个全连接层进行降维之后,传递给解码子块。所述风格嵌入是使用平均池化对每个子块的特征图进行处理得到的,对于4个层级的解码器32、64、128和256,对应的风格嵌入的通道数分别为256,384,448,480。
65.同时为了充分考虑各个层级之间的信息,所述scellseg模型,还包括dense单元,所述dense单元在解码子块进行处理后,将解码前的特征与解码后的特征进行整合。
66.具体地,所述scellseg模型,由四个残差单元和三个最大池化层构成编码器,四个dense单元和3个上采样层构成解码器,虚线部分为连接层。输入首先通过编码器进行编码,然后通过特征图对解码器进行解码并输出最终的风格映射,编码过程中得到的特征图可以通过平均池化层计算风格向量,并用于连接层(虚线部分表示)进行特征通讯。
67.如图3所述,本发明对经典的fine-tuning算法也进行了优化,设计了一种基于对比学习的微调算法。通常一个实验会产生大量的未标注的数据,而经典的fine-tuning算法只使用了少部分的标注数据,还有大量的用于预训练该模型的数据也没有被很好的利用起来。为了充分利用未标注数据和预训练数据,我们在对模型进行微调的过程中,引入了一个
对比分支,具体为:
68.(1)分别将步骤s1中的预训练数据、步骤s2中所述shot数据集的标注数据和步骤s2中所述query数据集的未标注数据,输入到步骤s1得到的预训练模型中进行编码,得到每个数据最后一个编码子块的特征图;
69.(2)分别使用平均池化,计算步骤(1)中三种数据的风格嵌入;
70.(3)根据步骤(2)得到的风格嵌入,计算损失;
71.(4)利用步骤(3)得到的损失,对模型权重进行微调。
72.进一步优选地,步骤(3)中所述损失的计算公式为:
73.l
total
=l
segmentation
+l
contrast
×
sigmoid(α);
74.式中,
75.l
segmentation
为cellpose中定义的分割损失函数,具体公式如下:
76.l
segentation
=bce(y
b,2
,lbl
b,0
)+0.5
×
mse(y
b,0:2,5×
lbl
b,1:3
);
77.其中,bce为二分类交叉熵,y表示模型的输出,lbl表示真实的标签,下标表示在y或lbl中具体的维度,b表示batch size,在本实施例中设定为8。
78.l
contrast
为对比损失函数,其使用mse计算shot和query数据之间、shot和contrast数据之间风格嵌入的差异,使来自于同一实验的标注数据和未标注数据的风格嵌入之间的差异尽可能的小,而使标注数据和预训练数据的风格嵌入之间的差异尽可能的大,具体计算公式为:
[0079][0080]
其中,mse指均方误差,shot指标注数据的风格嵌入,query指未标注数据的风格,contrast指预训练数据的风格嵌入,10-5
防止分母为0设的常数。
[0081]
α系数用来控制对比损失所占的权重,sigmoid函数用来控制对比损失函数的系数光滑地在0到1之间变化。
[0082]
最终使用l
total
损失函数,adam优化器,设定100个epoch,对预训练模型的参数优化,初始学习率为0.001。
[0083]
实施例1
[0084]
一种细胞分割微调方法,分为预训练和微调两个阶段,具体步骤如下:
[0085]
预训练阶段:
[0086]
(1)首先使用cellpose提供的训练集,每8张取最后一张作为验证集,对scellseg模型进行训练;
[0087]
(2)保存得到的模型权重文件备用;
[0088]
(3)从预训练数据中选出一个子集作为contrast数据,包括7种风格,每种风格包含5张图片,如图4所示。
[0089]
微调阶段:
[0090]
(1)从新的实验产生的图像集中,标注10张作为shot数据集,剩余的图像可以作为query数据;
[0091]
(2)scellseg模型读取预训练的模型权重,使用shot数据,query数据,contrast数据对模型进行微调;
[0092]
(3)保存微调后的模型权重,备用;
[0093]
(4)微调后的模型权重可以用于这类新的实验细胞图像的分割。
[0094]
最终,我们的scellseg模型加上对比微调算法在3个测试数据集上的迁移性能都要优于cellpose+经典微调算法,如图5和6所示,其中,图6中左列为cellpose+经典微调方法的结果,右列为本发明scellseg+对比微调方法的结果,黄色实线为真实的标签,红色虚线为模型的推断,红色与黄色重合度越大,表明效果越好。同时本发明在bbbc010_elegans、livecell_bv2和mito数据集上的ap@0.5分别达到了0.882、0.783、0.927。
[0095]
本发明不局限于上述具体实施方式,根据上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,本发明还可以做出其它多种形式的等效修改、替换或变更,均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1