基于文字辅助的半监督3D医学图像分割方法

文档序号:37168030发布日期:2024-03-01 12:11阅读:37来源:国知局
基于文字辅助的半监督3D医学图像分割方法

本发明涉及一种基于文字辅助的半监督3d医学图像分割方法,属于医学图像处理。


背景技术:

1、医学图像分割的目的是将医学图像中某些感兴趣的区域和器官分割出来,并且提取出可以帮助诊断的特征,在定量医学图像分析中起到不可或缺的作用。随着深度学习的发展,医学图像分割领域获得了越来越大的成就。作为语义分割的开山之作,全卷积网络(fcn)虽然打开了自然图像分割的大门,但是在医学图像分割领域表现平平。

2、u-net通过对全卷积网络中skip connection的改进,在医学图像分割中取得了惊人的性能,而后这种优美的包含编码器、瓶颈层、解码器的——“u”形架构及其变体在这一领域实现了令人印象深刻的结果。之后通过对u-net网络骨干、skip connection策略、瓶颈层的特征增强等的修改,自从2015年以来,“u”形结构成为医学图像分割领域的支柱。而后随着transformer的崛起以及视觉语言预训练(vlp)方面取得的进展,vlp迅速的被引进到2d医学图像分析,为医学图像分割开启了新的篇章。虽然目前获得了令人鼓舞的成就,但通过对以往方法的分析总结,它面前面临着几个亟待解决的关键挑战。

3、第一,注释成本高昂。以往的方法依赖于大规模带有手动精确注释的数据集,实现起来费人费力。尤其是3d医学图像包含大量的切片,对于人工注释者来说,需要依次仔细浏览每个切片,这意味着注释者不仅需要有医学专业的背景,而且对图像分割技术有一定的了解,相对于2d图像来说需要更多的时间和劳力。

4、第二,图像文本对齐的数据稀缺。虽然当前预训练视觉语言多模态模型取得了很大的发展,但其主要集中在自然图像领域,并且需要大规模的数据集来进行训练,而这点在3d医学图像上显得尤为困难。因为3d医学图像数据集通常相对较小,而且其图像和对应文本数据通常非常复杂且多样化。例如,医学图像可能包括ct扫描、mri等,而相应的文本数据可能是诊断报告、病历记录等。对齐这些不同类型的数据需要综合考虑它们的多样性和复杂性。

5、第三,范式有限。现有的用来克服注释成本高昂、数据集相对较小的办法通常是使用弱监督方法和半监督方法。但首先由于弱监督盲目的降低了注释的质量会导致模糊边界问题,而边界是区分目标区域和背景区域最重要的信息之一。而半监督分割通常还是需要5-10个体积图像的完整注释才能取得不错的效果,事实上,哪怕是完整的注释一个体积图像都仍旧是一个比较昂贵的过程。

6、第四,信息丢失。虽然之前的很多工作都取得了很大的进展,但是大部分都集中在2d医学图像,而将同样的方法引入到3d医学图像分析中会导致一个不可避免的问题——空间信息的丢失。这种将3d医学图像分割成一个个单独切片然后对切片进行处理的方法,损害了3d图像的空间连贯性,对最终的结果会造成极大的损失。


技术实现思路

1、本发明的目的是提供一种基于文字辅助的“几乎无监督”3d医学图像分割方法,以弥补现有技术的不足。

2、为实现上述发明的目的,本发明采取的具体技术方案如下:

3、一种基于文字辅助的半监督3d医学图像分割方法,包括如下步骤:

4、s1:收集3d医学图像数据建立数据集,并对图像数据进行预处理;将数据集分为训练集和测试集,所述训练集包括有监督的图像数据和无监督的图像数据;

5、s2:利用大型视觉语言模型clip的文本编码器,对所选数据集的文本描述进行编码从而获得文本特征;

6、s3:构建网络模型,包括三个分支,分别是分割网络,分割网络,分割网络,该分割网络结构均为vnet,结构相同但是参数初始化不同;

7、s4:构造权重矩阵,对于有监督的图像,将其对应的真实标签分割乘上权重矩阵得到稀疏正交注释的标签;

8、s5:将训练集输入所述网络模型后,对于每个分支提取到的图像特征与已经获取的文本特征进行拼接,然后将其作为参数添加在后续操作当中作为指导得到分割结果;

9、s6:构造整个过程中的损失函数,包括利用稀疏正交注释的有监督部分的损失函数,以及无监督图像两两之间的交叉伪监督损失,以及将两者结合起来的总损失函数;

10、s7:利用训练集对所述网络模型进行训练,再使用测试数据对已经训练好的模型进行测试,输出图像分割结果。

11、进一步的,所述s1中,所述预处理包括:处理图像格式,进行图像裁剪,并对图像进行归一化处理;然后构建训练阶段的数据集,包含有监督的部分和无监督的部分,即,其中 = ,其中表示体积图像,是其对应的真实标签,l代表带注释的3d图像数量, =,从l+1到m总共m-l项代表不带注释的3d图片数目。

12、进一步的,所述s2中,使用大型视觉语言模型clip的文本编码器来对文本描述进行特征提取,在整个训练过程中不对其进行微调,不仅可以极大程度上减少训练开销,并且也不会过于降低精度,文本描述只是一句很简单的句子即可;如公式(1)所示:

13、;

14、其中代表提取到的特征向量,代表文本编码器,t代表器官的文本描述,对于每个数据集而言,其中每个图像对应的文本描述都是相同的。

15、进一步的,所述s3中,为了充分利用一副3d图像不同的视角所带来的互补信息的优点,同时克服密集注释所带来的成本高昂且相邻切片间冗余信息过多的缺点,使用三个分割网络,分割网络,分割网络,分割网络构成三分支,均为vnet,初始化参数不同,以及训练过程中每个分支上对于有监督部分的真实标签的标注方式不同。

16、进一步的,所述s4中,对于所构建训练集体积图像,其中的标签,i表示第i幅图像,根据视角的不同可以将其拆分成一系列切片;如下式(2)、(3)、(4)所示:

17、;

18、;

19、;

20、其中a、b、c分别代表不同的视角,m、n、p则分别代表沿着a视角看过去可以将分成m个切片,沿着b视角看过去可以将分成n个切片,沿着c视角看过去可以将分成p个切片。i表示当前是第i个体积图像。对于实现本发明中所提到的每个分支选取两个正交切片注释作为监督信号,首先以第一个分支为例,只需构造一个与大小相同的全零矩阵,此时是一个3d矩阵,在第一与第二个维度上设置某一个切片的值为1,如公式(5)、公式(6)所示:

21、;

22、;

23、公式(5)表示沿着b视角,将第k张切片,也即是切片的值设置为1,公式(6)表示沿着a视角,将第j张切片,也即是切片的值设置为1;然后第一个分支的有监督图像的稀疏标签,可通过下式(7)计算得到:

24、;

25、对于第二个分支和第三个分支的稀疏标签同理可得,通过构造全零矩阵和。首先设置,表示沿着a视角,将第j张切片,也即是切片的值设置为1,  ,表示沿着c视角,将第q张切片,也即是切片的值设置为1,通过,得到第二个分支的稀疏标签;设置,表示沿着b视角,将第k张切片,也即是切片的值设置为1,  ,表示沿着c视角,将第q张切片,也即是切片的值设置为1,通过得到第三个分支的稀疏标签;

26、基于上述步骤,三个分支分别对应的稀疏正交注释,,构造完毕,可以用于后续的监督训练。

27、进一步的,所述s5中,由于三个分支的分割网络都是结构一样的vnet,所以每个分支所做的操作都是相同的。具体而言,输入图像首先经过分割网络编码器得到图像特征,如公式(8)所示:

28、;

29、其中表示此时第i个图像输入网络,为分割网络的编码器部分,则是提取到的图像特征。由于此时特征图的大小与之前得到的文本特征的大小不一致,所以将其经过全局平均池化之后才能与拼接,得到中间参数,如公式(9)所示:;

30、其中表示全局平均池化操作,表示向量拼贴操作,是待处理的中间参数变量;而对于编码器得到的图像特征,继续经过解码器的上采样部分,将特征图还原成原始图片的大小,并且与经过处理的相加,将相加的结果再经过卷积操作,得到最终的预测掩码,如下式(10)所示:

31、;

32、其中表示分割网络的解码器部分,表示卷积操作,目的是使的通道数和经解码器过后得到的特征图的通道数相一致,是扩充操作,使得的大小经解码器过后得到的特征图的大小相一致,经过这两步处理才能进行相加操作。是得到最终分割结果的卷积层。

33、上述步骤是一个分支的处理过程,其余两分支的过程相同,并且每个小批量处理过程中都包含一个有监督的图像和一个无监督的图像,两者的处理过程也是一样的。

34、进一步的,所述s6具体如下:

35、经步骤s5得到了正交注释的稀疏标签,以及通过分割网络计算出的预测掩码,就需要构建损失进行模型的训练以对模型参数进行优化;s6-1:监督损失()

36、如前所述,对于每个体积图像有对应的三个稀疏标签,,;分割网络,分割网络,分割网络分别使用,,进行监督训练,这样三个分割网络从三个不同的角度学习到不同的知识,并且正交注释的视差得到了很好的保留;监督损失包括dice损失和交叉熵损失,如公式(11)、(12)、(13)所示:

37、;

38、;

39、;

40、其中表示网络输出的预测标签,表示图像的体素数量,表示计算得到的稀疏标签;是监督损失,表示交叉熵损失,表示dice损失;

41、s6-2:无监督损失()

42、对于占大多数的没有注释的体积图像,三个分支之间两两进行预测指导,三分支比两分支的优势在于不是一种“非此即彼”的策略,更像是一种“少数服从多数”的投票策略,可以提升交叉伪监督过程当中的鲁棒性,并且对于每一个分割网络生成的预测掩码,只选择那些不确定性低于阈值的体素,实现更好的交叉监督,如公式(14)、(15)、(16)所示:

43、;

44、;

45、;

46、其中表示当前分支网络输出的预测标签,表示图像的体素数量,和分别表示另外两个分支计算得到的预测标签。表示当前体素是否被选择。和是交叉熵损失,表示无监督损失;

47、s6-3:最终的总损失是监督损失与无监督损失的加权和,如下式(17)所示:

48、;

49、引入动态参数的目的是因为,在网络训练前期主要是根据稀疏注释的标签进行参数的优化,但同时也会累计很多错误,随着网络的不断迭代,后期应该赋予无监督损失更大的权重用来更正前面累积的损失。

50、进一步的,所述s7中,在模型训练中,选择效果最好的分支中的分割网络作为后续推理的模型,将3d医学图片输入模型后得到预测掩码,通过对比真实标签来计算精度。

51、本发明的优点和有益效果:

52、本发明在基于文字辅助正交注释的“几乎无监督”3d医学图像分割的时候,考虑到了整个过程中应最大化的减少人工标注的工作,降低相邻切片注释的冗余性,充分利用体积图片不同视角所带来的视差可以互相弥补的优势。克服两分支交叉监督是“非此即彼”的范式,引入了更多的惩罚因素,使得交叉伪监督的效果更好。

53、相比于传统的利用半监督或者弱监督范式来训练网络时仍旧需要完整的对体积图像进行注释的缺点,本发明旨在通过对每个图像只使用三张不同视角下正交的切片首先构成一种“几乎无监督”范式,进行更有效的交叉伪监督指导,同时引入文本描述的信息,利用预训练的视觉语言模型来处理以做额外的低成本的指导,降低了密集注释操作的昂贵开销。

54、本发明对减轻训练3d医学图像分割中所需要复杂的注释工作具有重要意义,提出了一种新的注释的思路,并且为如何使用文本来指导3d医学分割的工作提供了一个新方向。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1