一种基于扩散模型的小样本医学影像数据集增广方法

文档序号:37036222发布日期:2024-02-20 20:28阅读:15来源:国知局
一种基于扩散模型的小样本医学影像数据集增广方法

本发明属于医学影像处理领域,具体涉及一种基于扩散模型的小样本医学影像数据集增广方法。


背景技术:

1、如何基于医学影像进行病灶的早筛和分类诊断一直是个亟需深入研究的临床实际应用问题。对于基于深度学习的医学影像计算机辅助诊断模型而言,当训练集的样本数量越多、多样性越高时,辅助诊疗模型的性能通常越好。对已有的小样本医学影像进行增广,可显著提升训练集的样本量。同时在一定程度上,缓解了因成像成本、标注成本、病患隐私等固有局限而出现的医学影像样本量有限的问题。

2、翻转、缩放等仿射变换是最为常规的图像增广操作。这类方法虽能显著增加样本数量,但新增样本的图像内容与原始样本太过于相似,导致数据集的多样性提升有限。此外,图像拼接方法也是一种经典的增广方法,它以复制黏贴的方式对不同图像的前景/背景区域进行融合,可在一定程度上提升数据集的样本多样性。然而,对于影像学纹理结构较为复杂的医学影像而言,上述传统方法所得的样本通常难以符合真实医学影像的临床表征。


技术实现思路

1、为了克服现有技术的不足,针对医学影像增广任务中难以生成影像学纹理结构较为复杂的医学影像的现状,本发明提出了一种基于扩散模型的小样本医学影像数据集增广方法,提出一种可以高效提升数据增广数量与质量的方法,这种方法可以方便有效的用在医学病灶分类、检测、分割任务的数据预处理阶段任务中,可以大大提升下游任务的性能。

2、本发明通过以下技术方案达到上述目的:

3、一种基于扩散模型的小样本医学影像数据集增广方法包括以下步骤:

4、步骤s1:截取患者的医学影像中的病灶部位作为病灶医学影像;

5、步骤s2:为病灶医学影像数据构建文本级标签;

6、步骤s3:创建其对应的超网络;

7、步骤s4:利用图文对训练超网络;

8、步骤s5:对不同批次的超网络进行初筛;

9、步骤s6:对不同批次的超网络进行精筛;

10、步骤s7:根据不同的下游任务对医学影像数据进行增广操作。

11、进一步,所述步骤s1中获得的病灶医学影像是根据检测框标签截取下来的矩形影像,按病灶的实际类别被分为n类,统一存放于n个文件夹中。

12、再进一步,所述步骤s2中,对每一张病灶医学影像配上专属的文本级别标签。由于训练扩散模型时需要图文对数据集,故设步骤。

13、更进一步,所述步骤s3中,针对特定的医学病灶数据集创建超网络(hypernetwork),并设置各项参数:模块选择、超网络层结构、超网络激活函数和初始化方法等。

14、所述步骤s4中,将图文对数据集与超网络同步放入扩散模型训练,并设置训练所需的各项参数,需要设置的参数包括batch大小和网络大小等,训练结束之后得到保存下来的保存点(checkpoint,简称ckpt)。

15、所述步骤s4中,参数设置过程如下:

16、4.1.统计步骤s1中得到的每张病灶医学影像的长和宽,分别记长和宽的中位数为h和w;

17、4.2.按设定的大小将病灶医学影像随机地分成训练集和测试集,用于后期的分类任务中;

18、4.3.分类预处理阶段,利用resize函数,分别将图像重新变换成(0.5h,0.5w)、(h,w)、(2h,2w)三种大小的图像;

19、4.4.选择swin_b作为分类模型,根据实际的分类结果反映:各项实验数据中,图像大小为(2h,2w)的对照组测试精度最佳;

20、4.5.设置网络大小为(2h,2w),此时采样生成的样本更能符合真实数据样本。

21、所述步骤s5中,固定采样器和采样步数,对不同保存点的超网络进行验证,每次采样生成少于预设下限阈值数量的图像,依据生成病灶区域的影像特征,筛选出一部分保存点ckpt。

22、所述步骤s5的筛选过程如下:

23、5.1.设置采样器为dpm++2m karras和dpm++sde karras,设置合适的采样步数和提示词;

24、5.2.对每一个保存点ckpt进行采样操作,每次采样生成设定数量的图像,侧重判断生成影像是否具有病灶的影像学特征,包括大小、形状和颜色等;

25、5.3.最终保留效果最佳的前n个保存点ckpt。

26、所述步骤s6中,再次固定采样器和采样步数,进一步对初筛的保存点ckpt验证,每次采样生成多于预设上限阈值数量的图像,侧重判断生成样本的多样性,最后留下2-3个保存点ckpt。

27、所述步骤s6的过程如下:

28、6.1.设置采样器为dpm++2m karras、dpm++sde karras、euler a和dpm++3m sdekarras,设置合适的采样步数和设置提示词;

29、6.2.对每一个ckpt进行采样操作,每次生成预设数量图像,侧重观察同一批次生成病灶影像的多样性,包括样本之间的大小,形状等相差越大越好;

30、6.3.最终保留效果最佳的2-3个ckpt。

31、优选的,所述步骤s7中,对于不同的下游任务,采用不同的预处理操作对数据集进行增广,过程如下:

32、7.1.当下游任务为分类任务时:固定采样器和采样步数,选择由s6中筛选得到的ckpt对病灶进行增广操作。生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入分类模型训练;

33、7.2.当下游任务为检测任务时:固定采样器和采样步数,选择由s6中筛选得到的ckpt对病灶进行增广操作。由于只需对特定区域进行病灶生成,增广需要在掩膜上进行。掩膜由初始训练集病灶对应的医学影像获得,掩膜同时提供生成样本的检测标签。生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入检测模型训练;

34、7.3.当下游任务为分割任务时:固定采样器和采样步数,选择由s6中筛选得到的ckpt对病灶进行增广操作。由于只需对特定区域进行病灶生成,增广需要在掩膜上进行。掩膜由初始训练集病灶对应的医学影像获得,掩膜同时提供生成样本的分割标签。生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入分割模型训练。

35、优选的,所述7.1的过程如下:

36、7.1.1.设置采样器为dpm++2m karras、dpm++sde karras、euler a、dpm++3m sdekarras、dpm++3m sde exponential和unipc,设置采样步数为20和40步,设置生成大小为128*128,设置提示词为“a clear greyscale(types of medical images)imaging with(types of tumor)tumor”;

37、7.1.2.选择由步骤s6中筛选得到的样本点ckpt对病灶进行增广操作,每一类病灶生成1000个样本;

38、7.1.3.生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入分类模型训练;

39、7.1.4.记录测试效果最佳的1-3组参数:采样器、采样步数和混合比例。

40、所述7.2的过程如下:

41、7.2.1.设置采样器为dpm++2m karras、dpm++sde karras、euler a、dpm++3m sdekarras、dpm++3m sde exponential和unipc,设置采样步数为20和40步,设置生成大小为128*128,设置提示词为“a clear greyscale(types of medical images)imaging with(types of tumor)tumor”;

42、7.2.2.由于只需对特定区域进行病灶影像生成,增广需要在掩膜掩膜上进行。掩膜由初始训练集病灶对应的小样本医学图获得,掩膜同时提供生成样本的检测标签。对于一张特定的带有检测标签的小样本医学影像a来说,掩膜的大小与a的大小相同,掩膜背景为纯黑色,掩膜上a检测标签对应处为纯白色;

43、7.2.3.选择由s6中筛选得到的ckpt对病灶影像进行增广操作;

44、7.2.4.生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入检测模型训练;

45、7.2.5.记录测试效果最佳的1-3组参数:采样器、采样步数和混合比例。

46、所述7.3的过程如下:

47、7.3.1.设置采样器为dpm++2m karras、dpm++sde karras、euler a、dpm++3m sdekarras、dpm++3m sde exponential和unipc,设置采样步数为20和40步,设置生成大小为128*128,设置提示词为“a clear greyscale(types of medical images)imaging with(types of tumor)tumor”;

48、7.3.2.由于只需对特定区域进行病灶生成,增广需要在掩膜上进行。掩膜由初始训练集病灶对应的小样本医学图获得,掩膜同时提供生成样本的分割标签。对于一张特定的带有分割标签的小样本医学影像a来说,掩膜的大小与a的大小相同,掩膜背景为纯黑色,掩膜上a分割标签对应处为纯白色;

49、7.3.3.选择由步骤s6中筛选得到的样本点ckpt对病灶进行增广操作;

50、7.3.4.生成的样本按不同比例混入训练集中,生成样本与真实样本同时放入分割模型训练;

51、7.3.5.记录测试效果最佳的1-3组参数:采样器、采样步数和混合比例。

52、本发明的有益效果在于:利用由扩散模型采样生成的医学影像,实现小样本医学影像数据集的增广,传统的数据增广使用拼接、变形等手段,主要存在本质上增加不了样本多样性的问题;根据扩散模型生成样本更丰富的特点设计了本增广方法,将图像信息与文本信息充分结合起来,极大利用了样本中的各项信息,因此基于扩散模型的小样本医学影像数据集增广方法非常有利于提高医学下游任务的性能,有效提升病灶的早筛任务,间接提高医生的工作效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1