一种宫颈液基病理细胞检测少样本图像数据增强方法与流程

文档序号:35292500发布日期:2023-09-01 15:01阅读:70来源:国知局
一种宫颈液基病理细胞检测少样本图像数据增强方法

本发明属于图像处理的,更具体地,涉及一种宫颈液基病理细胞检测少样本图像数据增强方法。


背景技术:

1、随着人工智能技术的发展和该技术在医疗影像领域的广泛应用,人工智能可将图像中的色彩纹理等人眼难以捕捉的信息形成特征数据呈现出来,通过结合细胞分割、细胞分类等算法,并融合病理医师的阅片技巧,实现宫颈癌计算机辅助筛查系统,将其应用于宫颈液基细胞学中,可显著提高工作效率,减轻阅片人员工作量,对于宫颈癌早期筛查有着重大的意义。病理ai的落地推广有望填补近10万人的病理医生缺口,解决病理行业供给严重不足、医疗资源分配不平衡的问题,极大的促进分级诊疗的落地。

2、卷积神经网络用于图像识别的分类任务,需要用到大量的图像数据集进行训练。由于医学病理细胞图像涉及到病人隐私,必须通过与医院协商来获取,且数量不能够达到任务的需求。由于宫颈脱落细胞切片图像数据集太少,为了提高宫颈癌细胞识别学习与泛化学习能力,要扩展原始宫颈脱落细胞数据集中存储的数据。

3、医学图像的数据增广方式有很多,常用的方法主要有以下几种:

4、镜像(filp),对图像进行水平和垂直翻转,一般采取水平翻转,垂直翻转可由图像旋转180°后执行水平翻转获得;

5、旋转(rotation),将图像进行任意角度的旋转,可导致图像尺寸的改变;

6、缩放(scale),图像可以向内或者向外缩放。向外缩放会使图像的尺寸变大,往往在对一张图像进行裁剪操作后向外缩放,使图像大于等于原始图像;向内缩放会使图像尺寸变小,此时便需要对图像进行填充;

7、裁剪(crop),从原始图像中随机截取部分,然后进行向外缩放,将此部分的大小放大为原始图像大小,通常称这种方法为随机裁剪;

8、色彩抖动(color jittering),对颜色的数据增强,图像亮度、饱和度和对比度变换。

9、目前已经提出了多种多样的样本扩增方法来解决图像样本不足的问题,以原数据集为基础,在原始数据上做变动,产生相似但又不同的样本来增加数据集的数量,使模型能够充分的训练,减少模型过拟合。同时,对原始样本的改变还可以降低模型对目标某些属性的依赖,进而提高模型的泛化能力。因此,数据增广不仅可用来解决样本数量不足的问题,还能解决样本不均衡的问题。

10、中国专利文献cn106803268a,公开了一种果体病变图像方位多样性样本仿真方法,包括:将采集到的图片剔除非关键信重构得到方形图片;计算得到方形图片的最大内切圆包围的像素同时剔除内切圆外的部分像素,得到圆形图片;通过对得到圆形图片以相同的角度间隔进行多次旋转得到不同方位的仿真样本。

11、综上,由于宫颈液基细胞图像数据集是由宫颈液基细胞病理数字切片经裁剪产生,利用扫描仪对宫颈液基细胞病理切片进行扫描,得到宫颈液基细胞全视野病理数字图像wsi(whole slide images,wsi),选择全视野数字切片wsi在扫描仪20倍率下的图像,将此图像修剪为若干1000×1000像素大小的图像区域;用于网络模型训练的数据集图像是由裁剪得出,图像周边存在残缺细胞特征,存在影响细胞识别的准确性以及前景与背景的划分;mosaic数据增强的缺点是有数据集中本身就有很多小目标,使得数据增强后的小目标更小,最终导致模型泛化能力变差,其次当输入的图像中正常细胞与异常细胞的实例类别不均衡时,无法改变;而细胞图像为彩色图像,且细胞颜色也应保留为异常细胞的一大特征,不能轻易进行更改,传统利用图像旋转来进行图像增强的方法,旋转后原始图像可能有些信息被遮挡了而丢失。


技术实现思路

1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种宫颈液基病理细胞检测少样本图像数据增强方法。

2、本发明详细的技术方案如下:

3、一种宫颈液基病理细胞检测少样本图像数据增强方法,包括以下步骤:

4、s1、将采集到的方形图像剔除非关键信息,固定图像大小,并进行预处理增强数据集;

5、s2、从数据集取出一个batch的图像后,使用双峰法计算每张图像前景与背景分隔的阈值,将正常细胞纳入背景,异常细胞作为前景;

6、s3、根据前景的像素占比与背景的像素占比计算出每张图像的前景与背景之间的对比度;

7、s4、以整体平均灰度值为图像前景与背景分隔的阈值设定对比度阈值p1、以背景的平均灰度值为图像前景与背景分隔的阈值来设定对比度阈值p2,且p1<p2;将p1和p2作为符合要求图像前景和背景对比度的范围边界;

8、s5、根据batch中对每张输入图像的对比度所属的范围进行相应的图像处理,直至所有图像符合图像前景目标和背景对比度的要求:

9、若输入图像p<p1,则从batch中选取对比度能够满足p1≤p≤p2的图像进行mixup,直至满足p1≤p≤p2;

10、若输入图像p满足p1≤p≤p2,则符合图像前景目标和背景对比度的要求;

11、若输入图像p>p2,则采取随机cutout进行随机像素失活,直至满足p1≤p≤p2;

12、s6、经上述处理后,从batch中随机选取四张符合图像前景目标和背景对比度的要求的图片进行mosaic的后处理并输出。

13、所述s1的预处理包括:

14、s101、以图像的两组对边的中心点连接为线,将图像裁剪为四张大小相同的子图像块;

15、s102、令图像高为h、宽为w,则子图像块的高为h/2,宽为w/2,分别标记为block1、block2、block3、block4,四张子图像块随机进行水平镜像;

16、所述水平镜像:以图像的垂直中轴线为对称线将图像的左右部分进行镜像变换;

17、s103、经过s102处理后的子图像块按照图像原位置顺序进行拼接,拼接后子图像块按照逆时针水平或竖直平移一个子图像块的距离,产生与原图像大小相等形状相同的三张新图像。

18、所述s1的预处理还包括一种最大内切圆的裁剪方式:

19、s111、对将采集到的方形图像剔除非关键信息,固定图像大小,进行最大内切圆裁剪,得到内切圆图像以及方形边界图像;所述方形边界图像为方形图像进行最大内切圆裁剪后剩下的边界图像;

20、s112、将得到的内切圆图像根据垂直的两条直径线段裁剪为四张大小相等、形状为扇形的子图像块,分别标记为block1、block2、block3、block4;

21、s113、将裁剪得到的四张子图像块进行拼接,然后按照特定角度进行旋转:固定一个子图像块旋转的角度顺序,依次旋转90°、180°、270°;固定的子图像块每旋转一次,其它子图像块随机旋转90°、180°或270°,且子图像块旋转后的位置不能相同,产生三张新内切圆图像;

22、s114、将s113得到的新内切圆图像与s1的方形边界图像合并,形成三张最终新图像。

23、所述s2、从数据集取出一个batch的图像后,使用双峰法计算每张图像前景与背景分隔的阈值,将正常细胞纳入背景,异常细胞作为前景,具体包括:

24、s21、从数据集取出一个batch的图像,求出每张图像的最大灰度值和最小灰度值,分别记为gl和gu,令初始阈值为:

25、

26、s22、根据初始阈值t0将图像分割为前景和背景,分别求出前景的平均灰度值af、背景的平均灰度值ab和整体平均灰度值将正常细胞纳入背景,异常细胞作为前景;

27、

28、

29、在公式(2)、公式(3)中,gi表示像素的灰度值,[(g)表示该灰度值在图像中出现的像素个数。

30、所述s4、以整体平均灰度值为图像前景与背景分隔的阈值设定对比度阈值p1、以背景的平均灰度值为图像前景与背景分隔的阈值来设定对比度阈值p2,具体包括:

31、根据图像对比度设定对比度双阈值p1,p2,p1<p2;将p1和p2作为符合要求图像前景和背景对比度的范围边界;

32、p1的计算为:令阈值为分隔图像前景与背景,进行对比度计算后,计算p1,公式为:

33、

34、公式(5)中的y表示图像的数量,pi表示第i张图像在阈值的划分下前景目标的对比度;

35、p2的计算为:令阈值为tk=ab,分隔图像前景与背景,进行对比度计算后,计算p2,公式为:

36、

37、公式(6)中的y表示图像的数量,pi表示第i张图像在阈值tk=ab的划分下前景目标的对比度。

38、所述s5中的图像进行mixup具体包括:

39、s501、若输入第一图像的p<p1,则从batch中选取对比度能够满足p1≤p≤p2的第二图像与第一图像进行mixup:

40、获取随机数λ,λ是一个服从β分布的随机数,表示权值,范围在(0,1);随机选取batch中满足p1≤p≤p2的第二图像;

41、s502、第一图像与第二图像分别以权值λ和1-λ进行图像加权融合;

42、s503、输出mixup图像,判断对比度是否满足p1≤p≤p2;

43、若满足,则进行s6;

44、若不满足,则输出的mixup图像p>p2,对图像采取随机cutout进行随机像素失活;

45、所述采取随机cutout进行随机像素失活具体包括:

46、若输入图像p>p2,则采取随机cutout进行随机像素失活,输出cutout图像,判断对比度是否满足p1≤p≤p2;

47、若满足,则进行s6;

48、若不满足,则输出的cutout图像失活前景目标像素,再对图像进行mixup操作。

49、所述s6的mosaic的后处理包括:

50、从batch中随机选取4张图像进行组合,随机位置裁剪拼接成新图,重复batch_size次,得到batch_size个mosaic数据增强后的图片。

51、与现有技术相比,本发明的有益效果为:

52、(1)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,将正常细胞纳入背景,利用双峰法计算图像中前景与背景的划分阈值,然后计算图像对比度;双峰法统计灰度图像的像素特征,计算阈值,使得通过此阈值得出的图像处理结果能将前景与背景得到较好的划分。

53、(2)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,通过对图像划分位置进行裁剪,将裁剪后的四张子图像块送入mosaic数据增强,通过mosaic算法拼接组合成为新的图片,不仅没有改变图片的原有背景,而且修正了mosaic数据增强的一大缺点即数据集中本身就有很多小目标,数据增强后的小目标更小而导致模型泛化能力变差;通过将图片裁剪为子图像块进行数据增强的方法,更加贴合数据集的情况,能够有效增加数据量到原数据集4倍。

54、(3)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,通过对图像进行最大内切圆裁剪,裁剪后将内切圆图像以圆心进行旋转,然后进行拼接成原始图像大小。对比传统利用图像旋转来进行图像增强的方法,本发明方法增强后的图像不会出现图像原始信息的丢失,并且控制旋转角度,可以防止出现重复图像。

55、(4)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,采用裁剪再拼接的操作,能够更好的贴合切片细胞图像特征,能够适应宫颈液基细胞病理图像周边存在残缺细胞特征,从而增强对检测模型的识别能力。

56、(5)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,通过对mosaic算法进行改进,在原算法的基础上计算每张图像中目标与背景之间的对比度,然后通过对比度双阈值,将符合条件的图像输出,不满足条件的需要进行图像处理;改进后的mosaic算法对前景与前景类别不平衡进行处理,能够使图像中正常细胞与异常细胞的实例类别变得均衡。

57、(6)本发明提供的一种宫颈液基病理细胞检测少样本图像数据增强方法,当输入图像不满足对比度阈值条件时,可经mixup操作后,输入图片的对比度变大,异常细胞实例数变多,扩展了样本分布,让训练出的模型具有更强的健壮性;或采取随机cutout操作,将图像中像素随机失活;一方面对图像对比度进行调整,防止异常细胞占比过高导致的前景细胞类别的不平衡;另一方面能够模拟遮挡细胞目标特征,预防过拟合,提高模型泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1