样本量的扩充方法及装置、设备及存储介质与流程

文档序号:35633683发布日期:2023-10-06 04:09阅读:226来源:国知局
样本量的扩充方法及装置、设备及存储介质与流程

本发明涉及病理图像处理,尤其涉及一种样本量的扩充方法及装置、设备及存储介质。


背景技术:

1、人工智能技术已广泛应用于医学图像研究及应用领域,取得了令人瞩目的进展。医学图像是临床医生进行疾病诊断和治疗的重要依据之一,而人工智能技术的应用可以提高医生诊断准确率和效率,同时也有望发现新的疾病特征和治疗方案。

2、医学图像深度学习模型的生成需要医生标注大量数据进行训练。训练数据集的数量和质量是制约深度学习算法模型的准确性的重要因素。医学图像深度学习模型生成的过程中需要利用计算机逐步从数据中学习特征。因此在医学图像识别任务中,为了让计算机尽可能准确地完成分类、检测、分割等任务,需要在大量的数据基础上进行模型训练。

3、但是,清晰、完整、高质量的医学图像数据并不容易获取,需要专业知识和经验才能进行标注和审核,相对而言很难获得足够数量的数据集。训练数据集的数量和质量都对深度学习算法模型的准确性产生极大的影响。缺乏足够多的样本数据会导致模型出现欠拟合情况,无法捕捉到数据中的信息细节和规律;而过多的训练数据则会导致模型过于复杂,丧失泛化能力。此外,训练数据集的质量也会影响深度学习算法模型的准确性。在数据标注的过程中,人为因素(如标注人员的专业水平和标注规则的制定)会对标注效果产生影响;同时,数据样本的不一致、噪声等问题也会降低数据的质量。为了提高深度学习模型的准确性,需要投入大量的时间、人力、物力去搜集、整理标注和筛选可用样本,以拥有充足且高质量的训练数据。此外,在训练数据的获取中还要尽可能地使得数据的多样性,避免出现过拟合问题。这样才能够在医学图像识别任务中确保深度学习模型的准确性和泛化能力,并为临床应用提供实际意义上的帮助。

4、目前,有经验的医生往往没有时间重复性从事标注图像工作。而有时间的青年医生,往往对于图像的标注准确性又低于高年资的医生。病理图像的标注数据量仍然受限于医生的个人精力与能力,要想得到大量标注样本常常耗用标注医生的时间,效率不高。


技术实现思路

1、本发明的主要目的在于提供一种样本量的扩充方法及装置、设备及存储介质,可以解决现有技术中的大量标注样本常常耗用标注医生的时间且效率不高的问题。

2、为实现上述目的,本发明第一方面提供一种样本量的扩充方法,所述方法包括:

3、获取数字病理图像,所述数字病理图像包括标注有正样本标签的第一图像区域、标注有负样本标签的第二图像区域和未标注标签的第三图像区域;

4、将所述第三图像区域进行图像分割,得到所述第三图像区域的若干子图像;

5、利用所述第一图像区域、第二图像区域以及各个所述子图像进行图像特征的相似度聚类处理,确定每个所述子图像的相似度数对,所述相似度数对用于反映所述子图像与第一图像区域之间的第一相似度,以及所述子图像与第二图像区域之间的第二相似度;

6、根据各个子图像的相似度数对以及预设的相似度坐标系,确定所述子图像对应的目标样本标签,所述相似度坐标系用于指示所述相似度数对对应的样本标签,所述目标样本标签至少包括正样本标签或负样本标签。

7、在一种可行实现方式中,所述相似度坐标系的坐标轴由第一相似度以及第二相似度构成,所述第一相似度以及所述第二相似度呈反比,则所述根据各个子图像的相似度数对以及预设的相似度坐标系,确定所述子图像对应的目标样本标签,包括:

8、利用各个所述子图像的第一相似度以及第二相似度,确定至少两个相似度阈值,所述相似度阈值至少包括极小相似度阈值和极大相似度阈值;

9、根据所述极小相似度阈值以及极大相似度阈值,对所述相似度坐标系进行横向和纵向划分,确定划分后的各个分布区域,所述分布区域至少包括左上角分布区域和右下角分布区域,所述左上角分布区域用于反映所述第一图像区域的第一相似度数对在所述相似度坐标系的分布区域,所述右下角分布区域用于反映所述第二图像区域的第二相似度数对在所述相似度坐标系的分布区域;

10、将各个所述子图像的第一相似度、第二相似度输入预设的相似度坐标系,确定各个所述子图像在所述相似度坐标系的目标分布区域;

11、当所述目标分布区域为所述左上角分布区域,则确定所述子图像的目标样本标签为正样本标签;

12、当所述目标分布区域为所述右下角分布区域,则确定所述子图像的目标样本标签为负样本标签。

13、在一种可行实现方式中,所述图像特征至少包括亮度值,则所述利用所述第一图像区域、第二图像区域以及各个所述子图像进行图像特征的相似度聚类处理,确定每个所述子图像的相似度数对,包括:

14、确定所述第一图像区域的第一亮度值以及第二图像区域的第二亮度值;

15、计算各个所述子图像的目标亮度值;

16、根据所述目标亮度值以及第一亮度值进行相似度判断,确定第一相似度;根据所述目标亮度值以及第二亮度值进行相似度判断,确定第二相似度。

17、在一种可行实现方式中,所述正样本标签包括肿瘤标签,所述负样本标签包括非肿瘤标签,所述图像特征至少包括细胞核密度,则所述利用所述第一图像区域、第二图像区域以及各个所述子图像进行图像特征的相似度聚类处理,确定每个所述子图像的相似度数对,包括:

18、确定所述第一图像区域的第一细胞核密度以及第二图像区域的第二细胞核密度;

19、计算各个所述子图像的目标细胞核密度;

20、根据所述目标细胞核密度以及第一细胞核密度进行相似度判断,确定第一相似度;根据所述目标细胞核密度以及第二细胞核密度进行相似度判断,确定第二相似度。

21、在一种可行实现方式中,所述图像特征至少包括细胞核的形态特征,所述形态特征用于反映细胞核的形态和面积,则所述利用所述第一图像区域、第二图像区域以及各个所述子图像进行图像特征的相似度聚类处理,确定每个所述子图像的相似度数对,包括:

22、确定所述第一图像区域的第一形态特征,以及第二图像区域的第二形态特征;

23、计算各个所述子图像的目标形态特征;

24、根据所述目标形态特征以及第一形态特征进行相似度判断,确定第一相似度;根据所述目标形态特征以及第二形态特征进行相似度判断,确定第二相似度。

25、在一种可行实现方式中,所述图像特征至少包括细胞核的分裂像数量,则所述利用所述第一图像区域、第二图像区域以及各个所述子图像进行聚类处理,确定每个所述子图像的相似度数对,包括:

26、确定所述第一图像区域的第一分裂像数量,以及第二图像区域的第二分裂像数量;

27、计算各个所述子图像的目标分裂像数量;

28、根据所述目标分裂像数量以及第一分裂像数量进行相似度判断,确定第一相似度;根据所述目标分裂像数量以及第二分裂像数量进行相似度判断,确定第二相似度。

29、在一种可行实现方式中,所述将所述第三图像区域进行图像分割,得到所述第三图像区域的若干子图像,包括:

30、利用所述第一图像区域以及第二图像区域,确定目标像素尺寸;

31、按照所述目标像素尺寸对所述第三图像区域进行等比分割处理,得到与所述目标像素尺寸具有相同像素尺寸的若干子图像。

32、为实现上述目的,本发明第二方面提供一种样本量的扩充装置,所述装置包括:

33、图像获取模块:用于获取数字病理图像,所述数字病理图像包括标注有正样本标签的第一图像区域、标注有负样本标签的第二图像区域和未标注标签的第三图像区域;

34、图像分割模块:用于将所述第三图像区域进行图像分割,得到所述第三图像区域的若干子图像;

35、相似度聚类模块:用于利用所述第一图像区域、第二图像区域以及各个所述子图像进行图像特征的相似度聚类处理,确定每个所述子图像的相似度数对,所述相似度数对用于反映所述子图像与第一图像区域之间的第一相似度,以及所述子图像与第二图像区域之间的第二相似度;

36、标签确定模块:用于根据各个子图像的相似度数对以及预设的相似度坐标系,确定所述子图像对应的目标样本标签,所述相似度坐标系用于指示所述相似度数对对应的样本标签,所述目标样本标签至少包括正样本标签或负样本标签。

37、为实现上述目的,本发明第三方面提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如第一方面及任一可行实现方式所示步骤。

38、为实现上述目的,本发明第四方面提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面及任一可行实现方式所示步骤。

39、采用本发明实施例,具有如下有益效果:

40、本发明提供一种扩充样本量的方法,方法包括:获取数字病理图像,数字病理图像包括标注有正样本标签的第一图像区域、标注有负样本标签的第二图像区域和未标注标签的第三图像区域;将第三图像区域进行图像分割,得到第三图像区域的若干子图像;利用第一图像区域、第二图像区域以及各个子图像进行图像特征的相似度聚类处理,确定每个子图像的相似度数对,相似度数对用于反映子图像与第一图像区域之间的第一相似度,以及子图像与第二图像区域之间的第二相似度;根据各个子图像的相似度数对以及预设的相似度坐标系,确定子图像对应的目标样本标签,相似度坐标系用于指示相似度数对对应的样本标签,目标样本标签包括正样本标签或负样本标签。

41、采用上述方法,可以将数字病理图像中没有标注样本标签的第三图像区域,分割出多个子图像,并利用标注有标签的图像区域和子图像进行图像特征的相似度聚类,结合第一相似度以及第二相似度,在预设的用于指示相似度数对对应的样本标签的相似度坐标系中,确定子图像对应的目标样本标签,从而实现了数字病理图像的小数据标注到大数据标注的扩容的样本量扩充,且相比人工标注,缩短标注时间,提高标注效率。并且,由于是同一张数字病理图像,具有属于同一个患者、同一个染色方法、同一类病理特性等等相同成像环境特征,减少相似度判定干扰,提高判断效率与准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1