
一种ihc核表达病理图像癌区分割装置和方法
技术领域
1.本发明涉及人工智能领域,具体而言,涉及一种基于深度学习的ihc核表达癌区分割装置和方法。
背景技术:2.免疫组织化学染色技术(immunohistochemistry,简称免疫组化,ihc)是一种广泛用于病理领域用于辅助肿瘤病理诊断及指导肿瘤治疗的染色方法。其通过抗原抗体酶标显色的化学反应方法,对组织细胞中特定的蛋白质(抗原)进行染色,反映组织中的细胞形态及特定的功能蛋白分子表达情况。
3.免疫组化检测结果可为病理诊断提供重要信息,指导临床医师准确诊断肿瘤,指导临床医师制定治疗方案和治疗方案。准确判断肿瘤免疫组织化学检查结果和肿瘤细胞的阳性率,直接影响到肿瘤的诊断和治疗效果,因此准确的癌区分割对肿瘤组织和细胞的准确判断尤为重要。
4.对ihc染色数字图像分析方法的精准性、有效性和效率也是尤为重要的。因为肿瘤的蛋白表达在不同的个体与肿瘤类型中有非常明显的差异化,传统的图像分析方法在实现癌区分割的方面,不但精确性和有效性不能实现,而且在分析过程中需要有经验的病理医生进行实时协作选取肿瘤区域,医生的工作效率受到极大的影响。
技术实现要素:5.为了解决上述染色切片癌区分割困难的技术问题,本发明提供一种ihc核表达病理图像癌区分割装置和方法,以实现精准计算癌区的细胞阳性表达率,达到对ihc膜浆表达上皮性肿瘤染色的显微数字全片进行准确而高效的癌区分割的效果。
6.具体的,本发明的技术方案如下:
7.第一方面,本发明公开一种ihc核表达病理图像癌区分割装置,包括:
8.读取模块,用于读取待分割的数字病理切片的全片图像;
9.预处理模块,用于对所述全片图像进行预处理,使用滑动窗口切割法,将所述全片图像切割为小图像;
10.癌区分割模块,用于将所述切割后的小图像输入训练好的癌区分割模型进行癌区识别分割,生成对应区域的癌区遮罩;
11.拼接模块,用于将所述生成的癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,转化为全片癌区遮罩图像;
12.轮廓提取模块,用于提取癌区轮廓,并将所述癌区轮廓融合到所述全片图像生成癌区分割效果图。
13.在一些实施方式中,所述癌区分割模块,使用的癌区分割模型的模型结构为改进的u-net++模型结构,具体包括:
14.在u-net++模型结构的基础上,将原始的基础卷积模块vgg_block改变为带有残差
模块的basic_block;
15.在网络的每一层u-net++残差模块中添加多尺度注意力机制模块;所述多尺度注意力机制模块,结合了基于特征通道的注意力机制和基于空间区域的注意力机制,且融合了多尺度特征。
16.在一些实施方式中,所述多尺度注意力机制模块包括:
17.局部卷积子模块,用于使用分离卷积去聚集特征图中局部信息;
18.多尺度卷积子模块,与所述局部卷积子模块的输出端端连接,用于通过多分枝分离条形卷积以捕获多尺度的上下文信息;
19.通道融合子模块,与所述多尺度卷积子模块的各输出通道连接,用于通过一个1*1卷积去融合所述多尺度卷积子模块的各通道信息。
20.在一些实施方式中,所述预处理模块,还用于对待切割的图像的边界做镜像填充处理。
21.在一些实施方式中,所述后处理模块引入crf条件随机场,用于对所述癌区分割模型识别的图像进行优化调整,最后输出与输入小图像对应癌区和非癌区的遮罩图像。
22.在另一些实施方式中,所述ihc核表达病理图像癌区分割装置还包括模型学习模块;具体包括:
23.样本获取模块,用于采集含有癌区标注的数字病理图像,获得训练样本;并基于大量所述训练样本,按照预设的比例,构建训练集、测试集、调优集;
24.模型构建模块,用于构建所述癌区分割模型的模型架构;
25.模型训练模块,用于利用所述训练集,对所述癌区分割模型进行模型训练;
26.模型测试模块,用于利用所述测试集,对训练后的所述癌区分割模型进行测试,并生成模型测试效果图;
27.模型评估模块,用于利用所述调优集,评估所述模型测试效果图是否符合预期,若所述模型测试效果图符合预期效果,则模型训练结束;若所述模型测试效果图不符合预期效果,则返回进行二次模型训练,直至模型测试效果图达到预期效果。
28.在一些实施方式中,所述样本获取模块,还用于在对所述癌区分割模型进行二次模型训练时,对所述训练集数据进行二次数据筛选、调整训练集占比、二次标注操作,成为优化后的第二训练集;
29.所述模型训练模块,还用于基于所述第二训练集,对模型进行二次训练;
30.所述模型测试模块,还用于在所述模型训练模块二次训练完毕后,基于所述测试集对所述癌区分割模型进行二次测试,验证所述癌区分割模型的识别效果;
31.所述模型评估模块,还用于通过交并比、准确率、召回率参数,对所述癌区分割模型进行二次评估,评估所述癌区分割模型的训练效果;当模型不能达到预期时,则反复进行以上数据集二次修改步骤,直到模型符合标准。
32.第二方面,本发明还公开一种ihc核表达病理图像癌区分割方法,包括以下步骤:
33.读取待分割的ihc染色数字病理切片的全片图像;
34.对所述全片图像进行预处理,使用滑动窗口切割法,将所述全片图像切割为小图像;
35.将所述切割后的小图像输入训练好的癌区分割模型进行癌区识别分割,生成对应
区域的癌区遮罩;
36.将所述生成的癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,转化为全片癌区遮罩图像;
37.提取癌区轮廓,并将所述癌区轮廓融合到所述全片图像生成癌区分割效果图。
38.在一些实施方式中,所述癌区分割模型,采用的模型结构为改进的u-net++模型结构,具体包括:
39.在u-net++模型结构的基础上,将原始的基础卷积模块vgg_block改变为带有残差模块的basic_block;
40.在网络的每一层u-net++残差模块中添加多尺度注意力机制模块;所述多尺度注意力机制模块,结合了基于特征通道的注意力机制和基于空间区域的注意力机制,且融合了多尺度特征。
41.所述多尺度注意力机制模块通过使用分离卷积去聚集特征图中局部信息;再通过多分枝分离条形卷积以捕获多尺度的上下文信息;最后通过一个1*1卷积去融合所述多尺度卷积子模块的各通道信息。
42.在一些实施方式中,所述的将所述切割后的小图像输入训练好的癌区分割模型进行癌区识别分割,生成对应区域的癌区遮罩;具体包括:
43.将所述全片图像切割后的小图像送入到训练好的癌区分割模型中进行批处理预测;
44.获取各小图像的各像素的预测置信度,通过激活函数使得置信度大于预设值的像素初步判定为癌区,小于所述预设值的像素初步判定为非癌区;
45.通过条件随机场函数对所述癌区分割模型的输出进行后处理优化操作,得到一批与输入小图像对应癌区和非癌区的遮罩图像。
46.与现有技术相比,本发明至少具有以下一项有益效果:
47.1、传统的癌区分割方法,在分析过程中需要有经验的病理医生进行实时协作选取肿瘤区域,医生的工作效率受到极大的影响。本发明通过构建基于人工智能的癌区分割模型,对ihc染色数字图像进行的癌区分割准确而高效,很大程度上提高了医生的工作效率,减轻了人工工作的负担。
48.2、对于基础模型的改进,u-net++基础卷积单元由原先的vgg_block改进为resnet使用的基础残差模块。通过跳跃链接可以带来两个优点:一是可以增加网络深度以便学习更多和更深层次的特征。二是减少网络训练难度和防止过拟合,在数据量较少的情况也能使得模型有一个较好推理效果,也在一定程度上增加了网络的泛化性。
49.3、在网络的每一层u-net++残差模块中添加多尺度注意力机制模块,可以使得网络更加注重特征中重要的部分。在本方法中,结合了基于特征通道的注意力机制和基于空间区域的注意力机制,且融合了多尺度特征,并且该模块可以很方便地直接插入到u-net++每一层的残差模块特征提取后,以强化病理图像中有效的特征和减弱无效的特征。其中使用两个条形卷积是用来代替传统大核卷积以便降低参数量和计算复杂度,并且条形卷积可以带来提取条状细胞特征的好处。
50.4、本发明能够针对无标记的全片数字病理图像(whole slide image,简称wsi)切片进行预测,且对数字病理图像的尺寸没有要求,通过获取整张组织切片中肿瘤组织与阳
性细胞所占比例,使用openslide将待测全片读取;使用滑动窗口,将像素点切割为合适大小的图像块输入到模型中,生成对应区域的癌区遮罩;通过后端处理手段,将模型检测的小图片按照切割的位置顺序进行图像拼接,并转化为模型检测全片效果,在裁切patch上,本发明采取了边界感受野非受损拼接技术overlap tile对病理图像全片裁切的边界做镜像填充,加大边界像素点的上下文关系,让全片数字病理图像不会因为剪裁拼接产生模糊,从而完成全片数字病理图像的分析。
51.5、本发明引入条件随机场(crf)作为其后处理模块,可以优化分割架构的输出并强化其捕捉细粒度信息。crf促成了底层图像信息(如像素间的相互关系)与产生像素级别的类别标签的多类别推理输出的结合,这种结合对于捕捉长期依赖性质尤其重要,这也是关注于局部细节的卷积所未能考虑到的。
52.6、本发明通过构建基于深度学习的癌区分割模型,对构建的癌区分割模型进行训练。将训练集和调优集分割带入训练,根据训练效果调整参数,得到初版训练模型。再由病理专家根据初版模型的测试效果,重新调整数据集的数量与类型,从而不断拟合最终模型,使用训练后的模型,对目标图像进行预测,输出对ihc核阳性上皮来源肿瘤的癌区预测结果,对预测结果进行判断,如模型的效果达不到预期效果,则对模型进行二次训练,直至模型符合标准,如此训练过程会使模型对癌区的分割精确率得到保障;
53.7、应用范围广,对各种标记物都可进行识别;本发明可应用的上皮性肿瘤类型包括且不限于以下类型:乳腺癌、宫颈癌、肺癌、食管癌、胃癌、结直肠癌、输尿管癌、膀胱癌、皮肤鳞癌等。本发明可应用的ihc标记物包括且不限于以下类型:ki-67、er、pr、ar、p53、p21waf1、p27、p16等核表达的标记物。本发明可以应用于多类型的上皮性肿瘤的多种ihc核阳表达标记物检测全片数字病理图像的癌区分割。
附图说明
54.下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明/实用新型的上述特性、技术特征、优点及其实现方式予以进一步说明。
55.图1为本发明一种ihc核表达病理图像癌区分割装置的一个实施例的结构框图;
56.图2为本发明一种ihc核表达病理图像癌区分割装置的一个实施例的全片癌区遮罩图;
57.图3为本发明一种ihc核表达病理图像癌区分割装置的一个实施例的全片癌区分割效果图;
58.图4为现有技术中的u-net++模型总体架构示意图;
59.图5为本发明一种ihc核表达病理图像癌区分割模型中改进的u-net++模型的一个带有注意力机制的残差块单元;
60.图6为本发明一种ihc核表达病理图像癌区分割模型中crf条件随机场的结构示意图;
61.图7为本发明一种ihc核表达病理图像癌区分割装置的另一个实施例的结构框图;
62.图8为本发明一种ihc核表达病理图像癌区分割方法的一个实施例的流程图;
63.图9为本发明一种ihc核表达病理图像癌区分割方法的另一个实施例的癌区分割过程示意图;
64.图10为本发明一种ihc核表达病理图像癌区分割方法的另一个实施例的癌区分割效果示意图。
具体实施方式
65.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
66.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
67.为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
68.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
69.在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
70.具体实现中,本发明实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。
71.另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
72.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
73.本发明提供的一种ihc核表达病理图像癌区分割装置的一个实施例如下,实施例结构框图参考说明书附图1;
74.读取模块10,用于读取待分割的数字病理切片的全片图像。
75.具体的,使用openslide软件读取待分割的数字病理切片的全片图像,数字病理切片的全片图像可以是以下任意一个核表达模式的上皮性肿瘤免疫组化分子标记物的图像,如:ki-67、er、pr、p53、p21waf1、p27、p16等。本实例通过采用乳腺癌ki-67指标做出演示,本发明可应用的上皮性肿瘤类型包括且不限于以下类型:乳腺癌、宫颈癌、肺癌、食管癌、胃癌、结直肠癌、输尿管癌、膀胱癌、皮肤鳞癌等。
76.预处理模块20,用于对所述全片图像进行预处理,使用滑动窗口切割法,将所述全片图像切割为小图像。
77.具体的,使用滑动窗口切割,比如,采用步进值为388像素点的方式,切割乳腺癌ki-67数字病理全片图像为572*572大小的图像块。由于我们使用了边界感受野非受损拼接技术,所以在全片边缘区域需要镜像paddding来使得切割尺寸能够对齐。最后将乳腺癌ki-67数字病理全片图像切割patch后,送入网络中进行批处理癌区分割。这样小图像批处理并行分割同样也提高了算法的计算效率和节省了计算资源。
78.癌区分割模块30,用于将所述切割后的小图像输入训练好的癌区分割模型进行癌区分割,生成对应区域的癌区遮罩。
79.具体的,我们将遮罩分为前景和背景,前景则是我们需要预测的癌区,背景则是正常的细胞组织。将数量为每个batch的小图像送入到完成训练的模型中,进行批处理预测,最后通过sigmoid激活函数使得置信度大于0.5的像素初步判定为癌区,小于0.5的像素初步判定为非癌区。接着使用一个条件随机场函数对模型输出进行一个细化微调的后处理操作,最后得到一批与输入小图像对应癌区和非癌区的mask遮罩图像,对所述全片癌区遮罩图像进行噪声处理。
80.拼接模块40,用于将生成的乳腺癌ki-67数字病理小图像癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,转化为乳腺癌ki-67数字病理全片癌区遮罩图像。
81.具体的,将切割后的小图片癌区的mask遮罩按照切割的位置进行拼接。由于网络输出的图像大小为388,所以在mask拼接阶段要按照388对齐的方式进行拼接,最终得到一个与原始全片同样大小的乳腺癌ki-67数字病理全片mask遮罩图。
82.使用图形形态学的闭运算、开运算对预测出的图形噪点进行处理,消除大小为1像素左右的噪点。效果如说明书附图2所示。
83.轮廓提取模块50,用于提取癌区轮廓,并将所述癌区轮廓融合到所述全片图像生成癌区分割效果图。
84.具体的,通过opencv对推理出的蒙版图像进行轮廓提取,使用后端处理手段,将模型生成的数据合成到病理数字切片原片,最终生成乳腺癌ki-67数字病理全片癌区分割效果图,如说明书附图3所示。
85.本发明提出的装置的另一实施例,在上述装置实施例的基础上,本实施的ihc核表达病理图像癌区分割装置中的癌区分割模型采用的是改进的u-net++模型结构,如说明书附图4所示,具体的,包括:
86.在u-net++模型结构的基础上,将原始的基础卷积模块vgg_block改变为带有残差模块的basic_block,具体的,将说明书附图4中的x
0,0
x
1,0
x
2,0
x
3,0
x
4,0
单元块改进为说明书附图5中带有注意力机制的残差块结构。
87.具体的,通过跳跃链接可以带来两个优点:一是可以增加网络深度以便学习更多和更深层次的特征。二是减少网络训练难度和防止过拟合,在数据量较少的情况也能使得模型有一个较好推理效果,也在一定程度上增加了网络的泛化性。
88.在网络的每一层u-net++残差模块中添加多尺度注意力机制模块;所述多尺度注意力机制模块,结合了基于特征通道的注意力机制和基于空间区域的注意力机制,且融合了多尺度特征。
89.其中所述多尺度注意力机制模块包括:
90.局部卷积子模块,用于使用分离卷积去聚集特征图中局部信息。
91.多尺度卷积子模块,与所述局部卷积子模块的输出端端连接,用于通过多分枝分离条形卷积以捕获多尺度的上下文信息。
92.通道融合子模块,与所述多尺度卷积子模块的各输出通道连接,用于通过一个1*1卷积去融合所述多尺度卷积子模块的各通道信息。
93.在一些实施方式中,在上述任一实施例的基础上,所述预处理模块对所述全片图像进行预处理,对待切割的全片图像的边界做镜像填充处理。使用滑动窗口切割法。
94.具体的,在裁切patch上,本发明采取了边界感受野非受损拼接技术overlap tile对裁切的patch边界做镜像填充,加大边界像素点的上下文关系。
95.让全片数字病理图像不会因为剪裁拼接产生模糊。从而完成全片数字病理图像的分析。
96.本癌区分割模型的后处理模块上引入crf条件随机场,使用原因是当使用反卷积层进行上采样,虽然可将特征图恢复到原图尺寸,但也造成了特征损失,导致了分类目标边界模糊的问题。
97.crf条件随机场的结构示意图如图6所示。
98.为了让分类器表现的更好,可以在标记数据时,考虑相邻数据的标记信息,这是普通分类器做不到,但这是crf比较擅长的。随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。
99.马尔科夫随机场是随机场的特例,它假设随机场中某一个位置的赋值仅仅与和它相邻的位置的赋值有关,和与其不相邻的位置的赋值无关。
100.crf是马尔科夫随机场的特例,它假设马尔科夫随机场中只有x和y两种变量,x一般是给定的,而y一般是在给定x的条件下的输出。这样马尔科夫随机场就特化成了条件随机场。对于crf,给出准确的数学语言描述:设x与y是随机变量,p(y|x)是给定x时y的条件概率分布,若随机变量y构成的是一个马尔科夫随机场,则称条件概率分布p(y|x)是条件随机场。在目前深度学习图像分割应用中常用的一种图像后处理方式。
101.在全连接crf进行影像后处理的实际操作中,一元势能为概率分布图,即由模型输出的特征图经过softmax函数运算得到的结果;二元势能中的位置信息和颜色信息由原始影像提供。当能量e(x)越小时,预测的类别标签x就越准确,通过迭代最小化能量函数,得到最终的后处理结果。
102.本发明提出的一种ihc核表达病理图像癌区分割装置的另一个实施例,结构框图如图7所示,在上述装置实施例的基础上,所述一种ihc核表达病理图像癌区分割的装置还包括模型学习模块,具体包括:
103.样本获取模块60,用于采集含有癌区标注的数字病理图像,获得训练样本,并基于大量所述训练样本,按照预设的比例,构建训练集、测试集、调优集。
104.模型构建模块70,用于构建所述癌区分割模型的模型架构。
105.模型训练模块80,用于利用所述训练集,对所述癌区分割模型进行模型训练。
106.模型测试模块90,用于利用所述测试集,对训练后的所述癌区分割模型进行测试,并生成模型测试效果图。
107.模型评估模块100,用于利用所述调优集,评估所述模型测试效果图是否符合预期,若所述模型测试效果图符合预期效果,则模型训练结束,若所述模型测试效果图不符合预期效果,则返回进行二次模型训练,直至模型测试效果图达到预期效果。
108.具体的,上述实施例中,样本获取模块60包括:
109.图像采集子模块610,用于采集ihc核阳性标记物标记的肿瘤样本数字病理图像。
110.标注子模块620,用于对所述样本数字病理图像的roi区域进行筛选和框定,对所述roi区域内的癌区与非癌区进行标注。
111.数据集建立子模块630,用于根据所述肿瘤类型与所述标记物的特点,筛选部分全片图像数据建立测试集。
112.标注子模块620,还用于获取其余全片图像数据的所述roi区域内病理图像对应的真实标注图像数据。
113.数据集建立子模块630,还用于将所有的标注图像数据按照一定的比例分成训练集和调优集。
114.具体的,在采集病理图像样本并对具有代表性的区域进行癌区区域的标注的时候。本实例细胞标注包括癌区与非癌区区域,区域所属类别和代表性区域的位置等信息。
115.构建癌区分割模型训练过程中所需数据集。基于已标注过的数字病理图像地宽度和高度,两者的像素为一一对应的映射关系,数字病理图像中癌区所在像素位置在真实标签图像中的像素值为1,其余位置为0。
116.所述模型构建模块,构建的癌区分割模型是采用改进的u-net++模型结构,改进的u-net++模型结构将原始的基础卷积模块vgg_block改变为带有残差模块的basic_block,并在网络的每一阶段添加senet注意力模块。在损失函数方面,为了减少背景区域类对于loss计算的影响,采用带有权重的bce_loss+dice_loss。在数据增强方面,使用了随机裁剪和饱和度对比度和色度等多种操作。
117.所述模型训练模块80,包括:
118.训练集预处理子模块810,用于导出所述训练集中每张数字图像中标注框定的区域,并将该区域的图片信息转化为rgb图像便于模型训练。
119.训练子模块820,用于将所述rgb图像分割成预设大小的小图作为训练数据,使用搭建的所述癌区分割模型进行训练。
120.参数评估子模块830,用于对模型的参数进行一次评估。参数调优子模块840,用于使用调优集查看模型训练效果,进行算法参数的调优。
121.具体的,导出所述训练集中每张数字图像中标注框定的区域,并将该区域的图片信息转化为rgb图像便于模型训练。
122.在该区域内,使用572*572像素的滑窗在框注的代表性的区域随机位置裁切一个batch数量(16个)的图片。其中将切割后的小图像作为输入图像,批处理大小设为16,学习率为0.0001,最大迭代次数为2000epochs(迭代轮次),采用adamw优化算法进行模型训练。
123.利用损失函数值和交并比等指标对模型的参数进行一次评估。查看一次评估的结果,对基础卷积模块、损失函数、batch_size、迭代次数、主干网络架构参数进行调优。
124.所述模型测试模块90,还包括:
125.测试集预处理子模块910,用于将所述测试集的数字病理切片全片输入所述癌区
分割模型,使用openslide将待测全片读取。
126.测试集癌区分割子模块920,使用滑动窗口切割法,将所述全片图像切割为小图像输入到模型,生成对应区域的癌区遮罩。
127.拼接子模块930,用于将所述生成的癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,合成一个癌区分割判断的遮罩图。
128.具体的,将数量为每个batch的小图像送入到完成训练的模型中,进行批处理预测,最后通过sigmoid激活函数使得置信度大于0.5的像素初步判定为癌区,小于0.5的像素初步判定为非癌区。接着使用一个条件随机场函数对模型输出进行一个细化微调的后处理操作,最后得到一批与输入小图像对应癌区和非癌区的mask遮罩图像。
129.将切割后的小图片癌区的mask遮罩按照切割的位置进行拼接。由于网络输出的图像大小为388,所以在mask拼接阶段要按照388对齐的方式进行拼接,最终得到一个与原始全片同样大小的mask遮罩图。
130.所述模型评估模块100,用于基于所述遮罩图及其对应的数字病理切片全片的标注信息,判断此次全片癌区分割的效果。
131.具体的,所述模型评估模块,还用于获取交并比、准确率、召回率参数,对所述癌区分割模型进行评估,评估所述癌区分割模型的训练效果。
132.一般的,通过预测调优集查看模型测试后图像全片结果,以及交并比、准确率、召回率等指标,由病理专家与算法工程师共同评估模型训练效果。
133.在染色核表达测试集中,细胞癌区灯蛾的精准率、召回率、灵敏度与iou均大于85%,f1-score为84.49。
134.性能评价指标计算方式如下:
135.精确率=癌区分割正确的像素数/预测的癌区总数
136.召回率=癌区分割正确的像素数/实际的细胞总数
137.f1-score=2
×
精确率
×
召回率/(精确率+召回率)
138.iou=癌区分割机器判读区域与正确区域的交集/癌区分割机器判读区域与正确区域的并集。
139.当模型不能达到预期时,则返回进行第二次模型训练。
140.具体的,如果第一次训练结束后,模型的效果达不到预期效果,则对训练数据集进行二次数据筛选、调整数据集占比、二次标注等操作,成为优化后的训练数据集。
141.二次训练:基于算法工程师调整好的算法框架,和病理专家重新整理的数据集,对模型进行二次训练,增强模型的训练效果。
142.二次模型评估:在测试集上,用训练后的模型来验证输出效果。查看交并比、准确率、召回率等参数,评估模型训练效果。当模型不能达到预期时,则反复进行此步骤,直到模型符合标准。
143.具体的,当第二次模型训练结束后,模型测试模块再对该模型进行第二次模型测试,模型评估模块再获取由病理专家与算法工程师共同对所述全片模型测试效果图进行二次评估的反馈,直至根据所述反馈判断所述模型测试效果图符合预期。
144.本发明提出了一种ihc核表达病理图像癌区分割方法,该方法的一个实施例如图8所示,包括以下步骤:
145.s100,读取待分割的数字病理切片的全片图像。
146.具体的,使用openslide读取待测全片。
147.s200,对所述全片图像进行预处理,使用滑动窗口切割法,将所述全片图像切割为小图像。
148.具体的,使用滑动窗口,步进值为388像素点的方式,切割全片图像为572*572大小的图像块。由于我们使用了边界感受野非受损拼接技术,所以在全片边缘区域需要镜像paddding来使得切割尺寸能够对齐。最后将全片切割patch后,送入网络中进行批处理癌区分割。这样小图像批处理并行分割同样也提高了算法的计算效率和节省了计算资源。
149.s300,将所述切割后的小图像输入癌区分割模型进行癌区分割,生成对应区域的癌区遮罩。
150.具体的,我们将遮罩分为前景和背景,前景则是我们需要预测的癌区,背景则是正常的细胞组织。将数量为每个batch的小图像送入到完成训练的模型中,进行批处理预测,最后通过sigmoid激活函数使得置信度大于0.5的像素初步判定为癌区,小于0.5的像素初步判定为非癌区。接着使用一个条件随机场函数对模型输出进行一个细化微调的后处理操作,最后得到一批与输入小图像对应癌区和非癌区的mask遮罩图像。
151.s400,将所述生成的癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,转化为全片癌区遮罩图像。
152.具体的,将切割后的小图片癌区的mask遮罩按照切割的位置进行拼接。由于网络输出的图像大小为388,所以在mask拼接阶段要按照388对齐的方式进行拼接,最终得到一个与原始全片同样大小的mask遮罩图,效果如图2所示。
153.在模型的后处理模块上,本模型引入crf条件随机场,强化其捕捉细粒度信息,促成底层图像信息在像素级别的类别标签在多类别推理输出有更好的表现。
154.在裁切patch上,本发明采取了边界感受野非受损拼接技术overlap tile对裁切的patch边界做镜像填充,加大边界像素点的上下文关系。
155.s500,对所述全片癌区遮罩图像进行噪声处理,提取癌区轮廓,并将所述癌区轮廓融合到所述全片图像生成癌区分割效果图。
156.具体的,使用图形形态学的闭运算、开运算对预测出的图形噪点进行处理,消除大小为1像素左右的噪点。
157.通过opencv对推理出的蒙版图像进行轮廓提取,使用后端处理手段,将模型生成的数据合成到病理数字切片原片。
158.在本发明的另一实施方式中,在上述实施例的基础上,还包括训练所述癌区分割模型的方法,包括以下步骤:
159.s010,采集含有癌区标注的数字病理图像,获得训练样本。并基于大量所述训练样本,按照预设的比例,构建训练集、构建测试集、构建调优集。
160.s020,利用所述训练集,对所述癌区分割模型进行模型训练。
161.s030,利用所述测试集,对训练后的所述癌区分割模型进行测试。
162.s040,利用所述调优集,评估所述模型测试效果图是否符合预期。若所述模型测试效果图符合预期效果,则模型训练结束。若所述模型测试效果图不符合预期效果,则返回步骤s010,进行二次模型训练,直至模型测试效果图达到预期效果。
163.具体的,上述实施例中的步骤s010所述采集含有癌区标注的数字病理图像,获得训练样本,具体包括以下步骤:
164.s011,采集ihc核阳性标记物标记的肿瘤样本数字病理图像。
165.s012,对所述样本数字病理图像的roi区域进行筛选和框定,对所述roi区域内的癌区与非癌区进行标注。
166.s013,根据所述肿瘤类型与所述标记物的特点,筛选部分全片图像数据建立测试集。
167.s014,获取其余全片图像数据的所述roi区域内病理图像对应的真实标注图像数据。并将所有的标注图像数据按照一定的比例分割成训练集和调优集。
168.具体的,上述实施例中的步骤s020利用所述训练集,对所述癌区分割模型进行模型训练,包括以下步骤:
169.s021,导出所述训练集中每张数字图像中标注框定的区域,并将该区域的图片信息转化为rgb图像便于模型训练。
170.s022,将所述rgb图像分割成预设大小的小图作为训练数据,使用搭建的所述癌区分割模型进行训练。
171.s023,训练结束后,对癌区分割模型的参数进行一次评估。
172.s024,根据评估的结果,对所述癌区分割模型的参数进行调优。
173.具体的,上述实施例中的步骤s030利用所述测试集,对训练后的所述癌区分割模型进行测试,包括以下步骤:
174.s031,将所述测试集的数字病理切片全片输入所述癌区分割模型,使用openslide将待测全片读取。
175.s032,使用滑动窗口切割法,将所述全片图像切割为小图像输入到模型,生成对应区域的癌区遮罩。
176.s033,将所述生成的癌区遮罩根据其对应的小图像块的切割位置顺序进行图像拼接,转化为癌区分割效果图。
177.具体的,上述实施例中的步骤s040利用所述调优集,评估所述模型测试效果图是否符合预期,包括以下步骤:
178.s041,通过所述调优集查看所述全片模型测试效果图,以及交并比、准确率、召回率指标。
179.s042,获取由病理专家与算法工程师共同对所述全片模型测试效果图进行二次评估的反馈,根据所述反馈判断所述模型测试效果图是否符合预期。
180.具体的,所述若所述模型测试效果图不符合预期效果,进行二次模型训练,直至模型测试效果图达到预期效果,还包括以下步骤:
181.二次构建:对所述训练集数据进行二次数据筛选、调整训练集占比、二次标注等操作,成为优化后的第二训练集。
182.二次训练:基于算法工程师调整好的算法框架,和病理专家重新整理的数据集,对模型进行二次训练。
183.二次测试:在测试集上,用训练后的模型来验证输出效果。
184.二次评估:查看交并比、准确率、召回率等参数,评估模型训练效果,当模型不能达
到预期时,则反复进行以上数据集二次修改步骤,直到模型符合标准。
185.本发明提供一种ihc核表达病理图像癌区分割方法的另一个实施例,包括如下步骤:
186.1、获取全片数字图像。并由病理专家对感兴趣的区域图进行癌区标注。本实例中标注包括癌区与非癌区等信息。
187.2、利用含有癌区标注的数字病理图像,训练一个癌区分割模型。具体的实现步骤如下:
188.(1)构建模型训练所需数据集。基于已标注的数字病理图像,获取标注区域内的病理图像和其对应的真实标签图像。真实标签图像包含癌区对应位置以及坐标等信息。真实标签通道数为w*h*n,其中,w与h分别表示真实标签图像的宽度和高度,也是其对应的数字病理图像的宽度和高度,两者的像素位置为一一对应的映射关系,数字病理图像中癌区位置在真实标签图像中的像素值为1,非癌区位置为0。n为通道数,本例中设为2,两个通道表示该像素点判断为癌区的概率或不是癌区的概率。
189.示例性地,本实施例中采用乳腺癌的er、pr、p53的ihc染色数字全片做出展示,按照肿瘤组织特征将其分为癌组织区域和非癌组织两类。其中,癌组织呈现浸润性生长。本实例中,乳腺癌er、pr、p53染色结果为不同比例的阳性。
190.本实例对乳腺癌的多种染色指标的数字病理图像中所有区域进行癌区分割,区分癌与非癌组织。本实例癌区分割模型使用参数同乳腺癌ki67实例,进行泛化性测试。其中,模型结构可以为已有的常用深度学习模型结构,如fcn、u-net、deeplab等,也可以为在已有的深度学习模型结构基础上改进的模型结构,本实施例的癌区分割模型采用改进的u-net模型结构,改进的u-net模型结构在初始u-net基础上加入了残差块。训练过程中,可将每张图像分割成572*572像素大小的小图作为输入图像,批处理大小设为16,学习率为0.0001,最大迭代次数为1500epochs(迭代轮次),损失函数为bce_diceloss,采用adam优化算法进行模型训练。
191.示例性的,细胞类别可以按照其他方式进行划分,例如也可以按照细胞形态或染色强度进行像素分类,本实施例不作限定。
192.(2)训练、测试所示癌区分割模型,利用所述训练集,对所述癌区分割模型进行模型训练。利用所述测试集,对训练后的所述癌区分割模型进行测试。
193.(3)评估、调优训练的癌区分割模型性能。利用调优集对训练后的癌区分割模型进行超参数调优。使用准确率、灵敏度、精确度等指标评估模型性能,得到一个性能达到预设目标的癌区分割模型。
194.本实施例最终建立的癌区分割模型在准确率、灵敏度、精确度上均大于80%。
195.3、用已训练的癌区分割模型对待分析的目标图像进行预测,得到一个预测的癌区分割图像,具体实现步骤如下:
196.(1)对待预测的目标图像进行预处理。使用openslide将目标图像分割为572*572像素大小的小图片,并以128像素的位置向右侧和下方移动,超出则补充像素值0。处理目标图片为与癌区分割模型所用训练图像相同的分辨率大小,均为572*572像素大小。将图像的rgb通道转化为灰度通道,使测试图像转化为灰度图。
197.(2)切割后的小图进行模型预测。将每张小图输入到完成训练的癌区分割模型中,
得到小图片对应的癌区预测遮罩。
198.在本发明中,每张小图输入到已训练的癌区分割模型中,得到若干个572*572*n像素大小的概率图,概率为0到1的小数,表示该像素判断为癌区的置信。n为通道数,判断分类的类别,本示例中为2。每个通道分别为癌区与非癌区的预测概率,每个像素位置上所有通道的概率总和为1。
199.4、将预测结果拼接。将若干预测小图的癌区遮罩按照预处理前的目标图像对应位置进行拼接。合成一个癌区分割判断的遮罩图,将判断为癌区的区域像素值为255,其余为0。黑色代表机器预测的癌区,白色为非癌区。
200.5、对生成的乳腺癌er、pr、p53全片癌区遮罩图像进行噪声处理,提取癌区轮廓,并将所述癌区轮廓融合到乳腺癌er、pr、p53全片图像生成乳腺癌er、pr、p53癌区分割效果图,如说明书附图9所示。
201.示例性的,本发明算法可以针对上皮性来源核阳性肿瘤的数字病理切片全片进行精准、高效的全片诊断,本示例采用乳腺癌er、pr、p53进行全片展示,其他上皮性核阳癌种的癌区精确诊断也应在本发明的保护范围之内。
202.本发明方法提出的一种ihc核表达病理图像癌区分割装置的另一个实施例,在上述任一方法实施例的基础上,在全片性数字分析图像时做出改进。
203.1、训练集的修改与制定。本发明在数据集的设定比例上由病理专家把关控制,正负样本比例约为1:3左右,与实际应用场景贴合,最大化模型拟合能力。由算法工程师与病理专家合作,通过调优集和训练集的表现不断增加、修改样本,提升模型在全片分析上的效果。
204.2、增强模型全片分析能力。本发明算法采用resnet50进行分割网络的编码,采用了dropout、adamw优化方法等,对模型在处理大信息量时的表现进行了优化。
205.3、模型测试流程优化。本发明对模型进行数字病理切片全片测试时的流程进行了优化,提升模型表现效果,具体流程如下:
206.(1)获取待分析的全片数字图像,分析数字病理图像格式,使用openlide进行图片全片读取。
207.(2)采用滑动窗口的方式对图像进行处理。在全片图像中,以图像左上为起始点,选取572*572像素大小的滑窗,以步幅为128像素的距离想右方和下方移动。仅裁取滑窗中央128像素大小的区域进行图像拼接,确保图像预测的准确性。
208.(3)使用后端脚本工具,对模型输出的预测遮罩进行转化和拼接,形成能被软件和网页所浏览的geojson格式,最终生成的癌区分割效果如图10所示。
209.本发明的一种ihc核表达病理图像癌区分割装置和方法具有相同的技术构思,二者的实施例的技术细节可相互适用,为减少重复,此次不再赘述。
210.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
211.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
212.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
213.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
214.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。