1.本发明涉及病理图像智能处理技术领域,具体为一种多尺度融合注意力的深度学习癌症分子分型预测方法。
背景技术:2.世界卫生组织下属国际癌症研究机构(iarc)数据显示,2020年,中国新发癌症病例数约457万人,超过了世界其他国家。癌症已经成为重大的公共健康问题。准确的癌症预后分析有助于辅助医生做出诊疗判断,提高患者的生存机会及生存水平。在预后预测的方法中,分子分型提供了不小的帮助,而获得分子分型的方法却往往昂贵、耗时。因此,需要更便捷便宜的辅助方法。深度学习的发展为其提供了可能。比如hinata m,ushiku t.detecting immunotherapy-sensitive subtype in gastric cancer using histologic image-based deep learning[j].science reports,2021,11:22636.在文中对胃腺癌患者利用迁移学习使用病理图像筛选对免疫检查点抑制剂高度敏感的ebv和msi/dmmr两种分型,acwa b,me c,jga b,et al.deep learning predicts molecular subtype of muscle-invasive bladder cancer from conventional histopathological slides[j].european urology,2020,78(2):256-264.在文中搭建mibcnn网络,使用病理图像预测膀胱癌mda分型。由于全尺寸数字病理图像像素尺寸过大,大多方法将其在某一倍率下切分为小的图块进一步训练图块层面的分类模型。由于分子分型的确定往往来自于分子方法,在图像上的特征往往并不清晰,因而固定尺度无法充分探索相关特征,同时,也未充分利用到病理图像不同尺度的信息。在图块的训练过程中,对于图块本身,现有方法也未充分利用其信息,比如特征所侧重的通道等。
技术实现要素:[0003]
鉴于现有技术中所存在的问题,本发明公开了一种多尺度融合注意力的深度学习癌症分子分型预测方法,采用的技术方案是,包括以下步骤:s1,数据获取及预处理,获取癌症患者分子分型,同时获取对应患者的全尺寸数字病理切片图像,根据癌种特点及该分子分型已知的相关病理知识选择适宜倍率对病理图像进行滑窗切分,获得非重叠固定尺寸的图块,若图像边缘切出的图块尺寸不足该固定尺寸,则抛弃,对剩余图块进行评估,根据像素值筛除有效组织在图块中占比不足50%的图块,并对剩余图块进行颜色标准化处理,统一染色空间;s2,筛选肿瘤图块,癌症分子分型与肿瘤相关性更高,标注坏死、纯间质、含肿瘤图块,由于此分类特征较为明显,分类难度相对较低,使用计算机视觉领域已有的分类网络进行迁移学习,获得训练好的模型后对所有图块筛选,筛选出含肿瘤图块;s3,构建多尺度融合注意力的深度神经网络模型,以resnet-50为主干网络,引入金字塔卷积pyconv模块和通道注意力se模块,构建深度神经网络模型s4,图块分类模型训练,设置训练学习率、优化器、损失函数,将训练集图块随机裁
剪至(3,224,224)送入所搭建的神经网络中,计算损失值,反向传播后更新网络参数,迭代多次完成模型训练,实现图块分子分型的分类;s5,图块及病例预测,将测试集图块随机裁剪至(3,224,224)送入已训练好的模型,前向传播,获得最终图块的测试值,分子分型真值为病例层面的真值,因此将病例所有图块的预测值取均值表示该病例预测结果,实现病例分子分型的预测。
[0004]
作为本发明的一种优选技术方案,将所述s3中多尺度融合注意力的深度神经网络模型搭建,送入网络的图块要求尺寸为(3,224,224),网络搭建具体步骤如下:s301,网络起始搭建卷积层,批归一化层,经relu输出尺寸为(64,112,112);s302,病理图像多尺度信息获取,由3个基本相同的金字塔卷积模型块组成;s303,图块通道注意力获取,搭建4个基本相同的注意力模块;s304,病理图像多尺度信息获取,由6个金字塔卷积模块组成;s305,病理图像信息获取,由3个金字塔卷积模块组成;s306,前序特征集合在此阶段经过自适应平均池化及全连接层,最终传递给输出,输出节点数量为分子分型的类别数量,输出结果即为各类别的预测概率。
[0005]
作为本发明的一种优选技术方案,所述s302中,各模块分别由三组卷积层和批归一化层的组合串联,并经relu输出,其中第二组卷积层为金字塔卷积,三个金字塔卷积模块差别仅为第一个模块在最后加入一组最大池化层、卷积层和批归一化层的组合进行降采样,本阶段中所有金字塔卷积并列四个尺寸的卷积核,卷积核大小分别为3*3、5*5、7*7、9*9,构成金字塔形式,前序特征集合与各卷积核卷积后,对生成的特征进行拼接,该阶段最终输出尺寸为(256,56,56)的特征集合。
[0006]
作为本发明的一种优选技术方案,所述s303中,仅第一个模块最后多一组最大池化层、卷积层和批归一化层的组合进行降采样,注意力模块将se模块嵌入resnet-50的残差模块中,成为se-resnet模块,该模块以残差模块为基础,在跳跃连接前首先通过全局池化将前序特征集合的空间维度压缩为实数作为通道描述符,再经过全连接层操作产生各通道权重映射至特征各通道,该阶段输出尺寸为(512,28,28)的特征集合。
[0007]
作为本发明的一种优选技术方案,所述s304中,每个金字塔卷积中并列的卷积核为两个尺寸,分别为3*3、5*5,此阶段输出尺寸为(1024,14,14)的特征集合。
[0008]
作为本发明的一种优选技术方案,所述s305中,与s302的差异在于此阶段共3个金字塔卷积模块,且每个金字塔卷积中仅一个尺寸为3*3的卷积核,由于金字塔卷积中只剩一个尺寸的卷积核,实际金字塔卷积降为卷积核为3*3的普通卷积层,此阶段输出尺寸为(2048,7,7)。
[0009]
本发明的有益效果:本发明通过针对病理图像不同尺度引入信息侧重不同,搭建深度神经网络关注空间尺度信息,同时也关注了通道信息,从多个维度充分利用图块信息,在本身没有先验知识确定分子分型在病理图像中的特征表现时,充分利用不同尺度的空间信息,对模型训练的不同通道有所侧重使得模型更容易探索与分子分型相关的特征表现,提升预测性能。
附图说明
[0010]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,各元件或部分并不一定按照实际的比例绘制。
[0011]
图1为本发明的癌症分子分型预测方法流程图;
[0012]
图2为本发明的多尺度融合注意力的深度神经网络模型图;
[0013]
图3为本发明的金字塔卷积示意图;
[0014]
图4为本发明的se-resnet注意力模块示意图。
具体实施方式
[0015]
实施例1
[0016]
如图1至图4所示,本发明公开了一种多尺度融合注意力的深度学习癌症分子分型预测方法,采用的技术方案是,包括以下步骤:s1,数据获取及预处理,在本具体实施例中,数据集由tcga数据库获取,使用其中的肌层浸润性膀胱癌病理图像,使用unc分型为预测目标,基底型165例,管腔型210例,将获取的病例数据集以6:2:2随机划分为训练集,验证集和测试集,对所有病理图像进行非重叠的切分,获得256*256像素级别的图块,处于图像边缘切分后尺寸不足的图块选择抛弃,根据图块情况,筛除信息不足的图块,本实施例图像颜色均较深,将rgb图块转为灰度图,计算图块内灰度值大于220的像素比例,比例大于50%认为信息不足,抛弃处理,剩余图块进行颜色标准化,本实施例采用macenko方法;s2,筛选肿瘤图块,预处理后的图块,由专家随机挑选并标注坏死、纯间质、含肿瘤图块,本实施例各标注2000图块,使用imagenet预训练好的inception v3模型做迁移学习,将标注好的图块以6:2:2随机划分为训练集、验证集和测试集,将训练集放大至(3,299,299)送入inception v3模型训练,使用验证集和测试集分别进行模型验证及测试,训练使用随机梯度下降作为优化器,学习率为0.01,训练批次大小为64,共训练10000步,将测试集送入训练好的网络进行测试,评估指标auc达0.99,性能良好,使用该模型对所有图块进行筛选,筛选出含肿瘤图块;s3,构建多尺度融合注意力的深度神经网络模型;s301,网络经过卷积层,批归一化层,relu,输出尺寸为(64,112,112)的特征集合;s302,病理图像多尺度信息获取,搭建三个基本相同的金字塔卷积模块,各模块分别由三组卷积层和批归一化层的组合串联,并经relu输出,其中第二组卷积层为金字塔卷积,三个金字塔卷积模块差别仅为第一个模块在最后加入一组最大池化层、卷积层和批归一化层的组合进行降采样,本阶段中所有金字塔卷积并列四个尺寸的卷积核,卷积核大小分别为3*3、5*5、7*7、9*9,构成金字塔形式,前序特征集合与各卷积核卷积后,对生成的特征进行拼接,示意图如图3所示的示意图取四个尺寸卷积核的金字塔卷积,该阶段最终输出尺寸为(256,56,56)的特征集合;s303,图块通道注意力获取,搭建4个基本相同的注意力模块,仅第一个模块最后多一组最大池化层、卷积层和批归一化层的组合进行降采样,注意力模块将se模块嵌入resnet-50的残差模块中,成为se-resnet模块,如图4所示,该模块以残差模块为基础,在跳跃连接前首先通过全局池化将前序特征集合的空间维度压缩为实数作为通道描述符,再经过全连接层操作产生各通道权重映射至特征各通道,该阶段输出尺寸为(512,28,28)的特
征集合;s304,病理图像多尺度信息获取,此阶段与s302相似,差异在于此阶段共6个金字塔卷积模块,且每个金字塔卷积中并列的卷积核为两个尺寸,分别为3*3、5*5,此阶段输出尺寸为(1024,14,14)的特征集合;s305,病理图像信息获取,此阶段与s302相似,差异在于此阶段共3个金字塔卷积模块,且每个金字塔卷积中仅一个尺寸为3*3的卷积核,由于金字塔卷积中只剩一个尺寸的卷积核,实际金字塔卷积降为卷积核为3*3的普通卷积层,此阶段输出尺寸为(2048,7,7)的特征集合;s306,前序特征集合在此阶段经过自适应平均池化及全连接层,最终传递给输出,输出节点数量为2,分别为基底型和管腔型两类的预测结果s4,图块分类模型训练,将训练集图块缩小至(3,224,224)送入构建好的模型,以交叉熵为损失函数,adam为优化器,学习率起始为0.01,在10、35、50轮训练时分别缩小为原来的十分之一,训练批次大小为64,共训练60轮,反向传播,更新网络参数,完成训练,训练时,同时将验证集图块缩小至(3,224,224)送入当前训练的模型对模型进行验证,选择验证集性能最优的模型作为训练好的模型;s5,图块及病例预测,将测试集图块缩小至(3,224,224)送入训练好的网络,网络输出后再通过softmax获得图块的预测值,二分类的结果获得两类分别的预测值,对于病例,将病例所有含肿瘤图块的unc分型预测值取均值,作为病例的最终预测值。本实施例对测试集进行预测测试,并对模型与resnet、pyconvresnet、se-resnet做对比实验,pyconvresnet将resnet的所有主要模块均嵌入金字塔卷积,se-resnet将resnet的所有主要模块均嵌入se模块,本发明则融合金字塔卷积和se模块两种,嵌入resnet-50中,四个模型均以resnet-50为主干,实验结果如表1所示:表1对比实验通过实验结果对比可以发现,本发明所提出的将金字塔卷积与注意力模块se模块的融合所搭建的网络可以有效提升病理图像预测癌症分子分型的预测性能,证明了方法的有效性,对深度学习方法在病理图像预测癌症分子分型的应用上提供助力,另外,本发明所提出的网络主干为常用的resnet-50,所引入的金字塔卷积模块和注意力模块均即插即用,对于未来多尺度和注意力的配合使用有着借鉴意义。
[0017]
上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。