一种基于深度学习的食管癌病理图像处理方法与流程

文档序号:17017507发布日期:2019-03-02 02:31阅读:204来源:国知局
一种基于深度学习的食管癌病理图像处理方法与流程

本发明涉及一种食管癌病理图像处理方法,更具体的说,尤其涉及一种的基于深度学习(cnn+lstm)的食管癌病理图像处理方法。



背景技术:

食管癌(esophagealcancer,ec)是起源于食管黏膜上皮的消化道恶性肿瘤,全世界每年约有30万人死于食管癌。我国是世界上食管癌高发、高死亡率的国家之一,《中国肿瘤登记年报》2017年数据显示,食管癌居恶性肿瘤死亡率的第四位。目前我国超过90%的食管癌患者确诊时已进展至中晚期,预后较差,生活质量低,各分期食管癌总的5年生存率大概在14%左右,严重威胁着患者的身体健康和生命安全。而早期食管癌通常经内镜下微创治疗即可根治,取得与外科手术相当的疗效,患者5年生存率可超过95%。因此,对早期食管癌的临床表现及病理进行分析,做到早诊断、早治疗,是临床研究的重点之一,对提高生存率十分重要。

随着医学成像设备的飞速发展和普及应用,医学病理图像数据开始呈现指数式增长,人工检查速度慢,人力物力耗费较大,而大数据、人工智能技术的飞速发展,使得深度学习技术在计算机视觉领域获得巨大成功。深度学习技术也成为解决医学图像分析任务的主要研究方向。

在癌症诊断方面,深度学习已在皮肤癌、乳腺癌、胃癌、结肠癌等的病理诊断中取得一定成果,并能够从x光、ct扫描和mri图像中发现病变异常,但是在食管癌癌前病变病理诊断中并没有进展。医院病理科存储有大量的食管癌全病理切片,这些食管癌病理切片就形成了食管癌病理样本,要运用这些样本来为食管癌的诊断和筛查提供科学的参考,以便辅助医生工作、提高癌前病变筛查精准度,就要对食管癌病理切片进行科学的图像分析,通过对图像进行有效的特征提取以区分正常与癌前病变,但目前还没有一种有效的图像处理方法可对病理科的现有食管癌切片进行有效处理。



技术实现要素:

本发明为了克服上述技术问题的缺点,提供了一种基于深度学习的食管癌病理图像处理方法。

本发明的基于深度学习的食管癌病理图像处理方法,其特征在于,具体通过以下步骤来实现:

a).病理切片扫描,利用扫描仪对病理科足够数量的食管癌病理切片进行扫描,以获取食管癌的数字化病理图像;b).圈注上皮区类型,在步骤a)获取的食管癌数字化病理图像上,医生将上皮区的正常区域、低级别癌前病变区域和高级别癌前病变区域分别圈注出来,并在圈注区域添加对应的类型标签;c).图像预处理,为了降低病理切片染色和扫描过程的影响,首先对食管癌数字化病理图像进行染色标准化处理;然后,将上皮区的每个圈注区域按照“基底层位于下方、上皮层位于上方”进行方向调整,再将每个圈注区域沿横向切分为若干小图像,记为上皮小图像;最后,将有效信息不足的上皮小图像丢弃掉,余下的上皮小图像划归为训练集、验证集和测试集;d).卷积神经网络cnn的特征提取,卷积神经网络的数据输入层将上皮小图像沿其纵向均分为n个图像块,并按照从基底层至上皮层的方向顺序对图像块依次进行1至n的编号;卷积层把每个上皮小图像的n个图像块均作为独立的图像,对每个图像块进行特征提取;e).长短期记忆网络lstm的特征提取,基底层与上皮层之间具有强关联性,同一上皮小图像的n个图像块中相邻编号的图像块之间具有强链接,利用长短期记忆网络lstm提取同一上皮小图像中两相邻图像块之间的隐含关系;对于同一上皮小图像,经长短期记忆网络lstm后,获取行列为1×3的特征向量;f).分类器分类,经步骤e)中获取的1×3的特征向量经过分类器分类,得到每个上皮小图像判别为正常区域、低级别癌前病变区域或高级别癌前病变区域的概率,并以最高概率对应的类型作为该图像的判别类型;g).模型建立和调优,步骤d)、e)和f)是持续迭代调优的过程,在模型建立时,设置loss值和模型的迭代次数,利用训练集中的图像数据建立模型,并利用验证集中的图像数据对卷积神经网络cnn和长期段记忆网络lstm的参数持续调整,直到模型的loss值和迭代次数达到设定的阈值为止;h).准确率计算,在模型训练完成之后,利用测试集中的上皮小图像,统计圈注的类型与判别类型相一致的概率,即为模型的精度。

本发明的基于深度学习的食管癌病理图像处理方法,步骤c)中的图像预处理通过以下步骤来实现:

c-1).染色标准化处理,在h&e染色过程和数字化过程中,不同的实验室和不同的扫描仪会使得数字化病理图像颜色不一,或浅或深、或紫或粉,通过染色标准化将原始的病理切片图像的颜色统一,以提高模型的泛化水平;c-2).圈注区域的切分,由于医生圈注的区域大小不一,因此需要对圈注区域进行切分处理,以获取尺寸一致的上皮小图像,作为cnn网络模型的输入;圈注区域的切分通过以下步骤来实现:c-2-1).调整圈注区域方向,利用梯度信息,将圈注区域图像的方向做调整,使得调整后的每个圈注区域的下方是基底层、上方是上皮层;c-2-2).圈注图像切分,为统一输入图像的尺寸并增加训练样本的数量,按照50%的重复率,将调整方向后的圈注区域沿横向切分为高×宽为640像素×300像素的多个小图像,小图像记为上皮小图像;c-2-3).图像底部微调,找到每个上皮小图像中基底层最下方的像素点位置,以该位置为图像底部的初始像素点位置,使得所有上皮小图像的基底层都紧贴图像底部,丢弃图像底部的空白区域;c-2-4).图像上部微调,经过步骤c-2-3)得到的上皮小图像中的有效信息一般位于图像的中下部,上部留有空白区域,为降低空白区域对整体模型的影响,以最下方像素点向上数515个像素点作为最终的图像尺寸,即上皮小图像的尺寸调整为高×宽为515像素×300像素;c-3).图像过滤处理,为保证输入图像的有效信息足够,将切分形成的上皮小图像进行滤波,丢弃有效信息不足60%的图像,保留有效信息超过60%的图像,作为最终模型的输入图像。

本发明的基于深度学习的食管癌病理图像处理方法,步骤d)中的卷积神经网络cnn的特征提取,按照数据处理的前后顺序依次包括数据输入层、3个卷积层、1个池化层、1个局部响应归一化层、2个卷积层、1个池化层、1个局部响应归一化层;

数据输入层将图像预处理输出的515像素×300像素的上皮小图像,沿纵向均分为5个高×宽为103像素×300的图像块,并按照从基底层到上皮层的方向顺序对图像块从1到5进行编号;

卷积层把同一上皮小图像的5个图像块均看作独立的图像进行特征提取,每个卷积层按照公式(1)提取图像块的特征,

式中,l标示当前卷积所处的卷积层数,表示连接第l-1层的第i个特征图像和第l层的第j特征图像的卷积核,为第l层的第j个特征图像,为第l-1层的第i个特征图像,表示第l层的偏置项,f()表示非线性激活函数;

5个卷积层的卷积核分别设置为11×11、1×7、7×1、3×3、1×1,非线性激活函数均使用relu,第一层卷积层的步幅设置为2,其余卷积层的步幅均设置为1;2层池化层均采用max_pooling方式,局部感受野均为3×3,步幅均为2;2个局部响应归一化层的学习率和迭代次数分别设置为0.00001和60次。

本发明的基于深度学习的食管癌病理图像处理方法,步骤e)所述的长短期记忆网络lstm的特征提取通过公式(2)和公式(3)来实现:

ht=ot⊙tanh(ct)(3)

其中,ht-1表示上一个记忆细胞的输出,ct-1表示上一个记忆细胞的状态更新,xt表示当前细胞的输入,ct表示当前记忆细胞的状态更新,ht表示当前记忆细胞的输出;⊙表示点运算,tanh()是双曲正切函数,σ()是sigmoid函数,wf、wi、wc、wo分别表示参数ft、it、ot的权重矩阵,bf、bi、bc、bo分别表示参数ft、it、ot的偏置项。

本发明的基于深度学习的食管癌病理图像处理方法,步骤f)中所使用的分类器为softmax,为一个多分类的分类器,采用softmax分类器将病理图像分为3类,分别用1、2、3表示高级别癌前病变、低级别癌前病变和正常;分类器的计算公式如下:

式中,j代表类型,t为类型总数,由于分为高级别癌前病变、低级别癌前病变和正常三类,故t值为3;αj表示输入特征向量的第j个值,pj表示为类型j的概率;当输入的一个病理图像数据经过softmax输出一个1×3的向量时,取该向量中值最大的概率对应的分类作为这个输入数据的预测标签,即所属类型。

本发明的基于深度学习的食管癌病理图像处理方法,步骤g)中,模型的loss值及迭代次数在模型建立时设置,当模型loss值大于设定loss阈值或未达到设定的迭代次数阈值时,对公式(1)中的公式(4)中的wf、wi、wc、wo和bf、bi、bc、bo进行调整,使得模型收敛。

本发明的有益效果是:本发明的食管癌病理图像处理方法,首先由医生对数字化食管癌病理图像进行标注,将图像中的正常、低级别癌前病变和高级别癌前病变分别标注出来,然后对标注的图像进行染色标准化、切分和滤波处理,形成上皮小图像及每个小图像的n个图像块;然后由卷积神经网络cnn对每个图像块进行特征提取,再经长短期记忆网络lstm获取每个小图像的特征向量,最后经分类器的分类处理后,获取每个上皮小图像为正常、低级和高级别癌前病变类型的概率,经过训练后,获取判别正确率满足要求的分类模型,为病理科食管癌病理切片的科学利用提供了一种行之有效的数字图像处理方法,有益效果显著,适于应用推广。

附图说明

图1为本发明的食管癌病理图像处理方法的流程示意图;

图2为本发明中卷积神经网络cnn、长短期记忆网络lstm和分类器的处理流程图;

图3为本发明中医生标注的食管癌病理切片图像的局部示意图;

图4为本发明中每个上皮小图像沿纵向均分为5个图像块的示意图;

图5为本发明中长短期记忆网络lstm求取上皮小图像特征向量的计算示意图;

图6为长短期记忆网络lstm模型中记忆细胞中细胞状态ct与输出ht的计算过程;

图7为本发明中图像预处理的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示,给出了本发明的食管癌病理图像处理方法的流程示意图,如果按照模块化的形式对分发明的食管癌病理图像处理方法进行说明,其由图像预处理模块、cnn卷积神经网络模块、lstm长短期记忆网络模块和分类器模块组成,图像预处理对输入的病理图像进行切分、染色标准化处理,并为每一个输入图像打上对应标签,作为cnn卷积神经网络模块的输入;cnn卷积神经网络模块首先对输入的每一个图片进行纵向切块,将每一个输入图像切分为同等大小的5个图像块,对这5个图像块进行特征提取,即通过cnn卷积神经网络模块,得到一个输入图像的5个特征向量;将这5个特征按照顺序输入到lstm长短期记忆网络模型中,经过该模型,将一个输入图像的5个特征向量整合为一个特征向量并输出,通过softmax分类器模块,得到该输入图像判别为各个级别的概率,并以最高概率对应的级别作为该图像的判别级别。

如图2所示,给出了本发明中卷积神经网络cnn、长短期记忆网络lstm和分类器的处理流程图,本发明的基于深度学习的食管癌病理图像处理方法,具体通过以下步骤来实现:

a).病理切片扫描,利用扫描仪对病理科足够数量的食管癌全病理切片进行扫描,以获取食管癌的数字化病理图像;

b).圈注上皮区类型,在步骤a)获取的食管癌数字化病理图像上,医生将上皮区的正常区域、低级别癌前病变区域和高级别癌前病变区域分别圈注出来,并在圈注区域添加对应的类型标签;

如图3所示,给出了本发明中医生标注的食管癌全病理切片图像的局部示意图,所示的normal所圈注的区域为正常区域,表明该区域没有发生癌变,所示的hgein标示高级别癌前病变区域。低级别癌前病变区域用low标示,图3中没有包含低级别癌前病变区域。由于食管癌癌前病变位于病理切片的上皮区域中,病理医生所圈注的区域亦为上皮区域。将医生圈注的区域导出为jpeg格式的病理图片,即为本发明设计方法的原始数据。在将圈注区域导出为jpeg格式时,不管医生所圈的区域是大是小,扫描仪自带软件自动将所有图片保存为宽度为640像素点、长度不固定的竖条状图片,并没有统一为相同的放大倍数,因此本发明设计的识别方法适用于不同放大倍数的食管癌癌前病变病理图像。

病理医生在诊断过程中有以下几点需要注意,一是上皮区域的基底层在诊断时提供主要信息,因此需要完整的基底层;二是每一个病理图像中有组织的区域要足够,不能存在大量的空白区域;三是诊断时要从基底层开始向上皮层观察。

c).图像预处理,为了降低病理切片染色和扫描过程的影响,首先对食管癌数字化病理图像进行染色标准化处理;然后,将上皮区的每个圈注区域按照“基底层位于下方、上皮层位于上方”进行方向调整,再将每个圈注区域沿横向切分为若干小图像,记为上皮小图像;最后,将有效信息不足的上皮小图像丢弃掉,余下的上皮小图像划归为训练集、验证集和测试集;

如图7所示,给出了本发明中图像预处理的流程示意图,本步骤中的图像预处理,具体通过如下步骤来实现:

c-1).染色标准化处理,在h&e染色过程和数字化过程中,不同的实验室和不同的扫描仪会使得数字化病理图像颜色不一,或浅或深、或紫或粉,通过染色标准化将原始的病理切片图像的颜色统一,以提高模型的泛化水平;

c-2).圈注区域的切分,由于医生圈注的区域大小不一,因此需要对圈注区域进行切分处理,以获取尺寸一致的上皮小图像,作为cnn网络模型的输入;圈注区域的切分通过以下步骤来实现:

c-2-1).调整圈注区域方向,利用梯度信息,将圈注区域图像的方向做调整,使得调整后的每个圈注区域的下方是基底层、上方是上皮层;

c-2-2).圈注图像切分,为统一输入图像的尺寸并增加训练样本的数量,按照50%的重复率,将调整方向后的圈注区域沿横向切分为高×宽为640像素×300像素的多个小图像,小图像记为上皮小图像;

c-2-3).图像底部微调,找到每个上皮小图像中基底层最下方的像素点位置,以该位置为图像底部的初始像素点位置,使得所有上皮小图像的基底层都紧贴图像底部,丢弃图像底部的空白区域;

c-2-4).图像上部微调,经过步骤c-2-3)得到的上皮小图像中的有效信息一般位于图像的中下部,上部留有空白区域,为降低空白区域对整体模型的影响,以最下方像素点向上数515个像素点作为最终的图像尺寸。

c-3).图像过滤处理,为保证输入图像的有效信息足够,将切分形成的上皮小图像进行滤波,丢弃有效信息不足60%的图像,保留有效信息超过60%的图像,作为最终模型的输入图像。

d).卷积神经网络cnn的特征提取,卷积神经网络的数据输入层将上皮小图像沿其纵向均分为n个图像块,并按照从基底层至上皮层的方向顺序对图像块依次进行1至n的编号;卷积层把每个上皮小图像的n个图像块均作为独立的图像,对每个图像块进行特征提取;

本步骤中的卷积神经网络cnn的特征提取,具体通过如下步骤来实现:按照数据处理的前后顺序依次包括数据输入层、3个卷积层、1个池化层、1个局部响应归一化层、2个卷积层、1个池化层、1个局部响应归一化层;

数据输入层将图像预处理输出的515像素×300像素的上皮小图像,沿纵向均分为5个高×宽为103像素×300像素的图像块,并按照从基底层到上皮层的方向顺序对图像块从1到5进行编号;如图4所示,给出了本发明中每个上皮小图像沿纵向均分为5个图像块的示意图

卷积层把同一上皮小图像的5个图像块均看作独立的图像进行特征提取,每个卷积层按照公式(1)提取图像块的特征,

式中,l标示当前卷积所处的卷积层数,表示连接第l-1层的第i个特征图像和第l层的第j特征图像的卷积核,为第l层的第j个特征图像,为第l-1层的第i个特征图像,表示第l层的偏置项,f()表示非线性激活函数;

5个卷积层的卷积核分别设置为11×11、1×7、7×1、3×3、1×1,非线性激活函数均使用relu,第一层卷积层的步幅设置为2,其余卷积层的步幅均设置为1;2层池化层均采用max_pooling方式,局部感受野均为3×3,步幅均为2;2个局部响应归一化层的学习率和迭代次数分别设置为0.00001和60次。

e).长短期记忆网络lstm的特征提取,基底层与上皮层之间具有强关联性,同一上皮小图像的n个图像块中相邻编号的图像块之间具有强链接,利用长短期记忆网络lstm提取同一上皮小图像中两相邻图像块之间的隐含关系;对于同一上皮小图像,经长短期记忆网络lstm后,获取行列为1×3的特征向量;

lstm模型是序列处理任务中常用的一种网络模型,如语音和手写识别,尤其是与时间序列高度相关的问题。本发明将一个图像的五个连续图像块作为包含五个时间点的时间序列进行处理。五个图像块对应的五个特征向量通过lstm模型整合为初始图像的一个特征向量。

如图5所示,给出了本发明中长短期记忆网络lstm求取上皮小图像特征向量的计算示意图,lstm模型包含多个记忆细胞并以时间顺序相互连接,并通过门函数来实现信息的添加和丢弃。每个记忆细胞包含有三个门结构,并由这三个门结构控制每个记忆细胞的输出状态。三个门结构分别为:输入门、遗忘门和输出门。输入门(inputgate)用于控制当前时刻的输入信息对该节点产生的影响。遗忘门(forgetgate)用于适当的忘记该节点记录的历史信息。随着时间的不断推进,一些没有用的历史信息永久的忘记。输出门(outputgate)用于控制此节点的输出在当前时刻所起的作用,因为某些特定的情况下,该节点所记录的信息不是所求任务的有效或主要特征,因此对其进行衰减,使得其它节点的输出信息起到更主要的作用。

在lstm模型中,每个记忆细胞的门结构是关于上一个记忆细胞的输出ht-1与当前细胞的输入xt来共同决定当前记忆细胞的状态更新ct与输出ht,如图6所示,给出了长短期记忆网络lstm模型中记忆细胞中细胞状态ct与输出ht的计算过程,图5中的字母a区域以及两字母a之间区域的计算均如图6所示。

本步骤中的长短期记忆网络lstm的特征提取通过公式(2)和公式(3)来实现:

ht=ot⊙tanh(ct)(3)

其中,ht-1表示上一个记忆细胞的输出,ct-1表示上一个记忆细胞的状态更新,xt表示当前细胞的输入,ct表示当前记忆细胞的状态更新,ht表示当前记忆细胞的输出;⊙表示点运算,tanh()是双曲正切函数,σ()是sigmoid函数,wf、wi、wc、wo分别表示参数ft、it、ot的权重矩阵,bf、bi、bc、bo分别表示参数ft、it、ot的偏置项。

f).分类器分类,经步骤e)中获取的1×3的特征向量经过分类器分类,得到每个上皮小图像判别为正常区域、低级别癌前病变区域或高级别癌前病变区域的概率,并以最高概率对应的类型作为该图像的判别类型;

本步骤中所使用的分类器为softmax,为一个多分类的分类器,采用softmax分类器将病理图像分为3类,分别用1、2、3表示高级别癌前病变、低级别癌前病变和正常;分类器的计算公式如下:

式中,j代表类型,t为类型总数,由于分为高级别癌前病变、低级别癌前病变和正常三类,故t值为3;αj表示输入特征向量的第j个值,pj表示为类型j的概率;当输入的一个病理图像数据经过softmax输出一个1×3的向量时,取该向量中值最大的概率对应的分类作为这个输入数据的预测标签,即所属类型。

如当lstm输出一个1×3的行向量为[0.811550.134281490.05416854]时,从左到右分别对应高级别癌前病变区域、低级别癌前病变区域和正常区域的概率,高级别的概率最高,认为这个上皮小图像属于高级别。

g).模型建立和调优,步骤d)、e)和f)是持续迭代调优的过程,在模型建立时,设置loss值和模型的迭代次数,利用训练集中的图像数据建立模型,并利用验证集中的图像数据对卷积神经网络cnn和长期段记忆网络lstm的参数持续调整,直到模型的loss值和迭代次数达到设定的阈值为止;

其中,模型的loss值及迭代次数在模型建立时设置,当模型loss值大于设定loss阈值或未达到设定的迭代次数阈值时,对公式(1)中的公式(4)中的wf、wi、wc、wo和bf、bi、bc、bo进行调整,使得模型收敛。

h).准确率计算,在模型训练完成之后,利用测试集中的上皮小图像,统计圈注的类型与判别类型相一致的概率,即为模型的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1