一种基于MIL的医学图像病灶点精确标注方法与流程

文档序号:16123329发布日期:2018-11-30 23:27阅读:1605来源:国知局

本发明涉及一种医学图像处理方法,具体涉及一种基于mil(multipleinstancelearning)的医学图像病灶点精确标注方法。

背景技术

医学领域的图像标注为:将dr片、ct片等影像数据中的肿瘤、结节、钙化点等病灶区域由医生通过人机交互的形式在dicom等影像数据中标注出来;随着深度学习在医学图像处理领域中的拓展,训练就需要大型标准的数据集来支撑;因此,大量数据集的精确标注问题就显得尤为重要;和普通图像的标注不同,医学图像的标注需要有专业知识和技能的人来做;因此难以获得大量的精确标注数据集供深度神经网络学习;目前,将传统的深度学习广泛应用在医学图像领域,仍存在以下问题:第一,医学领域的影像精确标注需要高水平的医生来完成,非医疗领域人员对医学影像的标注没有意义;但客观上,我国医生的工作强度大,难以有精力进行医学影像的精确标注;并且现实中存在着大量的不同种类的病灶图像,但很多存储的图片都没有来得及标注和使用,资源利用率较低;第二,即使医生能够精确标注的医疗图像,但由于数据标注需要消除个人的主观性,需要多人多次标注,取综合平均结果;这就导致能够达到应用级别的有效标注数据事实上数量较少;第三,疾病的影像样本受限于该疾病的发病率,某些疾病由于是非常见疾病,存在样本稀少难以构建足够量级数据集的问题。

目前现有医疗机构中广泛开展了数字化病历的改革,建设了诸多pacs系统等包含医疗影像数据、生化数据等医疗病历数据库;这些病历中包含了诊断结论,却并未对病灶区域精确标记;当前的医疗影像数据多是非精确标注数据(仅仅标记了有何病和无病),但未精确给出病灶位置坐标;因此导致当前的深度学习算法难以直接适应。



技术实现要素:

本发明提供一种速度快、成本低,效率高的基于mil的医学图像病灶点精确标注方法。

本发明采用的技术方案是:一种基于mil的医学图像病灶点精确标注方法,包括以下步骤:

步骤1:采集医学图像数据集,分为正样本集和负样本集;

步骤2:进行分类模型的初始化;

步骤3:对于正样本集中的每个样本均采集s个示例,把每个示例输入到分类器模型中;记录有病灶点概率值最大的示例,然后将该示例加入到数据集d中;

步骤4:对于负样本集中的每个样本均采集s个示例,把每个示例输入到分类器模型中;记录最不可能有病灶点的示例,然后将该示例加入到步骤3得到的数据集d中;

步骤5:将步骤4得到的数据集d在神经网络分类器模型中进行迭代训练,得到训练模型;

步骤6:根据步骤5得到的模型进行新样本的检测和标注。

进一步的,所述分类模型采用基于lenet的神经网络模型,包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、激活函数层、第二全连接层和用于实现分类和归一化的softmax层。

进一步的,所述步骤6中检测和标注过程中每个新样本采样s个示例,对每个示例用分类器模型进行分类;若有一个及以上示例有病灶点,则判定该样本为有病灶点图片;否则判定该样本为无病灶点图片;直至检测完所有新样本。

进一步的,所述步骤5中的迭代训练过程中,每一次训练之前重复步骤3和步骤4获取更新后的数据集d。

进一步的,所述步骤2中初始化过程为选取带有标签的样本进行有监督学习。

本发明的有益效果是:

(1)本发明不受不同种类病灶的影响,对多种病灶混合在一起也能进行精确标注,鲁棒性强;

(2)本发明不仅仅对病灶点常见形状的标注,对一些不规则、不常见的形状也能进行精确标注,普适性高;

(3)本发明有利于医院对各种病灶图像的检测和标注,可极大降低专业技术人员对医学图像标注的工作量,同时也便于医生快速查看和诊断患者的病变点;

(4)本发明可大批量的对病灶点进行精确标注,速度快、成本低、具有极高的效率性。

附图说明

图1为本发明流程示意图。

图2为本发明采用的分类模型结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

一种基于mil的医学图像病灶点精确标注方法,包括以下步骤:

步骤1:采集医学图像数据集,分为正样本集和负样本集;

通过医疗设备摄像头采集不同种类的病灶点图像若干张,从中每隔一定间隔数目图像选择画面清晰的图像作为原始数据集;选取一定数量的图片,制作对应的图像标签便于后续进行训练。

步骤2:进行分类模型的初始化;

选取带有标签的样本进行有监督学习,进行分类模型的初始化;分类模型选择基于lenet的医学图像病灶点精确分类的模型,分类模型不局限于lenet,还可以选择其他的分类模型,每次训练结束的时候都会根据训练结果作出相关参数的调整,用于提高分类精度;也可以采用如下alexnet、googlenet、vgg等分类模型。

基于lenet分类模型如图2所示,包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、激活函数层、第二全连接层和用于实现分类和归一化的softmax层。

输入层:输入层输入一个28×28的图片;

第一卷积层:使用20个5×5的卷积核分别对输入层图片进行卷积,包含20×5×5=500个参数权值参数;卷积后图片边长为(28-5+1)/1=24,产生20个24×24个map,包含20×24×24=11520个神经元;

第一池化层:对上一层每个2×2区域进行降采样,选取每个区域最大值,这一层没有参数;降采样过后每个map的长和宽变为原来的一半;

第二卷积层:该层使用20×50个5×5的卷积核分别对上一层的每一个map进行卷积,所以包含20×50×5×5=25000个参数权值参数;卷积后图片边长为(12-5+1)/1=8,所以产生50个8×8个map,包含50×8×8=3200个神经元;

第二池化层:和第一个池化层功能类似,将8×8的map降采样为4×4的map;该层无参数;

第一全连接层:将上一层的所有神经元进行连接,该层含有500个神经元,所以一共有50×4×4×500=400000个权值参数;

激活函数层即relu层:实现x=max[0,x],该层神经元数目和上一层相同,无权值参数;

第二全连接层:功能和第一全连接层类似,该层共有10个神经元,包含500×10=5000个参数;

softmax层:实现分类和归一化,利用softmax函数记录每个示例所属类别的概率,从而进行类别判断。

步骤3:对于正样本集中的每个样本均采集s个示例,把每个示例输入到分类器模型中;记录有病灶点概率值最大的示例,然后将该示例加入到数据集d中。

步骤4:对于负样本集中的每个样本均采集s个示例,把每个示例输入到分类器模型中;记录最不可能有病灶点的示例,然后将该示例加入到步骤3得到的数据集d中。

步骤5:将步骤4得到的数据集d在神经网络分类器模型中进行迭代训练,得到训练模型;

利用主流深度学习框架和平台将数据集通过程序转换成.npy格式送入到分类模型中,进行分类训练,得到训练模型并保存到本地;进行多次重复训练,每次训练都要重新采样并更新数据集;进行多次训练后保存最后的训练模型。

步骤6:根据步骤5得到的模型进行样本的检测和标注;把所要标注的样本送入到分类模型中进行训练判别;每个新样本采样s个示例,对每个示例用分类器模型进行分类;若有一个及以上示例有病灶点,则判定该样本为有病灶点图片;否则判定该样本为无病灶点图片;直至检测完所有新样本,从而完成新样本的批量化精确标注。

其中mil(multipleinstancelearning)表示多示例学习,包含包(bags)和示例(instance)两个重要概念;包是由多个示例组成的,比如在医学图像分类中,一张图片就是一个包,图片分割出的patches就表示示例。

在训练部分:取一小部分训练样本进行标注,然后通过某种监督学习的方法进行训练,得到一个初始化的分类模型;之后,再对每个正样本bag采样s个instance,把每个instance输入到分类器模型中,利用softmax函数记录有病灶点概率值最大的instance,最后将该instance加入到数据集d中;对每个负样本bag同样采样s个instance,把每个instance输入到分类器模型中,利用softmax函数记录最不可能有病灶点的instance,也将该instance加入到数据集d中;最后再用得到的数据集d输入到分类器模型中进行训练,每次训练都要重新采样并更新数据集d,并且保存最后训练的模型。在判别部分:把新的样本bags同样采样s个instance,然后对于每个instance用分类器模型分类,判定的规则是:只要有一个instance有病灶点,则判定该样本bag为有病灶点的图片;如果所有的instance都没有病灶点,则判定该样本bag为无病灶点的图片;把每一张新的样本图片进行上面判定步骤,如此训练,直到检测完所有新样本。

多示例学习方法属于弱监督学习的范畴,用于训练分类器模型的instance是没有类别标记的,但是bags却是有类别标记的,这一点与以往所有框架均不甚相同;在训练部分,每一次训练分类模型时,所加载的数据集都会重新采样并更新数据集d,随着训练次数的增加,分类模型的分类精度也会大大提高;训练完成后,模型将保存在本地,便于后续在医学图像领域中用于样本病灶点的精确标注;将所用的方法步骤及分类模型移植到医疗设备中,通过医学摄像机拍摄到不同种类的病灶点样本图片,将图片缩放至mil算法所要求的图像尺寸,并通过程序,将图像中所有像素值以多维矩阵形式读入该算法中;加载已经训练完成的分类模型,从而批量化,快速化,精准化检测并标注病灶点图片。

利用医疗设备的摄像机作为采集器,采集不同种类的病灶点图像,从中选择若干清晰可见的图像作为模型训练数据集合,通过选取一小部分语义标签图像,进行分类模型初始化操作。然后,利用主流的深度学习框架和平台进行模型训练并保存,最后利用训练好的模型对新的图像进行检测和标注,得到大量精准标注的数据集;本发明不受不同种类病灶的影响,对多种病灶混合在一起也能进行精确标注,鲁棒性强;不仅仅是对于病灶点常见形状的标注,对于一些不规则,不常见的形状也能进行精准标注,普适性高;通过医学摄像头进行图像采样,并利用训练好的模型,自动检测病灶点图像,从而对新样本进行精准判别和标注;有利于医院对于各种病灶图像的检测和标注,可极大降低专业技术人员对于医学图像标注的工作量,同时也便于医生快速查看和诊断患者的病变点;只需要提供分辨率高的病变图片,便可进行大批量地病灶点的精确标注,且速度快,成本低,因此具有极高的效率性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1