一种面向智能诊断系统可靠性增长的图像数据增广方法

文档序号:37059064发布日期:2024-02-20 21:09阅读:13来源:国知局
一种面向智能诊断系统可靠性增长的图像数据增广方法

所属本发明提出了一种面向智能诊断系统可靠性增长的医疗图像数据增广方法。它适用于智能诊断图像的自动生成,为智能诊断模型的训练提供更全面的数据支持,提升智能诊断系统的可靠性。本发明属于智能诊断系统的可靠性增长领域。


背景技术:

1、随着信息技术和计算机应用程度的不断提高,深度学习技术和各类影像技术的结合被广泛地应用于智能诊断系统中,这使得无论是医疗诊断还是工业故障诊断的速率与精度都有了极大的提升。

2、与普通图像相比较,智能诊断系统所需要的图像具有纹理更多、分辨率更高、相关性更强的特点,其图像内部包含的语义信息较普通图像要高很多,但较高质量的样本数据数量过于稀少,不足以支撑神经网络模型训练至预想程度。在医疗诊断中,罕见疾病的信息收集难度、病患的隐私问题和信息收集的成本问题导致获取大量高质量的真实数据可能性微乎其微。而在工业故障诊断中,故障的隐蔽性和产品复杂外形的干扰也使得获取高质量的图像数据与训练较好的深度学习模型成为难题。

3、传统的数据增广方法一般是将数据进行几何变换、光学空间变换等操作,使得数据样本量得到增长,但是传统的数据增广方法其实并未生成新的数据样本,不能有效地解决实际问题。这就需要提供一个方法能够生成具有多样性、真实性的高质量可靠数据集来解决问题。2014年,goodfellow等人针对此类问题第一次提出了生成式对抗网络模型(generative adversarial nets,gan),此模型在图像合成、图像超分辨率、图像数据增强等领域进行了广泛的应用并满足了大多数领域研究与应用的需求。原始gan模型由一个生成网络和一个判别网络构成,生成网络利用对真实数据样本潜在分布的捕捉与学习从而生成新的数据样本;判别网络则是二分类器,对输入其中的图像是真实数据或是生成数据进行判别。

4、在此基础上,本发明针对智能诊断系统深度学习模型图像数据不足的问题,提出了一种面向智能诊断系统可靠性增长的图像增广方法。


技术实现思路

1、本发明针对智能诊断系统深度学习模型训练样本不足的问题,提出了一种面相智能诊断系统可靠性增长的图像增广方法,该发明的整体研究思路如图1所示,具体分为下面几步:

2、步骤一:获取现有真实待诊断图像数据集,对数据进行预处理;

3、步骤1:从公开数据集和现实数据获取真实图像数据x,并根据数据集中给出的信息将样本分为有异常与无异常情况;

4、步骤2:初步检查数据集质量,将数据集中显示不完整及与标签不对应的图像进行删除,将剩余符合质量要求的数据再次依照原分组组合为新数据集xn;

5、步骤3:对数据集xn中的所有图像数据进行尺寸调整,将所有图像尺寸与规定尺寸进行对比并裁剪或放大至规定像素;

6、步骤4:依据r:(10-r)将数据集划分为训练集xr和测试集xt,其中训练集用于训练生成对抗网络,测试集用于数据增广结果评判;

7、步骤5:选取u-net网络进行待诊断信息提取训练,规定其完成训练条件为损失函数收敛或循环次数达到k次,获得在原始数据情况下的待诊断信息提取网络模型model-1。

8、步骤二:搭建基于c-gan的待诊断图像数据增广网络模型;

9、网络模型的具体结构如图2所示,构建步骤如下:

10、步骤1:构建条件-表决对抗生成网络(condition-vote generative adversarialnets,cv-gan)模型的生成网络:

11、(1)确定生成网络的输入与输出:生成网络的输入为随机高斯噪声向量z(m)与图像数据先验信息cpi;输出为根据输入噪声与先验信息所生成的新图像数据xout。具体公式如下:

12、z(m)~n(μ,σ2) (1.1)

13、

14、其中,n(μ,σ2)是指以μ为均值、σ为标准差的高斯分布;是待诊断图像数据的先验信息。

15、(2)根据设定的图像尺寸信息确立生成网络结构:生成网络输入数据与输出数据的尺寸定义为:a×b,其中a表示图像的长度,b表示图像的宽度;利用全连接层将输入的随机高斯噪声z(m)与先验信息cpi结合并映射至对应向量空间,得到对应的特征fzn和fcn;再次利用全连接层将向量重新组合成为新图像。相关公式如下:

16、

17、g=gfcl(z|c) (1.4)

18、fzn=gfcl(z(n),qgfcl) (1.5)

19、

20、其中,xg-out表示生成网络生成的图像数据;g{t}指生成网络在t条件输入下的输出;gfcl表示的是生成网络中的全连接层,qgfcl表示全连接层的参数,在步骤三中迭代优化确定。

21、步骤2:构建条件-表决对抗生成网络(cv-gan)模型的判别网络:

22、(1)确定判别网络的输入与输出:判别网络的输入xd-in包括真实待诊断图像xr、生成器生成虚假待诊断图像xg-out和图像提炼的先验信息cpi;输出为判别网络判别输入结果为真的概率p(r)。

23、

24、

25、其中,pr(xr)是指判断真实待诊断图像xr为真的概率,pr(xg-out)是指判断虚假待诊断图像xg-out为真的概率。

26、(2)确定判别网络数量与结构:判别网络的数量被设定为2n+1个,其中n∈n。分别利用不同先验信息作为输入条件并对判别网络命名为dc1、dc2…dc(2n+1);判别网络内部包括卷积层和全连接层;网络模型利用卷积层提取输入图像特征再利用其他先验信息与真实图像特征对输入图像进行分类判别,经过全连接层判断其是否为真实图像。

27、

28、

29、

30、其中,d{x}指包含元素x的集合,qdcl是指判别网络的网络参数,pr(xr)是指判断真实待诊断图像xr为真的概率,是指当输入图像为虚假待诊断图像xg-out时所提取的特征,是指当输入图像为真实待诊断图像xr时所提取的特征,qdfcl是指判别网络全连接层的网络参数,在后续步骤三中迭代优化确定。

31、步骤3:构建条件-表决对抗生成网络(cv-gan)模型的损失函数:

32、整个网络的损失函数包括生成网络损失函数lg(z)、判别网络损失函数ld和整体网络损失函数l(d,g)。

33、生成网络g的损失函数lg(z)反映在判别网络中生成样本xg-out与真实标签的接近程度,即:1-pr(xg-out)。此时定义其损失函数的形式为:

34、

35、其中,cpi指待判别图像提取的先验信息,g(z|cpi)指在cpi条件下,生成网络输入为噪声z的情况下的输出,d(g(z|cpi))是输入为g(z|cpi)的判别网络输出,是指在输入噪声z服从分布pz(.)的情况下输出的期望。

36、判别网络d的损失函数ld反应网络分辨真实样本xr和生成样本xg-out的能力,即需要对图像的预测值和真实值之间的交叉熵损失函数进行最小化,从而得到其损失函数的形式为:

37、

38、其中,d(xr|cpi)是指在在cpi条件下,判别网络输入为真实图像xr的情况下的输出。

39、综合生成网络损失函数和判别网络损失函数,得到网络整体的损失函数:

40、

41、步骤三:训练基于c-gan的待诊断图像数据增广网络模型;

42、步骤1:提取待诊断图像数据特征信息:

43、对现阶段待诊断图像数据的特征信息进行提取,提取内容包括图像本身灰度信息以及图像语义信息,语义信息包括待诊断信息的位置、体积和数量。

44、步骤2:训练条件-表决对抗生成网络(cv-gan)模型:

45、模型训练采用交替迭代的训练方法进行,具体步骤如图3所示,具体说明如下:

46、(1)设置模型训练的初始条件:给定网络训练迭代的最大次数m、每次迭代生成网络的训练次数b、判别网络的训练次数q,并设定生成网络和判别网络的学习率分别为lrg和lrd;

47、(2)模型生成网络初步训练:将提取的图像特征信息作为网络的先验信息在网络中设定,再利用随机高斯噪声向量作为输入先进行第一轮的图像数据生成;

48、(3)模型判别网络训练:将提取的图像特征信息作为网络的先验信息在网络中设定,再将真实待诊断图像数据xr和生成网络生成的图像数据xg-out分别输入到判别网络中,得到各图像数据的真实概率;再将分类结果的概率值作为损失函数的输入,进行损失函数的计算,并根据损失函数的结果调整判别网络参数,重复此过程q次;

49、(4)模型生成网络训练:在初次训练后,根据判别网络的判别结果,进行损失函数的计算,并根据损失函数的结果调整生成网络的参数,重复此过程b次;

50、(5)利用三个判别网络依次与生成网络进行训练,重复进行上述子步骤(3)和(4),直至损失函数全部收敛并趋于0或达到最大迭代次数m,此时认为其满足训练初步完成的条件;

51、(6)将训练好的网络模型保存。

52、步骤四:利用增广数据生成新的待诊断图像数据集并对结果进行评估。

53、步骤1:利用训练好的条件-表决对抗生成网络(cv-gan)模型中生成新的待诊断图像数据集xr_new:

54、(1)利用训练好的cv-gan生成网络生成大量新的待诊断图像数据,并将各类图像按照其种类标签进行分类;

55、(2)给出判别网络判定为真图像额定阈值k1和降额阈值k2,并对所生成的图像输入至判别网络进行判别;其中对任一输入图像至少n+1类判别网络给出图像判别为真的概率大于k1,其他n类判别网络给出图像判别为真概率大于k2时,认为该图像满足增广条件;

56、(3)将所有生成网络生成的图像进行概率判断,对图像结果进行筛选,将满足结果的图像组合成为新的增广数据集xr_new;

57、步骤2:对原数据测试集进行规范样本的标注并选取方便后续评价增广数据集的评价指标:

58、(1)选取m名专家对原始数据中测试集的数据进行规范标注,标注内容包括待诊断信息数量、位置和面积,其中每一张图像中的位置信息与面积信息依照专家划分后的结果进行平均处理,形成规范标注样本;

59、(2)选取dice和voe指标作为评估指标,其中指标dice表示对预测分割情况与实际分割情况之间的重叠程度,指标voe是一种体积重叠错误的评价指标,其中a表示真实情况,b表示识别情况。具体评价指标公式如下:

60、

61、

62、步骤3:训练u-net网络并将判别(提取)结果进行对比,从而对增广结果进行评估:

63、(1)利用u-net网络对待诊断信息进行提取训练,规定其完成训练条件为损失函数收敛或循环次数达到k次,获得在增广数据情况下的待诊断信息提取网络模型model-2;

64、(2)利用最开始训练好的model-1与新训练好的model-2对原测试集数据进行识别并获取识别结果;

65、(3)将两次识别的结果进行dice和voe指标计算,并对计算结果进行比较,当增广数据对应dice指标计算结果高于原始数据对应dice指标结果且voe指标计算结果低于原始数据对应voe指标结果时,认为增广有效,反之则无效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1