专利名称:基于字典学习上采样的医学影像处理方法
技术领域:
本发明属于图像处理技术领域,特别是涉及医学影像处理,可用于监测疾病分布、 研究发病机理及疾病辅助诊断。
背景技术:
计算机科学技术的迅猛发展对医学领域产生了巨大的影响,人们试图让计算机逐 渐代替人类实现自动诊断疾病等极具挑战性的工作,医学图像在临床诊断中发挥着重要的 作用。自1895年伦琴发现X射线以来特别是1979年出现了计算机断层扫描CT技术,极大 地推动了影像医学的发展。近三十年以来,新的影像学技术更是层出不穷。然而,由于来源所需价值高以及个人隐私等问题,使得有病变的医学图像比正常 图像较少,引起了数据不平衡问题,最终导致了医学图像识别困难。怎样有效地解决这种困 难是医学图像领域中亟待解决的问题。目前,通用的方法就是利用上采样的方法,增加有病 变医学图像的数据个数,改变分布,以降低数据的不平衡程度。最原始的上采样方法是复制稀有类的样本,但是这样做对相同的数据重复学习 了,耗费了时间,而且对提高稀有类识别率没有太大帮助。较高级的上采样方法则采用一些启发式技巧,有选择地复制弱势样本,或者生成 新的弱势样本。Chawla等人提出的SMOTE算法是一种简单有效的上采样方法,该方法首先 为每个弱势样本随机选出几个邻近样本,并且在该样本与这些邻近的样本的连线上随机取 点,生成无重复的新的弱势样本。2008年,Haibo He等人提出的ADASYN方法是对边界上的 弱势样本按照自身的权重值利用SMOTE的连线取点的方法随机生成新的弱势样本。然而这 些方法过多的学习了弱势样本,容易引起对弱势样本的过学习,使本身泛化能力弱,造成测 试样本的总体识别率低。
发明内容
本发明的目的在于克服上述已有技术的不足,针对医学影像数据不平衡、诊断识 别率低和泛化能力弱等问题,提出了一种基于字典学习上采样的医学影像处理方法,以提 高医学影像诊断识别率和增强泛化能力。为实现上述目的,本发明提供基于字典学习上采样的医学影像处理方法,包括如 下步骤(1)输入原始医学影像;(2)采用直方图均衡化和均方差标准化方法,对原始医学影像进行切割与增强处 理;(3)对切割与增强处理后的医学影像提取其灰度共生矩阵或Hu矩特征;定义有标 识的训练样本集合T1和未标识的测试样本集合T2 T1 = Kx1, U1). . (xi; Ui).,(X1, U1MT2 = Iv1, . . Vi, . . vj
4
其中,Xi表示第i个有标识训练样本的特征,Ui表示第i个有标识训练样本的标 识,Vi表示第i个未标识的测试样本的特征,1为有标识训练样本的个数;m为未标识的测 试样本的个数;(4)对有标识的训练样本T1进行基于字典学习上采样的分类诊断,得到分类器C 4a)从有标识的训练样本T1中选取出样本个数最少的一类作为弱势样本T3 ;4b)找出弱势样本T3中的边界点集合B= {、.、,..札丨,计算每个边界点!^需 要生成的新样本的个数Hi,其中h表示第i个边界点,s为边界点的数量;4c)对选取出的弱势样本T3采用KSVD的方法训练生成一个字典D ;4d)将每个边界点bi;通过稀疏连线取点方法得到Iii个新样本,用这些新样本组合 成新样本集合T4;4e)将新样本集合T4加入弱势样本T3中组成当前新的弱势样本T3 ;4f)将新的弱势样本T3'与训练集中其他样本共同组成当前新的有标识的训练样 本 T1';4g)用支持向量机方法对新的有标识的训练样本T/进行分类诊断,得到诊断后 的分类器C ;(5)采用诊断后得到的分类器C,对未标识测试样本T2进行诊断,得到对未标识测 试样本T2的最终诊断结果。本发明与现有的技术相比具有以下优点1、本发明采用ADASYN算法中的边界点选取和SMOTE算法中的连线取点策略,结合 二者的长处,提高了弱势样本的识别率;2、本发明利用稀疏表示方法产生边界样本的虚拟点作为新增样本,克服了 ADASYN 算法和SMOTE算法对弱势样本的过学习问题,提高了总体识别率;3、本发明采用所有的弱势样本进行字典学习,充分考虑了弱势样本的整体性能, 增强了对医学影像处理的泛化能力。
图1是本发明的流程图;图2是本发明仿真采用的原始乳腺X影像图;图3是本发明对图2进行去冗余后的乳腺X影像图;图4是本发明对图3采用直方图均衡化和均方差标准化方法后的乳腺X影像图。
具体实施例方式参照图1,本发明基于字典学习上采样的医学影像处理方法,包括如下步骤步骤1 采用直方图均衡化和均方差标准化方法,对原始医学影像集中的医学影 像进行切割与增强处理,得到视觉效果较好的医学影像集。la)输入原始医学影像,其大小为MXN,本实例选择如图2所示的原始乳腺X影像 集中的一幅影像,其大小1024X1024 ;lb)对输入的原始医学影像,采用计算机自动切割方法,切除其图像的背景和图像 中存在的人为印记,得到切割后的乳腺X影像,如图3所示;
Ic)对切割后的医学影像采用直方图均衡化和均方差标准化方法去除噪声,得到 具有较好视觉效果的乳腺X影像,如图4所示。步骤2 对切割与增强处理后的乳腺X影像进行Hu矩特征提取。2a)在得到的视觉效果较好的乳腺X影像上,计算点(X,y)处的(p+q)阶矩mM及 (p+q)阶中心矩μ pq
权利要求
一种基于字典学习上采样的医学影像处理方法,包括如下步骤(1)输入原始医学影像;(2)采用直方图均衡化和均方差标准化方法,对原始医学影像进行切割与增强处理;(3)对切割与增强处理后的医学影像提取其灰度共生矩阵或Hu矩特征;定义有标识的训练样本集合T1和未标识的测试样本集合T2T1={(x1,u1)..(xi,ui).,(xl,ul)}T2={v1,..vi,..vm}其中,xi表示第i个有标识训练样本的特征,ui表示第i个有标识训练样本的标识,vi表示第i个未标识的测试样本的特征,l为有标识训练样本的个数,m为未标识的测试样本的个数;(4)对有标识的训练样本T1进行基于字典学习上采样的分类诊断,得到分类器C4a)从有标识的训练样本T1中选取出样本个数最少的一类作为弱势样本T3;4b)找出弱势样本T3中的边界点集合B={b1,..bi,..bs},计算每个边界点bi需要生成的新样本的个数ni,其中bi表示第i个边界点,s为边界点的数量;4c)对选取出的弱势样本T3采用KSVD的方法训练生成一个字典D;4d)将每个边界点bi,通过稀疏连线取点方法得到ni个新样本,用这些新样本组合成新样本集合T4;4e)将新样本集合T4加入弱势样本T3中组成当前新的弱势样本T3′;4f)将新的弱势样本T3′与训练集中其他样本共同组成当前新的有标识的训练样本T1′;4g)用支持向量机方法对新的有标识的训练样本T1′进行分类诊断,得到诊断后的分类器C;(5)采用诊断后得到的分类器C,对未标识测试样本T2进行诊断,得到对未标识测试样本T2的最终诊断结果。
2.根据权利要求书1所述的方法,其中步骤4b)所述的找出弱势样本T3中的边界点集 合B = Ib1, . . bi; . . bs},计算每个边界点h需要生成的新样本的个数叫,按如下步骤计算(2a)计算弱势样本集T3中所有样本的权重集合W11 W11 = Kli = I, ... IJ式中,I1为弱势样本集T3的个数,Wi = nmVK,表示样本(Xi,Ui)对应的权重,其中,K 为样本(Xi,Ui)的邻域个数,K = 5 ;Mimi代表样本(Xi,Ui)邻域内强势样本的个数;(2b)根据权重集合W11从弱势样本集T3中选择出边界点集合B以及它的权重集合wB wB={w\,..wb,..wsb}B= {b” · · b” · · bj其中,h表示第i个边界点,<表示h的权重,s为边界点的数量; (3c)将权重集合Wb归一化,得到Wb'S /=1其中,Wb'为边界点集合B归一化后的权重集合; (3d)计算每个边界点h需要生成的新样本的个数Πι = Wb(I)^(I2-I1)其中,< ⑴为^'中的第i个元素,I1为训练样本集T1中弱势样本的个数,I2为训 练样本集T1中其他样本的个数。
3.根据权利要求书1所述的方法,其中步骤4d)所述的将每个边界点bi;通过稀疏连 线取点方法得到Hi个新样本,每个新样本的生成过程按如下步骤计算 (3a)利用步骤4c)得到的字典D对B(i)稀疏表示得到稀疏系数Ci1 ; (3b)随机选取B(i)近邻中的一个弱势样本,利用步骤4c)得到的字典D对该样本稀疏 表示得到稀疏系数α 2 ;(3c)通过α工和α 2计算所要生成新样本的稀疏系数α α = α i+Ca 2_α j) *rand其中,rand为0到1的一个随机数;(3d)将字典D与稀疏系数α相乘,得到所要生成的一个新样本ΤΜ。
全文摘要
本发明公开了一种基于字典学习上采样的医学影像处理方法,它属于图像处理技术领域。其实现过程是输入原始医学影像;对原始医学影像进行切割与增强处理;对切割与增强处理后的医学影像提取特征;根据提取的特征得到训练样本集和测试样本集;从训练样本中找出弱势样本的边界点;根据边界点邻域的情况得到需要生成新样本的个数;利用稀疏连线取点方法生成所需的新样本;将新样本增加进训练样本集中组成新的训练样本集;对新的训练样本集进行分类诊断,得到分类器;采用分类器,对测试样本集进行诊断,得到最终诊断结果。本发明具有对医学影像诊断识别率高泛化能力强的优点,可用于医务工作者评价疾病预后和治疗效果。
文档编号G06T7/00GK101968851SQ20101027805
公开日2011年2月9日 申请日期2010年9月9日 优先权日2010年9月9日
发明者侯彪, 吴建设, 庄雄, 杨淑媛, 杨辉, 焦李成, 王爽, 缑水平 申请人:西安电子科技大学