本发明属于生物医学检测和超宽带微波检测领域,涉及一种新型超宽带微波早期乳腺癌的无损检测装置。
背景技术:
由于传统的乳腺癌检测方法各自均存在着一定的劣势和不足之处,近年来越来越多的研究人员和研究机构在开发一种新型的早期乳腺癌筛查和检测方法上开展了许多相关的研究工作。由于良性乳腺组织和恶性乳腺组织的介电特性在微波频率范围下具有明显的差异,且超宽带天线往往具有较低的辐射水平对人体不会产生损害,使得超宽带技术作为一种无损检测技术应用于乳腺癌的检测和筛查越来越成为一种可能。目前世界上已经存在了一些基于超宽带技术的乳腺肿瘤检测方法和检测设备,但大多都是基于仿真模型或是简单实体模型实现相应的功能。在超宽带微波乳腺肿瘤的复杂应用和临床应用上目前还存在着一些问题需要克服,大量的相关研究亟待开展和验证。可见通过超宽带微波实现乳腺肿瘤的无损检测具有明显的优势和巨大的潜力,目前在此领域的研究可分为成像算法和检测算法两个方面。这两方面的信号获取原理均相同,主要通过记录探测整个乳房的天线发送信号和接收信号后根据不同的处理方法进而实现不同功能和目标。其中成像算法反演信号的传播路径最终构建出乳房内部图像,当被检测物体内包含肿瘤时在成像图中可以准确的显现。而检测算法则通过学习和分类的方式利用被探测物获取信号中提取出特异性特征构成的特征数据集,进而准确判断被探测物内部是否有肿瘤存在。
本发明属于检测装置中的一种,针对准确判断乳房内肿瘤是否存在的这一重要要求,对相关内容进行了研究,分析算法的实现方案,从而发明了一种基于支持向量机的早期乳腺癌诊断装置。
技术实现要素:
本发明提供了一种可以较为准确的检测早期乳腺肿瘤的装置。本发明的技术方案如下:
一种基于支持向量机的超宽带微波早期乳腺癌检测装置,包括特征提取模块、数据集构建模块、特征选择模块、和支持向量机学习分类模块,通过特征提取模块从待测乳房中获取原始信号并得到相应的特异性特征;通过数据集构建模块构成原始特征数据集;通过特征选择模块对原始特征数据集进行优化;最终利用支持向量机模块对优化数据集进行分类形成有效的检测模型,其特征在于,特征提取模块采用模态分解方法结合统计学特性获取信号特征;特征选择模块,采用主成分分析方法,通过将特征数据集投影到能保持信号集合最大方差的子空间上的方式降低数据维数,去掉冗余特征。在支持向量机学习分类模块使用gaussiansvm方法。
优选地,根据天线阵列对乳房进行探测得到的回波信号,实现的检测步骤如下:
(1)利用最小最大归一化算法,对各个天线的回波信号进行归一化处理;
(2)利用由集成经验模态分解、有效特征选取、统计学特性提取等方法构成的特征提取模块分解并分析从对多个乳房探测的回波信号中获取的共m组回波信号,提取有肿瘤信号和无肿瘤信号的全部特异性特征;方法如下:
(3)将全部特异性特征通过数据集构建模块构成原始特征数据集,有肿瘤回波信号特征设置为正类样本,数据标签设置为1;无肿瘤回波信号特征设置为负类样本,数据标签设置为-1;
(4)利用最小最大归一化算法,再次对原始特征数据集中的数据进行归一化处理,消除不同特征的量纲影响;
(5)在特征选择模块中,利用主成分分析法进行特征选择,把m维的数据通过相应的算法变化到n维上,m>n,最终得到去除冗余变量的简化最优数据集;
(6)在最优化数据集上使用基于gaussian核函数的支持向量机学习分类模块,构建并训练检测模型。
特征提取模块的特征提取步骤包括:
1)每1组回波信号通过集成经验模态分解都被分解为若干组信号分量,包含原始信号信息最充分的分量经过第二阶段的相关系数判定被保留;
2)将0.03作为有效分量选取的阈值,判定相关系数大于此阈值的imf分量为有效信号分量,其余信号分量被舍弃;
3)统计学特性提取中针对有效信号分量进行基于均值、方差、标准差、最大值、能量熵和信息熵这6种统计学特性的特征提取,从每1组单通道回波信号中得到特异性特征。
附图说明
图1天线阵列设置示意图
图2某单通道信号分解结果图
图3工作流程框图
具体实施方式
本发明的目的是克服目前现有检测技术的不足,提出一种检测患者是否罹患早期乳腺癌的装置。此装置为一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现的方法步骤为:基于特征提取模块从回波信号中获取大量特征,利用数据集构建模块构建包含全部肿瘤组织特异性特征和正常组织特异性特征的原始特征数据集。通过特征选择模块得到简化特征数据集,最终利用支持向量机模块对特征数据集中含有标签的有肿瘤特征和无肿瘤特征进行泛化和分类,得到相应的分类模型。基于分类模型对待测回波信号得到检测结果,实现对早期乳腺癌的较为准确的检测。
下面具体的以实际的工作流程说明本发明的技术方案:
在利用特征提取模块的信号分解、选择及特异性特征提取和数据集构建模块得到的包含大量乳腺肿瘤组织和正常组织特征的原始特征数据集的基础上,利用特征选择模块的pca方法对特征数据集进行计算和分析,得到维数更低且数据更具代表性的优化数据集。在优化数据集的基础上进一步使用基于gaussian核函数的svm模块实现有肿瘤情况与无肿瘤情况的检测模型,基于此检测模型对待测回波信号进行分辨和检测。其具体步骤如下:
1.探测乳房的天线阵列安排如图1所示,在此情况下使用由a1-a8共8个天线构成的天线阵列基本覆盖整个乳房区域,实现对待测乳房的有效探测。由于天线阵列的工作流程为1个天线发送8个天线接收,因此经过一次完全的探测流程后,将得到数目为天线数目的平方组回波信号;
2.将自发自收情况下回波信号从收集的多组回波信号中去除,在图1的情况下被用于特征提取模块的回波信号为(8×8-8)=56组。从若干乳房中获得的有肿瘤信号和无肿瘤信号最终共同构成了m组回波信号,调整这二者的比例为1:1。将m组回波信号通过最大最小归一化的方式,变化到区间[0,1]中;
式中,xc(t)为归一化后的时间序列,x(t)为原始信号时间序列,xmax为归一化前时间序列最大值,xmin为归一化前时间序列最小值;
3.使用特征提取模块对m组回波信号进行特征提取,其中包括集成经验模态分解、有效分量选取及统计学特性计算共三个阶段。
在第一阶段每1组回波信号通过集成经验模态分解都被分解为若干组信号分量,根据一些文献中的使用经验和推荐,考虑计算成本设置适当的分解参数对回波信号进行分解。此方法可以将任何非线性和非平稳信号进行自适应分解得到多个本证模态函数(imfs)。eemd的分解原理及公式如下,其中rj(t)为imfs分量。
选择噪声标准差为原始信号标准差的0.2倍,集成次数设置为100次作为eemd的分解参数对全部的回波信号进行分解。其中一种单通道分解结果如图2所示。共产生了12个imf信号分量c1-c12和1个残余项r12。
其次为了从若干信号分量中提取有效的特征,减少无关信号分量特征的影响。在特异性特征提取前采取了有效信号分量的预选择步骤,通过计算每一个信号分量与原始信号的皮尔森相关系数实现。假设x(k)和rj(k)为两个长度为n的序列,它们皮尔森相关系数的定义如下,其中rj(k)对应着第j个imf分量。经过大量的分解实验和尝试,本发明将0.03作为有效分量选取的阈值。即保留相关系数ccj大于0.03的imf分量,图2中的4个相关系数值大于阈值的信号分量被保留,丢弃其余的信号分量。
其中x(k)和rj(k)分别对应着两个长度均为m的序列
通过相关系数计算每个信号分量与原始信号的相关系数如表1所示,结合设置的相应的阈值筛选出有效信号分量,从分解的结果中选取了4个最具代表性的信号分量c5-c8。在对其进行统计学特性特征提取后,每个信号分量将得到6个特征。最终,每个单通道回波信号经本发明所提出的特征提取方法可以产生共24个特征。
表1各信号分量与某一单通道原始信号相关系数
在第三阶段的统计学特性提取中针对第二阶段得到的每个信号分量进行基于均值、方差、标准差、最大值、能量熵和信息熵这6种统计学特性的特征提取,最终从每1组单通道回波信号中得到24个特异性特征;
对于长度为n的imf分量rj={rj(1),rj(2),rj(3),…,rj(n)},平均值、方差、标准差、最大值、能量熵和信息熵可以用以下数学公式表示。在通过特征统计学特性提取方法得到天线阵列产生的多组后向散射信号对应的特征,可以构建由早期乳腺肿瘤组织和正常乳房组织特征构成的原始特征数据集。
①均值(μj)
②方差(dj)
③标准差(δj)
dj=δj2
④最大值(maxj)
maxj=max{rj(1),rj(2),rj(3),…,rj(n)}
⑤能量熵(eej)
⑥信息熵(iej)
1.利用数据集构建模块将全部的m组回波信号的24个特征进行拼接,构成规模m×24的原始特征数据集。其中m为行向量对应着每1组回波信号,24为列向量对应着每1组回波信号中的1个特异性特征。同时,将有肿瘤信号特征的标签设置为+1,无肿瘤信号特征的标签设置为-1;
2.由于训练集中的数据单位不同,数值量级也不同,再次采用与步骤2相同的最大最小归一化方法对训练集进行消除量纲处理,进一步提高训练集质量。这里对原始特征数据集中的每1组回波信号所提取到的全部24个特征进行归一化处理;
3.使用由pca特征选择方法构成的特征选择模块得到简化数据集。对于x∈rm×24,xt={xt(1),xt(2),xt(3),…,xt(24)}首先计算每一个列向量的平均值:
通过平均值计算出原始数据集x的协方差矩阵c:
计算协方差矩阵c的特征值λi和特征向量vi(i=1,2,…,24),其中特征值由大到小排列,根据一定的准则选择前p个主成分数分别构建对角矩阵λ和特征向量矩阵v:
cvi=λivi
最终利用新的特征向量矩阵v将原始的特征数据集x变换为了维数更低更具有代表性的优化数据集p,此数据集可以大致代表原始特征数据集的绝大部分特性,但同时具有更强的特征表征能力和更小的数据集维度:
p=vtx
4.采用gaussiansvm的支持向量机学习模块基于优化数据集生成的训练模型作为检测方案,将同比例归一化后新的待测样本应用于此分类模型。若支持向量机分类模型经计算得出的待测样本数据标签为+1,说明被检测的乳房中存在早期乳腺肿瘤;若支持向量机分类模型计算得出的待测样本数据标签为-1,说明被检测的乳房中不含有早期乳腺肿瘤,为健康状态。与神经网络相比,支持向量机不易出现过拟合问题也不受数据集空间维数的影响,它通过非线性映射将输入向量投影到高维特征空间,在新空间的线性模型中建立原空间中的非线性决策边界,进而构建出性能较好的检测模型。
下面总结一下本发明的工作流程:
本发明的工作流程框图如图3所示。
(1)将若干组待测信号通过特征提取模块中的集成经验模态分解和有效分量选取阶段得到4个有效信号分量,经过6种统计学特性特征提取方法,从每1组回波信号中提取出24个特异性特征;
(2)将全部特异性特征经数据集构建模块构建为m×24的原始特征数据集并为有肿瘤特征和无肿瘤特征分别加入类别标签;
(3)使用特征选择模块采用合适的主成分数(降维后数据集的维度数),对m×24原始数据集进行优化和选择。得到m×(24-k)的优化数据集;
(4)通过gaussiansvm学习分类模块对优化数据集进行学习和分类,得到相应的检测分类模型;
(5)从新的待测乳房中获取回波信号,经特征提取后将其应用于早期乳腺癌检测分类模型,得出检测结果。
该方法是一种基于支持向量机的早期乳腺癌智能检测装置,能够在大量有肿瘤情况下的特异性特征和无肿瘤情况下的特异性对待测乳房获得的信号进行较为准确的分析和判断得到有效的早期乳腺肿瘤检测模型。是一种简单、稳定、快速且行之有效的检测方法。有望基于此方法克服现有乳腺癌诊断手段的缺陷,构建一种更加完善更加先进的新型检测方法。