基于总体相关系数的阿尔茨海默症特征提取方法及系统与流程

文档序号:14871788发布日期:2018-07-07 00:40阅读:206来源:国知局
本发明涉及数据挖掘领域,尤其是一种基于总体相关系数的阿尔茨海默症特征提取方法及系统。
背景技术
:阿尔茨海默症(alzheimer'sdisease,ad)是一种不可逆的慢性神经系统退行性疾病,是一种持续性高级神经功能活动障碍。ad现有的药物治疗手段非常有限,但早期准确发现、治疗能减缓疾病进程。轻度认知损害(mildcognitiveimpairment,mci)是介于正常健康者(healthcontrollers,hc)和ad之间的过渡阶段,mci患者是ad的高危人群。国内外的研究指出,ad的重要病理学征象和生物标示,可以通过磁共振成像(magneticresonanceimaging,mri)进行测量。从mri提取有效特征,以对ad、mci和hc三个阶段进行分类识别的方法,是近年来研究的热点。mri具有“高维度”和“信息量大”的特点,但并非从mri中提取到的所有特征都对ad的分类起到关键作用。从mri提供的大量特征中寻找到用以区分ad、mci和hc三个阶段的关键特征,成为当前研究工作的重点。但是,遍历特征的所有组合情况是一个np难(nondeterminismpolynomial-hard,np-hard)问题,因此在特征选择方法上,需要选择高效方法。遗传算法(ga)是以自然选择和遗传理论为基础,将生物进化过程中适者生存规则与群体内部染色体的随机信息交换机制相结合的搜索算法。它在搜索之前,先将变量以某种形式进行编码(编码后的变量称为染色体),不同的染色体构成一个群体。对于群体中的染色体,将以某种方法评估出其适应值。该算法作为模拟自然界生物进化过程与机制求解问题的一类自组织与自适应的人工智能技术,已广泛应用于计算机科学、人工智能、信息技术及工程实践。根据实际研究问题的特殊性,研究学者提出了很多关于ga的进一步优化算法。总体相关系数(collectivecorrelationcoefficient,ccc)是基于粗集理论和主成分分析的知识获取方法(ka-rspca)的重要组成部分。ka-rspca是在决策表信息系统中知识或条件属性存在冗余的背景下提出的高效属性简约方法。其中ccc值是条件属性与所有主成分的关联程度的加权平均,衡量了每个条件属性对决策表“因”信息的贡献度。若用ccc值作为ga的启发性知识,使得对“因”信息贡献度越大的属性以大概率被作为关键特征保留,则有助于提升算法的寻优效率。然而,目前尚未见到将总体相关系数与遗传算法相结合来进行特征提取的报道,更没有将基于总体相关系数的遗传算法应用于阿尔茨海默症特征提取研究中,未能短时间内寻找阿尔茨海默症的关键特征,寻优效率有待进一步提升。技术实现要素:为解决上述技术问题,本发明的目的在于:提供一种寻优效率高的,基于总体相关系数的阿尔茨海默症特征提取方法及系统。本发明所采取的第一技术方案是:基于总体相关系数的阿尔茨海默症特征提取方法,包括以下步骤:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。进一步,所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。进一步,所述采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征这一步骤,具体包括:对阿尔茨海默症的磁共振成像数据进行预处理,得到若干个样本以及每个样本关于左右脑各个区域的所有相关特征;根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征。进一步,所述根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征这一步骤,具体包括:分别计算得到的所有相关特征中每个特征的总体相关系数,并根据计算的总体相关系数值的大小对所有相关特征进行降序排序和分类,从而将相关特征按照总体相关系数值的大小划入高质量特征集、中质量特征集或低质量特征集;对所有相关特征进行二进制编码,所述进行二进制编码时一个染色体中基因为1代表该位上的特征为关键特征,基因为0代表该位上的特征为非关键特征;确定遗传策略,所述遗传策略包括群体规模大小、选择算子、交叉算子和变异概率;根据降序排序和分类的结果以及二进制编码的结果,初始化种群为1111……0000,其中,1的数量为高质量特征集中特征的数量,0的数量为中质量特征集中特征的数量与低质量特征集中特征的数量之和;按设定比例将若干个样本划分为训练样本和测试样本;根据染色体与关键特征集的映射关系,选择训练样本的关键特征训练阿尔茨海默症分类器;通过测试样本对阿尔茨海默症分类器进行测试,得到训练样本的关键特征在阿尔茨海默症分类器中的平均分类准确率和平均受试者工作特征曲线下面积值,并把平均受试者工作特征曲线下面积值作为染色体的适应度值;根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征。进一步,所述根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征这一步骤,具体包括:根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代;对选出的染色体根据单点交叉算子进行交叉操作,产生新染色体;对新染色体根据变异概率进行变异操作,得到下一代新染色体;判断迭代是否已满足预定的迭代终止条件,若是,则执行下一步骤的操作,反之,则返回根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代这一步骤;根据迭代终止时的适应度值得到最优染色体,并根据染色体与关键特征集的映射关系对最优染色体进行解码,最终得到阿尔茨海默症的关键特征。进一步,所述高质量特征集中特征的总体相关系数大于0.3,所述质量特征集中特征的总体相关系数大于0.2且小于等于0.3,所述低质量特征集中特征的总体相关系数小于等于0.2;所述预定的迭代终止条件为父子两代染色体的适应度值之差的绝对值小于0.0001或迭代次数达到100000。进一步,所述基于轮盘赌选择法的选择算子中第i个染色体被选中的概率ps的计算公式为:其中,auci和aucj分别为第i个和第j个染色体对应的受试者工作特征曲线下面积值,n为若干个样本的总数量。进一步,所述变异概率采用改进的基本位变异算法计算出来,所述变异概率的具体计算方式为:若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为1,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于中质量特征集,则当前基因位上变异的概率为0.01;若染色体的当前基因位对应的特征tw属于低质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于低质量特征集且当前基因位编码为1,则当前基因位上变异的概率为w为当前基因位编号。本发明所采取的第二技术方案是:基于总体相关系数的阿尔茨海默症特征提取系统,包括:数据获取模块,用于获取阿尔茨海默症的磁共振成像数据;特征寻优模块,用于采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。本发明所采取的第三技术方案是:基于总体相关系数的阿尔茨海默症特征提取系统,包括:存储器,用于存放程序;处理器,用于加载所述程序以执行如第一技术方案所述的基于总体相关系数的阿尔茨海默症特征提取方法。本发明的有益效果是:本发明基于总体相关系数的阿尔茨海默症特征提取方法及系统,采用了基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,结合了总体相关系数和遗传算法来优化传统的特征提取过程,通过将总体相关系数作为启发性知识来提升遗传算法的特征寻优效率,并以分类效果最优为目标,从而在保证分类效果的前提下,有效提高了特征提取效率,同时提取到的关键特征也有助于阿尔茨海默症的计算机辅助诊断研究。附图说明图1为本发明基于总体相关系数的阿尔茨海默症特征提取方法的步骤流程图;图2为本发明实施例二ad组vsmci组在传统遗传算法中的寻优过程示意图;图3为本发明实施例二ad组vsmci组在本发明基于总体相关系数的遗传算法中的寻优过程示意图;图4为本发明实施例二mci组vshc组在传统遗传算法中的寻优过程示意图;图5为本发明实施例二mci组vshc组在本发明基于总体相关系数的遗传算法中的寻优过程示意图。具体实施方式参照图1,基于总体相关系数的阿尔茨海默症特征提取方法,包括以下步骤:获取阿尔茨海默症的磁共振成像数据;采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。本发明阿尔茨海默症特征提取过程与后续的特征分类过程是相互结合的,特征分类过程中分类器的类型选择会影响特征提取过程,为了保证分类效果,本发明在提取关键特征时需要以分类效果最优为目标。进一步作为优选的实施方式,所述获取阿尔茨海默症的磁共振成像数据这一步骤,具体为:从阿尔茨海默症神经影像学倡议标准数据库中选取若干张磁共振图像作为阿尔茨海默症的磁共振成像数据。进一步作为优选的实施方式,所述采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征这一步骤,具体包括:对阿尔茨海默症的磁共振成像数据进行预处理,得到若干个样本以及每个样本关于左右脑各个区域的所有相关特征;根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征。进一步作为优选的实施方式,所述根据得到的所有相关特征采用基于总体相关系数的遗传算法提取出阿尔茨海默症的关键特征这一步骤,具体包括:分别计算得到的所有相关特征中每个特征的总体相关系数,并根据计算的总体相关系数值的大小对所有相关特征进行降序排序和分类,从而将相关特征按照总体相关系数值的大小划入高质量特征集、中质量特征集或低质量特征集;对所有相关特征进行二进制编码,所述进行二进制编码时一个染色体中基因为1代表该位上的特征为关键特征,基因为0代表该位上的特征为非关键特征;确定遗传策略,所述遗传策略包括群体规模大小、选择算子、交叉算子和变异概率;根据降序排序和分类的结果以及二进制编码的结果,初始化种群为1111……0000,其中,1的数量为高质量特征集中特征的数量,0的数量为中质量特征集中特征的数量与低质量特征集中特征的数量之和;按设定比例将若干个样本划分为训练样本和测试样本;根据染色体与关键特征集的映射关系,选择训练样本的关键特征训练阿尔茨海默症分类器;通过测试样本对阿尔茨海默症分类器进行测试,得到训练样本的关键特征在阿尔茨海默症分类器中的平均分类准确率和平均受试者工作特征曲线下面积值,并把平均受试者工作特征曲线下面积值作为染色体的适应度值;根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征。其中,设定比例可采用十折交叉校验法的比例,即训练样本的比例为90%,测试样本的比例为10%。根据二进制编码可知,染色体与关键特征集中的关键特征是一一对应的,每个染色体由0/1串的若干个基因组成。进一步作为优选的实施方式,所述根据染色体的适应度值和遗传策略进行迭代选择、交叉和变异操作,最终得到分类效果最优的关键特征作为阿尔茨海默症的关键特征这一步骤,具体包括:根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代;对选出的染色体根据单点交叉算子进行交叉操作,产生新染色体;对新染色体根据变异概率进行变异操作,得到下一代新染色体;判断迭代是否已满足预定的迭代终止条件,若是,则执行下一步骤的操作,反之,则返回根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代这一步骤;根据迭代终止时的适应度值得到最优染色体,并根据染色体与关键特征集的映射关系对最优染色体进行解码,最终得到阿尔茨海默症的关键特征。其中,轮盘赌选择法是从染色体群体中选择一些成员的方法,被选中的几率和它们的适应性分数成比例,适应性分数愈高的染色体,被选中的概率也愈大,这不保证适应性分数最高的成员一定能选入下一代,仅仅说明它有最大的概率被选中。进一步作为优选的实施方式,所述高质量特征集中特征的总体相关系数大于0.3,所述质量特征集中特征的总体相关系数大于0.2且小于等于0.3,所述低质量特征集中特征的总体相关系数小于等于0.2;所述预定的迭代终止条件为父子两代染色体的适应度值之差的绝对值小于0.0001或迭代次数达到100000。进一步作为优选的实施方式,所述基于轮盘赌选择法的选择算子中第i个染色体被选中的概率ps的计算公式为:其中,auci和aucj分别为第i个和第j个染色体对应的受试者工作特征曲线下面积值,n为若干个样本的总数量。进一步作为优选的实施方式,所述变异概率采用改进的基本位变异算法计算出来,所述变异概率的具体计算方式为:若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于高质量特征集且当前基因位编码为1,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于中质量特征集,则当前基因位上变异的概率为0.01;若染色体的当前基因位对应的特征tw属于低质量特征集且当前基因位编码为0,则当前基因位上变异的概率为w为当前基因位编号;若染色体的当前基因位对应的特征tw属于低质量特征集且当前基因位编码为1,则当前基因位上变异的概率为w为当前基因位编号。与图1的方法相对应,本发明基于总体相关系数的阿尔茨海默症特征提取系统,包括:数据获取模块,用于获取阿尔茨海默症的磁共振成像数据;特征寻优模块,用于采用基于总体相关系数的遗传算法对获取的磁共振成像数据进行特征寻优,得到阿尔茨海默症的关键特征,其中,所述基于总体相关系数的遗传算法以总体相关系数作为启发性知识,并以分类效果最优为目标来提取关键特征。与图1的方法相对应,本发明基于总体相关系数的阿尔茨海默症特征提取系统,包括:存储器,用于存放程序;处理器,用于加载所述程序以执行本发明所述的基于总体相关系数的阿尔茨海默症特征提取方法。下面结合具体实施例对本发明作进一步解释和说明。实施例一针对目前基于磁共振成像,提取用于分类识别阿尔茨海默症、轻度认知损害和正常健康三个阶段的关键特征以有效提高分类效果但寻优效率不高这一瓶颈问题,本实施例提出了基于总体相关系数的遗传算法以优化特征提取过程,从而在更短时间内寻找到影响阿尔茨海默症不同阶段转换的关键特征,以为阿尔茨海默症的计算机辅助诊断研究提供帮助。以阿尔茨海默症分类器为高斯过程分类器,输入为100张mri图像,输出为反映阿尔茨海默症本质的关键特征为例,本实施例基于总体相关系数的遗传算法的具体实现过程包括以下步骤:step1:mri数据预处理。mri数据预处理是大脑皮质重构的过程,主要包括运动校正、使用形变过程去除非脑组织、自动talairach变换、皮层下白质分割、深部灰质体积结构(包括海马、杏仁核、尾状核、壳核和脑室)的强度归一化、自动拓扑校正等(本实施例可使用freesurferv5.3.0工具箱实现上述一系列相关算法),获得关于左右脑各34个区域的544个相关特征。本实施例n张mri经过预处理后得到n个样本,每个样本有544个特征。step2:分别计算544个相关特征的总体相关系数ccc,并根据ccc值的大小降序排列特征,构造特征集,并根据ccc值的大小把特征集划分成高质量特征集、中质量特征集和低质量特征集这三个集合。其中,总体相关系数ccc的具体计算过程如下:对输入的条件属性集进行标准化,得到标准条件属性矩阵,其中,标准化所采用的公式为:式中,x为输入的条件属性集,且xt=[x1,x2,…,xn]是一个p×n维的矩阵,p代表条件属性集的维度,t为转置,x1,x2,…,xn表示n个样本,i是一个n×n维的单位矩阵,diag(·)是一个对角矩阵,diag(·)对角线上的元素si代表第i个变量的标准差,i=1,2,…,p,xs为标准条件属性矩阵;根据标准条件属性矩阵计算样本相关矩阵,所述样本相关矩阵rx的计算公式为:计算样本相关矩阵rx的特征值并进行降序排列,得到降序排列后的p个特征值λ1,λ2,…,λp以及对应的相互正交的p个特征向量u1,u2,…,up;根据降序排列的结果计算样本相关矩阵rx的主成分,所述样本相关矩阵rx的主成分计算公式为:其中,yi和ui分别为第i个主成分和第i个特征向量;根据降序排列的结果和计算的主成分计算样本的每个条件属性和样本所有主成分间的总体相关系数值,所述样本的每个条件属性计算公式为:所述样本所有主成分间的总体相关系数值计算公式为:其中,λi为p个特征值λ1,λ2,…,λp中第i个特征值,ri为样本的第i个条件属性,为x的第k个变量xk对主成分集y的总体相关系数值,y由所有主成分组成,uki是第k特征向量uk的第i个元素,σkk是x的第k个变量xk的方差。step3:设置群体规模大小为100,对544个相关特征进行二进制编码,二进制编码时一个染色体是长度为544的0/1串,基因为1代表该位上的特征为当前的关键特征,基因为0代表该位上的特征为当前的非关键特征。step4:初始化种群为1111……0000,其中,前面“1”的数量为高质量特征集中特征的数量,“0”的数量为中质量特征集的数量与低质量特征集的数量之和。step5:根据染色体与关键特征集的映射关系,选择当前的关键特征训练高斯过程分类器。step6:对100个样本进行10折交叉检验(即10个测试样本,90个训练样本),得到训练样本的关键特征在高斯过程分类器中的平均分类准确率和平均auc(areaunderroccurve,受试者工作特征曲线下面积)值,把平均auc值作为遗传算法(即染色体)的适应度值。step7:判断算法终止条件是否满足:若父子两代染色体的适应度值之差的绝对值<0.0001或迭代次数达到100000,则转step11;否则转step8。step8:根据染色体的适应度值,采用基于轮盘赌选择法的选择算子选择复制优良染色体进入下一代。其中,选择算子采用轮盘赌选择法,第i个染色体被选中的概率ps的计算公式为:其中,auci和aucj分别为第i个和第j个染色体对应的目标函数auc的值。step9:对选出的染色体根据单点交叉算子进行交叉操作,产生新染色体。为了加快auc值的收敛速度和降低排序的操作难度,本实施例的交叉算子采用单点交叉算子来取代传统遗传算法的双点交叉或多点交叉算子。本实施例在染色体上随机生成一个有效的交叉位置,然后交换位于该位置后的所有基因,其交叉的概率pc为0.75。step10:对新染色体根据变异概率进行变异操作,得到下一代新染色体。本实施例的变异概率采用改进的基本位变异算法计算,具体计算过程为:1)随机选择染色体上的一个基因位作为当前基因位w,其对应的特征为tw;2)根据当前基因位w,计算变异概率pm,具体可分为以下五种情况:a)如果tw为高质量特征且其当前基因位为“0”,则pm为即该基因位上变异的概率为b)如果tw为高质量特征且其当前基因位为“1”,则pm为即该基因位上变异的概率为c)如果tw为中质量特征,则pm为0.01,即该基因位上变异的概率为0.01;d)如果tw为低质量特征且其当前基因位为“0”,则pm为即该基因位上变异的概率为e)如果tw为低质量特征且其当前基因位为“1”,则pm为即该基因位上变异的概率为3)根据变异概率pm决定是否反转该基因位。4)转step5。step11:得到最优个体(即最优染色体),并根据染色体与关键特征集的映射关系对最优色体进行解码,算法结束。实施例二为了说明本发明特征提取方法的效果,本实施例专门设计了相应的实验来进行验证。本实验的实验软件采用了matlab2017a和freesurferv5.3.0,实验图像是三维格式.nii。本实施例的实验的具体实现过程包括:(一)数据获取本实施例所用数据来源于美国大型阿尔茨海默氏症公共数据库adni(alzheimer'sdiseaseneuroimaginginitiative)。实验数据的选取标准是要选取男女比例均衡的数据,而且成像参数的tr/te值必须一样。这样可以排除一些未知因素的干扰,保证个体间差异较小。因此,本实施例选取了3.0tmr扫描仪,所有对象均获得头部矢状位3d-磁化准备快速梯度回波t1加权成像,成像参数:tr/te=7000ms/3.0ms,反转时间900ms,反转角为8,成像视野240mm*220mm,层厚为1.2mm,共170层。数据的选取主要根据两个评判标准,简易智力状态检查mmse(mini-mentalstateexamination)和临床痴呆表cdr(clinicaldementiarating)。mmse总分范围0-30分,正常与不正常的分界与受教育程度有关,在分界值以下认为有功能缺陷,在分界值以上为正常。文盲(未受教育)组17分,小学(受教育年限<=6年)组20分,中学或以上(受教育年限>=6年)组24分;cdr共分为5级:0为健康,0.5为可疑痴呆,1为轻度痴呆,2为中度痴呆,3为重度痴呆,如下表1所示:表1研究对象组别例数(男/女)平均年龄平均mmse评分cdr评分ad组50(25/25)73.1821.350.9mci组50(25/25)74.5424.280.5hc组50(25/25)76.8329.330.0(二)区域划分及特征提取结果本实验按照desikan-killiany的大脑区域划分方式,左右脑各划分为43区域,包括:楔叶、楔前叶、颞上沟、颞上回、颞中回、颞下回、颞极、颞横部、额中回后部、额眶回外侧、额眶回内侧、额中回下部、额上回、额极、缘上回、前扣带回后部、前扣带回下部、扣带回峡部、扣带回后部、梭状回、眶回、内嗅区、顶上小叶、顶下小叶、中央旁小叶、枕叶外侧、舌回、海马旁回、岛盖部、三角区、距状旁回、中央后回、中央前回、岛叶。本实验对样本进行预处理后,划分为以上43个区域,每个区域对应8个特征:表面面积(surfacearea,surfarea)、灰质体积(graymattervolume,grayvol)、平均厚度(averagethickness,thickavg)、厚度标准差(thicknessstdev,thickstd)、积分校正平均曲率(integratedrectifiedmeancurvature,meancurv)、积分校正高斯曲率(integratedrectifiedgaussiancurvature,gauscurv)、折叠指数(foldingindex,foldind)和内在曲率指数(intrinsiccurvatureindex,curvind)。于是,本实验提取的所有特征共2*34*8=544个。在adni数据库中每个被试对象对应一个编号,编号为002_s_0413的被试对象经过预处理后得到左脑的部分特征如下表2所示:表2编号为002_s_0413左脑的部分特征(三)算法验证1)模型参数设置本实验采用了gpc模型(即高斯过程模型)来作为分类器,并设置了ad组vsmci组和mci组vshc组这两个实验。由表1可知每个实验样本共有100张mri,故采用十折交叉检验的方法衡量模型及算法的有效性时,每次随机选取其中90张作为训练样本,10张作为测试样本,训练gpc后对测试样本求得多个auc值(受试者工作特征曲线(receiveroperatingcharacteristiccurve,roc)下面积)的平均值。本实施例的gpc模型输入参数为协方差矩阵k,训练集标记y和似然函数p(y|f)。其中训练集标记y∈{0,1}。对于ad组vsmci组实验,予ad阶段图像的标签为0,mci阶段图像标签为1;对于mci组vshc组实验,予mci阶段图像的标签为0,hc阶段图像标签为1。似然函数p(y|f)为均值为0,标准差为1的高斯函数。协方差矩阵k是一个对称正定矩阵,其中第i行第j列的元素kij为训练样本i和样本j之间的函数距离,本实施例选取的协方差函数为平方指数协方差函数。其中xi和xj分别代表训练样本i和样本j的特征向量。利用样本进行最大似然学习,协方差函数的超参数θ={σf,l}的值为σf=0.231,l=1.258。故gpc模型参数设置归纳如表3所示:表3gpc模型输入参数设置2)传统遗传算法设计对于544个特征,特征约简的个数可能性为2544个,遍历所有的特征组合远远超出了可容忍的时间范围。计算全部特征约简已经被证明是np难问题,因此,需要采用遗传算法进行特征约简集的寻优。本实验在使用传统遗传算法搜索关键特征的过程中,采用了二进制编码,在每次迭代中,544个特征中每个特征被标记为1或0(即为基因),1代表选用该特征作为当前的关键特征用于训练gpc,并记录对应的auc值;0则代表舍弃该特征,即当该特征不作为关键特征时的情况。因此,对于每一次迭代,对应生成一个长度为544的0/1串(即为染色体),群体规模为100(即为染色体数量),遗传算法对该0/1串进行选择、交叉和变异操作,直到迭代前后两次auc值差值小于0.0001或迭代次数大于100000次时算法结束。选择算子采用轮盘赌选择法,交叉算子采用多点交叉,变异算子采用基本位变异,适应度值为分类器对测试样本的auc值。其中,多点交叉的概率参数pc为0.75,基本位变异的概率参数pm为0.01。3)基于总体相关系数的遗传算法设计在2)传统的遗传算法寻优过程中,基于ccc的ga主要从种群初始化、交叉和变异的角度对寻优过程进行优化。而本发明基于总体相关系数的遗传算法则首先通过总体相关系数的算法计算544个特征对应的ccc值,然后所有特征按ccc值的大小降序排列,经过ccc值降序排列后的部分特征如表4所示:表4ccc值最大的前18个特征及其ccc值从544个特征对应的ccc值来看,ccc值范围在(0,0.4)之间。本实施例定义ccc值>0.3的特征为高质量特征,0.2<ccc值≤0.3的特征为中质量特征,ccc值≤0.2的特征为低质量特征。经按ccc值降序统计可知,高质量特征共93个,中质量特征为305个,低质量特征为146个,其中排在第i位的特征记为ti。本发明采用基于ccc的遗传算法进行特征寻优,核心是以ccc作为启发性知识进行遗传算法的寻优,具体包括:(1)初始化种群:由于算法假设ccc值大的特征有更大的概率为“关键特征”,所以初始化种群时把高质量特征的基因位标记为“1”,中质量特征和低质量特征的基因位记为“0”,这样有助于算法的更快收敛;(2)单点交叉:本发明由两点交叉改为单点交叉,由于单点交叉的具体操作是在染色体上随机生成一个有效的交叉位置,然后交换位于该位置后的所有基因,所以其使得具有较大ccc值的特征有较低的概率进行交叉操作,具有较小ccc值的特征有较高的概率进行交叉操作,这样进行排序时容易操作,收敛速度更快;(3)改进的基本位变异算法:当需要变异的tw属于ccc值较大的特征时,若其当前已经被选中(基因位为“1”),则以大概率不发生变异操作,以小概率发生变异操作;当需要变异的tw属于ccc值较小的特征时,若其当前已经被选中(基因位为“1”),则以大概率发生变异操作,以小概率不发生变异操作;若tw对应的ccc值处于中间位置,则采用传统的遗传算法变异算子,变异概率pm为0.01。与传统的遗传算法相同,本发明基于ccc的遗传算法的迭代终止条件为前后两次auc值差值小于0.0001或迭代次数大于100000次时算法结束。(四)实验结果及分析1)基于544个特征的gpc分类结果当把544个特征都作为分类的关键特征训练高斯过程分类器时,对ad组vsmci组的情况,其分类准确率为0.635,auc值为0.644;对mci组vshc组的情况,其分类准确率为0.629,auc值为0.632。2)传统遗传算法在ad组vsmci组的分类中,通过传统遗传算法,当auc达到峰值0.752时,得到的关键特征为31个,灰质体积变化最明显的是右脑颞上沟、右脑颞上回、右脑颞中回、右脑颞下回、左脑及右脑颞极、右脑颞横部、左脑及右脑梭状回、左脑及右脑岛叶、左脑及右脑海马旁回、右脑顶下小叶;皮层表面面积变化最明显的脑区是右脑颞上回、右脑颞中回、右脑颞下回、右脑颞极、左脑梭状回、右脑岛叶、右脑海马旁回、右脑顶下小叶;皮层平均厚度变化最明显的脑区是左脑及右脑额中回后部、左脑及右脑额中回下部、右脑额上回;折叠指数变化最明显的脑区是右脑颞上回、右脑颞中回、左脑及右脑颞下回。在mci组vshc组的分类中,通过传统遗传算法,当auc达到峰值0.767时,得到的关键特征为34个,灰质体积变化最明显的是左脑及右脑楔前叶、右脑楔叶、右脑颞上沟、右脑颞上回、右脑颞中回、右脑颞下回、右脑额中回后部、右脑额中回下部、左脑及右脑额眶回外侧、左脑及右脑额眶回内侧、右脑额上回、右脑额极、左脑及右脑前扣带回后部、左脑及右脑前扣带回下部、左脑及右脑扣带回峡部、右脑扣带回后部、右脑枕叶外侧;皮层表面面积变化最明显的脑区是右脑楔前叶、左脑及右脑颞上回、右脑颞中回、左脑及右脑颞下回;皮层平均厚度变化最明显的脑区是右脑额眶回外侧、左脑及右脑额眶回内侧;折叠指数变化最明显的脑区是右脑额上回;内在曲率指数变化最明显的脑区是右脑海马旁回。经统计,在ad组vsmci组的分类中,31个关键特征中,右脑区域有23个,占比74.2%,左脑区域8个,占比25.8%;在mci组vshc组的分类中,34个关键特征中,右脑区域有25个,占比73.5%,左脑区域9个,占比26.5%。由此可以看出,右脑区域对阿尔茨海默症较敏感。另外,在ad组vsmci组的分类中,31个关键特征中,灰质体积特征有14个,占比45.2%,皮层表面积特征有8个,占比25.8%,皮层平均厚度特征5个,占比16.1%,折叠指数特征4个,占比12.9%;在mci组vshc组的分类中,34个关键特征中,灰质体积特征有23个,占比67.6%,皮层表面积特征有6个,占比17.6%,皮层平均厚度特征3个,占比8.8%,折叠指数特征1个,占比2.9%,内在曲率指数1个,占比2.9%。通过传统遗传算法提取的关键特征与93个高质量特征相比较可知,在ad组vsmci组的分类中,31个关键特征中有21个特征与高质量特征重合;在mci组vshc组的分类中,34个关键特征中有22个特征与高质量特征重合。这也从另一方面证实了以总体相关系数作为ga寻优的启发性知识的可行性。3)基于ccc的遗传算法在ad组vsmci组的分类中,通过本发明基于ccc的遗传算法,当auc达到峰值0.751时,得到的关键特征为29个,与传统的遗传算法相比,除了“左脑颞极”的灰质体积和“左脑额中回后部”的皮层平均厚度这两个“关键特征”没有寻找到以外,其他特征均一致,关键特征的吻合率达到29/31=93.5%。在mci组vshc组的分类中,通过本发明基于ccc的遗传算法,当auc达到峰值0.765时,得到的关键特征为33个,与传统遗传算法相比,除了“右脑海马旁回”的内在曲率指数这个“关键特征”没有寻找到以外,其他特征均一致,关键特征的吻合率达到33/34=97.1%。本发明基于ccc的遗传算法的目标函数峰值,在达到迭代终止条件后与传统的遗传算法相近:在ad组vsmci组的分类中,用本发明基于ccc的遗传算法寻找的特征训练的高斯过程分类器的auc值比传统遗传算法的auc值低0.001;在mci组vshc组的分类中,用本发明基于ccc的遗传算法寻找的特征训练的高斯过程分类器的auc值比传统遗传算法的auc值低0.002。4)运行效率比较在ad组vsmci组的分类中,采用传统ga的方法进行特征寻优,在迭代37051次的时候迭代终止,程序运行时间约为3.28个小时;采用本发明基于ccc的ga方法进行特征寻优,在迭代23385次的时候迭代终止,程序运行时间约为2.19个小时。算法效率提升约(3.28-2.19)/3.28=33.2%。在mci组vshc组的分类中,采用传统ga的方法进行特征寻优,在迭代45716次的时候迭代终止,程序运行时间约为3.87个小时;采用本发明基于ccc的ga方法进行特征寻优,在迭代27449次的时候迭代终止,程序运行时间约为2.70个小时。算法效率提升约(3.87-2.70)/3.87=30.2%。以500次迭代为单位记录auc的变化趋势为例,从图2-图5中分析可知,本发明基于ccc的ga特征寻优过程相比于传统ga更快收敛,在迭代次数较少下就能达到近似的分类效果。另外,在寻优开始阶段,传统ga算法在auc值上波动幅度大,而且存在搜索过程中染色体比初始时染色体效果更差的情况;而本发明基于ccc的ga改良了种群初始化状态,在寻优开始阶段,不存在搜索到比初始种群更差的情况。总体而言,在保证分类效果相当的情况下,本发明基于ccc的遗传算法有更高的寻优效率。由上述的内容可知,本发明一种基于总体相关系数的阿尔茨海默症特征提取方法及系统,首次提出了基于总体相关系数的遗传算法,并将其应用于阿尔茨海默症的分类研究中,用总体相关系数作为启发性知识,与传统的遗传算法相比,本发明在保证分类效果相当的前提下,有更高的寻优效率。在考虑更多特征的情况下,该算法可以在较短的时间内提取关键特征,为阿尔茨海默症的计算机辅助诊断研究提供帮助。以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1