结合独立分量分析和线性判别分析的癌症预测方法
【专利摘要】本发明涉及一种结合独立分量分析和线性判别分析的癌症预测方法,具体包括以下步骤:(1)用过滤技术预处理基因微阵列数据;(2)将预处理后的基因微阵列数据用独立分量分析技术进行变换,得到独立分量集;(3)应用线性判别分析技术处理独立分量集,将基因微阵列数据投影到具有最佳可分性的低维空间;(4)利用投影后的基因微阵列数据训练最近邻分类器,生成分类器模型。本发明在过滤处理后的基因微阵列数据上,利用独立分量分析挖掘基因微阵列数据的隐含信息,利用线性判别分析将基因微阵列数据投影到具有最佳可分性的低维空间,提高了癌症预测的精度,降低了癌症预测的时间。
【专利说明】结合独立分量分析和线性判别分析的癌症预测方法
【技术领域】
[0001]本发明涉及一种结合独立分量分析和线性判别分析的癌症预测方法,属于机器学习和医疗诊断的交叉【技术领域】。
【背景技术】
[0002]基因微阵列又称基因阵列或基因芯片,是一块带有基因微阵列涂层的特殊玻璃片。在面积只有数平方厘米的芯片上安装数千甚至数万个核酸探针,将大量预先设计好的互补脱氧核糖核酸或者寡核苷酸在芯片上做成点阵列形式,与样品中同源核酸分子进行杂交,即可获得关于基因序列和基因表达信息的微阵列数据。
[0003]研究发现,癌症的发生与遗传基因之间存在很大的关联性,分析基因微阵列数据中包含的遗传信息为癌症的预测诊断提供了新的方法途径。然而对基因微阵列数据的分类预测面临着四大挑战。第一,基因微阵列数据具有很高的基因特征维度,通常有几千甚至上万维,同时这些基因特征之间又有非常复杂的关系。第二,复杂的实验和昂贵的费用导致基因微阵列数据具有相对较少的样本,通常只有几十个样本,这与巨大的基因特征数目构成矛盾。第三,基因微阵列数据具有很高的噪声。第四,基因微阵列数据中隐藏着大量有用信息,难以被发觉利用。
[0004]鉴于基因微阵列数据高维度、高噪音、高相关、小样本的特点,本发明在过滤处理后的基因微阵列数据上,结合独立分量分析和线性判别分析两种方法,实现对基因微阵列数据的分类预测。
[0005]过滤技术也称为基因排序技术,是根据某一种策略为每个基因的重要程度进行打分,然后将分数由高到低进行排序,最后选取一定数量高分值的基因作为疾病相关基因。过滤技术速度快、时间复杂度低,对高维高噪的基因微阵列数据而言,是一种有效的预处理技术。
[0006]独立分量分析是一种用来发掘随机变量中隐含因子的统计方法,能够发现数据中独立并且非高斯分布的隐含独立分量,发现基因微阵列数据中隐含的遗传信息。
[0007]线性判别分析是寻找数据的最佳投影方向,通过使类间散布矩阵最大化、类内散布矩阵最小化,从而最大化类别可分性。由于基因微阵列数据高维小样本的特点,导致最佳投影方向的求解过程中涉及的类内散布矩阵严重奇异,逆矩阵无法求解。为解决这一技术难题,本发明采用伪逆技术和基于样本空间的线性判别分析方法,将最佳投影方向的求解过程由基因特征空间转换到样本空间,大大降低了矩阵的奇异程度,解决了求逆困难的技术难题。
【发明内容】
[0008]本发明的目的在于克服由基因微阵列数据高维度、高噪音、高相关、小样本导致的难以精确高效进行癌症预测的技术难题,从挖掘隐含的基因信息和降低基因特征维度出发,提出了一种结合独立分量分析和线性判别分析两种技术的癌症预测方法,在降低基因特征维度、除去冗余噪声的同时,充分挖掘特征之间的隐含信息,提高了癌症预测的精度和效率。
[0009]为了实现上述目的,本发明的技术方案如下。
[0010]一种结合独立分量分析和线性判别分析的癌症预测方法,具体包括以下步骤:
[0011](I)用过滤技术预处理基因微阵列数据,集成了四种策略,即学生检测分析、熵分析、切诺夫界分析以及无偏统计分析,根据每一种策略为每个基因的重要程度进行打分评估,然后根据分数的高低进行排序,最后选择一定数量分值高的基因作为对样本分类预测贡献大的基因,实现特征的预筛选;
[0012](2)将预处理后的基因微阵列数据用独立分量分析技术进行变换以挖掘数据中的隐含信息,得到独立分量集;
[0013](3)应用线性判别分析技术处理独立分量集,将基因微阵列数据投影到具有最佳可分性的低维空间;
[0014](4)利用投影后的基因微阵列数据训练最近邻分类器,生成分类器模型。
[0015]该发明的有益效果在于:(1)从技术层面看,本发明采用独立分量分析方法对基因微阵列数据进行变换,充分挖掘基因之间的隐含信息;在线性判别分析处理过程中,通过由基因特征空间向样本空间的投影变换以及采用伪逆技术,解决了基因微阵列数据超高基因特征维度导致的求逆困难的技术问题。(2)从性能层面看,本发明在对基因微阵列数据有效降维的同时提升了预测准确性,提高了预测效率。 【专利附图】
【附图说明】
[0016]图1是基因芯片生产制作及分析过程简图。
[0017]图2是本发明实施例中所用预测方法流程图。
【具体实施方式】
[0018]下面结合附图和实施例对本发明的【具体实施方式】进行描述,以便更好的理解本发明。
[0019]实施例
[0020]图1是基因芯片生产制作及分析过程简图。图2是本发明实施例中所用预测方法流程图。
[0021]参照图2,本发明实施例中的结合独立分量分析和线性判别分析的癌症预测方法,具体实现步骤如下:
[0022](I)用过滤技术预处理基因微阵列数据:
[0023](Ia)过滤技术集成了四种实现策略-学生检验分析,熵分析,切诺夫界分析,无偏统计分析,分别如下:
[0024]①学生检验分析:学生检验分析的假设前提是两个样本服从正态分布且方差相同。设?…^^是来自正态总体Ν(μ1; σ2)的样本/是来自正态总体Ν( μ 2,
α2)的样本,两个样本独立,样本均值为兄7,样本的方差为片,#,且μ i,μ2,σ 2均为未知。检验假设:[0025]H0: μ μ 2= δ , H1: μ μ 2 ^ δ ;
[0026]δ为已知常数,取显著性水平为α ;
[0027]
【权利要求】
1.一种结合独立分量分析和线性判别分析的癌症预测方法,其特征在于:具体包括以下步骤: (1)用过滤技术预处理基因微阵列数据,集成了四种策略,即学生检测分析、熵分析、切诺夫界分析以及无偏统计分析,根据每一种策略为每个基因的重要程度进行打分评估,然后根据分数的高低进行排序,最后选择一定数量分值高的基因作为对样本分类预测贡献大的基因,实现特征的预筛选; (2)将预处理后的基因微阵列数据用独立分量分析技术进行变换以挖掘数据中的隐含信息,得到独立分量集; (3)应用线性判别分析技术处理独立分量集,将基因微阵列数据投影到具有最佳可分性的低维空间; (4)利用投影后的基因微阵列数据训练最近邻分类器,生成分类器模型。
2.根据权利要求1所述的结合独立分量分析和线性判别分析的癌症预测方法,其特征在于:所述步骤(2)中独立分量分析技术的具体步骤为: (2a)独立分量集S=WXT,其中Χ=[χω ;…;xw]是mXn的基因微阵列数据矩阵,m是样本个数,η是基因特征维度,W是ηΧη的变换矩阵; (2b)利用最大似然估计方法求变换矩阵W ; (2b.1)关于W的最大似然估计:
3.根据权利要求1所述的结合独立分量分析和线性判别分析的癌症预测方法,其特征在于:所述步骤(3)中线性判别分析技术具体步骤为: (3a)设计线性判别分析方法的目标函数:
设数据中有m个样本,分别属于c个类别,第i类的样本数为IV且
【文档编号】G06F19/00GK103793600SQ201410025412
【公开日】2014年5月14日 申请日期:2014年1月16日 优先权日:2014年1月16日
【发明者】杨利英, 刘志敏, 李菲, 袁细国, 张军英, 黎成, 殷黎洋 申请人:西安电子科技大学