监督基因表达数据分类方法
【专利摘要】本发明公开了一种监督基因表达数据分类方法,主要解决现有技术进行基因表达数据分类时存在的维数灾难、丢失信息和分类器设计复杂的问题。其技术方案是:1.采用类别保留投影方法获得训练样本的鉴别特征向量;2.利用训练样本的鉴别特征向量,采用回归优化方法获得投影矩阵;3.由投影矩阵获得训练样本特征集和测试样本特征集;4.由训练样本特征集和测试样本特征集,采用最近邻分类器实现测试样本的分类识别。本发明克服了类别保留投影方法存在矩阵奇异、过拟合的问题,提高了基因表达数据分类的准确性,可用于生物信息学中的肿瘤识别和肿瘤亚型分类。
【专利说明】监督基因表达数据分类方法
【技术领域】
[0001] 本发明属于数据处理【技术领域】,设及一种监督基因表达数据分类方法,可用于生 物信息学中的肿瘤识别和肿瘤亚型分类。
【背景技术】
[0002] 随着基因巧片技术的发展,产生了海量的基因表达数据。如何从海量基因表达数 据中获取有用信息,成为生物信息学研究的热点。分类方法是实现基因表达数据生物信息 挖掘的重要手段之一,但基因表达数据的高维小样本特性,给基因表达数据分类带来了维 数灾难。为克服该一问题,通常先对基因表达数据进行基因选择或特征提取,再采用传统分 类器进行分类识别。现有的基因选择方法有很多,但面对不同的肿瘤分类任务,各种基因选 择算法并没有统一的标准,如果基因选择算法设计的不好,就可能丢失对分类有用的信息 基因,从而影响分类性能。用于基因表达数据分类的特征提取方法主要包括两大类:
[0003] (1)非监督特征提取方法。包括主分量分析PCA、独立分量分析ICA、非负矩阵分解 法NMF和保局投影LPP等。该些特征提取方法都没有考虑样本的类别信息,往往还需借助 一些鉴别特征提取方法来提取有效的分类特征,或采用支持向量机SVM等比较复杂的分类 器来提高分类性能,从而增加了分类识别的复杂性。
[0004] (2)监督特征提取方法。经典监督特征提取方法是线性鉴别分析LDA,但面对 基因表达数据的高维小样本特性,LDA存在矩阵奇异、过拟合和最优子空间维数受样本 类别数限制等问题,限制了 LDA的应用。类别保留投影CPP是2012年提出的一种监督 特征提取方法,见王文俊.基于类别保留投影的基因表达数据特征提取新方法.电子学 报.40 (2) : 358-364, 2012。CPP能有效解决最优子空间维数受样本类别数限制的问题,但面 对基因表达数据的高维小样本特性,CPP依然存在矩阵奇异、过拟合等问题。
【发明内容】
[0005] 本发明的目的在于克服类别保留投影方法存在的矩阵奇异和过拟合问题,提出一 种新的监督基因表达数据分类方法,W提高基因表达数据分类的准确性。
[0006] 为实现上述目的,本发明的技术方案包括如下步骤:
[0007] (1)设训练样本基因表达数据集x= {Xili = 1,2,…,m},其中,Xi是n维列向量, 代表第i个训练样本在n个基因上的表达水平向量,m是训练样本个数;设第i个训练样本 的类别记为Ci;
[000引 (2)采用类别保留投影方法获得训练样本的鉴别特征向量y' 1,1 = 1,2,…,d,d是 鉴别特征向量的个数,l《d<n;
[0009] (3)利用鉴别特征向量y'l,采用回归优化方法获得nXd维的投影矩阵A ;
[0010] (4)将第i个训练样本的基因表达水平向量Xi投影在投影矩阵A上,获得第i个 训练样本的特征向量yi=ATxi,其中,at表示投影矩阵A的转置;训练样本特征集Y= bili =1,2,…,m};
[0011] 妨设测试样本基因表达数据集u= {Uj.lj = 1,2,…,p},其中,Uj.是n维列向量, 代表第j个测试样本在n个基因上的表达水平向量,P是测试样本个数;
[0012] (6)将第j个测试样本的基因表达水平向量Uj.投影在投影矩阵A上,获得第j个 巧m样本的特征向量qj.= A\,其中,at表示投影矩阵A的转置;测试样本特征集Q = {q JI j =1,2,…,p};
[0013] (7)采用最近邻分类器对测试样本进行分类,计算第j个测试样本特征向量qj到 各个训练样本特征向量的欧氏距离,将欧氏距离最近的训练样本的类别作为第j个测试 样本的类别。
[0014] 与现有技术相比,本发明具有W下优点:
[0015] 1)本发明由于将类别保留投影方法转化到回归框架,克服了类别保留投影方法存 在矩阵奇异、过拟合的问题;
[0016] 2)本发明结合样本类别信息提取样本的分类特征,减轻了分类器设计的负担,提 高了基因表达数据分类的准确性。
【专利附图】
【附图说明】
[0017] 图1是本发明的实现流程图;
[0018] 图2是本发明仿真使用的第一组基因表达数据的分类正确识别率曲线图;
[0019] 图3是本发明仿真使用的第二组基因表达数据的分类正确识别率曲线图。
【具体实施方式】
[0020] 参照图1,本发明的具体实现步骤如下:
[0021] 步骤1,给定训练样本基因表达数据和训练样本的类别信息。
[0022] 给定m个训练样本在n个基因上的表达数据,用一个nXm维的矩阵X表示,矩阵 X的行代表基因、列代表训练样本;矩阵X的元素Xki表示第i个训练样本在第k个基因上 的表达水平,矩阵X的第i列Xi表示第i个训练样本在n个基因上的表达水平向量,i = 1, 2,…,m,k = 1, 2,…,n ;
[0023] 给定m个训练样本的类别信息C= {Ci|i = 1,2,…,m},其中,c康示第i个训练 样本的类别。
[0024] 步骤2,根据训练样本的类别信息C和训练样本基因表达数据X,采用类别保留投 影方法获得训练样本的鉴别特征向量y' 1。
[002引 (2. 1)分别定义mXm维的同类关系矩阵妒的元素值畴郝mXm维的异类关系矩 阵W2的元素值巧,2如下:
【权利要求】
1. 一种监督基因表达数据分类方法,其特征在于包括以下步骤: (1) 设训练样本基因表达数据集X=IxiIi= 1,2,…,m},其中,\是11维列向量,代表 第i个训练样本在n个基因上的表达水平向量,m是训练样本个数;设第i个训练样本的类 别记为ci; (2) 采用类别保留投影方法获得训练样本的鉴别特征向量y'p1 = 1,2,…,d,d是鉴 别特征向量的个数,I<d〈n; (3) 利用鉴别特征向量y'i,采用回归优化方法获得nXd维的投影矩阵A; (4) 将第i个训练样本的基因表达水平向量\投影在投影矩阵A上,获得第i个训练 样本的特征向量Yi=A1Xi,其中,At表示投影矩阵A的转置;训练样本特征集Y= {y」i= 1,2,…,m}; (5) 设测试样本基因表达数据集U={Uj|j= 1,2,…,p},其中,11」是11维列向量,代表 第j个测试样本在n个基因上的表达水平向量,p是测试样本个数; (6) 将第j个测试样本的基因表达水平向量Uj投影在投影矩阵A上,获得第j个测试 样本的特征向量qj=ATUj,其中,At表示投影矩阵A的转置;测试样本特征集Q={qjIj= 1,2,…,p}; (7) 采用最近邻分类器对测试样本进行分类,计算第j个测试样本特征向量qj到各个 训练样本特征向量Yi的欧氏距离,将欧氏距离最近的训练样本的类别作为第j个测试样本 的类别。
2. 根据权利要求1所述的监督基因表达数据分类方法,其特征在于步骤(2)所述的采 用类别保留投影方法获得训练样本的d个鉴别特征向量y'i,按如下步骤进行: (2. 1)分别定义mXm维的同类关系矩阵W1的元素值 < 和mXm维的异类关系矩阵W2 的元素值Pft2如下:
其中,Ct表示第t个训练样本的类别; (2. 2)计算mXm维的同类对角矩阵D1的对角元素值A1,和mXm维的异类对角矩阵D2 的对角元素值W:
同类对角矩阵D1和异类对角矩阵D2的非对角元素值都为O; (2. 3)计算mXm维的类内散布矩阵L1和mXm维的类间散布矩阵L2: L1=D-W1, L2=D2-W2; (2. 4)定义广义特征方程Ly=AL2y',A是特征值,y'是m维的特征向量; (2. 5)求解上述广义特征方程的前d个最小特征值对应的特征向量作为训练样本的d个鉴别特征向量y'P1 = 1,2,…,d。
3.根据权利要求1所述的监督基因表达数据分类方法,其特征在于步骤(3)所述的采 用回归优化方法获得投影矩阵A,按如下步骤进行: (3. 1)设&1为11维最优投影向量,定义如下回归优化式:
其中,(1和|3是两个数值不同的回归系数,且满足〇〈(1〈1,〇〈|3〈1,(1乒|3; (3.2)求解上述回归优化式获得d个n维的投影向量ai,1 = 1,2,…,d,构成nXd维 的投影矩阵A=Iia1,a2,…,ad]。
【文档编号】G06F19/24GK104504305SQ201410817036
【公开日】2015年4月8日 申请日期:2014年12月24日 优先权日:2014年12月24日
【发明者】王文俊 申请人:西安电子科技大学