有肿瘤和9个无肿瘤。
[0099] 假设已有基因表达训练数据为,其中X1 e Rd是第i个人的基因表达数据, y;= {1,2}表示X ;的类别标签,1有肿瘤,2表示无肿瘤,N表示训练数据的个数,D表示训 练数据的维数。在本实施例中,N = 102, D = 12533。
[0100] 随机抽取单元32用于从基因表达训练数据中随机抽取部分特征数据,得到训练 数据集。
[0101] 一般来说,相对于N而言,D是一个非常大的数。为了减少计算复杂度,先随机抽 取一部分特征,比如抽取(1个特征,记录抽取特征的位置1〔{1,2,~,对,且|1|= (1。在本 实施例中,d= 1000。为了消除随机性的影响,重复50次随机抽取。然后利用本模块的归 一化子单元(问示出)把抽取出来的特征值进行归一化,使得特征值的范围在[0,1]区间。 则记随机特征选择且归一化后的训练数据集为·并且X' Rd。
[0102] 映射单元33用于将训练数据集映射到相对低维的低维特征空间。
[0103] 为了同时考虑保持低维坐标的几何特征和训练点信息,寻找一个最优的投影变换 矩阵P,将训练数据集VjL映射到相对低维的低维特征空间,比如r维空间,且r << d <<D。在本实施例中,r可以取1到101,要小于样本的个数。在此低维的特征空间中,最 大化类间距离且最小化类内距离,即: CN 105160207 A ^ 丫/8 贝
[0104]
[0105] 其中trace( ·)是指求矩阵的迹,Sb是类间局部散度矩阵,Sw类内局部散度矩阵。
[0106] 相似矩阵构建单元34用于为了计算上述两个局部散度矩阵而构造两个相似矩 阵,分别为类内相似矩阵F w和类间相似矩阵F b。
[0107] Sw= X(Dw-Fw)X% Sb= X(Db-Fb)Xt,其中 Dw和 Db均是对角矩阵,
和
D'.
[0108] 为了获得这两个相似矩阵,本模块还包括函数构建子单元(未示出),用于定义余 弦去中心相似性函数:
[0109]
[0110] 其中
是有肿瘤训练样本中心,
是无肿瘤训练样本 中心。如果\(x' ,)值越大,则表明W ,在有肿瘤或者无肿瘤状态下越相 似。FlP Fb定义如下:
[0111]
[0112] 和
[0113]
[0114] 其中<0_)和^;(0分别是X'』勺同类相似样本和异类相似样本集合。在本实施 例中,相似性样本数分别取k = 4和k = 5。
[0115] 投影变换矩阵构建单元35用于对SjP Sw进行广义特征分解。把获得的特征值 按照从大到小的顺序进行排序,取前其r个特征值对应的特征向量组成矩阵P = [P1, p2,… ,pj,其中Pi是特征分解后的特征向量。
[0116] 在得到了投影变换矩阵P后,通过投影把原样本空间的样本投影到低维特征空 间,Z1=P tx' i,其中~是? i在低维空间的投影,ZieiT。令:^,爲}$为投影后的训练 样本集。
[0117] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他 实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上 述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领 域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的 精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些 实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1. 一种前列腺肿瘤的类型预测方法,其特征在于,包括步骤: 获取包含受检者的基因表达数据的待测样本; 对所述待测样本进行归一化,构造归一化后的新待测样本; 利用预设的投影变换矩阵将所述新待测样本映射到低维特征空间中,得到映射后的投 影测试样本; 从所述投影变换矩阵的训练样本集中找到与所述投影测试样本距离最近的样本; 将所述样本的类型赋予所述投影测试样本,完成类型预测。2. 如权利要求1所述的类型预测方法,其特征在于,所述投影变换矩阵通过下面步骤 获取: 获取基因表达训练数据; 从所述基因表达训练数据中随机抽取部分特征数据,得到训练数据集; 将所述训练数据集映射到相对低维的低维特征空间; 将所述低维度特征空间中的训练数据集构建为类内相似矩阵和类间相似矩阵; 对与所述类内相似矩阵的关联的类内局部散度矩阵和与所述类间相似矩阵相关联的 类间局部散度矩阵进行广义特征分解,得到所述投影变换矩阵。3. 如权利要求2所述的类型预测方法,其特征在于,所述得到训练数据集过程中需要 对所述部分特征数据进行归一化处理,从而得到所述训练数据集。4. 如权利要求2所述的类型预测方法,其特征在于,所述类内相似矩阵和所述类间相 似矩阵通过预先定义的余弦去中心相似性函数获得。5. -种前列腺肿瘤的类型预测系统,其特征在于,包括: 待测样本获取模块,用于获取包含受检者的基因表达数据的待测样本; 归一化模块,用于对所述待测样本进行归一化,构造归一化后的新待测样本; 学习模块,用于利用预设的投影变换矩阵将所述新待测样本映射到低维特征空间中, 得到映射后的投影测试样本; 查找模块,用于从所述投影变换矩阵的训练样本集中找到与所述投影测试样本距离最 近的样本; 预测模块,用于将所述样本的类型赋予所述投影测试样本,完成类型预测。6. 如权利要求5所述的类型预测系统,其特征在于,所述待测样本获取模块包括DNA微 阵列芯片。7. 如权利要求5所述的类型预测系统,其特征在于,所述学习模块包括: 训练数据获取单元,用于获取基因表达训练数据; 随机抽取单元,用于从所述基因表达训练数据中随机抽取部分特征数据,得到训练数 据集; 映射单元,用于将所述训练数据集映射到相对低维的低维特征空间; 相似矩阵构建单元,用于将所述低维度特征空间中的训练数据集构建为类内相似矩阵 和类间相似矩阵; 投影变换矩阵构建单元,用于对与所述类内相似矩阵的关联的类内局部散度矩阵和 与所述类间相似矩阵相关联的类间局部散度矩阵进行广义特征分解,得到所述投影变换矩 阵。8. 如权利要求7所述的类型预测系统,其特征在于,所述随机抽取单元包括: 归一化子单元,用于通过对所述部分特征数据进行归一化处理得到所述训练数据集。9. 如权利要求7所述的类型预测系统,其特征在于,所述相似矩阵构建单元还包括: 函数构建子单元,用于通过构建所述余弦去中心相似性函数获得所述类内相似矩阵和 所述类间相似矩阵。
【专利摘要】本申请公开了一种前列腺肿瘤的类型预测方法和系统,该方法和系统首先获取包含受检者的基因表达数据的待测样本;对待测样本进行归一化,构造归一化后的新待测样本;利用预设的投影变换矩阵将新待测样本映射到低维特征空间中,得到映射后的投影测试样本;从投影变换矩阵的训练样本集中找到与投影测试样本距离最近的样本;将样本的类型赋予投影测试样本,从而完成对前列腺肿瘤的类型预测并得到类型预测结果。
【IPC分类】G06F19/24, G06F19/20
【公开号】CN105160207
【申请号】CN201510541211
【发明人】张莉, 周伟达, 王邦军, 张召, 李凡长, 杨季文
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年12月16日
【申请日】2015年8月28日