S104 :查找与投影测试样本距离最近的样本。
[0055] 利用最近邻分类器,对投影后的投影测试样本z在低维特征空间进行判别。也就 是说,在上述的投影变换矩阵中的训练样本集?;)」中,找到与投影测试样本距离最近的 样本。
[0056] S105 :将该样本的类型赋予投影测试样本。
[0057] 在找到与投影测试样本距离最近的样本后,把该样本的类型赋予投影测试样本ζ, 从而得到对待测样本X进行类型预测的类型预测结果。
[0058] 在本实施例中待测样本有34个,要重复诊断模块34次,报道平均结果。
[0059] 图2和图3分别给出了两种算法的预测率随着维数变化曲线图。对比方法为:双 图判别近邻嵌入以及本发明。可以看到本发明的预测率在维数较低时有着非常明显的优 势,且能获得最佳诊断结果。表1给出了降维数为1到101之间最好预测结果的对比,括号 中是对应的维数。本发明在较低维数时就取得了最好性能。
[0060] 表1两种算法在前列腺肿瘤的类型预测数据集的性能对比
[0061]
[0062] 从上述技术方案可以看出,本实施例提供了一种前列腺肿瘤的类型预测方法,该 方法首先获取包含受检者的基因表达数据的待测样本;对待测样本进行归一化,构造归一 化后的新待测样本;利用预设的投影变换矩阵将新待测样本映射到低维特征空间中,得到 映射后的投影测试样本;从投影变换矩阵的训练样本集中找到与投影测试样本距离最近的 样本;将样本的类型赋予投影测试样本,从而完成对前列腺肿瘤的类型预测并得到类型预 测结果。
[0063] 本实施例中的投影变换矩阵经过下面步骤获取,如图4所示:
[0064] S1031 :获取基因表达训练数据。
[0065] 本实施例采集前列腺数据集136个样本,是前列腺肿瘤和相邻前列腺组织不含有 肿瘤的基因表达测试数据样本。共两类,标记为有肿瘤和无肿瘤。每个样本有12533个特 征。训练集共102个样本,52个是有肿瘤样本,其余50个是无肿瘤样本。测试集中有25个 有肿瘤和9个无肿瘤。
[0066] 假设设已有基因表达训练数据为沐nV,Kl1,其中Xie Rd是第i个人的基因表达数 据,Yi= {1,2}表示X ;的类别标签,1有肿瘤,2表示无肿瘤,N表示训练数据的个数,D表示 训练数据的维数。在本实施例中,N = 102, D = 12533。
[0067] S1032 :抽取部分特征数据,得到训练数据集。
[0068] -般来说,相对于N而言,D是一个非常大的数。为了减少计算复杂度,先随机抽 取一部分特征,比如抽取(1个特征,记录抽取特征的位置7<={1,2,一,1)},且|1|= (1。在本实 施例中,d= 1000。为了消除随机性的影响,重复50次随机抽取。然后把抽取出来的特征 值进行归一化,使得特征值的范围在[0,1]区间。则记随机特征选择且归一化后的训练数 据集为并且X'
[0069] S1033 :将训练数据集映射到低维特征空间。
[0070] 为了同时考虑保持低维坐标的几何特征和训练点信息,寻找一个最优的投影变换 矩阵P,将训练数据集V上映射到相对低维的低维特征空间,比如r维空间,且r << d <<D。在本实施例中,r可以取1到101,要小于样本的个数。在此低维的特征空间中,最 大化类间距离且最小化类内距离,即:
[0071]
[0072] 其中trace( ·)是指求矩阵的迹,Sb是类间局部散度矩阵,Sw类内局部散度矩阵。
[0073] S1034 :构建两个相似矩阵。
[0074] 为了计算这两个局部散度矩阵,我们构造两个相似矩阵,分别为类内相似矩阵Fw 和类间相似矩阵Fb。
中DIP Db均是对角矩阵,
[0076] 为了获得这两个相似矩阵,我们定义余弦去中心相似性函数:
[0077]
[0078] 其中
是有肿瘤训练样本中心,
是无肿瘤训练样本 中心。如果\(x' ,)值越大,则表明W ,在有肿瘤或者无肿瘤状态下越相 似。FlP Fb定义如下:
[0079]
[0080] 和
[0081]
[0082] 其中和分别是W ^勺同类相似样本和异类相似样本集合。在本实施 例中,相似性样本数分别取k = 4和k = 5。
[0083] S1035 :计算投影变换矩阵。
[0084] 为了最终获得投影变换矩阵P,对SjPSw进行广义特征分解。把获得的特征值按照 从大到小的顺序进行排序,取前其r个特征值对应的特征向量组成矩阵P = [P1, p2,…,pj, 其中Pi是特征分解后的特征向量。
[0085] 在得到了投影变换矩阵P后,通过投影把原样本空间的样本投影到低维特征空 间,Z1=P tx' i,其中~是? i在低维空间的投影,ZieiT。令{^'为投影后的训练 样本集。
[0086] 实施例二
[0087] 图5为本申请另一实施例提供的一种前列腺肿瘤的类型预测系统的结构图。
[0088] 如图5所示,本实施例提供的前列腺肿瘤的类型预测系统包括待测样品获取模块 10、归一化模块20、学习模块30、查找模块40和预测模块50。
[0089] 待测样品获取模块10用于获取包含受检者的基因表达数据的待测样本。并将该 待测样本记录为X e Rd。该待测样品获取模块中包含DNA微阵列芯片。
[0090] 归一化模块20用于根据保留的特征位置集I和训练样本集的归一化方式,利用待 测样本 xeRD构造一个新待测样本X' eR d。
[0091] 学习模块30用于利用预设的投影变换矩阵P把新待测样本映射到低维特征空间 中,得到投影后的测试样本z = PTX' e R%为记录方便,将其记为投影测试样本。
[0092] 查找模块40用于利用最近邻分类器,对投影后的投影测试样本z在低维特征空间 进行判别。也就是说,在上述的投影变换矩阵中的训练样本集沐,.Vi}二中,找到与投影测试 样本距离最近的样本。
[0093] 预测模块50用于在查找模块40找到与投影测试样本距离最近的样本后,把该样 本的类型赋予投影测试样本z,从而得到对待测样本X进行类型预测的类型预测结果。
[0094] 在本实施例中待测样本有34个,要重复诊断模块34次,报道平均结果。
[0095] 从上述技术方案可以看出,本实施例提供了一种前列腺肿瘤的类型预测系统,该 系统首先获取包含受检者的基因表达数据的待测样本;对待测样本进行归一化,构造归一 化后的新待测样本;利用预设的投影变换矩阵将新待测样本映射到低维特征空间中,得到 映射后的投影测试样本;从投影变换矩阵的训练样本集中找到与投影测试样本距离最近的 样本;将样本的类型赋予投影测试样本,从而完成对前列腺肿瘤的类型预测并得到类型预 测结果。
[0096] 本实施例中的学习模块包括训练数据获取单元31、随机抽取单元32、映射单元 33、相似矩阵构建单元34和投影变换矩阵构建单元35。
[0097] 训练数据获取单元31用于获取基因表达训练数据。
[0098] 本实施例采集前列腺数据集136个样本,是前列腺肿瘤和相邻前列腺组织不含有 肿瘤的基因表达测试数据样本。共两类,标记为有肿瘤和无肿瘤。每个样本有12533个特 征。训练集共102个样本,52个是有肿瘤样本,其余50个是无肿瘤样本。测试集中有25个