本发明数据处理技术领域,具体涉及一种肿瘤分子分型预测系统。
背景技术:
长期以来,判断肿瘤生物学行为,制定治疗方案及判断预后等,在很大程度上依赖于肿瘤的组织学分型与临床分期。而临床实践显示,即使负荷有相同组织学形态(包括分期、分级)的肿瘤,不同患者个体的临床病症却可大相径庭,对相同治疗可能产生明显不同的反应。1991年美国国立研究所提出肿瘤分子分型的概念,基于综合的分子分型技术,使肿瘤分类的基础从形态学为基础转向分子特征为基础的“分子分型”。
肿瘤分子分型的最终目标是明确个体肿瘤的分子特征,并不是获得诊断结果或健康状况,而只是获取受检者的肿瘤基因表达数据来进行分子分型预测,作为中间结果的信息或生理参数,为医生选择最适当的治疗方案或者靶向药物提供依据,以最小副作用达到最大疗效,真正使患者最大程度获益。现有的针对肿瘤分子分型的技术方法如SVM,Logistic回归等方法存在诸如速度慢、泛化性能差、参数选择麻烦、分类准确率低等缺点,且传统的ELM(Extreme Learning Machine)方法不能对多个类别的疾病进行分子分型,且是有监督的机器学习方法。
技术实现要素:
针对现有技术存在的问题,本发明提供一种肿瘤分子分型预测系统。
本发明的技术方案是:
一种肿瘤分子分型预测系统,包括:
基因表达数据提取模块:获取肿瘤基因表达数据;
缺失值预处理器:对获取肿瘤基因表达数据进行缺失值填充;
重要基因提取模块:提取肿瘤基因表达数据中决定生存时间的肿瘤重要基因;
US-ELM分子分型模块:利用US-ELM对肿瘤重要基因数据进行肿瘤分子分型预测。
所述缺失值预处理器:
采用KNN算法将含有缺失值的肿瘤基因表达数据转换成不含缺失值的肿瘤基因表达数据。
所述重要基因提取模块,包括:
生存资料整合器:整合不含缺失值的肿瘤基因表达数据、生存时间即从发病到死亡的时间、生存结局即死亡或存活,得到生存资料;
Cox比例风险函数建立模块:根据整合的生存资料建立Cox比例风险函数,该函数用来描述生存资料与各时刻瞬时死亡概率之间的函数关系;
偏似然函数建立模块:根据Cox比例风险函数所得到患者死亡的条件概率建立偏似然函数,描述生存资料与各时刻瞬时死亡概率之间的函数关系;
回归参数估计模块:用于结合弹性网和偏似然函数,建立用于估计偏似然函数中回归参数的弹性网Cox模型,并进行回归参数估计;
非零参数生成器:提取回归参数估计值中的非零参数,非零参数对应的基因即肿瘤基因表达数据中的肿瘤重要基因。
所述US-ELM分子分型模块,包括:
变换矩阵生成器:根据无监督极限学习机US-ELM(unsupervised-Extreme Learning Machine,US-ELM)原理,将肿瘤重要基因的矩阵形式进行拉普拉斯变换得到拉普拉斯变换结果;
随机参数生成器:根据US-ELM原理,设定单隐层前馈神经网络的隐层节点个数,随机生成输入节点的权重向量和隐层节点的阈值;
转换器:根据US-ELM原理,利用随机参数生成器得到的输入节点的权重向量和隐层节点的阈值来生成隐层输出矩阵;
降维器:根据US-ELM原理,拉普拉斯变换结果和隐层输出矩阵得到降维后的肿瘤重要基因的矩阵;
聚类器:利用K-means聚类算法对降维器得到的肿瘤重要基因的矩阵进行聚类得到肿瘤分子分型预测结果。
有益效果:
本发明的肿瘤分子分型预测系统,克服了以往的针对肿瘤分子分型技术方法速度慢、泛化性能差、分类准确率低的缺陷,实现了快速且分类准确率高的肿瘤分子分型预测,并且能够对多个类别的肿瘤进行无监督机器学习。利用本发明系统进行肿瘤分子分型预测,能更好的判断肿瘤生物学行为,本发明的直接目的不是得到诊断结果,而是为制定个性化治疗方案提供参考依据。
附图说明
图1是本发明具体实施方式中肿瘤分子分型预测系统框图;
图2是本发明具体实施方式中重要基因提取模块框图;
图3是本发明具体实施方式中US-ELM分子分型模块框图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
一种肿瘤分子分型预测系统,如图1所示,包括:
基因表达数据提取模块:获取肿瘤基因表达数据;
缺失值预处理器:采用KNN算法将含有缺失值的肿瘤基因表达数据转换成不含缺失值的肿瘤基因表达数据,对获取肿瘤基因表达数据进行缺失值填充;
使用最近邻(k-Nearest Neighbor,KNN)的填充方法将含有缺失值的肿瘤基因表达数据矩阵转换成不含缺失值的肿瘤基因表达数据矩阵其中有m个患者,每个患者分别有n个基因。
KNN的填充方法,即选取与所研究的基因表达最为相似的基因来估计缺失值。如果基因C在患者1中含有一个缺失值,对这一缺失值进行填充时,KNN方法将发现其他K个在患者1中没有缺失值的基因,且这K个基因在患者2到患者m中的表达与C最为相似,患者1中这K个最近邻基因的加权均值就作为基因C的缺失值的估计值。
重要基因提取模块:提取肿瘤基因表达数据中决定生存时间的肿瘤重要基因;
所述重要基因提取模块,如图2所示,包括:
生存资料整合器:整合不含缺失值的肿瘤基因表达数据矩阵B、生存时间即从发病到死亡的时间、生存结局即死亡或存活,得到生存资料其中,t代表生存时间,即患者从发病到死亡的时间;f代表生存结局即死亡或存活,分别用数字0或1表示。
Cox比例风险函数建立模块:根据整合的生存资料M建立Cox比例风险函数h(t),该函数用来描述生存资料与各时刻瞬时死亡概率之间的函数关系;
h(t)=exp(β1x1+β2x2+…+βnxn)h0(t)=exp(TβX)h0(t)
其中,h0(t)为t时刻的基准风险函数,即当所有的肿瘤基因表达水平均为0时的死亡风险;n代表共有n个基因;β1,β2,…,βn表示为回归参数,即在其他影响因素不变的情况下,影响因素xn每改变一个测量单位时所引起的相对死亡危险度的自然对数的改变量,可以反映影响因素对患者生存状况的影响。
偏似然函数建立模块:根据Cox比例风险函数h(t)所得到患者死亡的条件概率建立偏似然函数,描述生存资料与各时刻瞬时死亡概率之间的函数关系;
根据上述Cox比例风险函数h(t)公式,可以得到Cox比例风险函数的另一种形式:
进而得到在生存时间tr上患者死亡的条件概率:
其中,R(tr)为死亡危险集,即假设有m个患者,其生存时间由小到大排列:t1≤t2≤…≤tm,对于生存时间tr来说,凡是生存时间大于tr的所有患者组成一个死亡危险集,记为R(tr)。死亡危险集内的患者,在tr之前尚生存,但处在死亡危险当中,随着时间的推移,死亡危险集内的患者陆续死亡,患者逐步退出观察,当最后一个患者在tm时刻死亡并退出观察时,死亡危险集就消失。j代表tr时刻以后死亡危险集R(tr)中对偏似然函数有贡献的个体。
将m个患者死亡的条件概率相乘得:对此公式取自然对数,得到l(β),即偏似然函数。
回归参数估计模块:用于结合弹性网和偏似然函数,建立用于估计偏似然函数中回归参数的弹性网Cox模型并进行回归参数估计;根据交叉验证法选择调整参数λ1,λ2;产生一个进行重要基因选择的模型;克服了选择重要基因的个数上的限制,且允许变量间具有共线性。根据弹性网Cox模型估计偏似然函数中的回归参数β。
非零参数生成器:提取回归参数估计值中的非零参数,非零参数对应的基因即肿瘤基因表达数据中的肿瘤重要基因。
回归参数估计值中含有大量的零值参数与部分非零参数,提取其中的非零参数,非零参数对应的基因即肿瘤基因表达数据中的肿瘤重要基因:
将n个基因进一步筛选出z个重要基因,即对进行基因选择,得到
US-ELM分子分型模块:利用US-ELM对肿瘤重要基因数据进行肿瘤分子分型预测。
所述US-ELM分子分型模块,如图3所示,包括:
变换矩阵生成器:根据US-ELM原理,将肿瘤重要基因的矩阵形式B1进行拉普拉斯变换得到拉普拉斯变换结果
随机参数生成器:根据US-ELM原理,设定单隐层前馈神经网络的隐层节点个数g,随机生成输入节点的权重向量ω1,ω2,...,ωg和隐层节点的阈值b1,b2,...,bg;
例如隐层节点的个数设置为2000个,随机生成输入节点的权重向量ω1,ω2,...,ω2000和隐层节点的阈值b1,b2,...,b2000:
得到的输入节点的权重向量ω1,ω2,...,ω2000为:
=(-0.6233,0.8371,...,0.2845);
=(0.6674,0.5873,...,0.8851);
...
=(0.8327,0.2870,...,0.6346);
得到的隐层节点阈值b1,b2,...,b2000为:
=0.2344;
=0.2344;
...
=0.2344。
转换器:根据US-ELM原理,利用随机参数生成器得到的输入节点的权重向量ω1,ω2,...,ωg和隐层节点的阈值b1,b2,...,bg来生成隐层输出矩阵
降维器:根据无监督极限学习机US-ELM(unsupervised-Extreme LearningMachine,US-ELM)原理,拉普拉斯变换结果和隐层输出矩阵得到降维后的肿瘤重要基因的矩阵S;
聚类器:利用K-means聚类算法对降维器得到的肿瘤重要基因的矩阵进行聚类得到肿瘤分子分型预测结果Y。
使用聚类的正确率来评价聚类结果的优劣,例如实验选取的弥漫性大B细胞淋巴瘤有三种亚型,聚类后得到的结果其中数值1,2,3分别代表弥漫性大B细胞淋巴瘤的三种亚型。在实验中,最高正确率达到90%,平均正确率为83%。利用本发明所提供的肿瘤分子分型预测系统对新患者需要预测所患肿瘤的亚型,可以根据其肿瘤基因表达数据,进行肿瘤重要基因提取,然后将肿瘤重要基因作为输入数据,输入到US-ELM中,即预测出这名患者所患肿瘤的亚型,达到肿瘤分子分型的目的。
本实施方式中针对弥漫性大B细胞淋巴瘤进行肿瘤分子分型预测,获取的肿瘤基因表达数据中包括:240名弥漫性大B细胞淋巴瘤患者的肿瘤基因表达数据,每名患者有7399个基因,即肿瘤基因表达数据矩阵其中NA代表缺失值;每名患者对应的生存时间单位为“年”;每名患者的生存结局其中死亡用数字0表示,存活用数字1表示。
由于肿瘤基因表达数据矩阵A中含有缺失值,因此利用KNN算法将缺失值进行填充,得到不含缺失值的肿瘤基因表达数据矩阵
整合不含缺失值的肿瘤基因表达数据矩阵B、生存时间t及生存结局f得到生存资料矩阵
根据生存资料M建立Cox比例风险函数h(t)与偏似然函数l(β)。
结合弹性网和偏似然函数l(β),建立弹性网Cox模型,得到7399个回归参数的估计值β=(0,0.983,…,0)。回归参数估计值中含有7378个零值参数与21个非零参数。
提取回归参数估计值中的21个非零参数,非零参数对应的基因即重要基因,因此可以得到重要基因矩阵
根据US-ELM原理,将重要基因矩阵B1进行拉普拉斯变换得到拉普拉斯变换结果
根据US-ELM原理,设置隐层节点的个数为2000个,随机生成输入节点的权重向量ω1,ω2,...,ω2000和隐层节点的阈值b1,b2,...,b2000:
得到的输入节点的权重向量ω1,ω2,...,ω2000为:
=(-0.6233,0.8371,...,0.2845);
=(0.6674,0.5873,...,0.8851);
...
=(0.8327,0.2870,...,0.6346);
得到的隐层节点阈值b1,b2,...,b2000为:
=0.2344;
=0.2344;
...
=0.2344。
根据US-ELM原理,利用输入节点的权重向量ω1,ω2,...,ω2000和隐层节点的阈值b1,b2,...,b2000,生成隐层输出矩阵
根据US-ELM原理,拉普拉斯变换结果L和隐层输出矩阵H得到降维后的肿瘤重要基因的矩阵
利用K-means聚类算法对降维器得到的肿瘤重要基因的矩阵S进行聚类得到分子分型结果其中数值1,2,3分别代表弥漫性大B细胞淋巴瘤的三种亚型。