本技术涉及基因检测,尤其涉及一种骨肉瘤基因的识别方法、装置、设备及存储介质。
背景技术:
1、骨肉瘤是一种最常见的原发恶性骨肿瘤,一般青少年群体中发病率较高,目前在临床上针对骨肉瘤的治疗手段多采用手术切除并结合全身化疗以控制微转移瘤。尽管原发性骨肉瘤患者的五年生存率约为70%,但由于骨肉瘤的特异性较大,进展的转移性或复发性疾病患者的预后并不理想,总生存率仅20%左右。特别是一些在初诊时就已经确定发生肿瘤转移的患者,其五年生存率更低于20%。根据目前的研究进展来看,针对性治疗骨肉瘤的靶向化疗药物或更加完善的临床治疗方案尚未成型。因此,寻找合适的生物标志物对骨肉瘤进行早期监测及临床靶向治疗具有重要的意义。
2、近年已发现许多特定基因参与os的进展。例如,与正常软骨相比,os患者trim35(tripartite motif家族成员)的表达水平要高得多。研究表明,trim35可以通过影响介导上皮-间充质转化(epithelial–mesenchymal transition,emt)能力,消除上皮细胞的极化,从而促进间质细胞的转移,进一步增加骨肉瘤癌细胞的生长侵袭能力。神经膜蛋白2(neurogenin2,nrsn2)是一种小神经元膜蛋白,定位于神经细胞中的小囊泡中。keremua等通过生物信息学分析方法在geo数据库找出nran2蛋白,发现其在骨肉瘤组织中高度表达。经过研究证实,nrsn2通过直接影响pi3k/akt/mtor信号传导和间接影响wnt/β-连环蛋白信号传导来促进骨肉瘤细胞在体内的生长侵袭。这些发现提示了一些功能基因在os进展中的重要作用。然而,许多基因的潜在诊断价值尚未在os中得到研究。
技术实现思路
1、本技术的主要目的在于提供一种骨肉瘤基因的识别方法、装置、设备及存储介质,以解决现有技术中骨肉瘤基因的关键基因尚不明确的问题。
2、为实现上述目的,本技术提供如下技术方案:
3、一种骨肉瘤基因的识别方法,所述识别方法包括:
4、通过limma软件包筛选骨肉瘤与正常组织之间的第一差异表达基因集;
5、通过gse19276数据集与gse33383数据集对所述第一差异表达基因集进行批次效应去除,得到第二差异表达基因集;
6、通过lasso回归算法和svm-rfe算法分别对所述第二差异表达基因集进行筛选,得到第一潜在生物标志物和第二潜在生物标志物;
7、获取所述第一潜在生物标志物与所述第二潜在生物标志物相互重叠的部分作为关键生物标志物;
8、获取所述关键生物标志物中mmp13基因、plvap基因、spp1基因的表达水平上调的生物标志物;
9、获取所述mmp13基因、所述plvap基因、所述spp1基因中auc最高的plvap基因并定义为骨肉瘤基因。
10、作为本技术的进一步改进,通过gse19276数据集与gse33383数据集对所述第一差异表达基因集进行批次效应去除,得到第二差异表达基因集,包括:
11、通过预设策略所述gse19276数据集和所述gse33383数据集;
12、将所述gse19276数据集和所述gse33383数据集组合为一个数据队列;
13、通过sva和所述limma软件包消除所述数据队列的批处理影响。
14、作为本技术的进一步改进,通过lasso回归算法和svm-rfe算法分别对所述第二差异表达基因集进行筛选,得到第一潜在生物标志物和第二潜在生物标志物,包括:
15、通过所述lasso回归算法的g lmnet包筛选所述第二差异表达基因集,获取所述第二差异表达基因集中表达水平上调的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物;
16、通过所述svm-rfe算法对所述第二差异表达基因集进行训练,获取所述第二差异表达基因集中表达水平上调的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物的潜在生物标志物。
17、作为本技术的进一步改进,获取所述mmp13基因、所述plvap基因、所述spp1基因中auc最高的plvap基因并定义为骨肉瘤基因,之后,包括:
18、敲减所述骨肉瘤的骨肉瘤细胞中的plvap基因;
19、对敲减后的骨肉瘤细胞进行mg63细胞增殖;
20、判断敲减后的骨肉瘤细胞的增殖速率相比于正常的骨肉瘤细胞是否具有第一预设幅度的下降;
21、若是,则判断敲减后的骨肉瘤细胞的凋亡速率相比于正常的骨肉瘤细胞是否具有第二预设幅度的提升;
22、若是,则将所述plvap基因判定为所述骨肉瘤基因。
23、作为本技术的进一步改进,获取所述mmp13基因、所述plvap基因、所述spp1基因中auc最高的plvap基因并定义为骨肉瘤基因,之后,包括:
24、制备所述plvap基因的蛋白晶体结构;
25、以ythdf1蛋白晶体结构为分子对接受体,通过libdock分子对接程序确定所述plvap基因的蛋白晶体结构与所述ythdf1蛋白晶体结构的最佳配体结合位点;
26、在预设数据库中筛选出plvap基因的小分子抑制剂;
27、通过libdock分子对接程序获取所述小分子抑制剂中评分最高的laminin分子;
28、基于所述最佳配体结合位点通过libdock分子对接程序对接所述laminin分子和所述ythdf1蛋白晶体结构,形成配体分子;
29、判断所述配体分子的增殖速率相比于正常的骨肉瘤细胞是否具有第一预设幅度的下降;
30、若是,则判断所述配体分子的凋亡速率相比于正常的骨肉瘤细胞是否具有第二预设幅度的提升;
31、若是,则将所述plvap基因判定为所述骨肉瘤基因。
32、作为本技术的进一步改进,通过所述lasso回归算法的glmnet包筛选所述第二差异表达基因集,获取所述第二差异表达基因集中表达水平上调的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物,包括:
33、将表达水平上调的幅度作为输入节点(xi,yi),通过式(1)定义所述诊断性生物标志物的代价函数:
34、
35、其中,l(yi,β0+βtxi)为观测第i个输入节点的负对数似然,为elastic-net正则化项,β为学习变量,w为权重系数,α=1为指定使用lasso回归;
36、根据式(2)定义所述代价函数的权重系数w:
37、
38、初始化所述权重系数至零向量;
39、依次将其中一个权重系数作为变量、其他权重系数定义为上一次计算产生的常量;
40、求解出当前条件下只有一个权重系数变量的情况下的最优解;
41、进行第一预设次数的迭代,求解出最后一次迭代的最优解并作为表达水平上调的幅度大于等于第一预设阈值;
42、获取表达水平上调的幅度大于等于预设阈值的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物。
43、作为本技术的进一步改进,通过所述svm-rfe算法对所述第二差异表达基因集进行训练,获取所述第二差异表达基因集中表达水平上调的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物的潜在生物标志物,包括:
44、根据将表达水平上调的幅度建立训练集其中,ai∈rd,bi∈{+1,-1},xi为所述训练集的第i个样本,n为所述训练集的样本量,d为所述训练集的样本特征数;
45、通过递归删除特征获取所述训练集的最佳特征子集;
46、通过支持向量机对所述最佳特征子集中的所有特征进行训练,并计算每个特征的重要性得分;
47、删除得分最低的特征,再次使用所述支持向量机进行训练,并迭代第二预设次数,以使所有特征的数量小于等于第二预设阈值;
48、获取与数量小于等于第二预设阈值的特征相匹配的表达水平上调的幅度作为最优幅度;
49、获取与所述最优幅度相匹配的生物标志物,并作为基于所述骨肉瘤与所述正常组织的诊断性生物标志物的潜在生物标志物。
50、为实现上述目的,本技术还提供了如下技术方案:
51、一种骨肉瘤基因的识别装置,所述骨肉瘤基因的识别装置应用于如上述的骨肉瘤基因的识别方法,所述骨肉瘤基因的识别装置包括:
52、limma差异表达基因集筛选模块,用于通过limma软件包筛选骨肉瘤与正常组织之间的第一差异表达基因集;
53、批次效应去除筛选模块,用于通过gse19276数据集与gse33383数据集对所述第一差异表达基因集进行批次效应去除,得到第二差异表达基因集;
54、潜在生物标志物筛选模块,用于通过lasso回归算法和svm-rfe算法分别对所述第二差异表达基因集进行筛选,得到第一潜在生物标志物和第二潜在生物标志物;
55、关键生物标志物获取模块,用于获取所述第一潜在生物标志物与所述第二潜在生物标志物相互重叠的部分作为关键生物标志物;
56、生物标志物获取模块,用于获取所述关键生物标志物中mmp13基因、plvap基因、spp1基因的表达水平上调的生物标志物;
57、plvap基因定义模块,用于获取所述mmp13基因、所述plvap基因、所述spp1基因中auc最高的plvap基因并定义为骨肉瘤基因。
58、为实现上述目的,本技术还提供了如下技术方案:
59、一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现如上述的骨肉瘤基因的识别方法。
60、为实现上述目的,本技术还提供了如下技术方案:
61、一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时能够实现如上述的骨肉瘤基因的识别方法。
62、本技术通过limma软件包筛选骨肉瘤与正常组织之间的第一差异表达基因集;通过gse19276数据集与gse33383数据集对第一差异表达基因集进行批次效应去除,得到第二差异表达基因集;通过lasso回归算法和svm-rfe算法分别对第二差异表达基因集进行筛选,得到第一潜在生物标志物和第二潜在生物标志物;获取第一潜在生物标志物与第二潜在生物标志物相互重叠的部分作为关键生物标志物;获取关键生物标志物中mmp13基因、plvap基因、spp1基因的表达水平上调的生物标志物;获取mmp13基因、plvap基因、spp1基因中auc最高的plvap基因并定义为骨肉瘤基因。本技术旨在基于生物信息学和机器学习来识别os的新型诊断基因,且本技术分析了两个geo数据集(gse19276和gse33383)以确定os和健康标本之间的degs,基于机器学习分析了degs在os中的诊断价值,最后,本技术针对筛选出的关键基因进行抑制并进行体外表型实验确认了参与os进展的新的关键基因。