一种心衰风险预测和神经网络模型的构建方法

文档序号:34654652发布日期:2023-06-29 22:56阅读:207来源:国知局
一种心衰风险预测和神经网络模型的构建方法

本发明属于生物技术,具体的说是一种心衰风险预测和神经网络模型的构建方法。


背景技术:

1、心力衰竭(hf)是一种复杂的临床综合征,其特征是心脏无法泵出足够的血液和氧气来满足其他器官代谢过程的需求;全球大约有6430万人患有心力衰竭,随着人口年龄的增长,心力衰竭的发生率也在增加;心衰的预后已大大改善,因为初步临床试验表明,心衰患者可以显著改变其暗淡的预后,然而,即便如此,hf患者的预后和生活质量仍然很差,在年龄和危险因素调整的模型中,hf事件使死亡风险增加了5倍,尽管遵循指南可以显著改善hf患者的预后,但5年死亡率仍然高达75%,因此,研究hf发展的确切分子机制对加强疾病的治疗至关重要。

2、衰老是一个与时间相关的过程,与许多生理系统的逐渐衰退有关是心血管疾病的一个关键危险因素,心血管疾病占全球死亡率的30%以上,在衰老过程中,所有组织的细胞过程逐渐恶化,主要涉及过度氧化应激、慢性低度炎症、细胞衰老、基因组不稳定性、端粒磨损以及线粒体代谢功能障碍等。此外,衰老的心脏表现出逐渐的形态和功能改变,如左心室肥厚,这与延迟的心室舒张有关,以及舒张期细胞内钙动力学的改变;虽然衰老本身不会导致心衰,但它确实降低了这种疾病的表现阈值。科学家们观察到,与年龄相关的退化(生物衰老)的速度在物种、个体和器官之间存在显著差异,这导致了一种新的认识,即生物衰老是可变的,可能很容易被操纵。因此,揭示心脏衰老的潜在生物学特征可能会导致发现与年龄相关的心血管疾病的新治疗靶点,值得注意的是,衰老相关基因(args)在调节细胞衰老方面具有至关重要的功能,也可能影响心力衰竭的进展,并成为心力衰竭的新治疗靶点,最近,args作为动脉粥样硬化的诊断或预后生物标志物引起了研究人员的注意然而,args在心衰中的预后作用及其生物学功能尚不清楚。

3、在本研究中,我们旨在基于生物信息学和机器学习寻找hf中衰老相关的特征基因,利用筛选到的关键args构建hf的风险预测模型和遗传诊断模型,为临床诊治和疾病预防提供帮助,为此,本发明提供一种心衰风险预测和神经网络模型的构建方法。


技术实现思路

1、为了弥补现有技术的不足,基于生物信息学和机器学习寻找hf中衰老相关的特征基因,利用筛选到的关键args构建hf的风险预测模型和遗传诊断模型,为临床诊治和疾病预防提供帮助,本发明提出的一种心衰风险预测和神经网络模型的构建方法。

2、本发明解决其技术问题所采用的技术方案是:本发明所述的一种心衰风险预测和神经网络模型的构建方法,该构建方法如下所示:

3、s1:dcm数据集的预处理;

4、s2:功能富集分析;

5、s3:关键衰老相关基因(args)的筛选;

6、s4:风险预测模型与人工神经网络模型的构建;

7、s5:心力衰竭患者免疫浸润的评价;

8、s6:统计学分析。

9、优选的,所述s1中dcm数据集的预处理的方法如下所示:

10、a1:从基因表达综合(geo)数据库中下载hf数据集(gse57338andgse116250),该数据集包括177名心力衰竭患者和136名正常人;

11、a2:使用r包和perl编程对原始数据集进行预处理,包括后台校准和归一化,同时从人类衰老基因组资源中获得307个人类衰老相关基因;

12、a3:使用“limma”包对这些基因进行了差异表达分析,并鉴定出10个差异表达的args(de-args),de-args的筛选条件使用调整后的p值<0.05and|log2foldchange(fc)|≥0.5,其中gse116250作为后续模型验证的试验组。

13、优选的,所述s2中功能富集分析的方法的如下所示:

14、b1:通过“clusterprofiler”r包完成基因本体(go)和京都基因与基因组百科全书(kegg)通路,分析de-args富集的功能通路;

15、b2:通过r中的“clusterprofiler”包和“dose”包对de-args进行疾病本体(do)富集分析,经校正p值<0.05;

16、b3:从msigdb数据库(version7.5.1)获得“c2.cp.kegg.v7.5.1.symbols”和“c5.go.v7.5.1.symbols”文件用于gsea分析(26),分别在心衰患者和正常人中显示了前5个活跃通路。

17、优选的,所述s3中关键衰老相关基因(args)的筛选的方法如下所示:

18、c1:采用最小绝对收缩和选择算子(lasso)、支持向量机-递归特征消除(svm-rfe)和随机森林(rf)三种机器学习方法从de–args中筛选关键args;

19、c2:lasso是一种利用正则化来提高预测精度的回归分析算法,使用r中的“glmnet”包完成lasso回归算法,以降低数据的维数,识别hf相关的遗传生物标记物;

20、c3:采用“kernlab”包构建svm-rfe模型,通过10倍交叉验证的平均误差进行比较,选取最小误差点对应的基因作为疾病特征基因;

21、c4:采用“randomforest”包生成de-args的随机森林模型,采用精度递减法(基尼系数法)估计rf模型变量的重要性;

22、c5:选择重要性评分超过10的基因进行进一步研究,将三种机器学习方法筛选的基因进行交集,得到关键args。

23、优选的,所述s4中风险预测模型与人工神经网络模型的构建的方法如下所示:

24、d1:基于筛选出的关键args,我们进行了多因素逻辑回归分析,并使用“rms”包构建了风险预测模型,同时制定了一个列线图来表示每个个体的风险评分;

25、d2:使用roc和校准曲线分析评估模型的敏感性和特异性:使用“neuralnet”r包构建了5个关键args的人工神经网络模型,利用四个隐层作为模型参数,利用基因权重信息建立了心力衰竭疾病的分类模型,在该模型中,疾病分类评分为权重评分乘以相关基因表达水平的乘积之和,绘制roc曲线以评估该模型的准确性和敏感性;

26、d3:使用另一个数据集(gse116250)作为测试组,对上述两个模型进行验证,并分别绘制两个模型的roc曲线。

27、优选的,所述s5中心力衰竭患者免疫浸润的评价的方法如下所示:

28、e1:使用ssgsea方法评估了心衰患者和健康样本之间浸润的免疫细胞的相对丰度;

29、e2:使用“corrplot”r包完成了免疫细胞之间的相关性测试,并绘制了免疫细胞相关性热图,不同免疫细胞类型之间的相关性通过斯皮尔曼方法进行测试,并以热图形式呈现;

30、e3:心衰患者与正常样本免疫细胞差异分析结果采用秩和检验进行分析,并以小提琴图形式呈现;

31、e4:使用斯皮尔曼方法计算了5个关键args与免疫细胞之间的相关性,基于基因与免疫细胞的相关性结果,绘制了棒棒糖图来突出与免疫细胞相关性最高的基因。

32、优选的,所述s5中统计学分析:采用斯皮尔曼方法检测免疫细胞之间以及免疫细胞与关键args之间的相关性,采用秩和检验检测正常和hf样品的免疫细胞差异,统计分析采用r程序(版本4.1.1),p<0.05为差异有统计学意义。

33、本发明的有益效果如下:

34、1.本发明所述的一种心衰风险预测和神经网络模型的构建方法,旨在基于生物信息学和机器学习寻找hf中衰老相关的特征基因,利用筛选到的关键args构建hf的风险预测模型和遗传诊断模型,为临床诊治和疾病预防提供帮助。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1