本发明属于生物技术和医学领域,涉及一种基于机器学习结合血液转录组学的诊断trd患者的方法,更具体涉及一种利用血液基因表达组合的trd诊断方法。
背景技术:
1、治疗难治性抑郁症(trd)在其研究和治疗方面都表现出极大的复杂性。其定义本身就有150种不同的表述尝试。由于缺乏具有预测性价值的诊断和治疗方法,美国食品药品监督管理局(fda)和欧洲药品管理局(ema)提出的标准——即对两种或以上的抗抑郁药物在适当剂量和持续时间以及治疗依从性下没有反应仍然具有参考地位。无可争议的是,trd是一个具有高度社会相关性的主题,因为估计有30-55%的抑郁症患者不能完全缓解,并且存在较高的自杀风险。
2、rna-seq全称为rna测序(rna sequencing),是一种高通量的基因表达分析技术,它允许研究人员在分子水平上对细胞内的rna分子进行全面的定量分析。rna-seq技术可以揭示特定生物学状态下的转录组特征,包括基因表达水平、转录本异构体、可变剪接事件、以及非编码rna的表达等。其可应用在多种领域当中,如:疾病机理研究:通过比较健康和疾病状态下的基因表达差异,揭示疾病发生的分子机制;药物研发:识别药物作用的分子靶点,以及评估药物对基因表达的影响;个性化医疗:分析个体的转录组数据,为个性化治疗方案提供依据;细胞异质性研究:单细胞rna-seq技术可以揭示细胞群体内部的异质性,识别不同的细胞亚群等。
3、机器学习是指计算机通过大量数据训练和分析来模拟人类的学习行为从而获得新的知识和技能,其已经成功应用于计算机视觉、语音和手写识别以及无人驾驶众多领域。随着计算机的发展机器学习算法能够处理和分析大量的医疗数据,包括电子健康记录、医学影像、基因组数据等,以识别疾病的模式和预测疾病的发展,这使得机器学习在疾病预测方面的发展正迅速推进,有望在未来进一步提高疾病的预防、诊断和治疗效率。
4、由于难治性抑郁症诊断方式有多种不同的方式,虽然现在普遍以对两种或以上的抗抑郁药物在适当剂量和持续时间以及治疗依从性下没有反应作为标准参考,但这依然需要消耗大量时间和精力,因此亟待一种快速地、准确地判断trd患者的方法。
技术实现思路
1、本发明提供了一种利用血液基因表达组合的trd诊断方法。具体来说,本发明旨在通过结合rna-seq技术和机器学习算法,构建一种能快速、准确判断trd患者的诊断方法。
2、本发明的技术方案包括以下步骤:
3、一种利用血液基因表达组合来诊断难治性抑郁症的方法,包括:
4、获取待测患者的血液差异基因表达矩阵;其中血液差异基因是基于trd患者和正常人的血液转录组筛选获得的差异基因并进一步基于机器模型计算权重筛选得到的权重大于trd重要的炎症因子权重的差异基因;trd重要的炎症因子为il-6、il-1β和tnf-α中的一种或多种;
5、将所述血液差异基因表达矩阵输入至一训练好的机器分类模型,根据分类模型输出的诊断结果诊断待测患者是否患难治性抑郁症;
6、所述训练好的机器分类模型是基于训练数据集,以血液差异基因表达矩阵为输入,以预测的诊断结果为输出,通过最小化分类模型的输出与trd标签的误差为目标进行训练获得。
7、进一步地,所述基于trd患者和正常人的血液转录组筛选获得的差异基因,通过如下方法筛选获得:
8、收集trd和正常人的血液转录组数据;
9、以trd为实验组,正常人为对照组进行差异基因分析,筛选获得第一组基因即为差异基因。
10、进一步地,筛选的阈值为p-value≤0.05,|log2fc|≥log2(1.2)。
11、进一步地,还包括在筛选获得第一组基因进一步作kegg和go-bp富集分析,筛选获得第二组基因即为差异基因。
12、进一步地,所述机器模型为随机森林或支持向量机;其中,在支持向量机中以筛选获得的第一组基因或第二组基因构成的血液差异基因表达矩阵为输入进行训练,利用模型特征系数获取每个基因特征对应的权重;在随机森林中以筛选获得的第一组基因或第二组基因构成的血液差异基因表达矩阵为输入进行训练,使用特征重要性获取每个基因特征对应的权重。
13、进一步地,所述训练数据集的每一样本包括一血液差异基因表达矩阵及对应的trd标签。
14、进一步地,所述机器分类模型包括基于支持向量机构建的分类模型、基于随机森林构建的分类模型和/或一维卷积神经网络。
15、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种利用血液基因表达组合来诊断难治性抑郁症的方法。
16、一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现所述的一种利用血液基因表达组合来诊断难治性抑郁症的方法。
17、一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述一种利用血液基因表达组合来诊断难治性抑郁症的方法的步骤。
18、本发明提供了一种成本低、效率高、准确性高的trd诊断方法,该方法能够有效利用血液基因表达数据,为大量患者的诊断提供了便利,具有广阔的应用前景。
1.一种利用血液基因表达组合来诊断难治性抑郁症的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于trd患者和正常人的血液转录组筛选获得的差异基因,通过如下方法筛选获得:
3.根据权利要求2所述的方法,其特征在于,筛选的阈值为p-value≤0.05,|log2fc|≥log2(1.2)。
4.根据权利要求2所述的方法,其特征在于,还包括在筛选获得第一组基因进一步作kegg和go-bp富集分析,筛选获得第二组基因即为差异基因。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述机器模型为随机森林或支持向量机;其中,在支持向量机中以筛选获得的第一组基因或第二组基因构成的血液差异基因表达矩阵为输入进行训练,利用模型特征系数获取每个基因特征对应的权重;在随机森林中以筛选获得的第一组基因或第二组基因构成的血液差异基因表达矩阵为输入进行训练,使用特征重要性获取每个基因特征对应的权重。
6.根据权利要求1所述的方法,其特征在于,所述训练数据集的每一样本包括一血液差异基因表达矩阵及对应的trd标签。
7.根据权利要求1所述的方法,其特征在于,所述机器分类模型包括基于支持向量机构建的分类模型、基于随机森林构建的分类模型和/或一维卷积神经网络。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的一种利用血液基因表达组合来诊断难治性抑郁症的方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7任一项所述的一种利用血液基因表达组合来诊断难治性抑郁症的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7任一项所述一种利用血液基因表达组合来诊断难治性抑郁症的方法的步骤。