基于XGBOOST算法的高效siRNA有效性预测方法及系统

文档序号:40805507发布日期:2025-01-29 02:11阅读:12来源:国知局
基于XGBOOST算法的高效siRNA有效性预测方法及系统

本技术涉及生物信息学和药物开发领域,特别涉及一种基于机器学习的小干扰rna(sirna)有效性预测技术。


背景技术:

1、小核酸药物,尤其是小干扰rna(sirna)药物,近年来在医药领域备受关注。sirna通过rna干扰(rnai)机制,能够特异性地沉默目标基因,从而实现疾病治疗。自2018年第一款sirna药物获批上市以来,截至2023年,美国fda已批准6款小核酸药物,显示出这一领域的巨大潜力和快速发展趋势。

2、然而,sirna药物的开发过程中仍面临诸多挑战,其中最关键的瓶颈之一是如何快速、准确地识别和筛选高效的s irna序列。传统的实验方法耗时长、成本高,难以满足快速药物开发的需求。因此,研究人员开始转向计算机辅助的预测方法。

3、目前,sirna有效性预测方法主要分为三类:基于规则的经验方法、传统机器学习算法和深度学习方法。这些方法在实践中暴露出一系列问题:

4、预测精度不足:现有的机器学习预测方法,如随机森林(rf)和支持向量机(svm),在处理复杂的s irna生物数据时,预测精度有限。它们往往无法充分捕捉s irna序列与其有效性之间的复杂关系,导致预测结果不够准确。

5、化学修饰影响未被充分考虑:sirna的化学修饰对其有效性有显著影响,但传统预测方法往往忽视这一因素。随着新型化学修饰不断涌现,如何将这些信息整合到预测模型中成为一个亟待解决的问题。

6、数据不平衡问题:在sirna研究中,有效序列往往是少数,导致训练数据集严重不平衡。现有方法在处理这种不平衡数据时表现欠佳,特别是在预测少数类(即高效sirna)时准确率较低。

7、模型缺乏解释性:虽然某些机器学习模型在预测性能方面表现不错,但其复杂性往往导致"黑盒"效应,难以解释预测结果背后的生物学意义。这限制了研究人员对sirna作用机制的深入理解。

8、计算效率低下:随着s irna数据规模的不断扩大,现有预测方法的计算效率难以满足高通量筛选的需求。这导致新药研发周期延长,增加了研发成本。

9、难以适应新型化学修饰:制药公司不断开发新的sirna化学修饰专利,但现有预测模型难以快速适应这些新型修饰,影响了从专利到实际应用的转化效率。

10、个性化治疗需求难以满足:随着精准医疗的发展,如何设计针对特定患者或亚群的sirna药物成为新的挑战。现有方法难以提供足够精确的个性化s irna设计指导。

11、这些技术问题严重制约了sirna药物的开发效率和成功率。因此,亟需一种新的sirna有效性预测方法,能够全面解决上述问题,提高预测精度,考虑化学修饰影响,处理数据不平衡,提供可解释的结果,提高计算效率,并能快速适应新型化学修饰和个性化治疗需求。这不仅将大大加速sirna药物的研发进程,还将为新一代rna干扰疗法的发展提供强有力的技术支持。


技术实现思路

1、本技术的目的在于提供一种基于xgboost算法的高效sirna有效性预测方法及系统,以解决上述背景技术中提出的问题。

2、本技术公开了一种基于xgboost算法的高效sirna有效性预测方法,包括以下步骤:

3、步骤a:获取包含s irna序列信息、化学修饰信息及其对应有效性数据的训练数据集;对所述训练数据集进行预处理,包括数据清洗、特征提取和数据平衡处理,得到平衡后的训练数据;

4、步骤b:基于平衡后的训练数据,使用xgboost算法训练sirna有效性预测模型,并优化算法超参数;对训练得到的预测模型进行多指标性能评估和优化,得到优化后的预测模型;

5、步骤c:将新的sirna序列及其化学修饰信息输入优化后的预测模型,进行有效性预测,得到预测结果;对预测结果进行可解释性分析,生成具有生物学意义的解释报告;

6、步骤d:通过体外细胞实验验证预测的高效sirna序列的实际干扰效率;基于所述解释结果和实验验证结果,对预测模型进行进一步优化和迭代,包括更新特征提取方法和训练数据集;

7、步骤e:重复步骤b至步骤d,直到模型性能达到预定标准,得到最终的sirna有效性预测模型。

8、在一个优选例中,所述步骤a中的预处理具体包括:对数据进行清洗和标准化处理;提取sirna序列特征和化学修饰特征,生成特征矩阵;使用数据平衡技术处理特征矩阵中的数据不平衡问题。

9、在一个优选例中,所述数据平衡技术包括过采样、欠采样或生成对抗网络gans中的一种或多种。

10、在一个优选例中,所述步骤b中使用的xgboost算法采用并行计算技术以提高计算效率。

11、在一个优选例中,所述步骤b中优化xgboost算法超参数的方法包括网格搜索、随机搜索或贝叶斯优化中的一种或多种,所述超参数包括学习率、最大树深度和正则化参数。

12、在一个优选例中,所述步骤b中的多指标性能评估采用交叉验证方法,评估指标包括准确率、精确率、召回率、f1分数和roc-auc中的两种或多种。

13、在一个优选例中,所述步骤c中的可解释性分析采用shap值分析技术。

14、在一个优选例中,所述步骤d中的优化和迭代包括调整特征提取方法、更新训练数据集和重新优化超参数。

15、在一个优选例中,所述步骤d中的体外细胞实验验证包括s irna的化学合成、转染条件优化和rna干扰效率评估。

16、在一个优选例中,所述特征提取步骤包括提取sirna序列的核苷酸组成、热力学特性以及化学修饰的类型、位置和数量等信息。

17、在一个优选例中,所述shap值分析技术用于识别对s irna有效性预测最具影响力的特征,并将这些特征与已知的sirna设计规则进行比较,从而提供生物学上可解释的预测依据。

18、本技术还公开了一种基于xgboost算法的高效sirna有效性预测装置,包括:

19、数据获取与预处理模块:用于获取包含s irna序列信息、化学修饰信息及其对应有效性数据的训练数据集,并对所述训练数据集进行预处理,包括数据清洗、特征提取和数据平衡处理,得到平衡后的训练数据;

20、模型训练与优化模块:用于基于平衡后的训练数据,使用xgboost算法训练s irna有效性预测模型,并优化算法超参数;对训练得到的预测模型进行多指标性能评估和优化,得到优化后的预测模型;

21、预测与解释模块:用于将新的s irna序列及其化学修饰信息输入优化后的预测模型,进行有效性预测,得到预测结果,并对预测结果进行可解释性分析,生成具有生物学意义的解释报告;

22、实验验证与模型优化模块:用于通过体外细胞实验验证预测的高效sirna序列的实际干扰效率,并基于所述解释结果和实验验证结果,对预测模型进行进一步优化和迭代,包括更新特征提取方法和训练数据集;

23、循环执行模块:用于控制模型训练与优化模块、预测与解释模块、实验验证与模型优化模块重复执行,直到模型性能达到预定标准,得到最终的sirna有效性预测模型。

24、本技术实施方式与现有技术相比,具有以下技术效果:

25、首先,通过引入xgboost算法,利用其梯度提升技术更准确地捕捉sirna序列与其有效性之间的复杂关系。相较于传统的随机森林(rf)和支持向量机(svm)算法,本技术的预测模型在处理复杂生物数据时显著提高了预测结果的准确性和鲁棒性。

26、进一步的,全面考虑化学修饰影响。传统的sirna预测方法往往忽略化学修饰对其有效性的影响。本技术通过集成多种化学修饰的sirna数据,全面考虑化学修饰对sirna有效性的影响,提高了预测模型对不同修饰类型sirna的适用性和可靠性。

27、进一步的,解决数据不平衡问题。现有方法在处理不平衡数据时预测效果较差,尤其在少数类数据上的预测准确性低。本技术采用过采样(random oversampling)、欠采样(undersampling)和生成对抗网络(gans)等先进的数据平衡技术,显著提升了模型在不平衡数据集上的泛化能力。

28、进一步的,增强模型解释性。尽管某些机器学习模型在预测性能方面具有优势,但其复杂性可能导致模型缺乏解释性。本技术通过引入shap值(shapley additiveexplanations)等解释性分析技术,对s irna预测模型的结果进行生物学解释,帮助研究人员理解预测结果背后的机制,增强了模型的可解释性和应用价值。

29、进一步的,提高计算效率。现有预测方法的计算效率较低,难以快速处理大规模sirna数据。本技术通过采用xgboost算法和并行计算技术,显著提升了计算速度和效率,能够满足高通量sirna筛选的需求,大幅缩短了研发周期,降低了研发成本。

30、综上所述,本技术通过引入先进的xgboost算法和综合处理多种化学修饰数据,解决了现有技术在s irna有效性预测方面的精度、可靠性、数据不平衡、解释性和计算效率等问题,提供了一种高效、准确且可解释的sirna设计与预测新平台,具有显著的技术优势和应用前景。

31、本技术的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本技术所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本技术上述
技术实现要素:
中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征a+b+c,在另一个例子中公开了特征a+b+d+e,而特征c和d是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征e技术上可以与特征c相组合,则,a+b+c+d的方案因技术不可行而应当不被视为已经记载,而a+b+c+e的方案应当视为已经被记载。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1