本发明涉及新冠病毒进化预测分析,尤其涉及一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法。
背景技术:
1、sars-cov-2的进化研究主要可以划分为基于生物实验数据研究与基于计算生物学的方法研究。前者主要以研究生物实验数据为主,深入探索病毒的生物特性、扩散方式及其对宿主细胞的作用。而后者则借助于神经网络、机器学习等现代技术手段,预测病毒的变异动向、扩散路径、抗药能力,并迅速鉴定新的病毒亚型。这种方法为我们预测病毒在多样人群中的传播模式提供了依据,并揭示了病毒如何规避免疫反应和药物治疗。
2、基于生物实验数据的研究有助于科学家深入解析和理解生物过程,例如新冠病毒的进化机制和未来变异趋势。然而,这些实验需要消耗大量资源且十分耗时,并且不能扩展到大的病毒抗原蛋白序列空间中。因此,基于机器学习的方法被广泛应用于预测和分析sars-cov-2的进化和变异趋势。这些方法可以模拟病毒与宿主的相互作用、预测关键突变位点对传播性的影响、评估不同变异对亲和力和免疫逃逸的影响、捕捉不同地区病毒进化动力学、预测高风险变异株等。一些新方法还可以模拟病毒装配过程和可能的突变组合,有望成为预测未来变异株的重要工具。
3、然而,在当前基于机器学习的新冠病毒进化预测方法中存在一些不足之处。其中一个显著问题是对新冠病毒进化序列的筛选主要采用传统的遗传算法。这可能导致在搜索病毒变异空间时受到限制,因为传统遗传算法在复杂的高维空间中可能无法高效地找到最优解。这种限制可能妨碍了对更广泛、更复杂的病毒变异模式的准确探测。而现有深度学习模型在面对病毒的长序列时也存在一些挑战,影响其序列建模的能力。如处理长序列需要更多的计算资源,包括更大的模型和更多的训练时间,且预测精度并不能得到保证。这可能限制了在大规模数据上训练深度学习模型的可行性。此外,序列包含丰富的信息涉及到长期记忆和复杂的序列结构,一些传统的深度学习模型可能难以有效地捕捉这种长期依赖和复杂性。
技术实现思路
1、针对现有技术中所存在的不足,本发明提供了一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,能够准确地描绘出sars-cov-2的进化图谱,增强对sars-cov-2进化动态的认识。
2、本发明的上述技术目的是通过以下技术方案得以实现的:
3、一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,包括以下步骤:
4、s1,数据收集与处理:将获得的刺突蛋白信息分类整理成序列部分与非序列部分;
5、s2,序列的适应度计算;
6、s3,利用序列和适应度训练自博弈序列优化模型,同时使用相同的序列训练刺突蛋白序列建模模型;
7、s4,用训练好的刺突蛋白序列建模模型对优化后的序列进行分析并进行可视化展示验证;
8、s5,对步骤s1中收集的非序列部分信息进行分析并进行可视化展示验证。
9、进一步地,在步骤s2中,蛋白质适应度由三个属性组成,包括蛋白质稳定性、与ace2的结合能力、与抗体的结合能力。
10、进一步地,使用折叠自由能δg来衡量蛋白质稳定性,在蛋白质序列中,每一个位点突变都会带来折叠自由能的变化δδg,设野生序列的每一个位点的折叠自由能都为0,则野生型序列的折叠自由能为0,长度为l的氨基酸序列中第i个位置突变后折叠自由能的变化为δδgi,则整条氨基酸序列的折叠自由能变化为:
11、
12、当时,蛋白质序列向着稳定性发展,当时,蛋白质序列向着不稳定性发展。
13、进一步地,设野生序列与ace2结合的能力为0,长度为l的氨基酸序列中第i个位置突变后所产生的结合能力的变化为则整条氨基酸序列与ace2的结合能力为:
14、
15、当时,蛋白质序列与ace2结合能力增强,当时,蛋白质序列与ace2结合能力减弱。
16、进一步地,设野生序列与所有抗体结合的能力为0,长度为l的氨基酸序列中第i个位置突变后与第j个抗体的结合能力为将每个位点抗体变化的平均值作为每个位点的抗体结合能力变化值,其中:
17、
18、为整条序列与抗体结合能力的变化。当时,蛋白质序列与抗体的结合能力变强,当时,蛋白质序列与抗体的结合能力变弱。
19、综上,与蛋白质序列的适应度呈正相关,与蛋白质序列的适应度呈负相关,故计算刺突蛋白氨基酸序列的适应度的方法是之和与之差,由于在接下来的序列优化过程中适应度的值只做排名高低的相对参考,且本申请中将三个属性视作同等重要的程度,即三个属性的权重为都为1。
20、刺突蛋白氨基酸序列的适应度
21、进一步地,在步骤s3中,序列优化包括自博弈学习阶段、训练神经网络阶段和评估网络阶段。
22、进一步地,在步骤s3中,刺突蛋白序列建模模型包括基于预训练的esm2蛋白质语言模型和基于retention机制的retnet网络架构。
23、本发明具有的有益效果如下:
24、1.本申请提出了一个结合模型分析和数据分析的sars-cov-2进化预测分析方法。在模型分析中,用强化学习自博弈的方式搜索可能的病毒蛋白优化方向,解决了蛋白质在巨大突变空间中寻找有效进化途径的难题。
25、2.训练基于esm2与retnet的先进蛋白质语言模型,其效果优于现有的模型,用该模型分析优化后获得的序列,实现对病毒进化规律的深入解析。
26、3.通过一系列下游分析实验,本申请的方法准确的预测了病毒的进化方向,并成功鉴别出了可能增强病毒适应性和免疫逃逸能力的关键突变位点。除了验证已知的突变,本申请的方法还能够提前预测未出现的潜在突变,这对于早期预警和制定公共卫生策略至关重要。通过对当前流行的病毒谱系进行监测和分析,能够预测未来可能出现的变异趋势,为疫苗更新和抗病毒药物的研发提供了宝贵的时间窗口。此外,通过数据分析探索了影响病毒进化的多维信息,包括病毒传播数量、地理分布、不同谱系的演化轨迹等,能提供宏观视角下病毒演化规律的全景图。
1.一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:包括以下步骤:
2.如权利要求1所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:在步骤s2中,蛋白质适应度由三个属性组成,包括蛋白质稳定性、与ace2的结合能力、与抗体的结合能力。
3.如权利要求2所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:使用折叠自由能δg来衡量蛋白质稳定性,在蛋白质序列中,每一个位点突变都会带来折叠自由能的变化δδg,设野生序列的每一个位点的折叠自由能都为0,则野生型序列的折叠自由能为0,长度为l的氨基酸序列中第i个位置突变后折叠自由能的变化为δδgi,则整条氨基酸序列的折叠自由能变化为:
4.如权利要求3所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:设野生序列与ace2结合的能力为0,长度为l的氨基酸序列中第i个位置突变后所产生的结合能力的变化为则整条氨基酸序列与ace2的结合能力为:
5.如权利要求4所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:设野生序列与所有抗体结合的能力为0,长度为l的氨基酸序列中第i个位置突变后与第j个抗体的结合能力为将每个位点抗体变化的平均值作为每个位点的抗体结合能力变化值,其中:
6.如权利要求1所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:在步骤s3中,序列优化包括自博弈学习阶段、训练神经网络阶段和评估网络阶段。
7.如权利要求1所述的一种基于自博弈序列优化和retnet的新冠病毒抗原变异与进化分析方法,其特征在于:在步骤s3中,刺突蛋白序列建模模型包括基于预训练的esm2蛋白质语言模型和基于retention机制的retnet网络架构。