本公开涉及生物计算,具体地,涉及一种基于动态规划和量子退火的rna结构预测方法及系统。
背景技术:
1、mrna序列设计在医学、生物技术及药物开发领域拥有着巨大的潜在价值。密码子的选择在mrna序列中起到至关重要的作用,它直接决定了mrna的翻译效率。常见的现象是,使用高丰度的常见密码子替代低丰度的稀有密码子可以显著增强mrna的稳定性和蛋白表达效率。再者,由于mrna药物是单链的核酸分子,它们容易受到核酸酶的降解影响,从而失去活性。因此,高效和准确的mrna设计方法是实现其在生物技术和医学应用的关键。
2、包括mrna在内的rna分子的三维折叠在很大程度上是由分子内碱基间氢键的模式决定的。从序列中预测碱基配对网络,也称为rna二级结构预测或rna折叠,是一个不确定性多项式时间(np)完全计算问题。
3、rna分子折叠成复杂的二级结构,这决定了它们的分子性质,如热稳定性和致密性。此外,rna折叠还影响rna在蛋白质翻译、转录调控和其他重要细胞过程中的功能。因此,rna二级结构的测定方法对于基础研究、应用生物技术和合理的药物发现具有重要的意义。为此目的开发的实验方法非常耗时和昂贵,因此在实践中的使用受到限制。
4、为了降低使用实验测定rna二级结构的高昂成本,科学家利用计算机算法来对rna二级结构进行预测。但是在相关技术中,对rna二级结构预测的预测结果的准确性欠佳,基于此,提出一种基于动态规划和量子退火的rna结构预测方法及系统。
技术实现思路
1、本公开的目的是提供一种基于动态规划和量子退火的rna结构预测方法及系统,以通过结合动态规划和量子退火的优势,提高对于rna二级结构预测的准确性。
2、为了实现上述目的,本公开实施例第一方面提供一种基于动态规划和量子退火的rna结构预测方法,应用于基于动态规划和量子退火的rna结构预测系统,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,所述方法包括:
3、获取目标氨基酸序列的单字母表示序列;
4、将所述单字母表示序列输入隐马尔可夫模块,得到对应于所述单字母表示序列的目标密码子组合;
5、设置初始为空的密码子组合集合,将所述目标密码子组合输入动态规划模块,以从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;
6、在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优rna二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至所述密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤;
7、在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优rna二级结构的完整密码子组合作为第一候选密码子组合;
8、确定所述目标密码子组合的哈密顿量,并将所述哈密顿量输入量子退火模块,基于所述量子退火模块的输出确定具有最优rna二级结构的第二候选密码子组合;
9、从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优rna二级结构的密码子组合。
10、可选地,所述优化器包括jtvae优化约束条件模块、热力学优化约束条件模块、cai值和mfe值优化约束条件模块,所述调用所述优化器对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至所述密码子组合集合,包括:
11、调用所述优化器的jtvae优化约束条件模块对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
12、调用所述优化器的热力学优化约束条件模块对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
13、调用所述优化器的cai值和mfe值优化约束条件模块对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
14、针对所述密码子组合初选片段中具有同一预定义rna子结构的密码子子结构,计算所述jtvae优化约束条件模块、所述热力学优化约束条件模块、所述cai值和mfe值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密码子组合集合。
15、可选地,所述预定义rna子结构包括发卡环、内环、多分支环以及碱基对。
16、可选地,所述调用所述优化器的jtvae优化约束条件模块对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分,包括:
17、调用所述优化器的jtvae优化约束条件模块以对所述密码子组合初选片段进行分割,得到多个具有预定义rna子结构的密码子子结构;
18、将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;
19、将所述树形结构表示数据输入编码器,得到所述树形结构表示数据对应的潜在表示向量;
20、基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;
21、将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。
22、可选地,所述调用所述优化器的cai值和mfe值优化约束条件模块对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分,包括:
23、计算所述密码子组合初选片段中具有预定义rna子结构的密码子子结构的cai值和mfe值;
24、基于所述cai值和mfe值计算所述密码子组合初选片段中具有预定义rna子结构的密码子子结构的打分分数。
25、可选地,所述确定所述目标密码子组合的哈密顿量,包括:
26、基于如下公式确定所述目标密码子组合的哈密顿量:
27、;
28、;
29、;
30、其中,h为所述目标密码子组合的哈密顿量,a、b、和均为可调参数,是第i个茎的碱基对长度,u是最长茎的长度,为对应第i个茎的发卡环惩罚项,和分别是对应于第i个茎和第j个茎的二进制变量,是对假结的惩罚函数,e是核苷酸的线性维度,是假结中单股核苷酸的数量,是长度为n的第k个内嵌茎的惩罚常数,是第i个茎和第j个茎的交叉惩罚函数。
31、本公开实施例第二方面,提供一种基于动态规划和量子退火的rna结构预测系统,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,其中:
32、所述隐马尔可夫模块用于对输入的目标氨基酸的单字母表示序列进行计算,得到对应于所述单字母表示序列的目标密码子组合;
33、所述动态规划模块用于在设置初始为空的密码子组合集合后,从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优rna二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优rna二级结构的完整密码子组合作为第一候选密码子组合;
34、所述量子退火模块用于在确定所述目标密码子组合的哈密顿量后,对输入的所述哈密顿量进行计算,基于所述量子退火模块的输出确定具有最优rna二级结构的第二候选密码子组合;以使得所述系统从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优rna二级结构的密码子组合。
35、可选地,所述优化器包括jtvae优化约束条件模块、热力学优化约束条件模块、cai值和mfe值优化约束条件模块,其中:
36、所述优化器的jtvae优化约束条件模块用于对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
37、所述优化器的热力学优化约束条件模块用于对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
38、所述优化器的cai值和mfe值优化约束条件模块用于对所述密码子组合初选片段中具有预定义rna子结构的密码子子结构进行打分;
39、所述优化器还用于针对所述密码子组合初选片段中具有同一预定义rna子结构的密码子子结构,计算所述jtvae优化约束条件模块、所述热力学优化约束条件模块、所述cai值和mfe值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密码子组合集合。
40、可选地,所述预定义rna子结构包括发卡环、内环、多分支环以及碱基对。
41、可选地,所述jtvae优化约束条件模块还用于:
42、对所述密码子组合初选片段进行分割,得到多个具有预定义rna子结构的密码子子结构;
43、将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;
44、将所述树形结构表示数据输入编码器,得到所述树形结构表示数据对应的潜在表示向量;
45、基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;
46、将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。
47、通过上述技术方案,利用包含隐马尔可夫模型的隐马尔可夫模块将目标氨基酸序列的单字母表示序列转化为对应的目标密码子组合,以得到目标氨基酸序列最可能的rna一级结构。然后分别利用动态规划和量子退火计算目标密码子组合的二级结构,一方面利用动态规划避免重复计算,基于递归提高计算效率和准确性,另一方面利用量子退火克服解非全局最优的问题,将两者的优点结合,以找到具有最优rna二级结构的密码子组合,提高计算的准确性。
48、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。