对带假结的rna二级结构预测进行硬件加速的方法
【技术领域】
[0001] 本发明设及一种对基于四维动态规划方法的带假结的RNA二级结构预测进行加 速的方法,目的是加快带假结的RNA二级结构预测的速度。
【背景技术】
[0002] RNA二级结构是识别ncRNA的重要依据,是研究RNA功能的基础和前提。实验手 段是获取RNA二级结构的最可靠方法,目前主要的RNA结构测定方法有X射线衍射和核磁 共振,虽然采用实验方法获取的结果精确可靠但是其过程非常耗时,并且代价高昂,因此研 究RNA结构预测计算方法就显得特别重要,近年来采用计算机和数学模型预测RNA序列二 级结构的方法被广泛采用,成为RNA研究领域的热点问题。RNA二级结构预测方法一般包含 W下S个部分:
[0003] ( 一)几何表不方法
[0004] 由于构成配对的碱基对RNA二级结构的稳定性起促进作用,而由未配对碱基构成 的各种环都是破坏RNA结构稳定性的,所W RNA二级结构预测的核屯、是寻找序列中的配对 碱基,通常采用插入"?"的嵌套括号图表示碱基配对情况, 其中左括号"("、右括号和"?"都对应序列中的碱基,配对的左右括号表示对应位置上 的碱基构成互补配对,而"?"表示序列中对应位置的碱基构成环结构。图1为RNA序列二 级结构示意图。
[000引(二)打分函数
[0006] 通过试验测定和对已知结构RNA序列的统计分析,对相邻碱基对和碱基对与独立 碱基之间相互作用因素实现参数化,并采用打分函数为各种可能的RNA二级结构进行打 分,从而评价预测结果的好坏。
[0007] ( S )捜索策略
[000引 RNA二级结构预测不是一个对各种可能的结构进行穷举的过程,需要选择一个优 化方法对结构空间进行快速捜索,迅速找到与某一全局极大(小)值相对应的二级结构。
[0009] 定义1 ;假设R为长度为n的RNA序列,R = Wsrs. . . r。,(i ? _]')表示RNA序列R 中的碱基ri和rj构成互补配对,i,j,k,1分别表示碱基ri、rj、rk、;rl在RNA序列中的序 号,且1《i《j《n,1《k《1《n,则RNA二级结构预测问题实际上是寻找当打分函数 y = f (g(Xi), g(X2), . . .,g(Xi))取全局极大(小)值情况下,序列R中碱基对的集合S,其 中f为组合函数,Xi表示子序列r江2. . . r。(1《i《n)。
[0010] 目前存在两类主要的RNA二级结构预测方法;第一种方法是从头预测法,该方法 W单条RNA序列作为输入。Nussinov算法是最早提出的基于单序列的RNA结构预测算法, 该算法通过寻找具有最大碱基配对个数的结构来实现结构预测,因此也称为最大碱基配对 算法。由于该方法仅考虑了配对碱基对RNA二级结构稳定性所起的作用,算法的预测精度 较差。
[0011] 由于碱基配对可W是RNA分子的能量降低,结构趋于稳定,因此最小自由能算法 (Minimum化ee Energy,简称MFE)认为在一定的温度下,RNA分子通过构象调整达成某种 热力学平衡,使自由能最小,从而形成最稳定的状态,此时的二级结构即被认为是RNA的真 实二级结构。最小自由能算法由M. Z址er于1981年提出,又被称为Zuker算法。该算法的 计算对象不是简单的碱基配对数量,而是子序列的自由能。算法基本思想基于RNA二级结 构中各种子结构的自由能具有独立性和可加性假设,采用试验方法测定的各种子结构自由 能参数表,将序列所有可能形成的子结构的自由能相加,整条RNA序列的最小自由能等于 所有可能的子结构能量之和的最小值。Zuker算法是目前最好的针对单条RNA序列的结构 预测算法,尤其是针对小分子RNA的结构预测取得了很好的预测结果,该方法的缺点是不 支持包含假结的RNA二级结构的预测。
[0012] 基于随机上下文无关文法(SCFG)模型的预测方法也是针对单条RNA序列 的典型结构预测方法,是目前最适于描述和建模RNA二级结构的全概率模型,在RNA 二级结构预测研究领域占有重要地位。目前基于SCFG理论模型的标准比对算法为 Coche-Younger-Kasami,简称CYK算法[1引[19]。CYK算法用于实现单条序列与单个RNA 家族的共变模型(covariance model,简称CM模型)进行比对,从而判断该RNA序列是否属 于该家族并且进一步地得到该序列的二级结构。CYK算法虽然W单序列作为输入,但家族的 共变模型的建立需要大量的RNA序列来进行参数估计。
[0013] W上方法都属于单序列从头预测方法,随着基因组测序技术的发展,已知的RNA 序列也越来越多,该使得利用比较基因组方法预测RNA二级结构成为可能。该类方法W多 条同源RNA序列或由它们构成的比对作为输入,其理论基础是生物序列的结构保守性大于 序列保守性。同源比较方法基于多序列比对,首先利用多序列比对工具如ClustalW程序构 造RNA多序列比对,然后通过突变检测获取该组序列的保守结构。同源预测法的典型代表 是RNAalifold,该算法是M阳方法在RNA多序列比对中的扩展,它在计算该组序列平均最小 自由能的同时考虑了协变信息(covariance in化rmation),通过能量计算和协变分值计算 相结合的方法预测该组同源序列的公共二级结构。
[0014] 上述算法无论是基于单序列的还是基于多序列同源比对的都限制了碱基对 (i ? j)和化? 1)相互间的位置关系,即满足i<k<j<l或者k<i<l<j,而没有考虑碱基构成 的交错结构,因此都不能够预测假结。而假结对病毒基因组的复制和蛋白质合成调控起到 非常重要的作用巧4],是RNAS级结构的重要构成要素,因此对假结的预测成为目前RNA二 级结构预测领域的热点问题。由于基于M阳模型的带假结的RNA二级结构预测已被证明是 NP-完全问题。为了提高算法的实用性,研究者根据实验观测数据加强假结预测的约束条 件,降低了算法复杂度,使得通过计算方法预测假结成为可能。目前,已有几种支持假结预 巧。的近似算法。1999年化vas和Eddy首次采用动态规划算法实现了对RNA假结的预测,算 法的时间复杂度为0(n6),空间复杂度为0(n 4)。文献通过约束假结的类型将计算复杂度降 低为0(ns),进一步将计算复杂度降低为0(n4),但只能预测最简单的假结,实用性不高。由 于化vas和Eddy提出的算法能够很好的预测平面假结和受限制的非平面假结,是目前公认 的最完整、最权威的支持假结的RNA二级结构预测算法。
[0015] 上述算法尽管采用了不同的RNA二级结构几何表示方法和打分函数,但是都采用 了相同的捜索策略,即采用动态规划思想将整个序列的结构预测问题分解为一系列子序列 的结构预测问题,从最短子序列出发逐步得到整个序列结构的最优解。按照绪论中提出的 动态规划问题分类标准,常规的结构