基于k茎的核糖核酸假结结构的预测方法及装置制造方法
【专利摘要】本发明提供一种基于k茎的核糖核酸(RNA)假结结构的预测方法及装置,预测方法包括以下步骤:输入一段核糖核酸碱基序列;定义假结、k(k≥1)茎;从左向右查找RNA碱基和k茎,对查找出的所有k茎进行确定标记;根据k茎的交叉形成假结的特性,查找假结;计算出包含k茎的核糖核酸假结结构的最小自由能量;输出核糖核酸的假结结构。本发明所涉及的方法的搜索速度快、正确率高,敏感性和特异性等方面都优于其他相关算法,如PKNOTS算法等。本方法在平面假结的预测上比PKNOTS算法更有效。
【专利说明】基于k茎的核糖核酸假结结构的预测方法及装置
【技术领域】
[0001] 本发明属于生物信息工程领域,涉及一种对核糖核酸(以下简称为RNA)的假结结 构进行预测的方法,尤其涉及基于k茎的RNA假结结构预测的方法及装置。
【背景技术】
[0002] RNA是生物系统内最为重要的大分子之一,它在生物体内行使多种功能,是合成蛋 白质的模板。RNA二级结构预测用于蛋白质功能分析,是RNA三级结构预测的基础。假结 (pseudoknot)是RNA中最广泛的结构单元,是非常复杂和稳定的RNA结构,假结在RNA分子 中具有构造、催化和调节功能,是目前RNA结构预测研究的关键点。
[0003] RNA二级结构预测采用的方法主要有两种:早期采用的是序列对比分析方法,即 对于在不同有机体中起相同生物功能的一级结构进行比较,此方法的困难之处在于:许多 RNA分子的同源序列不易得到;需要大量人力,效率较低,所以目前主要采用的是最小自由 能量方法。
[0004] 最小自由能量算法的理论依据是稳定的RNA二级结构的自由能量最小。基于最小 自由能量算法的PKN0TS算法使用0(η 6)时间和0(η4)空间计算任意的平面假结和部分非平 面假结。PKN0TS算法仅能计算长度短于140个碱基的RNA序列,不能满足较长RNA序列结 构预测的需要。PknotsRG算法计算由两个茎区构成的简单的嵌套假结,其中任意两个假结 为并列或嵌套关系。事实上,由内环和凸起构成的假结在RNA中普遍存在,交叉假结也具有 重要作用。因此,两者都不能被忽略。平面假结是最广泛的假结子类,包含上面提到的由内 环和凸起构成的假结以及交叉假结的情况。PseudoBase数据库的所有序列中仅一个序列折 叠为一个非平面假结,其余序列都折叠为平面假结。因此我们主要考虑任意平面假结的计 算。
[0005] Zuker首次将动态规划算法用于最邻近邻居模型,提出了 MF0LD算法,经过二十多 年的不断改进和发展,现己成为国际上广泛使用的RNA二级结构预测方法,对于包含η个核 苷酸的RNA序列,MF0LD算法使用0(η 3)时间和〇(η2)空间预测其最优二级结构,目前对于 长度小于700个核普酸的RNA序列,MF0LD算法可正确预测大约73%的RNA基对,但对于长 序列和部分子类的预测正确率会降低,该算法仅仅给出了三级结构预测的粗略框架,另外 由于算法本身的限制,MF0LD算法不能预测假结和更复杂的三级结构。
【发明内容】
[0006] 本发明解决的技术问题是使得对RNA结构预测、尤其是对基于k茎包含假结的RNA 结构进行预测方法,降低预测的时间复杂性和空间复杂性,提高预测准确性。
[0007] 本发明涉及的一种基于k茎的核糖核酸假结结构的预测方法包括以下步骤:
[0008] 输入一段核糖核酸碱基序列;
[0009] 定义假结、k茎,k彡1;
[0010] 从左向右查找碱基和k茎,对查找出的所有k茎进行标记;
[0011]根据两个以上k茎碱基对的交叉构成假结结构特性,查找假结;
[0012]计算出包含k茎的核糖核酸假结结构的最小能量;
[0013] 输出核糖核酸的假结结构。
[00M] 1垄(记为Si[i, j])由碱基对(i,j)和(r,s) G S所封闭,设(k-υ茎由碱基对 (r',s')和(k, 1) e S 所封闭,i<r<r' <k<l<s'〈s<j,ν = r' - r+s-s' >2,贝U由(i, j)和 (k,l) e S所封闭的结构称为k茎(记为Sk[i,j])。其中,两个k茎中碱基对的交叉构成假 结。从左向右查找碱基时,首先查找1茎,若找到1茎,则对1茎中的所有碱基标记,同理, 查找2茎、3茎……k茎,若找到,则对k茎中的所有碱基标记。
[0015] 一种基于k茎的核糖核酸假结结构的预测装置包括:
[0016] 输入单元:其输入一段核糖核酸碱基序列;
[0017] 定义单元:定义1茎、2茎……k茎;
[0018] 查找单元:从左向右查找碱基,对查找出的所有1茎、2茎…k茎中的碱基进行标 记;
[0019] 假结结构查找单元:根据两个以上k茎碱基对的交叉构成假结结构特性,查找假 结;
[0020] 假结计算单元:计算出包含k莖的核糖核酸假结结构的最小能量;
[0021] 输出单元:其根据最小能量原理,输出核糖核酸碱基序列的假结结构。
[0022] 本发明的方法的搜索速度、正确率、敏感性和特异性都优于PKN0TS算法。因此本 方法在平面假结的预测上比PKN0TS算法更有效。
【专利附图】
【附图说明】
[0023] 图1是本发明的基于k茎的RNA假结结构的预测方法流程图;
[0024] 图2是本发明的k茎处理的流程图;
[0025] 图3是对应图1中用于预测RNA假结结构的预测装置;
[0026] 图4是本发明的一个RNA假结结构的例子;
[0027] 图5是本发明的计算RNA假结结构最小能量中W和V的表示图示。
【具体实施方式】
[0028] 首先说明关于RNA序列、碱基对、假结等的概念。
[0029] RNA-级结构:RNA分子侧链上四种碱基的排列顺序表不。一般来说RNA碱基序列 从5,开始到3,结束,这样整个序列s表示为s = slS2…sn,Si表示RNA序列的第i个碱 基,Si e {A, U,G, C}, RNA子序列Sy是s的一个序列片段,表示为:Si,』=s^-sj。
[0030] 减基对:如果Sj · Sj G {AU, CG, GU},则Si · Sj构成喊基对。喊基对中堆叠的g巨里 为负值。
[0031] RNA二级结构:RNA序列中的一组基对构成的集合,以S表不。对于任意基对,如果 Si.SjES、Si, .Sj, es且若i = i',则j = ,亦即,一个碱基不可同时与两个及两个 以上的碱基构成基对。
[0032] 假结:如果基对Si · Sj与Si; · sr e S,如果i < i ' < j < j ',则序列 Sp . . Sp . . · Sj · · Sj' 构成假结结构。
[0033]图1是根据本发明的用于预测基于茎区RNA假结结构的预测方法的流程图;本发 明的方法包括以下步骤:输入一段核糖核酸序列;定义假结、(k彡D ;从左向右查找碱 基,对查找出的所有k茎进行标记;根据两个以上k茎碱基对的交叉构成假结结构特性,查 找假结;计算出包含k茎的核糖核酸假结结构的最小能量;输出核糖核酸的假结结构。图 3 是对应图1中用于预测基于茎区的RNA假结结构的预测装置。RNA假结结构的预测装置包 括:输入单元:其输入一段核糖核酸碱基序列;定义单元:其定义假结和定义 k茎,丨;查 找单元i从左向右查找碱基,对查找出的所有1茎、2茎…k茎中的碱基进行标记;假结结构 查找单元:根据两个以上k茎碱基对的交叉构成假结结构特性,查找假结;假结能量计算单 元:计算出包含k莲的核糖核酸假结结构的最小能量;输出单元:其根据最小能量原理,输 出核糖核酸碱基序列的假结结构。
[0034]图2是根据本发明的k茎处理的流程图:输入一段s = SliV..Sn序列,从左向右查 找碱基,如果存在i、j,使得Si和Sj配对,j-i彡6,并且s中存在三个以上连续的相邻基对 si · Sj、S(i+1〉· Su-?。。。、sk · S!,则基对Si · Sj和sk · S!封闭的区间确定为1莲;对1莲中所 有配对的碱基进行标记;在1茎封闭的游离碱基中继续查找配对的碱基,如果存在三个以 上基对,确定为 2莲;对2莲中所有配对的碱基进行标记;在1莲和2莲封闭的游离碱基中 继续查找配对的碱基,如果存在三个以上基对,确定为 3莲;对3莲中所有配对的碱基进行 标记......直到查找到k茎。如果存在两个以上k茎碱基对的交叉,则构成假结。
[0035]定义:RNA子序列Si,」中,如果(i,j),(i+1,j-D,…,(k,D都是基对,i<k<1<J·,则 由(i,j)和(k,l) G S所封闭的结构称为【莖,表示为^ j]。若1茎\[1,j]由和 (r,s) G S 所封闭,1- Sjr',s']由(r',s,)和(k,1) E S 所封闭,i<r<r,〈k<l<s,<s<j, v = r' - r+s-s' >2,则由(i,j)和(k,l) e s所封闭的结构称为2茎,表示Ss2[i,j]。
[0036] 同理,如果Sji,j]由(i,j)和(r,s) e S所封闭,(卜!)茎由(r,,s,)和(k,υ e s 所封闭,1〈1'<]:'一<1^1<3'<8<』,¥ = 1>'-1^-3'>2,则由(^)和汰,1)£ 8所封闭的结构 称为k茎,表示为sk[i,j],Sk[i,j]的最小能量表示为ES k(i,j),k茎Sk[i,j]的长度表示 为 LSk(i,j) = k-i+1 或 RSk(i,j) = j-1+1。
[0037] 设2gS2[i,j]由两个嵌套的丨茎和其内部未配对碱基构成。设E2(r,r,: s,,s) 表示基对(r,s)和(r',s,)构成的2环结构的能量,ESi(i,j)和 ESi(r,,s,)分别表示由 基对(i,j)和(r',s,)封闭的!茎的能量,则 Es2(i,j) =ESi(i,j)+E2(r,r,:s,, s)+ESi(r ,s )。同理 ESk(i,j)=ES1(i,j)+E2(r,r':s,,s)+ES k-1(r,,s,)。
[0038] 、、设 LS(i,j) e e {ESiiXjhESsiXj)}。在本发 明的方法中,1茎和2茎的自由能量和长度使用〇(n3)的时间预处理并分别存于三角矩阵 ES(i,j)、LS(i,j)中,其计算过程见程序丨。 -
[0039]同理,由ESk(i, j)的计算公式可知,计算k茎的时间复杂度为〇(n3),空间复杂度 为〇(η2)。k茎(k彡3)的计算由后面的动态规划算法实现。
[0040] k茎由茎和2环构成,其自由能量为其所含的堆叠和环的能量之和,任竟假社可分 解为k堇和多分枝环。
[0041] 实施例1 :
[0042]在歷假结结构预测中,若k茎中k = 1或k = 2时,相关1莲和2莲的程序计 算如下所述。 1
[0043] 程序1 :1茎和2茎的能量和长度的计算
[0044] :1#设(久力表艰_基:备s;构成:的基对f .g表議班謎;僵___^畴的惩靈 系数。,尸'农示假结中^个基对霞想罚氧,β,表賴9_中一个未屺对碱基的__ 罚值。*/ for r^l.: t:〇 η for/=1 to//-/' j^i+n ESi(i,j)= £52(/,./)=0; {£?ι(/,,§=2? k=4 fiy;
[0045] // RNA结构中戌的能y:和鐵虜的计算 while (k, /) & {k+\, /-1)& (k+2, /-2) ((l-k)>6) ESl(i,j)=ESi(i,j)+ g^'E2(k, k+]: 1-1,1)+ g^E2(k+l, k+2:1-2, /-1); ^0,,/)-1+; k++; 1-; loop 现(/,/)= £& (/,_/)+P'; 结猶中2:茎酶能量和长度酸计算 if (人:.Η 4& /二/-4) ior k- ι ?ο /+?/+1 f〇t i=j^i^l+k-i toj { p= ESi (i,j)+g*E2(t, k Lj^ESi (k, if (^£52(/,7)) { ES2(iJ)= R: LS^j^LS^j^LS^k, ^; } | end for end for else { ES2(iJ)- ES^f)^ ES2(k,Ι)ι£8^.β=·〇-l# end for end for
[0046]图4给出一个简单的假结。使用两个1茎(Si[i,19]、 Sl[7,30])和三个子序列 (s6,6、s13,14、s2C1, 24)构成一个假结。由于每个ι茎由两个参数确定,丨茎的存储需要0(n2)空 间,因此计算假结的时间复杂度为 0(n4),空间复杂度为0(n2)。
[0047] 由图 4 知:W (1,30) = ESi (1,19) +ESi (7, 30) +W (6, 6) +W (13, 14) +W (20, 24)
[0048] 实施例2 :
[0049] 给定一个序列 s = sa…sn,序列片段 Si,j = sr..Sj,1 < i < j < n。设 W(i,j) 是子序列Si」对应的包含假结的二级结构S的最小能量。设V(i,』)是 Si和sj构成基对 (i,j)的情^下,子序列Si,j对应的包含假结的二级结构 5的最小能量。
[0050]图5给出W(i,j)和V(i, j)的计算图式。包含假结结构的W(i,j)由下列4种情 况计算:
[0051] l)Sj是未配对碱基,碱基Si和化配对关系未确定,如图5_1,计算的W(i,j)= W(i, j-1);
[0052] 2)Si是未配对碱基,碱基si+1和Sj配对关系未确定,如图5· 2,计算的W(i, j)= W(i+1, j);
[0053] 3) Si和sk,sk+1和Sj不构成基对且在不同子序列Si,k和S k+1,j对应的二级结构中, i<k<j,如图5.3,计算的]
【权利要求】
1. 一种基于k茎的核糖核酸假结结构的预测方法,其特征在于包括以下步骤: 输入一段核糖核酸碱基序列; 定义假结、k莖,(k彡1); 从左向右查找喊基和k莖,对查找出的所有k莖进彳丁标记; 根据两个以上k茎碱基对的交叉构成假结结构特性,查找假结; 计算出包含k茎的核糖核酸假结结构的最小能量; 输出核糖核酸的假结结构。
2. 根据权利要求1所述的基于k茎的核糖核酸假结结构的预测方法,其特征在于:1茎 (记为Sji,j])由碱基对(i,j)和(r,s) e S所封闭,设(k-Ι)茎由(r',s')和(k,1) e S 所封闭,i〈r〈r'<k〈l〈s'<s〈j,v = r' - r+s-s'>2,则由(i, j)和(k, 1) e S 所封闭的结构 称为(记为Sk[i, j])。
3. 根据权利要求2所述的基于k茎的核糖核酸假结结构的预测方法,其特征在于:两 个以上k茎碱基对的交叉构成假结结构。
4. 根据权利要求1所述的基于k茎的核糖核酸假结结构的预测方法,其特征在于:从 左向右查找碱基,根据1茎定义,先查找1茎,对1茎中的所有碱基标记,以此类推查找k茎 并标记。
5. -种基于k茎的核糖核酸假结结构的预测装置包括: 输入单元:其输入一段核糖核酸碱基序列; 定义单元:定义1茎、2茎…k茎; 查找单元:从左向右查找碱基,对查找出的所有1茎、2茎…k茎中的碱基进行标记; 假结结构查找单元:根据两个以上k茎碱基对的交叉构成假结结构特性,查找假结; 假结计算单元:根据最小自由能量原理,计算出包含k茎的核糖核酸假结结构的最小 能量; 输出单元:其根据最小自由能量原理,输出核糖核酸碱基序列的假结结构。
【文档编号】G06F19/22GK104298894SQ201410480038
【公开日】2015年1月21日 申请日期:2014年9月17日 优先权日:2014年9月17日
【发明者】刘振栋, 马宏伟, 倪明琨, 李恒武, 赵世民, 杨朝晖, 于庆华, 高贻明 申请人:山东建筑大学