基于k茎的核糖核酸假结结构的预测方法及装置制造方法

文档序号：6627534阅读：334来源：国知局

基于k茎的核糖核酸假结结构的预测方法及装置制造方法
【专利摘要】本发明提供一种基于k茎的核糖核酸(RNA)假结结构的预测方法及装置，预测方法包括以下步骤：输入一段核糖核酸碱基序列；定义假结、k(k≥1)茎；从左向右查找RNA碱基和k茎，对查找出的所有k茎进行确定标记；根据k茎的交叉形成假结的特性，查找假结；计算出包含k茎的核糖核酸假结结构的最小自由能量；输出核糖核酸的假结结构。本发明所涉及的方法的搜索速度快、正确率高，敏感性和特异性等方面都优于其他相关算法，如PKNOTS算法等。本方法在平面假结的预测上比PKNOTS算法更有效。
【专利说明】基于k茎的核糖核酸假结结构的预测方法及装置

【技术领域】
[0001] 本发明属于生物信息工程领域，涉及一种对核糖核酸（以下简称为RNA)的假结结构进行预测的方法，尤其涉及基于k茎的RNA假结结构预测的方法及装置。

【背景技术】
[0002] RNA是生物系统内最为重要的大分子之一，它在生物体内行使多种功能，是合成蛋白质的模板。RNA二级结构预测用于蛋白质功能分析，是RNA三级结构预测的基础。假结 (pseudoknot)是RNA中最广泛的结构单元，是非常复杂和稳定的RNA结构，假结在RNA分子中具有构造、催化和调节功能，是目前RNA结构预测研究的关键点。
[0003] RNA二级结构预测采用的方法主要有两种：早期采用的是序列对比分析方法，即对于在不同有机体中起相同生物功能的一级结构进行比较，此方法的困难之处在于：许多 RNA分子的同源序列不易得到；需要大量人力，效率较低，所以目前主要采用的是最小自由能量方法。
[0004] 最小自由能量算法的理论依据是稳定的RNA二级结构的自由能量最小。基于最小自由能量算法的PKN0TS算法使用0(η 6)时间和0(η4)空间计算任意的平面假结和部分非平面假结。PKN0TS算法仅能计算长度短于140个碱基的RNA序列，不能满足较长RNA序列结构预测的需要。PknotsRG算法计算由两个茎区构成的简单的嵌套假结，其中任意两个假结为并列或嵌套关系。事实上，由内环和凸起构成的假结在RNA中普遍存在，交叉假结也具有重要作用。因此，两者都不能被忽略。平面假结是最广泛的假结子类，包含上面提到的由内环和凸起构成的假结以及交叉假结的情况。PseudoBase数据库的所有序列中仅一个序列折叠为一个非平面假结，其余序列都折叠为平面假结。因此我们主要考虑任意平面假结的计算。
[0005] Zuker首次将动态规划算法用于最邻近邻居模型，提出了 MF0LD算法，经过二十多年的不断改进和发展，现己成为国际上广泛使用的RNA二级结构预测方法，对于包含η个核苷酸的RNA序列，MF0LD算法使用0(η 3)时间和〇(η2)空间预测其最优二级结构，目前对于长度小于700个核普酸的RNA序列，MF0LD算法可正确预测大约73%的RNA基对，但对于长序列和部分子类的预测正确率会降低，该算法仅仅给出了三级结构预测的粗略框架，另外由于算法本身的限制，MF0LD算法不能预测假结和更复杂的三级结构。

【发明内容】

[0006] 本发明解决的技术问题是使得对RNA结构预测、尤其是对基于k茎包含假结的RNA 结构进行预测方法，降低预测的时间复杂性和空间复杂性，提高预测准确性。
[0007] 本发明涉及的一种基于k茎的核糖核酸假结结构的预测方法包括以下步骤：
[0008] 输入一段核糖核酸碱基序列；
[0009] 定义假结、k茎，k彡1;
[0010] 从左向右查找碱基和k茎，对查找出的所有k茎进行标记；
[0011]根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；
[0012]计算出包含k茎的核糖核酸假结结构的最小能量；
[0013] 输出核糖核酸的假结结构。
[00M] 1垄（记为Si[i, j])由碱基对（i，j)和（r，s) G S所封闭，设（k-υ茎由碱基对 (r'，s'）和（k, 1) e S 所封闭，i<r<r' <k<l<s'〈s<j，ν = r' - r+s-s' >2,贝U由（i, j)和 (k，l) e S所封闭的结构称为k茎（记为Sk[i，j])。其中，两个k茎中碱基对的交叉构成假结。从左向右查找碱基时，首先查找1茎，若找到1茎，则对1茎中的所有碱基标记，同理，查找2茎、3茎……k茎,若找到，则对k茎中的所有碱基标记。
[0015] 一种基于k茎的核糖核酸假结结构的预测装置包括：
[0016] 输入单元：其输入一段核糖核酸碱基序列；
[0017] 定义单元：定义1茎、2茎……k茎；
[0018] 查找单元：从左向右查找碱基，对查找出的所有1茎、2茎…k茎中的碱基进行标记；
[0019] 假结结构查找单元：根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；
[0020] 假结计算单元：计算出包含k莖的核糖核酸假结结构的最小能量；
[0021] 输出单元：其根据最小能量原理，输出核糖核酸碱基序列的假结结构。
[0022] 本发明的方法的搜索速度、正确率、敏感性和特异性都优于PKN0TS算法。因此本方法在平面假结的预测上比PKN0TS算法更有效。

【专利附图】

【附图说明】
[0023] 图1是本发明的基于k茎的RNA假结结构的预测方法流程图；
[0024] 图2是本发明的k茎处理的流程图；
[0025] 图3是对应图1中用于预测RNA假结结构的预测装置；
[0026] 图4是本发明的一个RNA假结结构的例子；
[0027] 图5是本发明的计算RNA假结结构最小能量中W和V的表示图示。

【具体实施方式】
[0028] 首先说明关于RNA序列、碱基对、假结等的概念。
[0029] RNA-级结构：RNA分子侧链上四种碱基的排列顺序表不。一般来说RNA碱基序列从5，开始到3，结束，这样整个序列s表示为s = slS2…sn，Si表示RNA序列的第i个碱基，Si e {A, U，G, C}, RNA子序列Sy是s的一个序列片段，表示为：Si，』=s^-sj。
[0030] 减基对：如果Sj · Sj G {AU, CG, GU}，则Si · Sj构成喊基对。喊基对中堆叠的g巨里为负值。
[0031] RNA二级结构：RNA序列中的一组基对构成的集合，以S表不。对于任意基对，如果 Si.SjES、Si, .Sj, es且若i = i'，则j = ，亦即，一个碱基不可同时与两个及两个以上的碱基构成基对。
[0032] 假结：如果基对Si · Sj与Si; · sr e S，如果i < i ' < j < j '，则序列 Sp . . Sp . . · Sj · · Sj' 构成假结结构。
[0033]图1是根据本发明的用于预测基于茎区RNA假结结构的预测方法的流程图；本发明的方法包括以下步骤：输入一段核糖核酸序列；定义假结、(k彡D ;从左向右查找碱基，对查找出的所有k茎进行标记；根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；计算出包含k茎的核糖核酸假结结构的最小能量；输出核糖核酸的假结结构。图 3 是对应图1中用于预测基于茎区的RNA假结结构的预测装置。RNA假结结构的预测装置包括：输入单元：其输入一段核糖核酸碱基序列；定义单元：其定义假结和定义 k茎，丨；查找单元i从左向右查找碱基，对查找出的所有1茎、2茎…k茎中的碱基进行标记；假结结构查找单元：根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；假结能量计算单元：计算出包含k莲的核糖核酸假结结构的最小能量；输出单元：其根据最小能量原理，输出核糖核酸碱基序列的假结结构。
[0034]图2是根据本发明的k茎处理的流程图：输入一段s = SliV..Sn序列，从左向右查找碱基，如果存在i、j，使得Si和Sj配对，j-i彡6,并且s中存在三个以上连续的相邻基对 si · Sj、S(i+1〉· Su-?。。。、sk · S!，则基对Si · Sj和sk · S!封闭的区间确定为1莲；对1莲中所有配对的碱基进行标记；在1茎封闭的游离碱基中继续查找配对的碱基，如果存在三个以上基对，确定为 2莲；对2莲中所有配对的碱基进行标记；在1莲和2莲封闭的游离碱基中继续查找配对的碱基，如果存在三个以上基对，确定为 3莲；对3莲中所有配对的碱基进行标记......直到查找到k茎。如果存在两个以上k茎碱基对的交叉，则构成假结。
[0035]定义：RNA子序列Si,」中，如果（i，j)，（i+1，j-D，…，（k，D都是基对，i<k<1<J·，则由（i，j)和（k，l) G S所封闭的结构称为【莖，表示为^ j]。若1茎\[1，j]由和 (r，s) G S 所封闭，1- Sjr'，s']由（r'，s，）和（k，1) E S 所封闭，i<r<r，〈k<l<s，<s<j， v = r' - r+s-s' >2,则由（i，j)和（k，l) e s所封闭的结构称为2茎，表示Ss2[i，j]。
[0036] 同理，如果Sji，j]由（i，j)和（r，s) e S所封闭，（卜!）茎由（r，，s，）和（k，υ e s 所封闭，1〈1'<]：'一<1^1<3'<8<』，￥ = 1>'-1^-3'>2，则由（^)和汰，1)￡ 8所封闭的结构称为k茎，表示为sk[i，j]，Sk[i，j]的最小能量表示为ES k(i，j)，k茎Sk[i，j]的长度表示为 LSk(i，j) = k-i+1 或 RSk(i，j) = j-1+1。
[0037] 设2gS2[i，j]由两个嵌套的丨茎和其内部未配对碱基构成。设E2(r，r，： s，，s) 表示基对（r，s)和（r'，s，）构成的2环结构的能量，ESi(i，j)和 ESi(r，，s，）分别表示由基对（i，j)和（r'，s，）封闭的！茎的能量，则 Es2(i，j) =ESi(i，j)+E2(r，r，：s，， s)+ESi(r ，s )。同理 ESk(i，j)=ES1(i，j)+E2(r，r'：s，，s)+ES k-1(r，，s，）。
[0038] 、、设 LS(i，j) e e {ESiiXjhESsiXj)}。在本发明的方法中，1茎和2茎的自由能量和长度使用〇(n3)的时间预处理并分别存于三角矩阵 ES(i，j)、LS(i，j)中，其计算过程见程序丨。 -
[0039]同理，由ESk(i, j)的计算公式可知，计算k茎的时间复杂度为〇(n3)，空间复杂度为〇(η2)。k茎（k彡3)的计算由后面的动态规划算法实现。
[0040] k茎由茎和2环构成，其自由能量为其所含的堆叠和环的能量之和，任竟假社可分解为k堇和多分枝环。
[0041] 实施例1 :
[0042]在歷假结结构预测中，若k茎中k = 1或k = 2时，相关1莲和2莲的程序计算如下所述。 1
[0043] 程序1 :1茎和2茎的能量和长度的计算
[0044] :1#设（久力表艰_基:备s；构成:的基对f .g表議班謎;僵___^畴的惩靈系数。，尸'农示假结中^个基对霞想罚氧，β，表賴9_中一个未屺对碱基的__ 罚值。*/ for r^l.： t：〇 η for/=1 to//-/' j^i+n ESi(i,j)= ￡52(/,./)=0; {￡?ι(/,,§=2? k=4 fiy;
[0045] // RNA结构中戌的能y：和鐵虜的计算 while (k, /) & {k+\, /-1)& (k+2, /-2) ((l-k)>6) ESl(i,j)=ESi(i,j)+ g^'E2(k, k+]： 1-1,1)+ g^E2(k+l, k+2:1-2, /-1); ^0,,/)-1+; k++; 1-; loop 现（/，/)= ￡& (/，_/)+P'；结猶中2:茎酶能量和长度酸计算 if (人:.Η 4& /二/-4) ior k- ι ?ο /+?/+1 f〇t i=j^i^l+k-i toj { p= ESi (i,j)+g*E2(t, k Lj^ESi (k, if (^￡52(/,7)) { ES2(iJ)= R： LS^j^LS^j^LS^k, ^; } | end for end for else { ES2(iJ)- ES^f)^ ES2(k,Ι)ι￡8^.β=·〇-l# end for end for
[0046]图4给出一个简单的假结。使用两个1茎（Si[i，19]、 Sl[7,30])和三个子序列 (s6,6、s13，14、s2C1， 24)构成一个假结。由于每个ι茎由两个参数确定，丨茎的存储需要0(n2)空间，因此计算假结的时间复杂度为 0(n4)，空间复杂度为0(n2)。
[0047] 由图 4 知：W (1，30) = ESi (1，19) +ESi (7, 30) +W (6, 6) +W (13, 14) +W (20, 24)
[0048] 实施例2 :
[0049] 给定一个序列 s = sa…sn，序列片段 Si，j = sr..Sj，1 < i < j < n。设 W(i，j) 是子序列Si」对应的包含假结的二级结构S的最小能量。设V(i，』）是 Si和sj构成基对 (i，j)的情^下，子序列Si，j对应的包含假结的二级结构 5的最小能量。
[0050]图5给出W(i，j)和V(i, j)的计算图式。包含假结结构的W(i，j)由下列4种情况计算：
[0051] l)Sj是未配对碱基，碱基Si和化配对关系未确定，如图5_1，计算的W(i，j)= W(i, j-1)；
[0052] 2)Si是未配对碱基，碱基si+1和Sj配对关系未确定，如图5· 2,计算的W(i, j)= W(i+1, j)；
[0053] 3) Si和sk，sk+1和Sj不构成基对且在不同子序列Si,k和S k+1，j对应的二级结构中， i<k<j，如图5.3，计算的]

【权利要求】
1. 一种基于k茎的核糖核酸假结结构的预测方法，其特征在于包括以下步骤：输入一段核糖核酸碱基序列；定义假结、k莖，（k彡1); 从左向右查找喊基和k莖，对查找出的所有k莖进彳丁标记；根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；计算出包含k茎的核糖核酸假结结构的最小能量；输出核糖核酸的假结结构。
2. 根据权利要求1所述的基于k茎的核糖核酸假结结构的预测方法，其特征在于：1茎 (记为Sji，j])由碱基对（i，j)和（r，s) e S所封闭，设（k-Ι)茎由（r'，s'）和（k，1) e S 所封闭，i〈r〈r'<k〈l〈s'<s〈j，v = r' - r+s-s'>2,则由（i, j)和（k, 1) e S 所封闭的结构称为(记为Sk[i, j])。
3. 根据权利要求2所述的基于k茎的核糖核酸假结结构的预测方法，其特征在于：两个以上k茎碱基对的交叉构成假结结构。
4. 根据权利要求1所述的基于k茎的核糖核酸假结结构的预测方法，其特征在于：从左向右查找碱基，根据1茎定义，先查找1茎，对1茎中的所有碱基标记，以此类推查找k茎并标记。
5. -种基于k茎的核糖核酸假结结构的预测装置包括：输入单元：其输入一段核糖核酸碱基序列；定义单元：定义1茎、2茎…k茎；查找单元：从左向右查找碱基，对查找出的所有1茎、2茎…k茎中的碱基进行标记；假结结构查找单元：根据两个以上k茎碱基对的交叉构成假结结构特性，查找假结；假结计算单元：根据最小自由能量原理，计算出包含k茎的核糖核酸假结结构的最小能量；输出单元：其根据最小自由能量原理，输出核糖核酸碱基序列的假结结构。
【文档编号】G06F19/22GK104298894SQ201410480038
【公开日】2015年1月21日申请日期:2014年9月17日优先权日:2014年9月17日
【发明者】刘振栋, 马宏伟, 倪明琨, 李恒武, 赵世民, 杨朝晖, 于庆华, 高贻明申请人:山东建筑大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘振栋;马宏伟;倪明琨;李恒武;赵世民;杨朝晖;于庆华;高贻明
技术所有人：山东建筑大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。