专利名称:结合基于下一代测序数据的植物microRNA靶位互作网络预测的方法
技术领域:
本发明涉及一种基于下一代测序数据的植物microRNA靶位互作网络预测的方法。
背景技术:
植物microRNA是一类20-24碱基长的非编码RNA,是重要的基因调控元件[10]。 装载到RNA引导沉默复合体(RISC)后,植物microRNA会引导与其高度互补的靶基因mRNA 在互补位点的切割,降低靶基因的表达水平[10]。靶基因中大部分编码转录因子,这使得植 物microRNA的调控范围几乎遍及整个基因组[12]。因此microRNA在植物的多种生物过程 中都起到了重要作用,包括植物发育、应激反应以及microRNA途径自身[12]。对植物microRNA的研究发现了大量的植物microRNA,在此基础上建立了专门的 microRNA数据库[9,19]。miRBase是一个综合的microRNA数据库,包含了动植物中已经 发表的microRNA,提供了 microRNA序列、前体序列、前体二级结构、基因组上下文及参考文 献等信息[9]。PMRD是一个专门的植物microRNA数据库,涵盖了更多的植物物种,并包含 了大量预测到的无实验验证的micr0RNA[19]。对于水稻和拟南芥等有mRNA序列数据的物 种,PMRD还列出了预测到的靶基因[19]。作为重要的模式生物,水稻和拟南芥有大量的生物信息学资源,包括详细注释的 基因组序列,多态性数据,以及大量的高通量测序数[7,11,13-17]。这些数据中,很多可以 用于植物microRNA的研究。用测序数据或者微阵列实验,探测到了水稻和拟南芥亚种间大量的单核苷酸多态 性(SNP) [7,13,15]。microRNA前体的SNP会影响microRNA前体的折叠,进而影响到DCLl 对microRNA前体的识别与切割[10]。microRNA成熟体或者靶基因结合位点的SNP会改变 microRNA与靶基因mRNA的互补程度,从而改变microRNA对mRNA的切割效率[10]。可以 利用SNP数据来研究SNP在microRNA途径层次对亚种间差异的贡献。大规模并行信号测序(MPSS)是一种研究基因表达的高通量测序技术,水稻和拟 南芥有大量的MPSS数据[14]。植物microRNA是独立的转录单元,与蛋白编码基因一样 由RNA 二型聚合酶转录,具有5’帽和3’聚腺苷酸尾[10]。因此,可以用MPSS数据来分析 microRNA基因的表达。另外,MPSS的转录信号可以为microRNA基因的转录区间及基因模 型提供参考。RNA末端并行分析(PARE)是一种降解组高通量测序技术,测定有聚腺苷酸尾的3’ 端切割产物的5’端序列,水稻和拟南芥也有大量的PARE数据[14]。植物microRNA与靶基 因mRNA高度互补,主要引导靶基因mRNA的切割,切割产物能被PARE技术探测到[8]。因 此,PARE数据可以用于microRNA对靶基因mRNA切割作用的分析。另外,microRNA的生物 发生需要DCLl的切割,microRNA也可能引导microRNA前体自身的切割,可以用PARE数据 来分析这些切割作用[8]。
参考文献[l]Apache HTTP Server Project :http://httpd. apache, org/.[2]PostgreSQL :http://www. postgresql. org/.[3] Scalable Vector Graphics :http://www. w3. org/Graphics/SVG/.[4] Vienna RNA Package :http://www. tbi. univie. ac. at/"lvo/RNA/.[5] S. F. Altschul,T. L Madden,A. A. Schaffer, J. Zhang,Z. Zhang,W. Miller,and D.J. Lipman. Gapped BLAST and PSI-BLAST :a new generation of protein database search programs. Nucl. Acids Res.,25 :3389_3402,1997.[6] R. Bruccoleri and G Heinrich. ComputerAppl icat ions in the Biosciences^ :167_173,1988.[7]F Alex Feltus,Jun Wan, Stefan R Schulze,James C Estill,Ning Jiang, and Andrew H Paterson. An SNP resource for rice genetics and breeding based on subspecies indica and japonica genome alignments. Genome Res. ,14 1812-9,2004.[8]Marcelo A German,Manoj Pillay,Dong-Hoon Jeong,Amit Hetawal,Shujun Luo,Prakash Janardhanan,Vimal Kannan,Linda A Rymarquis,Kan Nobuta,Rana German, Emanuele De Paoli, Cheng Lu, Gary Schroth, Blake C Meyers, and Pamela J Green. Globalidentification of microRNA—target RNA pairs by parallel analysis ofRNA ends. Nat. Biotechnol.,26 :941_6,2008·[9]Sam Griffiths-Jones, Harpreet Kaur Saini,Stijn van Dongen,and Anton J Enright. miRBase :tools for microRNA genomics. Nucleic Acids Res. , 36 :D 154—8, 2008.[10]MatthewW. Jones-RhoadesjDavid P. Bartel,and Bonnie Bartel. MicroRNAs and their regulatory roles in plants. Annual Review ofPlant Biology,57 :19_53, 2006.[11]Yong-Fang Li, Yun Zheng, Charles Addo-Quaye, Li Zhang, Aj ay Saini, Guru Jagadeeswaran,Michael J Axtel1,Weixiong Zhang,and Ramanjulu Sunkar. Transcriptome-wide identification of microRNA targets in rice.The Plant journal :for cell and molecular biology,2010.[12]Allison C Mallory and Hervr e Vaucheret. Functions of microRNAs and related small RNAs in plants. Nat. Genet. , 38 :S31-6,2006.[13]Kenneth L McNally, Kevin L Childs, Regina Bohnert, Rebecca M Davidson,Keyan Zhao,Victor J Ulat,GeorgZeller,Richard M Clark,Douglas R Hoen, Thomas E Bureau, Renee Stokowski, Dennis G Ballinger, Kelly A Frazer, David R Cox, Badri Padhukasahasram, Carlos D Bustamante, Detlef Weigel,David J Mackill, Richard M Bruskiewich,Gunnar R" atsch,C Robin Buel1,Hei Leung,and Jan E Leach. Genomewide SNP variation reveals relationships among landraces and modern varieties ofrice. Proc. Natl. Acad. Sci. U. S. A.,106 :12273_8,2009.[14]Mayumi Nakano, Kan Nobuta, Kalyan Vemaraju, Shivakundan Singh Tej, JeremyWSkogen, and Blake C Meyers. Plant MPSS databases :signature_basedtranscriptional resources for analyses of mRNA and small RNA. Nucleic Acids Res. ,34 :D731-5,2006.[15]Seung Yon Rhee, William Beavis, Tanya Z.Berardini, Guanghong Chen, David Dixon,Aisling Doyle,Margarita Garcia—Hernandez,Eva Huala,Gabriel Lander, Mary Montoya,Neil Miller,Lukas A. Mueller,Suparna Mundodi,Leonore Reiser,Julie Tacklind,Dan C. ffeems,Yihe Wu,Iris Xu,Daniel Yoo,Jungwon Yoon,and Peifen Zhang. The Arabidopsis Information Resource(TAIR) :a model organism database providing a centralized, curated gateway to Arabidopsis biology, research materials and community. Nucl. Acids Res. ,31 =224-228,2003.[16]Qiaoping Yuan, Shu Ouyang, Aihui Wang, Wei Zhu, Rama Maiti, Haining Lin, John Hamilton, Brian Haas, Razvan Sultana, Foo Cheung, Jennifer Wortman, and C. Robin Buel1. The Institute for Genomic Research Osal rice genome annotation database. Plant Physiol.,138 :18—26,2005.[17]Guojie Zhang,Guangwu Guo,Xueda Hu,Yong Zhang,Qiye Li,Ruiqiang Li, Ruhong Zhuang, Zhike Lu, Zengquan He, Xiaodong Fang, Li Chen, Wei Tian, Yong Tao, Karsten Kristiansen,Xiuqing Zhang,Songgang Li,Huanming Yang,Jian Wang,and Jun Wang. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res. , 20 :646_54,2010.[18]Yuanji Zhang, miRU :an automated plant microRNA target prediction server. Nucleic Acids Res. ,33 :W701_4,2005.[19]Zhenhai Zhang, Jingyin Yu, Daofeng Li, Zuyong Zhang, Fengxia Liu, Xin Zhou, Tao Wang, Yi Ling, and Zhen Su. PMRD :plant microRNA database. Nucleic Acids Res. ,38 :D806-13,2010.
发明内容
本发明的目的是提供一种基于下一代测序数据的植物microRNA靶位互作网络预 测的方法。基于下一代测序数据的植物microRNA靶位互作网络预测的方法包括如下步骤1)收集植物microRNA和基因组数据;
2)处理植物microRNA数据;3)使用miRU预测植物microRNA的靶位点;4)收集PARE信号数据;5)建立PmiPKB数据库的“MiR-Tar”模块;6)利用PARE信号数据验证植物microRNA靶位互作关系;7)构建植物microRNA靶位互作网络。所述的收集植物microRNA和基因组数据步骤为水稻和拟南芥的microRNA数据 来自于版本15的miRBase,其中,水稻有成熟体序列498条,前体序列449条,拟南芥有成熟 体序列224条,前体序列199条,水稻的基因组数据来自于版本6. 1的TIGR,拟南芥的基因 组数据来自于版本9的TAIR。
所述的处理植物microRNA数据步骤为miRBase的microRNA数据为EMBL格式, 基因组坐标数据为GFF格式,使用PERL脚本解析这些数据,将其存入数据库,所有的序列均 转换成大写字母。所述的使用miRU软件预测植物microRNA的靶位点步骤为分别输入水稻的 microRNA和水稻基因组数据,选择miRU软件的默认参数,然后对水稻microRNA的基因靶 位点进行预测;分别输入拟南芥的microRNA和拟南芥基因组数据,选择miRU软件的默认参 数,然后对拟南芥microRNA的基因靶位点进行预测。所述的收集PARE信号数据步骤为PARE信号数据来自NGSD的10个数据集和 Yongfang Li的1个数据集,原数据进行归一化处理。所述的建立PmiPKB数据库的“MiR-Tar”模块步骤为用SVG图形表示microRNA 基因附近的PARE信号数据。图示的范围为microRNA前体基因组坐标左右共一万碱基对, 数据集纵向排列,方便用户进行比较。所述的利用PARE信号数据验证植物microRNA靶位互作关系步骤为使用PmiRKB 数据库中的“MiR-Tar”模块,图形化输出含PARE信号数据的全部靶位点互作关系,共计 8253对,再进行人工筛选校正,最终获得3077对可靠性较高的microRNA靶位互作关系。所述的预测植物microRNA靶位互作网络步骤为将获得的3077对可靠性较高的 microRNA靶位互作关系存储到以tab键分隔的文本文件中,利用NeAT将该文本文件转化为 通用的GML网络格式文件,使用yED网络可视化工具对这3077对microRNA靶位互作关系 进行可视化处理,构建出植物microRNA靶位互作网络。本发明整合了水稻、拟南芥的RNA末端并行分析数据,提供了映射到靶基因mRNA 与microRNA结合位点附近的PARE信号信息,可用于鉴别预测的microRNA-target mRNA 之间是否存在真实的切割调控关系;来自不同组织材料的PARE数据集间可以进行比较 以揭示这种调控关系的组织特异性。此外,又整合了已有的PARE数据,提供了映射到 pre-microRNA上的PARE信号情况,可用于监测DCLl对pri-或pre-microRNA的加工情况, 以及microRNA或microRNA*对其microRNA前体的自切割作用,组织间的差异依然可以通 过跨库比较来观察到。最后对水稻和拟南芥现有microRNA靶位互作关系进行人工筛选校 正,获得3077对可靠性较高的microRNA靶位互作关系,构建了网络模型并进行网络可视化 处理,此网络模型具有相当高的可靠性。
图1是PmiRKB数据库简要的ER图;图2是PmiRKB数据库的“MiR-Tar”模块中使用PARE信号数据验证拟南芥miR156h 对AT5G50570. 1的切割;图3是预测到的水稻microRNA靶位互作网络局部示意图;图4是预测到的拟南芥microRNA靶位互作网络局部示意图。
具体实施例方式基于下一代测序数据的植物microRNA靶位互作网络预测的方法包括如下步骤1)收集植物microRNA和基因组数据;
2)处理植物microRNA数据;3)使用miRU预测植物microRNA的靶位点;4)收集PARE信号数据;5)建立PmiPKB数据库的“MiR-Tar”模块;6)利用PARE信号数据验证植物microRNA靶位互作关系;7)构建植物microRNA靶位互作网络。所述的收集植物microRNA和基因组数据步骤为水稻和拟南芥的microRNA数据 来自于版本15的miRBase,数据包括了 microRNA名称、microRNA序列、前体名称、前体序 列、前体的基因组坐标以及参考文献。其中,水稻有成熟体序列498条,前体序列449条,拟 南芥有成熟体序列224条,前体序列199条,一条前体可能对应有多条成熟体。水稻的基因 组数据来自于版本6. 1的TIGR,拟南芥的基因组数据来自于版本9的TAIR。所述的处理植物microRNA数据步骤为miRBase的microRNA数据为EMBL格式, 基因组坐标数据为GFF格式,使用PERL脚本解析这些数据,将其存入数据库,所有的序列 均转换成大写字母。水稻的MIR156f和MIR531前体都对应有两个基因组坐标,为了简 化数据库结构,将对应于不同基因组坐标的同一前体分作多个前体来表示MIR156f(l)、 MIR156f (2)、MIR531 (1)和 MIR531 (2)。对于未给出 microRNA* 序列的 microRNA,根据前体 的二级结构,选择microRNA*序列使双链体3’端有两个碱基的突出[10]。所述的使用miRU软件预测植物microRNA的靶位点步骤为分别输入水稻的 microRNA和水稻基因组数据,选择miRU软件的默认参数,然后对水稻microRNA的基因靶 位点进行预测;分别输入拟南芥的microRNA和拟南芥基因组数据,选择miRU软件的默认参 数,然后对拟南芥microRNA的基因靶位点进行预测。所述的收集PARE信号数据步骤为RNA末端并行分析(PARE)是一种降解组高通 量测序技术,PARE信号数据可以用于microRNA对靶基因mRNA切割作用的分析。PARE信号 数据来自NGSD的10个数据集和Yongfang Li的1个数据集,原数据进行归一化处理,即利 用数据库提供的算术运算对原数据进行归一化处理,即将各个序列的读数除以所在数据集 的总读数,再乘以一百万,得到序列的RPM(数据集每百万读数中序列的读数)。所述的建立PmiPKB数据库的“MiR-Tar”模块步骤为用SVG图形表示microRNA基 因附近的PARE信号数据。图示的范围为microRNA前体基因组坐标左右共一万碱基对,由于 范围太大,在图示的上方给出了缩略图与可移动的窗口,通过JavaScript实现移动窗口查 看详细信息的功能。PARE序列的RPM用不透明度表示,在鼠标指到序列时显示出该序列具 体的基因组坐标和RPM值。数据集纵向排列,方便用户进行比较。在其中表示出microRNA 与靶基因mRNA间的配对,图示范围为mRNA上microRNA结合位点左右共约120碱基对。对 于唯一映射到该位点的PARE序列,在表示信号的矩形外加边框,以示区别。所述的利用PARE信号数据验证植物microRNA靶位互作关系步骤为使用PmiRKB 数据库中的“MiR-Tar”模块,图形化输出含PARE信号数据的全部靶位点互作关系,共计 8253对,再进行人工筛选校正,最终获得3077对可靠性较高的microRNA靶位互作关系。所述的预测植物microRNA靶位互作网络步骤为将获得的3077对可靠性较高的 microRNA靶位互作关系存储到以tab键分隔的文本文件中,利用NeAT将该文本文件转化为 通用的GML网络格式文件,使用yED网络可视化工具对这3077对microRNA靶位互作关系
8进行可视化处理,构建出植物microRNA靶位互作网络。实施例1.数据来源水稻和拟南芥的microRNA数据来自于miRBaSe[9],版本为15。数据包括了 microRNA名称、microRNA序列、前体名称、前体序列、前体的基因组坐标以及参考文献。其 中,水稻有成熟体序列498条,前体序列449条;拟南芥有成熟体序列224条,前体序列199 条。一条前体可能对应有多条成熟体。水稻microRNA前体的基因组坐标基于TIGR6.0伪 分子,拟南芥microRNA前体的基于TAIR9基因组。水稻的基因组数据来自于TIGR[16],版 本为6. 1。版本6. 1与6. 0仅有少数基因分类不同,因此miRBase提供的水稻microRNA前 体的基因组坐标适用于TIGR6. 1。拟南芥的基因组数据来自于TAIR,版本为9。(见表1)水稻的SNP 数据涉及 了 21 个亚种93-11、Nipponbare, Tainung 67、 Li-Jiang-Xin-Tuan-Hei-Gu> M 202、Azucena、Moroberekan> Cypress、Dom-Sufid> N 22、 Dular、FR13A、Aswina、Rayada>IR64-21、Shan-Huang Zhan-2、Pokkali、Swarna>Sadu-Cho> Minghui 63和Zhenshan 97B。其中Nipponbare为参考亚种。亚种93-11的SNP数据来自 于基因组的序列联配,原数据提供了 SNP周围共41碱基长的序列用于定位[7]。其余亚种 与Nipponbare间的SNP数据由重测序微阵列技术,结合基于模型(MB)或机器学习(ML)的 计算方法测定[13]。原数据提供了 SNP的TIGR5伪分子坐标和周围共201碱基长的序列, 可以用这些序列将SNP定位到TIGR6. 1上。取MB和ML方法的交集,以保证数据的高可靠 性。拟南芥的 SNP 数据涉及了 7 个亚种=Col-O,Bur-0,Tsu-ULer-UBay-O,Sha 和 Cvi-O0 其中Col-O是参考亚种。这些亚种的SNP数据来自TAIR的Polymorphism数据库,原数据 直接提供了 SNP的TAIR9基因组坐标[15]。水稻和拟南芥的MPSS数据主要来自于NGSD (Next-Gen Sequence Database)的35 个数据集[14]。原数据提供了每一个序列标签的读数,需要归一化处理以便进行数据集间 的对比。另外,Guojie Zhang等人用高通量方法得到的水稻亚种93-11的转录组数据,共2 个数据集,与MPSS数据类似,同样适合做microRNA基因转录的分析[17]。因此,可以将这 2个数据作为MPSS数据进行处理。PARE数据主要来自NGSD的10个数据集[14],原数据需要归一化处理。另外, Yongfang Li等人的水稻降解组数据,共1个数据集,与PARE数据类似,也可以用来分析 microRNA引导的mRNA切割[11]。因此,把这一数据集作为PARE数据进行处理,构建出植 物microRNA靶位互作网络。(见表2)表1 植物microRNA及基因组的数据来源
权利要求
一种基于下一代测序数据的植物microRNA靶位互作网络预测的方法,其特征在于,包括如下步骤1)收集植物microRNA和基因组数据;2)处理植物microRNA数据;3)使用miRU预测植物microRNA的靶位点;4)收集PARE信号数据;5)建立PmiPKB数据库的“MiR Tar”模块;6)利用PARE信号数据验证植物microRNA靶位互作关系;7)构建植物microRNA靶位互作网络。
2.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预 测的方法,其特征在于,所述的收集植物microRNA和基因组数据步骤为水稻和拟南芥的 microRNA数据来自于版本15的miRBase,其中,水稻有成熟体序列498条,前体序列449条, 拟南芥有成熟体序列224条,前体序列199条,水稻的基因组数据来自于版本6. 1的TIGR, 拟南芥的基因组数据来自于版本9的TAIR。
3.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的处理植物microRNA数据步骤为=HiiRBase的microRNA数据为 EMBL格式,基因组坐标数据为GFF格式,使用PERL脚本解析这些数据,将其存入数据库,所 有的序列均转换成大写字母。
4.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的使用miRU软件预测植物microRNA的靶位点步骤为分别输入 水稻的microRNA和水稻基因组数据,选择miRU软件的默认参数,然后对水稻microRNA的 基因靶位点进行预测;分别输入拟南芥的microRNA和拟南芥基因组数据,选择miRU软件的 默认参数,然后对拟南芥microRNA的基因靶位点进行预测。
5.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的收集PARE信号数据步骤为PARE信号数据来自NGSD的10个 数据集和Yongfang Li的1个数据集,原数据进行归一化处理。
6.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的建立PmiPKB数据库的“MiR-Tar”模块步骤为用SVG图形表示 microRNA基因附近的PARE信号数据。图示的范围为microRNA前体基因组坐标左右共一万 碱基对,数据集纵向排列,方便用户进行比较。
7.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的利用PARE信号数据验证植物microRNA靶位互作关系步骤为 使用PmiRKB数据库中的“MiR-Tar”模块,图形化输出含PARE信号数据的全部靶位点互作 关系,共计8253对,再进行人工筛选校正,最终获得3077对可靠性较高的microRNA靶位互 作关系。
8.如权利要求1所述的一种基于下一代测序数据的植物microRNA靶位互作网络预测 的方法,其特征在于,所述的预测植物microRNA靶位互作网络步骤为将获得的3077对可 靠性较高的microRNA靶位互作关系存储到以tab键分隔的文本文件中,利用NeAT将该文 本文件转化为通用的GML网络格式文件,使用yED网络可视化工具对这3077对microRNA靶位互作关系进行可视化处理,构建出植物microRNA靶位互作网络。
全文摘要
本发明公开了一种基于下一代测序数据的植物microRNA靶位互作网络预测的方法。它包括如下步骤1)收集植物microRNA和基因组数据;2)处理植物microRNA数据;3)使用miRU预测植物microRNA的靶位点;4)收集PARE信号数据;5)建立PmiPKB数据库的“MiR-Tar”模块;6)利用PARE信号数据验证植物microRNA靶位互作关系;7)构建植物microRNA靶位互作网络。本发明整合了水稻、拟南芥的RNA末端并行分析数据,提供了映射到靶基因mRNA与microRNA结合位点附近的PARE信号信息,可用于鉴别预测的microRNA-target mRNA之间是否存在真实的切割调控关系;来自不同组织材料的PARE数据集间可以进行比较以揭示这种调控关系的组织特异性。对水稻和拟南芥现有microRNA靶位互作网络进行预测,并人工进一步筛选得到最终网络模型,具有相当高的可靠性。
文档编号C12Q1/68GK101976296SQ20101028168
公开日2011年2月16日 申请日期2010年9月10日 优先权日2010年9月10日
发明者克里斯汀·克鲁卡斯, 孟一君, 白琳, 苟凌峰, 陈迪俊, 陈铭, 黄冬林 申请人:浙江大学