高通量检测脊椎动物病原体基因芯片的探针设计方法

文档序号:6437638阅读:480来源:国知局
专利名称:高通量检测脊椎动物病原体基因芯片的探针设计方法
技术领域
本发明涉及生物芯片探针的一种设计方法。尤其是基于此方法设计得到的探针用来对以脊椎动物为宿主的病毒、细菌、真菌、原生动物进行高通量检测,本发明对不同类型的病原体分别采用了有针对性的设计流程。
背景技术
传染病是由各种病原体引起的能在人与人、动物与动物或人与动物之间相互传播的一类疾病。每种传染病都有其特异的病原体,包括病毒、细菌、真菌、原虫、螺旋体、立克茨体等。传染病与其他种类疾病相比,具有发病强度高、传播速度快、波及范围广、地域性和季节性强等特点,传染病产生的危害性极大,不但患者死亡率高,而且容易导致社会恐慌心理,产生的次级危害往往更大,直接影响社会的经济活动和人的正常生活秩序。虽然传染病理论上分为人与人、动物与动物或人与动物专有传染病,但是许多传染性疾病,甚至包括流行病,都起于人畜共通的特性,要区分哪些疾病从感染动物逐步演化成可以感染人类并不简单,但有证据显示麻疹、天花、流行性感冒、白喉等皆是如此。而艾滋病、感冒和结核也都来自人类以外的物种。人畜通病在国际间引起密切关注,因为它们通常是过去未被发现的疾病,或是毒力在演化过程中增强,或偶然传入不具对抗该疾病之免疫力的族群或物种。因此,对以脊椎动物为宿主的病原体进行系统地监测,是有效进行传染病防控的一个必要环节。在传染病爆发过程中,人类由以前被动承受,到治疗控制,再到提前预防控制,积累了大量和传染病做斗争的技术经验。特别是随着现代医学和分子生物学技术发展,人类已经建立起了多种具体传染病检测方法,I)微生物培养法;2)血清学标记物检测法;3)血液或分泌物中所含病毒和病原相关蛋白质检测,其中包括ELISA、胶体金等方法;4)通过传染源核酸序列,进行特异性的荧光定量PCR检测法;5)快速发展的生物芯片微阵列高通量方法。微生物培养法由于直观方便等特点,还是最主要的传染病诊断工具,但有些传染原如病毒和钩端螺旋体无法进行人工培养,就只能借助其他诊断工具;血清学标记物检测法,也是通过病原体感染机体后产生的特异性抗体进行检测,通行的抗体检测由于存在“血清学窗口期”,只能在感染2-4周后才能确诊,而且该方法还需要和微生物培养法相互引证;基于血液或分泌物的病原蛋白质检测,如ELISA和胶体金法也是对血清学检测方法的改进,也同样存在以上弊端;新近涌现的针对病原体的RNA或DNA的荧光定量PCR检测方法,有灵敏性高,准确率高,能够有效缩短“病原窗口期”等特点。但该检测方法也只能针对已知病原体设计特异的PCR引物和探针,不能实现高通量检验检测,不能满足新发与突发性传染病的快速、准确、灵敏的诊断需求,是重大传染性疾病的防疫防控与及时救治的主要技术瓶颈之一。生物芯片方法,在考虑了传统和现有传染病检测方法的局限性基础之上,结合现代分子生物学高通量技术优势,而建立起来的传染病病原体诊断检测方法。该方法主要技术优点包括:1)高通量。一张芯片上的一个点阵可以对一份样本同时分析成千上万种的病原体,而一张芯片上有可以同时分析数十个临床样本;2)快速、准确和灵敏。单次检测I天即可完成,加之高通量特异性,检测效力明显优于现有的其他方法;由于检测过程中采用全封闭的荧光自动化检测系统,集合特异性探针,检测准确度高、灵敏度好;3)可检测未知病原体。现有病原体检测方法,只能对已知病原体进行确认,对于未知病原体检测则无能为力,例如荧光定量PCR方法,有很多技术优势,但前提必须知道被检病原体核酸序列,否则将无法检测。而生物芯片检测系统,由于探针设计本身就具有兼容性,检测序列发生突变将不会影响杂交检测。大部分病原体新品种其实都是已知病原体在药物和环境压力下的突变体,序列具有很高同源性。由于生物芯片检测技术本身技术优点和临床应用的潜在价值,使得国内外众多科技专家专注于生物芯片检测技术在传染病学中的研究。例如,美国加州大学旧金山分校DeRisi实验室研发的能检测多种病毒的Virochip芯片,美国哥伦比亚大学Lipkin实验室研发的能同时检测多种病毒、细菌、真菌和寄生虫的GreeneChip芯片等。生物芯片探针设计的目的在于:经过计算方法优化后的探针能够在检测到更多的生物分子的同时,保证有较高的检测可靠性,即同时兼顾覆盖率和准确率两个方面,对于高通量的病原体检测这一点是至关重要的。通常的做法是首先查询如EMBL和GenBank等国际公共数据库,取得相应的DNA序列数据作为生物芯片探针设计的参照目标序列,然后从中选择特异性很高的核苷酸片段来设计探针。特异性是指目标物种和非目标物种间的存在的差异,是检测型生物芯片鉴别物种的核心依据。特异性探针的选择是探针设计过程中的关键环节,探针优化设计算法研究已成为检测型基因芯片信息处理中一个急需解决的问题。对于小规模物种的鉴别,主要是通过序列比对的结果依靠人工分析选择,但是随着对单个芯片检测物种数量需求的快速增加,待分析的序列越来越多,再加上探针设计还要考虑很多其他方面的复杂因素,人工设计不仅费时费力,而且质量难以保证,因此计算方法在探针设计方面得到了广泛的应用。Waibhav提出了一套从病原体全基因组序列出发的探针设计流程,Satya在此流程基础之上又进行了改进,除了有效地减少了计算时间以外,还使用了多套度量探针专一性的判据对探针质量进行了理论评估。Jabado等人进行了针对于病毒检测芯片的探针设计工作,他们认为在序列保守性分析方面,使用蛋白质-蛋白质比对相较于核酸序列之间的比对更有优势,因此他们提出了基于一套从病毒蛋白质序列出发的探针设计流程。为了兼顾对探针高覆盖率的要求,还补充了一些以非编码区域为模板设计出来的探针。综上所述,目前的生物芯片探针设计方法,更加科学、合理,所设计出的探针有着比较好的覆盖率和准确率,能够满足高通量检测的需求。但是这些设计方法也存在着两方面的主要不足:1)计算耗时,设计效率较低。以Satya等人的TOF1-beta流程为例,在74个CPU上设计一个物种Brucella melitensis的检测探针,就需要21个小时;2)很多的探针设计流程,由于序列资源的限制,只能在属的层次上得到满足条件检测探针,难以做到更加精细的检测。随着序列资源的不断丰富,检测种或者亚种层次上的病原体都将成为可能,而现有的设计流程都缺少一个动态的数据管理更新系统,不能做到与快速增长的序列数据库做到同步更新
发明内容
生物芯片是在现代分子生物学高通量技术的基础之上,建立起来的可用于病原体诊断检测方法。随着序列资源的不断丰富,检测属、种甚至于亚种层次上的病原体都将成为可能,各大医疗和公共卫生机构对单个芯片检测物种数量需求也相应地在快速增加。传统的探针设计方法主要集中于对小规模物种的鉴别,主要是通过序列比对的结果依靠人工分析选择,设计效率较低,且质量不高。本发明在整合了国际上最先进的探针设计方法的基础之上,进行了有针对性的改进。对于细菌、病毒、真菌等不同类型的病原体,采用了不同的序列模板进行探针设计。在设计流程中,充分考虑了病原体序列的情况,尽量在从属到种再到亚种,越来越精细的层次上设计检测探针。同时兼顾了探针的覆盖率和准确率,这对于高通量的病原体检测是非常重要的。


图1是针对检测对象为细菌、真菌以及原生动物三类病原体的,以rRNA为模板的探针设计流程。图2是针对检测对象为病毒,以结构蛋白编码序列为模板的探针设计流程。图3为细菌Brevibacterium epidermidis中四条序列进行多序列比对后的片段图4是从进化树的分支上寻找细菌Brevibacterium epidermidis最近邻菌种的示意图
具体实施例方式下面结合具体的实例及附图对本方法作进一步说明。一、针对细菌、真菌以及原生动物的以rRNA为模板的设计流程我们将细菌Brevibacterium epidermidis作为目标物种,并以它为例介绍图1所示的探针设计流程。首先,从Ribosomal Database Project (RDP)数据库里得到目标物种的16S rRNA序列。根据这些16S rRNA序列,进行序列比对,从GenBank中抽提出该物种更多的16S rRNA序列,同时对序列的种属描述信息进行校正,确保为目标物种的16S rRNA序列。对目标物种的多条16SrRNA进行多序列比对,抽提出种内保守的序列区域。图3所示为其中的一段保守序列片段。通过系统发生分析,对所研究额全部细菌菌种的代表性序列构建进化树,从进化树的分支中可以找到目标物种的最近邻物种,如图4所示,细菌Brevibacteriumepidermidis的最近邻菌种为Kineosporia aurantiaca。将两个菌种进行序列比对,得到种间的保守区。从Brevibacterium epidermidis的种内保守区域中去除这部分种间保守区,即得到了目标菌种的特异性区域,作为备选序列进行下一步的探针设计。根据如下的几类实验条件,包括探针长度为60mer,所有探针的理论融解温度在2度内波动,GC含量在30% -70%的范围内等等,从备选序列中抽提出满足条件的备选探针集合。构建将脊椎动物序列和相应的病原体序列整合到一起的非目标物种序列库,通过Blastn对备选探针进行同源性检测。我们设置的特异性标准是备选探针对于非目标物种基因的连续互补片段长度小于15bp,总的互补长度应小于75%。通过筛选,去除掉可能与非目标物种序列产生交叉杂交的结果,得到高专一性的探针。
二、针对病毒以蛋白质编码序列为模板的设计流程图2所示的探针设计流程为针对病毒的,并以蛋白质编码序列为模板的设计流程。首先,从European Molecular Biology Laboratory(EMBL)数据库中下载病毒序列标准文件。从中抽提整理属于目标病毒的序列,根据序列文件提供的信息,进一步抽提出编码结构蛋白的核酸序列以及所编码的蛋白质序列。将这些蛋白质序列与Pfam proteinfamilies database中的种子序列进行比对,得到保守的序列区域,将其对应的核酸编码区作为下一步设计的备选序列。对于那些不能够通过与Pfam数据库比对得到保守区的序列,直接将它们的核酸编码区进行序列比对、聚类,得到保守区域,作为备选序列的另一个来源。从备选序列出发设计探针的步骤与以rRNA为模板的设计流程中后面的步骤是是一致的。
权利要求
1.一种针对细菌、真菌以及原生动物三类病原体的探针,其特征是一种基于16SrRNA或18S rRNA序列模板的设计方法为基础的探针,包括:从RibosomalDatabaseProject(RDP)数据库里得到目标物种的rRNA序列,抽提出物种内部的保守的序列区域; (1)通过系统发生分析,对多个物种的代表性序列构建进化树,从进化树的分支中找到目标物种的最近邻物种; (2)将两个物种进行序列比对得到种间的保守区; (3)从目标物种的种内保守区域中去除这部分种间保守区,得到目标物种的特异性区域,作为备选序列; (4)针对该备选序列进行探针设计,对得到的备选探针进行特异性评估,去除那些可能产生交叉杂交的低质量探针。
2.一种针对病毒的探针,其特征是一种基于结构蛋白编码序列的设计方法为基础的探针,通过蛋白-蛋白比对获取保守区域的信息,包括: (1)从EMBL数据库中下载病毒序列标准文件,从中抽提出编码结构蛋白的核酸序列以及相应的蛋白质序列; (2)将这些蛋白质序列与Pfam数据库中的种子序列进行比对,得到保守的序列区域,将与其对应的核酸编码区作为下一步设计的备选序列; (3)按照权利要求1中所述的步骤(4),进行后续的探针设计。
全文摘要
本发明涉及一种生物芯片的探针设计方法,尤其是设计出用于对以脊椎动物为宿主的病毒、细菌、真菌等病原体进行高通量检测的探针。本发明提供的方法,包括1)针对检测对象为细菌、真菌以及原生动物三类病原体的,以rRNA为模板的探针设计方法;2)针对检测对象为病毒,以结构蛋白编码序列为模板的探针设计方法。
文档编号G06F19/20GK103093120SQ20111034875
公开日2013年5月8日 申请日期2011年11月8日 优先权日2011年11月8日
发明者张鑫磊, 蒋小云, 肖琛 申请人:北京健数通生物计算技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1