确定异常状态相关生物标志物的方法及系统的制作方法
【专利说明】
[0001] 优先权?目息
[0002] 本发明专利申请要求于2012年8月1日提交的PCT专利申请NO. PCT/ CN2012/079524的权益,该专利申请在此全部引用作为参考。
技术领域
[0003] 本发明涉及生物技术领域。具体地,本发明涉及确定异常状态相关生物标志物的 方法及系统。
【背景技术】
[0004] 宏基因组学(metagenomics)又称为环境基因组学,元基因组学,生态基因组学, 或者群落基因组学,这是一门直接研宄自然状态下微生物群落,包含了可培养的和不可培 养的细菌、真菌和病毒的基因组总和的学科。1998年,威斯康辛大学植物病理学部门的 Handelsman等人在研宄土壤微生物时,最早提出了"宏基因组学"这一概念。传统的微生 物研宄受到微生物分离和纯培养技术限制。然而,宏基因组学研宄是基于特定环境下的微 生物群落,其研宄目的是微生物多样性、种群结构、进化关系、功能活性、相互协作关系及 新微生物之间的环境关系。宏基因组学的基本研宄策略包括:环境基因组大片段DNA的提 取和纯化、文库构建、目的基因筛选和/或大规模测序分析。宏基因组文库中包含了可培养 的和不可培养的微生物基因和基因组。将某个自然环境中的DNA克隆到可培养的宿主细胞 中,从而避开了微生物分离和培养的难题。在该研宄中,借助于大规模序列分析并结合生 物信息学工具,在基因序列分析的基础上,大量未知微生基因或新基因簇被发现。这对 了解微生物群落组成、进化历程和代谢特点,以及挖掘具有应用潜力的新基因具有重要意 义。
[0005] 然而,目前的宏基因组研宄仍有待改进。
【发明内容】
[0006] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出了能够 有效确定对象中异常状态相关生物标志物的方法和系统。
[0007] 根据本发明的第一方面,本发明提出了一种确定对象中异常状态相关生物标志物 的方法。根据本发明的实施例,该方法包括:对来自第一对象的核酸样本和来自第二对象的 核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序 列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自 第一对象的核酸样本和所述来自第二对象的核酸样本都分离自相同类型的样本,所述第一 对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差 异,确定所述异常状态相关生物标志物。
[0008] 根据本发明的实施例,所述确定对象中异常状态相关生物标志物的方法可能进一 步具有下列附加技术特征:
[0009] 根据本发明的一个实施例,所述异常状态为疾病。
[0010] 根据本发明的一个实施例,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性 疾病和代谢性疾病中的至少一种。
[0011] 根据本发明的一个实施例,所述异常状态为糖尿病。
[0012] 根据本发明的一个实施例,所述第一对象和所述第二对象为人。
[0013] 根据本发明的一个实施例,所述来自第一对象的核酸样本和所述来自第二对象的 核酸样本分别分离自所述第一对象和第二对象的排泄物。
[0014] 根据本发明的一个实施例,利用第二代测序方法或第三代测序方法对来自所述第 一对象的核酸样本和来自所述第二对象的核酸样本进行测序。
[0015] 根据本发明的一个实施例,利用选自把8叫2000、501^10、454、和单分子测序装置的 至少一种进行所述测序步骤。
[0016] 根据本发明的一个实施例,基于所述第一测序结果和所述第二测序结果的差异, 确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果 与参考基因集进行比对;基于比对结果,分别确定来自所述第一对象和所述第二对象的所 述核酸样本中基因的相对丰度;对来自所述第一对象和所述第二对象的所述核酸样本中基 因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样 本之间相对丰度存在显著差异的基因为基因标志物。
[0017] 根据本发明的一个实施例,在将所述第一测序结果和所述第二测序结果与参考基 因集进行比对之前,采用过滤步骤以便去除污染序列。所述污染序列为选自下列的至少一 种:接头序列,低质量序列和宿主基因组序列。
[0018] 根据本发明的一个实施例,利用选自SOAP2和MAQ的至少一种进行所述比对步骤, 将所述第一测序结果和所述第二测序结果与参考基因集进行比对,任选地,人类肠道微生 物群落非冗余基因集。
[0019] 根据本发明的一个实施例,所述方法进一步包括:对来自所述第一测序结果和所 述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参 考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中 以便获得一个更新的基因集;以及进行物种分类和功能注释。
[0020] 根据本发明的一个实施例,所述物种分类是通过将所述参考基因集中每个基因与 MG数据库进行比对而进行的。
[0021] 根据本发明的一个实施例,利用BLASTP方法将所述参考基因集中每个基因与MG 数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度 作为属水平的分类阈值,对于每个基因,超过所述两个域值的最高得分结果被选择为属水 平的分类;以及对于门水平的物种分类,用65%相似性代替。
[0022] 根据本发明的一个实施例,功能注释是通过将假定氨基酸序列与eggNOG和KEGG 的至少之一数据库中的"蛋白/结构域"进行比对而进行的,其中,所述假定氨基酸序列是 由所述基因集翻译的。
[0023] 根据本发明的一个实施例,根据E-Value值小于le-5的函数,利用BLASTP方法将 假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的"蛋白/结构域"进行比对而进 行的,其中,所述假定氨基酸序列是由所述基因集翻译的。
[0024] 根据本发明的一个实施例,所述相对丰度包含物种相对丰度和功能相对丰度,以 及所述参考基因集包含物种分类和功能注释。基于所述第一测序结果和所述第二测序结果 的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二 测序结果与参考基因集进行比对;以及基于比对结果,分别确定来自所述第一对象和所述 第二对象的核酸样本中各基因的物种相对丰度和功能相对丰度;以及对来自所述第一对象 和所述第二对象的核酸样本中各基因的物种相对丰度和功能相对丰度进行统计检验;以及 分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的 物种标志物和功能标志物。任选地,在获得所述相对丰度之后,泊松分布用于对相对丰度的 精确性进行统计检验。
[0025] 根据本发明的一个实施例,所述方法进一步包括肠型鉴定。
[0026] 根据本发明的一个实施例,所述方法进一步包括评估每个表观因素(covariate) 的影响,任选地,肠型、II型糖尿病、年龄、性别和BMI。优选地,利用置换多元方差分析方法 进行评估。
[0027] 根据本发明的一个实施例,所述方法进一步包括校正所述数据的群体分层分析, 其中,校正基因的相对丰度谱,优选地,利用EIGENSTRAT方法以便剔除所述表观因素的影 响。
[0028] 根据本发明的一个实施例,所述统计检验选自Student T检验、Wilcox轶和检验 的至少一种进行。
[0029] 根据本发明的一个实施例,所述方法进一步包括对所述基因