本公开涉及噬菌体的结构变异的检测方法以及检测系统。
背景技术:
1、噬菌体,包括细菌噬菌体和古菌病毒,在人类肠道环境中广泛存在。这些噬菌体通过调控肠道微生物群落的结构和功能,以及促进细菌间的水平基因转移,对于维持肠道生态平衡至关重要。人类肠道噬菌体群落(又称噬菌体组)主要由有尾双链dna噬菌体(dsdna噬菌体)构成,其中比较常见的种类包括crassphage和gubaphage。最近的宏基因组相关研究揭示了肠道噬菌体组在不同个体之间存在较高的物种组成差异。除了宏观上的物种组成多样性以外,噬菌体基因组的快速进化特性也是导致肠道噬菌体组个体间多样性增加的重要因素。这主要表现在同一噬菌体种类内存在高度的遗传多样性。这种噬菌体基因组的遗传多样性(microdiversity)在噬菌体生态学中具有重要意义,有助于深入了解噬菌体的适应机制、进化历程以及与细菌相互作用的动态特性。
2、单核苷酸变异(single nucleotide variations,snvs)和结构变异(structuralvariations,svs)是噬菌体基因组遗传多样性的主要贡献者。以往的研究已经表明,大多数噬菌体基因组序列会随着时间的推移逐渐累积snvs,这种snv的累积过程在噬菌体的演化和适应中起到了关键作用。除此之外,噬菌体种群内部存在着微小异质性。具体来说,在任何一个特定时间点,即使是同一种噬菌体类型,也可能由多个不同的噬菌体菌株所组成。尽管对于噬菌体的遗传多样性已经有了深入理解,但之前的研究主要是利用短读段测序对微小的基因变异进行解析。然而,更大的遗传变异,特别是结构变异,仍未得到充分的探讨。
3、sv是一种可变的基因组片段,涉及到基因组中较大片段的重排、插入、删除或复制,而不仅仅是单个核苷酸的变化。这些svs可能携带与表型特征相关的功能基因,例如毒性、宿主免疫逃避和致病性。因此,它们提供了对噬菌体功能的次级基因组分辨率,可能比单核苷酸变异(snvs)发挥着更为重要的作用。因此,从结构变异的视角对肠道噬菌体组进行表征对于深入了解噬菌体的演化历程和生态功能至关重要。
4、然而,目前对人类肠道噬菌体组遗传多样性的研究主要集中在单个位点的变异上,而对较大的结构变异的研究仍相对有限。目前,现有技术中还不存在可以用于检测噬菌体结构变异的方法。
技术实现思路
1、鉴于现有技术的上述缺陷与不足,本发明人设计了一种噬菌体的结构变异(sv)的检测方法,其包括样品准备步骤、参考品准备步骤、比对步骤、结构变异检测步骤、结构变异整合步骤和结构变异过滤步骤。
2、一方面,本公开提供了一种用于检测噬菌体的结构变异的方法,其包括以下步骤:
3、1)提供包含双链dna噬菌体的噬菌体基因组样本;
4、2)建立噬菌体参考基因组集合并对所述噬菌体参考基因组集合进行预先筛选,得到预先筛选的噬菌体参考基因组集合,所述预先筛选的噬菌体参考基因组集合与噬菌体基因组样本具有至少0.90序列相似度;
5、3)将噬菌体基因组中的长序列比对到所述预先筛选的噬菌体参考基因组集合上;
6、4)利用至少两个结构变异检测工具检测结构变异,由每个结构变异检测工具生成一个结构变异集合;
7、5)将由至少两个结构变异检测工具生成的至少两个结构变异集合进行整合,得到合并的结构变异集合;和
8、6)对所述合并的结构变异集合进行过滤,仅保留被至少两个结构变异检测工具共同检测到的结构变异,得到最终的结构变异集合。
9、在一个实施方式中,在本公开方法的步骤2)中,预先筛选的噬菌体参考基因组集合中不包括噬菌体基因组样本中不存在的病毒组集合。
10、在一个实施方式中,在本公开方法的步骤2)中,相似度基于mash距离确定。
11、在一个实施方式中,在本公开方法的步骤3)中,使用pbmm2进行比对。
12、在一个实施方式中,在本公开方法的步骤3)中,长序列是通过pacbio单分子实时测序技术生成的ccs读取。
13、在一个实施方式中,在本公开方法的步骤4)中,利用四个结构变异检测工具检测结构变异,由每个结构变异检测工具生成一个结构变异集合。
14、在一个实施方式中,在本公开方法的步骤4)中,结构变异检测工具包括sniffles、cutesv、pbsv和svim。
15、在一个实施方式中,在本公开方法的步骤5)中,整合通过如下进行:根据结构变异的位置和长度,运用集群近似搜索技术cast对每种结构变异类型进行独立合并,确保所有检测到的结构变异被划分成互不重叠的群组。
16、在一个实施方式中,在本公开方法的步骤6)中,进一步过滤掉被少于两个读段支持的结构变异或长度为50bp以下的结构变异(即,仅保留被至少两个读段支持且长度超过50bp的结构变异)。
17、在一个实施方式中,在本公开方法的步骤6)中,进一步过滤掉位于噬菌体片段的起始或终止端100bp范围内的结构变异。
18、另一方面,本公开还提供了用于检测噬菌体的结构变异的系统,其包括样品准备模块、参考品准备模块、比对模块、结构变异检测模块、结构变异整合模块和结构变异过滤模块,其中:所述样品准备模块用于提供包含双链dna噬菌体的噬菌体基因组样本;所述参考品准备模块用于建立噬菌体参考基因组集合并对所述噬菌体参考基因组集合进行预先筛选,以得到预先筛选的噬菌体参考基因组集合,所述预先筛选的噬菌体参考基因组集合与噬菌体基因组样本具有至少0.90序列相似度;所述比对模块用于将噬菌体基因组样本中的长序列比对到所述预先筛选的噬菌体参考基因组集合上;所述结构变异检测模块包括至少两个结构变异检测工具,所述至少两个结构变异检测工具中的每个结构变异检测工具用于生成一个结构变异集合;所述结构变异整合模块用于将由至少两个结构变异检测工具生成的至少两个结构变异集合进行整合,以得到合并的结构变异集合;所述结构变异过滤模块用于对所述合并的结构变异集合进行过滤,仅保留被至少两个结构变异检测工具共同检测到的结构变异。
19、在一个实施方式中,结构变异过滤模块进一步过滤掉被少于两个读段支持的结构变异或长度为50bp以下的结构变异。
20、在一个实施方式中,结构变异过滤模块进一步过滤掉位于噬菌体片段的起始或终止端100bp范围内的结构变异。
21、在一个实施方式中,本公开的方法和系统利用病毒颗粒(viral-like particles,vlps)富集后的长读测序技术,可以对人类肠道噬菌体组进行全面的sv表征。
22、本公开的方法和系统能够基于三代测序技术大规模检测噬菌体组的结构变异。利用本公开的方法和系统在人类肠道噬菌体组中准确识别出了大量的sv,证实了sv在人体肠道噬菌体组中广泛存在。
1.一种用于检测噬菌体的结构变异的方法,其包括以下步骤:
2.根据权利要求1所述的方法,其中,在步骤2)中,所述预先筛选的噬菌体参考基因组集合中不包括噬菌体基因组样本中不存在的病毒组集合;和/或所述相似度基于mash距离确定。
3.根据权利要求1所述的方法,其中,在步骤3)中,使用pbmm2进行所述比对。
4.根据权利要求1所述的方法,其中,在步骤3)中,所述长序列是通过pacbio单分子实时测序技术生成的ccs读取。
5.根据权利要求1所述的方法,其中,在步骤4)中,利用四个结构变异检测工具检测结构变异,由每个结构变异检测工具生成一个结构变异集合;和/或在步骤4)中,所述结构变异检测工具包括sniffles、cutesv、pbsv和svim。
6.根据权利要求1所述的方法,其中,在步骤5)中,所述整合通过如下进行:根据结构变异的位置和长度,运用集群近似搜索技术cast对每种结构变异类型进行独立合并,确保所有检测到的结构变异被划分成互不重叠的群组。
7.根据权利要求1至6中任一项所述的方法,其中,在步骤6)中,进一步过滤掉被少于两个读段支持的结构变异或长度为50bp以下的结构变异;和/或,进一步过滤掉位于噬菌体片段的起始或终止端100bp范围内的结构变异。
8.用于检测噬菌体的结构变异的系统,其包括样品准备模块、参考品准备模块、比对模块、结构变异检测模块、结构变异整合模块和结构变异过滤模块,其中:
9.根据权利要求8所述的方法,其中,所述结构变异过滤模块进一步过滤掉被少于两个读段支持的结构变异或长度为50bp以下的结构变异。
10.根据权利要求8或9所述的方法,其中,所述结构变异过滤模块进一步过滤掉位于噬菌体片段的起始或终止端100bp范围内的结构变异。