鉴定核酸条形码的方法与流程

文档序号:34073920发布日期:2023-05-06 20:55阅读:30来源:国知局
鉴定核酸条形码的方法与流程


背景技术:

1、核酸测序可用于评估生物样品中的一种或多种疾病迹象。例如,核酸测序可用于确定患者样品是否含有与疾病或病症相关的一个多个基因组突变,或查询患者样品是否存在一个或多个指示感染(例如,病毒、细菌或其它微生物感染)的序列。

2、为了有效地处理许多样品,核酸测序通常在多重测序反应中进行,所述多重测序反应允许从许多不同样品获得(例如,来自不同患者)的核酸模板在同一反应中一起测序。在典型的多重反应中,通过将样品特异条形码附着在核酸上对来自不同样品的核酸进行标记,然后再将它们组合进行测序。所得的测序数据含有许多具有不同条形码的不同序列。序列分析的初始步骤可能涉及鉴定与不同序列相关的条形码,以便将序列与获得它们的样品相匹配。条形码错误鉴定可能是导致不正确或不确定的诊断或疾病检测的错误的来源。因此,需要鉴定具有特定条形码的核酸的新方法。


技术实现思路

1、该应用程序的方法和系统可用于鉴定从多重测序反应获得的数据中的核酸条形码序列。测序数据可以从任何测序平台获得,例如使用任何涉及向不同核酸(例如,来自不同样品)添加条形码并在共同测序反应中组合带条形码的核酸的测序方案。发明人发现了一种可靠且稳健的条形码检测方法,所述方法涉及在根据参考核酸的评分区域对经比对的靶标核酸进行评分之前,在靶标核酸和参考核酸之间生成比对,在一些实施例中,所述参考核酸包含特定的条形码序列和来自固定上下文序列(例如,引物序列)的侧翼核苷酸。因此,在一些方面,本公开提供了一种确定靶标核酸(例如,多重样品中的靶标核酸)是否包括特定条形码序列的方法。

2、在一些方面,本公开提供了一种方法,其包括:

3、对于一个或多个靶标核酸和一个或多个参考核酸的每个相应对,使用至少一个计算机硬件处理器执行以下步骤:

4、(i)在相应靶标核酸的至少一个片段与相应参考核酸的至少一个片段之间生成比对,其中所述相应参考核酸包括相应的条形码序列和相应的第一上下文序列,

5、(ii)确定所述相应参考核酸的评分区域与所述相应靶标核酸的对应片段之间的序列相似性,其中基于所述比对鉴定所述对应片段,

6、其中所述评分区域包括所述相应条形码序列的至少一部分和所述相应第一上下文序列的至少一个且不超过第一阈值数的核苷酸;以及

7、(iii)基于所述相应靶标核酸与所述相应参考核酸的评分区域之间的所述序列相似性,确定(或鉴定)所述靶标核酸是否包括所述相应参考核酸的条形码序列。

8、本公开的另外的方面提供了用于执行本文中描述的任何方法的系统。

9、本公开的又另外的方面提供了一种存储处理器可执行指令的计算机程序,当所述程序由至少一个计算机硬件处理器执行时,所述处理器可执行指令使所述计算机执行本文中描述的任何方法。在另一方面,提供了存储此类计算机程序的至少一个计算机可读存储器。

10、在一些实施例中,所述或每个参考核酸进一步包括第二上下文序列,并且所述评分区域进一步包括所述第二上下文序列的不超过第二阈值的核苷酸。在一些实施例中,在生成步骤(i)中的所述比对之前,在所述相应靶标核酸的所述至少一个片段与至少含有所述相应条形码序列和所述相应的第一上下文序列的所述相应参考核酸的初始区域之间生成初始比对,其中在步骤(i)中生成所述比对是基于所述初始比对执行的,并且其中所述相应参考核酸的所述片段是所述参考核酸的所述评分区域。

11、在一些实施例中,所述一个或多个靶标核酸是一个靶标核酸,并且所述一个或多个参考核酸是一个参考核酸,并且其中步骤(iii)包括基于所述一个靶标核酸与所述一个参考核酸的所述评分区域之间的序列相似性来确定所述一个靶标核酸是否包括所述一个参考核酸的所述条形码序列。

12、在一些实施例中,所述一个或多个靶标核酸包括一个核酸并且所述一个或多个参考核酸包括多个参考核酸,并且其中步骤(iii)包括基于所述一个靶标核酸和多个参考核酸的相应对的序列相似性来确定(或鉴定)所述多个参考核酸的哪些相应的条形码序列包含在所述一个靶标核酸中。

13、在一些实施例中,所述一个或多个靶标核酸包括多个核酸并且所述一个或多个参考核酸包括一个参考核酸,并且其中步骤(iii)包括基于所述多个靶标核酸和一个参考核酸的相应对的序列相似性来确定(或鉴定)所述多个靶标核酸中的哪一个含有所述一个参考核酸的所述条形码序列。

14、在一些实施例中,所述方法的步骤(iii)包括将所述相应靶标核酸和相应参考核酸的序列相似性与评分阈值进行比较。

15、在一些实施例中,所述方法的步骤(iii)包括从一个或多个靶标核酸和一个或多个参考核酸的至少多个相应对中鉴定出最高的序列相似性。

16、在一些实施例中,所述一个或多个参考核酸包括多个参考核酸,其中每个参考核酸包括具有不同且独特的核苷酸序列的相应条形码序列。在一些实施例中,所述一个或多个参考核酸包括至少8个、16个、32个、64个、96个、192个、288个、384个或480个参考核酸。

17、在一些实施例中,所述一个或多个靶标核酸包括至少8个、16个、32个、64个、96个、192个、288个、384个或480个靶标核酸,并且每个靶标核酸包括离散序列或来自离散的人类患者。

18、在一些实施例中,所述方法进一步包括在步骤(i)之前从所述或每个靶标核酸获得测序数据。

19、所述参考核酸的片段或所述多个参考核酸中的每一个参考核酸的片段可以包括所述条形码序列、所述第一上下文序列的至少一部分、和/或所述第二上下文序列的至少一部分。在一些实施例中,所述参考核酸的片段或所述多个参考核酸中的每一个参考核酸的片段的长度为25-50个、50-150个、100-200个、150-300个或250-500个核苷酸。在一些实施例中,所述条形码序列的长度为4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、15-20个或20-25个核苷酸。在一些实施例中,所述第一上下文序列的长度为5-10个、10-15个、15-20个、20-25个或25-50个核苷酸。在一些实施例中,所述第二上下文序列的长度为5-10个、10-15个、15-20个、20-25个或25-50个核苷酸。在一些实施例中,所述第一阈值数为1、2、3、4、5、6、7、8、9或10。在一些实施例中,所述第二阈值数为0、1、2、3、4、5、6、7、8、9或10。在一些实施例中,所述第一阈值数相对于所述条形码序列长度的比率小于或等于1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9或1:10。在一些实施例中,所述第二阈值数相对于所述条形码序列长度的比率小于或等于1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9或1:10。

20、在一些实施例中,所述评分区域中所述第一上下文序列的所述至少一个且不超过第一阈值数的核苷酸与所述条形码序列相邻。在一些实施例中,所述评分区域中所述第二上下文序列的所述不超过第二阈值数的核苷酸与所述条形码序列相邻。

21、在一些实施例中,所述评分区域包括所述第一上下文序列的1-10个核苷酸和所述第二上下文序列的0-10个核苷酸。在一些实施例中,所述评分区域包括所述第一上下文序列的一个核苷酸和所述第二上下文序列的一个核苷酸。

22、在一些实施例中,生成比对包括生成编码以下关联的数据:(a)所述靶标核酸的至少一个片段与所述参考核酸的至少一个片段之间的关联;(b)所述靶标核酸的至少一个片段与所述多个参考核酸中的每一个参考核酸的至少一个片段之间的关联;或(c)所述多个靶标核酸中的每一个靶标核酸的至少一个片段与所述参考核酸的至少一个片段之间的关联。

23、确定所述序列相似性可以包括确定指示所述靶标核酸的多少个核苷酸与所述参考核酸的所述评分区域中的相似核苷酸比对的评分。在一些实施例中,确定所述序列相似性包括确定所述靶标核酸中与所述参考核酸的所述评分区域中的相似核苷酸比对的核苷酸的百分比。在一些实施例中,确定所述序列相似性包括确定指示所述靶标核酸的多少个核苷酸与所述参考核酸的所述评分区域中的相同核苷酸比对的评分。在一些实施例中,确定所述序列相似性包括确定所述靶标核酸中与所述参考核酸的所述评分区域中的相同核苷酸比对的核苷酸的百分比。

24、在一些实施例中,条形码以组合方式使用,其中多个一个条形码用于鉴定来源。例如,组合使用96个条形码的两个实例可提供9216个标识符,而使用384个条形码的两个实例可提供147456个标识符。

25、所述靶标核酸或多个靶标核酸可以在所述方法的步骤(i)之前扩增(例如,使用环介导的等温扩增(lamp)、聚合酶链反应(pcr)、多重置换扩增、滚环扩增(rca)或连接酶链反应)。可以进行扩增步骤以扩增rna核酸,如rt-lamp。lamp和rt-lamp扩增方法公开于wo01/77317、wo02/24902和wo01/34790中,所述文献特此通过引用整体并入。

26、所述一个或多个靶标核酸中的至少一个靶标核酸可能来自人类或兽医患者。通常,所述一个或多个靶标核酸中的所有靶标核酸均可能来自人类或兽医患者。在一些实施例中,所述一个或多个靶标核酸中的至少一个靶标核酸指示疾病或遗传性状或标志物。在一些实施例中,在靶标核酸中鉴定条形码序列表明,与该条形码相关的患者患有或曾经患有感染(例如,病毒或细菌感染)。在一些实施例中,所述感染是sars-cov-2感染。所述靶标核酸可以包括与sars-cov-2感染相关的基因的至少一个片段(例如,sars-cov-2orf1a、sars-cov-2包膜或sars-cov-2核衣壳基因)。来源核酸可以衍生自植物、动物、真菌、原生生物、古细菌或细菌。来源核酸可以是病毒性的,并且包括rna。

27、在一些实施例中,所述方法进一步包括在未检测到含有条形码序列的核酸时确定与所述条形码序列相关的患者不患有感染。

28、所述靶标核酸或多个核酸的测序数据可以通过使用各种不同的测序方法(如单分子测序、合成测序或焦磷酸测序)测量一个或多个核酸获得。检测装置可以是电的或光学的。单分子测序的实例包含纳米孔测序,以及使用零模波导进行的测序,如使用加利福尼亚太平洋生物科学公司(pacific biosciences of california inc.)开发的装置进行的smrt测序,如wo2007/002893和wo2009/120372中所公开的。纳米孔测序装置的实例公开于wo2015/055981、wo2014/064443、wo2017/149316和wo2019/002893、wo2015/110813和wo2014/135838中,所述文献特此通过引用整体并入。合成测序的实例包含:由ion torrent开发的离子半导体测序,如wo2009/158006中所公开的;基于荧光团标记的dntp的测序,具有由illumina开发的可逆终止子元件,如wo00/18957中所公开的;由roswelltechnologies开发的基于半导体芯片的单分子测序技术,如wo16/210386中所公开的;以及由genia technologies开发的合成方法测序,如wo2015/148402中所公开的。

29、在一些实施例中,靶标核酸和/或多个核酸为1千碱基或更长。

30、本公开的一些方面提供了一种包括多个核酸的试剂盒,其中所述多个中的每一个均包括具有少于十个核苷酸和至少一个固定上下文序列的相应条形码。在一些实施例中,所述多个中的每一个在条形码的每一侧包括一个固定上下文序列。在一些实施例中,所述多个中的每一个进一步包括引物序列,并且其中所述引物序列与靶标核酸的片段互补。在一些实施例中,所述至少一个固定上下文序列包括所述引物序列的至少一部分。在一些实施例中,所述试剂盒进一步包括聚合酶。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1