基因组测序和检测技术的制作方法

文档序号:32483848发布日期:2022-12-10 00:13阅读:76来源:国知局
基因组测序和检测技术的制作方法
基因组测序和检测技术
1.相关申请的交叉引用
2.本技术要求于2020年5月8日提交的美国临时申请号63/022,296的优先权和权益,其公开内容以引用方式并入本文。


背景技术:

3.所公开的技术整体涉及核酸表征,例如测序技术。在一些实施方案中,所公开的技术包括用于从基于基因组测序(例如,全基因组测序)的序列数据进行病毒检测的快速准确的方法。
4.本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
5.下一代测序技术提供越来越高的测序速度,从而允许更大的测序深度。然而,测序准确度和灵敏度受到来自各种来源的错误和噪声的影响,例如,在库制备期间的样品缺陷或pcr偏差。因此,诸如在包括低浓度病毒或细菌核酸的宿主样品中检测频率非常低的序列可能是复杂的。因此,期望开发用于以快速且准确的方式对以低量存在的核酸分子进行检测和/或测序的方法。
6.简要说明
7.在一个实施方案中,本公开涉及一种在生物样品中检测病原体的方法。该方法包括从生物样品接收序列数据;识别所述序列数据中在散列表中具有精确匹配的k聚体,所述散列表用包含所述病原体的基因组中的病原体k聚体的第一集合k聚体和包含对照k聚体的第二集合k聚体初始化;以及至少部分地基于具有所述第一集合的所述序列数据中的所述k聚体的精确匹配的第一计数以及具有所述第二集合的所述序列数据中的所述k聚体的精确匹配的第二计数,向所述生物样品提供检测输出,其中当所述第一计数高于第一集合阈值并且所述第二计数高于第二集合阈值时,所述检测输出包括病原体检测的阳性结果,并且其中当所述第一计数低于所述第一集合阈值时,当所述第二计数低于所述第二集合阈值时,或两者,所述检测输出包括所述病原体检测的阴性结果。
8.在另一个实施方案中,本公开涉及一种在生物样品中检测病原体的方法。该方法包括从由生物样品制备的测序库生成序列数据;识别所述序列数据中在散列表中具有精确匹配的k聚体,所述散列表用包含病原体的病原体基因组中的病原体k聚体的k聚体集合初始化;基于以下中的一者或两者来确定所述病原体基因组的单独靶区域的所述序列数据的覆盖范围:所识别的k聚体的计数,或包括对应于所述病原体基因组中的相应单独靶区域的所识别的k聚体的序列数据中的序列读段的数目,其中当所识别的k聚体的计数或对应于所述单独靶区域的序列读段的数目高于阈值计数时,确定单独靶区域将被覆盖;确定覆盖的单独靶区域的数目高于检测阈值;以及提供所述生物样品对所述病原体的存在呈阳性的检测输出。
9.在另一个实施方案中,本公开涉及一种测序装置,该测序装置包括其上装载有从样品制备的测序库的基底。测序装置还包括计算机,该计算机被编程为使所述测序装置从测序库生成序列数据;扫描所述序列数据中的单独读段中固定大小n的k聚体;访问存储在所述计算机的存储器中的散列表,所述散列表用所述固定大小n的参考k聚体集合初始化;使用所述散列表识别所述k聚体与所述参考k聚体集合的精确匹配;以及基于所识别的精确匹配的计数高于阈值来确定所述样品的特性。
10.呈现前述描述以使得能够制造和使用所公开的技术。对所公开的具体实施的各种修改将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。所公开的技术的范围由所附权利要求限定。
附图说明
11.当参考附图阅读以下详细描述时将更好地理解本公开的这些和其他特征、方面和优点,其中在整个附图中相同的字符表示相同的部件,其中:
12.图1是根据本公开的各方面的用于k聚体比对的工作流程的示意图;
13.图2是根据本公开的各方面的基因组的示例性k聚体的示意图;
14.图3是根据本公开的各方面的用于从测序数据进行病毒检测的方法的示意图;
15.图4是根据本公开的各方面的用于基于比对的病毒检测的方法的示意图;
16.图5是根据本公开的各方面的基于比对的病毒检测中的靶区域或k聚体覆盖范围的示意图;
17.图6是根据本公开的各方面的生成用于病原体检测的病原体特异性k聚体和对照k聚体的集合的方法的示意图;并且
18.图7是根据本公开的各方面的被配置成采集测序数据并执行基于比对的检测的系统的框图。
具体实施方式
19.呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
20.本文描述了允许表征核酸的多种方法和组合物。在实施方案中,所公开的技术用作从生物样品生成的序列数据的序列分析的一部分,以快速且准确地检测感兴趣的基因组序列。在实施方案中,所公开的技术使用基于超快散列的比对器来从序列数据生成减少错误或无错误的子序列。所公开的技术的一个应用是快速检测测序库中存在的病毒基因组。该技术操作以在测序库的每个序列读段中扫描固定大小“n”的每个k聚体,并在散列表中查找存在/不存在。散列表用病毒基因组的所有n个k-聚体或其精选子集进行初始化。例如,可以使用精选来移除对于感兴趣的病原体不是唯一的k聚体。对于每个病毒k聚体,计数序列k
聚体相对于散列表的成功匹配。
21.在实施方案中,使用对病毒唯一的k聚体的完整或减少(例如,精选)集合的快速、精确k聚体匹配的专门比对器用于检测具有人类阳性对照扩增子的病原体感染。然而,所公开的技术可以用于其他应用,诸如检测生物样品中的种系变体、微生物组表征、在环境监测(例如,污水监测)中检测汇集或复杂的输入样品。此外,所公开的技术可以用于检测感兴趣的单一病原体(例如,sars-cov-2)或检测病原体组中的一种或多种病原体,例如呼吸病原体组(sars-cov-2、rsv、肺炎、流感)或包括代表特定病原体的不同菌株的k聚体的菌株跟踪组。
22.图1是示例性工作流程12,其包括通过可与所公开的技术结合使用的序列分析进行样品处理的步骤。样品20经历处理或样品制备24以产生测序库,该测序库包括适合于测序步骤28以生成序列数据30的多个核酸片段。序列数据30可以经历某些主要分析步骤,例如,质量或过滤,然后被传递到如本文通常提供的k聚体扫描和k聚体比对。
23.扫描所生成的序列数据30以识别固定大小n的k聚体,并且将这些所识别的k聚体提供给k聚体比对器36。k聚体比对器36可以包括用从参考基因组得出的大小n的已知k聚体的集合34初始化的散列表。参考基因组可以是病原体基因组的所有感兴趣的大小n的k聚体(或其精选子集)或如本文所提供的其他感兴趣序列。
24.序列数据30可以实时地或在滚动基础上流式传输到k聚体比对器36,使得k聚体比对器36在框40处对可用的附加序列数据30进行操作,因为其被接收以检测序列数据30中感兴趣的k聚体。k聚体比对器36识别序列数据30中的k聚体,该k聚体为感兴趣的k聚体集合34的精确匹配。精确匹配可以有助于样品20的匹配的总计数。一旦样品20通过所识别的k聚体精确匹配的阈值计数,工作流程12就提供检测输出42。在实施方案中,单独样品20可以被表征为阳性或阴性以用于检测集合34中的序列。因为k聚体比对器36对实时流式传输数据进行操作,所以一旦通过阈值计数,检测功能就允许使用k聚体精确匹配来快速识别样品20的状态。此外,基于k聚体的检测比常规的基于比对的技术以及在实施方案中的其他k聚体技术计算密集度更低。在一个示例中,所公开的技术使用固定k聚体大小n。因此,k聚体匹配基于仅匹配大小n的k聚体,而不匹配所有可能大小或在k聚体大小范围内的所有k聚体。在另一个示例中,在固定大小n的所有可能k聚体的集合内,该技术基于参考基因组的已知序列仅评估已知子集的匹配。
25.如本文所提供使用每个样品20的所得k聚体计数来表征样品以提供检测输出42,例如确定病原体感染状态。例如,高于阈值的k聚体计数指示样品中病原体存在的阳性结果。阴性结果指示样品中没有k聚体计数或k聚体计数低于阈值水平。可以相对于反映每个样品20的总k聚体匹配计数的全局阈值来评估k聚体计数。在其他实施方案中并且如本文所公开的,k聚体计数可以在每个靶区域的基础上评估并且/或者可以在有助于k聚体计数和病原体的检测之前经受质量度量,例如阳性或阴性结果。
26.在实施方案中,检测输出42可以包括提供指示样品20的特性的通知、消息或报告,例如,阳性检测结果、阴性检测结果。在实施方案中,检测输出42可以控制序列数据30的后续处理步骤。与将所有或大部分传入数据传递到二次分析的常规的基于比对的检测相比,工作流程12可以限制对对于病原体或其他基因组/感兴趣序列呈阳性的样品子集的附加处理。也就是说,一旦被识别,只有阳性样品20可以被传递到附加或二次序列分析。以此方式,
工作流程12通过不将资源投入到基于k聚体匹配可能不包括感兴趣序列的样品的二次分析来改进处理资源的分配。附加序列分析可以包括在框46处确定生物样品的子序列以生成变体调用输出48。因此,可能耗时的分析,即与参考基因组的比对和变体调用,可以以这种方式在识别后被限制于阳性(例如,感染的)样品。此外,尚未识别为阳性的样品20可以继续通过k聚体比对器36进行评估,直到采集足够的数据以确认阴性或阳性结果。所公开的技术的附加益处是基于k聚体的检测实时地并且基于相对快速的分析而发生。因此,在没有显著延迟的情况下实现处理效率改进,以开始对阳性样品的相关子集的二次分析。此外,对于一些分析运行,工作流程12可以在检测输出42之后终止,而不推进到框46中的后续分析或变体调用。
27.图2是形成k聚体比对器36的感兴趣的k聚体的集合34的核酸60的k聚体64的示意图(参见图1)。核酸60可以代表参考基因组或先前表征的感兴趣的基因组的全部或部分,例如病原体基因组。因此,所公开的技术在不需要将参考基因组与样品20一起测序的意义上可以是无参考的,并且可以基于核酸60的存储或访问的参考序列数据通过计算构建集合34。在实施方案中,核酸60可以是单链参考基因组的反向互补物和/或cdna拷贝。
28.如本文所提供的,一个或多个k聚体是指包含在诸如核酸序列之类的生物序列内的长度“k”的一个或多个连续子串。k聚体的集合可以指包含在长度为l的核酸内的所有或仅一些子序列。长度l的已知或表征序列将具有总k聚体并且未表征或未知序列可以具有xk个可能的或潜在的k聚体,其中x是可能单体的数目(例如,在dna或rna的情况下为四)。
29.在实施方案中,以固定大小n使用k聚体,使得对于给定操作,用于构建k聚体集合34以及用于扫描序列数据的所有k聚体相对于彼此是相同的固定大小。然而,相同大小的不同k聚体表示相对于彼此在不同或移位位置处的不同序列串。在某些实施方案中,长度=32的k聚体(其可以在64位cpu上有效地分析)用于k聚体匹配,但是可以使用固定长度大于24的任何大小的k聚体。因此,固定k聚体长度可以是25、26、27、28、29、30等。
30.虽然核酸60可以包括先前表征的序列,但可以包括附加序列,诸如已知或预测的变体70。所公开的无参考技术的优点在于以下事实:病毒基因组中的变体相对于病毒的总大小是罕见的。在k聚体比对期间,来自样品序列数据的包括/重叠变体的k聚体将“丢失”,因为它们将无法在用参考k聚体的无变体集合34初始化的散列表中具有精确匹配。然而,由于变体相对于病毒的总大小是罕见的,因此这仅导致灵敏度的最小损失。在一些方法中,群体中存在的已知变体也可作为添加到k聚体比对器36中的k聚体集合34中的一个或多个“变体k聚体”34而被包括。
31.图3示出了用于人类样品中病毒病原体检测的示例性方法100。所示实施方案中的人类样品序列数据102作为fastq格式的数据提供,其允许例如使用dragen或另一二次分析工具进行序列读段的二次分析和比对。可以使用k聚体比对器36(参见图1)来执行序列读段的比对104,以使用参考k聚体集合基于病毒病原体的基因组来识别固定大小n的k聚体的精确匹配。比对104还可以包括识别用作样品质量的量度的一个或多个人类对照扩增子(例如,2至15个扩增子)的序列数据102中的精确k聚体匹配。在一些实施方案中,比对104可以是与包括病毒(例如,sars-cov2)和一个或多个人类对照扩增子的参考基因组的常规dragen比对。
32.人类读段110和病毒读段112经受如本文所提供的附加度量,以基于人类扩增子覆
盖范围114评估样品质量以生成对照检测输出120。度量还包括病毒扩增子覆盖范围度量130以提供病毒检测输出132。基于病毒检测输出和对照检测输出120,阳性样品可以传递到变体调用124以生成病毒序列输出128。
33.一旦使用k聚体比对器36进行序列读段的比对/匹配,则解释与指定病毒相关的度量并且对病毒和内部(人类)对照的检测进行确定,如图4所示。在一些方法中,可以计数映射到每个扩增子的靶区域(或所检测的k聚体)的独特读段160的数目。
34.如图5所示,“靶区域”在实施方案中可被定义为扩增子序列184减去引物并减去与另一扩增子184的任何重叠。这可以通过以下方式中的任一者进行:a)将读段与病毒基因组180进行比对并且计数映射到每个扩增子的位置的(可能去重复的)读段188的数目;或b)计数在读段中观察到的来自每个扩增子序列184的k聚体190的数目。将k聚体或读段的数目与每扩增子覆盖范围的阈值进行比较,以将每个扩增子184称为“覆盖的”或“未覆盖的”。如果超过第二集合阈值的病毒扩增子184被覆盖,则调用或病毒检测输出是检测到病毒。总扩增子的数目取决于所使用的测定。在图5的示例中,扩增子184不重叠。然而,应理解,可以使用更多和重叠的扩增子184来实现对病毒的全基因组覆盖范围。
35.返回图4,在对人类扩增子162和病毒扩增子164的比对和/或k聚体识别之后,对每个单独人类扩增子的覆盖范围170和每个病毒扩增子的覆盖范围172进行计数。将每扩增子的读段计数(或检测到的k聚体的计数)与目标阈值进行比较以确定覆盖的扩增子。然后使用覆盖的扩增子的数目检测病毒178(基于覆盖的扩增子大于或等于病毒阈值,具有阳性检测结果)和内部(人类)对照174(基于覆盖的扩增子大于或等于人类对照阈值,具有阳性对照检测结果)。检测阳性扩增子和检测对照和/或病毒所需的扩增子数目的阈值可以变化。在一些实施方案中,检测阈值可以低至2个扩增子,或者可以更高,例如三个、四个或更多个扩增子。在一个实施方案中,覆盖的扩增子的阈值数目可以是扩增子总数的至少1%、至少10%、或至少50%。在一个实施方案中,覆盖的扩增子的阈值数目可以在测定的扩增子总数的1%-5%的范围内。因为检测被设计为当从样品生成附加序列数据时提供对实时序列数据的快速结果,所以设定百分比阈值允许基于阳性扩增子的任何组合进行检测。因此,检测独立于测序的簇的位置或样品与样品之间不同的其他检测特异性变量的样品变化。
36.图4示出了用人类对照进行的示例性病毒检测。对于人类对照扩增子170,对照1具有25个独特读段,并且对照3具有通过靶阈值的64个独特读段,并且这些扩增子被确定为覆盖的扩增子。在下一步骤中,将人类对照的2个阳性扩增子与设定为等于2或更大的人类对照阈值进行比较,这导致对照检测阈值的通过测定174。因此,人类对照检测174包括两步分析,即基于扩增子覆盖范围阈值确定单独人类扩增子覆盖范围,以及然后评估通过覆盖范围阈值的扩增子的数目。同样,病毒检测178包括第一步骤,其中对每个病毒扩增子(例如,病毒1、病毒2、病毒3等)的独特读段的数目进行计数。病毒1具有34个独特读段,病毒2具有21个独特读段,并且病毒扩增子3具有64个独特读段,而且都被认为是覆盖的扩增子,但是仅具有1个独特读段的病毒扩增子98不被认为是覆盖的扩增子。在下一步骤中,将3个覆盖的扩增子与设定为等于3或更大的病毒阈值进行比较,这导致检测到病毒的结果。
37.所公开的技术包括用于建立基于k聚体的比对的k聚体比对器(例如,k聚体比对器36)中使用的参考和/或对照k聚体的集合的质量和控制参数。图6是生成用于病原体检测的病原体特异性k聚体和对照k聚体的集合的方法200的示意图。给定病原体基因组包括固定
105,1176

1181(2008),这些文献的公开内容全文以引用方式并入本文。其他合适的替代技术包括例如荧光原位测序(fisseq)和大规模并行签名测序(mpss)。在特定实施方案中,测序装置260可以是来自illumina(la jolla,ca)的iseq。在其他实施方案中,测序装置260可以被配置成使用cmos传感器操作,该cmos传感器具有在光电二极管上制造的纳米阱,使得dna沉积与每个光电二极管一对一地比对。
40.在所描绘的实施方案中,测序装置260包括单独的样品基底262,例如流动池或测序盒,以及相关联的计算机264。然而,如上所述,这些可以实现为单个装置。在所描绘的实施方案中,可以将生物样品装载到基底262中,该基底被成像以生成序列数据。例如,与生物样品相互作用的试剂响应于由成像模块272生成的激发束而以特定波长发荧光,并且由此返回辐射以用于成像。例如,荧光组分可由荧光标记的核酸生成,该荧光标记的核酸与组分的互补分子或与使用聚合酶掺入寡核苷酸中的荧光标记的核苷酸杂交。如本领域技术人员将理解的,激发样品的染料的波长和其发荧光的波长将取决于特定染料的吸收和发射光谱。此类返回的辐射可以通过引导光学器件传播回来。该向后束通常可被导向成像模块272的检测光学器件,其可以是相机或其他光学检测器。
41.成像模块检测光学器件可以基于任何合适的技术,并且可以是例如带电耦合装置(ccd)传感器,其基于影响装置中的位置的光子生成像素化图像数据。然而,应理解,也可以使用各种其他检测器中的任一种,包括但不限于被配置用于时间延迟积分(tdi)操作的检测器阵列、互补金属氧化物半导体(cmos)检测器、雪崩光电二极管(apd)检测器、geiger模式光子计数器或任何其他合适的检测器。tdi模式检测可以与线扫描耦合,如美国专利号7,329,860中所述,该专利以引用方式并入本文。其他可用的检测器在例如本文先前在各种核酸测序方法的上下文中提供的参考文献中有所描述。
42.成像模块272可以处于处理器控制下(例如,经由处理器274),并且还可以包括i/o控件276、内部总线278、非易失性存储器280、ram 282和使得存储器能够存储可执行指令的任何其他存储器结构,以及可以类似于关于图7所描述的那些的其他合适的硬件部件。此外,相关联的计算机264还可包括处理器184、i/o控件286、通信模块294和包括ram 288和非易失性存储器290的存储器架构,使得存储器架构能够存储可执行指令292。硬件部件可由内部总线294链接,该内部总线也可以链接到显示器296。在测序装置260被实现为一体装置的实施方案中,可以消除某些冗余硬件元件。
43.处理器(例如,处理器274、284)可以被编程为根据本文提供的技术基于一个或多个相关联索引序列将单独的测序读段分配给样品。在特定实施方案中,基于由成像模块272采集的图像数据,测序装置260可以被配置成生成包括单独簇的序列读段的测序数据,其中每个序列读段与基底270上的特定位置相关联。每个序列读段可以来自包含插件的片段。测序数据包括测序读段的每个碱基的碱基调用。此外,基于图像数据,即使对于串联执行的测序读段,单独读段也可经由图像数据链接到相同位置,并且因此链接到相同的模板链。以此方式,索引测序读段可以在分配给原始样品之前与插入序列的测序读段相关联。处理器274还可以被编程为在将测序读段分配到样品之后对特定样品的序列执行下游分析。
44.)。在某些实施方案中,可执行指令292使处理器执行本文公开的方法的一个或多个动作。处理器(例如,处理器274、284)可以是高度可重新配置的现场可编程门阵列技术(fpga)。处理器(例如,处理器274、284)可以被编程为接收特定分析工作流程的用户输入以
cov-2疫苗。
48.该书面描述使用本公开的实施方案中的示例,包括最佳模式,并且还使得本领域的任何技术人员能够实践所公开的实施方案,包括制造和使用任何装置或系统以及执行任何结合的方法。本公开的可取得专利的范围由权利要求限定,并且可包括本领域的技术人员想到的其他示例。如果此类其他示例具有与权利要求的字面语言无差异的结构元件,或者如果它们包括与权利要求的字面语言无实质差异的等同结构元件,则这些其他示例旨在落入权利要求的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1