筛查系统和方法与流程

文档序号:21548189发布日期:2020-07-17 18:00阅读:534来源:国知局
筛查系统和方法与流程

本公开涉及筛查系统和方法;具体地,本公开涉及(用于)产前筛查的非侵入性产前筛查系统和方法,例如涉及处理母体血液以确定胎儿的(fetal/foetal)特征的产前筛查系统和方法,以及涉及采用靶向测定方法(例如采用知识库)的产前筛查系统和方法,例如涉及处理母体血液以确定胎儿的(fetal/foetal)特征的产前筛查系统。此外,本公开涉及(用于)使用前述筛查系统的方法,例如涉及(用于)使用前述筛查系统处理母体血液以确定胎儿的(fetal/foetal)特征的方法。此外,本公开涉指令由包括处理硬件的计算机化设备可执行的计算机程序产品,其包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质在其上存储有计算机可读指令,所述计算机可读指令是包括处理硬件的计算机化设备可执行的以执行上述方法。

背景

受精卵的形成和相关的随后胎儿的(fetal)(可替代的拼写:胎儿的(foetal))发育是复杂的生物学过程,其并不总是在没有缺陷出现的情况下发生。在胎儿生长期间,例如尽可能早地可靠地检测这种缺陷是非常有社会益处的。

常规地,产前(antenatal/prenatal)筛查被提供给孕妇以确定或治疗在妊娠期间可能发生的潜在健康问题。这种问题可能影响给定母亲和/或给定母亲的胎儿(fetus)(可替代的拼写:胎儿(foetus)),并且可能由诸如生活方式、环境或遗传学或它们的组合的因素来确定。然而,特别重要的是遗传起源的胎儿异常。这些异常可能是由一位亲代或两位亲代(即父亲和/或母亲起源的)遗传的突变引起的,或者可能以随机方式自发出现(即“从头”出现,即新的自发突变)。这种突变的性质范围很广,例如从单个核苷酸的变化到另外的完整染色体(非整倍性)、短串联重复和线粒体dna突变的存在。核苷酸是由含氮杂环核碱基(即嘌呤或嘧啶)、戊糖(dna中的脱氧核糖或rna中的核糖)以及磷酸或多磷酸基团组成的有机分子,其中核苷酸在dna双螺旋中形成“梯级(rungs)”。特别的临床意义的实例是称为非整倍性的染色体病症,其当存在异常数量的染色体(例如唐氏综合征)时发生;非整倍性是在细胞中存在异常数量的染色体,例如具有45条或47条染色体而不是通常的46条染色体的人细胞。许多染色体病症与生命不相容或导致给定新生儿童的多种先天性异常。

用于检测胎儿异常的常规已知的产前筛查系统和方法使用通过侵入性技术(如羊膜穿刺术和绒毛膜绒毛取样)获得的胎儿样品。这些侵入性技术需要仔细的操作,并且对母亲和母亲的妊娠存在一定程度的风险。

用于妊娠期间胎儿染色体异常风险的产前筛查是通过公共和私人医疗保健提供者可获得。该产前筛查通常在约给定妊娠的前三个月(通常在给定妊娠的8至14周)进行,并且通常涉及对给定母亲进行母体血液检验。该产前筛查可以由组合检验或四联血液检验组成。被称为非侵入性产前检验的可替代检验越来越多地可作为组合检验的第一线替代检验或作为偶然性检验来获得。

如果妊娠被分类为‘高风险’,则向母亲提供侵入性诊断程序(例如绒毛膜绒毛取样、羊膜穿刺术、脐带穿刺术)以确认或排除:

(a)唐氏综合征(21三体染色体-t21);

(b)爱得华斯综合征(18三体染色体-t18);和

(c)patau综合征(13三体染色体-t13)。

侵入性检验(如绒毛膜绒毛取样和羊膜穿刺术)涉及从绒毛膜绒毛(胎盘组织)和含有胎儿组织的羊膜囊取样,用于染色体异常的产前诊断。胎盘组织可能会遭受局限性胎盘嵌合现象,这意味着从绒毛膜绒毛取样的结果可能很难准确评估。

还向在妊娠18至21周的孕妇提供第二次超声扫描以检查结构性胎儿异常(如心脏畸形、脑畸形和骨骼异常)。该第二次扫描可被用于指导产前治疗,以鉴定在分娩后需要早期干预或能够进行后续诊断检验和妊娠管理的异常。侵入性检验(如绒毛膜绒毛取样、羊膜穿刺术和脐带穿刺术)带来1%的流产机会,因此仅当出现异常的风险增加时才执行。

近年来,已经开发了非侵入性技术(没有流产的相关风险)用于诊断依赖于母亲血液中循环的无细胞胎儿dna的存在的胎儿染色体异常。这种无细胞胎儿dna(cffdna)检验现在已经进入了非整倍性(t21、t18、t13)的非侵入性产前检验(nipt)的常规临床实践。随着用于鉴定亚染色体重排(如22q11.2/迪格奥尔格综合征和其它微缺失综合征)方法的发展,可通过nipt检验异常的数量正在增加。然而,这些异常的假阳性比率(即存在缺陷的假阳性评估风险)被认为太高而不能在筛查的基础上提供,并且建议仅在如果有伴随的临床指征(如先天性心脏缺陷)的情况下才提供。nipt被分类为‘检验’而不是‘诊断’,因为测量的cffdna来源于胎盘而不是胎儿,这意味着由于局限性胎盘嵌合体而可能发生假阳性;‘局限性胎盘嵌合体’(cpm)代表给定胎盘中细胞的染色体组成与相应胎儿的细胞之间的差异。为此,建议通过侵入性羊膜穿刺术证实阳性nipt结果。

非侵入性产前诊断(nipd)通常被分类为诊断测定,其中不需要随后的侵入性测定来确认来自nipd的结果。nipd的使用比上述非侵入性产前检验(nipt)更受限制,并且通常被用于处于单基因病症(即,遗传和‘从头’突变)风险中的胎儿,或者疑似患有胎儿超声上的遗传病症的胎儿。

从相应母体血液样品中存在的循环cffdna准确地重建给定胎儿的遗传信息在技术上是非常有挑战性的任务。该任务至少部分是有挑战性的,因为cffdna仅作为样品中的小片段存在,并且仅代表母体血液样品中存在的总cfdna的一小部分。已知在母体血液中无细胞胎儿dna(cffdna)以母体无细胞组分的大约10%的浓度循环。这种无细胞胎儿dna(cffdna)潜在地由胎儿细胞凋亡、胎盘细胞凋亡和类似的细胞代谢过程产生。与低浓度的总无细胞dna相结合,由于需要下一代测序文库制备方法来测量少量胎儿dna,因此使用下一代测序文库制备方法来分析这种无细胞胎儿dna(cffdna)是具有挑战性的。此外,使用下一代测序文库制备方法具有挑战性,原因有两个:

(1)难以在胎儿dna中鉴定真正的‘从头’变体(即,可能出现区分dna变体的问题);和

(2)难以确定与母亲共有的胎儿等位基因的过表达(其中,等位基因是给定基因的变体形式)。

这种困难在测量中引起随机噪声,其很容易成为在产前筛查中计算风险得分时有助于增加假阳性或假阴性风险的因素。

关于上述挑战,首先由于聚合酶链式反应(pcr)和测序中的桥接扩增引入的错误,‘从头’变体频率可以更低或与胎儿级分处于相同水平。这种错误可导致上述风险得分中的假阳性和假阴性结果。其次,胎儿级分越低,确定是否存在突变/等位基因的过表达、欠表达或等同表达所需的测序深度越大,以建立胎儿在该点的接合性。可以增加所执行的测序的量,但是这在寻求传送产前筛查服务时具有成本和时间影响。

在已知的检验系统中,在存在过量母体dna的情况下仅存在相对少量的胎儿dna的问题已经通过采用几种方法来解决:

(i)通过在血液收集管中使用甲醛(dhallan等人,2004),其中甲醛的使用减少了细胞裂解(即,给定细胞的膜的分解)并且相对增加了母体血液样品中游离胎儿dna(cffdna)的百分比;

(ii)通过使用凝胶大小选择来富集cffdna的短片段,这已经表明提高了对β-地中海贫血突变的父系等位基因检测的灵敏性(li等人,2005),其中通过采用凝胶电泳并随后进行凝胶切除和相关dna提取对dna进行大小分类。然而,对于高通量诊断而言,这种方法不是经得起检验的程序,因此在进行产前筛查时在商业上是不合适的;

(iii)通过仅对短dna分子计数,使用优先扩增短和长扩增子的pcr(lun等人,2008);和

(iv)通过采用经由上述pcr的使用的富集(yang等人,2017)

然而,基于大小的富集还没有在当代常规临床实践中找到位置。尽管存在母体和胎儿dna片段大小的不同群体,但在片段大小上也存在相当大的重叠区域,因此两个群体的完全分离是不可能的。这种完全分离的缺乏有效地增加了测量中的随机噪声,其不利地影响在执行产前筛选时计算的最终风险得分,即增加了假阳性或假阴性的风险。

上述cffdna实际上来源于母亲的胎盘,而不是直接来自给定胎儿(fetus/foetus),因此可以在测序时展现出与给定胎儿不同的遗传信息;这种不同的遗传信息可以由局限性嵌合体引起,所述局限性嵌合体使预测给定胎儿的遗传信息(即‘儿童基因组’)的过程复杂化。另外,cffdna在给定的人类基因组中不均匀分布,并且由于给定儿童基因组的一半来源于它的母亲,因此在实践中当估算在给定基因组中经鉴定的cffdna覆盖的程度时,会出现相当大的困难。除了这个困难之外,还出现了系统和方法上的困难,即并非给定基因组的所有区域同样易于测序和准确调用,并且在相关的文库制备和模板扩增阶段中可以将错误引入到潜在的确定序列中。因此,儿童基因组的精确重建与相当大的不确定性有关。尽管存在这种困难,但能够重建儿童基因组正是需要能够成功预测儿童遗传或从头获得遗传病症的风险。

试图解决这种重建给定儿童遗传谱的挑战的已知方法集中于基于规则的方法的组合,并结合统计技术以基于每个变体确定变体调用是否是:

(a)真实;和

(b)胎儿(fetal/foetal)起源。

这些方法使用亲本基因型的知识来评估给定观察到的等位基因频率、在该基因座达到的给定读取深度的可能性,并对是否接受或拒绝该调用作出一些决定。

相对单倍型剂量(rhdo)分析已经被用于其中给定父亲对某一位点是纯合的并且相应的给定母亲是杂合的情况(lam等人,2012)。rhdo分析在每个基因座的基础上进行,并且涉及确定关于两个等位基因的测序读数的数目是否有利于一个等位基因或另一个等位基因(chiu等人,2008;lo等人2010)。这种偏爱是通过关于特定等位基因的读数比例是否存在平衡或失衡来确定的。如果给定的儿童是杂合的,则可以预期观察到等位基因平衡,因为给定的儿童将具有与在其血液中出现读取的母亲完全相同的比例。然而,如果儿童对于给定等位基因是纯合的,则预期该数据将自身表示为等位基因失衡,大部分读数有利于给定位点(xiong等人,2015)。失衡程度的预期取决于胎儿的(fetal/foetal)分数。根据等位基因平衡或失衡的预测,然后可以对给定位点处的给定儿童基因型进行评分。这种分析以逐步的方式对染色体上的每个变体进行,按照它们出现的顺序,从出现在染色体起始附近的那些变体到出现在染色体末端附近的那些变体(lam等人,2012)。

最近,隐马尔可夫模型(hmm)也已经被用于处理在任何给定位点的一个或多个从头突变的可能性。在这种情况下,通过hmm推测胎儿的母体遗传。传统上,hmm具有三个参数:隐藏状态、发射概率和转移概率。在使用hmm的这种方法中,从两个因素确定从母亲遗传的等位基因:

(i)沿染色体(隐藏状态)顺序的先前变体的母体遗传;

(ii)snp类型(发射概率)(kitzman等人,2012)。

因此,采用的模型也考虑了天然单倍型转换事件,如遗传重组(即转移概率)。专有维特比tm算法采用递归算法,其搜索具有最大关联概率的给定序列;专有维特比tm算法很容易被用于产生最可能的隐藏状态序列(chan和jiang,2015)。总而言之,胎儿(fetus/foetus)的母体遗传是很容易被推理出来的。类似的方法已经被用于估计胎儿的父系遗传(chan等人,2016)。

此外,chan等人,2016已经使用了高覆盖率碱基过滤方法,由此使用了用于碱基在被接受为‘真实’调用之前必须被观察到的次数的严格的阈值的每个独立碱基已经被准确地调用(即,被识别)的可能性。这种方法滤除了许多错误的变异,允许更可靠的估计真实方差与非真实方差,但是对于这种方法来说,要求可信赖的高序列深度是可维持的(chan等人,2016);实现高序列深度既昂贵又费时。通过这种方法,与上述那些方法相结合,它们能够重新获得已经从头发生的儿童中大部分的变体。

为了在变体水平上进行过滤,已经使用了动态截止范围,以便试图鉴定从头变异。开发了这种方法来区分胎儿中存在的从头突变和测序错误,其中这种区分是通过计算纯粹由于测序错误而观察到的与当前变体一样多次数的相同给定变体的概率并相对于该概率应用截止值来实现的(chan等人,2016)。

如上所述,儿童的遗传学必须从循环dna的小片段重现(重建),所述循环dna的小片段仅作为存在于母亲血浆中的无细胞dna的小亚群出现,其本身在母体血液样品中的浓度相对较低。结合该小亚群,用于分析该无细胞dna材料的下一代测序文库制备方法需要pcr扩增。pcr扩增将错误引入到正被扩增的给定样品中,其中错误的频率可以大于样品中胎儿读取的总数,导致给定胎儿基因组中的真实变异被隐藏或获得假阳性;这种错误是本公开寻求解决的主要技术问题。即使对于涉及无pcr方法的技术,最终的测序步骤也需要制备原始dna分子的拷贝,这也可能引入错误。当试图鉴定在给定胎儿中已经出现的上述“从头”变体时,这种错误来源是特别相关的。

为了解决这些显著的(即,‘不是无关紧要的’)错误来源,重要的是需要鉴定的遗传变体通过极严格的质量阈值,其在实施上述nipt和相关分析时使用的方法中被采用。当研究跨越基因组的大轨道(部分)的变体时,潜在地需要采用非常规的高测序深度,以便实现无细胞dna读出,并因此作为副产物胎儿dna读出,实现在用这种分析可追踪的覆盖水平。这些非常高的测序深度方法虽然在通过ngps可以实现的方面是非常有用的,但在向普通公众提供nipt的当代临床环境中实施通常施不切实际的(即,太昂贵和太慢)。

减少ngps周围的技术限制是非常重要的领域。通过针对一种或多种可能的目的基因的靶向研究来开发(用于)处理错误来源或赋予分析能力的方法潜在地易于提高在读取收集的dna样品时使用实际的序列深度来准确筛选疾病引起的突变的能力。因此,收集和合成与分析有关的信息,并且此外从已经进行的早期分析中学习的功能易于提高ngps的效用和有效性。

当前的方法试图通过使用一个或多个阈值来减少误差,所述阈值被设置为相对于基因组中突变变化的概率的值(new等人,2014)。一个或多个阈值的这种使用提供了需要非常高的覆盖大多数遗传核酸碱基位点的碱基过滤方法,由此使用用于碱基在被接受为‘真实’调用之前必须被观察到的次数的严格的阈值确定每个单独的碱基已经被准确调用的可能性(yu等人,2014)。这种方法滤除了许多错误的变异,从而允许更可靠的估计待计算的真实方差与非真实方差,但是对于这种方法需要非常高的序列深度,以便在向公众传送服务的临床环境中实际使用是可维持的。

为了在变体(例如,引起遗传异常)水平上进行过滤,已经较早地使用了动态截止值范围,以便试图鉴定一个或多个‘从头’变异(chan等人,2016)。因此,已经开发了区分存在于给定胎儿(fetus/foetus)中的‘从头’突变与测序错误的方法。这种区分是通过计算纯粹由于测序错误而观察到的与当前变体一样多次数的相同给定变体的概率并相对于该概率应用截止值来实现的(chan等人,2016;yu等人,2014);这样,通过进行多个测序读取并在它们之间进行相关性以去除随机噪声,并强化指示遗传问题的系统变异,从而实现了区分。

其它已知的方法试图通过使用以下性质来提高正在分析的dna核酸碱基读取的置信度,即来源于循环的无细胞dna的读取远比非无细胞dna更可能在基因组中的位置‘堆叠’(chan等人,2016),与其它读取共享它们的起始位置和终止位置;这种堆叠例如由于胎儿生长期间在胎儿内发生的凋亡过程而发生。这种‘堆叠’的性质是重要的,因为遗传流水线中的当前质量保证方法被设计成去除与假定它们来自相同读取的pcr重复共享相同的起始和结束位置的读取(chandrananda等人,2015)。

为了解决pcr重复的错误假象,分析方案通常会基于以下假设来去除重复的读取:与唯一的dna分子相反,从pcr过程中产生了具有相同给定起始位点和相同给定终止位置的两个读取;这种假设本质上是与在进行测量时降低随机噪声的目的相关的形式。所需的pcr重复的数目倾向于随着dna(如cfdna的情况)起始量的降低(即,较小)而增加。然而,已经确定cfdna和cffdna的独特分子可以具有相同的起点和相同的终点,这是由于基于开放的染色质区域,优选dna被剪切的位置。这意味着通过应用pcr重复去除步骤,14%的真正dna片段被丢弃(chan等人,2016)。因此,这种‘相关’方法不是没有其自身的问题和不准确性的。

本公开寻求解决的技术问题是如何鉴定独特的dna分子,其中dna分子具有彼此相同的起始位置和彼此相同的终止位置。

存在鉴定独特dna分子的解决方案是分子条形码(mbc);也被称为唯一分子标记体(umi)。umi使鉴定由于测序错误而出现的读取成为可能。这意味着可以去除pcr假象并保留真实的变体;例如,由于遇到低等位基因频率,可以丢弃真正的嵌合变体。

当突变读取的预期频率处于或低于dna核酸碱基测序方法的错误率阈值时,可以使用单个dna分子的分子条形码来增加给定变体调用的置信度。此外,当实施该方法时,给定样品中的每个原始dna片段与独特的条形码或独特的分子标记体(umi)连接。该umi通常是一串随机核苷酸、简并核苷酸或限定的核苷酸。在处理各种dna片段读取时,可以从下游分析中去除含有测序错误的读取。这种条形码方法可以解决pcr和dna测序错误,并且可以潜在地改善低等位基因频率变体的检测。基于这种使用条形码的测序方法,该方法潜在地容易被用于鉴定哪些具有彼此相同起点和终点的dna片段是真实的,以及哪些dna片段是生物复制品,因此它们可以被保留用于进一步的分析。

已知类型的分子条形码包括在文库构建(双重测序)中整合测序衔接子(例如,peng、vijayasatya、lewis、randad&wang,2015);以及smmip(单分子分子反转探针),其中方法采用单分子标记结合多重靶向捕获。具体而言,hiatt、pritchard、salipante、o'roak&shendures,(2013)首先描述了这种方法,其中设计了靶向33个基因的编码序列(大约125kb)的1312个smmip寡聚物。此外,描述smmip的出版物包括:公开的美国专利申请us2016/0055293a,其描述了这种方法、实施该方法的系统、以及与该方法相关的mip设计的算法和软件;使用方法可获得的brca试剂盒;公开的美国专利申请us2016/0055293a,其描述了这种方法,实施该方法的系统,以及与该方法相关的用于mip设计的算法和软件。另外,正在马斯特里赫特大学(maastrichtuniversity)和radboundumc开发用于非侵入式产前诊断(nipd)的smmip。这种方法目前似乎是基于单基因基础,而不是一组基因。此外,已经建议这种方法是作为组合的条形码和富集的最有利的开发选择,其中集中于靶区域的可扩展性。

已知的(用于)提供分子条形码的商售可定制方法包括agilenthaloplexhs;关于分子条形码的agilent白皮书纸;qiaseq靶向dna面板和archermbc衔接子;这些名称包括商标(trademarks)(us:商标(trademarks))tm。

在进行pcr扩增之前,用独特的序列标记分子。采用含有预定义序列的样品特异性指数和随机8-mer分子条形码(或umi)的衔接子。该随机的8-mer分子条形码在扩增前与片段化的gdna连接。随机8-mer与酶促剪切中产生的随机起始位点一起被用于鉴定重复。就本公开中所述的技术而言,目的cfdna样品不进行实验酶促片段化,而是通过天然酶促过程进行。

当前可用于分子条形码的当代上述方法经由pcr扩增子方法限于dna分子中相对少数的目的区域,这意味着为了获得有用的dna序列读出结果,必须非常靶向相关的dna分析。

因此,根据前述讨论,存在与常规产前筛查系统相关的问题。

概述

本公开寻求提供改良的产前筛查系统,与已知的产前筛查检验相比,当所述系统产前筛查系统被用于提供产前筛查服务时,所述产前筛查系统能够提供具有较低假阳性和假阴性发生率的非侵入性产前筛查方法。

此外,本公开寻求提供改良的(用于)使用产前筛查系统的方法,与已知的产前筛查检验相比,当所述系统产前筛查系统被用于提供产前筛查服务时,所述方法能够提供更低的假阳性和假阴性的发生。

在第一方面,本公开的实施方案提供了产前筛查系统,其包括湿性实验室装置和数据处理装置,所述数据处理装置与所述湿性实验室装置在操作中交换指令和数据,其中所述数据处理装置包括数据库装置,在所述数据库装置中存储有在所述数据处理装置上可执行的一种或多种算法可访问的遗传信息,其中所述湿性实验室装置在操作中被用于从妊娠母亲收集一个或多个母体血液样品,其特征在于:

(i)所述湿性实验室装置在操作中分离来源于所述一个或多个母体血液样品的血浆的无细胞dna(cfdna)中存在的游离胎儿dna(ffdna)片段,其中分离利用基于无细胞胎儿dna(cffdna)片段特异性终点坐标的引诱物;和

(ii)所述数据处理装置在操作中分析所分离的游离胎儿dna(ffdna),并与存储在所述数据处理装置中的一种或多种dna模板进行比较,以确定存在于所述一个或多个母体血液样品中的胎儿dna的一种或多种生物学特征的出现。

本公开的优点在于,它提供了(用于)鉴定胎儿中的遗传异常的改良的个性化非侵入性系统和方法。此外,本文所公开的系统是有利的,因为它不会增加流产的风险,并且具有更高的准确性,同时减少了假阴性和假阳性结果。

本公开的实施方案在提供用于执行产前筛查的快速、简单、患者特异性且高效的方法和系统方面是有利的。此外,所述方法和系统有助于在比迄今可行的更早的妊娠时间进行可能的产前筛查,并且还减少诊断时间。此外,上述方法在大量基因(如整个外显子组)的有效筛查方面是有利的。

任选地,所述湿性实验室装置在操作中富集了游离胎儿dna片段,以提供用于分析的多个拷贝的所述游离胎儿dna片段。更任选地,所述湿性验装置通过使用核小体谱来确定最可能的起始位置和胎儿特异性的终止位置,从而在操作中富集所述游离的胎儿dna片段。

任选地,引诱物被设计为避免存在于血浆中的母体dna。更任选地,所设计的引诱物与基因的靶向组合,其中所述基因与单基因临床病症相关。

任选地,所述湿性实验室装置在操作中分离和分析在核小体中开始的所述血浆中的cfdna片段,其中所述cfdna片段对应于所述一个或多个母体血液样品的血浆的胎儿级分,其中在核小体中开始的所述cfdna片段在核酸碱基计数上比存在于所述一个或多个母体血液样品中的cfdna片段的核酸碱基计数上的平均长度相对更短。

任选地,所述湿性实验室装置在操作中执行胎儿染色体异常的产前筛查的组合检验,其中所述检验包括:

(i)至少一种母体血液检验;和/或

(ii)胎儿的超声扫描。

例如,利用胎儿的至少一种母体血液检验和超声扫描。

任选地,所述数据处理装置在操作中将从所述一个或多个母体血液样品中提取的遗传信息存储在二级数据库中。

在第二方面,本公开的实施方案提供了(用于)使用产前筛查系统的方法,所述产前筛查系统包括湿性实验室装置和数据处理装置,所述数据处理装置与所述湿性实验室装置交换指令和数据,其中所述数据处理装置包括数据库装置,在所述数据库装置中存储有在所述数据处理装置上可执行的一种或多种算法可访问的遗传信息,其特征在于,所述方法包括:

(i)使用所述湿性验室装置从妊娠母亲收集一个或多个母体血液样品;

(ii)使用所述湿性实验室装置来分离来源于所述一个或多个母体血液样品的血浆的无细胞dna(cfdna)中存在的游离胎儿dna(ffdna)片段,其中分离利用基于无细胞胎儿dna(cffdna)片段特异性终点坐标的引诱物;和

(iii)使用所述数据处理装置来分析所分离的游离胎儿dna(ffdna),并与存储在所述数据处理装置中的一种或多种dna模板进行比较,以确定存在于所述一个或多个母体血液样品中的胎儿dna的一种或多种生物学特征的出现。

任选地,所述方法包括使用所述湿性实验室装置来富集所述游离胎儿dna片段,以提供用于分析的游离胎儿dna片段的多个拷贝。更任选地,所述方法包括通过使用一个或多个核小体谱富集所述游离胎儿dna片段以确定最可能的胎儿特异性的终止位置。

任选地,所述方法包括设计引诱物以富集存在于cfdna中的胎儿dna。更任选地,所设计的引诱物与基因的靶向组合使用,其中所述基因与单基因临床病症相关。

任选地,所述方法包括使用所述湿性实验室装置来分离和分析在核小体内开始的血浆中的cfdna片段,其中所述cfdna片段对应于一个或多个母体血液样品的血浆的胎儿级分,其中在核小体内开始的所述cfdna片段在核酸碱基计数上比存在于一个或多个母体血液样品中的cfdna片段的核酸碱基计数上的平均长度相对更短。

任选地,所述方法包括使用所述湿性实验室装置进行胎儿染色体异常的产前筛查的组合检验,其中所述组合检验包括:

(i)至少一种母体血液检验;和/或

(ii)胎儿的超声扫描。

例如,采用胎儿的至少一个母体血液检验和超声扫描。

任选地,所述方法包括使用所述数据处理装置将从母体血液样品中提取的遗传信息存储在二级数据库中。例如,将二级数据库实现为包括知识库、精选变体(curatedvariant)/基因列表。

在第三方面,本公开的实施方案提供了筛查系统,其在操作时:

(i)在湿性实验室装置中处理生物样品以确定其中存在无细胞dna(cfdna)片段以对所述dna片段测序;和

(ii)使用数据处理装置将代表经测序dna片段的信息与存储在基因组数据库装置中的信息进行比较,以提供关于所述生物样品的评估得分,

其特征在于,所述筛查系统在操作中使用提供给所述筛查系统的二级信息对与代表经测序dna片段的信息相关的一个或多个随机等级应用修改,以减少所述评估得分中存在的随机和/或系统不确定性。

任选地,所述筛查系统在操作中区分母体来源的无细胞dna片段与胎盘和/或胎儿来源的无细胞dna片段。

任选地,当计算所述数据处理装置中的所述修改时,所述筛查系统在操作中采用以下得分中的至少一个:

(a)基因组定位得分,其中所述基因组定位得分包括区域内突变的可能性;

(b)序列错误得分,其中所述序列错误得分包括给定核酸碱基是模板扩增期间pcr失真和/或测序过程中错误调用的结果的可能性;

(c)患者修正得分,其中所述患者修正得分包括来自外部来源的细节(如临床表型);和

(d)嵌合体检测得分,其中所述嵌合体检测得分包括在母体基因型不平衡的区域中存在变体的可能性。

任选地,基于所述区域内易于出现的变化频率和/或所述区域内调用假变体的频率来计算所述区域内突变的可能性。

任选地,使用母体基因序列计算所述序列错误得分。

任选地,用于外部来源的信息至少包括从超声扫描接收的信息。

任选地,所述筛查系统在操作中将所述基因组定位得分转化为特定基因座的权重。

任选地,所述筛查系统在操作中应用所述序列错误得分作为权重并修改碱基调用的置信度。

任选地,所述筛查系统在操作中将来自外部来源的细节转换为权重。

任选地,所述筛查系统在操作中组合所述基因组定位得分、所述序列错误得分、所述患者修正得分和/或嵌合体检测得分以修改调用的置信度。

任选地,所述筛查系统在操作中使用其中含有cfdna片段的生物样品,所述生物样品以非侵入性方式从孕妇中提取。

在第四方面,本公开的实施方案提供了(用于)使用筛查系统的方法,所述筛查系统在操作中:

(i)在湿性实验室装置中处理生物样品以确定其中存在无细胞dna(cfdna)片段以对所述dna片段测序;和

(ii)使用数据处理装置将代表经测序dna片段的信息与存储在基因组数据库装置中的信息进行比较,以提供关于所述生物样品的评估得分,

其特征在于,所述方法包括操作所述筛查系统,以使用提供给所述筛查系统的二级信息对与代表经测序dna片段的信息相关联的一个或多个随机等级进行修改,以减少所述评估得分中存在的随机和/或系统不确定性。

任选地,所述方法包括区分母体来源的无细胞dna片段与胎盘和/或胎儿来源的无细胞dna片段。

任选地,所述方法包括在计算数据处理装置中的修改时采用以下得分中的至少一个:

(a)基因组定位得分,其中所述基因组定位得分包括区域内突变的可能性;

(b)序列错误得分,其中所述序列错误得分包括给定核酸碱基是模板扩增期间pcr失真和/或测序过程中错误调用的结果的可能性;

(c)患者修正得分,其中所述患者修正得分包括来自外部来源的细节;和

(d)嵌合体检测得分,其中所述嵌合体检测得分包括在母体基因型不平衡的区域中存在变体的可能性。

任选地,所述方法包括基于所述区域发生变化的频率和/或在所述区域内调用假性变体的频率来计算所述区域内的突变的可能性。

任选地,所述方法包括使用母体基因序列计算所述序列错误得分。

任选地,所述方法包括接收来自超声和磁共振成像(mri)扫描的信息。

任选地,所述方法包括将所述基因组定位得分转换为特定基因座的权重。

任选地,所述方法包括应用所述序列错误得分作为权重并修改碱基调用的置信度。

任选地,所述方法包括将来自外部来源的细节转换为权重。

任选地,所述方法包括组合所述基因组定位得分、所述序列错误得分、所述患者修正得分和/或嵌合体检测得分以修改调用的置信度。

任选地,所述方法包括以非侵入性方式从孕妇中提取其中含有cfdna片段的所述生物样品。

在第五方面,本公开的实施方案提供了产前筛查系统,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置用于处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置用于参考存储于数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,所述产前筛查系统在操作中使用二级数据,所述二级数据描述所述血液样品的供体,用于修改在所述数据处理装置中执行的数据处理,所述数据处理装置用于在产生所述风险得分时处理所述无细胞dna读出数据的选择性区域。

任选地,所述血液样品是母体血液样品,并且所述无细胞dna读出数据是从存在于所述血液样品的血浆级分中的dna片段确定的。更任选地,所述湿性实验室装置在操作中扩增dna片段以提供经扩增的dna用于核酸碱基测序或读出以产生所述无细胞dna读出数据。

任选地,通过访问所述数据库装置的一个或多个数据库来确定所述选择性区域,其中所述产前筛查系统在操作中根据所确定的一个或多个随后的胎儿调查风险得分的准确性来递归地或迭代地更新一个或多个数据库。更任选地,所述二级数据通过非侵入性程序来确定,并且所述随后的胎儿调查涉及执行关于所述胎儿的组织或液体的一个或多个侵入性采样。

任选地,所述一个或多个数据库被实现为ngps知识库,其中,所述ngps知识库包括在操作中被重新校准的分析以包括和并入特异性针对所述血液样品的供体的信息。更任选地,ngps知识库包括表型信息,所述表型信息被用于在产生所述风险得分时通过所述数据处理装置执行的数据分析中。

在第六方面,本公开的实施方案提供了(用于)使用产前筛查系统的方法,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置用于处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置用于参考存储在数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,所述方法包括操作所述产前筛查系统以使用二级数据,所述二级数据描述所述血液样品的供体,其用于修改在所述数据处理装置中执行的数据处理,所述数据处理装置用于在产生所述风险得分时处理所述无细胞dna读出数据的选择性区域。

任选地,所述血液样品是母体血液样品,并且所述方法包括从存在于所述血液样品的血浆级分中的dna片段确定所述无细胞dna读出数据。更任选地,所述方法包括操作所述湿性实验室装置以扩增dna片段,来为核酸碱基测序或读出提供经扩增的dna,从而产生所述无细胞dna读出数据。

任选地,所述方法包括通过访问所述数据库装置的一个或多个数据库来确定所述选择性区域,其中所述产前筛查系统在操作中根据所确定的一个或多个随后的胎儿调查风险得分的准确性来递归地或迭代地更新一个或多个数据库。更任选地,所述方法包括通过非侵入性程序确定所述二级数据,并且通过执行关于所述胎儿的组织或液体的一个或多个侵入性采样来确定所述随后的胎儿调查。

任选地,所述方法包括将所述一个或多个数据库实现为ngps知识库,其中所述ngps知识库包括在操作中重新校准的分析以包括和并入特异性针对所述血液样品的供体的信息。更任选地,所述方法包括安排所述ngps知识库包括表型信息,所述表型信息被用于在产生所述风险得分时通过所述数据处理装置执行的数据分析中。

在第七方面,本公开的实施方案提供了产前筛查系统,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置用于处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置用于参考存储于数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,在扩增分子条形码连接的dna片段之前,所述产前筛查系统在操作中将核酸碱基分子条形码连接至存在于所述血液样品中的无细胞dna片段,用于对经扩增的分子条形码连接的片段进行测序,以产生所述无细胞dna读出数据。

任选地,所述产前筛查系统在操作中实现为n-mer的分子条形码(umi),其中n在3至100的范围内。更任选地,n在4至20的范围内。此外,任选地,n为10。

任选地,所述分子条形码(umi)包括随机序列的核酸碱基。

任选地,所述湿性实验室装置在操作中将分子条形码(umi)整合到含有胎儿组分的无细胞dna文库中,并在计算所述风险得分时使用由此在基于杂交的富集中获得的所述无细胞dna文库,以鉴定从头变体。

任选地,所述产前筛查系统在操作中将核酸碱基分子条形码连接至所述片段以产生相应的条形码化的片段,并且通过使用靶向易于引起胎儿疾病的基因处引诱物的杂交进行富集。

任选地,所述产前筛查系统在操作中对胎儿进行非侵入性分子诊断,所述胎儿在超声检查时表现出骨骼异常和/或心脏异常。

在第八方面,本公开的实施方案提供了(用于)使用产前筛查系统的方法,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置用于处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置用于参考存储于数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,所述方法包括:

(i)将核酸碱基分子条形码连接至存在于所述血液样品中的无细胞dna片段;

(ii)扩增所述分子条形码连接的片段;以及

(iii)对经扩增的分子条形码连接的片段进行测序以产生所述无细胞dna读出数据。

任选地,所述方法包括操作所述产前筛查系统以将所述分子条形码实现为n-mer,其中n在3至100的范围内。更任选地,n在4至20的范围内。此外,任选地,n为10。

任选地,所述方法包括安排所述分子条形码以包括随机序列的核酸碱基。

任选地,所述方法包括操作所述湿性实验室装置以将所述分子条形码整合到含有胎儿组分的无细胞dna文库,并在计算所述风险得分时使用由此在基于杂交的富集中获得的所述无细胞dna文库,以鉴定从头变体。

任选地,所述方法包括操作所述产前筛查系统以通过采用酶促消化产生所述无细胞dna片段,将核酸碱基分子条形码连接到所述片段上以产生相应的条形码片段,以及通过使用靶向易于引起胎儿疾病的一种或多种疾病的基因处引诱物的杂交进行富集。

任选地,所述方法包括操作所述产前筛查系统以对在超声时表现出结构异常(例如骨骼异常、心脏异常)的胎儿进行非侵入性分子诊断。更任选地,所述异常是由从头突变引起的。

在第九方面中,本发明的实施方案提供了计算机程序产品,其包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质具有储存器上的计算机可读指令,所述计算机可读指令是计算机化设备可执行的,所述计算机化设备包括处理硬件以执行上述方法中的一种或多种,例如所述方法中的一种,例如组合使用的所述方法中的多种。

在第十方面,本公开的实施方案提供了筛查系统,其特征在于,所述筛查系统包括第一方面所述的筛查系统、第三方面所述的筛查系统、第五方面所述的筛查系统和第七方面所述的筛查系统中的至少两种的组合。任选地,所述筛查系统包括第一方面所述的筛查系统、第三方面所述的筛查系统、第五方面所述的筛查系统和第七方面所述的筛查系统中所有的组合。

本发明的另一方面,提供了产品,其包括湿实验室试剂盒和数据处理数据库系统。任选地,所述数据处理数据库系统是允许访问根据本公开的先前方面所限定的数据处理数据库的装置。任选地,湿实验室试剂盒是如本公开的第一至第十方面所限定的湿性实验室装置。

本公开的其它方面、优点、特征和目的将从附图和结合以下所附权利要求所解释的说明性实施方案的详细描述中变得显而易见。

应当理解,本公开的特征是在不脱离由所附权利要求所限定的本公开的范围的情况下以各种组合来组合的。

通过以下实施例可以获得对本发明更好的理解,这些实施例是为了说明而阐述的,但不应被解释为限制本发明。

附图简述

本公开的实施方案将从下文所描述的实例和附图中得到更全面的理解,所述实例和附图仅以说明的方式给出,因此不限制本发明,并且其中:

图1是根据本公开的实施方案的产前筛查系统的示意图;

图2是根据本公开的实施方案的图1的系统的卡尔曼滤波等效表示;

图3是根据本公开的实施方案的(用于)操作图1和图2的系统以用于提供产前筛查的方法的步骤的图示;

图4是根据本公开的筛查系统的示意图;

图5是根据本公开的(用于)使用图5的筛查系统的方法的步骤的图示;

图6是根据本公开的实施方案(图1)的下一代产前筛查系统的示意图;

图7是根据本公开的(用于)操作图6的系统以提供下一代产前筛查的方法的步骤的图示;

图8是根据本公开的实施方案的产前筛查系统的框图;

图9是根据本公开的实施方案的图8的产前筛查系统的卡尔曼滤波等效表示的图示;

图10是根据本公开的实施方案的分子条形码连接的dna片段的图示;

图11是根据本公开的实施方案的经扩增的分子条形码连接的片段的图示;

图12是根据本公开的实施方案的(用于)使用图8的产前筛查系统的方法的步骤的图示;和

图13是采用图1、图4、图6和图8所示的多个筛查系统的组合的筛查系统的图示。

在附图中,加下划线的编号被用于表示加下划线的编号所位于的项目或加下划线的编号相邻的项目。未加下划线的编号涉及通过将未加下划线的编号连接到项目的线所标识的项目。当编号是未加下划线的并且伴随有相关联的箭头时,未加下划线的编号被用于标识箭头所指向的一般项目。

缩写词列表

缩写词含义

rmd相对突变剂量

rhdo相对单倍型剂量

pcr聚合酶链式反应

nt颈项透明度

cffdna无细胞胎儿dna

nipt非侵入性产前检验

cfdna无细胞dna

ngps下一代产前筛查

定义

如本文中所使用的,下列术语应具有以下含义:

如本文中所使用的,术语‘数据处理装置’是指可以体现在软件中的过程和/或系统,所述软件在操作时确定所获取数据的生物学意义(即,测定的最终结果)。例如,数据处理装置可以基于所收集的数据确定每种核苷酸序列种类的量。数据处理装置还可以基于所确定的结果来控制仪器和/或数据采集系统。数据处理和数据采集装置通常是集成的并提供反馈以通过仪器操作数据获取,因此提供了本文所提供的基于测定的判断方法。

如本文中所使用的,术语‘数据库装置’是指本领域已知的核酸数据库,其包括例如(欧洲分子生物学实验室(europeanmolecularbiologylaboratory))、clinvar、gnomad和(日本的dna数据库)。可以使用或类似工具来针对序列数据库搜索所鉴定的序列。

如本文中所使用的,术语‘无细胞dna’是指不在细胞内的dna。在一个实施方案中,无细胞dna包括在血液中循环的dna。在另一个实施方案中,无细胞dna包括存在于细胞外的dna。在另一个实施方案中,无细胞dna包括存在于细胞外的dna以及在血液样品经历部分或温和的细胞裂解后存在于血液样品中的dna。

如本文中所使用的‘聚合酶链式反应(pcr)’是用于分子生物学的技术,以将dna片段的单个拷贝或几个拷贝扩增几个数量级,从而潜在地产生成千上万个拷贝的特定给定dna序列。

如本文中所使用的,‘桥式扩增’或‘扩增’被用于使用大规模平行处理的概念的dna测序目的的大规模平行测序,其中使用小型化和平行化平台用于在每次仪器运行1百万至430亿个短读(各50至400个核酸碱基)的范围内进行测序。

如本文中所使用的,‘接合性’是指给定生物体(例如给定胎儿)中某一特性的等位基因的相似性程度。

如本文中所使用的,术语‘遗传信息’是指与核酸、改变的核苷酸序列、染色体、染色体片段、多态性区域、易位区域等或前述的组合相关的信息。此外,核酸可以包括但不限于dna、cdna、rna、mrna、trna和rrna。此外,遗传信息可以包括与突变、拷贝数变化、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、dna损伤、核酸化学修饰的异常变化、表观遗传模式的异常变化、核酸甲基化感染或癌症的异常变化相关的信息。

如本文中所使用的,术语‘游离胎儿dna’是指来源于给定胎儿而不是给定胎儿的母亲的dna,其中dna不在细胞内。在一个实施方案中,无细胞胎儿dna包括在母体血液中循环的胎儿dna。在另一个实施方案中,无细胞胎儿dna包括存在于细胞外的胎儿dna,例如存在于胎儿细胞外。在另一个实施方案中,无细胞胎儿dna包括存在于细胞外的胎儿dna以及在这种血液样品经历部分或温和的细胞裂解后存在于母体血液样品中的胎儿dna。本文中,术语‘游离胎儿dna’还指在母体血浆中循环的小dna片段(即约<300个碱基对);换句话说,胎儿细胞中所含的排除dna可能在母体血浆中循环。

如本文中所使用的,术语‘母体样品’或‘母体血液样品’是指从妊娠的女性获得的样品,该样品可包括但不限于血浆、血清、外周血和尿液。通常,样品是母体血浆样品,尽管也可以使用含有母体和胎儿dna的其它组织来源。母体血浆可以从孕妇的外周全血液样品中获得,并且血浆可以通过标准方法获得。3ml至5ml的血浆体积足以提供用于分析的合适的dna材料。可以使用标准技术从样品中提取无细胞dna,其非限制性实例包括适于游离胎儿dna分离的方案或适于无细胞dna分离的任何其它自动或手动提取方法。

如本文中所使用的,术语‘生物学特性’是指遗传变异、异常、不规则或突变,其广泛范围从单个核苷酸的变化到另外的完整染色体或异常数量的染色体的存在。染色体异常是结构异常,包括但不限于拷贝数变化,其包括微缺失和微复制、插入、易位、倒位和小尺寸突变(包括点突变和突变特征)。

如本文中所使用的,术语‘湿性实验室装置’是指以下设施、临床和/或设置:用于体液样品的提取、收集、处理和/或分析的仪器、设备和/或装置;用于遗传物质的提取、收集、处理和/或分析的仪器、设备和/或装置;用于扩增、富集和/或处理从体液样品接收的遗传物质的仪器、设备和/或装置;用于提取和/或分析从经扩增的遗传物质接收的遗传信息的仪器、设备和/或装置。在本文中,仪器、设备和/或装置可以包括但不限于离心机、elisa、分光光度计、pcr、rt-pcr、高通量筛选(hts)系统、微阵列系统、超声、遗传分析仪、脱氧核糖核酸(dna)测序仪和snp分析仪。湿性实验室装置在操作中被用于监测和/或扫描胎儿,例如使用提供胎儿的动画图像的超声扫描设备(“超声扫描仪”)。这里,湿性实验室装置可以包括用于扫描胎儿的设备、仪器和/或装置。这种设备、仪器和/或装置包括超声扫描仪(如上所述)、症状发生前遗传检验和/或组合检验。

如本文中所使用的,术语“条形码”是指允许鉴定独特核酸片段的独特寡核苷酸序列。这种独特的寡核苷酸序列可以被称为独特的分子标识符(umi)或分子条形码。在某些方面,核酸碱基和/或核酸序列位于较大多核苷酸序列(例如共价连接于珠的多核苷酸)上的特异性位置。寡核苷酸通常是短dna或rna分子、寡聚物,其在遗传检验、研究和法医学中具有广泛的应用。此外,这种寡核苷酸通常在实验室中通过固相化学合成制备;这些少量的核酸可以被制造为具有潜在的任何用户指定序列的单链分子,因此对于人工基因合成、聚合酶链式反应(pcr)、dna测序、文库构建和作为分子探针是至关重要的。在自然界中,寡核苷酸通常被发现为在基因表达的调节中起作用的小rna分子(例如,微小rna),或者是来源于较大核酸分子分解的降解中间体。

靶标富集被用于分离基因组dna的特异性片段以用于测序。互补寡核苷酸“引诱物”文库被用于检索目的片段(即靶dna)。靶dna与引诱物很好地杂交,而其他dna则不能,这构成了强大的选择方法的基础,所述选择方法对应于活跃合成基因组的部分,而不是调控基因组表达的表观基因组。如本文中所使用的,术语“引诱物”是指被用于与其它生物活性分子(如目的基因或靶基因)相互作用的生物活性分子。当设计时,这种引诱物将与靶向与单基因临床病症相关的基因和从母体血浆样品中富集胎儿dna组合使用。引诱物是例如预先制备的,并且任选地选自制备的引诱物库。这种引诱物的文库由商业机构提供(例如基于美国的商业机构)。此外,这种文库包括例如多达100000种不同类型的引诱物。有利地,所述引诱物对应于人类基因组的活性合成部分,其中dna序列变异可引起使用本公开的系统和方法检测的疾病;例如,基因组的表观基因组部分不能提供最合适的引诱物,因为这些外基因组部分倾向于经历从一个个体生物体到另一个个体生物体的相对大的变异。

引诱物包括dna碱基的一部分(例如,序列中的120个碱基,尽管其它数目的碱基也是可能的,例如,在20至200个碱基的范围内),其中生物素基团与该部分的末端连接。生物素基团是磁极化的,并且可以被吸引到在给定液体中四处移动的磁体上;这种技术能够在湿性实验室装置中实现cfdna片段的空间浓度。

当处理母体血液样品时,将引诱物加入到来源于血浆的cfdna中,因此引诱物(具有它们的生物素基团)与相应的cfdna片段结合,吸引的引诱物和连接的相关cfdna片段被富集,并且cfdna片段被扩增。

引诱物是可商购的(例如,从agilentbiosystems,usa),其中引诱物在提供数成千上万种不同类型的引诱物的选择的大型文库中是可获得的,例如如上所述。例如,agilentbiosystems提供了靶标富集文库,其例如被用于本公开的实施方案中,以提供含有一组生物素化寡核苷酸的最终产物。然而,当在中(通过)创建文库时,根据dna碱基(a、c、g、t)来指定引诱物序列。所述引诱物被设计成具有与人基因中的特异性dna碱基组相对应的dna序列,其中所述特异性组可引起对胎儿健康有影响的各种类型的疾病。引诱物对应于基因组的活性合成部分,而不是调控基因组表达的表观基因组。

可替代地,可优选非商也可获得的引诱物。这些引诱物可以是特别设计的,并且可以由任何数目(优选20-300个碱基,例如50-200个碱基,优选100-150个碱基)的dna碱基形成。

如本文中所使用的,术语‘生物样品’是指从妊娠的女性获得的样品,所述样品可以包括但不限于血浆、血清、外周血和尿液。通常,样品是来源于血液的母体血浆样品,尽管任选地使用含有母体和胎儿dna的其它组织来源。母体血浆可以从孕妇的外周全血液样品中获得,并且血浆可以通过标准方法获得。3ml至5ml的血浆体积足以提供用于分析的合适的dna材料。可以使用标准技术从样品中提取无细胞dna,其非限制性实例包括适于游离胎儿dna分离的方案或适于无细胞dna分离的任何其它自动或手动提取方法。

如本文中所使用的,二级数据是例如通过使用超声扫描从对给定母亲的检查中得到的数据,收集以下数据:描述给定母亲的家族史、给定母亲的生活方式参数(例如吸烟者或非吸烟者、肥胖、酗酒者或非酗酒者、麻醉药物滥用者)、给定母亲的病史(例如,给定母亲经历的先前感染性疾病)、给定母亲的用药史(例如,给定母亲所消费的治疗、手术和药物)等等。此外,二级数据可以包括描述由给定母亲通过妊娠所携带的儿童的特征的信息。

如本文中所使用的,ngps知识库是关于一种或多种靶标测定方法的信息资源库,其包括存储关于给定患者的信息的数据库,并且由多个部分组成:

(i)第一部分p1,其涉及数据库装置的构建,所述数据库装置含有直接与针对给定人(例如,针对妊娠母亲)进行的筛查过程相关的信息;

(ii)第二部分p2,其涉及基因组捕获区域数据库;

(iii)第三部分p3,其涉及患者信息数据库;和

(iv)第四部分p4,其涉及测序运行数据库。

此外,‘ngps知识库’可以包括一个或多个算法,其可用于在接收到其他信息的每个新数据集的情况下,更新和改造现有数据集信息。

如本文中所使用的,基因组捕获区域数据库是指示以下的数据库:

(i)在基因组的这些区域中错误调用的可能性;和

(ii)在遗传水平上的突变、以及已知的有害变体和它们相关表型(hpo术语)的可能性。

如本文中所使用的,测序信息数据库是包括关于每个样品的信息的数据库,所述信息包括文库制备质量得分、在为每个样品执行的测序运行的序列数据中观察到测序错误的程度、每个样品的估算胎儿分数、以及通过每个样品的无细胞dna的基因组估算的覆盖百分比,以使得可能与相关的潜在遗传学无关的所获得的测序结果中模式的研究以及从由于测序技术限制或假象而带来的挑战中学习的潜力成为可能。

详述

下面进一步详细描述本公开的实施方案的实际实施;除非另有说明,否则这些实施方案可操作地采用(即,在操作时采用)本领域技术内的诊断、分子生物学、细胞生物学、生物化学和免疫学的常规方法。这种技术在文献中被充分地解释,例如与妊娠和遗传物质加工有关的当代学术研究文献。然而,应当理解,已知诊断方法的新组合可以产生新的发明。

应当理解,为清楚起见在单独实施方案的上下文中所描述的本发明的某些特征也可以在单个实施方案中组合提供。相反,为了简洁起见,在单个实施方案的上下文中所描述的本发明的各种特征也可以单独地和/或以任何合适的子组合来提供。

下面的详细描述示出了本公开的实施方案以及其中可以实现它们的方式。尽管已经描述了实施本公开的一些模式,但是本领域技术人员将认识到,用于实施或实践本公开的其它实施方案也是可能的。

在图1中,显示了根据本公开的实施方案的产前筛查系统100的图示。产前筛查系统100包括湿性实验室装置102和数据处理装置104。数据处理装置104可操作地与湿性实验室装置102交换(即,在操作时交换)指令和数据。数据处理装置104可操作来访问(即,在操作时访问)数据库装置106和二级数据库108。此外,存储于数据库装置106中的信息对于在数据处理装置104上可执行的一种或多种算法是可访问的。这里,湿性实验室装置102可操作地收集(即,在操作时收集)来自孕妇的一个或多个母体血液样品,例如单个血液样品或多个血液样品;然而,其它体液(例如唾液、痰)(例如排泄物)任选地被用于在采用非侵入性样品收集方法时(例如,出于道德原因)提供这种样品。此外,湿性实验室装置102可操作的富集(即,当在操作中时富集)存在于来源于母体血液样品(或如上所述的非侵入性样品)的血浆的无细胞dna(cfdna)中的游离胎儿dna(ffdna)片段。游离胎儿dna(ffdna)的富集利用基于无细胞胎儿dna(cffdna)片段特异性终点(例如由于细胞凋亡而产生的特异性终点)的坐标的引诱物。此外,数据处理装置106分析(即,可操作地分析)无细胞胎儿dna(cffdna),并将它们与存储于数据处理装置106中的一个或多个dna模板进行比较,以确定母体血液样品中存在的胎儿dna的一个或多个生物学特征的出现。

在实施方案中,产前筛查系统100的湿性实验室装置102可以可操作地扩增(即,当在操作中时扩增)游离胎儿dna片段,以提供多个拷贝的游离胎儿dna片段,用于通过数据处理装置104的分析。在该示例性实施方案中,湿性实验室装置102可以包括用于扩增游离胎儿dna片段的pcr,以向数据处理装置104提供多个拷贝的游离胎儿dna,用于访问数据库装置106中的遗传信息。在该实施方案中,湿性实验室装置102可以通过使用核小体谱分布来富集游离胎儿dna,用于确定游离胎儿dna片段的胎儿特异性起始和结束位置。

在另一个实施方案中,任选地,产前筛查系统100在操作中设计引诱物(可选择地从引诱物文库中选择引诱物)用于避免存在于从母体血液样品提取的血浆中的母体dna引起的污染;换句话说,引诱物被用作生物过滤器的一种形式,用于区分胎儿来源的dna片段和母体来源的那些dna片段。在该实施方案中,所设计的引诱物(可选择地选自引诱物文库的引诱物)可以与靶向的基因组合选择。例如,靶向的基因可以包括但不限于与单基因和/或多基因临床病症相关的基因。

在一个实施方案中,任选地,湿性实验室装置102在操作中分离和分析在核小体内开始的血浆中的cfdna片段。此外,cfdna片段对应于母体血液样品的血浆的胎儿级分。在该实施方案中,在核小体内开始的cfdna片段的核酸碱基计数可以比存在于母体血液样品中的cfdna片段的核酸碱基计数的平均长度相对更短(例如,相对于相应母亲的~166个碱基长,胎儿的为~143个碱基长)(任选地,例如,胎儿cfdna片段在135至155个碱基长的范围内,而母体cfdna片段在150至175个碱基长的范围内)。

在另一个实施方案中,任选地,湿性实验室装置102在操作中进行胎儿染色体异常的产前筛查的组合检验。在该实施方案中,组合检验可以包括但不限于母体血液检验和胎儿的超声扫描。

在产前筛查系统100的实例操作中,具有胎儿的母亲被呈现给产前筛查系统100。产前筛查系统100被用于对胎儿进行超声扫描检验以产生胎儿的超声图像或视频,并且从超声检验中鉴定胎儿中的心脏异常。例如,推断如果要进行上述侵入性羊膜穿刺术或绒毛膜绒毛,则存在母亲遭受胎儿流产的风险。许多母亲(可选择地父亲)在这种情况下选择不进行用于进行遗传检验目的的这种侵入性采样。然而,有利地是,产前筛查系统100能够提供非侵入性测定,由此进行遗传诊断是可行的。非侵入性测定包括在来源于母体血液样品的游离胎儿dna(ffdna)中富集一定比例的无细胞胎儿dna(cffdna)片段,其中所述测定包括与所研究的给定病症相关的无细胞dna片段特异性终点和基因的坐标。可以通过产前筛查系统100从其数据库装置106访问指示有利的胎儿片段末端位置和核小体谱的信息。由此提供了(即“设计了”)用于从来源于上述母体血液样品的母体血浆样品的胎儿dna的富集。例如,迭代地更新信息,从而提高信息的准确性和相关性。

在另一个实施方案中,数据处理装置104在操作中将从母体血液样品中提取的遗传信息存储在第二数据库108中。

在图2中,显示了根据本公开的实施方案的系统(如图1的产前筛查系统100)的卡尔曼滤波等效表示200的图示。系统100的卡尔曼滤波等效表示200包括从游离胎儿dna(ffdna)片段202接收的遗传信息和为胎儿204的组合检验接收的信息的组合馈送到数据处理装置206(如图1的数据处理装置104)。数据处理装置206在操作中对从游离胎儿dna(ffdna)片段202接收的遗传信息和为胎儿204的组合检验而接收的信息执行卡尔曼滤波。数据处理装置206还包括模糊逻辑模块208、处理模块210、用于匹配数据库装置214(如图1的数据库装置106)中的cff-dna片段的遗传算法212、用于存储从处理模块210接收的风险得分218的二级数据库216(如图1的二级数据库108)。在该实施方案中,数据处理系统206在操作中对从母体血液样品接收的遗传物质执行卡尔曼滤波以去除污染。此外,遗传算法212在操作上在计算硬件上执行时匹配数据库装置214中的ffdna片段,并通过实现这种匹配来计算风险分数218。

在示例性实施方案中,产前筛查系统100在操作中执行数据处理装置104中的遗传算法212,用于使用指示有利的胎儿片段末端位置和核小体谱的信息。在该实施方案中,来源于上述母体血液样品的母体血浆样品包括dna序列,其是使用靶向有利的胎儿片段终点的测定来富集的;这种富集例如使用前述的引诱物来实现。此外,产前筛查系统100使用来源于核小体定位的胎儿特异性读取的有利位置来在操作中富集cfdna片段。在该实施方案中,处理模块210在操作中确认cffdna片段的位置。

在一个实施方案中,产前筛查系统100在操作中区分cfdna的母体组分和胎儿组分。在该实施方案中,这种分化可以通过采用测定设计来实现,所述测定设计富集胎儿组分并有助于对母体读取和胎儿读取绘图。

在一个示例性实施方案中,在操作中,产前筛查系统100设计和/或选择引诱物,并在胎儿特异性位置和胎儿母体共享位置采用引诱物。此外,引诱物设计可以与与单基因临床病症相关的基因的靶向组合进行。

在另一个示例性实施方案中,片段在特异性位置的定位是由于dna的非随机片段化,并且已经假定血浆dna片段在基因组的可接近部分中被切割。此外,较短的cfdna片段在核小体中开始,并且已经表明这些片段与胎儿级分正相关。此外,通过使用核小体谱来确定最可能的起始位置和胎儿特异性的终止位置,产前筛查系统100可以改善cffdna的富集。

在图3中,显示了根据本公开的实施方案的(用于)使用产前筛查系统(如图1的产前筛查系统100)的方法300的流程图。在步骤302处,流程图开始。在步骤302处,使用湿性实验室装置(如图1的湿性实验室装置102)从妊娠母亲收集母体血液样品。在步骤304处,使用湿性实验室装置从母体血液样品中获得血浆。在步骤306处,使用湿性实验室装置富集存在于无细胞dna(cfdna)中的游离胎儿dna(ffdna)片段,其中分离利用基于无细胞胎儿dna(cffdna)片段特异性终点的坐标的引诱物。在步骤308处,分析分离的游离胎儿dna(ffdna),并将其与存储于数据处理装置中的一个或多个dna模板进行比较,以确定母体血液样品中存在的胎儿dna的一个或多个生物学特征的出现。

在一个实施方案中,(用于)使用产前筛查系统的方法300可以包括使用用于富集cfdna片段的湿性实验室装置,以向数据处理装置提供多个拷贝的cfdna片段以供分析。此外,方法300可以包括通过使用核小体谱来富集游离的胎儿dna片段,以确定最可能的起始位置和胎儿特异性的终止位置。

在另一个实施方案中,(用于)使用产前筛查系统的方法300可以包括使用湿性实验室装置来设计引诱物以富集存在于母体血液样品的血浆中的母体dna。此外,所设计的引诱物可以与基因的靶向组合,其中所述基因与单基因临床病症相关。

在另一个实施方案中,(用于)使用产前筛查系统的方法300可以包括使用湿性实验室装置分离和分析在核小体内开始的血浆中的cfdna片段。此外,cfdna片段对应于母体血液样品的血浆的胎儿级分,其中在核小体内开始的cfdna片段在核酸碱基计数上比存在于母体血液样品中的cfdna片段的核酸碱基计数上的平均长度相对更短。

在另一个实施方案中,(用于)使用产前筛查系统的方法300可以包括使用湿性实验室装置进行胎儿染色体异常的产前筛查的组合检验。在该实施方案中,组合检验可以包括但不限于母体血液检验和胎儿的超声扫描。

在另一个实施方案中,(用于)使用产前筛查系统的方法300可以包括使用数据处理装置将从母体血液样品中提取的遗传信息存储于二级数据库中。

在另一个实施方案中,(用于)使用产前筛查系统的方法300可以包括通过应用遗传算法(如图2的遗传算法212)来使用数据处理装置以匹配数据库装置(如图1的数据库装置106)中的cffdna片段。

尽管在前面描述了使用产前筛查系统100来执行产前筛查,但是应当理解,产前筛查系统可以被用于研究其它类型的生物问题,而不仅仅局限于产前筛查任务,例如:癌症风险确定;自闭症风险的确定;进行基因治疗后生物体性能的验证;对细胞dna的电离辐射损伤鉴定;和/或糖尿病风险确定。

总的来说,本公开的实施方案还涉及如图4中的400所示的筛查系统。筛查系统400包括湿性实验室装置402,其中湿性实验室装置402包括诸如生物样品收集设备、离心机、pcr快速基因测序设备和类似设备的设备。此外,筛查系统400可操作地处理(即,当在操作中时处理)湿性实验室装置中的生物样品,以确定其中dna(即,cfdna)片段的存在,并对dna片段进行测序。

在操作中,生物样品获自人(例如妊娠母亲);然而,可以理解的是,也可以任选地采用父亲血液样品。例如,当计算前述风险得分时,当研究杂合等位基因时,使用父亲和母亲血液样品(可替代地组织样品)都是有用的。任选地,生物样品是血液样品或组织样品。任选地,对于妊娠母亲,生物样品是非侵入性样品,其中样品的收集不具有与之相关联的流产风险。然而,任选地,如果需要,用侵入性样品补充生物样品,例如收集羊水、收集胎盘组织等。此外,生物样品包括血浆,其包括作为其组成部分的无细胞dna(cfdna)片段的混合物。具体而言,无细胞dna(cfdna)可以包括来源于妊娠母亲、妊娠母亲的胎盘和/或胎儿的部分。此外,来源于胎儿的无细胞dna(cfdna)部分被称为无细胞胎儿dna(cffdna)。

此外,湿性实验室装置402对dna片段进行测序以确定无细胞dna(cfdna)的存在。具体地,对血浆中存在的dna片段进行扩增和测序以产生代表测序的dna片段的信息。任选地,代表测序dna片段的信息包括大量核酸碱基序列信息。随后,在数据处理装置404中处理核酸碱基序列信息。

在一个实施方案中,当在操作时,筛查系统400区分(即,可操作地区分)母体来源的无细胞dna(cfdna)片段和胎盘和/或胎儿来源的无细胞dna(cfdna)片段(cffdna)。具体地,湿性实验室装置402可以从存在于生物样品中的母体来源的无细胞dna(cfdna)片段中富集胎盘和/或胎儿来源的无细胞胎儿dna(cfdna)片段。此外,在数据处理装置404中分析代表胎盘和/或胎儿来源的无细胞dna(cfdna)片段的数据。

此外,筛查系统400还包括数据处理装置404,其包括基因组数据库装置406,用于从湿性实验室装置402接收代表测序dna片段的信息。任选地,数据处理装置向湿性实验室装置402提供反馈数据,用于控制在那里执行的各种检验。此外,基因组数据库装置406存储包括基因组绘图数据和研究数据的信息,所述研究数据分析人类基因的结构、位置和测序,以及突变的临床效果和它们与生物序列和结构的相互关系。

此外,数据处理装置404将代表经测序dna片段的信息与存储于基因组数据库装置406中的信息进行比较(即,可操作地进行比较),以提供关于生物样品的评估得分。任选地,数据处理装置404可以根据对湿性实验室装置402处理的生物样品进行的筛查检验来计算结果。例如,湿性实验室装置402可以提供产前筛查服务,但不限于此。更任选地,数据处理装置404可以将通过dna片段的测序提供的数据与存储在基因组数据库装置406中的信息进行比较,以评估经比较的dna片段中遗传病症的风险。具体地,将无细胞dna片段与存储于基因组数据库装置406中的信息进行比较。在示例性实施方案中,代表经测序dna片段的信息可以包括具有反常‘a-g-t-c’的‘a-t-g-c-a-t-g-c’dna碱基对的顺序排列。在这种实施方案中,数据处理装置402可以将反常与存储于基因组数据库406中的dna的顺序排列进行比较。随后,在该实施方案中,数据处理装置404可以评估反常是否可以引起或不引起遗传病症。另外,数据处理装置404可以比较并向胎儿提供代表遗传或获得遗传病症风险的评估得分。可以理解的是,dna碱基对a、t、g、c(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)仅用于说明的目的,并不代表可能导致特异性疾病的dna碱基对的实际排列。

应当理解,存在一个或多个随机等级,其与湿性实验室装置402提供的代表经测序dna片段的信息相关联。具体地,所述一个或多个随机等级代表产前筛查中随机噪声的测量值。更具体地,当通过数据处理装置404计算时,随机噪声可能增加假的评估得分(如,假阴性得分或假阳性得分)的风险。此外,假的评估得分的风险有助于评估得分中存在的随机和/或系统不确定性。另外,较高的随机和/或系统不确定性降低了由筛查检验提供的结果的置信度。

筛查系统400在操作中应用(即,可操作地应用)对与代表经测序dna片段的信息相关联的一个或多个随机等级的修改。具体地,对一个或多个随机等级进行修改,以降低评估得分中存在的随机和/或系统不确定性。更具体地,使用提供给筛查系统400的二级信息将修改应用于一个或多个随机等级。

在一个实施方案中,提供给筛查的二级信息可以指与提供生物样品的人相关的遗传信息、环境条件、与饮食相关的营养信息等。具体地,二级信息涉及可能影响遗传先天性缺陷的风险的因素,例如生活方式参数(例如,饮酒、吸烟)、手术病史、环境辐射暴露参数、宇宙射线暴露等。

在一个实施方案中,当计算数据处理装置中的修改时,筛查系统在操作中(即,可操作地采用)采用以下得分中的至少一个:

(a)基因组定位得分,其中所述基因组定位得分包括区域内突变的可能性;

(b)序列错误得分,其中所述序列错误得分包括给定核酸碱基是模板扩增期间pcr失真和/或测序过程中错误调用的结果的可能性;

(c)患者修正得分,其中所述患者修正得分包括来自外部来源的细节;和

(d)嵌合体检测得分,其中所述嵌合体检测得分包括在母体基因型不平衡的区域中存在变体的可能性。

在一个实施方案中,计算基因组定位得分以包括不正确基因型的鉴定频率(即,调用)。具体地,基因型可以在基因组或染色体的给定区域中。更具体地,由于基因组结构的问题,可以鉴定不正确的基因型。基因组结构的问题的实例包括但不限于重复序列的一次或多次出现、低遗传保守性、基因序列拓扑结构。此外,基因组定位得分与区域内突变的可能性有关。具体地,该区域可以是目的区域。在一个实例中,目的区域可以是可以延伸到所有外显子组或整个给定基因组的测定捕获区域。此外,数据处理装置404可以计算基因组定位得分。

在一个实施方案中,基于区域中易于发生的变化频率和/或调用该区域中的假变体的频率来计算区域内突变的可能性。具体而言,基因组定位得分可以估计区域中发生一个或多个变化的可能性。此外,在该区域中调用假变体的频率被纳入估计。在一个实施方案中,筛查系统400将基因组定位得分转换(即,可操作地转换)为特定位点的权重。具体地,基因组定位得分的权重代表基因组定位得分中潜在随机误差的指示。

在一个实施方案中,序列错误得分包括在dna片段的扩增和/或测序中错误的可能性。具体地,对dna片段扩增并测序以产生代表经测序的dna片段的信息。因此,聚合酶链式反应(pcr)可以在这种扩增和测序中进行。具体而言,聚合酶链式反应(pcr)采用dna聚合酶来准确复制dna片段。随后,dna聚合酶在扩增和测序(即复制)中的错误被称为pcr失真。因此,序列错误包括由于模板(即dna片段)扩增期间的pcr失真而产生给定核酸碱基的可能性。此外,测序过程中的错误被称为在测序过程中的错误调用。具体地,测序过程包括可能导致错误调用的不同核酸碱基浓度。

在一个实施方案中,可以向生物样品中加入独特的分子索引(例如作为质量示踪剂)用于鉴定独特的和原始的dna片段,否则由于在扩增期间引入的错误,dna片段可能被误解释。因此,基因组定位得分中的潜在随机错误是通过采用质量示踪剂而降低的。任选地,通过扩增和pcr采用上述一种或多种条形码作为质量示踪剂,因为可以先验地知道条形码来进行这种扩增和pcr。换句话说,条形码不仅允许更可靠的dna片段读出,而且允许通过测量定量扩增和pcr过程的固有错误率,例如用于修改最终风险得分的计算。

在一个实施方案中,使用母体基因序列计算序列误差得分。具体地,用于扩增和测序的dna片段可以是母体来源的。此外,使用从母体基因序列获得的信息,序列误差得分的估算相对较不复杂。在一个实施方案中,筛查系统400应用(即,可操作地应用)序列错误得分作为权重并修改碱基调用中的置信度。具体地,序列误差得分的权重代表扩增和测序过程的准确性。

在一个实施方案中,当计算数据处理装置404中的修改时,采用患者修正得分。具体地,患者修正得分包括受诸如饮食、气候、暴露于化学品或电离辐射、疾病等因素影响的表型的变异,例如如上所述。任选地,用于外部来源的信息至少包括从异常扫描接收的信息。具体地,可以在妊娠期间执行异常扫描以确保胎儿的健康发育。更具体地,任何反常和/或异常被报告为包括在筛查系统400的患者修正得分中。

在一个实施方案中,患者修正得分可以包括符合父亲年龄的从头突变的预期。例如,在父亲较年长的胎儿中可以预期更多的从头突变,因此,可以有助于更高的患者修正得分。任选地,患者修正得分可以包括显性-隐性遗传。例如,遗传患有具有负责糖尿病的隐性基因的父母的糖尿病的儿童的风险可能更大。在一个实施方案中,筛查系统400在操作中将来自外部来源的细节转换(即,可操作地转换)为权重。

在一个实施方案中,嵌合体检测得分包括在不平衡的母体基因型区域中发生变体的可能性。具体地,胎盘来源的无细胞dna(cfdna)片段可能展现出遗传异常,即使胎儿中可能不存在这种异常。因此,母体基因型可以提供胎儿中是否存在异常的真实风险或是否是假调用的指示。在另一个实施方案中,假调用可能是由于母体等位基因频率的不平衡。有利地是,为了比较,在妊娠前获得母体血液样品,并使用扩增和pcr对其进行测序,作为与妊娠期间获得的cfdna片段进行比较的参考。通过这种方法,与胎儿或至少与胎儿的胎盘相关的等位基因更容易与母体等位基因区分开。当获得父亲血液样品时,可以以甚至更高的确定性从母体血液样品中鉴定胎儿或胎盘dna片段,从而在计算时提高前述风险得分的准确性。

在一个实施方案中,筛查系统400在操作中组合(即,可操作地组合)基因组定位得分、序列错误得分、患者修正得分和/或嵌合体检测得分以修改调用的置信度。具体地,得分考虑了可能导致评估得分错误的因素。因此,当在评估得分中考虑这样的因素时,由此产生的调用的置信度可能受到积极的影响。

在一个实施方案中,其中含有cfdna片段的生物样品以非侵入性方式从孕妇中提取。具体地,可以以非侵入性方式提取从孕妇中提取的生物样品,以防止或降低流产的风险。此外,非侵入性方式的例子可以包括可以不涉及从羊膜囊中提取样品的技术。

在图5中,显示了根据本公开的(用于)使用筛查系统(例如图4的筛查系统400)的方法500的流程图。在步骤502处,流程图开始。在步骤502处,在湿性实验室装置中处理生物样品以确定其中存在无细胞dna(cfdna)片段,从而对dna片段进行测序。在步骤504处,使用数据处理装置将代表经测序dna片段的信息与存储于基因组数据库装置中的信息进行比较,以提供关于生物样品的评估得分。在步骤506处,操作筛查系统以使用提供给筛查系统的二级信息对与代表经测序dna片段的信息相关联的一个或多个随机等级应用修改,以减少评估得分中存在的随机和/或系统不确定性。

步骤502至506仅是说明性的,并且还可以提供其它替换,其中添加一个或多个步骤,去除一个或多个步骤,或者以不同的顺序提供一个或多个步骤,而不脱离本文的权利要求的范围。在一个实施方案中,方法500包括区分母体来源的无细胞dna片段与胎盘和/或胎儿来源的无细胞dna片段。

在另一个实施方案中,方法500包括在计算数据处理装置中的修改时采用以下得分中的至少一个:

(a)基因组定位得分,其中所述基因组定位得分包括区域内突变的可能性;

(b)序列错误得分,其中所述序列错误得分包括给定核酸碱基是模板扩增期间pcr失真和/或测序过程中错误调用的结果的可能性;

(c)患者修正得分,其中所述患者修正得分包括来自外部来源的细节;和

(d)嵌合体检测得分,其中所述嵌合体检测得分包括在母体基因型不平衡的区域中存在变体的可能性。

在又一个实施方案中,方法500包括基于区域中发生的变化频率和/或调用区域中的假变体的频率来计算区域内的突变的可能性。在一个实施方案中,方法500包括使用母体基因序列计算序列错误得分。

在一个实施方案中,方法500包括接收来自异常扫描的信息。在另一个实施方案中,方法500包括将基因组定位得分转化为特定基因座的权重。任选地,方法500包括应用序列错误得分作为权重并修改碱基调用的置信度。更任选地,方法500包括将来自外部来源的细节转换为权重。

任选地,方法500包括组合基因组定位得分、序列错误得分、患者修正得分和/或嵌合体检测得分以修改给定调用的置信度。任选地,方法500包括以非侵入性方式从孕妇中提取其中含有cfdna片段的生物样品。

任选地,通过使用包括其上存储有计算机可读指令的非暂时性计算机可读存储介质的计算机程序产品来实施上述(用于)使用筛查系统的方法500,所述计算机读指令是由包括处理硬件的计算机化装置可执行的。

总的来说,当为了检验或诊断目的而对母体血液样品进行分析时,上述已知方法不包括与确定患有疾病的给定儿童的风险相关的大量信息。具体地,大量信息包括但不限于患者数据、关于被筛选的确切基因的数据、序列运行信息。

在本公开中采用的ngps知识库可用作关于可以被用于实现ngps的一种或多种靶向测定方法的信息的资源库。‘ngps知识库’任选地可以包括存储关于给定患者的信息的数据库。具体地,该信息可以包括与在测定中包括的人类基因组的一个或多个区域有关的数据、给定运行的测序错误率的指示、以及允许更新‘ngps知识库’的算法和待重新评估的相关模型。有利地是,‘ngps知识库’可以通过与其结合执行的ngps分析来通知和被通知。具体地,这种信息交换可以允许‘ngps知识库’的改进和进化。

上述‘ngps知识库’可以由多个部分组成。第一部分p1被认为是最重要的,它涉及数据库装置例如包括一个或多个数据库()的构建,该数据库装置含有与为给定的人(例如为妊娠的母亲)进行的筛查过程直接相关的信息。‘ngps知识库’的其他部分包括:

(a)第二部分p2,其涉及基因组捕获区域数据库;

(b)第三部分p3,其涉及患者信息数据库;和

(c)第四部分p4,其涉及测序运行数据库。

此外,p1至p4部分可以存储信息;‘ngps知识库’可以包括一个或多个算法,其可以被构建以提取信息来填充上述一个或多个数据库,以及将信息转换为计算上可使用的加权或置信度参数。此外,‘ngps知识库’可以包括一个或多个算法,其可操作来利用附加信息的每个新数据集来更新和改造现有数据集信息。因此,‘ngps知识库’可以可操作的采用人工智能(ai)从这些数据库中学习。例如,人工智能(ai)引擎可以包括计算机实现的神经网络的分级分层配置,其是可操作的以提供假模拟变量状态机以用于决策目的;神经网络在暴露于来源于处理生物样品的真实数据之前任选地使用合成数据训练,使得真实数据迭代地改善由神经网络在操作中提供的辨别。

此外,‘ngps知识库’的组成可以包括基因组捕获区域数据库;测序信息数据库;以及患者信息数据库。

基因组捕获区域数据库可以含有与实施本公开的实施方案时采用的ngps测定的捕获区域有关的信息。此外,基因组捕获区数据库仅涉及基因组中处于筛查测定靶标的区域。基因组捕获区域数据库可以包括指示以下的信息:

(i)在基因组的这些区域中错误调用的可能性;和

(ii)在遗传水平上突变、以及已知的有害变体和它们的相关表型(hpo术语)的可能性。

测序信息数据库可以含有关于每个样品的信息,其包括文库制备质量得分、在为每个样品执行的测序运行的序列数据中已经观察到测序错误的程度、每个样品的估算胎儿分数、以及通过每个样品的无细胞dna的基因组的估算覆盖百分比。这种信息的存储使得可能与相关的潜在遗传学无关的所获得的测序结果中模式的研究以及从由于测序技术限制或假象而带来的挑战中学习的潜力成为可能。

通常,在没有关于患者表型的有价值的收集的表型数据的情况下进行分析导致分析的次优性能,因为基因组的所有区域可以被认为具有相等的重量,即使这可能不是逻辑上合理的推理;相反,本公开的实施方案利用关于患者表型的表型数据。在一个示例性实施方案中,在关于异常扫描结果的信息事件中,该事件可以向可能存在但没有足够的深度以被突出显示的测序信息提供证据。此外,通过组合利用多条信息,可以在执行产前筛查时提供灵敏度和检测能力的改善,有益地导致假阴性率的降低。此外,专利信息数据库可以帮助降低假阳性率,如在分析中包括父亲的年龄,因为这已知对生殖细胞系中的突变比率有影响,并因此对预期遇到的‘从头’突变的数目有影响。

本公开的实施方案可以包括例如以递归或迭代方式更新和重构ngps系统的上述一个或多个数据库中的信息的算法。

因此,在本公开的实施方案中,根据提供给一个或多个前述数据库的新数据来计算新的错误得分和重新估算计算假设是‘ngps知识库’的重要要素。

在另一个方面,本公开的实施方案提供了产前筛查系统,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置参考存储于数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,所述产前筛查系统使用(即,可操作地使用)二级数据,所述二级数据描述所述血液样品的供体以修改在所述数据处理装置中执行的数据处理,所述数据处理装置在产生所述风险得分时处理所述无细胞dna读出数据的选择性区域。

在又一方面,本公开的实施方案提供(用于)使用产前筛查系统的方法,其中所述产前筛查系统包括湿性实验室装置和数据处理装置,所述湿性实验室装置处理血液样品以确定来自所述血液样品的无细胞dna读出数据,所述数据处理装置参考存储于数据库装置中的信息处理所述无细胞dna读出数据以产生指示所述血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其特征在于,所述产前筛查系统使用(即,可操作地使用)二级数据,所述二级数据描述所述血液样品的供体,用于修改在所述数据处理装置中执行的数据处理,所述数据处理装置用于在产生所述风险得分时处理所述无细胞dna读出数据的选择性区域。

在图6中,显示了根据本公开的实施方案的产前筛查系统600的图示。产前筛查系统600包括湿性实验室装置602和数据处理装置604。数据处理装置604还包括数据库装置606。产前筛查系统600的湿性实验室装置602可操作地与数据处理装置604交换指令和数据。

通常,产前筛查系统600的湿性实验室装置602在操作中处理(即,可操作地处理)母体血液样品以从血液样品中确定无细胞dna数据。此外,产前筛查系统600的数据处理装置604参考存储于数据库装置606中的信息来处理(即,可操作地处理)无细胞dna读出数据,以产生(即,计算)风险得分。参照存储于数据库装置606中的信息所产生的风险得分指示在血液样品中是否存在指示胎儿异常的遗传异常。此外,产前筛查系统600在操作中(即,可操作地使用)使用二级数据,所述二级数据描述血液样品的供体,用于修改在数据处理装置604中执行的数据处理,数据处理装置604用于在产生风险得分时处理无细胞dna读出数据的选择性区域。

在一个实施方案中,湿性实验室装置602可以包括用于采集母体血液样品的设备、用于胎儿成像的超声扫描设备、pcr测序设备、离心机、凝胶电泳dna测序设备、显微镜等。例如,湿性实验室装置602可以包括由执行基因测序任务的公司制造的设备。如上所述,数据处理装置604包括含有多个数据库的数据库装置606。数据处理装置604还包括到诸如的网络的数据通信连接,例如用于访问与大学研究部门和医院相关联的各种外部数据库。例如,外部数据库可以包括但不限于(欧洲分子生物学实验室)和(日本的dna数据库)。可以使用或类似工具来针对序列数据库搜索所鉴定的序列。

在一个实施方案中,在湿性实验室装置602中处理的血液样品可以是母体血液样品。在该实施方案中,可以从存在于母体血液样品的血浆级分中的dna片段确定无细胞dna读出数据。此外,在该实施方案中,湿性实验室装置604在操作中扩增(即,可操作地扩增)dna片段以提供经扩增的dna用于核酸碱基测序或读出来产生无细胞dna读出数据。在该示例性实施方案中,湿性验室装置602可以包括pcr或rt-pcr以扩增游离胎儿dna片段,从而在访问数据库装置606中的遗传信息时向数据处理装置604提供多个拷贝的游离胎儿dna。

根据一个实施方案,可以通过访问数据库装置606的一个或多个数据库来确定选择性区域。在该实施方案中,数据库装置606可以包括但不限于(欧洲分子生物学实验室)和(日本的dna数据库)。可以使用或类似工具来针对序列数据库搜索所鉴定的序列。此外,在该实施方案中,产前筛查系统600根据对一个或多个随后的胎儿调查的风险得分所确定的准确性递归地或迭代地在操作中更新(即,可操作地更新)产前筛查系统的一个或多个数据库。

在另一个实施方案中,二级数据可以通过非侵入性程序来确定。在这样的实施方案中,随后的胎儿调查涉及执行关于胎儿的组织或液体的一个或多个侵入性采样。在该实施方案中,非侵入性程序可以包括但不限于母体血液检验和/或胎儿的超声扫描。

在另一个实施方案中,一个或多个数据库可以被实现为ngps知识库。此外,ngps知识库的分析可以被重新校准以包括和并入特异性针对血液样品的供体特异的信息。在该实施方案中,ngps知识库可以包括表型信息,所述表型信息可以在由数据处理装置600执行的数据分析中使用,同时产生风险得分。

在一个示例性实施方案中,数据处理装置606可以根据二级指示(如亲本dna中的异常、超声扫描中所鉴定的异常等)集中(即采用其计算资源)来检验给定dna的某些选择性部分。此外,数据处理装置604可操作以根据从使用产前筛查系统600对母体血液样品获得的检验结果、以及根据从外部数据库获得的信息(例如由第三方进行的检验)来递归地更新和演化包括在一个或多个数据库中的信息。

有利地,产前筛查系统600可以采用一个或多个上述部分p1至p4。任选地,产前筛查系统600可以不限于使用部分p1到p4,并且可以访问其它外部数据库。

在另一个示例性实施方案中,产前筛查系统600可以任选地采用人工智能(ai)引擎,其使用具有相关联的数据存储器的risc处理器阵列(例如,专用arm处理器阵列)来实现以分级方式布置的数十亿个假模拟变量状态机,用于在数据处理装置606内提供数据处理和数据分析的;因此,可以例如基于使用“黑匣子”神经网络模拟变量状态机来实现机器演绎过程。任选地,如上所述,在将算法暴露于来源于生物样品的真实dna数据之前,使用合成产生的数据来训练算法。

在图7中,显示了根据本公开的实施方案的(用于)使用产前筛查系统(例如图6的产前筛查系统700)的方法700的流程图。在步骤702处,流程图开始。在步骤702处,处理血液样品以确定来自血液样品的无细胞dna读出数据。在步骤704处,参考存储于数据库装置中的信息处理无细胞dna读出数据。在步骤706处,产生指示血液样品中是否存在指示胎儿异常的遗传异常的风险得分。在步骤708处,在数据处理装置中执行的用于处理无细胞dna读出数据的选择性区域的数据处理使用描述血液样品的供体的二级数据来处理。

在一个实施方案中,在湿性实验室装置中处理的血液样品可以是母体血液样品。在该实施方案中,可以存在于从母体血液样品的血浆级分中的dna片段确定无细胞dna读出数据。此外,在该实施方案中,方法700可以包括使用湿性实验室装置来扩增dna片段以提供经扩增dna用于核酸碱基测序或读出来产生无细胞dna读出数据。在该示例性实施方案中,方法700可以包括使用pcr或rt-pcr扩增游离胎儿dna片段,以向数据处理装置提供多个拷贝的游离胎儿dna,从而访问数据库装置中的遗传信息。

在另一个实施方案中,方法700可以包括通过访问数据库装置的一个或多个数据库来确定选择区域,其中产前筛查系统可以可操作地根据对一个或多个随后的胎儿调查的风险得分的所确定的准确性来递归地或迭代地更新一个或多个数据库。在该实施方案中,方法700可以包括通过非侵入性程序确定二级数据,以及通过执行关于胎儿的组织或液体的一个或多个侵入性采样来确定随后的胎儿调查。在该实施方案中,通过非侵入性程序可以包括但不限于母体血液检验和/或胎儿的超声扫描。

在又一个实施方案中,方法700可以包括将一个或多个数据库实现为ngps知识库,其中ngps知识库包括在操作中被重新校准的分析,以包括和并入特异性针对血液样品的供体的信息。在该实施方案中,方法700可以包括安排ngps知识库以包括表型信息,所述表型信息可以被用于在产生风险得分时由数据处理装置所执行的数据分析中。

有利地,方法700可以包括使用产前筛查系统来采用一个或多个上述部分p1至p4,例如p1至p4的多个部分。任选地,产前筛查系统可以不限于使用这些部分p1到p4,并且可以访问其它外部数据库。

任选地,使用产前筛查系统的上述方法700通过使用包括其上存储有计算机可读指令的非暂时性计算机可读存储介质的计算机程序产品来实施,所述计算机可读指令是由包括处理硬件的计算机化装置可执行的。

参考图8,显示了根据本公开的实施方案的产前筛查系统800的框图。产前筛查系统800包括湿性实验室装置802,其中湿性实验室装置802包括诸如血液样品采集设备、离心机、pcr快速基因测序设备和类似设备的设备。例如,湿性实验室装置802包括由公司制造的用于执行基因测序任务的设备。此外,产前筛查系统800可操作地处理湿性实验室装置802中的血液样品以从中获得无细胞dna读出数据。

在一个实施方案中,产前筛查系统800在操作中(即,可操作地执行)执行对胎儿的非侵入性分子诊断,所述胎儿在超声检验(例如,超声扫描)时呈现例如骨骼异常和/或心脏异常。任选地,湿性实验室装置802在操作中(即,可操作地执行)执行胎儿的非侵入性分子诊断(如超声检验信息)以检测胎儿异常(如骨骼异常和/或心脏异常)。此外,产前筛查系统800,任选地,湿性实验室装置802在操作中产生(即,可操作地产生)胎儿的超声图像或视频,以推断从超声检验中鉴定的胎儿异常的可能性。

任选地,湿性实验室装置802在操作中执行(即,可操作地执行)胎儿遗传异常的产前筛查的组合检验。更任选地,组合检验可以包括但不限于母体血液检验和胎儿的超声扫描。此外,湿性实验室装置802在操作中提供(即,可操作地提供)代表胎儿的组合检验的信息。

在操作中,组织样品(例如血液样品)从人(例如妊娠母亲)获得。任选地,对于妊娠母亲,血液样品是非侵入性样品,其中样品的收集不具有与之相关联的流产风险。此外,血液样品包括血浆,其包括作为其组成部分的无细胞dna(cfdna)的混合物。具体而言,无细胞dna(cfdna)可以包括来源于妊娠母亲、妊娠母亲的胎盘和/或妊娠母亲的胎儿的部分。

在一个实施方案中,遗传异常可以包括存在于给定母亲的dna序列中的遗传疾病。具体而言,这种遗传疾病可能会或可能不会被给定母亲的胎儿遗传。另外,胎儿异常可以包括可遗传或可在胎儿中重新发生的疾病。

此外,产前筛查系统800还包括数据处理装置804,其包括数据库装置806,用于从湿性实验室装置802接收无细胞dna读出数据。任选地,数据处理装置804向湿性实验室装置802提供反馈数据,用于控制在那里执行的各种检验。此外,数据库装置806存储信息,所述信息包括基因组绘图数据和研究数据,其分析人类基因的结构、定位和测序,以及突变的临床效果和它们与生物序列和结构的相互关系。此外,湿性实验室装置802可在操作中扩增(即,可操作地扩增)dna片段以提供经扩增dna用于核酸碱基测序或读出以产生无细胞dna读出数据。在该示例性实施方案中,湿性实验室装置802可以包括用于扩增游离胎儿dna片段的pcr,用于向数据处理装置804提供多个拷贝的游离胎儿dna,用于访问数据库装置806中的遗传信息。此外,数据处理装置804还包括到诸如的网络的数据通信连接,例如用于访问与大学研究部门和医院相关联的各种外部数据库。

此外,数据处理装置804在操作中参考存储于数据库装置806中的信息处理(即,可操作地处理)无细胞dna读出数据,以产生指示在血液样品中是否存在指示例如胎儿异常的遗传异常的风险得分。具体地,风险得分可以与给定胎儿相关联,其中较高的风险得分指示较高可能性的胎儿异常。此外,参考存储于数据库装置806中的信息,在处理无细胞dna读出数据之后产生风险得分。具体地,无细胞dna读出数据可以对应于数据库装置806中的给定基因组信息。此外,如上所述的这种基因组信息可与给定遗传异常的风险相关联。在一个示例性实施方案中,无细胞dna读出数据可以包括具有反常‘a-t-g-c’的‘a-t-g-c-a-t-g-c’dna碱基对的顺序排列。在这种实施方案中,数据处理装置802可以将反常与存储于数据库装置806中的dna的顺序排列进行比较。随后,在该实施方案中,数据处理装置804可以评估反常是否可以引起或不引起遗传病症。另外,数据处理装置804可以比较并向胎儿提供代表遗传或获得遗传病症风险的评估得分。可以理解的是,dna碱基对a、t、g、c代表dna碱基对腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶,仅用于说明的目的,并不代表可能导致特异性疾病的dna碱基对的实际排列。

在一个实施方案中,通过使用酶促消化在产前筛查系统800中产生无细胞dna片段。具体地,无细胞dna可以进行天然的酶促消化。更具体地,dna链可以使用酶片段化(即被切割)。此外,酶在无细胞dna上的作用位点可能不是实验控制的。

参考图9,显示了根据本公开的实施方案的产前筛查系统(如图8的产前筛查系统800)的卡尔曼滤波等效表示900的图示。卡尔曼滤波等效表示900包括无细胞dna读出数据902和代表胎儿904对数据处理装置906(如图8的数据处理装置804)的组合检验的信息。数据处理装置906在操作中对代表胎儿904的组合检验的无细胞dna读出数据902信息实施卡尔曼滤波。数据处理装置906还包括模糊逻辑模块908、处理模块910、用于参考存储于数据库装置914(如图8的数据库装置806)中的信息处理无细胞dna读出数据的遗传算法912、二级数据库916(如用于存储从处理模块910接收的风险得分918的二级数据库)。在该实施方案中,数据处理系统906在操作中对在通过湿性实验室装置802执行的产前筛查检验之后接收的遗传信息实施(即,可操作地实施)卡尔曼滤波。此外,遗传算法912在操作中通过参考存储于数据库装置914中的信息处理无细胞dna读出数据来产生(即被用于计算)风险得分。

在一个示例性实施方案中,来源于上述血液样品的血浆样品包括使用杂交富集的dna序列。具体地,使用靶向易于引起胎儿疾病的基因的引诱物进行杂交富集。在该实施方案中,处理模块910可操作地验证(即,当在操作中时,处理模块910验证)易于引起胎儿疾病的基因的靶标位置。

在一个实施方案中,产前筛查系统800在操作中区分(即,可操作地区分)无细胞dna的母体组分和胎儿组分,其中,在该实施方案中,这种区分可以通过采用测定设计来实现,所述测定设计富集了胎儿组分并且有助于母体和胎儿读取的绘图。

在另一个示例性实施方案中,产前筛查系统800设计或选择操作中的引诱物(即,可操作地设计或选择引诱物),并在易于引起胎儿疾病的基因上的靶向位置处采用引诱物以通过杂交以富集;这种设计有益地以递归方式实施,因为产前筛查系统800扩大了其信息数据库作为在经许多年的时间内处理许多生物样品的结果。此外,产前筛查系统800避免、可替代地富集(即,可操作地避免、可替代地富集)血液样品中的母体特异性区域。

参照图10,显示了根据本公开的实施方案的分子条形码(umi)连接的dna片段1000的图示。产前筛查系统800可操作地将核酸碱基分子条形码1002连接(即可操作地连接)至存在于血液样品中的无细胞dna片段1004。任选地,核酸碱基分子条形码1002可以与无细胞dna片段1004连接,并且随后可以通过使用靶向易于引起胎儿疾病的基因的引诱物进行杂交来富集。

在一个实施方案中,产前筛查系统800在操作中实现(即,可操作地实现)分子条形码(umi)1002为n-mer。任选地,n在3至100的范围内。更任选地,n在4至20的范围内。还更任选地,n基本上为10。具体地,分子条形码1002可以在3-mer至100-mer的范围内实现。

在一个实施方案中,分子条形码1002包括随机序列的核酸碱基。具体地,核酸碱基包括腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)。

在一个实施方案中,分子条形码1002包括衔接子(即接头)。具体地,衔接子是短的、化学合成的、单链或双链的寡核苷酸。更具体地,这种接头可以包含在分子条形码1002中并且可以促进其连接。

根据一个实施方案,通过酶促消化确定用于连接分子条形码1002的起始位点。如上所述的,无细胞dna片段富集在产前筛查系统800中。此外,在无细胞dna的酶促剪切中,可在无细胞dna片段上产生起始位点。

参照图11,显示了根据本公开的实施方案的经扩增的分子条形码连接的片段1100的图示;然而,应该理解的是,独特的分子条形码可能不是所示位置的实例。产前筛查系统800在操作中扩增(即,可操作地扩增)分子条形码连接的dna片段1000,用于对经扩增的分子条形码连接的片段1100进行测序。具体地,分子条形码连接的dna片段1000通过产前筛查装置800扩增。任选地,扩增可以包括使用聚合酶链式反应(pcr)技术。具体地,这种扩增技术可以将分子条形码连接的dna片段1000的单个拷贝或几个拷贝扩增几个数量级,从而潜在地产生成千上万个拷贝的特定给定dna序列。此外,这种扩增技术可能在这种扩增过程中提供错误(如核酸碱基的重复),这可能被错误地表示为遗传异常的指示。此外,可以在经扩增的分子条形码连接的片段1100的测序中校正这种错误。因此,从经扩增的分子条形码连接的片段1100的测序过程产生的无细胞dna读出数据可以在产生(即计算)风险得分时考虑扩增错误。

在一个实施方案中,扩增的分子条形码连接的片段1100包含分子条形码1102(如分子条形码1002)、无细胞dna片段1104(如无细胞dna片段1004)。此外,经扩增的分子条形码连接的片段1100可以包含样品特异性索引1108。具体地,样品特异性索引1108包括预定序列和随机8-mer分子条形码。此外,如果在扩增过程中产生错误(如核酸碱基的重复),则可以在测序中使用样品特异性索引来鉴定扩增错误。另外,位点可以代表扩增位点,其中经扩增的dna可以附着于位点。可替代地,或另外地,任选地,所述位点可以包含被用于对易于引起胎儿疾病的靶基因进行杂交富集的引诱物。

经扩增的分子条形码连接的片段1100被测序以产生无细胞dna读出数据。任选地,测序过程可以考虑在扩增过程中产生的错误。更任选地,无细胞dna读出数据指示血液样品中是否存在遗传异常。任选地,(例如)骨骼异常和/或心脏异常是由从头突变引起的。此外,分子条形码连接的片段可用于降低在上述测序过程中和/或在数据处理装置804中的处理期间产生的随机噪声(即,随机错误)。

在一个实施方案中,湿性实验室装置802在操作中将分子条形码整合(即,可操作地整合)到含有胎儿组分的无细胞dna文库中,并使用由此获得的无细胞dna文库在基于杂交的富集中用于在计算风险得分时鉴定从头变体。具体地,湿性实验室装置在操作中准备(即,可操作地准备)无细胞dna文库,其包含关于无细胞dna读出数据和分子条形码的信息。此外,无细胞dna文库可被用于实现在给定胎儿dna中鉴定从头变体的更高的准确性。

参考图12,显示了根据本公开的实施方案的(用于)使用产前筛查系统(如图8的产前筛查系统800)的方法1200的步骤的图示。在步骤1202处,处理血液样品以确定来自血液样品的无细胞dna读出数据。在步骤1204处,参考存储于数据库装置(例如,上述知识库)中的信息处理无细胞dna读出数据,以产生(即计算)指示血液样品中是否存在指示胎儿异常的遗传异常的风险得分。在步骤1206处,将核酸碱基分子条形码连接到血液样品中存在的无细胞dna片段。在步骤1208处,扩增分子条形码连接的片段。在步骤1210处,经扩增的分子条形码连接的片段被测序以产生无细胞dna读出数据。

步骤1202至1210仅是说明性的,并且还可以提供其它替换,其中添加一个或多个步骤,去除一个或多个步骤,或者以不同的顺序提供一个或多个步骤,而不脱离本文的权利要求的范围。任选地,方法1200包括操作产前筛查系统以将分子条形码实现为n-mer,其中n在3至100的范围内。任选地,方法1200包括安排分子条形码以包括随机序列的核酸碱基。更任选地,方法1200包括通过采用酶促消化在产前筛查系统中产生无细胞dna片段。更任选地,方法1200包括通过酶促消化确定用于连接分子条形码的起始位点。

任选地,方法1200包括操作湿性实验室装置以将分子条形码整合含有胎儿组分的无细胞dna文库,并在计算风险得分时使用由此获得的无细胞dna文库在基于杂交的富集中用于鉴定从头变体。任选地,方法1200包括操作产前筛查系统以通过采用酶促消化产生无细胞dna片段,将核酸碱基分子条形码连接到片段以产生相应的条形码化的片段,以及通过使用靶向易于引起胎儿疾病的一种或多种疾病的基因的引诱物的杂交来进行富集。更任选地,方法1200包括操作产前筛查系统以进行胎儿的非侵入性分子诊断,所述胎儿在超声检查(例如,非侵入性超声成像)时呈现骨骼异常和/或心脏异常。更任选地,骨骼异常和/或心脏异常是由从头突变引起的。

任选地,通过使用包括其上存储有计算机可读指令的非暂时性计算机可读存储介质的计算机程序产品来实现施(用于)使用产前筛查系统的的上述方法1200,所述计算机可读指令是由包括处理硬件的计算机化装置可执行的。

虽然在前面描述了产前筛查系统800的使用,但是应当理解,产前筛查系统可以被用于研究其它类型的生物学问题,而不仅仅限于产前筛查任务,例如:癌症风险确定;自闭症风险的确定;进行基因治疗后生物体性能的验证;对细胞dna的电离辐射损伤鉴定;和/或糖尿病风险确定。

总的来说,参考图13,本公开涉及筛查系统1300,其包括:

(i)湿性实验室装置1302,其在操作时使用一种或多种试剂1308处理生物样品1304以产生相应的测量数据1306;和

(ii)数据处理装置1310,其执行计算机软件产品1312以处理测量数据1306以从筛查系统1300产生输出数据1314,其中输出数据1314包括来源于经处理的生物样品1304的信息,并提供与生物样品1304的供体有关的风险得分。生物样品1304包括,例如,当处于非妊娠状态时来自给定母亲的母体血液样品和当处于妊娠状态时来自给定母亲的母体血液样品。例如,参考二级数据1316来处理测量数据1306,二级数据1316例如来源于例如通过使用超声扫描从对给定母亲的检查,收集以下数据:描述给定母亲的家族史、给定母亲的生活方式参数(例如吸烟者或非吸烟者、肥胖、酗酒者或非酗酒者、麻醉药物滥用者)、给定母亲的病史(例如,给定母亲经历的先前感染性疾病)、给定母亲的用药史(例如,给定母亲所消费的治疗、手术和药物)等的数据。任选地,二级数据1316包括描述由给定母亲经由妊娠携带的儿童的特征的信息。此外,测量数据1306还包括基因组数据库,其包括描述各种遗传疾病和引起各种遗传疾病的基因形态或多态性的信息。

在一个示例性实施方案中,从生物样品中分离的dna片段指示心脏问题,并且母亲具有预先存在的指示心脏问题的遗传缺陷。因此,除非胎儿dna片段不显示这种缺陷,否则存在胎儿可能受到这种问题折磨的风险。在这种情况下,使用二级数据(例如,胎儿的“羊膜穿刺术”样品和/或高分辨率超声扫描)可以降低用于确定指示胎儿中心脏问题的遗传缺陷的错误风险。

在本公开的实施方案的以下描述中,描述了关于图1的筛查系统100、关于图4的筛查系统400、关于图6的筛查系统600以及关于图8的筛查系统800;筛查系统1300包括筛查系统100、400、600、800中的一个或多个,例如筛查系统1300包括多个筛查系统100、400、600、800的组合。筛查系统100例如通过使用引诱物来区分;所述引诱物被用于在离心去除对其应用引诱物的红细胞后,捕获来源于给定母体血液样品的母体来源和胎儿来源的无细胞dna(cfdna)片段;引诱物包括n个碱基对的长度,其中n在50至2000个碱基对的范围内,更任选地在100至200个碱基对的范围内,以及更任选地为120个碱基对。任选地,在去除红细胞后,将1000至20000个不同的引诱物(例如10000个不同的引诱物)的混合物应用于血浆。例如,所提供的引诱物是来自和/或的货架和定制引诱物中的至少一种。此外,所提供的引诱物可以是例如120个碱基对(bp)的dna或rna。筛选系统400的区别在于,例如,其使用数据处理从dna读取中去除与二级信息有关的随机错误,该二级信息提供指示给定基因的哪些部分可能遭受相对较高程度的读出错误的信息。筛查系统600的区别在于,例如,其使用描述血液样品供体的二级数据来修改在数据处理装置中执行的数据处理,所述数据处理装置用于在产生风险得分时处理无细胞dna读出数据的选择性区域;例如,通过访问数据库装置的一个或多个数据库来确定选择性区域,其中产前筛查系统600是根据对一个或多个随后的胎儿调查的风险得分的确定的准确性在操作中递归地或迭代地更新(即,可操作地更新)一个或多个数据库。筛查系统800的区别在于,例如,其采用数据处理装置,用于参考存储于数据库装置中的信息来处理无细胞dna读出数据,以产生(即计算)指示血液样品中是否存在指示胎儿异常的遗传异常的风险得分,其中在扩增分子条形码连接的dna片段之前,产前筛查系统可操作地将核酸碱基分子条形码连接至存在于血液样品中的无细胞dna片段,用于对经扩增的分子条形码连接的片段进行测序以产生无细胞dna读出数据的。例如,可以将各种不同的条形码与各种长度的引诱物组合使用(即筛查系统100和筛查系统800的组合),从而可以使用单次pcrdna读出操作来对涉及不同长度的所有引诱物的所有cfdna片段进行测序作为引诱物长度的函数,以尝试在使用系统1300时减少测量中的随机误差或模糊性。

在一个实施方案中,采用的分子条形码是最小交叉杂交组的成员。具体地,该组的每个成员的核苷酸序列与该组的每个其它成员的核苷酸序列足够不同,使得在严格杂交条件下没有成员可以与任何其它成员的互补序列形成稳定的双链体。可替代地,最小交叉杂交组的每一成员的核苷酸序列与每一其它成员的核苷酸序列相差至少两个核苷酸。

在一些实施方案中,核酸条形码通常是特定序列的核酸,其被整合或附加至(例如,与之相关)特异性核酸、或样品的核酸子集,以追踪和/或鉴定核酸混合物中的特异性核酸或核酸子集。在某些实施方案中,可区分的核酸条形码包含可用作识别物的核苷酸的可区分序列,以允许明确地鉴定样品、方法或测定中的一种或多种核酸(例如核酸的子集)。在本公开的实施方案中,可区分的核酸条形码通常被配置成允许明确地鉴定条形码与之相关的核酸的来源或身份。

在一些实施方案中,可区分的核酸条形码(例如条形码)可以允许鉴定从不同来源获得的核酸混合物中的特定核酸的来源。

在一些实施方案中,可区分的核酸条形码被配置(例如,从文库中设计、合成或选择)以允许(即,使得能够)明确鉴定条形码与之相关的核酸的来源或身份。例如,在某些实施方案中,可区分的核酸条形码对于某些样品、样品来源、从同一对象或组织获得的核酸文库、特定的核酸属或亚类、特定的核酸种类,来自同一染色体的核酸等或它们的组合是特异性的和/或独特的。

在一些实施方案中,采用来源于样品、对象或组织的包含插入片段的核酸,包括对于样品、对象或组织特异性的和独特的核酸条形码,从而允许明确地鉴定来自来源于不同样品、对象或组织的核酸的核酸和/或插入片段。因此,在本公开的实施方案中,对于样品、对象或组织独特的可区分的核酸条形码通常与核酸混合物中的其它核酸条形码可区分并且不同。

在本公开的一些实施方案中,独特的可区分的核酸条形码不同于组合物中的其它条形码和/或与组合物中的其它条形码可区分,所述组合物包含来源于一个或多个来源的一个或多个样品(例如,来源于不同样品或来源的核酸文库)。在一些实施方案中,对于样品、对象或组织独特的可区分的核酸条形码与来源于相同样品、对象、组织或它们的特定子集的核酸相关(例如,包含在其中)。因此,在本公开的一些实施方案中,来源于相同样品、对象或组织的核酸通常包含与相同样品、对象或组织的每种核酸相关的相同序列的至少一种可区分核酸条形码。

在一个示例性实施方案中,条形码的长度可以各自在4至36个核苷酸范围内的,更任选地在6至30个核苷酸范围内,更任选地在8至20个核苷酸范围内。在某些实例实施方案中,一组内的条形码的解链温度在彼此具有10℃、更任选地彼此具有5℃、或更任选地彼此具有2℃的温度范围内的温度带内。在不脱离由所附权利要求限定的本发明的范围的情况下,可以对上述实施方案进行修改。用于描述和要求保护本发明的诸如“包括”、“包含”、“整合”、“由……组成”、“具有”、“是”的表述旨在以非排他的方式解释,即允许还存在未明确描述的项目、组分或要素。对单数的引用也被解释为涉及复数。包括在所附权利要求中的括号内的数字旨在帮助理解权利要求,并且不应以任何方式解释为限制由这些权利要求所要求保护的主题。

参考文献

[1]chan,k.c.a.,jiang,p.,sun,k.,cheng,y.k.y.,tong,y.k.,cheng,s.h.,…lo,y.m.d.(2016).secondgenerationnoninvasivefetalgenomeanalysisrevealsdenovomutations,single-baseparentalinheritance,andpreferreddnaends.proceedingsofthenationalacademyofsciences,113(50),e8159–e8168.

https://doi.org/10.1073/pnas.1615800113

[2]chandrananda,d.,thorne,n.p.,bahlo,m.,tam,l.-s.,liao,g.,&li,e.(2015).high-resolutioncharacterizationofsequencesignaturesduetonon-randomcleavageofcell-freedna.bmcmedicalgenomics,8(1),29.https://doi.org/10.1186/s12920-015-0107-z

[3]dhallan,r.,au,w.-c.,mattagajasingh,s.,emche,s.,bayliss,p.,damewood,m.,…mohr,m.(2004).methodstoincreasethepercentageoffreefetaldnarecoveredfromthematernalcirculation.jama,291(9),1114.

https://doi.org/10.1001/jama.291.9.1114

[4]li,y.,dinaro,e.,vitucci,a.,zimmermann,b.,holzgreve,w.,&hahn,s.(2005).detectionofpaternallyinheritedfetalpointmutationsforβ-thalassemiausingsize-fractionatedcell-freednainmaternalplasma.jama,293(7),843.

https://doi.org/10.1001/jama.293.7.843

[5]lun,f.m.f.,tsui,n.b.y.,chan,k.c.a.,leung,t.y.,lau,t.k.,charoenkwan,p.,…lo,y.m.d.(2008).noninvasiveprenataldiagnosisofmonogenicdiseasesbydigitalsizeselectionandrelativemutationdosageondnainmaternalplasma.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica,105(50),19920–5.

https://doi.org/10.1073/pnas.0810373105

[6]snyder,m.w.,kircher,m.,hill,a.j.,daza,r.m.,&shendure,j.(2016).cell-freednacomprisesaninvivonucleosomefootprintthatinformsitstissues-of-origin.cell,164(1–2),57–68.https://doi.org/10.1016/j.cell.2015.11.050

[7]straver,r.,oudejans,c.b.m.,sistermans,e.a.,&reinders,m.j.t.(2016).calculatingthefetalfractionfornoninvasiveprenataltestingbasedongenome-widenucleosomeprofiles.prenataldiagnosis,36(7),614–621.

https://doi.org/10.1002/pd.4816

[8]vainshtein,y.,rippe,k.,&teif,v.b.(2017).nuctools:analysisofchromatinfeatureoccupancyprofilesfromhigh-throughputsequencingdata.bmcgenomics,18(1),158.

https://doi.org/10.1186/s12864-017-3580-2

[9]yang,q.,du,z.,song,y.,gao,s.,yu,s.,zhu,h.,…zhang,g.(2017).size-selectiveseparationandoverall-amplificationofcell-freefetaldnafragmentsusingpcr-basedenrichment.scientificreports,7,40936.

https://doi.org/10.1038/srep40936

[10]chan,l.l.,andjiang,p.(2015).bioinformaticsanalysisofcirculatingcell-freednasequencingdata.clin.biochem.48,pp962–975.[11]chan,k.c.a.,jiang,p.,sun,k.,cheng,y.k.y.,tong,y.k.,cheng,s.h.,wong,a.i.c.,hudecova,i.,leung,t.y.,chiu,r.w.k.,etal.(2016).secondgenerationnoninvasivefetalgenomeanalysisrevealsdenovomutations,single-baseparentalinheritance,andpreferreddnaends.proc.natl.acad.sci.u.s.a.201615800.

[12]chiu,r.w.k.,chan,k.c.a.,gao,y.,lau,v.y.m.,zheng,w.,leung,t..,foo,c.h.f.,xie,b.,tsui,n.b.y.,lun,f.m.f.,etal.(2008).noninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparallelgenomicsequencingofdnainmaternalplasma.proc.natl.acad.sci.u.s.a.105,pp20458–20463.

[13]kitzman,j.o.,snyder,m.w.,ventura,m.,lewis,a.p.,simmons,l.e.,gammill,h.s.,rubens,c.e.,santillan,d.a.,murray,j.c.,tabor,h.k.,etal.(2012).non-invasivewholegenomesequencingofhumanfetus.sci.transl.med.4,pp1–18.

[14]lam,k.w.g.,jiang,p.,liao,g.j.w.,chan,k.c.a.,leung,t.y.,chiu,r.w.k.,andlo,y.m.d.(2012).noninvasiveprenataldiagnosisofmonogenicdiseasesbytargetedmassivelyparallelsequencingofmaternalplasma:applicationto??-thalassemia.clin.chem.58,pp1467–1475.

[15]lo,y.m.d.,chan,k.c.a.,sun,h.,chen,e.z.,jiang,p.,lun,f.m.f.,zheng,y.w.,leung,t.y.,lau,t.k.,cantor,c.r.,etal.(2010).maternalplasmadnasequencingrevealsthegenome-widegeneticandmutationalprofileofthefetus.sci.transl.med.2,61ra91-61ra91.

[16]new,m.i.,tong,y.k.,yuen,t.,jiang,p.,pina,c.,chan,k.c.a.,khattab,a.,liao,g.j.w.,yau,m.,kim,s.-m.,etal.(2014).noninvasiveprenataldiagnosisofcongenitaladrenalhyperplasiausingcell-freefetaldnainmaternalplasma.j.clin.endocrinol.metab.99,e1022-30.

[17]xiong,l.,barrett,a.n.,hua,r.,tan,t.z.,ho,s.s.y.,chan,j.k.y.,zhong,m.,andchoolani,m.(2015).non-invasiveprenataldiagnostictestingforβ-thalassaemiausingcell-freefetaldnaandnextgenerationsequencing.prenat.diagn.35,pp258–265.

[18]chan,k.c.a.,jiang,p.,sun,k.,cheng,y.k.y.,tong,y.k.,cheng,s.h.,wong,a.i.c.,hudecova,i.,leung,t.y.,chiu,r.w.k.,etal.(2016).secondgenerationnoninvasivefetalgenomeanalysisrevealsdenovomutations,single-baseparentalinheritance,andpreferreddnaends.proc.natl.acad.sci.u.s.a.201615800.

[19]chandrananda,d.,thorne,n.p.,andbahlo,m.(2015).high-resolutioncharacterizationofsequencesignaturesduetonon-randomcleavageofcell-freedna.bmcmed.genomics8,29.

[20]new,m.i.,tong,y.k.,yuen,t.,jiang,p.,pina,c.,chan,k.c.a.,khattab,a.,liao,g.j.w.,yau,m.,kim,s.-m.,etal.(2014).noninvasiveprenataldiagnosisofcongenitaladrenalhyperplasiausingcell-freefetaldnainmaternalplasma.j.clin.endocrinol.metab.99,e1022-30.

[21]yu,s.c.y.,chan,k.c.a.,zheng,y.w.l.,jiang,p.,liao,g.j.w.,sun,h.,akolekar,r.,leung,t.y.,go,a.t.j.i.,vanvugt,j.m.g.,etal.(2014).size-basedmoleculardiagnosticsusingplasmadnafornoninvasiveprenataltesting.proc.natl.acad.sci.u.s.a.111,pp8583–8588.

[22]chan,l.l.,andjiang,p.(2015).bioinformaticsanalysisofcirculatingcell-freednasequencingdata.clin.biochem.48,pp962–975.

[23]chan,k.c.a.,jiang,p.,sun,k.,cheng,y.k.y.,tong,y.k.,cheng,s.h.,wong,a.i.c.,hudecova,i.,leung,t.y.,chiu,r.w.k.,etal.(2016).secondgenerationnoninvasivefetalgenomeanalysisrevealsdenovomutations,single-baseparentalinheritance,andpreferreddnaends.proc.natl.acad.sci.u.s.a.201615800.

[24]chiu,r.w.k.,chan,k.c.a.,gao,y.,lau,v.y.m.,zheng,w.,leung,t..,foo,c.h.f.,xie,b.,tsui,n.b.y.,lun,f.m.f.,etal.(2008).noninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparallelgenomicsequencingofdnainmaternalplasma.proc.natl.acad.sci.u.s.a.105,pp20458–20463.

[25]kitzman,j.o.,snyder,m.w.,ventura,m.,lewis,a.p.,simmons,l.e.,gammill,h.s.,rubens,c.e.,santillan,d.a.,murray,j.c.,tabor,h.k.,etal.(2012).non-invasivewholegenomesequencingofhumanfetus.sci.transl.med.4,pp1–18.

[26]lam,k.w.g.,jiang,p.,liao,g.j.w.,chan,k.c.a.,leung,t.y.,chiu,r.w.k.,andlo,y.m.d.(2012).noninvasiveprenataldiagnosisofmonogenicdiseasesbytargetedmassivelyparallelsequencingofmaternalplasma:applicationto??-thalassemia.clin.chem.58,pp1467–1475.

[27]lo,y.m.d.,chan,k.c.a.,sun,h.,chen,e.z.,jiang,p.,lun,f.m.f.,zheng,y.w.,leung,t.y.,lau,t.k.,cantor,c.r.,etal.(2010).maternalplasmadnasequencingrevealsthegenome-widegeneticandmutationalprofileofthefetus.sci.transl.med.2,61ra91-61ra91.

[28]new,m.i.,tong,y.k.,yuen,t.,jiang,p.,pina,c.,chan,k.c.a.,khattab,a.,liao,g.j.w.,yau,m.,kim,s.-m.,etal.(2014).noninvasiveprenataldiagnosisofcongenitaladrenalhyperplasiausingcell-freefetaldnainmaternalplasma.j.clin.endocrinol.metab.99,e1022-30.

[29]xiong,l.,barrett,a.n.,hua,r.,tan,t.z.,ho,s.s.y.,chan,j.k.y.,zhong,m.,andchoolani,m.(2015).non-invasiveprenataldiagnostictestingforβ-thalassaemiausingcell-freefetaldnaandnextgenerationsequencing.prenat.diagn.35,pp258–265.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1