同时确定胎儿核酸含量和染色体非整倍性的方法及装置制造方法
【专利摘要】本发明提供了确定孕妇体液样本中胎儿核酸含量的方法、同时确定孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息的方法、检测孕妇体液样本中胎儿核酸变异的非诊断方法及各自的装置,所说的确定孕妇体液样本中胎儿核酸含量的方法包括:获取孕妇体液样本;从样本中提取第一DNA和第二DNA,第一DNA为母体和胎儿DNA混合物,第二DNA为母体基因组DNA;对至少一部分的第一DNA和至少一部分的第二DNA测序以获得第一读段和第二读段,第一读段和第二读段中包含多个多态性位点;将第一读段和第二读段分别与参考序列比对,基于获得的比对结果,筛选出多态性位点中在第二DNA只有一种基因型并且在第一DNA有两种基因型的多态性位点;依据比对结果中的第一读段中支持筛选出的多态性位点的读段数目,确定样本中的胎儿核酸含量。
【专利说明】同时确定胎儿核酸含量和染色体非整倍性的方法及装置
【技术领域】
[0001] 本发明属于生物医学领域,特别地,涉及确定孕妇样本中的胎儿核酸含量的方法、 同时确定孕妇样本中胎儿核酸含量和染色体变异的方法、检测孕妇体液样本中胎儿核酸变 异的方法及各装置。
【背景技术】
[0002] 出生缺陷指的是婴儿在出生前发生的身体结构、功能或代谢异常。目前,全世界 已经发现7000多种遗传或半遗传性出生缺陷疾病。根据2001美国MARCH OF DMES(MOD) 基金会报告显示,排在前5位的严重遗传或半遗传性出生缺陷分别是心血管缺陷、神经管 畸形、血红蛋白疾病(地中海贫血和镰状细胞性贫血)、唐氏综合征和葡萄糖-6-磷酸酶脱 氢酶(G6PD)缺乏症。这5种疾病约占全部出生缺陷的25% [U.S. Department of Health And Human Services,Centers for Disease Control and Prevention. Centers for Birth Defects Research and Prevention[R]. Atlanta:CDC. 2003 ;Hsu L YF. Prenatal diagnosis of chromosomal abnormalities through amniocentesis. InMilunsky A ed. Genetic Disorders and the Fetus: diagnosis, prevention,and treatment.4th ed.Baltimore:Johns Hop-kins University Press,1998:179]〇
[0003] 染色体异常是最常见的导致出生缺陷的遗传因素,其发生率随着母亲年龄的增高 而上升。国外的统计资料表明,在每150个新生儿中就有一个染色体异常患者。临床上较 常见的常染色体非整倍体有21-三体综合征(Down综合征,DS),18-三体综合征,13-三体 综合征,性染色体非整倍体有Klinefelter综合征,Turner综合征,ΧΥΥ综合征,X三体综合 征等。这四种常见染色体异常占所有染色体异常的65% - 80%,且占出生后染色体异常导 致出生缺陷的85% - 95%。其中21-三体综合征是最常见的常染色体非整倍体病,在新生 儿中发病率约为1/600-1/1000,占小儿三体型染色体病的70%-80%。根据2003年的资料 测算,我国每年新出生的唐氏综合征生命周期的总经济负担超过100亿元。针对这四种常 见染色体异常的研究、检测、辅助筛查、筛查和及时诊断,能够起到降低出生缺陷的发生,提 高出生人口素质的作用。
[0004] 随着近年来,母体外周血中发现的胎儿游离DNA[Lo ΥΜ,CorbettaN, Chamberlain PF, et al. Presence of fetal DNA inmaternal plasma and serum. Lancet 1997 ; 350 (9560):485 - 487] , RNA [Ferguson-Smith, M. A. Placental mRNA inmaternal plasma:prospects for fetal screen-ing. Proc. Natl. Acad. Sci. USA 100,4360 -4362 (2003)]及胎儿细胞[Bischoff,F_ Z_,Sinacori, M_ K_,Dang, D_ D_, Marquez-Do, D., H orne, C. , Lewis, D. E. , &Simpson, J. L. (2002). Cell-free fetal DNA and intact fetal cells in maternal blood circulation:implications for first and second trimester non-invasive prenatal diagnosis· Human reproduction update, 8 (6) ,493 - 500_]为无 创产前诊断提供新的可能。基于孕妇外周血中胎儿游离DNA及二代测序的胎儿染色体非 整倍性无创基因检测技术现阶段主要定位于21、18、13三体及部分性染色体异常的产前筛 查。相较于传统的血清学筛查方法,该方法检出率可达98%,其假阳性率仅为0.2%或更 低。该方法在国际国内得到了普遍的认可,提供了一种新型的染色体非整倍体产前辅助筛 查及诊断模式。然而由于早孕期母体外周血浆中的胎儿游离DNA含量相对偏低,可能存在 检出率偏低的问题,因此目前无创产前检测非整倍体的技术主要针对16孕周之后的孕妇 群体提供服务。
[0005] 高灵敏度、高特异性的无创产前筛查技术能够最大限度的预防漏检、错检,减少不 必要的有创性产前诊断,减轻临床诊断压力,避免不必要的流产。目前,仍缺乏一种适用于 在大规模人群对特定一种或几种单基因病相关基因进行检测的技术。也缺乏在早孕期(16 孕周之前)的非整倍体与单基因病的同步筛查方法。
【发明内容】
[0006] -方面,本发明提供一种确定孕妇体液样本中胎儿核酸含量的方法,该方法包括: ⑴获得孕妇体液样本;(2)从⑴中的样本提取第一DNA和第二DNA,第一 DNA为母体和胎 儿DNA混合物,第二DNA为母体基因组DNA ; (3)对⑵中至少一部分的第一 DNA测序以获 得第一读段,对(2)中至少一部分的第二DNA进行测序以获得第二读段,所述第一读段和所 述第二读段中包含多个多态性位点;(4)将(3)的第一读段和第二读段分别与参考序列比 对,基于获得的比对结果,筛选出(3)中的多态性位点中在第二DNA只有一种基因型并且在 第一 DNA有两种基因型的多态性位点;(5)依据(4)中的比对结果中的第一读段中支持(4) 中筛选出的多态性位点的读段数目,确定所述孕妇体液样本中胎儿核酸含量。所说的孕妇 体液样本可以来源于孕妇外周血、孕妇尿液等。
[0007] 本发明还提供了 一种同时确定孕妇体液样本中胎儿核酸含量和胎儿染色体变异 信息的方法,该方法包括:(1)获得孕妇体液样本;(2)从(1)中的样本提取第一DNA和第二 DNA,第一 DNA为母体和胎儿DNA混合物,第二DNA为母体基因组DNA ; (3)对(2)中至少一 部分的第一 DNA测序以获得第一读段,对(2)中至少一部分的第二DNA进行测序以获得第 二读段,所述第一读段和所述第二读段中包含多个多态性位点;(4)将(3)的第一读段和第 二读段分别与参考序列比对,基于获得的比对结果,筛选出(3)中的多态性位点中在第二 DNA只有一种基因型并且在第一DNA有两种基因型的多态性位点;(5)依据(4)中的比对结 果中的第一读段中支持(4)中筛选出的多态性位点的读段数目,同时确定所述孕妇体液样 本中胎儿核酸含量和胎儿染色体变异信息。所说的孕妇体液样本可以来源于孕妇外周血、 孕妇尿液等。所说的胎儿染色体变异信息包括胎儿染色体非整倍性、染色体部分非整倍性、 CNV 等。
[0008]另一方本发明提供了一种检测孕妇体液样本中胎儿核酸变异的方法,所述核 酸变异包括SNP、剪切位点突变、CNV和染色体非整倍性的至少一种,所述方法包括:利用本 发明一方面的确定孕妇体液样本中胎儿核酸含量的方法确定孕妇体液样本中胎儿核酸含 量;基于所述胎儿核酸含量确定所述胎儿核酸变异检测所需的最低数据量;对第一 DNA进 行测序,获得不小于所述最低数据量的测序数据;基于所述测序数据,检测所述胎儿核酸变 异。该方法可以实现利用一次实验获得最低数据量对多种核酸变异类型的同时准确检测。 当胎儿核酸含量大于等于4%,所述最低数据量为〇· 18Gbp ;当胎儿核酸含量为3 %?4%, 所述最低数据量为0. 54Gbp。
[0009]再一方面,本发明提供了一种确定孕妇体液样本中胎儿核酸含量的装置,该装置 能够用于执行本发明一方面提供的确定孕妇体液样本中胎儿核酸含量的方法的部分或所 有步骤,该装置包括:A1.样本获取单元,用以获取孕妇体液样本;M.核酸提取单元,与 A1 单元连接,用于提取样本中的第一 DNA和第二DNA,第一 DNA为母体和胎儿DNA混合物,第二 DNA为母体基因组DNA ;C1.测序单元,与B1单元连接,用于对至少一部分的第一 DNA测序以 获得第一读段,对至少一部分的第二DNA进行测序以获得第二读段,所述第一读段和所述 第二读段中包含多个多态性位点;D1.比对筛选单元,与 C1单元连接,接收B1单元的数据, 用于实现将第一读段和第二读段分别与参考序列比对,基于获得的比对结果,筛选出 C1中 的多态性位点中在第二DNA只有一种基因型并且在第一 DNA有两种基因型的多态性位点; E1.核酸含量确定单元,与D1单元连接,接收D1单元的数据,用于依据获自D1的比对结果 中的第一读段中支持D1中筛选出的多态性位点的读段数目,确定所述孕妇体液样本中胎 儿核酸含量。
[0010]又一方面,本发明提供了一种同时确定孕妇体液样本中胎儿核酸含量和胎儿染色 体变异彳曰息的装置,在该装置中,能够执行本发明一方面提供的同时确定孕妇体液样本中 胎儿核酸含量和胎儿染色体变异信息的方法的全部或部分步骤,该装置包括:A2.样本获 取单元,用以获取孕妇体液样本;B2.核酸提取单元,与A2单元连接,用于提取样本中的第 一 DNA和第二DNA,第一 DNA为母体和胎儿DNA混合物,第二DNA为母体基因组DNA ;C2.测 序单元,与B2单元连接,用于对至少一部分的第一 DNA测序以获得第一读段,对至少一部分 的第二DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多个多态性位 点;D 2·比对筛选单元,与C2单元连接,接收B2单元的数据,用于实现将第一读段和第二读 段分别与参考序列比对,基于获得的比对结果,筛选出C2中的多态性位点中在第二DNA只 有一种基因型并且在第一 DNA有两种基因型的多态性位点;E2.核酸含量和变异确定单元, 与D2单元连接,接收D2单元的数据,用于依据获自D2的比对结果中的第一读段中支持D2 中筛选出的多态性位点的读段数目,同时确定所述孕妇体液样本中胎儿核酸含量和胎儿染 色体变异信息。
[0011] 本发明还提供了一种检测孕妇体液样本中胎儿核酸变异的装置,利用该装置能够 执行或实现本发明一方面的检测孕妇体液样本中胎儿核酸变异的方法的部分或所有步骤, 该装置包括:胎儿核酸含量确定单元,所述胎儿核酸含量的确定是通过本发明一方面的确 定孕妇体液样本中胎儿核酸含量的方法进行的,获得胎儿核酸含量;最低数据量确定单元, 与所述胎儿核酸含量确定单元连接,用于基于所述胎儿核酸含量确定所述胎儿核酸变异检 测所需的最低数据量;测序单元,与所述最低数据量确定单元连接,用于对第一 DNA进行测 序,获得不小于所述最低数据量的测序数据,所述第一 DNA获自所述孕妇体液样本,所述第 一 DNA为母体和胎儿DNA混合物;变异检测单元,与所述测序单元连接,接收来自所述测序 单元的测序数据,基于所述测序数据,检测所述胎儿核酸变异。
[0012] 本发明的上述方法和/或装置适合于在早孕期(16孕周之前,特别是8-12孕周) 对产前人群中进行大规模地同时对胎儿非整倍体患病风险及单基因病患病风险进行预测 或辅助筛查。本发明的方法和/装置能够在早孕期抽血孕妇外周血,通过离心实现血浆及 血细胞的分离,通过血浆DNA实现对胎儿非整倍体的检测,通过孕妇血细胞实现对孕妇SNP 检测、对孕妇单基因病携带情况的筛查,并根据孕妇单基因病致病基因携带情况,确定是否 对其丈夫进行携带者筛查,以确定胎儿某种单基因病的患病风险。能够实现利用一次实验 获得最低数据量对多种核酸变异类型的同时准确检测。
[0013]利用本发明的上述方法和/或装置能够实现早孕期的基于胎儿游离DNA的无创产 前非整倍体检测和/或辅助筛查。本发明的方法和/或装置还能通过胎儿游离DN定量获 得最低要求的数据量进行无创产前检测非整倍体,实现早孕期的无创非整倍体检测。本发 明的方法和/或装置还能基于目标区域捕获的高通量测序用于大量样品的大规模筛查,目 前目标区域捕获检测技术多使用于单碱基突变、以及一些小片段碱基的插入及缺失检测, 而对于涉及大片段缺失,如缺失型alpha地中海贫血,缺失DMD等仍需通过QPCR,gap-PCR 等技术进行检测。因使用目标区域捕获无法实现对已知致病突变的完全准确唯一覆盖,而 通过多种技术结合使用则存在费时费力的问题。本发明方法和/或装置通过探针设计及信 息分析方法的改进,实现通过目标区域捕获同时检测点突变、小片段插入缺失、常见缺失型 致病突变以及染色体非整倍性的检测。检测快速准确,适用于产前检测或者辅助产前检测。
【专利附图】
【附图说明】
[0014]本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将 变得明显和容易理解,其中:
[0015]图1是本发明的一个【具体实施方式】中的基于孕妇外周血样本检测胎儿非整倍体、 胎儿SNP基因型和孕妇SNP基因型的流程图;
[0016]图2是本发明的一个【具体实施方式】中的确定孕妇体液样本中胎儿核酸含量的装 置示意图。
【具体实施方式】
[0017]根据本发明的一个实施方式,提供了一种确定孕妇体液样本中胎儿核酸含量的方 法,该方法包括:(1)获得孕妇体液样本;(2)从(1)中的样本提取第一 DNA和第二DNA,第 一 DNA为母体和胎儿DNA混合物,第二DNA为母体基因组DNA ; (3)对⑵中至少一部分的 第一 DNA测序以获得第一读段,对(2)中至少一部分的第二DNA进行测序以获得第二读段, 所述第一读段和所述第二读段中包含多个多态性位点;(4)将(3)的第一读段和第二读段 分别与参考序列比对,基于获得的比对结果,筛选出(3)中的多态性位点中在第二DNA只有 一种基因型并且在第一 DNA有两种基因型的多态性位点;(5)依据(4)中的比对结果中的 第一读段中支持(4)中筛选出的多态性位点的读段数目,确定所述孕妇体液样本中胎儿核 酸含量。在本发明的一个【具体实施方式】中,所述孕妇体液样本来源于孕妇外周血和孕妇尿 液的至少一种。孕妇^液样本比如孕妇外周血,包含孕妇的红细胞、白细胞,血浆或血清中 包含孕妇及胎儿的游离核酸混合物即为第一 DNA,第二DNA来源于孕妇红细胞、白细胞基因 组。所以,若是获得孕妇血液样本,还包括对血液样本进行处理,获得血清/血楽和母体细 胞,分别提取核酸。
[0018]在本发明的一个【具体实施方式】中,多态性位点为在群体中次等位基因频率不小于 0· 4的SNP。群体为不少于3〇个人样本,可以利用已公开的千人基因组数据获得上述SNP, 也可以对多个人样本进行测定识别出SNP,挑选出次等位基因频率不小于〇. 4的SNP,这些 高次等位基因频率的SNP杂合率高,利于基于少量数据中挑出胎儿不同于母体的基因型, 利于胎儿的SNP检测和确定混合核酸中的胎儿核酸含量。
[0019]在本发明的一个【具体实施方式】,(4)中筛选出的多态性位点的基因型组合为:(i) 在第二DNA中只有纯合基因型、而在第一 DNA中存在纯合和杂合基因型,或者(π)在第二 DNA中只有杂合基因型、而在第一 DNA中存在纯合和杂合基因型。当(4)中的多态性位点的 基因型组合为(i)时,(5)中胎儿核酸含量的确定公式为f = 2d/(c+d),当(4)中的多态性 似点的基因型组合为(ii)时,(5)中胎儿核酸含量的确定公式为f= (c-d)/(c+d),其中,c 为第一读段中支持纯合基因型的读段的数目,d为第一读段中支持杂合基因型的读段的数 目。
[0020]根据本发明的另一个实施方式,提供了一种同时确定孕妇体液样本中胎儿核酸含 量和胎儿染色体变异信息的方法,该方法包括:(1)获得孕妇体液样本;(2)从(1)中的样 本提取第一 DNA和第二DNA,第一 DNA为母体和胎儿DNA混合物,第二DNA为母体基因组 DNA;(3)对(2)中至少一部分的第一DNA测序以获得第一读段,对(2)中至少一部分的第二 DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多个多态性位点;(4) 将(3)的第一读段和第二读段分别与参考序列比对,基于获得的比对结果,筛选出(3)中的 多态性位点中在第二DNA只有一种基因型并且在第一 DNA有两种基因型的多态性位点;(5) 依据(4)中的比对结果中的第一读段中支持(4)中筛选出的多态性位点的读段数目,同时 确定所述孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息。在本发明的一个具体实施 方式中,孕妇体液样本来源于孕妇外周血和孕妇尿液的至少一种,胎儿染色体变异包括胎 儿整条染色体非整倍性变异、胎儿染色体部分非整倍性变异,部分非整倍性变异包括 CNV、 片段的插入缺失等。
[0021]在本发明的一个【具体实施方式】中,所说的多态性位点为在群体中次等位基因频率 不小于0· 4的SNP ;所说的群体,为包含不少于30个人样本,可以利用已公开的千人基因组 数据获得上述SNP,也可以对多个人样本进行测定识别出SNP,挑选出次等位基因频率不小 于0. 4的SNP,这些高次等位基因频率的SNP杂合率高,利于基于少量数据中挑出胎儿不同 于母体的基因型,利于胎儿的SNP检测、确定混合核酸中的胎儿核酸含量和胎儿染色体非 整倍性检测。
[0022]在本发明的一个【具体实施方式】中,(4)中筛选出的多态性位点的基因型组合为: (i)在第二DNA中只有纯合基因型、而在第一 DNA中存在纯合和杂合基因型,或者(?)在 第二DNA中只有杂合基因型、而在第一 DNA中存在纯合和杂合基因型,当(4)中的多态性位 点的基因型组合为(i)时,(5)中胎儿核酸含量的确定公式为f = 2d/(c+d),当(4)中的多 态性位点的基因型组合为(ii)时,(5)中胎儿核酸含量的确定公式为f = (c-d)/(c+d),其 中,c为第一读段中支持纯合基因型的读段的数目,d为第一读段中支持杂合基因型的读段 的数目。
[0023]在本发明的一个【具体实施方式】中,(5)中胎儿染色体变异信息的确定包括:依据 (4)中的比对结果中的第一读段中支持(4)中筛选出的多态性位点的读段数目,计算所述 多态性位点的测序深度;利用全部或部分(4)中筛选出的位于同一染色体的多态性位点的 测序深度,和/或所述多态性位点所在染色体的全部或部分区域的GC含量对所述多态性位 点的测序深度进行校正,获得所述多态性位点的相对测序深度;将所述相对测序深度与正 常对照样本同样位点的相对测序深度比较,二者具有显著性差异则确定所述多态性位点区 域存在变异。
[0024]在本发明的一个【具体实施方式】中,(5)中胎儿染色体变异信息的确定,还包括:依 据(4)中ρ比对结果中的第一读段中的有固定距离关系的成对读段的两个读段在参考序 列士的距离,确定所述变异的类型,以L表示一对成对读段中的两个读段的固定距离,以 L, 表示该对成对读段中的两个读段在参考序列上的距离,当L,> L,则判定所述变异是缺失 变异,当L' < L,则判定所述变异为插入变异;其中,所述有固定距离关系的成对读段来自 一个测序文库的两端,所述测序文库的构建包含于( 3)中的测序;在本发明的一个具体实 施方式中,因实际建库时,获得的文库的大小通常不是一个固定数值而是处于一数值范围, 比如建库时没有精确切胶或以其它方式纯化获得一固定大小的文库,这样,比如预构建的 文库大小为500bp,最后获得的文库大小通常处于 300-900bp,所以,更佳地,当L,彡2L,判 定所述变异是缺失变异,当L' <〇· 2L,判定所述变异为插入变异,检测更准确。
[0025]在本发明的一个【具体实施方式】中,(5)中胎儿染色体变异信息的确定,还包括:依 据⑷中的比对结果中的第一读段中的不完全比对到参考序列上的所述多态性位点区域 的读段信息,确定所述变异的精确位置和大小。确定所述变异的精确位置和大小包括:截取 所述比对结果中的第一读段中的不完全比对到参考序列上的所述多态性位点区域的读段 的不能比对上的部分,将截取的部分定义为一个割裂片段;将割裂片段比对到参考序列,获 得割裂片段在参考序列上的位置;基于割裂片段在参考序列上的位置和该割裂片段所属读 段在参考序列上的位置、以及所述两个位置在参考序列上的距离,确定所述变异的精确位 置和大小。在本发明的一个【具体实施方式】中,覆盖了变异发生边界(断点)的包含割裂片 断的割裂读段(soft clip reads),在比对过程中,割裂reads中主要的一部分会被正确比 对上,另一部分同样具有高测序质量的序列,被标记为割裂片段( soft clip),用于进一步 的数据分析。在利用这些割裂reads进行变异发生位置的精确检测之前,对这些割裂读段 进行过滤,使得留下来的割裂读段的平均质量高于5、N的数目小于reads总长度的0. 05、 错配(mismatch)的个数不超过主要比对上的部分的0.〇5、并且 soft (^让部分的长度大于 25bp。这样过滤进行割裂reads的质量控制可以保证割裂reads的主要比对的位置的准确 性,而设置soft clip序列的长度使其不会太短,能使得soft clip部分的二次比对位置更 加可信。
[0026]根据本发明的另一个^施方式,提供了一种检测孕妇体液样本中胎儿核酸变异的 方法,所述核酸变异包括SNP、剪切位点突变、CNV和染色体非整倍性的至少一种,所述方法 包括:利用本发明一方面的方法确定孕妇体液样本中胎儿核酸含量;基于所述胎儿核酸含 量确定所述胎儿核酸变异检测所需的最低数据量;对第一 DNA进行测序,获得不小于所述 最低数据量的测序数据;基于所述测序数据,检测所述胎儿核酸变异。
[0027]在本发明的一个【具体实施方式】中,确定检测所需的最低数据量,包括:当胎儿核酸 含量大于等于4%,所述最低数据量为〇. 18Gbp ;当胎儿核酸含量为3%?4%,所述最低数 据量为0. 54Gbp。利用本发明一方面得方法确定胎儿核酸含量,当胎儿核酸含量低于3%, 建议仍旧使用高深度测序获得大量数据并且开发其它数据处理方法以保证检测高准确率。 [0028]在本发明的一个【具体实施方式】中,所说的胎儿核酸变异检测包括检测以下基因的 外显子区域的 SNP :HBA1、HBA2、HBB、GJB2、SLC26A4、SMN1、DMD、GALT、PAH、F8、F9、ATP7B、 GM和PKHD1。进一步地,还包括检测以下基因的外显子的上下游各10bp区域中的剪切位点 突变:HBA1、HBA2、HBB、GJB2、SLC26A4、SMN1、DMD、GALT、PAH、F8、F9、ATP7B、GAA 和 PKHD1。 这些基因区域为典型遗传病发生相关区域。
[0029]根据本发明的再一个实施方式,提供了一种确定孕妇体液样本中胎儿核酸含量的 装置,如图2所不,该装置包括:Α1·样本获取单元,用以获取孕妇体液样本;B1.核酸提取 单元,与Α1单元连接,用于提取样本中的第一 DNA和第二DNA,第一 DNA为母体和胎儿DNA 混合物,第二DNA为母体基因组DNA ;C1.测序单元,与B1单元连接,用于对至少一部分的第 一 DNA测序以获得第一读段,对至少一部分的第二DNA进行测序以获得第二读段,所述第一 读段和所述第二读段中包含多个多态性位点;D1.比对筛选单元,与C1单元连接,接收B1 单兀的数据,用于实现将第一读段和第二读段分别与参考序列比对,基于获得的比对结果, 筛选出C1中的多态性位点中在第二DNA只有一种基因型并且在第一 DNA有两种基因型的 多态性位点;E1.核酸含量确定单元,与D1单元连接,接收D1单元的数据,用于依据获自D1 的比对结果中的第一读段中支持D1中筛选出的多态性位点的读段数目,确定所述孕妇体 液样本中胎儿核酸含量。该装置能够用于执行本发明一个实施方式中提供的确定孕妇体液 样本中胎儿核酸含量的方法的部分或所有步骤,关于本发明一个实施方式中的确定孕妇体 液样本中胎儿核酸含量的方法的优点及特征的描述,仍旧适用于该装置,在此不再赘述。 [00 30] 根据本发明的再一个实施方式,提供了一种同时确定孕妇体液样本中胎儿核酸 含量和胎儿染色体变异信息的装置,该装置包括:A2.样本获取单元,用以获取孕妇体液样 本;B2.核酸提取单元,与A2单元连接,用于提取样本中的第一 DNA和第二DNA,第一 DNA为 母体和胎儿DNA混合物,第二DNA为母体基因组DNA ;C2.测序单元,与B2单元连接,用于对 至少一部分的第一 DNA测序以获得第一读段,对至少一部分的第二DNA进行测序以获得第 二读段,所述第一读段和所述第二读段中包含多个多态性位点;D2.比对筛选单元,与C2单 元连接,接收B2单元的数据,用于实现将第一读段和第二读段分别与参考序列比对,基于 获得的比对结果,筛选出C2中的多态性位点中在第二DNA只有一种基因型并且在第一 DNA 有两种基因型的多态性位点;E2.核酸含量和变异确定单元,与D2单元连接,接收D2单元 的数据,用于依据获自D2的比对结果中的第一读段中支持D2中筛选出的多态性位点的读 段数目,同时确定所述孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息。该装置能够 用于执行本发明一个实施方式中提供的同时确定孕妇体液样本中胎儿核酸含量和染色变 异信息的方法的部分或所有步骤,关于本发明一个实施方式中的同时确定孕妇体液样本中 胎儿核酸含量和染色体变异的方法的优点及特征的描述,仍旧适用于该装置,在此不再赘 述。
[0031] 根据本发明的再一个实施方式,提供了一种检测孕妇体液样本中胎儿核酸变异的 装置,该装置包括:胎儿核酸含量确定单元,所述胎儿核酸含量的确定是通过本发明一方面 提供的确定孕妇体液样本中胎儿核酸含量的方法进行的,获得胎儿核酸含量;最低数据量 确定单元,与所述胎儿核酸含量确定单元连接,用于基于所述胎儿核酸含量确定所述胎儿 核酸变异检测所需的最低数据量;测序单元,与所述最低数据量确定单元连接,用于对第一 DNA进行测序,获得不小于所述最低数据量的测序数据,所述第一 DNA获自所述孕妇体液样 本,所述第一 DNA为母体和胎儿DNA混合物;变异检测单元,与所述测序单元连接,接收来自 所述测序单元的测序数据,基于所述测序数据,检测所述胎儿核酸变异。该装置能够用于执 行本发明一个实施方式中提供的检测孕妇体液样本中胎儿核酸变异的方法的部分或所有 步骤,关于本发明一个实施方式中的检测孕妇体液样本中胎儿核酸变异的方法的优点及特 征的描述,仍旧适用于该装置,在此不再赘述。
[0032] 本发明的实施方式中的方法和/或装置将胎儿DNA含量测定方法引入到变异检测 中,使得可以在怀孕早期同步筛查孕妇单基因携带情况、胎儿SNP变异情况以及胎儿染色 体非整倍性检测提供了可能。本发明提供了一种高效的、适于人群大规模使用的SNP或单 基因病携带筛查的方法/装置。利用本发明的方法或装置,可以通过目标区域捕获同时实 现点突变及拷贝数变异的检测,增加了目标区域捕获所能检出的致病突变类型,覆盖突变 范围更广,减少了所需补充的实验种类。更适合于人群大规模检测使用,更适应于产前检测 或者辅助产前检测。可以利用本发明的方法或装置,将单基因病检测引入到产前阶段,进一 步丰富了可在产前进行检测的出生缺陷的种类,为早期预防出生缺陷提供了更多的可能。 [0033] 在本发明中的"变异"、"核酸变异"、"基因变异"、"染色体变异"可通用,本发明中的 "SNP"、"CNV"、"插入缺失"(indel)、"染色体非整倍性"、"剪切位点突变"同通常定义,但本 发明中对各种变异的大小不作特别限定,这样这几种变异之间有的有交叉,比如SNP为单 核酸突变,包括单核苷酸的插入和/或缺失,这样与插入缺失变异概念有交叉;又比如,CNV 为拷贝数变异,当重复/缺失的为整条染色体时,即属于染色体异倍体。这些类型变异的大 小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所 描述的结果。
[0034] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。需要说明 的是在本文中所使用的术语"第一"、"第二"等仅用于方便描述目的,而不能理解为指示或 暗示相对重要性,也不能理解为之间有先后顺序关系。在本发明的描述中,除非另有说明, "多个"的含义是两个或两个以上。
[0035] 除另有交待,以下实施例中涉及的试剂及仪器,都是常规市售产品,比如购自 Illumina 公司。
[0036] 实施例一:胎儿核酸含量确定
[0037] 图1是基于一孕妇外周血样本检测胎儿非整倍体及孕妇SNP基因型、判断孕妇单 基因病相关突变携带情况的流程图。图1流程可用于在早孕期进行胎儿非整倍体性及单基 因病致病基因风险预测。该流程方法通过在早孕期(孕8-12周)采集孕妇外周血,通过两 步离心法实现血浆与血细胞的分离。通过微量DNA提取技术实现血浆游离DNA的提取。使 用血浆分离后剩余的血细胞直接提取孕妇DNA,或通过富集白细胞提取孕妇白细胞DNA。通 过对血浆游离DNA进行高通量测序文库的构建,取部分文库DNA进行目标区域捕获检测,以 确定相应样品血浆DNA中胎儿DNA的含量。根据胎儿DNA含量检测结果,确定血浆DNA测 序文库所需的测序深度。通过对血浆DNA目标区域捕获测序或者全基因组低覆盖度测序数 据的分析,得到胎儿染色体非整倍性的信息。同时,通过对孕妇白细胞DNA进行常见隐性遗 传病待检区域的目标区域捕获测序,实现对孕妇单基因病携带情况的检测。根据孕妇血细 胞DNA或白细胞DNA的检测结果,确定胎儿是否有携带某种致病突变的风险。若孕妇不携 带相应致病突变,则表明胎儿患病风险较低。若孕妇携带了相应的隐性遗传病的致病突变, 则需对孕妇的丈夫进行相同基因的隐性遗传病致病突变的检测,若其丈夫相同基因不携带 致病突变,则胎儿患病风险低。若其丈夫相同基因携带致病突变,则胎儿患病风险较高。
[0038] 胎儿非整倍体的检测流程是血浆及孕妇血细胞提取DNA后,分别将DNA进行加上 带有样品识别标签的测序接头。对加接头后的DNA进行PCR扩增。取部分DNA进行目标区 域捕获测序,所用捕获方法可以为液相捕获也可以使用固相捕获的方式。捕获区域为人群 中杂合率尚的SNP位点(minor allele frequency, MAF在0.4?0.5之间),平均每条染 色体分布至少1〇〇个需捕获的SNP位点。通过对血浆游离DNA目标区域捕获文库及孕妇血 细胞DNA目标区域捕获文库的的高通量测序,利用获得的数据对血浆DNA中胎儿DNA含量 进行估计。根据胎儿DNA含量,确定使用孕妇血浆DNA进行胎儿染色体非整倍体性检测时, 所要达到的整体的测序深度。测序按照常规测序方法进行,测序平台可选择如Hi Seq2000、 HiSeq25〇0、MiSeq和单分子测序平台等等,根据测序量的不同和样本数,可以灵活选择合适 的测序平台,依据所选测序平台构建适合该平台的测序文库。
[0039] 具体的检测流程如下:
[0040] 采集孕妇5ml外周血(样本来自天津市妇幼保健院),将采血管(内装有全血)置 于离心机内,在4°C条件下以1600g离心lOmin,离心结束后将上清(血浆)平均分装到多 个置于冰盒上且已编号的2. OmL的EP管中。将8. 1分离好的血浆置于离心机内,在4°C条 件下以16000g离心lOmin,以去除残余细胞,离心结束后在冰盒上将上清转入新的已编号 2.0mL EP管中,得到孕妇血浆。
[0041] 通过微量DNA提取技术提取血浆游离DNA,使用TIANamp Micro DNA Kit(DP316) 基因组DNA提取试剂盒,具体操作见操作手册(www. tiangen. com)。
[0042] 在血浆游离DNA模板两端加上接头,并通过PCR对所得DNA片段进行扩增,并同时 给各样品加上唯一识别序列用于区分不同的样品。最终获得高通量测序文库。
[0043] 通过目标区域特异探针对血浆游离DNA文库中特定的SNP位点进行捕获富集。所 选用的SNP位点为可用于胎儿DNA含量测定的SNP位点。该SNP类位点人群中杂合率高的 SNP位点(minor allele frequency, MAF在0.4?0.5之间),平均每条染色体可以分布 1〇〇个需捕获的SNP位点。后续可以依据这些SNP检测染色体非整倍性。
[0044]同时对孕妇外周血细胞所提取DNA构建文库进行相同的SNP位点的目标区域捕获 富集。
[0045] 对血浆游离DNA及孕妇外周血细胞DNA目标区域捕获测序文库进行高通量测序。 测序平台可选择如Hiseq2000,或者HiSeq2500,MiSeq或单分子测序平台等等,根据测序量 的不同和样本数,可以灵活选择合适的测序平台。
[0046] 选择孕妇外周血细胞DNA测序为纯合,而在血浆中出现与孕妇外周血细胞DNA不 同的基因型的SNP位点进行血浆中胎儿DNA含量的估计。假设某一 SNP位点孕妇外周血DNA 测序数据为AA,而血浆游离DNA测序结果显示该位点存在a基因型,若支持A的测序reads 数为c,支持a的测序reads数为d,则血浆游离DNA中胎儿DNA含量为f = 2cV(c+d)。
[0047] 实施例二:胎儿SNP基因型及单基因病风险判断、胎儿染色体变异检测
[0048] 根据上述胎儿DNA含量,选定相应的低覆盖度测序乘数及相应的生物信息分析方 法。对未经目标区域捕获的血浆DNA来源的测序文库文库进行全基因组低覆盖的测序,并 进行胎儿非整倍性判断。对于胎儿DNA含量在4%以上的血浆样品,测序数据量需0. 18Gbp, 对于胎儿DNA含量在3-4 %的样品,测序数据量需达〇. 54Gbp,对胎儿DNA含量不足3 %的不 进行分析。
[0049] 根据所选的测序平台,在这边使用的Illumina Hiseq2000,通过孕妇白细胞提取 DNA,打断成小片段DNA后,将DNA进行加上带有样品识别标签的测序接头。通过PCR进行 DNA扩增。将DNA进行芯片捕获,该芯片上覆盖有相应的单基因病相关基因的目标区域捕获 探针,可以和DNA进行目标区域捕获,探针芯片可以定制,比如向Agilent公司或NimbleGen 公司定制,也可自己设计合成。捕获到的目的DNA进行PCR富集后,按照常规测序方法进行 测序。具体的检测流程如下:
[0050] a)采集孕妇5ml外周血,通过两步离心法,分离血浆与血细胞
[0051] b)通过孕妇白细胞提取孕妇DNA
[0052] c)将样本DNA超声打断成100-200bp小片段
[0053] d)文库构建:在小片段DNA模板两端加接头,并通过PCR进行扩增,并同时给样品 加上唯一识别序列,同时实现测序所需序列的添加
[0054] e)目标区域文库:通过目标区域特异探针捕获富集待测单基因病的关键基因区 域。该实施例种芯片设计的基因涵盖了常见高发的几种单基因病关键区域,如表1所示, 探针覆盖范围为各基因的外显子区以及外显子向内含子区域延伸30bp的区域,这边,延伸 30bp是为了捕获相应区域使得可以获得相应区域的数据以及检测到外显子正负10bp内 发生的剪切突变,其中,对于地中海贫血基因,还在常见的alpha地中海贫血缺失型所涉及 的断裂点,以及beta地中海贫血缺失型所涉及的断裂点附近设计捕获探针,如表2。针对 CYP21A2基因,除去捕获外显子区域外,还在已报道的重组位点处设计捕获探针,位置如表 3所示。
[0055] f)目标区域捕获文库上机测序,各样品总体测序深度300-500X。本实验采用 hiseq2000PE101+8+101 (双末端测序,reads长度lOlbp,标签长度8bp)程序进行上机测序。
[0056] 表1疾病名称及基因
[0057]
【权利要求】
1. 确定孕妇体液样本中胎儿核酸含量的方法,包括: (1) 获得孕妇体液样本; (2) 从(1)中的样本提取第一 DNA和第二DNA,第一 DNA为母体和胎儿DNA混合物,第 二DNA为母体基因组DNA ; (3) 对(2)中至少一部分的第一DNA测序以获得第一读段,对(2)中至少一部分的第二 DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多个多态性位点; (4) 将(3)的第一读段和第二读段分别与参考序列比对,基于获得的比对结果,筛选出 (3)中的多态性位点中在第二DNA只有一种基因型并且在第一 DNA有两种基因型的多态性 位点; (5) 依据⑷中的比对结果中的第一读段中支持⑷中筛选出的多态性位点的读段数 目,确定所述孕妇体液样本中胎儿核酸含量。
2. 权利要求1的方法,其特征在于,所述孕妇体液样本来源于孕妇外周血和孕妇尿液 的至少一种。
3. 权利要求1的方法,其特征在于,所述多态性位点为在群体中次等位基因频率不小 于 0. 4 的 SNP。
4. 权利要求1的方法,其特征在于,(4)中筛选出的多态性位点的基因型组合为:(i) 在第二DNA中只有纯合基因型、而在第一 DNA中存在纯合和杂合基因型,或者(ii)在第二 DNA中只有杂合基因型、而在第一 DNA中存在纯合和杂合基因型。
5. 权利要求4的方法,其特征在于,当(4)中的多态性位点的基因型组合为(i)时,(5) 中胎儿核酸含量的确定公式为f = 2cV(C+d),当(4)中的多态性位点的基因型组合为(ii) 时,(5)中胎儿核酸含量的确定公式为f = (c-dV(c+d),其中,c为第一读段中支持纯合基 因型的读段的数目,d为第一读段中支持杂合基因型的读段的数目。
6. 同时确定孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息的方法,包括: (1) 获得孕妇体液样本; (2) 从(1)中的样本提取第一 DNA和第二DNA,第一 DNA为母体和胎儿DNA混合物,第 二DNA为母体基因组DNA ; (3) 对(2)中至少一部分的第一DNA测序以获得第一读段,对(2)中至少一部分的第二 DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多个多态性位点; (4) 将(3)的第一读段和第二读段分别与参考序列比对,基于获得的比对结果,筛选出 (3)中的多态性位点中在第二DNA只有一种基因型并且在第一 DNA有两种基因型的多态性 位点; (5) 依据⑷中的比对结果中的第一读段中支持⑷中筛选出的多态性位点的读段数 目,同时确定所述孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息; 任选的,所述孕妇体液样本来源于孕妇外周血和孕妇尿液的至少一种; 任选的,所述胎儿染色体变异包括胎儿整条染色体非整倍性变异、胎儿染色体部分非 整倍性变异; 任选的,所述多态性位点为在群体中次等位基因频率不小于〇. 4的SNP ; 任选的,(4)中筛选出的多态性位点的基因型组合为:(i)在第二DNA中只有纯合基因 型、而在第一 DNA中存在纯合和杂合基因型,或者(ii)在第二DNA中只有杂合基因型、而在 第一 DNA中存在纯合和杂合基因型; 任选的,当(4)中的多态性位点的基因型组合为(i)时,(5)中胎儿核酸含量的确定公 式为f = 2cV(C+d),当(4)中的多态性位点的基因型组合为(ii)时,(5)中胎儿核酸含量 的确定公式为f = (c-d) Ac+d),其中,c为第一读段中支持纯合基因型的读段的数目,d为 第一读段中支持杂合基因型的读段的数目。
7. 权利要求6的方法,其特征在于,(5)中胎儿染色体变异信息的确定,包括: 依据⑷中的比对结果中的第一读段中支持⑷中筛选出的多态性位点的读段数目, 计算所述多态性位点的测序深度; 利用全部或部分(4)中筛选出的位于同一染色体的多态性位点的测序深度,和/或所 述多态性位点所在染色体的全部或部分区域的GC含量对所述多态性位点的测序深度进行 校正,获得所述多态性位点的相对测序深度; 将所述相对测序深度与正常对照样本同样位点的相对测序深度比较,二者具有显著性 差异则确定所述多态性位点区域存在变异。
8. 权利要求7的方法,其特征在于,(5)中胎儿染色体变异信息的确定,还包括: 依据(4)中的比对结果中的第一读段中的有固定距离关系的成对读段的两个读段在 参考序列上的距离,确定所述变异的类型,以L表示一对成对读段中的两个读段的固定距 离,以L'表示该对成对读段中的两个读段在参考序列上的距离, 当L' > L,则判定所述变异是缺失变异, 当L' < L,则判定所述变异为插入变异;其中, 所述有固定距离关系的成对读段来自一个测序文库的两端,所述测序文库的构建包含 于⑶中的测序; 任选地,当L' > 2L,则判定所述变异是缺失变异, 当L' < 0. 2L,则判定所述变异为插入变异。
9. 权利要求8的方法,其特征在于,(5)中胎儿染色体变异信息的确定,还包括: 依据(4)中的比对结果中的第一读段中的不完全比对到参考序列上的所述多态性位 点区域的读段信息,确定所述变异的精确位置和大小。
10. 权利要求9的方法,其特征在于,确定所述变异的精确位置和大小包括: 截取所述比对结果中的第一读段中的不完全比对到参考序列上的所述多态性位点区 域的读段的不能比对上的部分,将截取的部分定义为一个割裂片段; 将割裂片段比对到参考序列,获得割裂片段在参考序列上的位置; 基于割裂片段在参考序列上的位置和该割裂片段所属读段在参考序列上的位置、以及 所述两个位置在参考序列上的距离,确定所述变异的精确位置和大小。
11. 检测孕妇体液样本中胎儿核酸变异的非诊断方法,所述核酸变异包括SNP、剪切位 点突变、CNV和染色体非整倍性的至少一种,所述方法包括: 利用权利要求1-5任一方法确定孕妇体液样本中胎儿核酸含量; 基于所述胎儿核酸含量确定所述胎儿核酸变异检测所需的最低数据量; 对第一 DNA进行测序,获得不小于所述最低数据量的测序数据; 基于所述测序数据,检测所述胎儿核酸变异。
12. 权利要求8的方法,其特征在于,所述基于胎儿核酸含量确定检测所需的最低数据 量,包括: 当胎儿核酸含量大于等于4%,所述最低数据量为0. 18Gbp ; 当胎儿核酸含量为3%?4%,所述最低数据量为0. 54Gbp。
13. 权利要求8的方法,其特征在于,所述胎儿核酸变异检测包括检测以下基因的外显 子区域的 SNP :HBA1、HBA2、HBB、GJB2、SLC26A4、SMN1、DMD、GALT、PAH、F8、F9、ATP7B、GAA 和 PKHD1。
14. 权利要求11的方法,其特征在于,所述胎儿核酸变异检测还包括检测以下基因的 外显子的上下游各l〇bp区域中的剪切位点突变:HBA1、HBA2、HBB、GJB2、SLC26A4、SMN1、 DMD、GALT、PAH、F8、F9、ATP7B、GAA 和 PKHD1。
15. 确定孕妇体液样本中胎儿核酸含量的装置,包括: A1.样本获取单元,用以获取孕妇体液样本; B1.核酸提取单元,与A1单元连接,用于提取样本中的第一 DNA和第二DNA,第一 DNA 为母体和胎儿DNA混合物,第二DNA为母体基因组DNA ; C1.测序单元,与B1单元连接,用于对至少一部分的第一 DNA测序以获得第一读段,对 至少一部分的第二DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多 个多态性位点; D1.比对筛选单元,与C1单元连接,接收B1单元的数据,用于实现将第一读段和第二读 段分别与参考序列比对,基于获得的比对结果,筛选出C1中的多态性位点中在第二DNA只 有一种基因型并且在第一 DNA有两种基因型的多态性位点; E1.核酸含量确定单元,与D1单元连接,接收D1单元的数据,用于依据获自D1的比对 结果中的第一读段中支持D1中筛选出的多态性位点的读段数目,确定所述孕妇体液样本 中胎儿核酸含量。
16. 同时确定孕妇体液样本中胎儿核酸含量和胎儿染色体变异信息的装置,包括: A2.样本获取单元,用以获取孕妇体液样本; B2.核酸提取单元,与A2单元连接,用于提取样本中的第一 DNA和第二DNA,第一 DNA 为母体和胎儿DNA混合物,第二DNA为母体基因组DNA ; C2.测序单元,与B2单元连接,用于对至少一部分的第一 DNA测序以获得第一读段,对 至少一部分的第二DNA进行测序以获得第二读段,所述第一读段和所述第二读段中包含多 个多态性位点; D2.比对筛选单元,与C2单元连接,接收B2单元的数据,用于实现将第一读段和第二读 段分别与参考序列比对,基于获得的比对结果,筛选出C2中的多态性位点中在第二DNA只 有一种基因型并且在第一 DNA有两种基因型的多态性位点; E2.核酸含量和变异确定单元,与D2单元连接,接收D2单元的数据,用于依据获自D2 的比对结果中的第一读段中支持D2中筛选出的多态性位点的读段数目,同时确定所述孕 妇体液样本中胎儿核酸含量和胎儿染色体变异信息。
17. 检测孕妇体液样本中胎儿核酸变异的装置,包括: 胎儿核酸含量确定单元,所述胎儿核酸含量的确定是通过权利要求1-5任一方法进行 的,获得胎儿核酸含量; 最低数据量确定单元,与所述胎儿核酸含量确定单元连接,用于基于所述胎儿核酸含 量确定所述胎儿核酸变异检测所需的最低数据量; 测序单元,与所述最低数据量确定单元连接,用于对第一 DNA进行测序,获得不小于所 述最低数据量的测序数据,所述第一 DNA获自所述孕妇体液样本,所述第一 DNA为母体和胎 儿DNA混合物; 变异检测单元,与所述测序单元连接,接收来自所述测序单元的测序数据,基于所述测 序数据,检测所述胎儿核酸变异。
【文档编号】C12M1/00GK104232777SQ201410484128
【公开日】2014年12月24日 申请日期:2014年9月19日 优先权日:2014年9月19日
【发明者】袁媛, 刘涛, 曹飞, 郭俊甫, 王垚燊, 吴仁花, 阿叁, 杨玲, 易鑫 申请人:天津华大基因科技有限公司, 深圳华大基因医学有限公司