通过低深度基因组测序检测杂合性缺失的方法
1.相关申请的引用
2.本技术要求2019年8月30日提交的美国临时专利申请62/894,497号的优先权,将上述专利申请的内容通过援引加入的方式整体并入本文,用于所有目的。
发明领域
3.本技术大体涉及分子遗传学和分子生物学领域。具体而言,本技术提供了用于检测个体中杂合性缺失(aoh)的方法和工具。
背景技术:4.杂合性缺失(aoh)是一种基因组改变,由于野生型或印记基因组序列的缺失而引起人类疾病,包括先天性疾病[1,2]和肿瘤[3,4]。除了杂合缺失事件之外,aoh通常呈现为拷贝数中性事件,其代表一段或长连续的纯合性延伸[5]和同源一致性(例如亲代血缘关系)或单亲二体性(upd)的证据[6]。当已知存在印记基因的染色体(6、7、11、14、15或20号染色体)出现upd,其在活产儿,由此引起的人类疾病的发病率估计为1/5000[7,8]。例如,约25%的患有prader-willi综合征(omim#:176270)的病例是由于aoh或单亲二体性引起的15号染色体的母源性upd[9,10],其中同一染色体区域的两个等位基因都是从一个亲本遗传的。
[0005]
在常规临床设定中,利用单核苷酸多态性(snp)探针的染色体微阵列分析(cma)是用于以》5mb的分辨率鉴定aoh的金标准[5,6]。目前,由于近些年分子技术的突破(如二代测序),外显子组测序(es)已经用于临床诊断测试[11-16],并且研究人员已经开始通过使用单核苷酸变异(snv)的检测来研究aoh[17,18]。与基因组测序(gs)相比,由于捕获存在偏向性,es在拷贝数变体(cnv)、甚至snv的检测中显示出能力的局限性[6,19]。然而,尽管gs具有优点,但考虑到病人可承受的费用,当前临床上运用的方法都是基于低深度(低覆盖)gs,测序深度在约0.1到>5乘的范围内。最近的研究表明,低深度gs能够鉴定cnv[20-22]和染色体结构重排[23-25],但是从当前的分析方法中不能检测aoh。此外,基于当前的低深度gs是否可检测单亲异二体性也是不清楚的。
[0006]
本领域需要检测aoh的新方法,特别是通过利用低深度gs来检测的方法。
[0007]
发明概述
[0008]
第一方面,本技术提供了检测来自个体的生物样品中杂合性缺失(aoh),例如拷贝数中性杂合性丢失(cn-loh)的方法,所述方法包括:
[0009]
(i)接收来自生物样品的基因组dna的低深度的序列读长;
[0010]
(ii)将序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与人类基因组参照比对的序列读长;
[0011]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0012]
(iv)从步骤(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,
其中
[0013]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0014]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0015]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0016]
(v)对于窗口,确定在步骤(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0017]
(vi)将由步骤(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0018]
第二方面,本技术提供了用于检测来自个体的生物样品中杂合性缺失(aoh)(例如拷贝数中性杂合性丢失(cn-loh))的计算机系统,所述计算机系统包括处理器和存储多个指令的存储器,其中所述处理器在处理所述指令时被配置为:
[0019]
(i)接收来自所述生物样品的基因组dna的低深度的序列读长;
[0020]
(ii)将所述序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与所述人类基因组参照比对的序列读长;
[0021]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于所述人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0022]
(iv)从(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0023]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0024]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0025]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0026]
(v)对于窗口,确定在(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0027]
(vi)将由(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0028]
第三方面,本技术提供了计算机可读介质,所述计算机可读介质存储多个指令,其
中所述多个指令在由一个或多个处理器执行时实施包括以下的操作:
[0029]
(i)接收来自个体的生物样品的基因组dna的低深度的序列读长;
[0030]
(ii)将所述序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与所述人类基因组参照比对的序列读长;
[0031]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于所述人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0032]
(iv)从(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0033]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0034]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0035]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0036]
(v)对于窗口,确定在(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0037]
(vi)将由(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0038]
第四方面,本技术提供了装置,其包括一个或多个处理器和第三方面所述的计算机可读介质。
[0039]
附图简要说明
[0040]
图1示出了根据本技术的示例性实施例的检测杂合性缺失(aoh)的方法的工作流程。
[0041]
图2.样品hg00514中gs(30乘测序深度,下文称为gs)与低深度gs(约4乘测序深度,下文称为低深度gs)之间的不同参数的相关性。(a)gs数据中亲本基因组差异(y轴)与杂合snv的比率(x轴)之间的相关性。(b)gs数据中亲本基因组差异(y轴)与纯合snv的比率(x轴)之间的相关性。(c)gs数据中纯合snv的比率(y轴)与二倍体杂合snv的比率(x轴)之间的相关性。(d)由低深度gs指示的二倍体杂合snv的比率(y轴)与由gs数据计算的二倍体杂合snv的比率(x轴)之间的相关性。(e)由低深度gs指示的纯合snv的比率(y轴)与由gs数据计算的纯合snv的比率(x轴)之间的相关性。(f)低深度gs数据中纯合snv的比率(y轴)与二倍体杂合snv的比率(x轴)之间的相关性。在每个图中,pearson相关系数的p值以红色示出。
[0042]
图3.aoh检测的准确性。(a)gs和低深度gs之间的aoh检测的一致性,和(b)当并入纯合snv的增加的比率和杂合snv的降低的比率时,使用来自gs的检测结果,通过低深度gs检测aoh的灵敏性和特异性。在1.4mb的分辨率下观察到100%的灵敏性和特异性。(c)在使用低深度gs的两个独立实验中五个病例的aoh检测的一致性,和(d)通过使用来自第一批的数据作为参考,在来自第二批五个样品的数据中检测aoh的灵敏性和特异性。在每幅图中,x
轴代表检测到的aoh的大小。图(a)和(c)中的y轴表示检测到的aoh的数量,图(b)和(d)中的y轴中反映了设定不同检测分辨率截止值的灵敏性和特异性。
[0043]
图4.样品hg00733的5号染色体中aoh的检测。(a)该样品中的5号染色体中的窗口之间的拷贝数(由黑点表示)的分布。唯一的缺失由紫色箭头示出。在所有图中x轴表示基因组位置,而在图(a)中y轴表示拷贝数。通过低深度gs法,5号染色体上杂合snv的标准化比率的分布(b)和纯合snv的标准化比率的分布(c)。通过gs法,5号染色体上杂合snv的比率的分布(e)和纯合snv的比率的分布(f)。在图(b)和(d)中,通过观察杂合snv的连续降低的比率来鉴定aoh(用红色箭头表示,其中窗口的数量包括在底部)。在图(c)和(e)中,具有连续增加的纯合snv比率的区域(由蓝色箭头表示,窗口的数量包括在底部)。(f)亲本基因组差异在5号染色体上的分布。图(b-f)中的y轴示出了每个对应参数的比率。大aoh seq[grch37]5q23q34(149200000_164900000)x2 hmz的基因组区域由每个图中的一对绿色虚线显示。
[0044]
图5.在样品18c1564中检测到aoh。cma报告的拷贝数分布(a)和基因型分布(b)。图(a)和(b)中x轴表示基因组位置。图(a)中的y轴表示拷贝数的log2比率,图(b)中的y轴表示不同数量的基因型的分布:0、1、2和3分别将基因型表示为a等位基因,ab、b和aab/abb。在图(a)中,每个点表示一个探针,被分类为增加、中性或丢失的拷贝比分别以蓝色、黑色和红色示出。在图(b)中,每种基因型的存在显示为对应线中的绿点,并且所报告的具有aoh的区域以绿色背景突出显示。低深度gs报告的两个额外的aoh(cma未报告)以黄色背景突出显示,并且在这两个区域中杂合基因型(ab)的缺失由两个红色箭头指示。(c)低深度gs报告的拷贝数分布,窗口由黑点指示。图(c-g)中的x轴表示6号染色体上的基因组位置,而在图(c)中,y轴表示拷贝数。图(d)至(f)分别显示了“胚系(germline)”杂合snv(ab)、纯合snv和“嵌合”杂合snv(aab/abb)的比率分布。在图(d)中,检测到aoh的候选区域由每对红色箭头和窗口数量指示,而在图(e)中,在图(d)中报告的那些区域内具有提高的纯合snv比率的窗口由每对蓝色箭头和窗口数量显示。图(b)中突出显示的仅由低深度gs报告的两个隐秘区域也在图(d-e)中突出显示。在图(f)中,由每对蓝色箭头和窗口数量显示了具有增加的“嵌合”杂合snv比率的候选区域。在图(g)中,y轴显示了在上线中的母系遗传基因型(黑点)和在下线中的父系遗传基因型(黑点)。如果母系/父系基因型的比率大于5,则中间线显示为红色,如果比率小于0.2,则中间线显示为蓝色。
[0045]
图6.在样品18c1493中的嵌合三体性事件中检测到aoh。cma报告的拷贝数分布(a)和基因型分布(b)。在图(a)和(b)中x轴表示基因组位置。图(a)中的y轴表示拷贝数的log2比率,而图(b)中的y轴表示不同数量的基因型的分布:0、1、2和3分别将基因型表示为a等位基因,ab、b和aab/abb。在图(a)中,每个点表示一个探针,被分类为增加、中性或丢失的拷贝比分别以蓝色、黑色和红色示出。显示出整个6号染色体的大约40%的增加(由蓝色框表示)。在图(b)中,每种基因型的存在显示为对应线中的绿点,并且所报告的具有aoh的区域以绿色背景突出显示。(c)低深度gs报告的拷贝数分布,窗口由黑点指示。结果证实,整个6号染色体增加了约40%(用蓝线表示)。图(c-g)中的x轴表示6号染色体上的基因组位置,而在图(c)中,y轴表示拷贝数。图(d)至(f)分别显示了“胚系”杂合snv(ab)、纯合snv和“嵌合”杂合snv(aab/abb)的比率分布。在图(d)中,检测到aoh的候选区域由每对红色箭头和窗口数量指示,而在图(e)中,在图(d)中报告的那些区域内具有提高的纯合snv比率的窗口由每对蓝色箭头和窗口数量显示。在图(f)中,由每对蓝色箭头和窗口数量显示了具有增加的“嵌合”杂合snv比率的候选区域。在图(g)中,y轴显示了在上线中的母系遗传基因型(黑点)和在下线中的父系遗传基因型(黑点)。如果母体/父本基因型的比率大于5,则中间线显示为红色,如果比率小于0.2,则中间线显示为蓝色。
[0046]
图7.低深度gs报告的隐秘aoh。图(a)、(c)和(e)分别显示17c1122、17c1175和17c1176中的拷贝数分布,而图(b)、(d)和(f)显示杂合snv在这三个样品的每一个中的比率分布。每个图中的x轴表示基因组位置。图(a)、(c)和(e)中的y轴表示拷贝数,而图(b)、(d)和(f)中的y轴表示杂合snv的比率。在图(b)、(d)和(f)中,由低深度gs报告的具有aoh的候选区域由每对红色箭头和底部所涉及的窗口的数量来指示。绿色虚线显示了kctd7基因在每个图上的区域,而在图(b)中,隐秘aoh以黄色背景突出显示。
[0047]
图8.hg00733样品中gs与低深度gs之间不同参数的相关性。(a)gs数据中亲本基因组差异(y轴)与杂合snv的比率(x轴)之间的相关性。(b)gs数据中亲本基因组差异(y轴)与纯合snv的比率(x轴)之间的相关性。(c)gs数据中纯合snv的比率(y轴)与杂合snv的比率(x轴)之间的相关性。(d)由低深度gs指示的杂合snv的比率(y轴)与由gs数据计算的杂合snv的比率(x轴)之间的相关性。(e)由低深度gs指示的纯合snv的比率(y轴)与由gs数据计算的纯合snv的比率(x轴)之间的相关性。(f)低深度gs数据中纯合snv的比率(y轴)与杂合snv的比率(x轴)之间的相关性。在每个图中,pearson相关系数的p值以红色示出。
[0048]
图9.具有杂合缺失区域中杂合snv比率降低的观察结果。在样品18c0241中报告了杂合缺失arr[grch37]1q23.1q25.2(158043081_176445395)x1 dn。(a)该样品中的5号染色体中的窗口之间的拷贝数的分布(由黑点表示)。在所有图中,x轴表示基因组位置,在图(a)中y轴表示拷贝数。在图(a)中,用一对线和受影响的条带的箭头示出了大的缺失。在同一样品中,低深度gs中杂合snv的标准化比率的分布(b)和杂合snv的比率的分布(c)均显示拷贝数缺失区中的降低的比率。在图(b)和(c)中,连续的杂合snv比率降低的区域用红色箭头表示,底部包括窗口的数量。
[0049]
图10.hg00733样品的2号染色体中aoh的检测。(a)该样品中的5号染色体中的窗口(由黑点表示)之间的拷贝数的分布。唯一的缺失由紫色箭头示出。在所有图中x轴表示基因组位置,图(a)中y轴表示拷贝数。通过低深度gs法,5号染色体上杂合snv标准化比率的分布(b)和纯合snv标准化比率的分布(c)。通过gs,5号染色体上杂合snv比率的分布(e)和纯合snv比率的分布(f)。在图(b)和(d)中,通过观察连续的杂合snv的降低比率来鉴定aoh(用红色箭头表示,其中窗口的数量包括在底部)。在图(c)和(e)中,具有连续的纯合snv的增加比率的区域(由蓝色箭头表示,窗口的数量包括在底部)。(f)亲本基因组差异在5号染色体上的分布。图(b-f)中的y轴示出了每个对应参数的比率。大aoh seq[grch37]2p23.2p21(29700000_42600000)x2 hmz的基因组区域由每个图中的一对绿色虚线显示。
[0050]
图11.在样品16c0836中的嵌合三体性事件中检测到aoh。(a)由低深度gs报告的拷贝数分布,窗口由黑点指示。结果证实,整个6号染色体增加了约40%(用蓝线表示)。图(a-d)中的x轴表示6号染色体上的基因组位置,在图(a)中,y轴表示拷贝数。图(b)至(d)分别显示了“胚系”杂合snv(ab)、纯合snv和“嵌合”杂合snv(aab/abb)的比率分布。在图(b)中,检测到aoh的候选区域由每对红色箭头和窗口数量指示,而在图(c)中,在图(b)中报告的那些区域内具有纯合snv的提高比率的窗口由每对蓝色箭头和窗口数量显示。在图(d)中,具有“嵌合”杂合snv增加的比率的候选区域由每对蓝色箭头和窗口数量显示。
[0051]
图12.在样品acgh15274中检测到aoh。(a)由低深度gs报告的拷贝数分布,窗口由黑点指示。图(a-e)中的x轴表示6号染色体上的基因组位置,在图(a)中,y轴表示拷贝数。图(b)至(d)分别显示了“胚系”杂合snv(ab)、纯合snv和“嵌合”杂合snv(aab/abb)的比率分布。在图(b)中,检测到aoh的候选区域由每对红色箭头和窗口数量指示,在图(c)中,图(b)中报告的那些区域内具有纯合snv的提高比率的窗口由每对蓝色箭头和窗口数量显示。在图(d)中,具有“嵌合”杂合snv的增加比率的候选区域由每对蓝色箭头和窗口数量显示。在图(e)中,y轴显示了在上线中的母系遗传基因型(黑点)和在下线中的父系遗传基因型(黑点)。如果母体/父本基因型的比率大于5,则中间线显示为红色,如果比率小于0.2,则中间线显示为蓝色。
[0052]
图13.不同类型snv在缺失和重复中的比率分布。(a)由低深度gs报告的拷贝数分布,窗口由黑点指示。cnv分析结果显示17ba0551中的缺失seq[grch37]del(8)(p23.3p23.2)chr8:g.101345523520del和重复seq[grch37]dup(8)(q22.1q24.3)chr8:g.98620704_146298884dup。图(a-d)中的x轴表示8号染色体上的基因组位置,而在(a)中,y轴表示拷贝数。(b)至(d)分别显示“胚系”杂合snv(ab)、纯合snv和“嵌合”杂合snv(aab/abb)的比率分布。在图(b)中,“胚系”杂合snv比率降低的候选区域由每对红色箭头和窗口数量指示,而在图(c)中,在图)b)中报告的那些区域中纯合snv比率增加的窗口由每对蓝色箭头和窗口数量显示。在(d)中,具有“嵌合”杂合snv的增加比率的候选区域由每对蓝色箭头和窗口数量显示。结果表明,在8p末端缺失时,所有比率均降低,而在8q末端重复时,“嵌合”杂合snv的的比率增加。
[0053]
发明详细描述
[0054]
现有的aoh检测方法通常需要从靶标测序(例如外显子组测序)或基因组测序(gs)(例如》30乘测序深度)进行测序。靶标测序方法只能应用于基因组的特定区域,而gs方法对于临床实践是昂贵的。
[0055]
还没有报道使用低深度方法的aoh检测。理想情况下,aoh检测的原理是鉴定具有共有碱基类型或表达为纯合碱基类型的区域。本领域技术人员通常理解,对于低深度方法,可能难以确定一个位点是真正地双等位基因突变(纯合的)还是由测序偏倚引起的参考等位基因缺失。同时,在具有aoh的区域中检测到“杂合snv”,这归因于高几率的错误比对。然而,当存在具有aoh的区域时,“杂合snv”的比率将降低。本技术的发明人开发了一种应用低深度gs来检测aoh的方法,本方法利用基因组或染色体上杂合snv的比率来代替鉴定杂合碱基类型或ab等位基因的缺失,因此完成了本技术中描述的各项发明。
[0056]
第一方面,本技术提供了检测来自个体的生物样品中杂合性缺失(aoh),例如拷贝数中性杂合性丢失(cn-loh)的方法,所述方法包括:
[0057]
(i)接收来自生物样品的基因组dna的低深度的序列读长;
[0058]
(ii)将序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与人类基因组参照比对的序列读长;
[0059]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0060]
(iv)从步骤(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0061]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0062]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0063]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0064]
(v)对于窗口,确定在步骤(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0065]
(vi)将由步骤(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0066]
在一些实施方案中,生物样品选自外周血、绒毛膜绒毛、羊水、脐带血、胎盘组织和来自器官的组织样品。在一些实施方案中,个体是怀孕的女性、婴儿、患有癌症的个体或怀疑患有癌症的个体。如本领域技术人员所理解的,aoh的检测可用于各种场景,例如产前遗传诊断、产后遗传诊断或甚至癌症遗传学。因此,本领域技术人员可以根据aoh检测的目的来确定候选个体或合适的生物样品。
[0067]
单端序列读长或双端序列读长(也称为“读长对”)均为本领域技术人员所熟知,且可合适地用于本技术中。
[0068]
与需要测序的gs相比,本技术中的低深度基因组测序可以具有较低的测序深度,例如3-5乘测序深度,例如3乘测序深度。
[0069]
用于比对步骤的合适的人类基因组参照是本领域技术人员可以选择的。在一个具体的实施方案中,人基因组参照是hg19/grch37或hg38/grch38。
[0070]
用于比对步骤的合适的人类基因组参照也可以由本领域技术人员选择,包括但不限于短寡核苷酸比对程序2(short oligonucleotide alignment program 2,soap2)或burrows-wheeler比对程序(bwa)和bowtie2。可以采用默认设置。
[0071]
在一些实施方案中,步骤(ii)还包括移除由于聚合酶链反应(pcr)重复而导致的序列读长。
[0072]
在一些实施方案中,步骤(iii)还包括删除如下所述的位点:
[0073]
(a)位点的最小读取深度由生物样品的最小读取深度确定;
[0074]
(b)位点的最大读取深度由生物样品的最大读取深度确定;或
[0075]
(c)没有序列读取支持突变碱基类型的位点。
[0076]
在一些实施方案中,步骤(v)中的窗口具有固定长度,例如100kb。
[0077]
在一些实施方案中,步骤(v)包括:
[0078]
确定所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量,
[0079]
确定所述生物样品中全部窗口中的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数,和
[0080]
通过用对所述窗口鉴定的纯合snv、二倍体杂合snv或为非二倍体杂合snv的数量除以所述生物样品中全部窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数来计算所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率。
[0081]
在一些实施方案中,对照群体具有与个体相同的性别。在一些实施方案中,对照群体具有至少30个对照个体。
[0082]
理论上,aoh被定义为当拷贝数为中性时(没有发生缺失),在二倍体染色体中的杂合性缺失或存在长片段纯合性。对于男性个体,只有常染色体是二体,而对于女性个体,常染色体和性染色体都是二体型。因此,对照群体可以包括与测试个体具有相同性别的对照个体。
[0083]
在一些实施方案中,步骤(vi)包括:
[0084]
将窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率相对于从对照群体建立的对应窗口的纯合snv,二倍体杂合snv或非二倍体杂合snv的平均比率进行标准化,从而提供所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的对应比率比值。
[0085]
在一些实施方案中,在步骤(vi)中,非二倍体杂合snv的增加的比率指示嵌合aoh(mosaic aoh),并且优选地,步骤(vi)进一步包括:
[0086]
在拷贝数嵌合重复表示为拷贝比大于1或拷贝数中性表示为拷贝比等于1的情况下,对于非二倍体杂合snv比率比值大于1的全部窗口,如果存在连续的非二倍体杂合snv比率比值大于1.15的多个窗口,则定义一个区域;和
[0087]
将所述区域报告为存在嵌合aoh。
[0088]
在一些实施方案中,在步骤(vi)中,二倍体杂合snv的降低的比率和纯合snv的提高的比率指示aoh,并且优选地,步骤(vi)进一步包括:
[0089]
在拷贝数中性表示为拷贝比等于1的情况下,对于二倍体杂合snv比率比值小于1的全部窗口,如果存在连续的二倍体杂合snv比率比值小于0.5的多个窗口并且纯合比率比值大于1.25的窗口的百分比为至少25%,则定义一个区域,并且任选地,如果二倍体杂合snv的比率比值大于0.5但小于1的窗口不超过一个,则将两个区域组合成一个区域;和
[0090]
将所述区域报告为存在aoh。
[0091]
在一些实施方案中,从对照群体建立的对应的各个窗口的杂合snv的平均比率通过以下确定:
[0092]
(ci)接收来自对照群体的对照个体的生物样品的基因组dna的低深度的序列读长;
[0093]
(cii)将所述序列读长与人类基因组参照比对,基于比对的染色体和基因组坐标,选择并分选与人类基因组参照比对的序列读长;
[0094]
(ciii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于所述人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0095]
(civ)从步骤(ciii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0096]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0097]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义
二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0098]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0099]
(cv)对于窗口,确定在步骤(civ)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0100]
(cvi)将来自全部对照个体的窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率平均化,从而提供对照群体的对应窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率。
[0101]
在一些实施方案中,所述方法还包括在步骤(cii)和(ciii)之间进行的性别确定步骤,其中x染色体,y染色体和整个基因组的比对比率被计算为分别与染色体/基因组比对的序列读长的数量除以人类参考基因组定义的长度,y染色体百分比被计算为y染色体的比对比率除以整个基因组的比对比率,若y染色体百分率大于0.05,则认为对照个体为男性。
[0102]
在一些实施方案中,基于性别确定步骤的结果,分别对男性和女性对照个体进行步骤(ciii)至(cvi)。
[0103]
在一些实施方案中,在步骤(cvi)中,如果对照个体之间窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率具有显著偏差,则所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率被计算为所述窗口及其侧翼窗口(例如,两个上游窗口和两个下游窗口)比率的平均值。
[0104]
作为非限制性实例,下文描述了从建立对照数据集到在案例样本中检测aoh的过程。
[0105]
建立对照数据集
[0106]
(i)比对
[0107]
对于每个样品,通过默认设置的比对软件[即,短寡核苷酸比对程序2(soap2),burrows-wheeler比对程序(bwa)和bowtie2]对单端读长或双端读长进行与人类基因组参照(例如grch37/hg19或grch38/hg38)的比对。选择与人类基因组参照比对的所有读长/读长对,并基于比对的染色体和坐标进行分类,然后移除由于聚合酶链反应(pcr)重复而导致的读长/读长对。将剩余的读长/读长对命名为处理后的读长/读长对,进行进一步分析。
[0108]
(ii)性别确定
[0109]
x染色体、y染色体和整个基因组的比对比率分别计算为与特定染色体/基因组比对的读长/读长对的数量除以长度(由人类参考基因组定义)。将y染色体百分比计算为y染色体的比对比率除以整个基因组的比对比率,并且如果y染色体百分比大于0.05,则认为案例是男性。在性别确定之后,独立从每个性别中选择最少30个案例用于对照构建。
[0110]
(iii)推定的单核苷酸变异(snv)判定
[0111]
来自步骤(i)的处理后的读长/读长对用作输入,用于通过来自samtools的mpileup模块来鉴定每个坐标中的比对结果。从每个位点,比对的信息可以呈现为:
[0112]
a.“.”是与人类基因组参照具有一致的碱基类型,并且比对的链是正链或“+”;
[0113]
b.“,”是与人类基因组参照具有一致的碱基类型,并且比对的链是负链或
“‑”
;
[0114]
c.“a”(使用碱基类型“a”作为实例)是具有不同于人类基因组参照的碱基类型的突变碱基类型,并且比对的链是正链或“+”;
[0115]
d.“a”(使用碱基类型“a”作为实例)具有与人类基因组参照的碱基类型不同的突变碱基类型,并且比对链是负链或
“‑”
。
[0116]
从每个位点,参照的染色体、坐标、碱基类型和比对信息进行推定的snv检测,可以删除下文描述的位点:
[0117]
a.每个“推定的”位点的最小读取深度由具体样本的最小读取深度确定。例如,当对于一个案例仅有3乘测序深度时,可以删除读取深度<3的那些位点。此外,假定测序读长深度服从正态分布,则具有极高读取深度的那些位点(例如>平均值+3sd(标准偏差))也可以被删除,因为它们很可能是由系统误差引起的;或
[0118]
b.没有支持突变碱基类型的读长;
[0119]
(iv)纯合或“胚系”/“嵌合”杂合snv比率
[0120]
可以使用基因组范围的固定窗口(例如100kb)。对于窗口wi,可以计数在步骤(iii)中鉴定的纯合或“胚系”/“嵌合”杂合snv hi/gi/mi的数量,而在一定样品中全部窗口中snv的对应类型的平均值将被计数为rh/rg/rm。对于wi,纯合或“胚系”/“嵌合”杂合snv rhi/rgi/rmi的比率可以计算为hi/gi/mi除以rh/rg/rm。
[0121]
为了建立对照数据集,对于每种性别,所有对照样本中窗口wi的平均比率可以计算为rhi/rgi/rmi的平均值,命名为nrhi/nrgi/nrmi。所有整个基因组中每个窗口的平均比率可以保留,用于将来案例样品基于群体的标准化。
[0122]
案例样品中aoh的检测
[0123]
(i)数据准备
[0124]
对于案例c,读长/读长对进行比对、分选、pcr重复的去除、性别确定、推定的snv判定和纯合或“胚系”/“嵌合”杂合snv确定的比率。
[0125]
然后,对于每个窗口wi,将纯合或“胚系”/“嵌合”杂合snv nrhi/nrgi/nrmi的比率相对于来自对应的性别对照队列(命名为nrhic/nrgic/nrmic)的该窗口的nrhia/nrgia/nrmia的平均值标准化。如果nrhic/nrgic/nrmic具有高偏差,则wi本身连同四个侧翼窗口(两个上游窗口和两个下游窗口)nrhic/nrgic/nrmic的平均值被指定为wi中的标准化比率。
[0126]
(ii)具有aoh的候选区域的筛查
[0127]
可以将推定的aoh定义为nrgic小于0.5的区域/窗口,并且选择nrgic小于0.5的窗口。
[0128]
(iii)断点测定
[0129]
对于所有具有小于0.5的nrgic的窗口,如果存在连续的nrgic小于0.5的多个窗口,则定义一个区域,而nrhic大于1.25的窗口的百分比应该大于25%。此外,如果只有小于一个窗口的nrgic大于0.5但小于1,则可以将两个区域组合在一起。具有aoh的最终区域可以在窗口/区域组合之后报告。该检测的分辨率可以小至2.5mb。
[0130]
第二方面,本技术提供了用于检测来自个体的生物样品中杂合性缺失(aoh)(例如拷贝数中性杂合性丢失(cn-loh))的计算机系统,所述计算机系统包括处理器和存储多个
指令的存储器,其中所述处理器在处理所述指令时被配置为:
[0131]
(i)接收来自所述生物样品的基因组dna的低深度的序列读长;
[0132]
(ii)将所述序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与所述人类基因组参照比对的序列读长;
[0133]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于所述人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0134]
(iv)从(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0135]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0136]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0137]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0138]
(v)对于窗口,确定在(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0139]
(vi)将由(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0140]
第三方面,本技术提供了计算机可读介质,所述计算机可读介质存储多个指令,其中所述多个指令在由一个或多个处理器执行时实施包括以下的操作:
[0141]
(i)接收来自个体的生物样品的基因组dna的低深度的序列读长;
[0142]
(ii)将所述序列读长与人类基因组参照比对,并且基于比对的染色体和基因组坐标,选择并分选与所述人类基因组参照比对的序列读长;
[0143]
(iii)鉴定比对的序列读长中的单核苷酸变异(snv),其中每个位点处的单核苷酸变异具有不同于所述人类基因组参照的对应位点处的碱基类型的突变碱基类型;
[0144]
(iv)从(iii)鉴定的snv中鉴定纯合snv、二倍体杂合snv或非二倍体杂合snv,其中
[0145]
基于支持突变碱基类型的序列读长的百分比为100%来定义纯合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0146]
基于支持突变碱基类型的序列读长的百分比为不小于25%且不大于75%来定义二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型,
[0147]
基于支持突变碱基类型的序列读长的百分比为小于25%且大于0%或大于75%且小于100%来定义非二倍体杂合snv,所述突变碱基类型不同于所述人类基因组参照的对应位点处的碱基类型;
[0148]
(v)对于窗口,确定在(iv)中鉴定的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率,其中纯合snv、二倍体杂合snv或非二倍体杂合snv的比率代表所述窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的数量与所述生物样品中全部窗口之间的纯合snv、二
倍体杂合snv或非二倍体杂合snv的平均数的比值;和
[0149]
(vi)将由(v)确定的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的比率与由对照群体建立的对应的各个窗口的纯合snv、二倍体杂合snv或非二倍体杂合snv的平均比率进行比较。
[0150]
第四方面,本技术提供了装置,其包括一个或多个处理器和第三方面所述的计算机可读介质。
[0151]
第一方面中所描述的特征或实施方案可应用于第二至第四方面或组合于第二至第四方面中。
[0152]
应当理解,本发明的任何实施方案可以使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用具有模块化或集成方式的一般可编程处理器的计算机软件以控制逻辑的形式来实现。在本文中,处理器包括单核处理器、在同一集成芯片上的多核处理器、或在单个电路板上的或联网的多个处理单元。基于本文提供的公开和教导,本领域普通技术人员能知道和理解使用硬件以及硬件和软件的组合来实现本发明的实施方案的其它方式和/或方法。本技术中描述的任何软件组件或功能可以被实现为由处理器使用任何合适的计算机语言(例如java、c、c++、c#、objective-c、swift或脚本语言(例如perl或python)使用例如常规或面向个体的技术)来执行的软件代码。软件代码可以作为一系列指令或命令存储在计算机可读介质上用于存储和/或传输。合适的非暂时性计算机可读介质可以包括随机存取存储器(ram),只读存储器(rom),诸如硬盘驱动器或软盘的磁介质,或诸如光盘(cd)或dvd(数字多功能盘)、闪存等的光学介质。计算机可读介质可以是这种存储或传输装置的任何组合。
[0153]
这种程序也可以使用适于通过符合各种协议(包括因特网)的有线、光学和/或无线网络进行传输的载波信号进行编码和传输。因此,根据本发明实施方案的计算机可读介质可以使用用这种程序编码的数据信号来创建。用程序代码编码的计算机可读介质可以与兼容装置包装在一起或者与其它装置分开提供(例如,经由因特网下载)。任何这样的计算机可读介质可以常驻在单个计算机产品上或其中(例如硬盘驱动器,cd或整个计算机系统),并且可以存在于系统或网络内的不同计算机产品上或其中。计算机系统可以包括监视器、打印机或其它合适的显示器,用于向用户提供本文所述的任何结果。
[0154]
本文描述的任何方法可以全部或部分地用包括一个或多个处理器的计算机系统来执行,所述处理器可以被配置为执行所述步骤。因此,实施方案可针对被配置为执行本文所述的任何方法的步骤的计算机系统,可能与执行分别的步骤或分别的步骤组的不同组件一起。尽管以编号的步骤表示,但本文的方法的步骤可以同时或以不同的顺序执行。另外,这些步骤的部分可以与来自其它方法的其它步骤的部分一起使用。此外,步骤的全部或部分可以是任选的。另外,可以用模块、单元、电路或用于执行这些步骤的其它装置来执行任何方法的任何步骤。
[0155]
在不脱离本发明实施方案的实质和范围的情况下,具体实施方案的具体细节可以以任何合适的方式组合。然而,本发明的其它实施方案可涉及与每个单独方面相关的具体实施方案或这些单独方面的具体组合。
[0156]
为了说明和描述的目的,已经给出了本发明的示例性实施方案的上述描述。并不是要穷举或将本发明限制于所描述的确切形式,并且根据以上教导,多种修改和变化是可
能的。
[0157]
在前面的描述中,出于解释的目的,已经阐述了多种细节,以便提供对本发明技术的各种实施方案的理解。然而,对于本领域的技术人员可以容易理解的是,某些实施方案可以在没有这些细节中的一些的情况下或者在额外的细节存在下来实践。
[0158]
已经描述了几个实施方案,本领域的技术人员能认识到,在不脱离本发明的实质的情况下,可以使用各种修改、替代结构和等同物。另外,为了避免不必要地模糊本发明,没有描述许多公知的过程和元件。另外,任何特定实施方案的细节可以不总是存在于实施方案的变型中,或者可以添加到其它实施方案中。
[0159]
在提供值的范围的情况下,应当理解,除非上下文另有清楚的规定,否则在该范围的上限和下限之间的每个居间值(至下限的单位的十分之一)也被具体地公开。在所述范围内的任何所述值或居间值与所述范围内的任何其它所述值或居间值之间的每个较小范围都涵盖在内。这些较小范围的上限和下限可以独立地包括或排除在该范围内,并且在较小范围内包括任一个或两个限值或两个限值均不包括的每个范围也包括在本发明内,服从所述范围内任何特别排除的限值。当所述范围包括所述限值中的一个或两个时,还包括排除所包括的限值中的一个或两个的范围。
[0160]
除非特别相反地指出,否则“一个(a)”、“一个(an)”或“所述(the)”的表述旨在表示“一个或多个”。除非特别相反地指出,否则“或”的使用旨在表示“包括性的或”,而不是“排他性的或”。
[0161]
将本文所提及的所有专利、专利申请、出版物和描述通过援引加入的方式整体并入本文,用于所有目的。并非承认它们中的任何一个是现有技术。
实施例
[0162]
方法
[0163]
个体登记和样品募集
[0164]
来自千人基因组项目[26]的三人组(先证者-父亲-母亲)的gs数据[双端126-bp,来自illumina平台(san diego,ca,美国),>30乘测序深度,下文称为gs]以及本研究中测序的50例具有增加的颈项透明层案例[双端100-bp,来自mgiseq-2000(mgi,bgi-深圳,深圳,中国)]用于对方法进行了开发和验证。此外,还募集来自10例由cma报告的aoh的12个dna样品用于低深度gs (~4乘测序深度)。从每个参与者获得书面知情同意书(表1)。对于两个案例也获得亲本dna样品(表1)。
[0165]
[0166]
[0167][0168]
dna制备和常规cma
[0169]
在测试时,使用dneasy blood&tissue试剂盒(货号:69506,qiagen,hilden,德国)
从绒毛膜绒毛、羊水或胎儿脐带血中提取基因组dna。用qubit dsdna hs分析试剂盒(invitrogen,carlsbad,ca)定量dna,并通过琼脂糖凝胶电泳评价dna完整性。
[0170]
对于常规的cma测试,我们使用了已经通过验证的定制化cma 8x60k胎儿dna芯片v2.0(agilent technologies,santa clara,ca,美国),包含snp和比较基因组杂交(cgh)探针[28,29]。根据制造商的方案进行实验。用cytogenomics软件进行cnv和aoh分析[28,29]。
[0171]
低深度gs
[0172]
用covaris s2聚焦超声波仪(covaris,inc.,woburn,ma,美国)将来自每个样本的100ng基因组dna打断到300~500bp的片段尺寸范围。文库构建方案包括末端修复、形成尾部带有a的片段、接头连接和pcr扩增。随后将pcr产物热变性,以形成单链dna,然后用dna连接酶环化。在构建dna纳米球之后,在mgiseq-2000平台(mgi)上对每个样品以约4乘测序深度的读取深度进行在每个末端100bp的双端测序[30]。为了评价再现性,对5个样品重复包括文库构建和测序的低深度gs(表1)。
[0173]
snv的数据分析与检测
[0174]
通过fastqc(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)评估双末端读长的qc,随后通过burrows-wheeler比对程序(bwa)与人类参照基因组(grch37/hg19)比对[31]。将比对文件转换格式,使用samtools去除怀疑由pcr重复导致的读长[32]。对于gs,用来自genome analysis toolkit(gatk,broad institute)的haplotypecallerv3.4进行snv检测[33],并通过annovar进行纯合和杂合snv的分类[34]。值得注意的是,由于gatk haplotypecaller模块检测到的snv是基于二倍体设置的,因此gs报告的所有杂合snv被分类为“胚系”杂合snv用于进一步分析。
[0175]
对于每组gs(>30乘测序深度),通过随机选择双端读长来模拟低深度gs(4乘测序深度)[24]。对于通过计算机模拟或测序的低深度gs数据,按照上述方法对双末端读长进行比对、格式转化、去除pcr重复。然后,通过来自samtools[32]的mpileup模块总结在每个基因组位点处具有基因型信息的映射读长的覆盖度,并且选择具有支持突变碱基类型的读长的位点并将其定义为snv。基于snv等位基因分数(vaf),将snv分类为三个类别,vaf被计算为支持突变碱基类型的读长的数量除以支持在该具体基因座中的读长的总数:(1)如果没有读长支持野生型等位基因(支持突变碱基类型的序列读长的百分比为100%),则定义纯合snv;(2)如果vaf不小于25%且不大于75%,则分类为“胚系”杂合snv;(3)如果vaf小于25%且大于0%或大于75%且小于100%,则检测到“嵌合”杂合snv。
[0176]
亲本基因组差异的计算
[0177]
对于从千人基因组项目下载gs数据的三人组,来自每个亲本样品的基因型信息也从gatk获得。其中两个亲本对于不同基因型是纯合的snv的数量被计数为具有固定窗口(100-kb大小)的pd,而检测到的snv的总数也被计数为相同窗口中的p
t
。在每个窗口中亲本基因组差异的比率计算为pd除以p
t
,得到p
dr
。
[0178]
不同类型snv的比率
[0179]
对于通过gs或低深度gs检测的每种snv,具有100-kb的固定窗口大小的纯合snv的基于群体的标准化比率计算如下:(1)对于具体窗口wi,基于基因组位点计数纯合snv的数量hi;(2)然后相对于该案例的全部窗口中的纯合snv的平均数来标准化hi,设置为rhi;以及(3)通过在该具体窗口中的所有案例的纯合snv的平均比率进一步标准化,并设置为nrhi。
分别以与nrhi相同的方式计算“胚系”杂合snv(nrgi)和“嵌合”杂合snv(nrmi)的基于群体的标准化比率。
[0180]
cnv和aoh检测
[0181]
基于我们以前的研究进行cnv检测[22,35]。由于使用从50bp的单末端读长产生的数据开发了内部参考队列,因此仅使用每对中的读长1(或命名为第一端)并修剪至50bp用于cnv分析。简言之,使用可调整的滑动窗口(50kb,具有5kb增量)来报告cnv的候选区域,并且使用可调整的非重叠窗口(5kb)来通过增量覆盖比方法来识别精确的边界。如果基于群体的u检验的p值小于0.0001,则报告罕见cnv。
[0182]
为了用gs检测aoh,如果连续的窗口具有小于0.4的nrgi,并且这些窗口中的50%具有大于1.25的nrhi,则报告aoh的区域。另外,如果两个候选区域(大于200-kb)被一个窗口(所述窗口的nrgi大于0.4但小于1)分开,则将这两个候选区域组合。基于来自人类细胞基因组命名国际系统(iscn,2016)的建议,报告》500kb的aoh最终区域。
[0183]
通过将nrgi设定为自身以及四个侧翼区(两个上游和两个下游)的平均值以得到fnrgi,而每个nrhi也设定为自身以及八个侧翼区(两个上游和两个下游)的平均值,以得到fnrhi,从而进行低深度gs的aoh检测。如果连续的窗口具有小于0.5的fnrgi,并且对于候选区域内的25%的窗口,fnrhi值大于1.25,则报告具有aoh的候选区域。此外,当在候选区域内存在具有小于0.5的连续nrgi值的区域并且25%的窗口具有大于1.25的nrhi时,执行精确边界的确定。另外,如果两个候选区域(大于200-kb)被一个窗口(所述窗口的nrgi值大于0.5但小于1)分开,则将这两个候选区域组合。根据iscn 2016也报告了>500kb的aoh最终区域。
[0184]
为了通过低深度gs检测嵌合三体性事件内的aoh,进一步将每个nrmi设定为自身以及四个侧翼区(两个上游和两个下游)的平均值,给出fnrmi。当尺寸>1-mb时,报告了具有大于1.15的连续nrmi的区域。
[0185]
亲本来源的确定
[0186]
对于已有亲本低深度gs的两个案例,用与先证者相同的方法对每一家系中的每一亲本进行snv检测。仅选择亲本对于不同基因型是纯合的位点。母体/父本来源的snv的数量,其被定义为具有至少一个与母体/父本一致的等位基因的先证者。在每个大小为1-mb的固定窗口中计算母体来源snv除以父体来源的比率,并报告具有极端值的区域(比率>5或<0.2)。
[0187]
定量荧光pcr
[0188]
按照我们先前研究中所述的制造商说明书[36],由低深度gs报告的6号染色体和15的亲本来源通过定量荧光pcr(qf-pcr)进一步验证,所述定量荧光pcr具有选自ucsc基因组浏览器的短串联重复(str)标记。
[0189]
aoh验证
[0190]
对于从1000genomes project下载的三人组gs数据,从ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/hd_genotype_chip/broad_intensities/下载来自snp阵列平台omni 2.5m(illumina)的原始数据(idat文件)[37],通过genomestudio(illumina)导入用于aoh检测,默认设置用于检测参数和分辨率(1-mb)[5]。
mb[5],表1)。另外,由于在cma平台的靶区域缺少足够的snp探针,低深度gs能够报告另外的隐秘aoh(图4)。在这些案例中,低深度gs报告了4例aoh影响多个染色体以及8例影响单个染色体(表1)。此外,为了评估本方法的可重复性,对12个样品中的5个样品进行完整实验的重复,包括文库构建、测序和数据分析。在相同的参数下,当分辨率设置为1.0-mb时,来自第一批的数据和重复的数据之间达到100%的一致性(图3e-f)。
[0203]
此外,在两个cvs样品中观察到“嵌合”杂合snv的比率增加和整个受影响的染色体上的嵌合三体性的共现(图6和图13)。这表明一个等位基因在整个受影响的染色体上的偏向分数,与cma的观察一致(图6b)。其中,案例(图6)具有绒毛样品18c1493、羊水(18c1564)和胎儿脐带血样品(acgh15274)。与绒毛的结果相比,羊水和胎儿脐带血样品均显示出二倍体6号染色体,但具有多处aoh(图5),可能是由upd产生[9]。为了确定单亲异二体型的存在,我们进一步对亲本进行低深度gs。af和胎儿脐带血样品的结果显示,一对二倍体6号染色体都是母体来源的(图6g),然后用str标记的qf-pcr证实。因此,在这一家族中对多种样品类型的完整研究证实了三体自救(trisomy resecue)的案例,并且也证明了通过低深度gs检测aoh的可靠性。此外,通过确认样品16c0067中为母源性的15号染色体的单亲二体性,进一步证实了通过低深度gs确定每个染色体/片段的母体来源的能力。
[0204]
此外,在血缘家族中进一步证明了在查明精确边界和报告隐秘aoh方面应用低深度gs的优点(表1)。由于17c1122的哥哥17c1176被诊断患有肌阵挛性癫痫发作、发育迟缓、构音障碍和躯干共济失调,其在12+2的孕周提交绒毛进行产前诊断。其哥哥的es鉴定了kctd7中的纯合变异nm_153033:c50t>a,导致具有/不具有细胞内包涵体的常染色体隐性进行性肌阵挛性癫痫-3(epm3,omim:611726),而该变异在未受影响的同胞17c1175中是杂合的。低深度gs和cma都检测到17c1176中的aoh区域seq[grch37]7q11.21q11.23(65500000_72400000)x2 hmz,涵盖kctd7,并且在17c1175中不存在该aoh(图7)。尽管cma在胎儿中没有报告涉及kctd7的aoh,但是在产前诊断时的sanger测序证实了17c1122中存在纯合野生型t。继续妊娠并最终获得正常的活产儿。通过盲检,低深度gs报告了17c1122中涉及kctd7的另外的1.2-mb aoh seq[grch37]7q11.21(65500000_66700000)x2 hmz(图7),证实了17c1122中纯合野生型t的存在是由这种小aoh导致的。我们进一步讨论了在这三个案例17c1122,17c1175和17c1176是否分别鉴定了基因型信息。17c1122中检测到具有6个支持读长的纯合野生型t;在17c1175中报告了具有三个读长的杂合碱基类型at,并且在17c1176中报告了具有七个读长的纯合突变体类型a。所有碱基判定与先前的sanger测序结果一致,证实了通过低深度gs鉴定具有精确基因型(杂合/纯合)的致病突变的可能性,尽管读取深度覆盖不如gs高。这进一步通过显示在16p11.2复发缺失综合征[38,39]中的半合子t-c-a单倍型(由于在该区域中缺少一个拷贝而平均三个支持读长)在低深度gs中的缺乏与gs提供的结果[27]一致来证实。
[0205]
总的来说,本研究显示了低深度gs在以显著更高的分辨率检测aoh中的稳健性,并检测到精确的边界和鉴别单亲异二体型和同二体型。
[0206]
讨论
[0207]
在本研究中,我们描述了通过低深度(gs,~4乘测序深度)来鉴定基因组范围内杂合性缺失(aoh)的稳健的平台中性方法。通过从53个案例与gs(>30乘测序深度)进行比较,我们的研究表明,用低深度gs检测aoh的灵敏性和特异性在1-mb的分辨率下达到>90.0%,
在1.4-mb的分辨率下达到100%。此外,在12个具有报告的aoh的临床样品中,本方法不仅证实了所有已知的aoh和报告的单亲异二体型和同二体型,而且还检测到了另外的隐秘aoh,提供精确基因型。在重复研究中,当分辨率设置为1.0-mb时,来自第一批的数据和重复的数据之间达到100%的一致性。总之,本研究证明了本方法在aoh检测中的稳健性和可重复性。
[0208]
在本研究中,杂合和纯合snv的比率主要用于检测aoh。支持性观察结果为亲本基因组差异与杂合snv的比率正相关,而与纯合snv的比率负相关。此外,利用gs和低深度gs之间杂合/纯合snv的比率的高度相关性,证明了使用低深度gs用于检测的可靠性(图2d-e)。此外,本方法不仅报告了13个aoh(>1-mb),与高密度snp阵列(具有总共2.5百万个探针)一致,而且在高度参考的案例hg00733[6,26]中检测到三个隐秘的新aoh(图12)。在由低深度gs报告的16个aoh的总数中,存在两个长度大于10-mb的aoh(图4和图11)。在这两个区域内,分别报告了7个和23个omim致病基因,包括常染色体显性基因(即sos1)和隐性基因(即cyp1b1)。尽管这两个aoh在推测正常的个体中被报告,但涉及omim致病基因基因强调了aoh检测的重要性,并且该发现表明了通过使用推测正常的个体(例如来自1000 genomes project)的数据来定义aoh谱的重要性。
[0209]
用带有cma报告的多处aoh12个临床样品验证,我们进一步证实了低深度gs和常规cma(5-mb,所使用的cma平台的最大分辨率)之间的aoh检测的100%一致性。此外,通过在涉及kctd7的产前案例中鉴定隐秘的1.2-mb aoh,证实了以较高分辨率检测aoh的重要性,由于大片段aoh的存在,kctd7中的纯合变异在年龄更大的同胞中引起严重的表型。此外,低深度gs也显示在该家族(胎儿和两个年龄更大的同胞)和在16p11.22复发的缺失综合征的半合子等位基因中提供精确基因型的可能性,尽管支持读长的数量是有限的。基于该增加的分辨率,我们能够鉴定已知携带印记基因的那些关键区域,例如影响prade-willi和angelman综合征的染色体15q11-q13上的2-mb结构域[40]。另外,对于具有亲本低深度gs结果的两个案例,我们证明了利用有限读取深度支持的基因型信息,确定亲本来源的可行性。利用这种信息,我们能够在存在单亲同二体型(aoh,图5g)的情况下鉴定受影响的染色体中的单亲异二体型(没有aoh)。
[0210]
本方法是测序平台中立的(可应用于从illumina和mgi产生的数据),并且不考虑测序读取长度(在从千人基因组项目下载的数据中为126bp,在本研究中测序的数据中为100bp),提供了将该测试整合到es或gs的测序运行中的可能性。目前,许多实验室提供了具有双端150bp测序的gs/es测试,达到aoh分析所需的约4乘测序深度所需的读长对的数量可以被设定为低至4百万,这表明这将是最具成本效益的测试之一。
[0211]
总的来说,本研究显示了将“胚系”/“嵌合”杂合和纯合snv的比率组合用于胚系和嵌合aoh的鉴定的可靠性。例如,将降低的“胚系”杂合snv比率和提高的纯合snv比率的组合用于鉴定aoh。此外,不同参数的组合将有助于cnv检测。例如,所有比率降低是由于杂合缺失,或在具有重复的区域中“嵌合”杂合snv的增加的比率。
[0212]
结论
[0213]
本研究描述了通过利用低深度gs(约4乘测序深度)以与常规cma和甚至高密度snp阵列相比显著更高的分辨率来检测aoh的稳健方法。此外,通过与gs和cma报告的结果相比,显示出低深度gs在aoh检测中的显著高一致性,我们的研究提供了在利用低深度gs进行常规遗传测试的场景下实施本方法的有力证据。
interpretation of structural variation in genomes and the future of clinical cytogenetics.genet med 2018,20(7):697-707.
[0238]
24.dong z,jiang l,yang c,hu h,wang x,chen h,choy kw,hu h,dong y,hu b et al:a robust approach for blind detection of balanced chromosomal rearrangements with whole-genome low-coverage sequencing.hum mutat 2014,35(5):625-636.
[0239]
25.redin c,brand h,collins rl,kammin t,mitchell e,hodge jc,hanscom c,pillalamarri v,seabra cm,abbott ma et al:the genomic landscape of balanced cytogenetic abnormalities associated with human congenital anomalies.nat genet 2017,49(1):36-45.
[0240]
26.chaisson mjp,sanders ad,zhao x,malhotra a,porubsky d,rausch t,gardner ej,rodriguez ol,guo l,collins rl et al:multi-platform discovery of haplotype-resolved structural variation in human genomes.nat commun 2019,10(1):1784.
[0241]
27.choy kw,wang h,shi m,chen j,yang z,zhang r,yan h,wang y,chen s,chau mhk et al:prenatal diagnosis of fetuses with increased nuchal translucency by genome sequencing analysis.biorxiv 2019:667311.
[0242]
28.leung ty,vogel i,lau tk,chong w,hyett ja,petersen ob,choy kw:identification of submicroscopic chromosomal aberrations in fetuses with increased nuchal translucency and apparently normal karyotype.ultrasound obstet gynecol 2011,38(3):314-319.
[0243]
29.huang j,poon lc,akolekar r,choy kw,leung ty,nicolaides kh:is high fetal nuchal translucency associated with submicroscopic chromosomal abnormalities on array cgh?ultrasound obstet gynecol 2014,43(6):620-624.
[0244]
30.huang j,liang x,xuan y,geng c,li y,lu h,qu s,mei x,chen h,yu t et al:a reference human genome dataset of the bgiseq-500 sequencer.gigascience 2017,6(5):1-9.
[0245]
31.li h,durbin r:fast and accurate short read alignment with burrows-wheeler transform.bioinformatics 2009,25(14):1754-1760.
[0246]
32.li h,handsaker b,wysoker a,fennellt,ruan j,homer n,marth g,abecasis g,durbin r,genome project data processing s:the sequence alignment/map format and samtools.bioinformatics 2009,25(16):2078-2079.
[0247]
33.mckenna a,hanna m,banks e,sivachenko a,cibulskisk,kernytsky a,garimella k,altshuler d,gabriel s,daly m et al:the genome analysis toolkit:a mapreduce framework for analyzing next-generation dna sequencing data.genome res 2010,20(9):1297-1303.
[0248]
34.wang k,li m,hakonarson h:annovar:funetional annotation of genetic variants from high-throughput sequencing data.nucleic acids res 2010,38(16):e164.
[0249]
35.dong z,xie w,chen h,xu j,wang h,li y,wang j,chen f,choy kw,jiang h:copy-number variants detection by low-pass whole-genome sequencing.curr protoc hum genet 2017,94:8 17 11-18 17 16.
[0250]
36.cheng yk,wong c,wong hk,leung ko,kwok yk,suen a,wang cc,leung ty,choy kw:the detection of mosaicism by prenatal bobs.prenat diagn 2013,33(1):42-49.
[0251]
37.delaneau o,marchini j,genomes project c,genomes project c:integrating sequence and array data to create an improved 1000 genomes project haplotype reference panel.nat commun 2014,5:3934.
[0252]
38.wu n,ming x,xiao j,wu z,chen x,shinawi m,shen y,yu g,liu j,xie h et al:tbx6 null variants and a common hypomorphic allele in conganital scoliosis.n engl j med 2015,372(4):341-350.
[0253]
39.liu j,wu n,deciphering disorders involving s,study co,yang n,takeda k,chen w,li w,du r,liu s et al:tbx6-associated congenital scoliosis(tacs)as a clinically distinguishable subtype of conganital scoliosis:further evidance supporting the compound inheritance and tbx6 gene dosage model.genet med 2019.
[0254]
40.perk j,makedonski k,lande l,cedar h,razin a,shemer r:the imprinting mechanism of the prader-willi/angelman regional control center.embo j 2002,21(21):5807-5814.