
用于分析核酸分子的方法和系统
1.交叉引用
2.本技术要求于2019年11月6日提交的美国临时专利申请第62/931,688号的权益,该申请通过引用整体并入本文。
3.序列表
4.本技术包含序列表,所述序列表已以ascii格式以电子方式提交并通过引用整体并入本文。所述ascii副本创建于2020年11月3日,命名为58626
‑
702_601_sl.txt,大小为307,199字节。
5.政府权利
6.本发明是在美国国立卫生研究院授予的ca233975、ca241076和ca188298下由政府支持完成的。美国政府对本发明享有一定的权利。
背景技术:7.可以基于细胞游离核酸(例如,细胞游离脱氧核糖核酸(cfdna)和细胞游离核糖核酸(cfrna))的分析来检测体细胞改变(例如,突变的核酸)的无创血液测试由于获得生物标本(例如生物体液)相对容易性而成为癌症筛查应用的有吸引力的候选者。循环肿瘤核酸(例如,ctdna或ctrna;即来源于癌性细胞的核酸)可以是许多癌症亚型中的敏感和特异的生物标志物。然而,目前从ctdna检测微小残留疾病(mrd)的方法可能受到一个或多个因素的限制,例如低输入dna量和高背景错误率。
8.最近的方法通过使用错误抑制测序(error
‑
suppressed sequencing)来跟踪多个体细胞突变来提高ctdna mrd性能,导致低至来自有限的cfdna输入的100,000中有4份(4/100,000)的检测限。在治疗期间或之后检测残留疾病是一种强大的工具,即使在放射学缓解期间,可检测到的mrd也代表了不良的预后体征。然而,目前的检测限可能不足以普遍检测注定疾病复发或进展的患者的残留疾病。这种“检测缺失”在弥漫性大b细胞淋巴瘤(dlbcl)中得到了体现,其中两个周期的治愈性治疗后的ctdna检测是一个强有力的预后标志物。尽管如此,几乎三分之一的经历疾病进展的患者没有在该界标处可检测到的ctdna,这代表了“假阴性”测试。在结肠癌和乳腺癌中观察到类似的假阴性率。
技术实现要素:9.本公开内容提供用于分析来自受试者的细胞游离核酸(例如,cfdna、cfrna)的方法和系统。本公开内容的方法和系统可以利用来源于受试者的测序结果来检测来源于癌症的核酸(例如,ctdna、ctrna)以用于例如疾病诊断、疾病监测或确定用于受试者的治疗。本公开内容的方法和系统可以表现出检测来源于癌症的核酸的增强的灵敏度、特异性和/或可靠性。
10.在一个方面,本公开内容提供了一种方法,包括:(a)通过计算机系统获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据;(b)通过计算机系统处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所述一个或多个
细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异(phased variant),其中一个或多个细胞游离核酸分子中的至少约10%包含被至少一个核苷酸隔开的多个定相变异的第一定相变异和多个定相变异的第二定相变异;和(c)通过计算机系统分析鉴别的一个或多个细胞游离核酸分子以确定受试者的病况。
11.在本文公开的任一方法的一些实施方案中,至少约10%的所述细胞游离核酸分子包含至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%或约100%的所述一个或多个细胞游离核酸分子。
12.在一个方面,本公开内容提供了一种方法,包括:(a)通过计算机系统获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据;(b)通过计算机系统处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所述一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异,所述多个定相变异被至少一个核苷酸隔开;和(c)通过计算机系统分析所鉴别的一个或多个细胞游离核酸分子以确定受试者的病况。
13.在一个方面,本公开内容提供了一种方法,包括:(a)获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据;(b)处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其检测限小于来自测序数据的约1/50,000个观察结果;和(c)分析所鉴别的一个或多个细胞游离核酸分子以确定受试者的病况。
14.在本文公开的任何一种方法的一些实施方案中,鉴别步骤的检测限小于来自测序数据的约1/100,000、小于约1/500,000、小于约1/1,000,000、小于约1/1,500,000或小于约1/2,000,000个观察结果。
15.在本文公开的任何一种方法的一些实施方案中,一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异。在本文公开的任何一种方法的一些实施方案中,多个定相变异的第一定相变异和多个定相变异的第二定相变异被至少一个核苷酸隔开。
16.在本文公开的任何一种方法的一些实施方案中,过程(a)至(c)通过计算机系统执行。
17.在本文公开的任何一种方法的一些实施方案中,基于核酸扩增生成测序数据。在本文公开的任何一种方法的一些实施方案中,基于聚合酶链式反应生成测序数据。在本文公开的任何一种方法的一些实施方案中,基于扩增子测序生成测序数据。
18.在本文公开的任何一种方法的一些实施方案中,基于下一代测序(ngs)生成测序数据。备选地,在本文公开的任何一种方法的一些实施方案中,基于非基于杂交的ngs生成测序数据。
19.在本文公开的任何一种方法的一些实施方案中,在不使用多个细胞游离核酸分子的至少一部分的分子条形码的情况下生成测序数据。在本文公开的任何一种方法的一些实施方案中,在不使用多个细胞游离核酸分子的至少一部分的样品条形码的情况下获得测序数据。
20.在本文公开的任何一种方法的一些实施方案中,在没有(i)背景错误或(ii)测序错误的计算机模拟去除或抑制的情况下获得测序数据。
21.在一个方面,本公开内容提供了一种治疗受试者的病况的方法,该方法包括:(a)
鉴别用于治疗病况的受试者,其中已基于一个或多个细胞游离核酸分子从获自或源自受试者的多个细胞游离核酸分子中的鉴别确定受试者患有所述病况,其中所鉴别的一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含被至少一个核苷酸隔开的多个定相变异,并且其中多个定相变异的存在指示受试者的病况;和(b)基于(a)中的鉴别使受试者接受治疗。
22.在一个方面,本公开内容提供了一种监测受试者的病况的进展的方法,该方法包括:(a)基于第一组的一个或多个细胞游离核酸分子从获自或源自受试者的第一多个细胞游离核酸分子中的鉴别确定受试者的病况的第一状态;(b)基于第二组的一个或多个细胞游离核酸分子从获自或源自受试者的第二多个细胞游离核酸分子中的鉴别确定受试者的病况的第二状态,其中在从受试者获得第一多个细胞游离核酸分子之后,从受试者获得第二多个细胞游离核酸分子;和(c)基于病况的第一状态和病况的第二状态确定病况的进展,其中一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含被至少一个核苷酸隔开的多个定相变异。
23.在本文公开的任何一种方法的一些实施方案中,病况的进展是病况的恶化。
24.在本文公开的任何一种方法的一些实施方案中,病况的进展是病况的至少部分缓解。
25.在本文公开的任何一种方法的一些实施方案中,多个定相变异的存在指示受试者的病况的第一状态或第二状态。
26.在本文公开的任何一种方法的一些实施方案中,在从受试者获得第一多个细胞游离核酸分子后至少约1周、至少约2周、至少约3周、至少约4周、至少约2个月或至少约3个月,从受试者获得第二多个细胞游离核酸分子。
27.在本文公开的任何一种方法的一些实施方案中,(i)在从受试者获得第二多个细胞游离核酸分子之前和(ii)在从受试者获得第一多个细胞游离核酸分子之后,使受试者接受针对病况的治疗。
28.在本文公开的任何一种方法的一些实施方案中,病况的进展指示受试者的病况的微小残留疾病。在本文公开的任何一种方法的一些实施方案中,病况的进展指示受试者的肿瘤负荷或癌症负荷。
29.在本文公开的任何一种方法的一些实施方案中,用一组核酸探针从多个细胞游离核酸分子中捕获一个或多个细胞游离核酸分子,其中所述一组核酸探针被配置为与包含一个或多个与病况相关的基因组区域的细胞游离核酸分子的至少一部分杂交。
30.在一个方面,本公开内容提供了一种方法,该方法包括:(a)提供包含(1)一组核酸探针和(2)获自或源自受试者的多个细胞游离核酸分子的混合物,其中核酸探针组中的个体核酸探针被设计为与靶细胞游离核酸分子的至少一部分杂交,所述靶细胞游离核酸分子相对于参考基因组序列包含被至少一个核苷酸隔开的多个定相变异,和其中个体核酸探针包含可活化报告剂,可活化报告剂的活化选自:(i)个体核酸探针与多个定相变异的杂交和(ii)已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交;(b)检测被活化的可活化报告剂,以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所述一个或多个细胞游离核酸分子中的每一个包含多个定相变异;和(c)分析所鉴别的一个或多个细胞游离核酸分子以确定受试者的病况。
31.在一个方面,本公开内容提供了一种方法,包括:(a)提供包含(1)一组核酸探针和(2)获自或源自受试者的多个细胞游离核酸分子的混合物,其中核酸探针组中的个体核酸探针被设计为与靶细胞游离核酸分子的至少一部分杂交,所述靶细胞游离核酸分子相对于参考基因组序列包含多个定相变异,和其中个体核酸探针包含可活化报告剂,可活化报告剂的活化选自:(i)个体核酸探针与多个定相变异的杂交和(ii)已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交;(b)检测被活化的可活化报告剂,以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所述一个或多个细胞游离核酸分子中的每一个包含多个定相变异,其中鉴别步骤的检测限小于多个细胞游离核酸分子的约1/50,000个细胞游离核酸分子;和(c)分析所鉴别的一个或多个细胞游离核酸分子以确定受试者的病况。
32.在本文公开的任何一种方法的一些实施方案中,鉴别步骤的检测限小于多个细胞游离核酸分子的约1/100,000、小于约1/500,000、小于约1/1,000,000、小于约1/1,500,000或小于约1/2,000,000个细胞游离核酸分子。
33.在本文公开的任何一种方法的一些实施方案中,多个定相变异的第一定相变异和多个定相变异的第二定相变异被至少一个核苷酸隔开。
34.在本文公开的任何一种方法的一些实施方案中,在个体核酸探针与多个定相变异杂交后,可活化报告剂被活化。
35.在本文公开的任何一种方法的一些实施方案中,在已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交后,可活化报告剂被活化。
36.在本文公开的任何一种方法的一些实施方案中,该方法还包括混合(1)核酸探针组和(2)所述多个细胞游离核酸分子。
37.在本文公开的任何一种方法的一些实施方案中,可活化报告剂是荧光团。
38.在本文公开的任何一种方法的一些实施方案中,分析所鉴别的一个或多个细胞游离核酸分子包括分析(i)所鉴别的一个或多个细胞游离核酸分子和(ii)多个细胞游离核酸分子中不包含多个定相变异的其他细胞游离核酸分子作为不同变量。
39.在本文公开的任何一种方法的一些实施方案中,对所鉴别的一个或多个细胞游离核酸分子的分析不基于多个细胞游离核酸分子中不包含多个定相变异的其他细胞游离核酸分子。
40.在本文公开的任何一种方法的一些实施方案中,来自所鉴别的一个或多个细胞游离核酸分子的多个定相变异的数量指示受试者的病况。在一些实施方案中,(i)来自一个或多个细胞游离核酸分子的多个定相变异的数量和(ii)来自一个或多个细胞游离核酸分子的单核苷酸变异(snv)的数量的比率指示受试者的病况。
41.在本文公开的任何一种方法的一些实施方案中,所鉴别的一个或多个细胞游离核酸分子中的多个定相变异的频率指示受试者的病况。在一些实施方案中,频率指示与病况相关的患病细胞。在一些实施方案中,病况是弥漫性大b细胞淋巴瘤,并且其中频率指示一个或多个细胞游离核酸分子是来源于生发中心b细胞(gcb)还是活化的b细胞(abc)。
42.在本文公开的任何一种方法的一些实施方案中,所鉴别的一个或多个细胞游离核酸分子的基因组来源指示受试者的病况。
43.在本文公开的任何一个方法的一些实施方案中,第一定相变异和第二定相变异相
隔至少2个、至少3个、至少4个、至少5个、至少6个、至少7个或至少至少8个核苷酸。在本文公开的任何一种方法的一些实施方案中,第一定相变异和第二定相变异相隔至多约180个、至多约170个、至多约160个、至多约150个或至多约140个核苷酸。
44.在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少约10%、至少约20%、至少约30%、至少约40%或至少约50%包含与相邻单核苷酸变异(snv)相隔至少2个核苷酸的snv。
45.在本文公开的任何一种方法的一些实施方案中,多个定相变异包括相同的细胞游离核酸分子内的至少3个、至少4个、至少5个、至少10个、至少15个、至少20个或至少25个定相变异。
46.在本文公开的任何一种方法的一些实施方案中,所鉴别的一个或多个细胞游离核酸分子包含至少2个、至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个或至少1,000个细胞游离核酸分子。
47.在本文公开的任何一种方法的一些实施方案中,参考基因组序列来源于参考群组。在一些实施方案中,参考基因组序列包含来自参考群组的共有序列。在一些实施方案中,参考基因组序列包含hg19人基因组、hg18基因组、hg17基因组、hg16基因组或hg38基因组的至少一部分。
48.在本文公开的任何一种方法的一些实施方案中,参考基因组序列来源于受试者的样品。
49.在本文公开的任何一种方法的一些实施方案中,样品是健康样品。在一些实施方案中,样品包含健康细胞。在一些实施方案中,健康细胞包括健康白细胞。
50.在本文公开的任何一种方法的一些实施方案中,样品是患病样品。在一些实施方案中,患病样品包括患病细胞。在一些实施方案中,患病细胞包括肿瘤细胞。在一些实施方案中,患病样品包括实体瘤。
51.在本文公开的任何一种方法的一些实施方案中,核酸探针组是基于通过比较(i)来自受试者的实体瘤、淋巴瘤或血液肿瘤的测序数据和(ii)来自受试者或健康群组的健康细胞的测序数据而鉴别的多个定相变异设计的。在一些实施方案中,健康细胞来自受试者。在一些实施方案中,健康细胞来自健康群组。
52.在本文公开的任何一种方法的一些实施方案中,核酸探针组被设计为与同病况相关的基因组基因座的序列的至少一部分杂交。在一些实施方案中,当受试者患有病况时,已知与病况相关的基因组基因座表现出异常的体细胞超突变。
53.在本文公开的任何一种方法的一些实施方案中,核酸探针组被设计为与(i)表1中鉴别的基因组区域、(ii)表3中鉴别的基因组区域或(iii)被鉴别为具有表3中的多个定相变异的基因组区域的至少约5%、至少约10%、至少约20%、至少约30%、至约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%或约100%杂交。
54.在本文公开的任一方法的一些实施方案中,核酸探针组的每个核酸探针与选自表6的探针序列具有至少约70%、至少约80%、至少约90%的序列同一性、至少约95%的序列同一性或约100%的序列同一性。
55.在本文公开的任何一种方法的一些实施方案中,核酸探针组包含至少约5%、至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少
约80%或至少约90%的表6中的探针序列。
56.在本文公开的任何一种方法的一些实施方案中,该方法还包括基于所鉴别的包含多个定相变异的一个或多个细胞游离核酸分子,确定受试者具有病况或确定受试者的病况的程度或状态。在一些实施方案中,该方法还包括基于进行所鉴别的一个或多个细胞游离核酸分子的统计模型分析,确定一个或多个细胞游离核酸分子来源于与病况相关的样品。在一些实施方案中,统计模型分析包括monte carlo统计分析。
57.在本文公开的任何一种方法的一些实施方案中,该方法还包括基于所鉴别的一个或多个细胞游离核酸分子监测受试者的病况的进展。
58.在本文公开的任何一种方法的一些实施方案中,该方法还包括执行不同的程序以确认受试者的病况。在一些实施方案中,不同的程序包括血液测试、基因测试、医学成像、体格检查或组织活检。
59.在本文公开的任何一种方法的一些实施方案中,该方法还包括基于所鉴别的一个或多个细胞游离核酸分子来确定对受试者的病况的治疗。
60.在本文公开的任何一种方法的一些实施方案中,受试者在(a)之前已经接受了针对病况的治疗。
61.在本文公开的任何一种方法的一些实施方案中,治疗包括化学疗法、放射疗法、化学放射疗法、免疫疗法、过继细胞疗法、激素疗法、靶向药物疗法、手术、移植、输血或医学监测。
62.在本文公开的任何一种方法的一些实施方案中,多个细胞游离核酸分子包含多个细胞游离脱氧核糖核酸(dna)分子。
63.在本文公开的任何一种方法的一些实施方案中,病况包括疾病。
64.在本文公开的任何一种方法的一些实施方案中,多个细胞游离核酸分子来源于受试者的身体样品。在一些实施方案中,身体样品包括血浆、血清、血液、脑脊液、淋巴液、唾液、尿液或粪便。
65.在本文公开的任何一种方法的一些实施方案中,受试者是哺乳动物。在本文公开的任何一种方法的一些实施方案中,受试者是人。
66.在本文公开的任何一种方法的一些实施方案中,病况包括赘生物、癌症或肿瘤。在一些实施方案中,病况包括实体瘤。在一些实施方案中,病况包括淋巴瘤。在一些实施方案中,病况包括b细胞淋巴瘤。在一些实施方案中,所述病况包括选自弥漫性大b细胞淋巴瘤、滤泡性淋巴瘤、伯基特淋巴瘤和b细胞慢性淋巴细胞白血病的b细胞淋巴瘤亚型。
67.在本文公开的任何一种方法的一些实施方案中,根据对先前肿瘤样品或细胞游离核酸样品进行测序,多个定相变异先前已被鉴别为肿瘤来源的。
68.在一个方面,本公开内容提供了一种包含诱饵组的组合物,所述诱饵组包含一组核酸探针,其被设计为捕获细胞游离dna分子,所述细胞游离dna分子来源于(i)表1中鉴别的基因组区域、(ii)表3中鉴别的基因组区域或(iii)被鉴别为具有表3中的多个定相变异的基因组区域中所示的至少约5%的基因组区域。
69.在本文公开的任何组合物的一些实施方案中,核酸探针组被设计成拉下细胞游离dna分子,所述细胞游离dna分子来源于(i)表1中鉴别的基因组区域、(ii)表3中鉴别的基因组区域或(iii)被鉴别为具有表3中的多个定相变异的基因组区域中所示的至少约10%、至
少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%或约100%的基因组区域。
70.在本文公开的任何组合物的一些实施方案中,核酸探针组被设计成捕获一个或多个细胞游离dna分子,所述一个或多个细胞游离dna分子来源于于(i)表1中鉴别的基因组区域、(ii)表3中鉴别的基因组区域或(iii)被鉴别为具有表3中的多个定相变异的基因组区域中所示的至多约10%、至多约20%、至多约30%、至多约40%、至多约50%、至多约60%、至多约70%、至多约80%、至多约90%或约100%的基因组区域。
71.在本文公开的任何组合物的一些实施方案中,诱饵组包含至多5个、至多10个、至多50个、至多100个、至多500个、至多1000个或至多2000个核酸探针。
72.在本文公开的任何组合物的一些实施方案中,核酸探针组中的个体核酸探针包含拉下标签(pull
‑
down tag)。
73.在本文公开的任何组合物的一些实施方案中,拉下标签包含核酸条形码。
74.在本文公开的任何组合物的一些实施方案中,拉下标签包含生物素。
75.在本文公开的任何组合物的一些实施方案中,每个细胞游离dna分子的长度为约100个核苷酸至约180个核苷酸。
76.在本文公开的任何组合物的一些实施方案中,基因组区域与病况相关。
77.在本文公开的任何组合物的一些实施方案中,当受试者患有该病症时,基因组区域表现出异常的体细胞超突变。
78.在本文公开的任何组合物的一些实施方案中,病况包括b细胞淋巴瘤。在一些实施方案中,所述病况包括选自弥漫性大b细胞淋巴瘤、滤泡性淋巴瘤、伯基特淋巴瘤和b细胞慢性淋巴细胞白血病的b细胞淋巴瘤亚型。
79.在本文公开的任何组合物的一些实施方案中,该组合物进一步包含获自或源自受试者的多个细胞游离dna分子。
80.在一个方面,本公开内容提供了一种对个体执行临床程序的方法,该方法包括:(a)获得或已经获得细胞游离核酸分子集合的靶向测序结果,其中细胞游离核酸分子的集合来源于个体的液体或废物活检,并且其中靶向测序是利用核酸探针拉下已知在b细胞癌中经历异常体细胞超突变的基因组基因座的序列进行的;(b)在细胞游离核酸测序结果中鉴别或已经鉴别了多个定相变异;(c)利用统计模型和所鉴别的定相变异确定或已经确定细胞游离核酸测序结果包含来源于赘生物的核苷酸;和(d)对个体执行临床程序,以基于确定细胞游离核酸测序结果包含可能来源于b细胞癌的核酸序列确认b细胞癌的存在。
81.在本文公开的任何组合物的一些实施方案中,活检是血液、血清、脑脊液、淋巴液、尿液或粪便中的一种。
82.在本文公开的任何组合物的一些实施方案中,基因组基因座选自:(i)表1中鉴别的基因组区域,(ii)表3中鉴别的基因组区域,或(iii)被鉴别为具有表3中的多个定相变异的基因组区域。
83.在本文公开的任何组合物的一些实施方案中,核酸探针的序列选自表6。
84.在本文公开的任何组合物的一些实施方案中,临床程序是血液测试、医学成像或体格检查。
85.在一个方面,本公开内容提供一种治疗个体的b细胞癌的方法,该方法包括:(a)获
得或已经获得细胞游离核酸分子集合的靶向测序结果,其中细胞游离核酸分子的集合来源于个体的液体或废物活检,并且其中靶向测序是利用核酸探针拉下已知在b细胞癌中经历异常体细胞超突变的基因组基因座的序列进行的;(b)在细胞游离核酸测序结果中鉴别或已经鉴别了多个定相变异;(c)利用统计模型和所鉴别的定相变异确定或已经确定细胞游离核酸测序结果包含来源于赘生物的核苷酸;和(d)基于确定细胞游离核酸测序结果包含来源于b细胞癌的核酸序列,治疗个体以减少b细胞癌。
86.在本文公开的任何组合物的一些实施方案中,活检是血液、血清、脑脊液、淋巴液、尿液或粪便中的一种。
87.在本文公开的任何组合物的一些实施方案中,基因组基因座选自:(i)表1中鉴别的基因组区域,(ii)表3中鉴别的基因组区域,或(iii)被鉴别为具有表3中的多个定相变异的基因组区域。
88.在本文公开的任何组合物的一些实施方案中,核酸探针的序列选自表6。
89.在本文公开的任何组合物的一些实施方案中,治疗是化学疗法、放射疗法、免疫疗法、激素疗法、靶向药物疗法或医学监测。
90.在一个方面,本公开内容提供了一种检测个体中的癌性微小残留疾病并治疗个体的癌症的方法,该方法包括:(a)获得或已经获得细胞游离核酸分子集合的靶向测序结果,其中细胞游离核酸分子的集合来源于个体的液体或废物活检,其中液体或废物活检是在一系列治疗后获得的,以检测微小残留疾病,并且其中靶向测序是利用核酸探针拉下经确定为含有多个定相变异的基因组基因座的序列进行的,所述基因组基因座的序列由来源于癌症的先前活检的先前测序结果所确定;(b)在细胞游离核酸测序结果中鉴别或已经鉴别了多个定相变异中的至少一组;和(c)基于确定细胞游离核酸测序结果包含来源于癌症的核酸序列,治疗个体以减少癌症。
91.在本文公开的任何组合物的一些实施方案中,液体或废物活检物是血液、血清、脑脊液、淋巴液、尿液或粪便中的一种。
92.在本文公开的任何组合物的一些实施方案中,治疗是化学疗法、放射疗法、免疫疗法、激素疗法、靶向药物疗法或医学监测。
93.在一个方面,本公开内容提供了一种计算机程序产品,该计算机程序产品包括在其中编码计算机可执行代码的非暂时性计算机可读介质,该计算机可执行代码经调整以适于被执行以实现本文公开的任一种方法。
94.在一个方面,本公开内容提供了一种系统,该系统包括一个或多个计算机处理器和与其耦合的计算机存储器,其中计算机存储器包括机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时实现本文公开的任一种方法。
95.根据以下详细描述,本公开内容的其他方面和优点对于本领域技术人员将变得明显,其中仅显示和描述了本公开内容的举例说明性实施方案。如将意识到的,本公开内容能够实现其他的和不同的实施方案,并且其若干细节能够在各种明显的方面进行修改,所有这些都不背离本公开内容。因此,附图和描述在本质上被认为是举例说明性的,而不是限制性的。
96.通过引用并入
97.本说明书中提及的所有出版物、专利和专利申请均以引用方式并入本文,其程度
就好像每个单独的出版物、专利或专利申请被具体地和单独地指示为通过引用并入一样。如果通过引用并入的出版物和专利或专利申请与包含在说明书中的公开内容相矛盾,则本说明书旨在取代和/或优先于任何此类矛盾的材料。
98.附图的简要说明
99.本发明的各种特征在所附权利要求中具体阐述。通过参考以下示出其中利用了本发明的原理的举例说明性实施方案的详细描述以及附图(本文也称为“图”和“附图”),将获得对本发明的特征和优点的更好理解,在所述附图中:
100.图1示出了通过全基因组测序数据的分析发现定相变异及其突变特征。图1a是一幅卡通画,描绘了在个体细胞游离dna分子上单核苷酸变异(snv)(上图)和多个“同相”变异(定相变异,pv;下图)的检测之间的差异。理论上,pv的检测是比孤立的snv的检测更特异的事件。图1b是一个散点图,显示了来自24种不同癌症组织学的wgs数据的pv数量的分布,通过snv的总数标准化。条形显示中值和四分位距。(fl
‑
nhl,滤泡性淋巴瘤;dlbcl
‑
nhl,弥漫性大b细胞淋巴瘤;伯基特
‑
nhl,伯基特淋巴瘤;肺
‑
scc,鳞状细胞肺癌;肺
‑
adeno,肺腺癌;肾
‑
rcc,肾细胞癌;骨
‑
osteosarc,骨肉瘤;肝
‑
hcc,肝细胞癌;乳腺
‑
adeno,乳腺腺癌;panc
‑
adeno,胰腺腺癌;头
‑
scc,头颈部鳞状细胞癌;卵巢
‑
adeno,卵巢腺癌;eso
‑
adeno,食道腺癌;子宫
‑
adeno,子宫腺癌;胃
‑
adeno,胃腺癌;cll,慢性淋巴细胞白血病;colorect
‑
adeno,结直肠腺癌;prost
‑
adeno,前列腺腺癌;cns
‑
gbm,多形性胶质母细胞瘤;panc
‑
endocrine,胰腺神经内分泌肿瘤;thy
‑
adeno,甲状腺腺癌;cns
‑
piloastro,毛细胞黏液样星形细胞瘤(piloastrocytoma);cns
‑
medullo,成神经管细胞瘤)。图1c是一个热图,展示了在多种癌症类型中pv相对单个snv的单碱基替换(sbs)突变特征的富集。蓝色代表在特定组织学中富集pv的特征;深灰色代表富集非定相的单个snv的特征;红色代表孤立发生的snv。仅显示在校正多个假设后在pv和非定相snv之间具有显著差异的特征;其他特征是灰色的。指示了与吸烟、aid/aicda和apobec相关的特征。图1d展示条形图,显示b淋巴样恶性肿瘤和肺腺癌中在基因组中的典型区域中pv的分布。在该图中,基因组被划分为1000bp的分箱(bins),并计算了每个1000bp的分箱中具有pv的给定组织学的样品的分数。仅显示在任何癌症亚型中至少具有2%复发频率的分箱。还标记了关键基因组基因座。图1e是双链体测序与定相变异测序的比较。该方案比较双链体测序相对定相变异的恢复的错误抑制测序。在双链体测序中,需要在原始dna双螺旋的两条链上观察到的单个snv的恢复(即反式)。这需要通过测序独立恢复两个分子,因为原始dna分子的正链和负链独立地经受文库制备和pcr。相比之下,pv的恢复需要在dna的同一条单链上观察到多个snv(即顺式)。因此,仅恢复正链或负链(而不是两者)就足以鉴别pv。
101.图2示出了定相变异富集测序的设计、验证和应用。图2a是phased
‑
seq的设计示意图。汇总了来自dlbcl肿瘤样品的wgs数据(左图),并鉴别了复发性假定pv的区域(中图)。然后设计了一种捕获最经常包含pv的基因组区域的测定(右图),导致与wgs相比pv中约7500倍的富集。右上图显示了对于递增的实验组尺寸(x轴),每千碱基的实验组尺寸的每个病例的pv的计算机模拟预期数量(y轴)。虚线显示了phased
‑
seq实验组中的选定区域。右下图显示对于递增的实验组尺寸(y轴),每个病例的预期pv总数(y轴,从wgs数据计算机模拟评估的)。黑色区域显示了phased
‑
seq实验组中的选定区域。图2b示出了两个图,显示了对于通过先前建立的淋巴瘤capp
‑
seq实验组或phased
‑
seq对肿瘤dna和匹配的种系进行测序的
snv(左)和pv(右)的产率;通过将wgs限制在感兴趣的靶标空间来计算机模拟评估值。右图中报告的pv包括双联体、三联体和四联体定相事件。图2c显示了来自capp
‑
seq相对phased
‑
seq的肿瘤和/或细胞游离dna的实验测序的snv(左)和pv(右)的产率,类似于图2b。图2d是散点图,显示了dlbcl患者(由wgs鉴别或由phased
‑
seq鉴别)的按基因组位置(以1000bp分箱)的pv频率。突出显示igh、bcl2、myc和bcl6中的pv。图2e示出了散点图,比较患有不同类型的淋巴瘤的患者的按基因组位置(以50bp分箱)的pv频率。彩色圆圈显示了来自感兴趣的特定基因的以50bp分箱的pv的相对频率;另一些(灰色)圆圈显示来自phased
‑
seq测序实验组的其余部分的以50bp分箱的pv的相对频率。图2f示出了火山图,总结了淋巴瘤类型之间特定基因的基因座(包括abc
‑
dlbcl相对gcb
‑
dlbcl(深灰色,左);pmbcl相对dlbcl(深灰色,中间);和hl相对dlbcl(深灰色,右))中pv相对频率的差异。x轴表示特定基因座中pv的相对富集,而y轴表示这种关联的统计显著性。(实施例10)。
102.图3示出了用于疾病检测的phased
‑
seq的技术性能。图3a示出了条形图,显示用于从具有递增程度的突变/非参考碱基的两个基因座(myc和bcl6)恢复合成的150bp寡核苷酸的杂交捕获测序的性能。误差条代表95%置信区间(不同样品中每个条件的n=3个重复)。图3b示出了展示来自在phased
‑
seq实验组上测序的12个健康对照细胞游离dna样品的不同类型错误抑制的背景错误率的图(实施例10)。“phased
‑
seq 2x”或“双联体”代表在同一dna分子上检测到两个同相突变;“phased
‑
seq 3x”或“三联体”代表在同一dna分子上检测到三个同相突变。图3c示出了条形图,显示了对于不同类型的错误抑制(包括条形码去重复、双链体测序和同相snv之间递增的最大距离的pv的恢复),来自12个细胞游离dna样品的测序数据的独特分子恢复的深度(例如,条形码介导的pcr重复去除后的深度)。图3d示出了显示snv之间最大距离小于x轴上显示的碱基对数量的pv的累积分数的条形图。图3e示出了显示模拟包含1x10
‑3至0.5x10
‑6的患者特异性肿瘤分数的细胞游离dna样品的有限稀释系列的结果的图;每个稀释度都使用来自3个独立患者样品的cfdna。使用用于恢复预期的肿瘤分数的多种错误抑制方法(包括ides、双链体测序和phased
‑
seq(均用于恢复双联体和三联体分子))分析相同的测序数据。点和误差条代表所考虑的三种患者特异性肿瘤突变的平均值、最小值和最大值。通过配对t检验比较<1:10,000的样品的观察到的和预期的肿瘤分数之间的差异。*,p<0.05,**,p<0.005,***,p<0.0005。图3f示出了展示用于在12个不相关的健康细胞游离dna样品和用于有限稀释系列的健康cfdna样品(n=13个总样品)中检测肿瘤特异性等位基因的背景信号的图。在每个样品中,来自3个患者样品的肿瘤特异性snv或pv用于图3e中所示的有限稀释实验,总共评估了39个评估。条形代表所有39个评估的算术平均值;通过wilcoxon秩和检验进行统计学比较。*,p<0.05,**,p<0.005,***,p<0.0005。图3g示出了显示根据简单二项式采样的具有给定数量的含pv区域的样品的理论检测率的图。该图是通过假设5000x(线)的独特测序深度以及来自3个区域(蓝色)到67个区域(紫色)的不同数量的独立150bp含pv区域生成的。置信度范围考虑4000
‑
6000x的深度;还假设了5%的假阳性率。图3h示出了显示在不同数量的含pv区域的情况下给定真实肿瘤分数(x轴)的样品的观察到的检测率(y轴)的图。对于从3到67个肿瘤报告基因区域的每个数量,150bp窗口的此数量从3个患者特异性pv报告基因列表中的每一个随机采样25次,并用于评估每个稀释度下的肿瘤检测。实心点代表“湿”稀释系列实验,而空心点代表计算机模拟稀释实验。点和误差条代表原始采样中使用的三个患者特异性的pv报告基因列表之间的平均值、最小值
和最大值。图3i示出了散点图,比较了来自图3g和图3h实验组中所示的稀释系列的样品的预测检测率相对观察到的检测率。在实施例10中提供了此实验的其他细节。
103.图4示出了在dlbcl中用于超灵敏疾病检测和反应监测的phased
‑
seq的临床应用。图4a示出了显示对一线免疫化疗有反应并随后在一线免疫化疗后复发的dlbcl患者的ctdna水平的图。通过capp
‑
seq测量的水平以深灰色圆圈显示,而通过phased
‑
seq测量的水平以浅灰色圆圈显示。空心圆圈代表通过capp
‑
seq检测不到的水平。图4b示出了单变量散点图,其显示了在微小疾病的时间点(即,在1或2个治疗周期之后)通过phased
‑
seq测量的临床样品的平均肿瘤等位基因分数。该图由通过标准capp
‑
seq检测到的样品相对未检测到的样品划分开;p值来自wilcoxon秩和检验。图4c示出了条形图,显示了在1或2个治疗周期后具有可通过capp
‑
seq检测到的ctdna的dlbcl患者的分数(深灰色条),以及在将phased
‑
seq添加到标准capp
‑
seq时具有可检测的疾病的其他患者的分数(中等灰色条)。p值表示在1或2个治疗周期后,在171个样品中,单独使用capp
‑
seq相对phased
‑
seq和capp
‑
seq的组合进行检测的fisher精确检验。图4d示出了瀑布图,显示了dlbcl患者在2个周期的一线治疗后通过capp
‑
seq测量的ctdna水平的变化。具有通过capp
‑
seq无法检测到的ctdna的患者显示为“nd”(“未检测到”),以较深颜色显示。条形的颜色还指示这些患者的最终临床结果。图4e示出了kaplan
‑
meier图,显示了2个周期后具有通过capp
‑
seq测量的检测不到的ctdna的52名dlbcl患者的无事件存活率。图4f示出了kaplan
‑
meier图,显示通过在该同一时间点(第3周期,第1天)通过phased
‑
seq进行的ctdna检测分层的图4e所示的52名患者(通过capp
‑
seq检测不到的ctdna)的无事件存活率。图4g示出了kaplan
‑
meier图,显示了在第3周期第1天通过ctdna分层的89名dlbcl患者的无事件存活率分为3层——未能实现主要分子反应的患者(深灰色),仍然具有通过phased
‑
seq和/或capp
‑
seq可检测到的ctdna的具有主要分子反应的患者(浅灰色),以及具有严格分子缓解的患者(通过phased
‑
seq和capp
‑
seq检测不到的ctdna;中等灰色)。
104.图5示出了来自wgs的不同癌症中的snv和pv的枚举。图5a
‑
c示出了单变量散点图,显示了来自24种不同癌症组织学的wgs数据的snv(图5a)、pv(图5b)和控制snv的总数的pv(图5c)的数量。条形显示中值和四分位距。(fl
‑
nhl,滤泡性淋巴瘤;dlbcl
‑
nhl,弥漫性大b细胞淋巴瘤;伯基特
‑
nhl,伯基特淋巴瘤;肺
‑
scc,鳞状细胞肺癌;肺
‑
adeno,肺腺癌;肾
‑
rcc,肾细胞癌;骨
‑
osteosarc,骨肉瘤;肝
‑
hcc,肝细胞癌;乳腺
‑
adeno,乳腺腺癌;panc
‑
adeno,胰腺腺癌;头
‑
scc,头颈部鳞状细胞癌;卵巢
‑
adeno,卵巢腺癌;eso
‑
adeno,食道腺癌;子宫
‑
adeno,子宫腺癌;胃
‑
adeno,胃腺癌;cll,慢性淋巴细胞白血病;colorect
‑
adeno,结直肠腺癌;prost
‑
adeno,前列腺腺癌;cns
‑
gbm,多形性胶质母细胞瘤;panc
‑
endocrine,胰腺神经内分泌肿瘤;thy
‑
adeno,甲状腺腺癌;cns
‑
piloastro,毛细胞黏液样星形细胞瘤;cns
‑
medullo,成神经管细胞瘤)。
105.图6示出了wgs中的定相和非定相snv中的突变特征的贡献(图6a
‑
6ww)。散点图显示了已建立的单碱基取代(sbs)突变特征对来自wgs的在pv中看到的snv(以深色显示)和在可能的定相关系之外看到的snv(以浅色显示)的贡献。这是针对24种癌症亚型的49种sbs突变特征呈现的。在多重假设检验校正后显示定相和非定相snv之间的贡献的显著差异的突变特征用*表示。这些图代表图1c中概括的原始数据。
106.图7示出了基因组中的典型区域中pv的分布。条形图显示了在多种癌症类型的基
因组中的典型区域中发生的pv的分布。在该图中,基因组被划分为1000bp的分箱,并计算了每个1000bp的分箱中具有pv的给定组织学样品的分数。仅显示在任何癌症亚型中至少具有2%复发频率的分箱。显示的组织学如图1e所示;还显示了dlbcl的活化b细胞(abc)和生发中心b细胞(gcb)亚型。
107.图8示出了淋巴恶性肿瘤中来自wgs的pv的数量和基因组位置。图8a示出了条形图,显示了基因组中反复包含dlbcl、fl、bl和cll的pv(分别为n=68、74、36和151)的独立1000bp区域的数量。图8b
‑
d示出了显示与特定基因的基因座相关的多种淋巴恶性肿瘤的pv频率的图,包括图8b:bcl2,图8c:myc,和图8d:id3。给定基因的转录物的位置在图下方以灰色显示;外显子以深灰色显示。*指示通过fisher精确检验(p<0.05),与所有其他组织学相比,在给定癌症组织学中具有显著更多pv的区域。图8e,类似于图8b
‑
d,这些图显示了淋巴瘤亚型中的pv频率。此处显示了abc和gcb亚型dlbcl(分别为n=25和25)的igh基因座,其由ighv、ighd和ighj部分组成。显示了ig部分的编码区域,包括ig恒定区和v基因。(dlbcl,弥漫性大b细胞淋巴瘤;fl,滤泡性淋巴瘤;bl,伯基特淋巴瘤,cll,慢性淋巴细胞白血病)。
108.图9示出了phased
‑
seq用于淋巴瘤中pv的恢复的性能。图9a示出了单变量散点图,显示与phased
‑
seq(右)相比,由先前报道的淋巴瘤capp
‑
seq实验组8(左)恢复的由wgs(n=79)鉴别的基因组中的所有pv的分数。图9b示出了使用先前建立的淋巴瘤capp
‑
seq实验组或phased
‑
seq实验组从wgs鉴别的每个病例的snv的预期产率。图9c示出了使用先前建立的淋巴瘤capp
‑
seq实验组或phased
‑
seq实验组从wgs鉴别的每个病例的pv的预期产率。来自三个独立的公开可用群组的数据显示在图9a
‑
9c中。图9d
‑
9f示出了显示在通过两种测定测序的16名患者中,与capp
‑
seq相比,通过phased
‑
seq的pv恢复的改善。这包括d)两个同相snv(例如,2x或“双联体pv”)、e)三个同相snv(3x或“三联体pv”)和f)四个同相snv(例如,4x或“四联体pv”)的改善。图9g
‑
9k示出了显示针对患有不同类型淋巴瘤的患者鉴别的snv和pv的数量的图。这些图显示了g)snv、h)双联体pv、i)三联体pv、j)四联体pv和k)所有pv的数量。*,p<0.05;**,p<0.01,***,p<0.001。(dlbcl,弥漫性大b细胞淋巴瘤;gcb,生发中心b细胞样dlbcl;abc,活化b细胞样dlbcl;pmbcl,原发性纵隔b细胞淋巴瘤;hl,霍奇金淋巴瘤)。
109.图10示出了abc
‑
dlbcl和gcb
‑
dlbc之间的pv的位置特异性差异(图10a
‑
10y)。类似于图2d,这些散点图比较了不同类型淋巴瘤患者的按基因组位置(以50bp分箱)的pv频率;在该图中,显示了abc
‑
dlbcl和gcb
‑
dlbcl之间的差异。红色圆圈显示了来自感兴趣的特定基因的以50bp分箱的pv的相对频率;另一些(灰色)圆圈显示来自phased
‑
seq测序实验组的其余部分的以50bp分箱的pv的相对频率。仅显示了在abc
‑
dlbcl和gcb
‑
dlbcl之间具有pv的统计学显著差异的基因。p值代表来自给定基因的50bp分箱针对所有其他50bp分箱的wilcoxon秩和检验;见实施例10。
110.图11示出了dlbcl和pmbcl之间的pv的位置特异性差异(图11a
‑
11x)。类似于图2d,这些散点图比较了不同类型淋巴瘤患者的按基因组位置(以50bp分箱)的pv频率;在该图中,显示了dlbcl和pmbcl之间的差异。蓝色圆圈显示了来自感兴趣的特定基因的以50bp分箱的pv的相对频率;另一些(灰色)圆圈显示来自phased
‑
seq测序实验组的其余部分的以50bp分箱的pv的相对频率。仅显示了在dlbcl和pmbcl之间具有pv的统计学显著差异的基因。p值代表来自给定基因的50bp分箱针对所有其他50bp分箱的wilcoxon秩和检验;见实施例10。
111.图12示出了dlbcl和hl之间的pv的位置特异性差异。类似于图2d,图12a
‑
12nn的散点图比较了不同类型淋巴瘤患者的按基因组位置(以50bp分箱)的pv频率;在该图中,显示了dlbcl和hl之间的差异。绿色圆圈显示了来自感兴趣的特定基因的以50bp分箱的pv的相对频率;另一些(灰色)圆圈显示来自phased
‑
seq测序实验组的其余部分的以50bp分箱的pv的相对频率。仅显示了dlbcl和hl之间具有pv的统计学显著差异的基因。p值代表来自给定基因的50bp分箱针对所有其他50bp分箱的wilcoxon秩和检验;见实施例10。
112.图13示出了在igh基因座中的突变中淋巴瘤类型之间的pv的差异。该图显示了对于不同类型b细胞淋巴瘤的@igh基因座中的来自phased
‑
seq的pv的频率。下方的轨迹显示了@igh基因座和基因部分的结构,包括ig恒定基因和v基因。下一个(概述)轨迹显示了来自wgs数据(icgc群组)的在该基因组区域中的pv的频率。其余轨迹显示了来自phased
‑
seq靶向测序数据的pv的频率,包括1)dlbcl、gcb
‑
dlbcl、abc
‑
dlbcl、pmbcl和hl。phased
‑
seq实验组靶向的区域显示在上图。带有在特定组织学中富集的pv的选定免疫球蛋白部分被标记(即ighv4
‑
34、sε、sγ3和sγ1)。
113.图14示出了通过杂交捕获测序的phased
‑
seq的技术方面。图14a显示了随着从参考基因组突变的碱基分数增加,基因组中的典型150聚体(150
‑
mer)的结合的理论能量的图。突变分布在整个150聚体中,聚集在序列的一端,聚集在序列的中间,或在整个序列中随机分布。点和误差条代表来自10,000次计算机模拟的中位数和四分位数范围。图14b示出了显示跨该研究中所有患者的phased
‑
seq实验组的151
‑
bp窗口的突变率的汇总度量的两个直方图的图。浅灰色直方图显示了本研究中所有患者在任何151bp窗口中突变的最大百分比;深灰色直方图显示了所有突变的151bp窗口中的第95个百分位突变率。图14c是显示本研究中所有患者的所有突变的151
‑
bp窗口的突变率的百分位的图。图14d示出了显示单个snv(左,“红色”)、双联体pv(中间,“黄色”)和三联体pv(右,“蓝色”)的相对错误率(作为log10(错误率))的热图。图14d表明基于多个定相变异(例如,双联体或三联体pv)的分析比基于单个snv的分析产生更低的错误率。此外,图14d表明,与基于较少数量的定相变异集(例如,标记为“黄色”的双联体pv)的分析相比,使用更多数量的定相变异集(例如,标记为“蓝色”的三联体pv)的分析产生更低的错误率。显示了使用多种错误抑制方法(包括条形码去重复、ides和双链体测序)进行测序的单个snv的错误率。错误率按突变类型汇总。在三联体pv的情况下,热图的x轴和y轴代表pv中的第一和第二类型的碱基变化;第三个变化是所有12个可能的碱基变化的平均值。图14e示出了显示作为组分snv之间的基因组距离的函数的双联体/2xpv的错误率的图。
114.图15和16示出了通过phased
‑
seq的ctdna定量与通过capp
‑
seq的ctdna定量的比较和临床应用。图15示出了通过标准capp
‑
seq(绿色)以及使用双联体(浅蓝色)、三联体(中蓝色)和四联体(深蓝色)的phased
‑
seq对来自107名大b细胞淋巴瘤患者的预处理样品的ctdna的检测率。还显示了ctdna检测的特异性。在下方的两个图中,显示了40个保留的健康对照cfdna样品的误检率。这两个图中每个条形的大小显示了所有107个病例中这40个保留的对照中患者特异性cfdna突变的检测率。图16a示出了总结使用如图a所示的双联体、三联体和四联体通过capp
‑
seq和phased
‑
seq在预处理样品中检测ctdna的灵敏度和特异性的表格。灵敏度在所有107个病例中计算,而特异性在40个保留对照样品中计算,对107个独立的患者特异性突变列表中的每一个进行评估,总共进行4280次独立测试。图16b示出了散点
图,其显示通过capp
‑
seq相对phased
‑
seq在个体样品中测量的ctdna的量(测量为log10(单倍体基因组当量/ml))。在rchop治疗的第1个周期之前(即预处理)、第2个周期之前和第3个周期之前采集的样品以独立的颜色显示(分别为蓝色、绿色和红色;总共278个样品)。无法检测的水平落在轴上。显示了spearman相关性和p值。
115.图17示出了两个周期的全身治疗后ctdna的检测。图17a示出了散点图,其显示了对于接受rchop治疗的患者,通过capp
‑
seq或phased
‑
seq测量的2个治疗周期后的ctdna的对数倍数变化(即,主要分子反应或mmr)。虚线显示对于mmr先前确定的ctdna 2.5
‑
对数减少的阈值。检测不到的样品落在轴上;相关系数表示通过capp
‑
seq和phased
‑
seq检测到的33个样品的spearman rho。图17b示出了总结通过phased
‑
seq相对capp
‑
seq在2个治疗周期后对ctdna样品的检测率的2
×
2表格。具有最终疾病进展的患者显示在下图中,而没有最终疾病进展的患者显示在上图中。图17c示出了条形图,其显示用于基于2个治疗周期后的capp
‑
seq(浅色)或phased
‑
seq(深色)针对24个月时的无事件存活对患者进行分类的接受者操作曲线下面积(auc)。显示了所有患者(n=89,左)和仅实现mmr的患者(n=69,右)的分类。图17d示出了显示通过使用capp
‑
seq(上图)或phased
‑
seq(下图)的ctdna检测分层的69名实现mmr的患者的无事件存活率的kaplan
‑
meier图。
116.图18示出了在一个周期的全身治疗后ctdna的检测。图18a示出了散点图,其显示了对于接受rchop治疗的患者,通过capp
‑
seq或phased
‑
seq测量的在1个治疗周期后ctdna的对数倍数变化(即早期分子反应或emr)。虚线显示对于emr先前确定的ctdna的2
‑
对数减少的阈值。检测不到的样品落在轴上;相关系数表示通过capp
‑
seq和phased
‑
seq检测到的45个样品的spearman rho。图18b示出了总结通过phased
‑
seq相对capp
‑
ceq在1个治疗周期后对ctdna样品的检测率的2
×
2表格。具有最终疾病进展的患者以红色显示,而没有最终疾病进展的患者以蓝色显示。图18c示出了条形图,其显示用于基于1个治疗周期后的capp
‑
seq(浅色)或phased
‑
seq(深色)针对24个月时的无事件存活率对患者进行分类的接受者操作曲线下面积(auc)。显示了所有患者(n=82,左)和仅实现emr的患者(n=63,右)的分类。图18d示出了kaplan
‑
meier图,其显示通过使用capp
‑
seq(上图)或phased
‑
seq(下图)的ctdna检测分层的63名实现emr的患者的无事件存活率。图18e示出了瀑布图,其显示dlbcl患者在1个周期的一线治疗后通过capp
‑
seq测量的ctdna水平的变化。具有通过capp
‑
seq无法检测到的ctdna的患者显示为“nd”(“未检测到”),以较深颜色显示。条形的颜色还指示这些患者的最终临床结果。图18f示出了kaplan
‑
meier图,其显示了在1个治疗周期后具有通过capp
‑
seq测量的检测不到的ctdna的33名dlbcl患者的无事件存活率。图18g示出了kaplan
‑
meier图,其显示通过在该同一时间点(第2周期,第1天)通过phased
‑
seq进行的ctdna检测分层的图18f所示的33名患者(通过capp
‑
seq检测不到的ctdna)的无事件存活率。图18h示出了kaplan
‑
meier图,其显示了在第2周期第1天通过ctdna分层的82名dlbcl患者的无事件存活率分为3层——未能实现早期分子反应的患者,仍具有可通过phased
‑
seq和/或capp
‑
seq检测到的ctdna的具有早期分子反应的患者,以及具有严格分子缓解的患者(通过phased
‑
seq和capp
‑
seq检测不到的ctdna)。
117.图19示出了其中phased
‑
seq将实现比基于pcawg数据(全基因组测序)(从其量化了不同肿瘤类型中的snv和定相变异(pv)的数量)跟踪snv的双链体测序更低的lod的患者分数。
118.图20示出了与全基因组测序数据的双链体测序相比,在肺癌(腺癌,缩写为“a”,和鳞状细胞癌,缩写为“s”)中获得的改善的lod。
119.图21示出了来自其中对肿瘤组织进行wgs并为5名实体瘤患者(5名肺癌患者)设计定制实验组以检查和比较定制capp
‑
seq相对phased
‑
seq的lod的实验的经验数据,显示在5/5患者中使用phased
‑
seq的约10x更低的lod。
120.图22a示出了比较使用定制capp
‑
seq和phased
‑
seq用于肺癌的疾病监测的原理证明示例患者小插图,显示了使用phased
‑
seq对复发的早期检测。
121.图22b示出了比较使用定制capp
‑
seq和phased
‑
seq用于乳腺癌的疾病早期检测的原理证明示例患者小插图,显示了使用phased
‑
seq对疾病的早期检测。
122.图23a
‑
23b示出了本文描述的方法(例如产生图3e和图3f所描绘的方法)不需要条形码介导的错误抑制。
123.图24示出了根据一个实施方案的基于检测测序结果中的循环肿瘤核酸序列对个体进行临床干预和/或治疗的过程的流程图。
124.图25a
‑
25c显示了基于一个或多个包含多个变异的细胞游离核酸分子来确定受试者的病况的方法的示例性流程图。
125.图25d显示了基于一个或多个包含多个变异的细胞游离核酸分子来治疗受试者的病况的方法的示例性流程图。
126.图25e显示了用于基于一个或多个包含多个变异的细胞游离核酸分子来确定受试者的病况的进展(例如,发展或消退)的方法的示例性流程图。
127.图25f和25g显示了基于一个或多个包含多个变异的细胞游离核酸分子来确定受试者的病况的方法的示例性流程图。
128.图26a和26b示意性地示出了用于鉴别一个或多个包含多个定相变异的细胞游离核酸分子的不同荧光探针。
129.图27示出了被编程或以其他方式配置以实施本文提供的方法的计算机系统。
具体实施方式
130.虽然本文已经示出和描述了本发明的各种实施方案,但是对于本领域技术人员将明显的是这些实施方案仅作为示例提供。在不脱离本发明的情况下,本领域技术人员可以想到多种变异、变化和替换。应当理解,可以采用对本文描述的本发明的实施方案的各种替代方案。
131.术语“约”或“大约”通常表示在特定值的可接受误差范围内,这可能部分取决于如何测量或确定该值,例如,测量系统的限制。例如,根据本领域的实践,“约”可以表示在1个或多于1个标准偏差之内。备选地,“约”可以表示给定值的多至20%、多至10%、多至5%或多至1%的范围。备选地,特别是就生物系统或过程而言,该术语可表示值的一定数量级之内,优选在5倍内,更优选在2倍内。在本技术和权利要求中描述特定值的情况下,除非另有说明,否则可以假定术语“约”表示在特定值的可接受误差范围内。
132.如本文可互换使用的,术语“定相变异”、“同相变异”、“pv”或“同相体细胞变异”通常是指在单个细胞游离核酸分子内顺式(即,在核酸分子的同一条链上)发生的两个或更多个突变(例如snv或插入缺失突变(indel))。在一些情况下,细胞游离核酸分子可以是细胞
游离脱氧核糖核酸(cfdna)分子。在某些情况下,cfdna分子可以来源于患病组织,例如肿瘤(例如,循环肿瘤dna(ctdna)分子)。
133.本文可互换使用的术语“生物样品”或“身体样品”通常是指来自受试者的组织或流体样品。生物样品可以直接从受试者获得。备选地,生物样品可以来源于受试者(例如,通过处理从受试者获得的初始生物样品)。生物样品可以是或可以包括一种或多种核酸分子,例如dna或核糖核酸(rna)分子。生物样品可以来源于任何器官、组织或生物流体。生物样品可以包括例如体液或实体组织样品。实体组织样品的一个实例是肿瘤样品,例如来自实体瘤活检。体液的非限制性实例包括血液、血清、血浆、肿瘤细胞、唾液、尿液、脑脊液、淋巴液、前列腺液、精液、乳汁、痰液、粪便、泪液和它们的衍生物。在一些情况下,如本文所公开的一个或多个细胞游离核酸分子可以来源于生物样品。
134.如本文所用,术语“受试者”通常是指任何动物、哺乳动物或人。受试者可以患有、可能患有或怀疑患有一种或多种病况,例如疾病。在一些情况下,受试者的病况可以是癌症、与癌症相关的一种或多种症状或关于癌症无症状或是未确诊的(例如,未诊断为癌症)。在一些情况下,受试者可能患有癌症,受试者可能表现出与癌症相关的症状,受试者可能没有与癌症相关的症状,或者受试者可能没有被诊断出患有癌症。在一些实例中,受试者是人。
135.本文可互换使用的术语“细胞游离dna”或“cfdna”通常是指在受试者的血流中自由循环的dna片段。细胞游离dna片段可具有双核小体保护(例如,片段大小为至少240个碱基对(“bp”))。这些具有双核小体保护的cfdna片段在核小体之间可能不被切割,导致更长的片段长度(例如,典型的大小分布集中在334bp附近)。细胞游离dna片段可以具有单核小体保护(例如,片段大小为小于240个碱基对(“bp”))。这些具有单核小体保护的cfdna片段可能在核小体之间被切割,导致更短的片段长度(例如,典型的大小分布集中在167bp附近)。
136.如本文所用,术语“测序数据”通常指核酸的“原始序列读数”和/或“共有序列”,例如细胞游离核酸或其衍生物。原始序列读数是dna测序仪的输出,并通常包括相同亲本分子的冗余序列(例如在扩增后)。“共有序列”是来源于旨在代表原始亲本分子的序列的亲本分子的冗余序列的序列。可以通过投票(其中序列中的每个多数核苷酸(例如,在给定碱基位置最常观察到的核苷酸)是共有核苷酸)或其他方法(例如与参考基因组进行比较)来产生共有序列。在某些情况下,共有序列可以通过用独特或非独特的分子标签标记原始亲本分子来产生,这允许通过跟踪标签和/或使用序列读取内部信息来跟踪后代序列(例如,扩增后)。
137.如本文所用,术语“参考基因组序列”通常是指与受试者的核苷酸序列进行比较的核苷酸序列。
138.如本文所用,术语“基因组区域”通常是指基因组的任何区域(例如,碱基对位置的范围),例如整个基因组、染色体、基因或外显子。基因组区域可以是连续区域或非连续区域。“基因的基因座”(或“基因座”)可以是基因组区域的一部分或全部(例如,基因、基因的一部分或基因的单个核苷酸)。
139.如本文所用,术语“可能性”通常是指概率、相对概率、存在或不存在或程度。
140.如本文所用,术语“液体活检”通常是指无创或微创实验室测试或测定(例如,生物
样品或细胞游离核酸的)。“液体活检”测定可以报告与受试者的病况相关的一种或多种标志物基因(例如,癌症或肿瘤相关标志物基因)的检测或测量(例如,次要等位基因频率、基因表达或蛋白质表达)。
141.a.引言
142.基因组dna的修饰(例如,突变)可以在受试者的一种或多种病况(例如疾病,例如癌症或肿瘤)的形成和/或进展中表现出来。本公开内容提供用于分析来自受试者的细胞游离核酸分子(例如cfdna)以确定受试者病况的存在或不存在、受试者诊断的病况的预后、受试者的病况随时间推移的进展、受试者诊断的病况的治疗性治疗或受试者的病况的预测的治疗结果的方法和系统。
143.细胞游离核酸(例如cfdna)的分析已经在例如产前检测、器官移植、传染病和肿瘤学中具有广泛的应用。在检测或监测受试者的疾病(例如癌症)的背景下,循环肿瘤dna(ctdna)可以是多种癌症类型中的敏感和特异性生物标志物。在一些情况下,ctdna可用于检测治疗(例如实体瘤的化疗或手术切除)后微小残留疾病(mrd)或肿瘤负荷的存在。然而,ctdna分析的检测限(lod)可能受到许多因素的限制,包括(i)来自典型血液采集的低输入dna量和(ii)测序的背景错误率。
144.在一些情况下,可以通过使用错误抑制测序跟踪多个体细胞突变来改善基于ctdna的癌症检测,例如,在使用现成的实验组或个性化测定时使用来自cfdna输入的100,000中约2份(约2/100,000)的lod。然而,在一些情况下,感兴趣的ctdna的当前lod可能不足以普遍检测注定疾病复发或进展的患者的mrd。例如,这种“检测缺失”可以在弥漫性大b细胞淋巴瘤(dlbcl)中得到例证。对于dlbcl,在仅两个周期的治愈性治疗后的中期ctdna检测可以代表主要分子反应(mmr),并且可以成为最终临床结果的强有力的预后标志物。尽管如此,使用现有技术(例如,通过深度测序进行癌症个性化分析(capp
‑
seq)),近三分之一最终经历疾病进展的患者在这个临时界标处没有可检测到的ctdna,因此代表了“假阴性”测量。通过替代方法,例如通过免疫球蛋白基因重排监测ctdna,在dlbcl患者中也观察到了如此高的假阴性率。因此,需要具有更高灵敏度的基于ctdna的癌症检测的改进方法。
145.在亲本dna双链体的两条互补链上都检测到的体细胞变异可用于降低ctdna检测的lod,从而有利地提高ctdna检测的灵敏度。由于检测单核苷酸变异(snv)需要两个一致事件,因此这种“双链体测序”可以减少背景误差特征谱。然而,单独的双链体测序方法可能会受到dna双链体的低效恢复率的限制,因为在所有恢复的分子中的少数分子中可能发生两条原始链的恢复。因此,对于起始样品量有限的真实世界ctdna检测而言,双链体测序可能是次优且低效的,其中来自实际血液体积的输入dna(例如,每个标准10毫升(ml)采血管约4,000至约8,000个基因组)是有限的,并且基因组的最大恢复是必不可少的。
146.因此,仍然存在对于以低lod(例如,从而产生高灵敏度)检测和分析ctdna以用于确定例如受试者的疾病的存在或不存在、疾病的预后、疾病的治疗和/或治疗的预测结果的显著未满足的需求。
147.b.用于确定或监测病况的方法和系统
148.本公开内容描述了用于检测和分析具有作为受试者病况的特征的多个定相变异的细胞游离核酸的方法和系统。在一些方面,细胞游离核酸分子可包含cfdna分子,例如ctdna分子。本文公开的方法和系统可以利用来源于受试者的多个细胞游离核酸分子的测
序数据来鉴别具有多个定相变异的多个细胞游离核酸分子的子集,从而确定受试者的病况。本文公开的方法和系统可以直接检测并在一些情况下拉下(或捕获)表现出多个定相变异的多个细胞游离核酸分子的这样的子集,从而在使用或不使用测序的情况下确定受试者的病况。本文公开的方法和系统可以降低在细胞游离核酸分子例如cfdna的检测和分析过程中经常涉及的背景错误率。
149.在一些方面,提供了用于细胞游离核酸测序和癌症检测的方法和系统。在一些实施方案中,细胞游离核酸(例如,cfdna或cfrna)可以从个体的液体活检中提取并准备用于测序。可以分析细胞游离核酸的测序结果以检测同相体细胞变异(即,定相变异,如本文所公开)作为循环肿瘤核酸(ctdna或ctrna)序列(即,衍生或来源于癌细胞的核酸)的指示。因此,在一些情况下,可以通过从个体中提取液体活检并对来源于该液体活检的细胞游离核酸进行测序以检测循环肿瘤核酸序列来检测个体中的癌症,并且循环肿瘤核酸序列的存在可以表明个体患有癌症(例如,特定类型的癌症)。在一些情况下,可以基于癌症的检测对个体确定和/或执行临床干预和/或治疗。
150.如本文所公开的,同相体细胞变异的存在可以强烈表明含有此类定相变异的核酸来源于具有病况的身体样品,例如癌细胞(或者备选地,核酸来源于获自或衍生自患有病况(例如癌症)的受试者的身体样品)。定相体细胞变异的检测可以提高细胞游离核酸检测方法的信噪比(例如,通过减少或消除虚假的“噪音”信号),因为定相突变不太可能会发生在大约是典型细胞游离核酸分子的大小(例如,约170bp或更小)的小的基因窗口内。
151.在一些方面,许多基因组区域可用作用于检测定相变异的热点区,尤其是在各种癌症例如淋巴瘤中。在一些情况下,酶(例如aid、apobec3a)可以典型地诱变特定基因和位置中的dna,导致特定癌症的发展。因此,可以捕获或靶向(例如,使用或不使用深度测序)来源于此类热点基因组区域的细胞游离核酸以用于癌症检测和/或监测。备选地,可以在先前从特定个体的癌源(例如,肿瘤)中检测到定相变异的区域上进行捕获或靶向测序,以检测该个体的癌症。
152.在一些方面,可以对细胞游离核酸进行捕获测序作为筛选诊断。在一些情况下,可以开发筛选诊断并用于检测具有定相变异的典型区域的癌症的循环肿瘤核酸。在一些情况下,对细胞游离核酸进行捕获测序作为诊断方法以检测mrd或肿瘤负荷,以确定在治疗期间或治疗后是否存在特定疾病。在一些情况下,可以对细胞游离核酸进行捕获测序作为诊断方法以确定治疗的进展(例如发展或消退)。
153.在一些方面,可以分析细胞游离核酸测序结果以检测定相体细胞单核苷酸变异(snv)或其他突变或变异(例如,插入缺失突变)是否存在于细胞游离核酸样品中。在一些情况下,特定体细胞snv或其他变异的存在可以指示循环肿瘤核酸序列,并因此指示受试者中存在肿瘤。
154.在一些情况下,可以在细胞游离核酸分子上同相检测到最少两个变异。在一些情况下,可以在细胞游离核酸分子上同相检测到最少三个变异。在一些情况下,可以在细胞游离核酸分子上同相检测到最少四个变异。在一些情况下,可以在细胞游离核酸分子上同相检测到最少五个或更多个变异。在一些情况下,在细胞游离核酸分子上检测到的定相变异数量越多,该细胞游离核酸分子来源于癌症的可能性就越大,这与检测来源于序列文库的分子制备或随机生物错误的体细胞变异的无害序列相反。因此,假阳性检测的可能性可以
随着分子内更多同相变异的检测而降低(例如,从而提高检测的特异性)。
155.在一些方面,可以分析细胞游离核酸测序结果以检测一个或多个核碱基的插入或缺失(即,插入缺失突变)是否存在于细胞游离核酸样品中,例如相对于参考基因组序列。不希望受理论束缚,在一些情况下,细胞游离核酸分子(例如,cfdna)中插入缺失突变的存在可以指示受试者的病况,例如疾病,例如癌症。在一些情况下,如本文所公开的,由于插入缺失突变导致的遗传变异可以被视为变异或突变,因此两个插入缺失突变可以被视为两个定相变异。在一些实例中,在细胞游离核酸分子内,来自第一插入缺失突变(第一定相变异)的第一遗传变异和来自第二插入缺失突变(第二定相变异)的第二遗传变异可以通过至少1个核苷酸彼此隔开。
156.在单个细胞游离核酸分子(例如单个cfdna分子)中,如本文所公开的,第一定相变异可以是snv并且第二定相变异可以是不同小核苷酸多态性的一部分,例如另一个snv或多核苷酸变异(mnv)的一部分。多核苷酸变异可以是存在于核酸分子的同一链中的两个或更多个(例如,至少2、3、4、5或更多个)相邻变异的簇。在一些情况下,第一定相变异和第二定相变异可以是单个细胞游离核酸分子内相同mnv的部分。在一些情况下,第一定相变异和第二定相变异可以来自单个细胞游离核酸分子内的两个不同的mnv。
157.在一些方面,可以利用统计方法来计算检测到的定相变异来自癌症而非随机或人工(例如,来自样品制备或测序错误)的可能性。在一些情况下,可以使用monte carlo采样方法来确定检测到的定相变异来自癌症而非随机或人工的可能性。
158.本公开内容的方面提供了具有多个定相变异的细胞游离核酸(例如,cfdna分子)(例如来自受试者的液体活检)的鉴别或检测。在一些情况下,多个定相变异的第一定相变异和多个定相变异的第二定相变异可以彼此直接相邻(例如,相邻的snv)。在一些情况下,多个定相变异的第一定相变异和多个定相变异的第二定相变异可以被至少一个核苷酸隔开。第一定相变异和第二定相变异之间的间距可受细胞游离核酸分子的长度限制。
159.在单个细胞游离核酸分子(例如单个cfdna分子)中,如本文所公开的,第一定相变异和第二定相变异可以彼此隔开至少或至多约1个核苷酸、至少或至多约2个核苷酸、至少或至多约3个核苷酸、至少或至多约4个核苷酸、至少或至多约5个核苷酸、至少或至多约6个核苷酸、至少或至多约7个核苷酸、至少或至多约8个核苷酸、至少或至多约9个核苷酸、至少或至多约10个核苷酸、至少或至多约11个核苷酸、至少或至多约12个核苷酸、至少或至多约13个核苷酸、至少或至多约14个核苷酸、至少或至多约15个核苷酸、至少或至多约20个核苷酸、至少或至多约25个核苷酸、至少或至多约30个核苷酸、至少或至多约35个核苷酸、至少或至多约40个核苷酸、至少或至多约45个核苷酸、至少或至多约50个核苷酸、至少或至多约60个核苷酸、至少或至多约70个核苷酸、至少或至多约80个核苷酸、至少或至多约90个核苷酸、至少或至多约100个核苷酸、至少或至多约110个核苷酸、至少或至多约120个核苷酸、至少或至多约130个核苷酸、至少或至多约140个核苷酸、至少或至多约150个核苷酸、至少或至多约160个核苷酸、至少或至多约170个核苷酸、或至少或至多约180个核苷酸。备选地或另外地,在单个细胞游离核酸分子内,第一定相变异和第二定相变异可以不或不需要被一个或多个核苷酸隔开,因此可以彼此直接相邻。
160.如本文公开的单个细胞游离核酸分子(例如单个cfdna分子)可以包含在同一分子内的至少或至多约2个定相变异、至少或至多约3个定相变异、至少或至多约4个定相变异、
至少或至多约5个定相变异、至少或至多约6个定相变异、至少或至多约7个定相变异、至少或至多约8个定相变异、至少或至多约9个定相变异、至少或至多约10个定相变异、至少或至多约12个定相变异、至少或至多约12个定相变异、至少或至多约13个定相变异、至少或至多约14个定相变异、至少或至多约15个定相变异、至少或至多约20个定相变异、或至少或至多约25个定相变异。
161.从获得的多个细胞游离核酸分子(例如,来自受试者的液体活检)来看,两个或更多个(例如,10个或更多、1,000个或更多、10,000个或更多)细胞游离核酸分子可以被鉴别为在每个被鉴别为包括多个定相变异的细胞游离核酸分子中具有平均至少或至多约2个定相变异、至少或至多约3个定相变异、至少或至多约4个定相变异、至少或至多约5个定相变异、至少或至多约6个定相变异、至少或至多约7个定相变异、至少或至多约8个定相变异、至少或至多约9个定相变异、至少或至多约10个定相变异、至少或至多约12个定相变异、至少或至多约12个定相变异、至少或至多约13个定相变异、至少或至多约14个定相变异、至少或至多约15个定相变异、至少或至多约20个定相变异、或至少或至多约25个定相变异。
162.在一些情况下,可以从受试者的生物样品(例如,实体瘤或液体活检)获得多个细胞游离核酸分子(例如,cfdna分子)。从多个细胞游离核酸分子中,可以鉴别至少或至多1个、至少或至多2个、至少或至多3个、至少或至多4个、至少或至多5个、至少或至多6个、至少或至多7个、至少或至多8个、至少或至多9个、至少或至多10个、至少或至多15个、至少或至多20个、至少或至多25个、至少或至多30个、至少或至多35个、至少或至多40个、至少或至多45个、至少或至多50个、至少或至多60个、至少或至多70个、至少或至多80个、至少或至多90个、至少或至多100个、至少或至多150个、至少或至多200个、至少或至多300个、至少或至多400个、至少或至多500个、至少或至多600个、至少或至多700个、至少或至多800个、至少或至多900个、至少或至多1,000个、至少或至多5,000个、至少或至多10,000个、至少或至多50,000个、或至少或至多100,000个细胞游离核酸分子,使得每个鉴别的细胞游离核酸分子包括多个定相变异,如本文所公开的。
163.在一些情况下,可以从受试者的生物样品(例如,实体瘤或液体活检)获得多个细胞游离核酸分子(例如,cfdna分子)。从多个细胞游离核酸分子中,可以从靶基因组区域(例如靶基因组基因座)鉴别至少或至多1个、至少或至多2个、至少或至多3个、至少或至多4个、至少或至多5个、至少或至多6个、至少或至多7个、至少或至多8个、至少或至多9个、至少或至多10个、至少或至多15个、至少或至多20个、至少或至多25个、至少或至多30个、至少或至多35个、至少或至多40个、至少或至多45个、至少或至多50个、至少或至多60个、至少或至多70个、至少或至多80个、至少或至多90个、至少或至多100个、至少或至多150个、至少或至多200个、至少或至多300个、至少或至多400个、至少或至多500个、至少或至多600个、至少或至多700个、至少或至多800个、至少或至多900个、或至少或至多1,000个细胞游离核酸分子,使得每个鉴别的细胞游离核酸分子包含多个定相变异,如本文所公开的。
164.图1a和1e示意性地示出了(i)包含snv的cfdna分子和(ii)包含多个定相变异的另一cfdna分子的实例。cfdna中鉴别出的每个变异可以表明cfnda从中来源的细胞中一个或多个基因突变的存在。在备选实施方案中,一个或多个定相变异可以是插入或缺失(插入缺失突变)而不是snv。
165.在一个方面,本公开内容提供一种用于确定受试者的病况的方法,如图25a中的流
程图2510所示。该方法可以包括(a)通过计算机系统获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据(过程2512)。该方法可以还包括(b)通过计算机系统处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所鉴别的一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异(过程2514)。在一些情况下,一个或多个细胞游离核酸分子的至少一部分可以包含多个定相变异的第一定相变异和多个定相变异的第二定相变异,它们被至少一个核苷酸隔开,如本文所公开的。该方法可以任选地包括(c)通过计算机系统分析所鉴别的一个或多个细胞游离核酸分子的至少一部分以确定受试者的病况(过程2516)。
166.在一些情况下,至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%、至少或至多约50%、至少或至多约60%、至少或至多约70%、至少或至多约80%、至少或至多约90%、至少或至多约95%、至少或至多约99%、或约100%的一个或多个细胞游离核酸分子可以包含多个定相变异的第一定相变异和多个定相变异的第二定相变异,它们被至少一个核苷酸隔开,如本文所公开的。在一些实例中,单个cfdna分子内的多个定相变异可包含(i)彼此间隔至少一个核苷酸的第一多个定相变异和(ii)彼此相邻的第二多个定相变异(例如,mnv内的两个定相变异)。在一些实例中,单个cfdna分子内的多个定相变异可以由彼此相隔至少一个核苷酸的定相变异组成。
167.在一个方面,本公开内容提供一种用于确定受试者的病况的方法,如图25b中的流程图2520所示。该方法可以包括(a)通过计算机系统获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据(过程2522)。该方法可以还包括(b)通过计算机系统处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中所述一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异(过程2524)。在一些情况下,如本文所公开的,多个定相变异的第一定相变异和多个定相变异的第二定相变异可以被至少一个核苷酸隔开。该方法可以任选地包括(c)通过计算机系统分析所鉴别的一个或多个细胞游离核酸分子的至少一部分以确定受试者的病况(过程2526)。
168.在一个方面,本公开内容提供一种用于确定受试者的病况的方法,如图25c中的流程图2530所示。该方法可以包括(a)获得来源于获自或源自受试者的多个细胞游离核酸分子的测序数据(过程2532)。该方法可以还包括(b)处理测序数据以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子,其中lod小于来自测序数据的约1/50,000个观察结果(或细胞游离核酸分子)(过程2534)。在一些情况下,一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列包含多个定相变异。该方法可以任选地包括(c)分析所鉴别的一个或多个细胞游离核酸分子的至少一部分以确定受试者的病况(过程2536)。
169.在一些情况下,如本文所公开的,鉴别一个或多个细胞游离核酸分子的操作的lod可以小于来自测序数据的约1/60,000、小于1/70,000、小于10/80,000、小于1/90,000、小于1/100,000、小于1/150,000、小于1/200,000、小于1/300,000、小于1/400,000、小于1/500,000、小于1/600,000、小于1/700,000、小于1/800,000、小于1/900,000、小于1/1,000,000、小于1/1,000,000、小于1/1,100,000、小于1/1,200,000、小于1/1,300,000、小于1/1,400,000、小于1/1,500,000或小于1/2,000,000个观察结果。
170.在一些情况下,所鉴别的一个或多个细胞游离核酸分子中的至少一种细胞游离核
酸分子可包含由至少一个核苷酸隔开的多个定相变异的第一定相变异和多个定相变异的第二定相变异,如本文所公开的。
171.在一些情况下,主题方法的操作(a)到(c)中的一个或多个可以通过计算机系统执行。在一个实例中,主题方法的所有操作(a)到(c)可以通过计算机系统执行。
172.如本文所公开的,测序数据可以从一种或多种测序方法获得。测序方法可以是第一代测序方法(例如,maxam
‑
gilbert测序、sanger测序)。测序方法可以是高通量测序方法,例如下一代测序(ngs)(例如,合成测序)。高通量测序方法可同时(或基本同时)测序至少约10,000、至少约100,000、至少约100万、至少约1000万、至少约1亿、至少约10亿或更多个多核苷酸分子(例如,细胞游离核酸分子或其衍生物)。ngs可以是任何代数的测序技术(例如,第二代测序技术、第三代测序技术、第四代测序技术等)。高通量测序方法的非限制性实例包括大规模平行特征测序、聚合酶克隆测序、焦磷酸测序、合成测序、组合探针锚合成(combinatorial probe anchor synthesis,cpas)、连接测序(例如,通过寡核苷酸连接和检测测序(solid)的测序)、半导体测序(例如ion torrent半导体测序)、dna纳米球测序和单分子测序、杂交测序。
173.在本文公开的任何一种方法的一些实施方案中,可以基于任何公开的利用核酸扩增的测序方法(例如聚合酶链式反应(pcr))获得测序数据。此类测序方法的非限制性实例可包括454焦磷酸测序、聚合酶克隆测序和solid测序。在一些情况下,对应于感兴趣的基因组区域(例如,与疾病相关的基因组区域)的扩增子(例如,如本文公开的获自或源自受试者的多个细胞游离核酸分子的衍生物))可以通过pcr生成,任选地合并,然后进行测序以生成测序数据。在一些实例中,因为感兴趣的区域在测序之前通过pcr扩增成扩增子,所以核酸样品已经富集感兴趣的区域,并因此可能不需要或没必要需要在测序(例如,基于非杂交的ngs)之前的任何额外的合并(例如,杂交)。备选地,还可以进行通过杂交的合并以用于在测序之前进行额外的富集。备选地,可以在不生成pcr拷贝的情况下获得测序数据,例如,通过cpas测序。
174.许多实施方案利用捕获杂交技术来进行靶向测序。在对细胞游离核酸进行测序时,为了提高特定基因组基因座上的分辨率,可以在测序前通过杂交捕获文库产物。捕获杂交在尝试从样品中检测特定基因组基因座的稀有和/或体细胞定相变异时特别有用。在一些情况下,稀有和/或体细胞定相变异的检测表明核酸的来源,包括来源于癌症来源的核酸。因此,捕获杂交是一种可以增强细胞游离核酸中的循环肿瘤核酸的检测的工具。
175.各种类型的癌症反复经历在特定基因组基因座中的异常体细胞超突变。例如,酶活化诱导的脱氨酶诱导b细胞异常体细胞超突变,导致各种b细胞淋巴瘤,包括(但不限于)弥漫性大b细胞淋巴瘤(dlbcl)、滤泡性淋巴瘤(fl)、伯基特淋巴瘤(bl)和b细胞慢性淋巴细胞白血病(cll)。因此,在许多实施方案中,探针被设计成拉下(或捕获)已知在淋巴瘤中经历异常体细胞超突变的基因组基因座。图1d和表1描述了在dlbcl、fl、bl和cll中经历异常体细胞超突变的许多区域。表6中提供了可用于拉下(或捕获)基因组基因座以检测b细胞癌中的异常体细胞超突变的核酸探针列表。
176.还可以利用设计用于检测个体癌症的存在的个性化核酸探针来进行捕获测序。可以对患有癌症的个体的癌症进行活检和测序,以检测在癌症中积累的体细胞定相变异。基于测序结果,根据多个实施方案,设计并合成能够拉下包括定相变异的位置的基因组基因
座的核酸探针。这些个性化设计并合成的核酸探针可用于从该个体的液体活检中检测循环肿瘤核酸。因此,个性化核酸探针可用于确定治疗反应和/或检测治疗后的mrd。
177.在本文公开的任何一种方法的一些实施方案中,可以基于利用衔接子的任何测序方法获得测序数据。核酸样品(例如,来自受试者的多个细胞游离核酸分子,如本文所公开的)可以与一种或多种用于识别(例如,通过杂交)样品的衔接子(或衔接子序列)或其任何衍生物(例如,扩增子)缀合。在一些实例中,核酸样品可用分子条形码标记,例如,使得多个细胞游离核酸分子中的每个细胞游离核酸分子可具有独特的条形码。备选地或另外地,核酸样品可以用样品条形码标记,例如,使得来自受试者的多个细胞游离核酸分子(例如,从受试者的特定身体组织获得的多个细胞游离核酸分子)可以具有相同的条形码。
178.在备选实施方案中,如本文所公开的,鉴别包含多个定相变异的一个或多个细胞游离核酸分子的方法可以在没有分子条形码化、没有样品条形码化或没有分子条形码化和样品条形码化的情况下进行,这至少部分是由于通过依赖于鉴别定相变异而不是例如单个snv而实现的高特异性和低lod。
179.在本文公开的任何一种方法的一些实施方案中,可以获得测序数据,并且不用计算机模拟去除或抑制(i)背景错误和/或(ii)测序错误而进行分析,这至少部分是由于通过依赖于鉴别定相变异而不是例如单个snv或插入缺失突变而实现的高特异性和低lod。
180.在本文公开的任何一种方法的一些实施方案中,使用多个变异作为条件来鉴别具有感兴趣的特定突变的靶细胞游离核酸分子而无需错误抑制的计算机模拟方法产生的背景错误率可以比(i)条形码去重复、(ii)集成的数字错误抑制或(iii)双链体测序的背景错误率低至少约5倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍、至少约100倍、至少约200倍、至少约400倍、至少约600倍、至少约800倍或至少约1,000倍。这种方法可以有利地提高鉴别具有感兴趣的特定突变的靶细胞游离核酸分子的信噪比(从而提高灵敏度和/或特异性)。
181.在本文公开的任何一种方法的一些实施方案中,增加作为鉴别具有感兴趣的特定突变的靶细胞游离核酸分子的条件所需的每个细胞游离核酸分子的定相变异最小数量(例如,从至少两个定相变异增加到至少三个定相变异)可以将背景错误率降低至少约5倍、至少约10倍、至少约20倍、至少约30倍,至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍或至少约100倍。这种方法可以有利地提高鉴别具有感兴趣的特定突变的靶细胞游离核酸分子的信噪比(从而提高灵敏度和/或特异性)。
182.在一个方面,本公开内容提供了一种治疗受试者的病况的方法,如图25d中的流程图2540所示。该方法可以包括(a)鉴别用于治疗病况的受试者,其中已基于一个或多个细胞游离核酸分子从获自或源自受试者的多个细胞游离核酸分子中的鉴别确定受试者患有所述病况(过程2542)。所鉴别的一个或多个细胞游离核酸分子中的每一个相对于参考基因组序列可包含多个定相变异。多个定相变异的至少一部分(例如,部分或全部)可以被至少一个核苷酸隔开,使得多个定相变异的第一定相变异和多个定相变异的第二定相变异由至少一个核苷酸隔开,如本文所公开的。在一些情况下,多个定相变异的存在指示受试者的病况(例如,疾病,例如癌症)。该方法可以还包括(b)基于步骤(a)使受试者接受治疗(过程2544)。在本公开内容的其他地方公开了受试者的病况的此类治疗的实例。
183.在一个方面,本公开内容提供了一种监测受试者的病况的进展(例如,发展或消
退)的方法,如图25e中的流程图2550所示。该方法可以包括(a)基于第一组的一个或多个细胞游离核酸分子从获自或源自受试者的第一多个细胞游离核酸分子中的鉴别,确定受试者的病况的第一状态(过程2552)。该方法可以还包括(b)基于第二组的一个或多个细胞游离核酸分子从获自或源自受试者的第二多个细胞游离核酸分子中的鉴别,确定受试者的病况的第二状态,其中在从受试者获得第一多个细胞游离核酸分子之后,从受试者获得第二多个细胞游离核酸分子(过程2554)。在从受试者获得第一组细胞游离核酸分子之后,可以从受试者获得第二组细胞游离核酸分子。该方法可以任选地包括(c)至少部分地基于病况的第一状态和病况的第二状态来确定病况的进展(例如,发展或消退)(过程2556)。在一些情况下,所鉴别的一个或多个细胞游离核酸分子中的每一个(例如,所鉴别的第一组一个或多个细胞游离核酸分子中的每一个,所鉴别的第二组一个或多个细胞游离核酸分子中的每一个)可以相对于参考基因组序列包含多个定相变异。如本文所公开的,所鉴别的一个或多个细胞游离核酸分子中的至少一部分(例如,部分或全部)可以被至少一个核苷酸隔开。在一些情况下,多个定相变异的存在可以指示受试者的病况的状态。
184.在一些情况下,可以获得(例如,通过血液活检)并分析来自受试者的第一多个细胞游离核酸分子以确定(例如,诊断)受试者的病况(例如,疾病,例如癌症)的第一状态。可以通过本文公开的任何方法(例如,使用或不使用测序)分析第一多个细胞游离核酸分子,以鉴别包含多个定相变异的第一组一个或多个细胞游离核酸分子,并且第一组一个或多个细胞游离核酸分子的存在或特征可用于确定受试者的病况的第一状态(例如,初始诊断)。基于所确定的病况的第一状态,受试者可以接受如本文公开的一种或多种治疗(例如,化学疗法)。在所述一种或多种治疗之后,可以从受试者获得第二多个细胞游离核酸分子。
185.在一些情况下,基于所确定的病况的第一状态,受试者可以接受至少或至多约1次治疗、至少或至多约2次治疗、至少或至多约3次治疗、至少或至多约4次治疗、至少或至多约5次治疗、至少或至多约6次治疗、至少或至多约7次治疗、至少或至多约8次治疗、至少或至多约9次治疗、或至少或至多约10次治疗。在一些情况下,基于所确定的病况的第一状态,受试者可以接受多次治疗,并且多次治疗中的第一次治疗和多次治疗中的第二次治疗可以相隔至少或至多约1天、至少或至多约7天、至少或至多约2周、至少或至多约3周、至少或至多约4周、至少或至多约2个月、至少或至多约3个月、至少或至多约4个月、至少或至多约5个月、至少或至多约6个月、至少或至多约12个月、至少或至多约2年、至少或至多约3年、至少或至多约4年、至少或至多约5年、或至少或至多约10年。受试者的多次治疗可以是相同的。备选地,多次治疗可以因药物类型(例如,不同的化疗药物)、药物剂量(例如,增加剂量、减少剂量)、联合治疗剂的存在或不存在(例如,化学疗法和免疫疗法)、施用模式(例如,静脉施用相对口服施用)、施用频率(例如,每天、每周、每月)等而不同。
186.在一些情况下,在确定病况的第一状态和确定病况的第二状态之间可以不并且不需要治疗受试者的病况。例如,在没有任何干预治疗的情况下,可以包含(例如,通过液体活检)来自受试者的第二多个细胞游离核酸分子,以确认受试者是否仍然表现出病况的第一状态的指征。
187.在一些情况下,可以在从受试者获得第一多个细胞游离核酸分子后至少或至多约1天、至少或至多约7天、至少或至多约2周、至少或至多约3周、至少或至多约4周、至少或至多约2个月、至少或至多约3个月、至少或至多约4个月、至少或至多约5个月、至少或至多约6
个月、至少或至多约12个月、至少或至多约2年、至少或至多约3年、至少或至多约4年、至少或至多约5年或至少或至多约10年获得(例如,通过血液活检)来自受试者的第二多个细胞游离核酸分子。
188.在一些情况下,可以随时间(例如,每月一次持续6个月,每两个月一次持续一年,每三个月一次持续一年,每6个月一次持续一年或多年等)获得包含多个核酸分子(例如,至少第一多个细胞游离核酸分子和第二多个细胞游离核酸分子)的至少或至多约2个、至少或至多约3个、至少或至多约4个、至少或至多约5个、至少或至多约6个、至少或至多约7个、至少或至多约8个、至少或至多约9个、或至少或至多约10个不同的样品,以监测受试者的病况的进展,如本文所公开的。
189.在一些情况下,基于病况的第一状态和病况的第二状态确定病况的进展的步骤可以包括比较病况的第一状态和第二状态的一个或多个特征,例如,(i)被鉴别为包含每个状态下(例如,每等重量或等体积的原始生物样品,每等数量的分析的初始细胞游离核酸分子等)的多个定相变异的细胞游离核酸分子的总数,(ii)每个被鉴别为包含多个定相变异(即,两个或多个定相变异)的细胞游离核酸分子的多个定相变异的平均数目,或(iii)被鉴别为包含多个定相变异的细胞游离核酸分子的数量除以包含与多个定相变异中的一些重叠的突变的细胞游离核酸分子的总数(即定相变异等位基因频率)。基于这样的比较,可以确定受试者的病况(例如,癌症或肿瘤)的mrd。例如,可以基于这样的比较来确定受试者的肿瘤负荷或癌症负荷。
190.在一些情况下,病况的进展可以是病况的发展或恶化。在一个实例中,病况的恶化可以包括癌症从早期阶段发展到晚期阶段,例如从i期癌症发展到iii期癌症。在另一个实例中,病况的恶化可包括实体瘤的大小(例如,体积)增加。然而在一个不同的实例中,病况的恶化可以包括癌症从受试者体内的一个位置转移到另一个位置。
191.在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数可以高于(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数至少或至多约0.1倍、至少或至多约0.2倍、至少或至多约0.3倍、至少或至多约0.4倍、至少或至多约0.5倍、至少或至多约0.6倍、至少或至多约0.7倍、至少或至多约0.8倍、至少或至多约0.9倍、至少或至多约1倍、至少或至多约2倍、至少或至多约3倍、至少或至多约4倍、至少或至多约5倍、至少或至多约6倍、至少或至多约7倍、至少或至多约8倍、至少或至多约9倍,至少或至多约10倍、至少或至多约15倍、至少或至多约20倍、至少或至多约30倍、至少或至多约40倍、至少或至多约50倍、至少或至多约60倍、至少或至多约70倍、至少或至多约80倍、至少或至多约90倍、至少或至多约100倍、至少或至多约200倍、至少或至多约300倍、至少或至多约400倍、或至少或至多约500倍。
192.在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数可以高于(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数至少或至多约0.1倍,至少或至多约0.2倍、至少或至多约0.3倍、至少或至多约0.4倍、至少或至多约0.5倍、至少或至多约0.6倍、至少或至多约0.7倍、至少或至多约0.8倍、至少或至多约0.9倍、至少或至多约1倍、至少或至多约2倍、至少或至多约3倍、至少或至多约4倍、至少或至多约5倍、至少或至多约6倍、至少或至多约7倍、至少或至多约8倍、至少或至多约9
倍、至少或至多约10倍、至少或至多约15倍、至少或至多约20倍、至少或至多约30倍、至少或至多约40倍、至少或至多约50倍、至少或至多约60倍、至少或至多约70倍、至少或至多约80倍、至少或至多约90倍、至少或至多约100倍、至少或至多约200倍、至少或至多约300倍、至少或至多约400倍、或至少或至多约500倍。
193.在一些情况下,病况的进展可以是病况的消退或至少部分缓解。在一个实例中,病况的至少部分缓解可以包括癌症从晚期阶段降级到早期阶段,例如从iv期癌症到ii期癌症。备选地,病况的至少部分缓解可以是癌症的完全缓解。在另一个实例中,病况的至少部分缓解可以包括实体瘤的大小(例如,体积)减小。
194.在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数可以低于(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数至少或至多约0.1倍、至少或至多约0.2倍、至少或至多约0.3倍、至少或至多约0.4倍、至少或至多约0.5倍、至少或至多约0.6倍、至少或至多约0.7倍、至少或至多约0.8倍、至少或至多约0.9倍、至少或至多约1倍、至少或至多约2倍、至少或至多约3倍、至少或至多约4倍、至少或至多约5倍、至少或至多约6倍、至少或至多约7倍、至少或至多约8倍、至少或至多约9倍,至少或至多约10倍、至少或至多约15倍、至少或至多约20倍、至少或至多约30倍、至少或至多约40倍、至少或至多约50倍、至少或至多约60倍、至少或至多约70倍、至少或至多约80倍、至少或至多约90倍、至少或至多约100倍、至少或至多约200倍、至少或至多约300倍、至少或至多约400倍、或至少或至多约500倍。
195.在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数量可以低于(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数量至少或至多约0.1倍、至少或至多约0.2倍、至少或至多约0.3倍、至少或至多约0.4倍、至少或至多约0.5倍、至少或至多约0.6倍、至少或至多约0.7倍、至少或至多约0.8倍、至少或至多约0.9倍、至少或至多约1倍、至少或至多约2倍、至少或至多约3倍、至少或至多约4倍、至少或至多约5倍、至少或至多约6倍、至少或至多约7倍、至少或至多约8倍、至少或至多约9倍、至少或至多约10倍、至少或至多约15倍、至少或至多约20倍、至少或至多约30倍、至少或至多约40倍、至少或至多约50倍、至少或至多约60倍、至少或至多约70倍、至少或至多约80倍、至少或至多约90倍、至少或至多约100倍、至少或至多约200倍、至少或至多约300倍、至少或至多约400倍、或至少或至多约500倍。
196.在一些情况下,在受试者的病况的两种状态之间,病况的进展可以保持基本相同。在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数可以与(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的细胞游离核酸分子的总数大致相同。在一些实例中,(i)来自受试者的病况的第二状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数量可以与(ii)来自受试者的病况的第一状态的被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数量大致相同。
197.在本文公开的任何一种方法的一些实施方案中,可以通过一种或多种测序方法从多个细胞游离核酸分子中鉴别包含多个定相变异的一个或多个细胞游离核酸分子。备选地或另外地,包含多个定相变异的一个或多个细胞游离核酸分子可以通过使用一组核酸探针
从多个细胞游离核酸分子中拉下(或从其中捕获)来鉴别。通过核酸探针组的拉下(或捕获)方法可以足以鉴别一个或多个感兴趣的细胞游离核酸分子而无需测序。在一些情况下,核酸探针组可以被配置为与来自与受试者的病况相关的一个或多个基因组区域的细胞游离核酸(例如,cfdna)分子的至少一部分杂交。因此,已被核酸探针组拉下的一个或多个细胞游离核酸分子的存在可以表明该一个或多个细胞游离核酸分子来源于该病况(例如,ctdna或ctrna)。核酸探针组的其他细节在本公开内容的其他地方公开。
198.在本文公开的任何一种方法的一些实施方案中,基于来源于获自或源自受试者的多个细胞游离核酸分子(例如,cfdna)的测序数据,(i)被鉴别为包含多个定相变异的一个或多个细胞游离核酸分子可以在计算机模拟中与(ii)未被鉴别为包含多个定相变异的一个或多个其他细胞游离核酸分子(或不包含多个定相变异的一个或多个其他细胞游离核酸分子)分离。在一些情况下,方法还可以包括生成额外的数据,该额外的数据包含仅(i)被鉴别为包含多个定相变异的一个或多个细胞游离核酸分子的测序信息。在一些情况下,方法还可以包括生成不同的数据,该不同的数据包含仅(ii)未被鉴别为包含多个定相变异的一个或多个其他细胞游离核酸分子(或不包含多个定相变异的一个或多个其他细胞游离核酸分子)的测序信息。
199.在一个方面,本公开内容提供一种用于确定受试者的病况的方法,如图25f中的流程图2560所示。该方法可以包括(a)提供包含(1)一组核酸探针和(2)获自或源自受试者的多个细胞游离核酸分子的混合物(过程2562)。在一些情况下,核酸探针组中的个体核酸探针可以设计为与相对于参考基因组序列包含被至少一个核苷酸隔开的多个定相变异的靶细胞游离核酸分子杂交。因此,如本文所公开的,多个定相变异的第一定相变异和多个定相变异的第二定相变异可以被至少一个核苷酸隔开。在一些情况下,个体核酸探针可包含可活化报告剂。可活化报告剂可以通过以下任一方式活化:(i)个体核酸探针与多个定相变异的杂交,和(ii)已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交。该方法可以还包括(b)检测被活化的报告剂,以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子(过程2564)。所述一个或多个细胞游离核酸分子中的每一个可包含多个定相变异。该方法可以任选地包括(c)分析所鉴别的一个或多个细胞游离核酸分子的至少一部分以确定受试者的病况(过程2566)。
200.在一个方面,本公开内容提供一种用于确定受试者的病况的方法,如图25g中的流程图2570所示。该方法可以包括(a)提供包含(1)一组核酸探针和(2)获自或源自受试者的多个细胞游离核酸分子的混合物(过程2572)。在一些情况下,核酸探针组中的个体核酸探针可以被设计为与相对于参考基因组序列包含多个定相变异的靶细胞游离核酸分子杂交。在一些情况下,个体核酸探针可包含可活化报告剂。可活化报告剂可以通过以下任一方式活化:(i)个体核酸探针与多个定相变异的杂交,和(ii)已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交。该方法可以还包括(b)检测被活化的报告剂,以鉴别多个细胞游离核酸分子中的一个或多个细胞游离核酸分子(过程2574)。所述一个或多个细胞游离核酸分子中的每一个可包含多个定相变异,并且鉴别步骤的lod可小于多个细胞游离核酸分子的约1/50,000个细胞游离核酸分子,如本文所公开的。该方法可以任选地包括(c)分析所鉴别的一个或多个细胞游离核酸分子的至少一部分,以确定受试者的病况(过程2576)。
201.在一些情况下,如本文公开的,多个定相变异的第一定相变异和多个定相变异的
第二定相变异被至少一个核苷酸隔开。
202.在一些情况下,如本文所公开的,鉴别一个或多个细胞游离核酸分子的步骤的lod可以小于多个细胞游离核酸分子中的约1/60,000、小于1/70,000、小于10/80,000、小于1/90,000、小于1/100,000、小于1/150,000、小于1/200,000、小于1/300,000、小于1/400,000、小于1/500,000、小于1/600,000、小于1/700,000、小于1/800,000、小于1/900,000、小于1/1,000,000、小于1/1,000,000、小于1/1,100,000、小于1/1,200,000、小于1/1,300,000、小于1/1,400,000、小于1/1,500,000、小于1/2,000,000、小于1/2,500,000、小于1/3,000,000、小于1/4,000,000或小于1/5,000,000个细胞游离核酸分子。通常,具有较低lod的检测方法具有此类检测的更高的灵敏度。
203.在本文公开的任何一种方法的一些实施方案中,该方法可以还包括混合(1)核酸探针组和(2)多个细胞游离核酸分子。
204.在本文公开的任何一种方法的一些实施方案中,核酸探针的可活化报告剂可在个体核酸探针与多个定相变异杂交后活化。此类核酸探针的非限制性实例可包括分子信标、eclipse探针、amplifluor探针、scorpions pcr引物和光延伸荧光pcr引物(lux引物)。
205.例如,核酸探针可以是分子信标,如图26a所示。分子信标可以是荧光标记的(例如,染料标记的)寡核苷酸探针,其包含与在包含多个定相变异的区域中的靶细胞游离核酸分子2603的互补性。分子信标的长度可为约25个核苷酸至约50个核苷酸。分子信标也可以设计成部分自互补的,从而形成具有茎2601a和环2601b的发夹结构。分子信标探针的5'和3'末端可以具有形成茎结构2601a的互补序列(例如,约5
‑
6个核苷酸)。可以将发夹的环部分2601b设计为与包含两个或更多个定相变异的靶序列的一部分(例如,约15
‑
30个核苷酸)特异性杂交。发夹可以设计为与包含至少2、3、4、5或更多个定相变异的部分杂交。荧光报告分子可以附接到分子信标探针的5'端,淬灭荧光报告分子的荧光的淬灭剂可以附接到分子信标探针的3'端。因此,发夹的形成可以将荧光报告分子和淬灭剂聚集在一起,从而不发射荧光。然而,在获自或源自受试者的多个细胞游离核酸分子的扩增反应的退火操作期间,分子信标的环部分可与其靶序列结合,导致茎变性。因此,报告分子和淬灭剂可以分离,消除淬灭,并且荧光报道分子被活化而变成可检测的。因为荧光报告分子的荧光仅在探针与靶序列结合时才从分子信标探针发射,所以检测到的荧光的量或水平可以与反应中靶标的量成比例(例如,靶标的量为(i)在每个状态下被鉴别为包含多个定相变异的细胞游离核酸分子的总数量,或(ii)被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数,如本文公开的)。
206.在本文公开的任何一种方法的一些实施方案中,可活化报告剂可在已与多个定相变异杂交的个体核酸探针的至少一部分的去杂交后被活化。换言之,一旦个体核酸探针与包含多个定相变异的靶细胞游离核酸分子的部分杂交,个体核酸探针的至少一部分与靶细胞游离核酸的去杂交可以活化可活化报告剂。此类核酸探针的非限制性实例可包括水解探针(例如,taqman prob)、双杂交探针和qzyme pcr引物。
207.例如,核酸探针可以是水解探针,如图26b所示。水解探针2611可以是荧光标记的寡核苷酸探针,其可以与靶细胞游离核酸分子2613的一部分(例如,约10至约25个核苷酸)特异性杂交,其中杂交部分包含两个或更多个定相变异。水解探针2611可以在5'端用荧光报告分子标记,在3'端用淬灭剂标记。当水解探针是完整的(例如,没有被切割)时,报告分
子的荧光由于其靠近淬灭剂而被淬灭(图26b)。在获自或源自受试者的多个细胞游离核酸分子的扩增反应的退火操作期间,某些热稳定聚合酶(例如taq或tth)的5'
→
3'外切核酸酶活性。获自或源自受试者的多个细胞游离核酸分子的扩增反应可包括组合的退火/延伸操作,在该操作期间水解探针与靶细胞游离核酸分子杂交,并且热稳定聚合酶(例如,taq或tth)的dsdna特异性5'
→
3'核酸外切酶活性从水解探针上切下荧光报告分子。结果,荧光报道分子与淬灭剂分离,产生与样品中靶标的量成比例的荧光信号(例如,靶标的量为(i)在每个状态下被鉴别为包含多个定相变异的细胞游离核酸分子的总数量,或(ii)被鉴别为包含多个定相变异的每个细胞游离核酸分子的多个定相变异的平均数,如本文公开的)。
208.在本文公开的任何一种方法的一些实施方案中,报告剂可以包括荧光报告分子。荧光报告分子的非限制性实例包括荧光素亚酰胺(fam,2
‑
[3
‑
(二甲氨基)
‑6‑
二甲基亚氨基
‑
呫吨
‑9‑
基]苯甲酸酯tamra,(2e)
‑2‑
[(2e,4e)
‑5‑
(2
‑
叔丁基
‑9‑
乙基
‑
6,8,8
‑
三甲基
‑
吡喃酮[3,2
‑
g]喹啉
‑1‑
鎓
‑4‑
基)戊
‑
2,4
‑
亚二烯基]
‑1‑
(6
‑
羟基
‑6‑
氧代
‑
己基)
‑
3,3
‑
二甲基
‑
吲哚啉
‑5‑
磺酸盐dy750,6
‑
羧基
‑
2',4,4',5',7,7'
‑
六氯荧光素,4,5,6,7
‑
四氯荧光素tet
tm
,磺基罗丹明101酰基氯琥珀酰亚胺酯texas red
‑
x,alexa染料,bodipy染料,花青染料,罗丹明123(盐酸盐),well red染料,max和tex 613。在一些情况下,报告剂进一步包含淬灭剂,如本文所公开的。淬灭剂的非限制性实例可包括black hole淬灭剂、iowa black淬灭剂和4
‑
二甲氨基偶氮苯
‑
4'
‑
磺酰氯(dabcyl)。
[0209]
在本文公开的任何一种方法的一些实施方案中,可以使用实时pcr(qpcr)进行利用核酸探针组的任何pcr反应。备选地,可以使用数字pcr(dpcr)进行利用核酸探针组的pcr反应。
[0210]
提供在图24中的是基于检测个体生物样品中的循环肿瘤核酸来执行临床干预和/或治疗的过程的示例流程图。在几个实施方案中,循环肿瘤核酸的检测是通过检测细胞游离核酸样品中的同相体细胞变异来确定的。在许多实施方案中,循环肿瘤核酸的检测表明存在癌症,因此可以进行适当的临床干预和/或治疗。
[0211]
参考图24,过程2400可以开始于获得、制备和测序(2401)从非侵入性活检(例如,液体或废物活检)获得的细胞游离核酸,利用在显示为含有同相发生的多个基因突变或变异的区域中的捕获测序方法。在几个实施方案中,cfdna和/或cfrna是从血浆、血液、淋巴液、唾液、尿液、粪便和/或其他合适的体液中提取的。细胞游离核酸可以通过任何合适的方式分离和纯化。在一些实施方案中,使用柱纯化(例如,来自德国hilden的qiagen的qiaamp循环核酸试剂盒)。在一些实施方案中,分离的rna片段可被转化为互补dna以用于进一步的下游分析。
[0212]
在一些实施方案中,在癌症的任何指征之前提取活检。在一些实施方案中,提取活检以提供早期筛查以检测癌症。在一些实施方案中,提取活检以检测治疗后是否存在残留癌症。在一些实施方案中,在治疗期间提取活检以确定治疗是否提供期望的反应。可以进行任何特定癌症的筛查。在一些实施方案中,进行筛查以检测在基因组的典型区域中产生体细胞定相变异的癌症,诸如(例如)淋巴瘤。在一些实施方案中,进行筛查以检测其中利用先前提取的癌症活检发现体细胞定相变异的癌症。
[0213]
在一些实施方案中,活检是从具有发展癌症的确定风险的个体(例如具有病症家族史或具有确定的风险因素(例如,暴露于致癌物)的那些)中提取的。在许多实施方案中,
活检是从一般群体中的任何个体提取的。在一些实施方案中,活检是从具有较高癌症风险的特定年龄组(例如,50岁以上的老年个体)内的个体中提取的。在一些实施方案中,活检是从被诊断患有癌症并接受针对癌症的治疗的个体中提取的。
[0214]
在一些实施方案中,制备提取的细胞游离核酸用于测序。因此,细胞游离核酸被转化为用于测序的分子文库。在一些实施方案中,衔接子和/或引物附着在细胞游离核酸上以促进测序。在一些实施方案中,将进行特定基因组基因座的靶向测序,并因此在测序(例如,捕获测序)之前通过杂交捕获对应于特定基因座的特定序列。在一些实施方案中,利用一组探针进行捕获测序,所述探针拉下(或捕获)已被发现通常含有针对特定癌症(例如,淋巴瘤)的定相变异的区域。在一些实施方案中,利用一组探针进行捕获测序,所述探针拉下(或捕获)已被发现含有定相变异的区域(如之前通过对癌症的活检测序所确定的)。在标题为“捕获测序”的部分中提供了捕获测序和探针的更详细讨论。
[0215]
在一些实施方案中,可以利用可以检测指示循环肿瘤核酸的定相变异的任何合适的测序技术。测序技术包括(但不限于)454测序、illumina测序、solid测序、ion torrent测序、单端测序(single
‑
read sequencing)、双端测序(paired
‑
end sequencing)等。
[0216]
过程2400分析(2403)细胞游离核酸测序结果以检测循环肿瘤核酸序列,如通过检测同相发生的体细胞变异所确定的。由于癌症正在积极生长和扩张,因此赘生性细胞通常将生物分子(尤其是核酸)释放到脉管系统、淋巴和/或废物系统中。此外,由于赘生性细胞局部环境的生物物理限制,赘生性细胞经常破裂,将其内部细胞内容物释放到脉管系统、淋巴和/或废物系统中。因此,有可能从液体或废物活检中检测远端原发肿瘤和/或转移瘤。
[0217]
检测到循环肿瘤核酸序列表明被检查的个体中存在癌症。因此,基于循环肿瘤核酸的检测,可以进行临床干预和/或治疗(2405)。在多个实施方案中,执行临床程序,诸如(例如)血液测试、基因测试、医学成像、体格检查、肿瘤活检或其任何组合。在几个实施方案中,进行诊断以确定癌症的特定阶段。在多个实施方案中,进行治疗,诸如(例如)化学疗法、放射疗法、化学放射疗法、免疫疗法、激素疗法、靶向药物疗法、手术、移植、输血、医学监测或其任何组合。在一些实施方案中,个体由医疗专业人员(例如医生、医师、医师助理、执业护士、护士、看护人、营养师或类似人员)评估和/或治疗。
[0218]
本公开内容的各种实施方案涉及利用癌症的检测来执行临床干预。在多个实施方案中,个体具有通过本文所述的方法筛选和处理的液体或废物活检,以指明个体患有癌症并且因此将进行干预。临床干预包括临床程序和治疗。临床程序包括(但不限于)血液测试、基因测试、医学成像、体格检查和肿瘤活检。治疗包括(但不限于)化学疗法、放射疗法、化学放射疗法、免疫疗法、激素疗法、靶向药物疗法、手术、移植、输血和医学监测。在几个实施方案中,进行诊断以确定癌症的特定阶段。在一些实施方案中,个体由医疗专业人员(例如医生、医师、医师助理、执业护士、护士、看护人、营养师或类似人员)评估和/或治疗。
[0219]
在如本文所述的几个实施方案中,可以利用来源于血液、血清、脑脊液、淋巴液、尿液或粪便的细胞游离核酸的测序结果来检测癌症。在许多实施方案中,当测序结果具有在短基因窗口(例如细胞游离分子的长度(例如,约170bp))内同相存在的一个或多个体细胞变异时,则检测到癌症。在许多实施方案中,利用统计方法来确定定相变异的存在是否来源于癌源(与分子伪影或其他生物源相反)。各种实施方案利用monte carlo采样方法作为统计方法,以基于由定相变异的存在所确定的评分来确定细胞游离核酸的测序结果是否包括
循环肿瘤核酸的序列。因此,在许多实施方案中,提取、处理和测序细胞游离核酸,并分析测序结果,从而检测癌症。该过程特别可用于在临床环境中提供诊断扫描。
[0220]
用于个体的b细胞癌的诊断扫描的示例性程序如下:
[0221]
(a)从个体提取液体或废物活检,
[0222]
(b)利用对b细胞癌特异的核酸探针,从活检制备和进行细胞游离核酸的靶向测序,
[0223]
(c)在测序结果中检测指示循环肿瘤核酸序列的定相变异,以及
[0224]
(d)基于循环肿瘤核酸序列的检测进行临床干预。
[0225]
先前已测序以检测特定基因组基因座中的定相变异的个体的针对癌症的个性化诊断扫描的示例性程序如下:
[0226]
从个体提取癌症活检;
[0227]
测序癌症活检以检测在癌症中积累的定相变异;
[0228]
(a)设计和合成针对包含检测到的定相变异的位置的基因组基因座的核酸探针,
[0229]
(b)从个体提取液体或废物活检,
[0230]
(c)利用设计和合成的核酸探针,从活检制备和进行细胞游离核酸的靶向测序,
[0231]
(d)在测序结果中检测指示循环肿瘤核酸序列的定相变异,以及
[0232]
(e)基于循环肿瘤核酸序列的检测进行临床干预。
[0233]
在本文公开的任何一种方法的一些实施方案中,可以进一步分析所鉴别的包含多个定相变异的一个或多个细胞游离核酸分子的至少一部分以确定受试者的病况。在这样的分析中,(i)所鉴别的一个或多个细胞游离核酸分子和(ii)多个细胞游离核酸分子中的不包含多个定相变异的其他细胞游离核酸分子可以作为不同的变量进行分析。在一些情况下,(i)所鉴别的一个或多个细胞游离核酸分子的数量与(ii)多个细胞游离核酸分子中的不包含多个定相变异的其他细胞游离核酸分子的数量的比率可以作为一个因素用于确定受试者的病况。在一些情况下,(i)所鉴别的一个或多个细胞游离核酸分子相对于参考基因组序列的一个或多个位置和(ii)多个细胞游离核酸分子中的不包含多个定相变异的其他细胞游离核酸分子相对于参考基因组序列的一个或多个位置的比较可作为一个因素用于确定受试者的病况。
[0234]
备选地,在一些情况下,用于确定受试者的病况的所鉴别的包含多个定相变异的一个或多个细胞游离核酸分子的分析可以不并且不需要基于多个细胞游离核酸分子中的不包含多个定相变异的其他细胞游离核酸分子。如本文所公开的,包含多个定相变异的一个或多个细胞游离核酸分子的信息或特征的非限制性实例可包括(i)此类细胞游离核酸分子的总数和(ii)所鉴别的细胞游离核酸分子群体中每个核酸分子的多个定相变异的平均数。
[0235]
因此,在本文公开的任何一种方法的一些实施方案中,来自已被鉴别为具有多个定相变异的一个或多个细胞游离核酸分子的多个定相变异的数量可以指示受试者的病况。在一些情况下,(i)来自一个或多个细胞游离核酸分子的多个定相变异的数量和(ii)来自一个或多个细胞游离核酸分子的单核苷酸变异的数量的比率可以指示受试者的病况。例如,特定病况(例如,滤泡性淋巴瘤)可以表现出不同于另一种病况(例如,乳腺癌)的特征比率。在一些实例中,对于癌症或实体瘤,如本文所公开的比率可为约0.01至约0.20。在一些
实例中,对于癌症或实体瘤,如本文所公开的比率可为约0.01、约0.02、约0.03、约0.04、约0.05、约0.06、约0.07、约0.08、约0.09、约0.10、约0.11、约0.12、约0.13、约0.14、约0.15、约0.16、约0.17、约0.18、约0.19或约0.20。在一些实例中,对于癌症或实体瘤,如本文所公开的比率可以是至少或至多约0.01、至少或至多约0.02、至少或至多约0.03、至少或至多约0.04、至少或至多约0.05、至少或至多约0.06、至少或至多约0.07、至少或至多约0.08、至少或至多约0.09、至少或至多约0.10、至少或至多约0.11、至少或至多约0.12、至少或至多约0.13、至少或至多约0.14、至少或至多约0.15、至少或至多约0.16、至少或至多约0.17、至少或至多约0.18、至少或至多约0.19或至少或至多约0.20。
[0236]
在本文公开的任何一种方法的一些实施方案中,已鉴别的一个或多个细胞游离核酸分子中的多个定相变异的频率可以指示受试者的病况。在一些情况下,基于本文公开的测序数据,每个所鉴别的细胞游离核酸分子内每个预定分箱长度(例如,约50个碱基对的分箱)的多个定相变异的平均频率可以指示受试者的病况。在一些情况下,基于本文公开的测序数据,与特定基因(例如,bcl2、pim1)相关的每个所鉴别的细胞游离核酸分子内每个预定分箱长度(例如,约50个碱基对的分箱)的多个定相变异的平均频率可以指示受试者的病况。分箱的大小可以是约30、约40、约50、约60、约70或约80。
[0237]
在一些实例中,第一病况(例如,霍奇金淋巴瘤或hl)可以表现出第一平均频率,而第二病况(例如,dlbcl)可以表现出不同的平均频率,从而允许鉴别和/或确定受试者是否患有或怀疑患有特定病况。在一些实例中,疾病的第一亚型可表现出第一平均频率,而同一疾病的第二亚型可表现出不同的平均频率,从而允许鉴别和/或确定受试者是否患有或怀疑患有特定亚型的疾病。例如,受试者可以患有dlbcl,并且来源于生发中心b细胞(gcb)dlbcl或活化b细胞(abc)dlbcl的一个或多个细胞游离核酸分子可以对于每个预定的分箱长度具有多个定相变异的不同平均频率,如本文所公开的。
[0238]
在一些实例中,受试者的病况可具有跨越预定基因组基因座的预定数量的定相变异(即,定相变异的预定频率)。当定相变异的预定频率与已从来自受试者的多个细胞游离核酸分子鉴别的一个或多个细胞游离核酸分子中的多个定相变异的频率匹配时,可以指示受试者有这样的病况。
[0239]
在本文公开的任何一种方法的一些实施方案中,可以分析被鉴别为包含多个定相变异的一个或多个细胞游离核酸分子以确定它们的基因组起源(例如,它们来自哪个基因座))。已鉴别的一个或多个细胞游离核酸分子的基因组起源可以指示受试者的病况,因为不同的疾病可以在不同的特征基因中具有多个定相变异。例如,受试者可以具有gcb dlbcl,并且来源于受试者的gcb的一个或多个细胞游离核酸分子可以具有bcl2基因中普遍存在的定相变异,而来源于同一受试者的abc的一个或多个细胞游离核酸分子可能不具有与来自gcb的那些一样多的在bcl2基因中的定相变异。另一方面,受试者可能患有abc dlbcl,并且来源于受试者abc的一个或多个细胞游离核酸分子可以具有pim1基因中普遍存在的定相变异,而来源于同一受试者的gcb的一个或多个细胞游离核酸分子可能不具有与来自abc的那些一样多的在pim1基因中的定相变异。
[0240]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约
45%、至少或至多约50%、至少或至多约55%,至少或至多约60%,至少或至多约65%,至少或至多约70%,至少或至多约75%,至少或至多约80%,至少或至多约85%、至少或至多约90%、至少或至多约95%、至少或至多约99%或约100%可以包含距相邻单核苷酸变异(snv)至少2个核苷酸的snv。
[0241]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少3个核苷酸的snv。
[0242]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少4个核苷酸的snv。
[0243]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少5个核苷酸的snv。
[0244]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少6个核苷酸的snv。
[0245]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少7个核苷酸的snv。
[0246]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少8个核苷酸的snv。
[0247]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少9个核苷酸的snv。
[0248]
在本文公开的任何一种方法的一些实施方案中,包含多个定相变异的一个或多个细胞游离核酸分子中的至少或至多约5%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%或至少或至多约50%可包含距相邻单核苷酸变异(snv)至少10个核苷酸的snv。
[0249]
c.参考基因组序列
[0250]
在本文公开的任何一种方法的一些实施方案中,参考基因组序列可以是核酸序列数据库(即参考基因组)的至少一部分,该数据库由遗传数据组装而成并旨在代表参考群组的基因组。在一些情况下,参考群组可以是来自特定或不同基因型、单倍型、人口统计信息、性别、国籍、年龄、种族、亲属、身体状况(例如,健康或被诊断为具有相同或不同病况,例如特定类型的癌症)或其他分组的个体集合。本文公开的参考基因组序列可以是两个或更多个个体基因组的嵌合体(mosaic)(或共有序列)。参考基因组序列可以包括公众可用的参考基因组或私有参考基因组的至少一部分。人参考基因组的非限制性实例包括hgl9、hg18、hg17、hg16和hg38。
[0251]
在一些实例中,参考基因组序列可包含至少或至多约500个核碱基、至少或至多约1千碱基(kb)、至少或至多约2kb、至少或至多约3kb、至少或至多约4kb、至少或至多约5kb、至少或至多约6kb、至少或至多约7kb、至少或至多约8kb、至少或至多约9kb、至少或至多约10kb、至少或至多约20kb、至少或至多约30kb、至少或至多约40kb、至少或至多约50kb、至少或至多约60kb、至少或至多约70kb、至少或至多约80kb、至少或至多约90kb、至少或至多约100kb、至少或至多约200kb、至少或至多约300kb、至少或至多约400kb、至少或至多约500kb、至少或至多约600kb、至少或至多约700kb、至少或至多约800kb、至少或至多约900kb、至少或至多约1,000kb、至少或至多约2,000kb、至少或至多约3,000kb、至少或至多约4,000kb、至少或至多约5,000kb、至少或至多约6,000kb、至少或至多约7,000kb、至少或至多约8,000kb、至少或至多约9,000kb、至少或至多约10,000kb、至少或至多约20,000kb、至少或至多约30,000kb、至少或至多约40,000kb、至少或至多约50,000kb、至少或至多约60,000kb、至少或至多约70,000kb、至少或至多约80,000kb、至少或至多约90,000kb、或至少或至多约100,000kb。
[0252]
在一些情况下,参考基因组序列可以是完整的参考基因组或基因组的一部分(例如,与感兴趣的病况相关的部分)。例如,参考基因组序列可以由在某些类型的癌症下经历异常体细胞超突变的至少1、2、3、4、5或更多个基因组成。在一些情况下,参考基因组序列可以是完整的染色体序列或其片段。在一些情况下,参考基因组序列可以包含参考基因组的两个或更多个(例如,至少2、3、4、5个或更多个)彼此不相邻(例如,在同一染色体内或来自不同的染色体)的不同部分。
[0253]
在本文公开的任何一种方法的一些实施方案中,参考基因组序列可以是所选个体(例如健康个体或本文公开的任何方法的受试者)的参考基因组的至少一部分。
[0254]
在一些情况下,参考基因组序列可以来源于不是受试者的个体(例如,健康对照个体)。备选地,在一些情况下,参考基因组序列可以来源于受试者的样品。在一些实例中,样品可以是受试者的健康样品。受试者的健康样品可以是任何健康的受试者细胞,例如健康的白细胞。通过将受试者的多个细胞游离核酸分子(例如,cfdna分子)的测序数据与同一受
试者的健康细胞的基因组序列的至少一部分进行比较,可以鉴别和分析包含多个定相变异的一个或多个细胞游离核酸分子,如本文所公开的。在一些实例中,样品可以是受试者的患病样品,例如患病细胞(例如,肿瘤细胞)或实体瘤。参考基因组序列可以通过对受试者患病细胞的至少一部分进行测序或通过对从受试者的实体瘤获得的多个细胞游离核酸分子进行测序而获得。一旦受试者被诊断出患有特定病况(例如,疾病),包含多个定相变异的受试者的参考基因组序列可用于确定该受试者在未来时间点是否仍表现出相同定相变异。在这种情况下,在受试者的“患病”参考基因组序列和获自或源自受试者的新的细胞游离核酸分子之间鉴别的任何新的定相变异可以指示在特定基因组基因座中降低程度的异常体细胞超突变(例如,至少部分缓解)。
[0255]
在各种实施方案中,可以对任何赘生物类型进行诊断扫描,包括(但不限于)急性成淋巴细胞白血病(all)、急性髓性白血病(aml)、肛门癌、星形细胞瘤、基底细胞癌、胆管癌、膀胱癌、乳腺癌、伯基特淋巴瘤、宫颈癌、慢性淋巴细胞白血病(cll)、慢性骨髓性白血病(cml)、慢性骨髓增生性肿瘤、结直肠癌、弥漫性大b细胞淋巴瘤、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤文肉瘤、输卵管癌、滤泡性淋巴瘤、胆囊癌、胃癌、胃肠道类癌、毛细胞白血病、肝细胞癌、霍奇金淋巴瘤、下咽癌、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、默克尔细胞癌、间皮瘤、口腔癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、胰腺神经内分泌肿瘤、咽癌、垂体瘤、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、皮肤癌、小细胞肺癌、小肠癌、鳞状颈癌、t细胞淋巴瘤、睾丸癌、胸腺瘤、甲状腺癌、子宫癌、阴道癌和血管肿瘤。
[0256]
在多个实施方案中,利用诊断扫描来提供癌症的早期检测。在一些实施方案中,诊断扫描检测患有i、ii或iii期癌症的个体的癌症。在一些实施方案中,诊断扫描用于检测mrd或肿瘤负荷。在一些实施方案中,诊断扫描用于确定治疗的进展(例如,发展或消退)。基于诊断扫描,可以执行临床程序和/或治疗。
[0257]
d.核酸探针
[0258]
在本文公开的任何一种方法的一些实施方案中,可以基于本公开内容的任何受试者参考基因组序列设计核酸探针组。在一些情况下,可以基于已通过比较(i)来自受试者的实体瘤的测序数据和(ii)来自受试者或健康群组的健康细胞的测序数据鉴别的多个定相变异来设计核酸探针组,如本文所公开的。可以基于已通过比较(i)来自受试者的实体瘤的测序数据和(ii)来自受试者的健康细胞的测序数据鉴别的多个定相变异来设计核酸探针组。可以基于已通过比较(i)来自受试者的实体瘤的测序数据和(ii)来自健康群组的健康细胞的测序数据鉴别的多个定相变异来设计核酸探针组。
[0259]
在本文公开的任何一种方法的一些实施方案中,核酸探针组被设计为与同病况相关的基因组基因座的序列杂交。如本文所公开的,当受试者患有病况时,可以确定与该病况相关的基因组基因座经历或表现出异常的体细胞超突变。备选地,核酸探针组被设计为与典型区域的序列杂交。
[0260]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可以设计为与表1中鉴别的至少约5%、至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约99%或约100%的基因组区域杂交。
[0261]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可以设计为与衍生自表1中鉴别的至少约5%、至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约99%或约100%的基因组区域的细胞游离核酸(例如,cfdna)分子的至少一部分杂交。
[0262]
在本文公开的任何一种方法的一些实施方案中,核酸探针组的每个核酸探针可与选自表6的探针序列具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%的序列同一性、至少约95%的序列同一性、至少约99%或约100%的序列同一性。
[0263]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可包含至少约1%、至少约2%、至少约3%、至少约4%、至少约5%、至少约6%、至少约7%、至少约8%、至少约9%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或约100%的表6中的探针序列。
[0264]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可以被设计成覆盖一个或多个靶基因组区域,该区域包含至少或至多约500个核碱基、至少或至多约1千碱基(kb)、至少或至多约2kb、至少或至多约3kb、至少或至多约4kb、至少或至多约5kb、至少或至多约6kb、至少或至多约7kb、至少或至多约8kb、至少或至多约9kb、至少或至多约10kb、至少或至多约20kb、至少或至多约30kb、至少或至多约40kb、至少或至多约50kb、至少或至多约60kb、至少或至多约70kb、至少或至多约80kb、至少或至多约90kb、至少或至多约100kb、至少或至多约200kb、至少或至多约300kb、至少或至多约400kb、或至少或至多约500kb。
[0265]
在本文公开的任何一种方法的一些实施方案中,一个或多个靶基因组区域的靶基因组区域(例如,靶基因组基因座)可包含至多约200个核碱基、至多约300个核碱基、400个核碱基,至多约500个核碱基、至多约600个核碱基、至多约700个核碱基、至多约800个核碱基、至多约900个核碱基、至多约1kb、至多约2kb、至多约3kb、至多约4kb、至多约5kb、至多约6kb、至多约7kb、至多约8kb、至多约9kb、至多约10kb、至多约11kb、至多约12kb、至多约13kb、至多约14kb、至多约15kb、至多约16kb、至多约17kb、至多约18kb、至多约19kb、至多约20kb、至多约25kb、至多约30kb、至多约35kb、至多约40kb、至多约45kb、至多约50kb、或至多约100kb。
[0266]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可以包含被设计为与不同的靶核酸序列杂交的至少或至多约10个、至少或至多约20个、至少或至多约30个、至少或至多约40个、至少或至多约50个、至少或至多约60个、至少或至多约70个、至少或至多约80个、至少或至多约90个、至少或至多约约100个、至少或至多约200个、至少或至多约300个、至少或至多约400个、至少或至多约500个、至少或至多约600个、至少或至多约700个、至少或至多约800个、至少或至多约900个、至少或至多约1,000个、至少或至多约2,000个、至少或至多约3,000个、至少或至多约4,000个或至少或至多约5,000个不同的核酸探针。
[0267]
在本文公开的任何一种方法的一些实施方案中,核酸探针组可以具有至少或至多约50个、至少或至多约55个、至少或至多约60个、至少或至多约65个、至少或至多约70个、至少或至多约75个、至少或至多约80个、至少或至多约85个、至少或至多约90个、至少或至多
约95个或至少或至多约100个核苷酸的长度。
[0268]
在一个方面,本公开内容提供包含诱饵组的组合物,该诱饵组包含本文公开的核酸探针组中的任一个。包含此类诱饵组的组合物可用于本文公开的任何方法。在一些情况下,核酸探针组可以设计为拉下(或捕获)cfdna分子。在一些情况下,核酸探针组可以设计为拉下(或捕获)cfrna分子。
[0269]
在一些实施方案中,诱饵组可包含被设计为拉下来源于表1中列出的基因组区域的细胞游离核酸(例如,cfdna)分子的核酸探针组。核酸探针组可被设计为拉下来源于表1中列出的至少或至多约1%、至少或至多约2%、至少或至多约3%、至少或至多约4%、至少或至多约5%、至少或至多约6%、至少或至多约7%、至少或至多约8%、至少或至多约9%、至少或至多约10%、至少或至多约15%、至少或至多约20%、至少或至多约25%、至少或至多约30%、至少或至多约35%、至少或至多约40%、至少或至多约45%、至少或至多约50%、至少或至多约55%、至少或至多约60%、至少或至多约65%、至少或至多约70%、至少或至多约75%、至少或至多约80%,至少或至多约85%、至少或至多约90%、至少或至多约95%、至少或至多约99%或约100%的基因组区域的细胞游离核酸分子。在一些情况下,核酸探针组可以被设计为拉下cfdna分子。在一些情况下,核酸探针组可以被设计为拉下cfrna分子。
[0270]
在本文公开的任一种组合物的一些实施方案中,核酸探针组中的个体核酸探针(或每个核酸探针)可包含拉下标签。拉下标签可用于富集样品(例如,包含获自或源自受试者的多个核酸分子的样品)的特定子集(例如,如本文公开的包含多个定相变异的细胞游离核酸分子)。
[0271]
在一些情况下,拉下标签可包含核酸条形码(例如,在核酸探针的任一侧或两侧)。通过利用包含与核酸条形码具有互补性的核酸序列的珠子或基底,核酸条形码可用于拉下和富集与靶细胞游离核酸分子杂交的任何核酸探针。备选地或另外地,核酸条形码可用于从通过使用本文公开的任何核酸探针组获得的任何测序数据(例如,通过扩增的测序)鉴别靶细胞游离核酸分子。
[0272]
在一些情况下,拉下标签可以包含可以被亲和结合部分特异性识别并结合的亲和靶标部分。亲和结合部分可以特异性结合亲和靶标部分以形成亲和对。在一些情况下,通过使用包含亲和结合部分的珠子或基底,亲和靶标部分可用于拉下和富集与靶细胞游离核酸分子杂交的任何核酸探针。备选地,拉下标签可包含亲和结合部分,而珠子/基底可包含亲和靶标部分。亲和对的非限制性实例可包括生物素/抗生物素蛋白、抗体/抗原、生物素/链霉抗生物素蛋白、金属/螯合剂、配体/受体、核酸和结合蛋白以及互补核酸。在一个实例中,拉下标签可以包含生物素。
[0273]
在本文公开的任何一种组合物的一些实施方案中,待被任何主题核酸探针拉下的靶细胞游离核酸(例如,cfdna)分子的长度可为约100个核苷酸至约200个核苷酸。靶细胞游离核酸分子的长度可为至少约100个核苷酸。靶细胞游离核酸分子的长度可为至多约200个核苷酸。靶细胞游离核酸分子的长度可为约100个核苷酸至约110个核苷酸、约100个核苷酸至约120个核苷酸、约100个核苷酸至约130个核苷酸、约100个核苷酸至约140个核苷酸、约100个核苷酸至约150个核苷酸、约100个核苷酸至约160个核苷酸、约100个核苷酸至约170个核苷酸、约100个核苷酸至约180个核苷酸、约100个核苷酸至约190个核苷酸、约100个核苷酸至约200个核苷酸、约110个核苷酸至约120个核苷酸、约110个核苷酸至约130个核苷
酸、约110个核苷酸至约140个核苷酸、约110个核苷酸至约150个核苷酸、约110个核苷酸至约160个核苷酸、约110个核苷酸至约170个核苷酸、约110个核苷酸至约180个核苷酸、约110个核苷酸至约190个核苷酸、约110个核苷酸至约200个核苷酸、约120个核苷酸至约130个核苷酸、约120个核苷酸至约140个核苷酸、约120个核苷酸至约150个核苷酸、约120个核苷酸至约160个核苷酸、约120个核苷酸至约170个核苷酸、约120个核苷酸至约180个核苷酸、约120个核苷酸至约190个核苷酸、约120个核苷酸至约200个核苷酸、约130个核苷酸至约140个核苷酸、约130个核苷酸至约150个核苷酸、约130个核苷酸至约160个核苷酸、约130个核苷酸至约170个核苷酸、约130个核苷酸至约180个核苷酸、约130个核苷酸至约190个核苷酸、约130个核苷酸至约200个核苷酸、约140个核苷酸至约150个核苷酸、约140个核苷酸至约160个核苷酸、约140个核苷酸至约170个核苷酸、约140个核苷酸至约180个核苷酸、约140个核苷酸至约190个核苷酸、约140个核苷酸至约200个核苷酸、约150个核苷酸至约160个核苷酸、约150个核苷酸至约170个核苷酸、约150个核苷酸至约180个核苷酸、约150个核苷酸至约190个核苷酸、约150个核苷酸至约200个核苷酸、约160个核苷酸至约170个核苷酸、约160个核苷酸至约180个核苷酸、约160个核苷酸至约190个核苷酸、约160个核苷酸至约200个核苷酸、约170个核苷酸至约180个核苷酸、约170个核苷酸至约190个核苷酸、约170个核苷酸至约200个核苷酸、约180个核苷酸至约190个核苷酸、约180个核苷酸至约200个核苷酸或约190个核苷酸至约200个核苷酸。靶细胞游离核酸分子的长度可为约100个核苷酸、约110个核苷酸、约120个核苷酸、约130个核苷酸、约140个核苷酸、约150个核苷酸、约160个核苷酸、约170个核苷酸、约180个核苷酸、约190个核苷酸或约200个核苷酸。在一些实例中,靶细胞游离核酸分子的长度可在约100个核苷酸至约180个核苷酸的范围内。
[0274]
在本文公开的任何一种组合物的一些实施方案中,基因组区域可以与病况相关。当受试者患有该病况时,该基因组区域可以被确定为表现出异常的体细胞超突变。例如,该病况可包括b细胞淋巴瘤或其亚型,例如弥漫性大b细胞淋巴瘤、滤泡性淋巴瘤、伯基特淋巴瘤和b细胞慢性淋巴细胞白血病。下文提供了该病况的其他详细信息。
[0275]
在本文公开的任何一种组合物的一些实施方案中,组合物进一步包含获自或源自受试者的多个细胞游离核酸(例如,cfdna)分子。
[0276]
e.诊断或治疗应用
[0277]
许多实施方案涉及对个体的细胞游离核酸进行诊断扫描,然后基于指示癌症的扫描结果,进行进一步的临床程序和/或治疗个体。根据各种实施方案,可以检测多种类型的肿瘤。
[0278]
在本文公开的任何一种方法的一些实施方案中,方法可以包括基于包含多个定相变异的分子的一个或多个细胞游离核酸确定受试者患有病况或确定受试者的病况的程度或状态。在一些情况下,方法可以还包括基于统计模型分析(即分子分析)确定一个或多个细胞游离核酸分子(各自被鉴别为包含多个定相变异)来源于与病况(例如,癌症)相关的样品。例如,方法可以包括使用一种或多种算法(例如monte carlos模拟)来确定细胞游离核酸被鉴别为具有与第一病况相关或来源于第一病况的多个定相变异的第一概率(例如,80%)和相同细胞游离核酸与第二病况相关或来源于第二病况(或来自健康细胞)的第二概率(例如,20%)。在一些情况下,方法可以包括基于对各自被鉴别为包含多个定相变异的一个或多个细胞游离核酸分子的分析(即,宏观或全局分析)来确定受试者患有一种或多种病
况的可能性或概率。例如,方法可以包括使用一种或多种算法(例如,包括一种或多种如本文公开的数学模型,例如二项式采样)来分析各自被鉴别为包含多个定相变异的多个细胞游离核酸分子,从而确定受试者患有第一病况的第一概率(例如,80%)和受试者患有第二病况(或是健康的)的第二概率(例如,20%)。
[0279]
如本文所公开的统计模型分析可以是通过数值近似法(例如二项式模型、三元模型、monte carlo模拟或有限差分方法)的近似解。在一个实例中,本文使用的统计模型分析可以是monte carlo统计分析。在另一个实例中,本文使用的统计模型分析可以是二项式或三元模型分析。
[0280]
在本文公开的任何一种方法的一些实施方案中,方法可以包括基于所鉴别的一个或多个细胞游离核酸分子监测受试者的病况的进展,使得所鉴别的细胞游离核酸分子中的每一个包含多个定相变异。在一些情况下,如本公开内容中所述的,病况的进展可以是病况的恶化(例如,从i期癌症发展为iii期癌症)。在一些情况下,如本公开内容中所述的,病况的进展可以是病况的至少部分缓解(例如,从iv期癌症降期至ii期癌症)。备选地,在一些情况下,如本公开内容中所述的,在两个不同的时间点之间,病况的进展可以保持基本相同。在一个实例中,方法可以包括确定受试者的病况的不同进展的可能性或概率。例如,方法可以包括使用一种或多种算法(例如,包括如本文公开的一种或多种数学模型,例如二项式采样)来确定受试者的病况比以前更差的第一概率(例如,20%)、病况的至少部分缓解的第二概率(例如,70%)以及受试者的病况与以前相同的第三概率(例如,10%)。
[0281]
在本文公开的任一方法的一些实施方案中,方法可包括执行不同的程序(例如,随访诊断程序)以确认受试者的病况,该病况已被确定和/或监测其进展,如本公开内容中所提供的。不同程序的非限制性实例可包括体格检查、医学成像、基因测试、乳房x光检查、内窥镜检查、粪便取样、宫颈刮片检查、甲胎蛋白血液测试、ca
‑
125测试、前列腺特异性抗原(psa)测试、活检提取、骨髓穿刺和肿瘤标志物检测测试。医学成像包括(但不限于)x射线、磁共振成像(mri)、计算机断层扫描(ct)、超声和正电子发射断层扫描(pet)。内窥镜检查包括(但不限于)支气管镜检查、结肠镜检查、阴道镜检查、膀胱镜检查、食道镜检查、胃镜检查、腹腔镜检查、神经内窥镜检查、直肠镜检查和乙状结肠镜检查。
[0282]
在本文公开的任何一种方法的一些实施方案中,方法可以包括基于所鉴别的一个或多个细胞游离核酸分子确定对受试者的病况的治疗,每个所鉴别的细胞游离核酸分子包含多个定相变异。在一些情况下,治疗可以基于(i)确定的受试者的病况和/或(ii)确定的受试者的病况的进展来确定。此外,治疗可以基于以下的一个或多个附加因素来确定:受试者的性别、国籍、年龄、种族和其他身体状况。在一些实例中,如本文所公开的,可以基于所鉴别的细胞游离核酸分子的多个定相变异的一种或多种特征来确定治疗。
[0283]
在本文公开的任何一种方法的一些实施方案中,受试者可能尚未接受针对该病况的任何治疗,例如,该受试者可能尚未被诊断出患有病况(例如,淋巴瘤)。在本文公开的任何一种方法的一些实施方案中,受试者可以在本公开内容的任何主题方法之前接受针对病况的治疗。在一些情况下,可以执行本文公开的方法以监测受试者已被诊断患有的病况的进展,从而(i)确定先前治疗的功效和(ii)评估是否保持治疗、修改治疗或取消治疗以支持新治疗。
[0284]
在本文公开的任何一种方法的一些实施方案中,治疗(例如,先前治疗、待基于本
公开内容的方法确定的新治疗等)的非限制性实例可包括化学疗法、放射疗法、化学放射疗法、免疫疗法、过继细胞疗法(例如嵌合抗原受体(car)t细胞疗法、car nk细胞疗法、修饰性t细胞受体(tcr)t细胞疗法等)、激素疗法、靶向药物疗法、手术、移植、输血或医疗监测。
[0285]
在本文公开的任何一种方法的一些实施方案中,病况可包括疾病。在本文公开的任何一种方法的一些实施方案中,病况可包括赘生物、癌症或肿瘤。在一个实例中,病况可以包括实体瘤。在另一个实例中,病况可以包括淋巴瘤,例如b细胞淋巴瘤(bcl)。bcl的非限制性实例可包括弥漫性大b细胞淋巴瘤(dlbcl)、滤泡性淋巴瘤(fl)、伯基特淋巴瘤(bl)、b细胞慢性淋巴细胞白血病(cll)、边缘区b细胞淋巴瘤(mzl)和套细胞淋巴瘤(mcl)。
[0286]
如本文所公开的,对受试者的病况的治疗可以包括向受试者施用一种或多种治疗剂。一种或多种治疗药物可以通过以下中的一种或多种方式施用至受试者:口服、腹膜内、静脉内、动脉内、透皮、肌内、脂质体、经由导管或支架的局部递送、皮下、脂肪内和鞘内。
[0287]
治疗药物的非限制性实例可包括细胞毒性剂、化学治疗剂、生长抑制剂、用于放射治疗的药剂、抗血管生成剂、凋亡剂、抗微管蛋白剂和用于治疗癌症的其他药剂,例如抗cd20抗体、抗pd1抗体(例如派姆单抗)、血小板衍生生长因子抑制剂(例如gleevec
tm
(甲磺酸伊马替尼))、cox
‑
2抑制剂(例如塞来昔布)、干扰素、细胞因子、结合以下靶标中的一种或多种的拮抗剂(例如、中和抗体):pdgfr
‑
β、blys、april、bcma受体、trail/apo2,其他生物活性和有机化学药剂等。
[0288]
细胞毒性剂的非限制性实例可包括放射性同位素(例如at211、i131、i125、y90、re186、re188、sm153、bi212、p32以及lu的放射性同位素)、化疗剂,例如甲氨蝶呤、阿霉素、长春花生物碱(长春新碱、长春碱、依托泊苷)、多柔比星、美法仑、丝裂霉素c、苯丁酸氮芥、道诺霉素或其他嵌入剂、酶及其片段,例如核溶解酶、抗生素和细菌、真菌、植物或动物来源的毒素例如小分子毒素或酶促毒素。
[0289]
化学治疗剂的非限制性实例可包括烷基化剂,例如噻替哌和环磷酰胺;烷基磺酸盐,例如白消安、英丙舒凡和哌泊舒凡;氮丙啶类,例如苯佐替哌、卡波醌、美妥替哌和乌瑞替哌;亚乙烯亚胺和甲基三聚氰胺,包括六甲蜜胺、三亚乙基三聚氰胺、三亚乙基磷酰胺、三亚乙基硫代磷酰胺和三羟甲基三聚氰胺;多聚乙酰(acetogenins)(尤其是布拉他辛和布拉他西酮);δ
‑9‑
四氢大麻酚(屈大麻酚、);β
‑
拉帕醌;拉帕醇;秋水仙碱;桦木酸;喜树碱(包括合成类似物托泊替康cpt
‑
11(伊立替康、)、乙酰喜树碱、scopolectin和9
‑
氨基喜树碱);苔藓抑素;卡司他丁;cc
‑
1065(包括其阿多来新、卡折来新和比折来新合成类似物);鬼臼毒素;鬼臼酸;替尼泊苷;念珠藻素(特别是念珠藻素1和念珠藻素8);多拉司他汀;倍癌霉素(包括合成类似物kw
‑
2189和cb1
‑
tm1);软珊瑚醇(eleutherobin);水鬼蕉碱;匍枝珊瑚醇(sarcodictyin);海绵抑制素(spongistatin);氮芥类,如苯丁酸氮芥、萘氮芥、氯磷酰胺(cholophosphamide)、雌莫司汀、异环磷酰胺、二氯甲基二乙胺、盐酸氧化氮芥、美法仑、新氮芥、苯芥胆甾醇、泼尼莫司汀、曲磷胺、尿嘧啶氮芥;亚硝基脲,如卡莫司汀、氯脲菌素、福莫司汀、洛莫司汀、尼莫司汀和雷莫司汀;抗生素,如烯二炔抗生素;达内霉素(dynemicin),包括达内霉素a;埃斯佩拉霉素(espiramicina);以及新制癌菌素发色团和相关的发色蛋白烯二炔抗生素发色团)、阿克拉霉素(aclacinomysin)、放线菌素、氨茴霉素(authramycin)、
重氮丝氨酸、博来霉素、放线菌素c、卡柔比星(carabicin)、洋红霉素、嗜癌霉素、色霉素、更生霉素、柔红霉素、地托比星、6
‑
重氮基
‑5‑
氧代
‑
l
‑
正亮氨酸、多柔比星(包括吗啉代多柔比星、氰基吗啉代多柔比星、2
‑
吡咯啉
‑
多柔比星和脱氧多柔比星)、表柔比星、依索比星、伊达比星、麻西罗霉素、丝裂霉素例如丝裂霉素c、霉酚酸、诺加霉素、橄榄霉素、培洛霉素、泊非霉素(potfiromycin)、嘌呤霉素、三铁阿霉素、罗多比星、链黑霉素、链脲佐菌素、杀结核菌素、乌苯美司、净司他丁(zinostatin)、佐柔比星;抗代谢物,如甲氨蝶呤和5
‑
氟尿嘧啶(5
‑
fu);叶酸类似物,如二甲叶酸、甲氨蝶呤、蝶罗呤、三甲曲沙;嘌呤类似物,如氟达拉滨、6
‑
巯基嘌呤、硫咪嘌呤、硫鸟嘌呤;嘧啶类似物,如安西他滨、阿扎胞苷、6
‑
氮尿苷、卡莫氟、阿糖胞苷、二脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷;雄激素,例如卡甾酮、丙酸屈莫他酮、表甾烷醇、美皮司坦、睾酮内酯;抗肾上腺素,如氨鲁米特、米托坦、曲洛司坦;叶酸补充剂,如亚叶酸(frolinic acid);醋葡醛内酯;醛磷酰胺糖苷;氨基乙酰丙酸;恩尿嘧啶;安吖啶;倍思塔布(bestrabucil);比生群;依达曲沙(edatraxate);地磷酰胺(defofamine);秋水仙胺;地吖醌;依氟鸟氨酸(elfornithine);依利醋铵;埃博霉素;依托格鲁;硝酸镓;羟基脲;香菇多糖;氯尼达明(lonidainine);类美登素,如美登素和安丝菌素;米托胍腙;米托蒽醌;莫哌达醇(mopidanmol);尼曲吖啶(nitraerine);喷司他丁;蛋氨氮芥;吡柔比星;洛索蒽醌;2
‑
乙基酰肼;丙卡巴肼;多糖复合物(jhs natural products,eugene,oreg.);雷佐生;根霉素;西佐喃;螺旋锗;细格孢氮杂酸;三亚胺醌;2,2',2"
‑
三氯三乙胺;单端孢霉烯(特别是t
‑
2毒素、疣孢菌素a、杆孢菌素a和蛇形菌素(anguidine));乌拉坦;长春地辛(anguidine));乌拉坦;长春地辛达卡巴嗪;甘露莫司汀;二溴甘露醇;二溴卫矛醇;哌泊溴烷;加西托星(gacytosine);阿糖胞苷(“ara
‑
c”);噻替派;紫杉烷类,例如紫杉烷,包括紫杉醇(bristol
‑
myers squibb oncology,princeton,n.j.)、abraxane
tm cremophor
‑
free、紫杉醇的白蛋白工程化纳米颗粒制剂(american pharmaceutical partners,schaumberg,ill.)和多西他赛(
‑
poulenc rorer,antony,france);苯丁酸氮芥;吉西他滨6
‑
硫鸟嘌呤;巯基嘌呤;甲氨蝶呤;铂类似物,如顺铂和卡铂;长春碱铂;依托泊苷(vp
‑
16);异环磷酰胺;米托蒽醌;长春新碱奥沙利铂;leucovovin;长春瑞滨诺消灵;依达曲沙;道诺霉素;氨基蝶呤;伊班膦酸盐;拓扑异构酶抑制剂rfs 2000;二氟甲基鸟氨酸(dmfo);维甲酸类,例如视黄酸;卡培他滨上述任何一种的药学上可接受的盐、酸或衍生物;以及上述两种或更多种的组合,例如chop(环磷酰胺、多柔比星、长春新碱和泼尼松龙的组合治疗的缩写),和folfox(使用与5
‑
fu和leucovovin组合的奥沙利铂(eloxatin
tm
)的治疗方案的缩写)。
[0290]
化学治疗剂的实例还可以包括“抗激素剂”或“内分泌治疗剂”,其用于调节、减少、阻断或抑制可促进癌症生长的激素的作用,并且通常呈系统或全身治疗的形式。它们可能是激素本身。实例包括抗雌激素和选择性雌激素受体调节剂(serm),包括例如他莫昔芬(包括他莫昔芬)、雷洛昔芬、屈洛昔芬、4
‑
羟基他莫昔芬、曲
laboratories),其为排他性地为重组的人序列、全长igg1λ抗体,经遗传修饰识别白细胞介素
‑
12p40蛋白质。
[0292]
化疗剂的实例还可以包括“酪氨酸激酶抑制剂”,例如egfr靶向剂(例如,小分子、抗体等);小分子her2酪氨酸激酶抑制剂例如可自takeda获得的tak165;cp
‑
724,714,erbb2受体酪氨酸激酶的口服选择性抑制剂(pfizer和osi);双her抑制剂例如ekb
‑
569(可自wyeth获得),其优先结合egfr但抑制过表达her2和egfr的细胞;拉帕替尼(gsk572016;可得自glaxo
‑
smithkline),口服her2和egfr酪氨酸激酶抑制剂;pki
‑
166(可得自novartis);pan
‑
her抑制剂,例如卡奈替尼(canertinib)(ci
‑
1033;pharmacia);raf
‑
1抑制剂,例如可得自isis pharmaceuticals的反义剂isis
‑
5132,其抑制raf
‑
1信号传导;非her靶向tk抑制剂,例如甲磺酸伊马替尼(可得自glaxo smithkline);多靶点酪氨酸激酶抑制剂例如舒尼替尼(可得自pfizer);vegf受体酪氨酸激酶抑制剂例如瓦他拉尼(ptk787/zk222584,可得自novartis/schering ag);mapk细胞外调节激酶i抑制剂ci
‑
1040(可得自pharmacia);喹唑啉类,例如pd 153035,4
‑
(3
‑
氯苯胺基)喹唑啉;吡啶并嘧啶类;嘧啶并嘧啶类;吡唑并嘧啶类,例如cgp 59326、cgp 60261和cgp 62706;吡唑并嘧啶类,4
‑
(苯基氨基)
‑
7h
‑
吡唑并[2,3
‑
d]嘧啶类;姜黄素(阿魏酰甲烷(diferuloyl methane),4,5
‑
双(4
‑
氟苯胺基)邻苯二甲酰亚胺);含有硝基噻吩部分的酪氨酸磷酸酯类;pd
‑
0183805(warner
‑
lamber);反义分子(例如结合编码her的核酸的那些);喹喔啉类(美国专利第5,804,396号);tryphostins(美国专利第5,804,396号);zd6474(astra zeneca);ptk
‑
787(novartis/schering ag);pan
‑
her抑制剂例如ci
‑
1033(pfizer);affinitac(isis 3521;isis/lilly);甲磺酸伊马替尼pki 166(novartis);gw2016(glaxo smithkline);ci
‑
1033(pfizer);ekb
‑
569(wyeth);semaxinib(pfizer);zd6474(astrazeneca);ptk
‑
787(novartis/schering ag);inc
‑
1c11(imclone);和雷帕霉素(西罗莫司,)。
[0293]
化学治疗剂的实例还可以包括地塞米松、干扰素、秋水仙碱、美托品、环孢菌素、两性霉素、甲硝唑、阿仑单抗、阿利维a酸、别嘌呤醇、氨磷汀、三氧化二砷、天冬酰胺酶、活卡介苗、贝伐珠单抗、贝沙罗汀、克拉屈滨、氯法巴明、达比泊汀α、地尼白介素、右雷佐生、阿法依泊汀、厄洛替尼、非格司亭、乙酸组氨瑞林、替伊莫单抗、干扰素α
‑
2a、干扰素α
‑
2b、来那度胺、左旋咪唑、美司钠、甲氧沙林、诺龙、奈拉滨、诺菲妥珠单抗、奥普瑞白介素、帕利夫明、帕米膦酸盐、培加酶、培门冬酶、培非格司亭、培美曲塞二钠、普拉霉素、卟吩姆钠、奎纳克林、拉布立酶、沙莫司亭、替莫唑胺、vm
‑
26、6
‑
tg、托瑞米芬、维a酸、atra、戊柔比星、唑来膦酸盐和唑来膦酸及其药学上可接受的盐。
[0294]
化学治疗剂的实例还可以包括氢化可的松、乙酸氢化可的松、乙酸可的松、替可的松匹伐酯、曲安奈德、曲安奈德醇、莫米松、安西奈德、布地奈德、地奈德、氟轻松、氟西奈德、倍他米松、倍他米松磷酸钠、地塞米松、地塞米松磷酸钠、氟可龙、氢化可的松
‑
17
‑
丁酸酯、氢化可的松
‑
17
‑
戊酸酯、二丙酸阿氯米松、戊酸倍他米松、二丙酸倍他米松、泼尼卡酯、氯倍他松
‑
17
‑
丁酸酯、氯倍他松
‑
17
‑
丙酸酯、己酸氟可龙、特戊酸氟可龙和乙酸氟泼尼定;免疫选择性抗炎肽(imsaid)例如苯丙氨酸
‑
谷氨酰胺
‑
甘氨酸(feg)及其d
‑
异构体形式(feg)(imulan biotherapeutics,llc);抗风湿药物例如硫唑嘌呤、环孢菌素(环孢霉素a)、d
‑
青
霉胺、金盐、羟氯喹,来氟米特米诺环素、柳氮磺吡啶、肿瘤坏死因子α(tnfα)阻断剂例如依那西普英夫利昔单抗阿达木单抗聚乙二醇赛妥珠单抗戈利木单抗白细胞介素1(il
‑
1)阻断剂例如阿那白滞素t细胞共刺激阻断剂例如阿巴西普白细胞介素6(il
‑
6)阻断剂例如托珠单抗白细胞介素13(il
‑
13)阻断剂例如雷贝珠单抗;干扰素α(ifn)阻断剂例如罗利珠单抗;β7整合素阻断剂例如rhumabβ7;ige途径阻断剂例如抗
‑
m1prime;分泌的同源三聚体lta3和膜结合异源三聚体lta1/β2阻断剂例如抗淋巴毒素α(lta);各种研究性药剂例如thioplatin、ps
‑
341、苯丁酸盐、et
‑
18
‑
och3或法尼基转移酶抑制剂(l
‑
739749、l
‑
744832);多酚,例如槲皮素、白藜芦醇、白皮杉醇、表没食子儿茶素没食子酸酯、茶黄素、黄烷醇、原花青素、桦木酸及其衍生物;自噬抑制剂例如氯喹;δ
‑9‑
四氢大麻酚(屈大麻酚,);β
‑
拉帕醌;拉帕醇;秋水仙碱;桦木酸;乙酰喜树碱、莨菪亭和9
‑
氨基喜树碱;鬼臼毒素;替加氟贝沙罗汀二膦酸盐例如氯膦酸盐(例如,或)、依替膦酸盐ne
‑
58095、唑来膦酸/唑来膦酸盐阿仑膦酸盐帕米膦酸盐替鲁膦酸或利塞膦酸盐和表皮生长因子受体(egf
‑
r);疫苗例如疫苗;哌立福辛(perifosine)、cox
‑
2抑制剂(例如塞来昔布或依托考昔)、蛋白酶体抑制剂(例如ps341);cci
‑
779;替吡法尼(r11577);奥拉非尼、abt510;bcl
‑
2抑制剂,例如奥美林钠吡虫啉酮;法尼基转移酶抑制剂,例如拉那非尼(sch 6636,sarasar
tm
);和任何上述药剂的药学上可接受的盐、酸或衍生物;以及上述两种或更多种药剂的组合。
[0295]
根据许多实施方案,一旦指示癌症的诊断,就可以进行多种治疗,包括(但不限于)手术、切除术、化学疗法、放射疗法、免疫疗法、靶向疗法、激素疗法、干细胞移植和输血。在一些实施方案中,施用抗癌剂和/或化疗剂,包括(但不限于)烷基化剂、铂剂、紫杉烷类、长春花剂、抗雌激素药物、芳香酶抑制剂、卵巢抑制剂、内分泌/激素剂、双膦酸盐治疗剂和靶向生物治疗剂。药物包括(但不限于)环磷酰胺、氟尿嘧啶(或5
‑
氟尿嘧啶或5
‑
fu)、甲氨蝶呤、噻替哌、卡铂、顺铂、紫杉烷、紫杉醇、蛋白结合紫杉醇、多西紫杉醇、长春瑞滨、他莫昔芬、雷洛昔芬、托瑞米芬、氟维司群、吉西他滨、伊立替康、伊沙匹隆、替莫唑胺、托泊替康、长春新碱、长春碱、艾日布林、突变霉素、卡培他滨、希罗达、阿那曲唑、依西美坦、来曲唑、亮丙瑞林、阿巴瑞克、布舍瑞林、戈舍瑞林、醋酸甲地孕酮、利塞膦酸钠、帕米磷酸二钠、埃本膦酸钠、阿仑膦酸钠、唑来磷酸、拉帕替尼、道诺霉素、多柔比星、表柔比星、伊达比星、戊柔比星米托蒽醌、贝伐单抗、西妥昔单抗、伊匹单抗、曲妥珠单抗
‑
美坦新偶联物(ado
‑
trastuzumab emtansine)、阿法替尼、阿地白介素、阿雷替尼、阿仑单抗、阿特珠单抗、阿维单抗、axtinib、贝利单抗、贝利司他、贝伐单抗、博纳吐单抗、硼替佐米、博舒替尼、本妥昔单抗、布加替尼、
卡博替尼、康纳单抗、卡非佐米、certinib、西妥昔单抗、考比替尼、克唑替尼、达拉菲尼、达雷木单抗、达沙替尼、地诺单抗、地努妥昔单抗(dinutuximab)、德瓦鲁单抗(durvalumab)、埃罗妥珠单抗、enasidenib、埃罗替尼、依维莫司、吉非替尼、替伊莫单抗、依鲁替尼、idelalisib、伊马替尼、伊匹单抗、伊沙佐米、拉帕替尼、乐伐替尼、米哚妥林、耐昔妥珠单抗、来那替尼、尼罗替尼、尼拉帕尼、纳武单抗、obinutuzumab、奥法木单抗、奥拉帕尼、olaratumab、奥希替尼、帕博西尼、帕尼单抗、帕比司他、派姆单抗、帕妥珠单抗、帕纳替尼、雷莫芦单抗、瑞戈非尼、瑞博西尼、利妥昔单抗、罗米地辛、卢卡帕尼、鲁索替尼、司妥昔单抗、西普鲁塞
‑
t、索尼德吉、索拉非尼、替西罗莫司、托珠单抗、托法替尼、托西莫单抗、曲美替尼、曲妥珠单抗、凡德他尼、维罗非尼、维奈托克、vismodegib、伏立诺他和雷莫芦单抗。根据各种实施方案,可以通过本文所述的单一药物或药物组合治疗个体。常见的治疗组合是环磷酰胺、甲氨蝶呤和5
‑
氟尿嘧啶(cmf)。
[0296]
在本文公开的任何一种方法的一些实施方案中,任何细胞游离核酸分子(例如,cfdna、cfrna)可以来源于细胞。例如,细胞样品或组织样品可以从受试者获得并进行处理以从样品中去除所有细胞,从而产生来源于样品的细胞游离核酸分子。
[0297]
在本文公开的任何一种方法的一些实施方案中,参考基因组序列可以来源于个体的细胞。个体可以是健康对照或接受本文公开的用于确定或监测病况的进展的方法的受试者。
[0298]
细胞可以是健康细胞。备选地,细胞可以是患病细胞。患病细胞可以具有改变的代谢、基因表达和/或形态特征。患病细胞可以是癌细胞、糖尿病细胞和凋亡细胞。患病细胞可以是来自患病受试者的细胞。示例性疾病可包括血液病、癌症、代谢病、眼病、器官病、肌肉骨骼病、心脏病等。
[0299]
细胞可以是哺乳动物细胞或来源于哺乳动物细胞。细胞可以是啮齿动物细胞或来源于啮齿动物细胞。细胞可以是人细胞或来源于人细胞。细胞可以是原核细胞或来源于原核细胞。细胞可以是细菌细胞或可以来源于细菌细胞。细胞可以是古细菌细胞或来源于古细菌细胞。细胞可以是真核细胞或来源于真核细胞。细胞可以是多能干细胞。细胞可以是植物细胞或来源于植物细胞。细胞可以是动物细胞或来源于动物细胞。细胞可以是无脊椎动物细胞或来源于无脊椎动物细胞。细胞可以是脊椎动物细胞或来源于脊椎动物细胞。细胞可以是微生物细胞或来源于微生物细胞。细胞可以是真菌细胞或来源于真菌细胞。细胞可以来自特定器官或组织。
[0300]
细胞的非限制性实例可包括淋巴细胞,例如b细胞、t细胞(细胞毒性t细胞、天然杀伤t细胞、调节性t细胞、t辅助细胞)、天然杀伤细胞、细胞因子诱导的杀伤(cik)细胞;髓样细胞,例如粒细胞(嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞/分叶过多嗜中性粒细胞)、单核细胞/巨噬细胞、红细胞(网织红细胞)、肥大细胞、血小板/巨核细胞、树突状细胞;来自内分泌系统的细胞,包括甲状腺(甲状腺上皮细胞、滤泡旁细胞)、甲状旁腺(甲状旁腺主细胞、嗜酸性细胞)、肾上腺(嗜铬细胞)、松果体(松果腺细胞)细胞;神经系统细胞,包括神经胶质细胞(星形胶质细胞、小胶质细胞)、大细胞神经分泌细胞、星状细胞、boettcher细胞和垂体(促性腺激素细胞、促肾上腺皮质激素细胞、促甲状腺素细胞、促生长激素细胞、催乳激素细胞);呼吸系统的细胞,包括肺细胞(i型肺细胞、ii型肺细胞)、克拉拉细胞、杯状细胞、噬尘细胞;循环系统的细胞,包括心肌细胞、周细胞;消化系统细胞,包括胃(胃主细胞、壁细
胞)、杯状细胞、潘氏细胞、g细胞、d细胞、ecl细胞、i细胞、k细胞、s细胞;肠内分泌细胞,包括肠嗜铬细胞、apud细胞、肝脏(肝细胞、枯否细胞)、软骨/骨/肌肉;骨细胞,包括成骨细胞、骨细胞、破骨细胞、牙齿(成牙骨质细胞、成釉细胞);软骨细胞,包括成软骨细胞、软骨细胞;皮肤细胞,包括毛细胞(trichocyte)、角质细胞、黑色素细胞(痣细胞);肌肉细胞,包括肌细胞;泌尿系统细胞,包括足状突细胞、肾小球旁细胞、肾小球内系膜细胞/肾小球外系膜细胞、肾近端小管刷状缘细胞、致密斑细胞;生殖系统细胞,包括精子、支持细胞、leydig细胞,卵子;以及其他细胞,包括脂肪细胞、成纤维细胞、腱细胞、表皮角质细胞(分化表皮细胞)、表皮基底细胞(干细胞)、指甲和脚趾甲的角质细胞、甲床基底细胞(干细胞)、髓质毛干细胞、皮质毛干细胞、表皮毛干细胞、表皮毛根鞘细胞、huxley层的毛根鞘细胞、henle层的毛根鞘细胞、外毛根鞘细胞、毛基质细胞(干细胞)、湿分层屏障上皮细胞,角膜、舌、口腔、食管、肛管、远端尿道和阴道的分层鳞状上皮的表面上皮细胞,角膜、舌、口腔、食管、肛管、远端尿道和阴道上皮的基底细胞(干细胞),泌尿上皮细胞(衬里膀胱和尿管)、外分泌分泌上皮细胞、唾液腺粘液细胞(富含多糖的分泌)、唾液腺浆液细胞(富含糖蛋白酶的分泌)、舌中的von ebner腺细胞(洗味蕾)、乳腺细胞(乳汁分泌)、泪腺细胞(泪液分泌)、耳中的盯聍腺细胞(蜡分泌)、外分泌汗腺暗细胞(糖蛋白分泌)、外分泌汗腺透明细胞(小分子分泌)、顶泌汗腺细胞(气味分泌,对性激素敏感)、眼睑中的莫耳腺细胞(特化的汗腺)、皮脂腺细胞(富含脂质的皮脂分泌)、鼻中的鲍曼腺细胞(洗涤嗅觉上皮)、十二指肠中的布伦纳氏腺细胞(酶和碱性粘液)、精囊细胞(分泌精液成分,包括用于游泳精子的果糖)、前列腺细胞(分泌精液成分)、尿道球腺细胞(粘液分泌)、前庭大腺细胞(阴道润滑液分泌)、利特雷氏腺细胞(粘液分泌)、子宫内膜细胞(碳水化合物分泌)、分离的呼吸道和消化道的杯状细胞(粘液分泌)、胃壁粘液细胞(粘液分泌)、胃腺酶原细胞(胃蛋白酶原分泌)、胃腺泌酸细胞(盐酸分泌)、胰腺腺泡细胞(碳酸氢盐和消化酶分泌)、小肠的潘氏细胞(溶菌酶分泌)、肺的ii型肺细胞(表面活性物质分泌)、肺的克拉拉细胞、激素分泌细胞、垂体前叶细胞、促生长激素细胞(somatotropes)、促乳素细胞、促甲状腺素细胞、促性腺激素细胞、促肾上腺皮质激素细胞、中间垂体细胞、巨细胞神经分泌细胞、肠道和呼吸道细胞、甲状腺细胞、甲状腺上皮细胞、滤泡旁细胞、甲状旁腺细胞、甲状旁腺主细胞、嗜酸性细胞、肾上腺细胞、嗜铬细胞、睾丸的莱氏细胞、卵泡内膜细胞、破裂卵泡的黄体细胞、粒状叶黄素细胞、膜叶黄素细胞、肾小球旁细胞(肾素分泌)、肾的致密斑细胞、代谢和储存细胞、屏障功能细胞(肺、肠道、外分泌腺和泌尿生殖道)、肾脏、i型肺细胞(衬里肺的空气空间)、胰管细胞(泡心细胞)、无纹状导管细胞(汗腺、唾液腺、乳腺等的)、导管细胞(精囊、前列腺等的)、衬里封闭内体腔的上皮细胞、具有推进功能的纤毛细胞、细胞外基质分泌细胞、可收缩细胞;骨骼肌细胞、干细胞、心肌细胞、血液和免疫系统细胞、红细胞(红血细胞)、巨核细胞(血小板前体)、单核细胞、结缔组织巨噬细胞(各种类型)、表皮朗格汉斯细胞、破骨细胞(骨中)、树突状细胞(淋巴组织中)、小胶质细胞(中枢神经系统中)、嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、肥大细胞、辅助性t细胞、抑制性t细胞、细胞毒性t细胞、天然杀伤性t细胞、b细胞、天然杀伤细胞、网织红细胞、血液和免疫系统的干细胞和定向祖细胞(各种类型)、多能干细胞、全能干细胞、诱导多能干细胞、成体干细胞、感觉传感器细胞、自主神经元细胞、感觉器官和外周神经元支持细胞、中枢神经系统神经元和神经胶质细胞、晶状体细胞、色素细胞、黑色素细胞、视网膜色素上皮细胞、生殖细胞、卵原细胞/卵母细胞、精子细胞、精母细胞、精原细胞(精母细
胞的干细胞)、精子、哺育细胞、卵巢卵泡细胞、支持细胞(睾丸中)、胸腺上皮细胞、间质细胞和间质肾细胞。
[0301]
在本文公开的任何一种方法的一些实施方案中,病况可以是癌症或肿瘤。此类病况的非限制性实例可包括棘皮瘤、腺泡细胞癌、听觉神经瘤、肢端着色斑黑色素瘤、肢端汗腺瘤、急性嗜酸性粒细胞白血病、急性成淋巴细胞白血病、急性成巨核细胞白血病、急性单核细胞白血病、成熟的急性成髓细胞白血病、急性髓细胞性树突状细胞白血病、急性髓细胞性白血病、急性早幼粒细胞白血病、釉质瘤、腺癌、腺样囊性癌、腺瘤、腺瘤样牙源性肿瘤、肾上腺皮质癌、成人t细胞白血病、侵袭性nk细胞白血病、aids相关癌症、aids相关淋巴瘤、肺泡软部肉瘤、成釉细胞纤维瘤、肛门癌、间变性大细胞淋巴瘤、甲状腺未分化癌、血管免疫母细胞性t细胞淋巴瘤、血管平滑肌脂肪瘤、血管肉瘤、阑尾癌、星形细胞瘤、非典型畸胎瘤样横纹肌样瘤、基底细胞癌、基底样癌、b
‑
细胞白血病、b细胞淋巴瘤、贝里尼管癌、胆道癌、膀胱癌、胚细胞瘤、骨癌、骨肿瘤、脑干胶质瘤、脑肿瘤、乳腺癌、brenner肿瘤、支气管肿瘤、细支气管肺泡癌、brown肿瘤、伯基特淋巴瘤、原发部位不明的癌症、类癌瘤、癌、原位癌、阴茎癌、未知原发部位癌、癌肉瘤、castleman病、中枢神经系统胚胎性肿瘤、小脑星形细胞瘤、脑星形细胞瘤、宫颈癌、胆管癌、软骨瘤、软骨肉瘤、脊索瘤、绒毛膜癌、脉络丛乳头状瘤、慢性淋巴细胞白血病、慢性单核细胞白血病、慢性骨髓性白血病、慢性骨髓增生性疾病、慢性嗜中性粒细胞白血病、透明细胞瘤、结肠癌、结直肠癌、颅咽管瘤、皮肤t细胞淋巴瘤、德戈斯病、皮肤纤维肉瘤突起、皮样囊肿、促结缔组织增生性小圆细胞瘤、弥漫性大b细胞淋巴瘤、胚胎发育不良神经上皮肿瘤、胚胎癌、内胚窦瘤、子宫内膜癌、子宫内膜子宫癌、子宫内膜样肿瘤、肠病相关t细胞淋巴瘤、室管膜母细胞瘤、室管膜瘤、上皮样肉瘤、红白血病、食管癌、嗅神经母细胞瘤、尤文家族肿瘤、尤文家族肉瘤、尤文氏肉瘤、颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、肝外胆管癌、乳房外佩吉特病、输卵管癌、寄生胎、纤维瘤、纤维肉瘤、滤泡性淋巴瘤、滤泡性甲状腺癌、胆囊癌、胆囊癌、神经节神经胶质瘤、节细胞神经瘤、胃癌、胃淋巴瘤、胃肠道癌、胃肠道类癌瘤、胃肠道间质瘤、胃肠道间质瘤、生殖细胞肿瘤、生殖细胞瘤、妊娠绒毛膜癌、妊娠滋养细胞肿瘤、骨巨细胞瘤、多形性胶质母细胞瘤、胶质瘤、脑胶质瘤病、血管球瘤、胰高血糖素瘤、性腺母细胞瘤、颗粒细胞肿瘤、毛细胞白血病、毛细胞白血病、头颈癌、头颈癌、心脏癌、血管母细胞瘤、血管外皮细胞瘤、血管肉瘤、血液系统恶性肿瘤、肝细胞癌、肝脾t细胞淋巴瘤、遗传性乳腺
‑
卵巢癌综合征、霍奇金淋巴瘤、霍奇金氏淋巴瘤、下咽癌、下丘脑胶质瘤、炎性乳腺癌、眼内黑色素瘤、胰岛细胞癌、胰岛细胞肿瘤、幼年髓单核细胞白血病,卡波西肉瘤、卡波西氏肉瘤、肾癌、klatskin瘤、krukenberg瘤、喉癌、喉癌、恶性雀斑样痣黑色素瘤、白血病、血癌、唇和口腔癌、脂肪肉瘤、肺癌、黄体瘤、淋巴管瘤、淋巴管肉瘤、淋巴上皮瘤、淋巴样白血病、淋巴瘤、巨球蛋白血症、恶性纤维组织细胞瘤、恶性纤维性组织细胞瘤、骨恶性纤维性组织细胞瘤、恶性胶质瘤、恶性间皮瘤、恶性周围神经鞘瘤、恶性横纹肌样瘤、恶性蝾螈瘤、malt淋巴瘤、套细胞淋巴瘤、肥大细胞白血病、纵隔生殖细胞肿瘤、纵隔肿瘤、甲状腺髓样癌、成神经管细胞瘤、成神经管细胞瘤、髓质上皮瘤、黑色素瘤、黑色瘤、脑膜瘤、默克尔细胞癌、间皮瘤、间皮瘤、隐匿原发性转移性鳞状颈癌、转移性尿路上皮癌、苗勒管混合瘤、单核细胞白血病、口腔癌、粘液性肿瘤、多发性内分泌瘤形成综合征、多发性骨髓瘤、多发性骨髓瘤、蕈样真菌病、蕈样肉芽肿、髓增生异常病、骨髓增生异常综合征、骨髓性白血病、骨髓肉瘤、骨髓增生性疾病、粘液瘤、鼻腔癌、鼻咽肿瘤、鼻咽癌、赘生物、
神经鞘瘤、神经母细胞瘤、成神经细胞瘤、神经纤维瘤、神经瘤、结节性黑色素瘤、非霍奇金淋巴瘤、非霍奇金淋巴瘤、非黑素瘤皮肤癌、非小细胞肺癌、眼部肿瘤学、少突星形细胞瘤、少突胶质细胞瘤、大嗜酸细胞瘤、视神经鞘脑膜瘤、口腔癌、口腔癌、口咽癌、骨肉瘤、骨肉瘤、卵巢癌、卵巢癌、卵巢上皮细胞癌、卵巢生殖细胞肿瘤、卵巢低恶性潜能肿瘤、乳腺佩吉特病、肺上沟癌、胰腺癌、胰腺癌、胰腺癌、甲状腺乳头状癌、乳头状瘤病、副神经节瘤、副鼻窦癌、甲状旁腺癌、阴茎癌、血管周围上皮样细胞瘤、咽癌、嗜铬细胞瘤、中分化松果体实质肿瘤、松果体母细胞瘤、垂体细胞瘤、垂体腺瘤、垂体瘤、浆细胞赘生物、胸膜肺母细胞瘤、多胚瘤、前体t淋巴细胞淋巴瘤、原发性中枢神经系统淋巴瘤、原发性渗出性淋巴瘤、原发性肝细胞癌、原发性肝癌、原发性腹膜癌、原始神经外胚层肿瘤、前列腺癌症、腹膜假粘液瘤、直肠癌、肾细胞癌、涉及第15号染色体上nut基因的呼吸道癌、视网膜母细胞瘤、横纹肌瘤、横纹肌肉瘤、richter转化、骶尾部畸胎瘤、唾液腺癌、肉瘤、神经鞘瘤病、皮脂腺癌、继发性赘生物、精原细胞瘤、浆液性肿瘤、sertoli
‑
leydig细胞瘤、性索间质瘤、sezary综合征,印戒细胞癌、皮肤癌、小蓝圆细胞瘤、小细胞癌、小细胞肺癌、小细胞淋巴瘤、小肠癌、软组织肉瘤、生长抑素瘤、烟尘疣、脊髓肿瘤、脊髓肿瘤、脾边缘区淋巴瘤、鳞状细胞癌、胃癌、浅表扩散性黑色素瘤、幕上原始神经外胚层肿瘤、表面上皮间质瘤、滑膜肉瘤、t细胞急性淋巴细胞白血病、t细胞大颗粒淋巴细胞白血病、t细胞白血病、t细胞淋巴瘤、t细胞幼淋巴细胞白血病、畸胎瘤、终末淋巴癌、睾丸癌、泡膜细胞瘤、喉癌、胸腺癌、胸腺瘤、甲状腺癌、肾盂和输尿管移行细胞癌、移行细胞癌、脐尿管癌、尿道癌、泌尿生殖系统赘生物、子宫肉瘤、葡萄膜黑色素瘤、阴道癌、verner morrison综合征、疣状癌、视觉通路胶质瘤、外阴癌、waldenstrom巨球蛋白血症、warthin瘤和wilms瘤。
[0302]
根据各种实施方案,可以检测多种类型的赘生物,包括(但不限于)急性成淋巴细胞白血病(all)、急性髓性白血病(aml)、肛门癌、星形细胞瘤、基底细胞癌、胆管癌、膀胱癌、乳腺癌、伯基特淋巴瘤、宫颈癌、慢性淋巴细胞白血病(cll)、慢性骨髓性白血病(cml)、慢性骨髓增生性肿瘤、结直肠癌、弥漫性大b细胞淋巴瘤、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤文肉瘤、输卵管癌、滤泡性淋巴瘤、胆囊癌、胃癌、胃肠道类癌、毛细胞白血病、肝细胞癌、霍奇金淋巴瘤、下咽癌、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、默克尔细胞癌、间皮瘤、口腔癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、骨肉瘤、卵巢癌、胰腺癌、胰腺神经内分泌肿瘤、咽癌、垂体瘤、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、皮肤癌、小细胞肺癌、小肠癌、鳞状颈癌、t细胞淋巴瘤、睾丸癌、胸腺瘤、甲状腺癌、子宫癌、阴道癌和血管肿瘤。
[0303]
许多实施方案涉及在个体的癌症治疗期间进行的诊断或伴随诊断扫描。在治疗期间进行诊断扫描时,可以监测药剂治疗癌症生长的能力。大多数抗癌治疗剂导致赘生物细胞的死亡和坏死,这应从这些细胞中释放出更多的核酸到被测试的样品中。因此,循环肿瘤核酸的水平可以随着时间的推移进行监测,因为该水平应该在早期治疗期间增加并随着癌细胞数量的减少而开始减少。在一些实施方案中,基于对癌细胞的治疗效果调整治疗。例如,如果治疗对肿瘤细胞没有细胞毒性,则可以增加剂量或施用具有更高细胞毒性的药剂。备选地,如果癌细胞的细胞毒性良好但不想要的副作用高,则可以减少剂量或可以施用副作用较小的药剂。
[0304]
各种实施方案还涉及在个体治疗后进行的诊断扫描以检测残留疾病和/或癌症复
发。如果诊断扫描表明癌症残留和/或复发,则可以如本文所述进行进一步的诊断测试和/或治疗。如果癌症和/或个体容易复发,可以经常进行诊断扫描以监测任何潜在的复发。
[0305]
f.计算机系统
[0306]
在一个方面,本公开内容提供了一种计算机程序产品,其包括具有在其中编码的计算机可执行代码的非暂时性计算机可读介质,该计算机可执行代码经调整以适于被执行以实现前述方法中的任一个。
[0307]
本公开内容提供了经编程以实现本公开内容的方法的计算机系统。在一些情况下,该系统可以包括组件例如处理器、用于输入测序数据或从其衍生的数据的输入模块、包含指令的计算机可读介质(当由处理器执行时,该指令对输入执行关于一个或多个细胞游离核酸分子的算法)以及提供与病况相关的一个或多个标记的输出模块。
[0308]
图27示出了计算机系统2701,该计算机系统2701被编程或以其他方式配置为实现本文公开的方法的部分或全部。计算机系统2701可以调节本公开内容的各个方面,例如,(i)从来源于多个细胞游离核酸分子的测序数据中鉴别包含多个定相变异的一个或多个细胞游离核酸分子,(ii)分析任何鉴别的细胞游离核酸分子,(iii)至少部分基于所鉴别的细胞游离核酸分子确定受试者的病况,(iv)至少部分基于所鉴别的细胞游离核酸分子来监测受试者的病况的进展,(v)至少部分基于所鉴别的细胞游离核酸分子来鉴别受试者,或(vi)至少部分基于所鉴别的细胞游离核酸分子来确定受试者的病况的适当的治疗。计算机系统2701可以是用户的电子设备或相对于电子设备位于远程的计算机系统。电子设备可以是移动电子设备。
[0309]
计算机系统2701包括中央处理单元(cpu,在此也称为“处理器”和“计算机处理器”)2705,其可以是单核或多核处理器,或用于并行处理的多个处理器。计算机系统2701还包括存储器或存储位置2710(例如,随机存取存储器、只读存储器、闪存)、电子存储单元2715(例如,硬盘)、用于与一个或多个其他系统通信的通信接口2720(例如,网络适配器)和外围设备2725,例如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器2710、存储单元2715、接口2720和外围设备2725通过通信总线(实线)例如母板与cpu 2705通信。存储单元2715可以是用于存储数据的数据存储单元(或数据仓库)。计算机系统2701可以在通信接口2720的帮助下可操作地耦合到计算机网络(“网络”)2730。网络2730可以是因特网、互联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下,网络2730是电通信和/或数据网络。网络2730可以包括一个或多个计算机服务器,其可以实现分布式计算,例如云计算。网络2730在一些情况下在计算机系统2701的帮助下可以实现对等网络,其可以使耦合到计算机系统2701的设备能够充当客户端或服务器。
[0310]
cpu 2705可以执行一系列机器可读指令,这些指令可以体现在程序或软件中。指令可以存储在存储位置,例如存储器2710。指令可以被引导到cpu 2705,其可以随后编程或以其他方式配置cpu 2705以实现本公开内容的方法。cpu 2705执行的操作的实例可以包括获取、解码、执行和写回。
[0311]
cpu 2705可以是电路(例如集成电路)的一部分。系统2701的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(asic)。
[0312]
存储单元2715可以存储文件,例如驱动程序、文库和保存的程序。存储单元2715可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统2701可以包括一个
或多个位于计算机系统2701外部的附加数据存储单元,例如位于通过内联网或因特网与计算机系统2701通信的远程服务器上。
[0313]
计算机系统2701可以通过网络2730与一个或多个远程计算机系统进行通信。例如,计算机系统2701可以与用户的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如便携式pc)、平板计算机或平板电脑(例如ipad、galaxy tab)、电话、智能手机(例如iphone、支持android的设备、)或个人数字助理。用户可以通过网络2730访问计算机系统2701。
[0314]
如本文所述的方法可以通过存储在计算机系统2701的电子存储位置(例如,存储器2710或电子存储单元2715)上的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用过程中,代码可由处理器2705执行。在一些情况下,代码可以从存储单元2715中取回并存储在存储器2710中以供处理器2705随时访问。在一些情况下,电子存储单元2715可以排除,并且机器可执行指令存储在存储器2710上。
[0315]
代码可以被预编译和配置为与具有适于执行代码的处理器的机器一起使用,或者可以在运行时被编译。代码可以以编程语言提供,可以选择该语言以使代码能够以预编译或所编译(as
‑
compiled)的方式执行。
[0316]
本文提供的系统和方法的方面(例如计算机系统2701)可以体现在编程中。该技术的各个方面可以被认为是通常以携带于或体现在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元上,例如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘。“存储”型介质可包括计算机、处理器等或其相关模块的任何或所有有形存储器,例如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可随时提供非暂时性存储以用于软件编程。软件的全部或部分有时可以通过互联网或各种其他电信网络进行通信。例如,这样的通信可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器中,例如从管理服务器或主机计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一种类型的介质包括光波、电波和电磁波,例如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种空中链路使用。承载这种波的物理元件(例如有线或无线链路、光链路等)也可以被认为是承载软件的介质。如本文所用,除非限于非暂时性、有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
[0317]
因此,机器可读介质例如计算机可执行代码可以采用多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,例如任何计算机等中的任何存储设备,例如可用于实现图中所示的数据库等。易失性存储介质包括动态存储器,例如此类计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的电线。载波传输介质可以采用电信号或电磁信号或者声波或光波(例如在射频(rf)和红外(ir)数据通信期间产生的那些)的形式。因此,计算机可读介质的常见形式包括例如:软盘、可折叠磁盘、硬盘、磁带、任何其他磁介质、cd
‑
rom、dvd或dvd
‑
rom、任何其他光学介质、打孔卡纸磁带、任何其他带有孔洞图案的物理存储介质、ram、rom、prom和eprom、flash
‑
eprom、任何其他存储芯片或盒式磁带、传输数据或指令的载波、
传输此类载波的电缆或链接或计算机可以从中读取编程代码和/或数据的任何其他介质。计算机可读介质的许多这些形式可能涉及将一个或多个指令的一个或多个序列传送到处理器以用于执行。
[0318]
计算机系统2701可以包括电子显示器2735或与电子显示器2735通信,该电子显示器2735包括用户界面(ui)2740以用于提供例如(i)所鉴别的任何细胞游离核酸分子的分析,(ii)至少部分基于所鉴别的细胞游离核酸分子的确定的受试者的病况,(iii)至少部分基于所鉴别的细胞游离核酸分子的确定的受试者的病况的进展,(iv)至少部分基于所鉴别的细胞游离核酸分子的鉴别的怀疑患有病况的受试者,或(v)至少部分基于所鉴别的细胞游离核酸分子的确定的受试者的病况的治疗。ui的实例包括但不限于图形用户界面(gui)和基于web的用户界面。
[0319]
本公开内容的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元2705执行时通过软件的方式来实现。该算法可以例如(i)从来源于多个细胞游离核酸分子的测序数据中鉴别包含多个定相变异的一个或多个细胞游离核酸分子,(ii)分析任何鉴别的细胞游离核酸分子,(iii)至少部分基于所鉴别的细胞游离核酸分子确定受试者的病况,(iv)至少部分基于所鉴别的细胞游离核酸分子监测受试者的病况的进展,(v)至少部分基于所鉴别的细胞游离核酸分子鉴别受试者,或(vi)至少部分基于所鉴别的细胞游离核酸分子来确定受试者的病况的适当治疗。
[0320]
实施例
[0321]
以下举例说明性实施例是本文描述的刺激、系统和方法的实施方案的代表,并不意味着以任何方式进行限制。
[0322]
实施例1:定相变异的基因组分布
[0323]
描述了用于降低背景错误率的双链体测序的替代方法,其涉及“定相变异”(pv)的检测,其中两个或多个突变顺式发生(即,在dna的同一条链上,图1a和图1e)。与双链体测序类似,由于在个体分子中两个单独的非参考事件的一致检测,该方法提供了较低的错误特征谱。然而,与双链体测序不同的是,这两个事件都发生在同一个测序读数对上,从而提高了基因组恢复的效率。定相突变存在于不同的癌症类型中,但发生在b细胞恶性肿瘤中基因组的典型部分中,这可能是由于活化诱导脱氨酶(aid)驱动的中靶和异常体细胞超突变(ashm)。鉴别了b细胞非霍奇金淋巴瘤(nhl)中ashm的最常见区域。本文描述的是定相变异富集和检测测序(phased
‑
seq),这是一种通过在百万分之几的数量级上相对肿瘤分数的定相变异检测ctdna的新方法。本文描述的是证明phased
‑
seq可以在治疗期间和疾病复发前显著改善临床样品中ctdna的检测。
[0324]
为了鉴别其中pv可能潜在地改善疾病检测的恶性肿瘤,评估了跨癌症类型的pv的频率。对公众可用的全基因组测序数据进行分析,以鉴别以间距<170bp(其代表了由单个核心核小体和相关接头组成的单个cfdna片段的典型长度)发生的变异组。鉴别并总结了来自24种癌症组织学(包括实体瘤和血液系统恶性肿瘤)的2538个肿瘤的控制snv总数的这些“推定的定相变异”(实施例10)的频率(图1b、图5和表1)。pv在两种b细胞淋巴瘤(dlbcl和滤泡性淋巴瘤,fl,相对所有其他组织学p<0.05)(这是一组具有由aid/aicda驱动的超突变的疾病)中最显著富集。
[0325]
实施例2:pv的突变机制
[0326]
为了研究pv的起源,比较了促成在另一个snv的170bp内发生的snv和单独发生的snv(例如,在170bp内没有另一个snv)(实施例10)的单碱基取代(sbs)突变特征。如预期的,pv在与聚集的突变相关的几个突变特征中高度富集。与aid(sbs84和sbs85)的活性相关的聚集突变的特征在来自b细胞淋巴瘤和cll的pv中显著富集,而与apobec3b(sbs2和sbs13)的活性相关的特征(kataegis超变的另一种机制)在来自多种实体癌组织学(包括卵巢癌、胰腺癌、前列腺癌和乳腺癌)的pv中显著富集(图1c和图6a
‑
6ww)。与aid(sbs84和sbs85)的活性相关的聚集簇突变的特征在淋巴瘤和cll中发现的pv中富集,而与apobec3b(sbs2和sbs13)的活性相关的特征在乳腺癌中显著富集(图1c和图6a
‑
6ww)。来自多种肿瘤类型的pv也与sbs4相关,这是与烟草使用相关的特征。此外,在跨多个肿瘤组织学的pv中,观察到没有明确相关机制的在几个其他特征(例如,sbs24、sbs37、sbs38和sbs39)中的新富集。相比之下,诸如sbs1和sbs5的与衰老相关的突变特征在分离的snv中显著富集。
[0327]
实施例3:pv发生在淋巴癌中的典型基因组区域中
[0328]
为了评估推定的pv的基因组分布,首先将这些事件分箱到1
‑
kb区域中以可视化它们在肿瘤类型中的频率。观察到个体淋巴样赘生物(例如dlbcl、fl、伯基特淋巴瘤(bl)和慢性淋巴细胞白血病(cll);图1d和图7)中pv的显著典型分布。相比之下,非淋巴样癌通常不在典型区域中表现出聚集pv的大量复发。即使考虑到黑色素瘤和肺癌、具有频繁pv的疾病,pv的位置中典型性的这种缺乏也是真实的。
[0329]
值得注意的是,大多数超突变区域在所有三种淋巴瘤亚型之间共享,其中在ashm的已知靶标(包括bcl2、bcl6和myc)以及编码重和轻链igh、igk和igl的免疫球蛋白(ig)基因座中看到最高密度(表2)。引人注目的是,在几乎所有淋巴瘤患者以及cll患者中,ig基因座内的某些区域发生了密集突变(图1d)。在淋巴瘤亚型中,dlbcl肿瘤含有最多的反复包含pv的1kb区域(图8a),这与在该肿瘤类型中观察到的最高数量的反复突变的基因一致。总共鉴别了1639个独特的反复含有b淋巴恶性肿瘤中的pv的1
‑
kb区域。在这些与淋巴瘤相关的1
‑
kb区域中,近三分之一落入以前与b细胞中的生理或异常shm相关的基因组区域。具体而言,19%(315/1639)位于ig区域中,而13%(218/1639)在ashm的68个先前鉴别的靶标的部分中(表2)。虽然大多数pv落入基因组的非编码区域中,但还鉴别了以前未被描述为ashm的靶标的其他反复受影响的基因座,包括xbp1、lpp和aicda等。
[0330]
每个淋巴恶性肿瘤内pv的分布与同相应疾病的不同病理生理学相关的致癌特征相关。例如,fl的病例(其中超过90%的肿瘤具有致癌bcl2融合)与其他淋巴恶性肿瘤相比,显著更可能包含bcl2中的定相变异(图1d和图8b)。类似地,与其他淋巴恶性肿瘤相比,显著更多的伯基特淋巴瘤(bl)在myc和id3(这两个驱动基因与bl发病机制密切相关)中含有pv(图1d和图8c
‑
8d)。与不同起源细胞相关的dlbcl分子亚型也表现出不同的pv分布(表2)。具体来说,虽然生发中心b细胞样(gcb)和活化的b细胞样(abc)dlbcl总体上具有相似的pv频率(中位数798相对516,p=0.37),但发现了在abc
‑
dlbcl中端粒igh类别转换区域(sγ1和sγ3)中pv的显著富集,与之前的报道41一致(图8e)。相反,gcb
‑
dlbcl在着丝粒igh类别转换区域(sα2和sε)和bcl2中包含更多的定相单倍型。
[0331]
实施例4:针对淋巴瘤的phased
‑
seq实验组的设计和验证
[0332]
为了验证这些富集pv的区域并评估它们用于从ctdna检测疾病的效用,设计了靶向来自三个独立的dlbcl患者群组以及cll患者的wgs中鉴别的推定pv的测序实验组(图2a
和实施例10)。这个最终的定相变异富集和检测测序(phased
‑
seq)实验组靶向集中于pv的约115kb的基因组空间,以及额外的在b
‑
nhl中反复突变的约200kb靶向基因(表3)。虽然专用于pv捕获的115kb的空间仅靶向人基因组的0.0035%,但它捕获了在通过wgs分析的成熟b细胞赘生物中观察到的26%的定相变异(图9a),从而产生了相对于wgs的通过phased
‑
seq实现的约7500倍的pv富集。
[0333]
将预期的snv和pv恢复与先前报道的被设计为使b细胞淋巴瘤中每位患者的snv最大化的capp
‑
seq选择器进行比较(图9a
‑
c)。在考虑具有可用的wgs数据的不同b
‑
nhl时,与之前的capp
‑
seq实验组相比,phased
‑
seq在中位数病例中恢复了3.0倍的snv(81相对27)和2.9倍的pv(50相对17)。这一观察强调了包括基因组的非编码部分对于最大突变恢复率的重要性。为了通过实验验证这些产率提高,对来自dlbcl患者的16个预处理肿瘤或血浆dna样品(表4)进行了分析。capp
‑
seq和phased
‑
seq实验组平行应用于每个样品,然后将它们测序到高度独特的分子深度(图2b)。与从wgs建立的预期富集相比,观察到与capp
‑
seq相比,phased
‑
seq对snv产率的类似改善(2.7倍;中值304.5相对114)。然而,当枚举在测序的个体dna片段中观察到的pv时,发现超出来自wgs的预期改善的有利于phased
‑
seq的改善(7.7倍;中值5554相对719.5个pv/病例)。这种改善可能是由于1)靶向测序中更高的测序深度,其导致稀有等位基因检测的改善,或2)在使用phased
‑
seq或capp
‑
seq的靶向测序中更高阶的pv的列举,其在wgs设计中未考虑到(即每个片段>2个snv;图9d
‑
9f)。此外,在实验组中的1
‑
kb窗口中,观察到wgs数据中的推定pv与101个dlbcl样品中来自通过phased
‑
seq的靶向测序的pv的频率之间的鲁棒相关性(图2c),进一步验证了b细胞恶性肿瘤中pv的频率和分布。
[0334]
实施例5:淋巴瘤亚型之间的定相变异的差异
[0335]
已经验证了phased
‑
seq实验组,现检查各种b细胞恶性肿瘤(包括dlbcl(n=101)、原发性纵隔b细胞淋巴瘤(pmbcl)(n=16)和经典霍奇金淋巴瘤(chl)(n=23))之间的pv的生物学差异。每个病例鉴别的snv的数量在淋巴瘤亚型之间没有显著差异(图9g
‑
9k)。然而,在考虑突变单倍型时,chl的pv负荷明显低于dlbcl或pmbcl。除了这种数量差异之外,还观察到不同b细胞淋巴瘤亚型之间pv的基因组位置的差异(图2d
‑
2e和图10
‑
12)。这包括先前在dlbcl亚型中建立的生物学关联,包括与abc型dlbcl相比在gcb型中的bcl2中更频繁的pv,而对于pim1观察到相反的关联。还观察到与dlbcl相比,在pmbcl中的ciita(其是其中断点在pmbcl中常见的基因)中更频繁的pv。在整个igh基因座中还观察到了相对富集,其中在abc
‑
dlbcl(与gcb
‑
dlbcl相比)中的sγ3和sγ1区域看到更频繁的pv,有趣的是,与dlbcl相比,在chl中的sε基因座中更频繁的pv(图2和图13)。总的来说,在用于测试多个假设的校正后,发现abc
‑
和gcb
‑
dlbcl之间的25个基因座、dlbcl和pmbcl之间的24个基因座以及dlbcl和chl之间的40个基因座中的显著相对富集(图10
‑
12)。
[0336]
实施例6:通过phased
‑
seq的定相变异的恢复
[0337]
为了促进使用pv检测ctdna,需要有效恢复dna分子。杂交捕获测序可能对dna错配敏感,其中增加的突变降低杂交效率。事实上,aid热点可能包含5
‑
10%的局部突变率,其中在igh的某些区域中甚至有更高的比率。为了凭经验评估突变率对捕获效率的影响,模拟了在计算机模拟中具有不同突变率的150聚体的dna杂交。如预期的,预测的结合能随着突变数量的增加而降低(图14a)。值得注意的是,随机分布的突变对结合能的影响比聚集突变更
大。为了评估这种降低的结合亲和力的影响,合成了在myc和bcl6(作为ashm的靶标的两个基因座)中与参考序列有0%到10%差异的150聚体dna寡核苷酸。为了评估杂交的最坏情况,非参考碱基随机分布而不是聚集分布(实施例10)。然后用phased
‑
seq实验组捕获这些寡核苷酸的等摩尔混合物。与计算机模拟预测一致,增加的突变率导致降低的捕获效率(图3a)。相对于完全野生型对应物,具有5%突变率的分子以85%的效率被捕获,而具有10%突变的分子仅以27%的相对效率被捕获。为了评估这种突变程度在人肿瘤中的普遍性,检查了140名b细胞淋巴瘤患者的实验组中变异的分布,其计算重叠151
‑
bp窗口中突变碱基的分数(实施例10)。只有7%(10/140)的患者具有超过10%突变率的任何151
‑
bp窗口(图14b
‑
c)。事实上,在使用合成寡核苷酸的实验中,5%的突变率几乎与野生型序列一样有效地被恢复。在所考虑的所有病例的超过一半中,没有基因座在任何窗口处具有>5%的突变率,而在所有病例中,>90%的窗口具有<5%的突变。总体而言,这些观察表明,尽管存在杂交偏好性,但大多数定相突变可通过有效的杂交捕获来恢复。
[0338]
实施例7:定相变异测序的错误特征谱和检测限
[0339]
应用于cfdna的高度错误抑制的测序的先前方法已经利用用于错误抑制(例如,集成数字错误抑制,ides)的分子和计算机模拟方法的组合或双链分子恢复。然而,这些方法中的每一个都有局限性,无论是用于检测超低肿瘤分数的事件还是用于有效恢复原始dna分子,这是在输入dna有限时cfdna分析的重要考虑因素。通过phased
‑
seq的错误特征谱和来自12个健康成人的血浆cfdna样品的输入基因组的恢复与ides
‑
capp
‑
seq和双链体测序进行了比较。虽然ides增强的capp
‑
seq比单独的条形码去重复具有更低的背景错误特征谱,但双链体测序为非参考单核苷酸替换提供最低的背景错误率(图3b,3.3x10
‑5相对1.2x10
‑5,p<0.0001)。然而,在ides增强的capp
‑
seq或双链体测序数据中,定相错误率(例如,在同一测序片段上出现多个非参考碱基)显著低于单个错误率。这对于同一dna分子上两个(2x或“双联体”pv)或三个(3x或“三联体”pv)取代的发生率是正确的(图3b,分别为8.0x10
‑7和3.4x10
‑8,p<0.0001)。包含c到t或t到c转换取代的定相错误比其他类型的pv更常见(图14d)。值得注意的是,cfdna中的双联体pv错误率还与位置之间的距离相关,其中最高的pv错误率由相邻的snv(例如dnv)组成,并且错误率随着组成变异之间距离的增加而降低(图14e)。在考虑独特的分子深度时,双链体测序仅恢复了所有独特cfdna片段的19%(图3c)。相比之下,<20bp的基因组距离内的pv的独特深度几乎与个体位置的深度相同(例如,覆盖个体snv的分子)。类似地,大小为至多80bp的pv的深度大于样品的中位独特分子深度的50%。重要的是,几乎一半(48%)的所有pv都在彼此的80bp之内,证明了它们用于从输入受限的cfdna样品检测疾病的效用(图3d)。
[0340]
为了定量比较phased
‑
seq与用于ctdna检测的替代方法的性能,产生了来自3名淋巴瘤患者的ctdna在健康对照cfdna中的有限稀释液,导致0.1%至0.00005%(1/2,000,000)的预期的肿瘤分数(实施例10)。将预期的肿瘤分数与这些稀释液中的每一个中使用phased
‑
seq的估计的肿瘤含量进行比较,以跟踪肿瘤来源的pv,以及与依赖于个体snv的错误抑制检测方法(例如ides
‑
增强的capp
‑
seq或双链体测序;图3e)进行比较。所有方法在肿瘤分数低至0.01%(1/10,000)时表现同样出色。然而,低于此水平(例如,0.001%、0.0002%、0.0001%和0.00005%)时,phased
‑
seq和双链体测序均显著优于ides增强的capp
‑
seq(对于双链体、“2x”phased
‑
seq和“3x”phased
‑
seq,p<0.0001;图3e)。此外,当与双
链体测序相比,跟踪2或3个同相变异(例如,2x和3x phased
‑
seq)更准确地鉴别了预期的肿瘤含量,具有低至1/2,000,000的优越线性度(对于双链体相对2x phased
‑
seq,p=0.005,对于3x phased
‑
seq,p=0.002)(实施例10)。通过在来自12名不相关的健康对照受试者和用于有限稀释的健康对照的cfdna样品中寻找肿瘤来源的snv或pv的证据,评估了pv的特异性。同样,2x
‑
或3x
‑
phased
‑
seq均显示出比capp
‑
seq和双链体测序显著更低的背景信号水平(图3f)。这种较低的错误率和来自pv的背景提高了ctdna疾病检测的检测限。在一些情况下,本文所述的基于测序的cfdna测定方法(例如图3e和图3f中描述的方法)不需要分子条形码来实现精确的错误抑制和低检测限。通过不使用条形码的方法评估的信号使用从1:1,000至5:10,000,000的有限稀释系列和“空白”对照(图23a
‑
23b)。
[0341]
该稀释系列用于评估给定数量的pv的检测限(图3g
‑
3i)。当考虑150个碱基对(bp)区域内的一组pv时,可以通过二项式采样准确建模给定样品的检测概率,同时考虑测序深度和具有pv的150bp区域的数量(实施例10)。
[0342]
实施例8:低负荷最小残留疾病的检测的改善
[0343]
为了测试由phased
‑
seq提供的较低lod用于检测来自cfdna的超低负荷mrd的效用,对来自接受针对dlbcl的一线治疗的患者的连续细胞游离dna样品进行测序(图4a)。使用capp
‑
seq,该患者仅在一个治疗周期后就具有无法检测到ctdna,其中治疗期间和治疗后的多个后续样品也保持无法检测到。该患者在治疗开始后>250天具有后续再次出现的可检测的ctdna,最终在5个月后出现临床和放射学疾病进展,表明使用capp
‑
seq的假阴性连续测量结果。引人注目的是,治疗期间和治疗后通过capp
‑
seq无法检测到的所有四个血浆样品都具有通过phased
‑
seq可检测到的ctdna水平,其中平均等位基因分数低至6/1,000,000。与放射学监测相比,这种增加的灵敏度将通过ctdna的疾病检测的前置期从使用capp
‑
seq的5个月提高到使用phased
‑
seq的10个月。
[0344]
接下来,评估了107名患有大b细胞淋巴瘤的患者的群组中和1或2个周期的标准免疫化疗后可用的血液样品中的phased
‑
seq ctdna检测的性能。重要的是,通过phased
‑
seq测量的ctdna水平与通过capp
‑
seq测量的水平高度相关。总共评估了443个肿瘤、种系和细胞游离dna样品,包括治疗前(n=107)和1或2个治疗周期后(n=82和89)的cfdna。在治疗之前,在98%的样品中可通过phased
‑
seq检测到患者特异性pv,在来自健康对照的cfdna中具有95%的特异性(图15和16a)。重要的是,考虑到治疗前和治疗后样品,通过phased
‑
seq测量的ctdna水平与通过capp
‑
seq测量的ctdna水平高度相关(spearman rho=0.91,图16b)。接下来,比较了治疗开始后通过phased
‑
seq和capp
‑
seq从cfdna样品测量的ctdna的定量水平。在1或2个周期后具有可通过phased
‑
seq检测到的ctdna的样品中总共72%(78/108)也被常规capp
‑
seq检测到(图4b)。在通过phased
‑
seq检测到的108个样品中,相对于具有使用常规capp
‑
seq可检测到(72%)的ctdna水平的样品,对于具有无法检测到(28%)的ctdna水平的样品,疾病负荷显著较低,其中在中位ctdna水平中有>10倍的差异(肿瘤分数2.2x10
‑4相对1.2x10
‑5,p<0.001,图4b)。在比较phased
‑
seq和capp
‑
seq时,在1个治疗周期后总共有另外16%(13/82)的样品和在2个治疗周期后总共有另外19%(17/89)的样品具有可检测的ctdna(图4c)。
[0345]
先前使用capp
‑
seq对dlbcl患者描述了ctdna分子反应标准,包括主要分子反应(mmr),定义为2个治疗周期后ctdna的2.5
‑
对数减少。虽然在这个时间点的mmr是结果的预
测,但许多患者在这个界标处具有无法通过capp
‑
seq检测到的ctdna(图4d
‑
4e)。重要的是,即使在具有通过capp
‑
seq无法检测到ctdna的患者中,通过phased
‑
seq检测潜隐的超低ctdna水平也可预测结果,包括无事件存活率和总体存活率(图4d)。实际上,在从该时间点可获得样品的89名患者中,58%(52/89)在完成6个计划的治疗周期中的2个后,在其中期mmr评估中具有无法通过capp
‑
seq检测到的ctdna。通过使用phased
‑
seq,capp
‑
seq未检测到的样品中的33%(17/52)具有如通过pv证明的ctdna的证据,水平低至~3:1,000,000(图17a
‑
17d)——通过phased
‑
seq另外检测到的这17个病例代表通过capp
‑
seq的潜在假阴性测试。在早期分子反应(emr)时间点(即在1个治疗周期后,图18a
‑
18h)观察到类似的结果。
[0346]
虽然在1或2个治疗周期后在dlbcl中的ctdna检测是已知的不良预后标记,但对于在这些时间点具有检测不到的ctdna的患者的结果是异质的(图4e和图18f)。重要的是,即使在1或2个治疗周期后具有通过capp
‑
seq检测不到的ctdna的患者中,通过phased
‑
seq的超低ctdna水平的检测强烈预测包括无事件存活的结果(图4f,图17c
‑
d、图18c
‑
d和图18g)。当将通过phased
‑
seq的检测与先前描述的mmr阈值相结合时,患者可以分为三组——未达到mmr的患者、达到mmr但具有持续ctdna的患者和具有无法检测到的ctdna的患者(图4g)。有趣的是,尽管进行了额外的计划性一线治疗(例如,在治疗的第一年内),但未达到mmr的患者处于特别高的早期事件风险中,而具有持续低水平的ctdna的患者似乎具有后期复发或进展事件的更高风险。相比之下,在2个治疗周期后具有通过phased
‑
seq检测不到的ctdna的患者具有压倒性的良好结果,其中在第5年时95%是无事件的并且97%是总体存活的。在1个治疗周期后在emr时间点看到了类似的结果(图18h)。
[0347]
实施例9:当突变不是单碱基变化而是一对突变时,使用下一代测序(ngs)进行突变检测的示例性实施方案
[0348]
在许多情况下,cfdna追踪的限制可能是对可用于检测的分子数量的限制。此外,从细胞游离dna追踪肿瘤分子存在多种潜在限制,不仅包括测序错误特征谱,还包括可用于检测的分子数量。可用于检测的分子数量(本文称为“可评估片段”的数量)可以被认为是恢复的独特基因组的数量(例如,独特的测序深度)和被追踪的体细胞突变数量的函数。更具体地说,可评估片段的数量等于:ef=d*n。
[0349]
其中d=所考虑的独特分子深度,并且n=追踪的体细胞改变的数量。对于典型的细胞游离dna样品,通常恢复少于10,000个独特的基因组(d),需要任何灵敏的方法来追踪多个改变(n)。此外,如上所述,双链体测序的主要限制是难以恢复足够的独特分子深度(d);因此,对于具有~1,500x的双链体深度的典型血浆样品,即使在100个体细胞改变后,也只有150,000个可评估片段。因此,在这种情况下,灵敏度受到可用于检测的分子数量的限制。相比之下,诸如ides增强的capp
‑
seq的其他方法考虑了恢复的所有分子。在这里,可以恢复多达5,000
‑
6,000x的独特单倍体基因组。因此,追踪相同的100个体细胞变化的可评估片段的数量可以是500,000
‑
600,000x。然而,单链测序的错误特征谱(即使有错误抑制)允许检测至最多1/50,000的水平。因此,旨在提高针对ctdna的检测限的方法必须克服测序的错误特征谱和足够的可评估片段的恢复以利用所述较低的错误特征谱。
[0350]
为了弥补这种明显的缺陷,本公开内容中描述的phased
‑
seq的方法允许淋巴恶性肿瘤并且适用于其他癌症组织学,(例如,使用“个性化”方法)。对于个性化方法,使用定制的杂交捕获寡核苷酸(或针对pcr扩增子的引物)来捕获从全外显子组或基因组测序中鉴别
的个性化体细胞突变。重新分析了针对发生在基因组空间中彼此170bp内的snv进行评估的pcawg数据集。结果发现,在考虑的24种癌症组织学中的14种中,中位数病例包含超过100个可能的定相变异,包括在几种实体瘤中的,例如黑色素瘤(中位数2072)、肺鳞状细胞癌(1268)、肺腺癌(644.5)和结直肠腺癌(216.5)。
[0351]
接下来,评估pcawg数据集中所有病例中使用双链体测序或phased
‑
seq的预期检测限。同样,检测限由可评估片段的预期数量定义,因此取决于追踪的变异的数量和预期的测序深度。通过利用来自优化的杂交捕获条件的数据,构建了一个模型来预测具有给定dna输入和测序读数数量的预期去重复(单链)和双链体(双链的)分子深度。使用这一点,连同来自pcawg数据集的snv或可能的pv的数量,对于每个病例,评估了哪种方法将导致更多数量的可评估片段和因此导致优越的检测限。假设64纳克(ng)的总cfdna输入和总共2000万个测序读数,该练习的结果显示在图19中。值得注意的是,在大多数癌症类型(18/24个组织学)中,phased
‑
seq的检测限低于双链体测序。重要的是这不仅包括b细胞淋巴瘤,还包括常见的实体瘤,包括肺鳞状细胞癌和腺癌、结直肠腺癌、食管和胃腺癌以及乳腺腺癌等。实际上,以肺癌作为具体的实例,与双链体测序相比,使用phased
‑
seq对于中位数肺鳞状细胞癌和肺腺癌病例发现10倍较低的检测限(图20)。使用个性化方法的phased
‑
seq和双链体测序都比非个性化方法(例如,ides增强的capp
‑
seq)具有更低的检测限。
[0352]
为了进一步证实定相变异和phased
‑
seq在不同实体瘤中的适用性,对配对的肿瘤和正常dna进行wgs(20
‑
30x)以鉴别来自在治疗前被预测为具有低ctdna负荷的五名实体瘤患者(肺癌(n=5))的pv。在每个病例中鉴别推定的pv后,随后设计了一组个性化的杂交捕获寡核苷酸,以执行肿瘤和正常dna的靶向重测序,以验证候选pv。最后,使用个性化的phased
‑
seq将来自所有5名患者的血浆样品测序至高的独特分子深度以检测ctdna。考虑到这五个肺癌病例,phased
‑
seq方法在分析灵敏度方面实现了约10倍的提高,与使用定制capp
‑
seq的0.0019%中值lod相比,实现了0.00018%的中值lod(图21)。
[0353]
为了证明实体瘤中来自phased
‑
seq的ctdna的这种改善的检测限的临床意义,使用capp
‑
seq和phased
‑
seq分析了来自使用治愈性目的的放化疗(lup814)治疗的患有3期肺腺癌的患者的系列血浆样品。如上所述,capp
‑
seq和phased
‑
seq均定量了在治疗前相似水平的ctdna(约1%的肿瘤分数)。然而,开始治疗后的3个后续样品具有通过标准capp
‑
seq检测不到的ctdna,包括放化疗期间和之后以及使用德瓦鲁单抗(durvalumab)的辅助免疫治疗期间的样品。尽管缺乏通过capp
‑
seq可检测到的疾病,但患者在最初的放射照相反应后具有活检证实的复发性疾病。然而,当使用phased
‑
seq分析这些相同的样品时,检测到3/3(100%)的样品中的分子残留疾病,其中平均肿瘤分数低至0.00016%(百万分之1.6)。此外,ctdna定量的趋势反映了患者的病程,其中对放化疗有初步反应,但在免疫治疗期间有疾病进展。重要的是,该患者的疾病在所有时间点保持可检测到的,其中在患者的活检证实的疾病进展前8个月的放化疗完成时有可检测到的疾病(图22)。
[0354]
实施例10:用于增强从细胞游离dna检测疾病的定相变异富集的方法
[0355]
10(a):全基因组测序分析
[0356]
10(a)(1):全基因组测序数据推定的定相变异鉴别
[0357]
从两个来源获得全基因组测序数据。淋巴样恶性肿瘤(弥漫性大b细胞淋巴瘤,dlbcl;滤泡性淋巴瘤,fl;伯基特淋巴瘤,bl;慢性淋巴细胞白血病,cll)的数据于2018年5
月7日从国际癌症基因组联盟(icgc)数据门户下载。来自所有其他组织学的数据是全基因组的泛癌症分析(pcawg)的一部分,并于2019年11月11日下载。仅考虑至少有35个可用病例的癌症组织学;表1中提供了所考虑的数据集的详细信息。所有样品都具有使用匹配的肿瘤和正常基因分型从wgs调用的体细胞突变。查询限于从wgs获得的碱基取代(单核苷酸变异、双核苷酸变异、三核苷酸变异和寡核苷酸变异;snv、dnv、tnv和onv)。已这样鉴别了感兴趣的病例和变异后,接下来鉴别每个肿瘤中推定的定相变异(pv)的数量。为了用作单个细胞游离dna(cfdna)分子上的pv,通常必须在小于典型cfdna分子长度(~170bp)的基因组距离内出现两个变异,例如两个单核苷酸变异(snv)。因此,推定的pv被定义为在<170bp的基因组距离内发生在同一染色体上的两个变异。dnv、tnv和onv被认为是它们各自的组分snv的集合。每个病例的snv的数量以及推定的pv的身份在表1中详述。snv和推定的pv的原始数量以及控制snv的数量的推定的pv的数量显示在图5a
‑
c中。
[0358]
10(a)(2):来自wgs的定相变异的突变特征
[0359]
为了评估不同癌症类型/亚型中的与定相和非定相突变相关的突变过程,使用r软件包“deconstructsigs”为上述每个wgs病例列举了单碱基取代(sbs)的突变特征。每个患者的snv列表首先分为两组:1)可能的pv中包含的snv;即,与相邻或“最近的邻居”snv距离<170bp,以及2)孤立的snv(即非定相的),定义为与最近的相邻snv的距离≥170bp的那些。然后使用cosmic中描述的49个sbs特征(不包括与可能的测序伪影相关的特征)应用“deconstructsigs”,以评估每个sbs特征对每个患者的候选定相snv和非定相snv的贡献。为了比较每个sbs特征对定相和孤立的snv的贡献,进行wilcoxon符号秩检验以比较每种癌症类型的在这两个类别之间的每个sbs特征的相对贡献(图6a
‑
6ww)。为了解释多个假设,如果wilcoxon符号秩检验导致<0.05/49或0.001的p值,则通过考虑对在定相相对非定相snv的贡献上不同的任何sbs特征是显著的来应用bonferroni校正。这些比较的分布以及显著性检验描绘在图6a
‑
6ww中。该分析的概述还使用热图展示显示在图1c中,其中“热度”代表sbs特征对定相变异的平均贡献与对孤立/非定相变异的平均贡献之间的差异。
[0360]
10(a)(3):来自wgs的定相变异的基因组分布
[0361]
在每个肿瘤类型内的基因组中评估每个癌症类型中pv的复发频率。具体来说,人基因组(build grch37/hg19)首先被分为1
‑
kb分箱(总共3,095,689个分箱);然后,对于每个样品,计算每个1
‑
kb分箱中包含的pv(如上定义)的数量。对于此分析,包括其至少一个组成性snv落入感兴趣的1
‑
kb分箱内的任何pv。然后计算其肿瘤在每个基因组分箱内具有每种癌症类型的pv的患者的分数。为了鉴别患者中反复含有pv的1
‑
kb分箱,绘制了每个1
‑
kb分箱中包含pv的患者的分数相对基因组坐标的图(图1d和图7);对于此分析,仅绘制了其中至少2%的样品包含至少一种癌症亚型中的pv的分箱。
[0362]
10(a)(4):使用定相变异鉴别反复出现的1
‑
kb分箱
[0363]
为了鉴别在b
‑
淋巴恶性肿瘤中反复含有pv的1
‑
kb分箱,利用来自以下疾病的wgs数据:dlbcl、fl、bl和cll。来自这些肿瘤类型的>1个样品的任何1
‑
kb分箱被认为反复包含来自b淋巴恶性肿瘤的pv。包含淋巴恶性肿瘤中反复出现的pv的1
‑
kb分箱的基因组坐标列举在表2中,并绘制在图8a中。
[0364]
10(b):b淋巴恶性肿瘤的phased
‑
seq实验组的设计
[0365]
10(b)(1):以更高分辨率从wgs数据中鉴别反复出现的pv
[0366]
鉴于b细胞恶性肿瘤中来自wgs数据的反复出现的推定pv的普遍存在,设计了一种靶向测序方法用于它们的杂交介导的捕获(定相变异富集测序(phased
‑
seq))以从肿瘤或细胞游离dna中富集这些特定的pv事件。除了上述icgc数据外,本设计中还利用了来自其他来源(包括b细胞nhl和cll)的wgs数据。
[0367]
还检查了先前在nhl中从cfdna进行靶向测序的经验。鉴别了在每个b细胞肿瘤样品中相距<170bp存在的snv对。然后,包含pv的基因组“窗口”鉴别如下:对于每条染色体,pv按相对于参考基因组的基因组坐标进行分选。然后,鉴别任何患者中待从基因组中捕获的任何pv的最低(即最左侧)位置;这定义了播种感兴趣的所需窗口的左手侧(5')坐标。然后通过增长其3'端来扩展该窗口以捕获连续的pv,直到达到≥340bp的间隙,选择340bp作为捕获两个连续的染色体的约170bp的大小的片段。当达到这样的间隙时,开始一个新的窗口,并再次重复添加相邻pv的此迭代过程,直到达到下一个≥340bp的间隙。这导致了基因组窗口的bed文件,其中包含来自考虑的所有样品的所有可能的pv。最后,每个窗口的每一侧都额外填补50bp,以使得能够在重复或不良映射插入序列可能阻止其直接靶向富集的罕见情况下实现从侧翼序列的有效捕获。
[0368]
在鉴别了包含推定的pv的感兴趣区域后,然后将每个窗口分成170bp的片段(例如,染色体cfdna分子的近似大小)。然后,列举每个病例中包含pv的病例的数量。对于每个170bp区域,如果满足以下一项或多项标准,则将最终测序实验组设计中的区域包括在内:1)至少一名患者在5个独立数据集中的3个中在170bp区域中包含pv,2)如果一个数据集是先前的capp
‑
seq经验,则至少一名患者在5个独立数据集中的2个中在该区域中包含pv,或3)至少一名患者在5个独立数据集中的2个中在该区域中包含pv,其中共有至少3名患者在该区域中含有pv。这产生了691个“瓦片”,每个瓦片代表一个170bp的基因组区域。这些瓦片连同额外的靶向在b
‑
nhl中反复突变的驱动基因的~200kb的基因组空间被组合成一个统一的靶向测序实验组,如之前对于使用nimbledesign(roche nimblegen)的肿瘤和cfdna基因分型所描述的。该实验组的最终坐标在表3中提供。
[0369]
10(b)(2):pv产率中phased
‑
seq和capp
‑
seq性能的比较
[0370]
为了评估与先前报道的用于b细胞淋巴瘤的capp
‑
seq选择器相比,phased
‑
seq捕获snv和pv的性能,定量了可以使用每个实验组通过计算机模拟限制wgs以捕获每种方法的靶标来恢复的snv和pv的预测数量(图9a
‑
c)。然后使用wilcoxon符号秩检验比较预测的变异数量。还对来自dlbcl患者的16个样品进行了capp
‑
seq和phased
‑
seq。在这些样品中,对肿瘤或血浆dna以及匹配的种系dna进行了测序。得到的变异数量再次通过wilcoxon符号秩检验进行比较(图2b和图9d
‑
9e)。表4中提供了该分析中包含的样品的测序深度。
[0371]
10(c):从靶向的测序数据中鉴别定相变异
[0372]
10(c)(1):患者招募和临床样品收集
[0373]
从北美和欧洲的六个中心(包括stanford university,md anderson cancer center,the national cancer institute,university of eastern piedmont(italy),essen university hospital(germany),和chu dijon(france))招募接受一线疗法的b细胞淋巴瘤患者到此研究中。此研究总共包括来自183名患者的343个细胞游离dna、73个肿瘤和183个种系样品。所有患者样品均在书面知情同意下收集用于研究,并根据赫尔辛基宣言获得相应机构审查委员会的批准。如前所述分离细胞游离、肿瘤和种系dna。所有放射照相
成像作为标准临床护理的一部分进行。
[0374]
10(c)(2):文库制备和测序
[0375]
为了生成测序文库和靶向的测序数据,如前所述应用capp
‑
seq。简而言之,按照kapa hyper prep kit制造商的说明,使用细胞游离、肿瘤和种系dna通过末端修复、a加尾和衔接子连接构建测序文库,其中连接在4℃下进行过夜。具有独特分子标识符(umid)的capp
‑
seq衔接子用于独特的dna双链体的条形码化和测序读数对的随后去重复。然后使用上述phased
‑
seq实验组执行杂交捕获(seqcap ez choice;nimblegen)。根据制造商的方案进行亲和捕获,所有47℃杂交均在eppendorf热循环仪上进行。富集后,使用illumina hiseq4000仪器以2x150bp双端(pe)读数对文库进行测序。
[0376]
10(c)(3):预处理和比对
[0377]
对fastq文件进行多路分解并且使用如前所述的定制管线提取umid。多路分解后,使用bwa aln将读数与人基因组(build grch37/hg19)比对。然后如前所述进行分子条形码介导的错误抑制和背景抛光(即,集成数字错误抑制;ides)。
[0378]
10(c)(4):定相变异的鉴别和等位基因定量
[0379]
在生成umid错误抑制比对文件(例如,bam文件)之后,如下从每个样品中鉴别pv。首先,进行未受累的外周血单核细胞(pbmc)的匹配的种系测序,以鉴别患者特异性的构成性单核苷酸多态性(snp)。这些被定义为变异等位基因分数(vaf)高于40%且深度为至少10或vaf高于0.25%且深度至少为100的非参考位置。接下来,对感兴趣的样品从读数水平数据鉴别pv。在umid介导的错误抑制之后,每个个体双端(pe)读取和所鉴别的所有非参考位置使用“samtools calmd”。使用pe数据而不是单个读数来鉴别发生在同一模板dna分子上的变异,其随后可能落入读数1或读数2。任何包含≥2个非参考位置的读数对都被认为代表可能的体细胞pv。对于具有>2个非参考位置的读数,大小≥2的每个排列被独立考虑:即,如果在一个读数对中鉴别出4个非参考位置,则独立考虑2个snv的所有组合(即“双联体”定相变异)和3个snv的所有组合(即“三联体”定相变异)。包含推定的种系snp的pv也被如下移除:如果在给定的n聚体(即在给定分子上同相的n个snv)中,≥n
‑
1的组分变异被鉴别为种系snp,则pv被编辑。这种过滤策略确保对于任何剩余的pv,至少2个组分snv在种系中未被见到,如对于灵敏度和特异性相关的。
[0380]
在考虑来自用作对照的170个种系dna样品的测序数据时,使用启发式黑名单方法过滤推定的体细胞pv。在这些样品中的每一个中,如上所述在读数对上鉴别pv,但没有过滤匹配的种系。在这些对照样品中的一个或多个中,出现在一个或多个双端读数中的任何pv都包含在黑名单中,并从患者特异性的体细胞pv列表中删除。
[0381]
为了计算每个pv的vaf,在代表覆盖感兴趣的基因组区域的dna分子总数的分母上计算代表包含感兴趣的pv的dna分子数量的分子。也就是说,分子只是包含给定pv的去重读数对的总数,而分母是跨越给定pv的基因组基因座的读数对的数量。
[0382]
10(c)(5):基因分型来自预处理样品的定相变异
[0383]
上述策略在每个样品中产生了≥1读数深度的pv的列表。为了鉴别用作疾病监测的肿瘤特异性体细胞报告分子的pv,对于每个病例,鉴别“最佳基因分型”样本(来自肿瘤组织活检(优选)的dna或预处理的细胞游离dna)。在鉴别“最佳基因分型样品”中所有可能的pv后,进一步如下过滤针对特异性的列表。对于任何n聚体pv集合,如果在上述170个对照样
品中存在≥n
‑
1个组成snv作为种系snp,则移除pv。此外,仅考虑满足以下标准的pv:1)af>1%;2)≥100个读数对的pv基因座的深度,以及3)至少一个组分snv必须在中靶空间中。最后,4)在12个健康对照cfdna样品的群组中就读数支持评估符合这些标准的任何pv。如果在这12个样品中的>1个中存在任何读数支持,则移除pv。对于从通过snv鉴别为低肿瘤分数的细胞游离dna样品的基因分型(即,所有snv中小于1%的平均af),用于确定pv的af阈值放宽至>0.2%。这种过滤产生了用于疾病监测和mrd检测的pv列表。
[0384]
10(c)(6):根据定相变异确定样品中的肿瘤分数
[0385]
为了使用肿瘤基因型的先验知识针对微小残留疾病(mrd)评估样品,可以评估在感兴趣的mrd样品中在最佳预处理基因分型样品中鉴别的任何pv的存在。考虑到在最佳基因分型样品中观察到的k个可能的肿瘤来源的pv的列表,确定了覆盖k个可能pv中的至少1个的所有读数对。这个值d可以被认为是在phased
‑
seq实验中cfdna分子跨越的所有pv中的聚合“信息深度”。然后评估这些d读数对中有多少实际上包含k个可能的pv中的1个或更多个,此值x代表给定样品中包含体细胞pv的肿瘤来源分子的数量。因此,包含pv的肿瘤来源分子的数量除以信息深度(x/d)是给定样品中的定相变异肿瘤分数(pvaf)。为了检测每个样品中的mrd,独立计算双联体、三联体和四联体pv的pvaf。
[0386]
10(c)(7):针对样本内pv检测的经验显著性的monte carlo模拟
[0387]
为了评估在任何样品中肿瘤来源pv的检测的统计显著性,实施了经验显著性测试方法。检验统计量f首先定义如下——从在最佳基因分型样品中观察到的k个可能的肿瘤衍生pv的给定列表,计算所有k个pv的等位基因分数的算术平均值(等位基因分数定义为相对于跨越pv位置的读数对数量(d
i
)的包含个体pv(x
i
)的读数对的数量):
[0388][0389]
以评估f与从同一样品评估的类似pv的背景错误率没有显著差异的假设。monte carlo方法用于开发零分布并执行如下统计检验:
[0390]
1.考虑到一组k个pv,{pv1...pv
i
...pv
k
},生成pv的“替代”列表,{pv'1...pv'
i
...pv'
k
},以使得对于每个替代pv具有与测试pv相同类型的碱基变化和snv之间的距离。例如,如果双联体pvchr14:106329929c>t和chr14:106329977g>a在基因分型样品中被鉴别,则搜寻与参考碱基c和g处于相同基因组距离(这里是48bp)的两个替代位置并使用以下启发式搜索方案评估具有相同类型碱基变化(即c>t和g>a)的读数对。
[0391]
2.对于k组中的每个肿瘤pv
i
,鉴别了50个这样的替代物。这是用随机搜索算法执行的,以扫描基因组空间并鉴别替代物。为了找到这50个替代物,鉴别了在与测试pv
i
相同的染色体上的随机位置,然后在与上述相同的基因组距离处搜索相同类型的参考碱基。观察到的/替代的pv的同线性用于控制shm/ashm中的区域变异以及拷贝数变异,作为无效分布的潜在混杂因素。被鉴别为种系snp(定义为具有af>5%)的替代位置被排除在外。
[0392]
3.在对于每个pv
i
确定鉴别50个这样的替代物之后,为k个原始pv中的每一个生成了1个替代物的10,000个随机排列,并计算了在就mrd的存在评估的感兴趣的样品中这些替代物列表的定相变异分数f’,如上所述。
[0393]
4.计算了经验p值,定义为次数分数,在10,000个随机pv列表中观察到真实定相变
异分数f小于或等于替代f',作为感兴趣的血液样品中mrd显著性的经验显著性度量。
[0394]
虽然此得到的比较是与感兴趣的样品内经验定义的背景pv错误率相比较的肿瘤报告因子列表的pv检测的显著性的度量,但还评估了其与病例和对照样品中的检测特异性的关系,如下面所描述的。
[0395]
10(c)(8):phased
‑
seq的特异性的评估
[0396]
为了通过phased
‑
seq确定疾病和mrd检测的特异性,首先使用预处理肿瘤或血浆dna以及配对的种系样品鉴别来自107名dlbcl患者的患者特异性pv。然后使用上文概述的monte carlo方法评估来自健康个体的40个独立血浆dna样品的这些患者特异性pv的存在。p值的阈值由montecarlo凭经验确定,以便对于从双联体、三联体和四联体pv的疾病检测获得95%的特异性。对每个大小的pv产生≥95%特异性的p值阈值如下:双联体<0.041,三联体<1,四联体<1。这种特异性在对照cfdna分析中的结果显示在图15和16中。
[0397]
10(c)(9):错误率的计算
[0398]
为了评估孤立的snv和pv的错误特征谱,在所有读数中检查了每种类型的变异的非参考碱基观察率。对于孤立的snv,在考虑参考等位基因的所有可能的碱基变化时,每个可能的碱基变化的错误率e
n1>n1
′
计算为其中参考等位基因n1被突变为替代等位基因n1
′
的中靶碱基的分数。非参考等位基因率超过5%的位置被归类为可能的种系事件,并从错误率分析中排除。还计算了全局错误率,定义为从hg19参考等位基因到任何替代等位基因的突变率。
[0399]
对于定相变异,进行了类似的计算。对于由k个组成性碱基变化{e
n1>n1
′
...e
nk>nk
′
}组成的给定类型的定相变异的错误率,通过确定碱基变化的类型的实例数(即分子)以及碱基变化的可能实例数(即分母)来计算错误率。为了计算分子(n),计算给定样品中所有读数对中感兴趣的pv的出现次数。例如,为了计算c>t和g>a定相双联体的错误率,首先计算包含突变为t的参考c和突变为a的参考g的读数对的数量。
[0400]
为了计算分母(d),还计算了此类型的定相变异的可能实例数;这是首先对每个读数对i执行的,然后对所有读数对进行求和。具有k个组分的pv可以概括为具有某一组参考碱基p
a
、p
c
、p
g
、p
t
,其中p
n
是pv中每个参考碱基的数量。类似地,给定的读数对包含某一组参考碱基b
a
、b
c
、b
g
、b
t
,其中b
n
是读数对中每个参考碱基的数量。因此,对于给定样品中的每个读数对,感兴趣的pv类型的可能出现次数可以组合计算为:
[0401][0402]
例如,考虑具有40个参考a、50个参考c、45个参考g和35个参考t的读数对。c>t和g>a pv的位置数为:
[0403][0404]
用于错误率计算的聚集分母d随后简单地是所有读数对的该值的总和。这种类型的pv的错误率简单地是n/d。
[0405]
10(d):淋巴瘤亚型之间定相变异的差异
[0406]
为了比较不同类型淋巴瘤中定相变异的分布,通过肿瘤活检样本和/或治疗前细胞游离dna和配对的种系样本的测序,在101名dlbcl、16名pmbcl和23名chl患者中鉴别了肿
瘤特异性pv。在鉴别这些肿瘤特异性pv后,它们的分布在靶向的测序实验组中进行了评估。该实验组首先被划分为50bp的分箱;对于每个患者,然后确定每个患者是否在50bp分箱内有pv的证据,其定义为在分箱内具有至少一个组分的pv。基于参考基因组的gencodev19注释,进一步确定最接近每个50bp分箱的基因。
[0407]
为了评估淋巴瘤亚型之间pv的分布如何在特定基因水平上变化,检查了跨越每个基因(或最近的基因)的50bp分箱中的pv分布。例如,考虑在靶向的测序实验组中表示的具有n个这样的50bp分箱的给定的基因。对于每个分箱,首先确定pv落在50bp分箱内的每种类型淋巴瘤中的患者分数f,即,确定{f
type1,1
,...f
type1,n
}和{f
type2,1
,...f
type2,n
}。然后,随后比较任何两种组织学在分配给每个基因的一组50bp分箱中包含pv的病例的分数。这些比较在图2d和图10
‑
12中的基因特异性图上针对个体基因进行了描述。
[0408]
通过计算在分配给基因(即与给定基因或与给定的最近基因重叠)的所有分箱中每个50bp分箱中包含pv的患者的分数的差异来统计学比较特定淋巴瘤类型或亚型中相对于彼此的pv的富集。具体来说,对于两种淋巴瘤类型(type1和type2)之间的任何比较,首先在组织学之间鉴别pv率的这组差异{f
type1,1
‑
f
type2,1
,...f
type1,n
‑
f
type2,n
}。pv频率的这组基因特异性差异是通过wilcoxon秩和检验在淋巴瘤类型之间针对测序实验组中所有其他50bp分箱的分布进行比较的。对于此检验,将分配至给定基因的n个50bp分箱的集合与所有其他50bp分箱进行比较(即6755
–
n,因为测序实验组中有6755个50bp分箱)。该p值连同组织学之间每个基因的在每个分箱中具有pv的患者的分数的平均差异被描绘为图2e中的火山图。为了解释不同组织学之间pv率的全局差异,通过减去所有基因的平均差异,将组织学之间具有pv的患者的分数的平均差异集中在0上。
[0409]
10(e):杂交偏好
[0410]
为了评估突变对杂交效率的影响,首先通过考虑在整个片段中包含0
‑
30%突变的dna片段来估计计算机模拟中突变分子对野生型捕获诱饵的亲和力。对于这个范围内的每个突变条件,首先从整个基因组中随机采样10,000个区域,每个区域的长度为150bp。然后对这些150聚体进行计算机模拟突变,从而以3种不同方式模拟所需的突变率:1)从序列末端开始突变“聚集”或连续的碱基,2)从序列中间开始突变聚集的碱基,或3)突变在整个序列的随机位置选择的碱基。然后使用energy.c软件包计算突变序列和野生型序列之间的理论结合能(kcal/mol),依赖于采用已建立的热力学参数的最近邻模型(图14a)。
[0411]
然后通过在体外测试相同突变率的影响来复现这个计算机模拟实验。具体而言,寡核苷酸(idt)被合成并退火以形成dna双链体,其在相对于人参考基因组序列的定义位置上包含0
‑
10%的突变。然后将这些合成dna分子以等摩尔浓度捕获在一起,并定量突变的双链体与野生型、未突变物种相比的相对捕获效率(图3a)。从bcl6和myc的编码区中选择两组寡核苷酸序列来捕获与每个基因相关的aid介导的异常体细胞超突变(表5);通过bwa aln确保了突变物种的保持的可映射性。然后对这些合成的寡核苷酸双链体进行文库制备,然后使用phased
‑
seq进行捕获和测序,并使用不同的样品以一式三份进行。这允许直接与与参考基因组相同的野生型分子相比,评估杂交捕获和分子恢复的相对效率。
[0412]
10(f):使用有限稀释系列的检测限的评估
[0413]
为了凭经验确定phased
‑
seq的分析灵敏度,使用了来自3名患者的细胞游离dna的有限稀释系列,其以定义的浓度掺入健康对照细胞游离dna中。稀释系列包含预期平均肿瘤
分数为0.1%、0.01%、0.001%、0.0002%、0.0001%和0.00005%或范围为从1/1,000到1/2,000,000的样品。提供了通过capp
‑
seq、双链体测序和phased
‑
seq进行的测序特征和ctdna定量。为了比较每种方法的性能,计算了每个患者i在每个稀释浓度j下观察到的和预期的肿瘤分数之间的差异δ:
[0414][0415]
对于每种ctdna检测方法(capp
‑
seq、双链体、双联体phased
‑
seq和三联体phased
‑
seq),针对患者i={1,2,3}和浓度j={0.001%,0.0002%,0.0001%,0.00005%}计算该值。然后通过这组患者和浓度上的配对t检验将每种方法的性能相互比较。
[0416]
10(g):预测给定的一组定相变异的检测概率的模型
[0417]
为了构建数学模型来预测给定感兴趣的样品的检测概率,首先普遍假设cfdna检测可以被视为基于二项式采样的随机过程。然而,与发生在彼此相距较大基因组距离处的snv不同,pv的检测可能是高度相互依赖的,尤其是当pv是简并的(即,当两个pv共享组分snv时)或非常接近地存在时。为了考虑这一点,只有彼此相距>150bp的pv才被视为独立的“肿瘤报告因子”。因此,可以如下确定允许在给定样品中检测疾病的“肿瘤报告因子”的数量。phased
‑
seq实验组被分成150bp的分箱。然后将给定患者的报告因子列表中的每个pv转换为bed坐标,其由起始位置(定义为最左侧的组分snv)和结束位置(定义为最右侧的组分snv)组成。对于每个pv,确定来自包含pv的phased
‑
seq选择器实验组的150bp分箱;如果pv跨越两个或更多150bp分箱,则将它分配到两个分箱。然后将独立肿瘤报告因子的数量定义为包含肿瘤特异性pv的单独150bp分箱的数量。
[0418]
然后开发了一个数学模型,其将给定肿瘤分数的给定样品的预期检测概率与给定数量的独立肿瘤报告因子(例如,150bp分箱)进行比较。对于肿瘤报告因子的给定数量r、给定的肿瘤分数f、给定的测序深度d,检测包含肿瘤特异性pv的1个或多个细胞游离dna分子的概率可以基于简单二项式抽样定义为:
[0419][0420]
然而,由于ctdna检测方法被训练为具有5%的假阳性率,因此该假阳性率项也被添加到模型中:
[0421]
pr(检测到)=1
‑
pr(未检测到)+0.05*pr(未检测到)
ꢀꢀꢀꢀꢀ
(7)
[0422][0423]
图3g显示了在5000的深度d处对于从3到67的肿瘤报告因子r的范围的该模型的结果。该图上的置信信封(confidence envelope)显示了从4000到6000的深度d范围的解。
[0424]
为了凭经验验证评估疾病检测的概率的该模型,使用了来自有限稀释系列的样品。在此稀释系列中,将3个患者cfdna样品(每个包含患者特异性pv)掺入健康对照cfdna中。对于患者特异性pv的每个列表,对包含患者特异性pv的150bp分箱进行25次随机子采
样,以生成包含可变数量的肿瘤特异性报告因子的报告因子列表。选择67的最大分箱数以允许从所有3个患者特异性的pv列表采样,然后将每次操作的分箱数缩小2倍或3倍。这导致报告因子列表包含来自3、6、17、34或67个独立150bp分箱的患者特异性pv。然后使用在从1:1,000到1:1,000,000的“湿(wet)”有限稀释样品的每一个中具有增加大小的这些患者特异性pv列表中的每一个评估疾病检测(图3h,闭合圆圈)。使用来自具有不同预期肿瘤内容物的有限稀释样品的测序读数进一步创建计算机模拟混合物,并再次使用不同长度的患者特异性子采样的pv报告因子列表评估疾病检测的概率(空心圆圈)。对于这个实验,“湿”和“计算机模拟”稀释bam文件都进行了下采样,以实现~4000
‑
6000x的深度,以与建模的深度相对应。所有下采样的bam文件的深度的最终平均值和标准偏差为4214x
±
789。对于给定的患者特异性pv列表,在给定的预期肿瘤分数的所有测试中总结了检测概率。对于每个给定的稀释度,考虑了多个独立采样的读数集,以允许更好地估计检测的真实概率。具体而言,表7中考虑了所示的每个稀释度的以下重复次数。
[0425]
表7.用于预测给定的一组定相变异的检测概率的每个稀释度的重复。
[0426][0427][0428]
因此,对于每个患者特异性pv列表,测试的总数是随机子采样的pv列表的数量(例如,25)乘以独立下采样的bam文件的数量;上表提供了这个数字。在图3h中,点和误差条代表所有三名患者的平均值、最小值和最大值。来自理论数学模型的疾病检测的预测概率与验证该模型的湿样品和计算机模拟样品之间的一致性显示在图3i中。
[0429]
10(h):统计分析和软件可用性
[0430]
除非另有说明,否则本说明书中报告的所有p值都是双侧的。使用wilcoxon符号秩检验进行匹配的样品和群体的比较;使用wilcoxon秩和检验进行从不相关群体中抽取的样品的比较。配对的样品的比较通过配对t检验进行。使用kaplan
‑
meier方法估计存活概率;使用对数秩检验比较基于ctdna水平的患者组的存活率。其他统计学检验在使用的手稿文本中注明。所有分析均使用matlab 2018b版、r统计软件3.4.1版和graphpad prism 8.0.2版进行。使用所描述的cosmic特征集(v2)使用解构sigs r软件包评估已知突变过程对来自wgs的定相和孤立snv的贡献。使用默认设置的r
‘
survivalroc’软件包版本1.0.3进行解释存活的auc的计算和审查。用c++17开发的phased
‑
seq软件的可执行版本可获自phasedseq(dot)stanford(dot)edu。
[0431]
实施例11
[0432]
本文提供了贯穿本公开内容描述的表格的额外细节:
[0433]
表1:在各种淋巴样赘生物中包含推定的定相变异(pv)的整个基因组中的感兴趣的1000bp区域。仅显示了包含>1个具有pv的受试者的区域。坐标在hg19中。来自先前被鉴别为活化诱导脱氨酶(aid)的靶标的基因的区域被标记。在任何组织学(bl、cll、dlbcl、fl)中,在>5%的受试者中包含pv的区域也被标记。bl,伯基特淋巴瘤;cll,慢性淋巴细胞白血病;dlbcl,弥漫性大b细胞淋巴瘤;fl,滤泡性淋巴瘤。
[0434]
表2:在dlbcl的abc和gcb亚型中包含推定的定相变异(pv)的整个基因组的感兴趣的1000bp区域。仅显示包含>1个具有pv的受试者的区域。坐标在hg19中。来自先前被鉴别为aid的靶标的基因的区域被标记。abc,活化的b细胞亚型;gcb,生发中心b细胞亚型。
[0435]
表3:用于集中于淋巴恶性肿瘤的本文中描述的phased
‑
seq捕获试剂的区域。坐标在hg19中。还显示了最接近的基因和纳入原因(定相变异相对一般性dlbcl基因分型)。
[0436]
表4:针对不同类型的b细胞淋巴瘤(包括abc和gcb亚型的dlbcl、pmbcl和chl),在整个phased
‑
seq靶向的测序实验组中基因的基因座处pv的富集。phased
‑
seq选择器在hg19坐标中被分箱成50bp的分箱,每个分箱用基因或最近的基因标记。显示了在所有50bp分箱中具有pv的给定组织学病例的分数的平均值。显著性通过针对测序实验组的其余部分对给定基因的50bp分箱的秩和(mann
‑
whitney u)检验来确定。显示了未校正的p值;多假设检验校正采用bonferroni方法进行。dlbcl,弥漫性大b细胞淋巴瘤;pmbcl,原发性纵隔b细胞淋巴瘤;chl,经典霍奇金淋巴瘤;abc,活化的b细胞dlbcl;gcb,生发中心b细胞dlbcl。
[0437]
表5:合成以评估在增加突变负荷的情况下的杂交和分子恢复偏好的寡核苷酸序列(seq id no.1331
‑
1358)。
[0438]
表6:用于b细胞癌症的捕获测序的核酸探针(seq id no.0001
‑
1330)。
[0439]
虽然本文已经示出和描述了本发明的优选实施方案,但是对于本领域技术人员来说明显的是这些实施方案仅作为示例的方式提供。本发明不旨在受限于说明书中提供的具体实例。虽然已经参考前述说明书描述了本发明,但是本文的实施方案的描述和举例说明并不意味着被解释为限制性的。在不脱离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于这里阐述的具体描述、配置或相对比例,这些具体描述、配置或相对比例取决于各种条件和变量。应当理解,在实践本发明时可以采用对本文描述的本发明的实施方案的各种替代。因此预期本发明还应涵盖任
何此类替代、修改、变化或等效物。以下权利要求旨在限定本发明的范围,并且由此涵盖在这些权利要求及其等同物范围内的方法和结构。
[0440]
[0441]
[0442]
[0443]
[0444]
[0445]
[0446]
[0447]
[0448]
[0449]
[0450]
[0451]
[0452]
[0453]
[0454]
[0455]
[0456]
[0457]
[0458]
[0459]
[0460]
[0461]
[0462]
[0463]
[0464]
[0465]
[0466]
[0467]
[0468]
[0469]
[0470]
[0471]
[0472]
[0473]
[0474]
[0475]
[0476]
[0477]
[0478]
[0479]
[0480]
[0481]
[0482]
[0483]
[0484]
[0485]
[0486]
[0487]
[0488]
[0489]
[0490]
[0491]
[0492]
[0493]
[0494]
[0495]
[0496]
[0497]
[0498]
[0499]
[0500][0501]
表3
[0502][0503]
表3
[0504][0505]
表3
[0506][0507]
表3
[0508][0509]
表3
[0510][0511]
表3
[0512][0513]
表3
[0514][0515]
表3
[0516][0517]
表3
[0518][0519]
表3
[0520][0521]
表3
[0522][0523]
表3
[0524][0525]
表3
[0526][0527]
表3
[0528][0529]
表3
[0530][0531]
表3
[0532][0533]
表3
[0534][0535]
表3
[0536][0537]
表3
[0538][0539]
表3
[0540]
[0541]
[0542]
[0543]
[0544]
[0545]
[0546]
[0547]
[0548]
[0549]
[0550]
[0551]
[0552]
[0553]
[0554]
[0555]
[0556]
[0557]
[0558]
[0559]
[0560]
[0561]
[0562]
[0563]
[0564]
[0565]
[0566]
[0567]
[0568]
[0569]
[0570]
[0571]
[0572]
[0573]
[0574]
[0575]
[0576]
[0577]
[0578]
[0579]
[0580]
[0581]
[0582]
[0583]
[0584]
[0585]
[0586]
[0587]
[0588]
[0589]
[0590]
[0591]
[0592]
[0593]
[0594]
[0595]
[0596]
[0597]
[0598]
[0599]
[0600]
[0601]
[0602]
[0603]
[0604]
[0605]
[0606]
[0607]
[0608]
[0609]
[0610]
[0611]
[0612]
[0613]
[0614]
[0615]
[0616]
[0617]