微卫星不稳定性检测方法及系统与流程

文档序号:34825174发布日期:2023-07-20 07:49阅读:36来源:国知局
本技术案主张2020年6月18日提出的美国临时申请案第63/041,103号的优先权,其全部内容通过引用并入本文。本发明是关于分子诊断学、癌症基因体学及分子生物学的领域。
背景技术
::1、微卫星不稳定性(microsatellite instability,msi)是一种分子表型,其指示潜在的基因体高突变性。微卫星区(microsatellite tract)中核苷酸的获得或丧失可能源自错配修复(mismatch repair,mmr)系统的缺陷,以致限制了重复性dna序列中自发突变的修正。因此,受msi影响的肿瘤可能是由mmr途径中的基因突变失活或表观基因静默(epigenetic silencing)而引起。msi与改善预后是相关的。msi用于预测对帕博利珠单抗(pembrolizumab)反应的能力使食品药物管理局在2017年5月批准了第一项不定肿瘤类型(tumor-agnostic)药物。另有证据显示,微卫星高度不稳定(microsatelliteinstability-high,msi-h)的患者对于抗pd-1药物之纳武利尤单抗(nivolumab)与medi0680、抗pd-l1药物之度伐利尤单抗(durvalumab)以及抗ctla-4药物之伊匹木单抗(ipilimumab)有较佳反应。基于这些结果,msi-h已被批准作为免疫检查点(immunecheckpoint)抑制剂的分子标志。2、msi之侦测通常是透过聚合酶连锁反应检测法(msi-pcr),利用五个微卫星位点(microsatellite loci)的波峰型态进行片段分析(fragment analysis,fa),以判定个别样品的msi状态。带有二个或更多不稳定微卫星的样本被称为高msi(msi-h),而只有一个或未检测到不稳定微卫星的样本被称为微卫星稳定(microsatellite stable,mss)。由于对每个微卫星位点的评估需要比较成对的肿瘤与正常组织,因此对于组织样本有限的病例,特别是含有少量正常细胞的样本,msi-pcr检测并不总是可行的。免疫组织化学染色法(immunohistochemistry,ihc)是另一种可用于msi状态检测的典型检测方法,其系透过错配修复(mmr)蛋白表现测试去检测含msi的样本。然而,mmr-ihc无法每次都检测到错义突变(missense mutations)导致的突变蛋白缺失,甚至对一些蛋白截断突变(protein-truncating mutations)也可能有正常的染色结果。此外,目前对msi-pcr及ihc资料的解读皆是人工且定性的。本
技术领域
:需要开发一种有效且准确测定患者的msi状态的定量检测方法。3、目前发现数种次世代定序(next-generation sequencing,ngs)检测方法可用于测定msi状态。一般而言,基于ngs的msi检测具备的优势是依据定量统计结果提供自动化分析。相比msi-pcr检测,此方法减少了分析时间,并且降低来自观察者之间及来自实验室之间的差异。然而,一些基于ngs的msi检测方法,例如mantis及msisensor需要一个配对的正常样本用于评估。至于其他方法,例如msiplus,尽管在检测中不需要一个配对的正常样本,但可能需要进一步改进,例如增加更多微卫星位点。故基于ngs的msi检测仍有改进空间。技术实现思路1、本发明针对微卫星不稳定性(msi)状态的检测提供了改良技术。本发明系使用一种经过训练的机器学习模型(machine learning model)来检测msi状态,该模型训练自临床目的的大范畴基因套组(large-panel)的次世代定序资料,将至少六个微卫星位点,较佳为至少一百个微卫星位点纳入。经过训练的机器学习模型对不同的特征使用不同的权重,例如波峰宽度(peak width)、波峰高度(peak height)、波峰位置(peak location)及简单序列重复(simple sequence repeat,ssr)的类型等特征,以便由没有相配对正常样本的ngs数据检测msi状态时,可达到高稳健性及高效率。此外,通过使用覆盖不同癌症类型的独立临床样本数据集进行验证,经过训练的机器学习模型被证实对msi状态检测具有高度的敏感性和特异性。2、总括而言,本发明系关于一种产生用于预测msi状态的模型的方法,包含:3、(a)收集一临床样本及该样本的一预估所得msi状态数据;4、(b)透过次世代定序(ngs)对临床样本的至少六个微卫星位点进行定序,以产生一定序数据;(c)从定序数据料中撷取一msi特征;5、(d)通过将一msi特征数据与预估所得msi状态数据彼此对应以训练一机器学习模型;及6、(e)输出一经过训练的机器学习模型。7、在一些实施例中,msi特征数据是由一基线(baseline)计算。在一些实施例中,计算msi特征数据的该基线是建立自正常样本或具有mss状态的样本。在一些实施例中,基线是建立自正常样本中每个ssr区域的各msi特征的平均值。较佳地,基线是建立自每个ssr区域的平均波峰宽度。8、在一些实施例中,预估所得msi状态数据是透过已知的检测方法从癌症患者获取。已知的检测方法包括但不限于msi-pcr检测、免疫组织化学染色法、及基于ngs的msi检测,包括mantis、msisensor、msiplus或大范畴基因套组ngs(large-panel ngs)。在一些实施例中,msi状态系为微卫星稳定(mss)或微卫星高度不稳定(msi-h)。在一些实施例中,该msi特征包括波峰宽度、波峰高度、波峰位置、ssr类型、或其任意组合。9、在一些实施例中,该机器学习模型包括但不限于回归模型(regression-basedmodels)、判定树模型(tree-basedmodels)、贝氏模型(bayesian models)、支持向量机(support vector machines)、提升模型(boosting models)或神经网络模型(neuralnetwork-based models)。在一些实施例中,该机器学习模型包括但不限于逻辑式回归模型(logistic regression model)、随机森林模型(random forest model)、极端随机树模型(extremely randomized trees model)、多项式回归模型(polynomial regressionmodel)、线性回归模型(linear regression model)、梯度下降模型(gradient descentmodel)及极端梯度提升模型(extreme gradientboost model)。10、在一些实施例中,经过训练的机器学习模型包含对各微卫星位点所界定的一权重。在一些实施例中,经过训练的机器学习模型包含对各微卫星位点的msi特征所界定的一权重。经过训练的机器学习模型可以预测msi状态。11、在一些实施例中,机器学习模型具有一阈值(cutoffvalue),该阈值为0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45或0.5。12、在一些实施例中,预估所得msi状态数据或运算所得msi状态数据指示微卫星稳定(mss)或微卫星高度不稳定(msi-h)。13、另一方面,本发明大体上系关于一种测定msi状态的计算机执行方法,包含:14、(a)从一个体收集一临床样本;15、(b)透过次世代定序(ngs)对临床样本的至少六个微卫星位点进行定序,以产生一定序数据;16、(c)从定序数据中撷取一msi特征;17、(d)将一msi特征数据导入前述经过训练的机器学习模型;及18、(e)产出一运算所得msi状态。19、在一些实施例中,计算机执行方法进一步包含步骤(f):将运算所得msi状态数据输出至一电子储存媒体或一显示器。20、在一些实施例中,该方法进一步包含一步骤,系依据运算所得msi状态数据而决定对个体的疗法及/或向个体施予一治疗有效量的疗法。21、在一些实施例中,该疗法包括但不限于手术、个人疗法、化学治疗、放射线治疗、免疫疗法或其任意组合。在一些实施例中,免疫疗法包括施予药物,药物包括但不限于抗pd-1药物如帕博利珠单抗(pembrolizumab)、纳武利尤单抗(nivolumab)及medi0680,抗pd-l1药物如度伐利尤单抗(durvalumab),及抗ctla-4药物如伊匹木单抗(ipilimumab)。22、在一些实施例中,微卫星位点是至少7、10、15、20、30、40、50、100、150、200、250、300、350、400、450、500、550或600个位点。在一些实施例中,微卫星位点是透过对染色体区域的ssr区域进行定序而确定。在一些实施例中,微卫星位点会因为定序覆盖率(coverage)低、波峰不稳定(unstable peak call)、波峰宽度高变异性或贡献权重低而被排除。在一些实施例中,波峰宽度高变异性的微卫星位点在5次重复量测中其波峰宽度变异大于2、在6次重复量测中的波峰宽度变异大于3、在7次重复量测中的波峰宽度变异大于3、在8次重复量测中的波峰宽度变异大于3、在9次重复量测中的波峰宽度变异大于3、或在10次重复量测中的波峰宽度变异大于4。23、在一些实施例中,样本来自细胞株(cell line)、活体组织检体(biopsy)、原发组织(primary tissue)、冷冻组织、福尔马林固定石蜡包埋(formalin-fixedparaffin-embedded,ffpe)组织、液态活体组织检体(liquidbiopsy)、血液、血清、血浆、白血球层(buffy coat)、体液、内脏液、腹水、腔液穿刺(paracentesis)、脑脊髓液、唾液、尿液、泪液、精液、阴道分泌物、抽取物(aspirate)、灌洗液(lavage)、口腔抹片(buccal swab)、循环肿瘤细胞(circulating tumor cell,ctc)、游离dna(cell-free dna,cfdna)、循环肿瘤dna(circulating tumor dna,ctdna)、dna、rna、核酸、纯化的核酸、纯化的dna、或纯化的rna。24、在一些实施例中,样本是一临床样本。在一些实施例中,样本来自一病患。在一些实施例中,样本来自一患者,其患有癌症、实体瘤、血液恶性肿瘤、罕见遗传病、复合性疾病、糖尿病、心血管疾病、肝病、或神经系统疾病。在一些实施例中,样本来自一患者,其患有腺癌(adenocarcinoma)、腺样囊性癌(adenoid cystic carcinoma)、肾上腺皮质癌(adrenalcortical carcinoma)、壶腹周围瘤(ampullavater cancer)、肛门癌(anal cancer)、阑尾癌(appendix cancer)、基底核胶质瘤(basal ganglia glioma)、膀胱癌(bladdercancer)、脑癌(brain cancer)、脑瘤(brain tumor)、神经胶质瘤(glioma)、乳癌(breastcancer)、颊癌(buccal cancer)、子宫颈癌(cervical cancer)、胆管癌(cholangiocarcinoma)、软骨肉瘤(chondrosarcoma)、卵巢亮细胞癌(clear cellcarcinoma)、结肠癌(colon cancer)、结肠直肠癌(colorectal cancer)、囊管癌(cysticduct carcinoma)、去分化脂肪肉瘤(dedifferentiated liposarcoma)、硬纤维瘤(desmoidtumor)、弥漫性中线胶质瘤(diffuse midline glioma)、子宫内膜癌(endometrialcancer)、子宫内膜样腺癌(endometrioid adenocarcinoma)、上皮样横纹肌肉瘤(epithelioid rhabdomyosarcoma)、食道癌(esophageal cancer)、骨骼外软骨母细胞骨肉瘤(extraskeletal chondroblastic osteosarcoma)、眼睑皮脂腺癌(eyelid sebaceouscarcinoma)、输卵管癌(fallopian tube cancer)、胆囊癌(gallbladder cancer)、胃癌(gastric cancer)、胃肠道基质瘤(gastrointestinal stromal tumor,gist)、多形性胶质母细胞瘤(glioblastoma multiforme)、头颈癌(head and neck cancers)、肝细胞癌(hepatocellular carcinoma)、高恶性度胶质瘤(high grade glioma)、下咽癌(hypopharyngeal cancer)、内膜肉瘤(intimal sarcoma)、婴儿型纤维肉瘤(infantilefibrosarcoma)、侵袭性乳腺管癌(invasive ductal carcinoma)、肾癌(kidney cancer)、平滑肌肉瘤(leiomyosarcoma)、脂肪肉瘤(liposarcoma)、肝脏血管肉瘤(liverangiosarcoma)、肝癌(liver cancer)、肺癌(lung cancer)、黑色素瘤(melanoma)、原发部位不明转移癌(metastasis ofunknown origin,muo)、鼻咽癌(nasopharyngeal cancer)、非小细胞肺腺癌(nsclc adenocarcinoma)、食道癌(oesophageal cancer)、口腔癌(oralcancer)、口咽癌(oropharyngeal cancer)、骨肉瘤(osteosarcoma)、卵巢癌(ovariancancer)、胰脏癌(pancreatic cancer)、甲状腺乳突癌(papillary thyroid carcinoma)、腹膜癌(peritoneal cancer)、原发性浆液性腹膜癌(primary peritoneal serouscarcinoma,ppsc)、前列腺癌(prostate cancer)、直肠癌(rectal cancer)、肾癌(renalcancer)、唾液腺癌(salivary gland cancer)、肉瘤样癌(sarcomatoid carcinoma)、乙状结肠癌(sigmoid cancer)、鼻窦癌(sinus cancer)、皮肤癌(skin cancer)、软组织肉瘤(soft tissue sarcoma)、鳞状细胞癌(squamous cell carcinoma)、胃腺瘤(stomachadenocarcinoma)、颌下腺癌(submandibular gland cancer)、胸腺癌(thymic cancer)、胸腺瘤(thymoma)、甲状腺癌(thyroid cancer)、舌癌(tongue cancer)、扁桃体癌(tonsillarcancer)、移行细胞癌(transitional cell carcinoma)、子宫癌(uterine cancer)、子宫肉瘤(uterine sarcoma)、或恶性子宫肌瘤(uterus leiomyosarcoma)。在一些实施例中,样本来自孕妇、儿童、青少年、老年人或成年人。在一些实施例中,样本是一研究样本。在一些实施例中,样本来自一组样本。在一些实施例中,该组样本来自相关物种。在一些实施例中,该组样本来自不同物种。25、在一些实施例中,机器学习模型是通过使用具有msi状态数据及msi特征数据的一训练数据组(training set)进行训练。26、在一些实施例中,次世代定序系统包括但不限于illumina公司制造的miseq、hiseq、miniseq、iseq、nextseq、及novaseq定序仪,life technologies公司制造的ionpersonal genome machine(pgm)、ion proton、ion s5系列、及ion genestudio s5系列,以及bgi公司制造的bgiseq系列、dnbseq系列及mgiseq系列,以及由oxford nanoporetechnologies公司制造的minion/promethion定序仪。27、在一些实施例中,定序片段(sequencing reads)是由初始样本扩增后的核酸或用诱饵(bait)捕获的核酸而产生。在一些实施例中,定序片段是从需要添加一转接子序列(adapter sequence)的定序仪所产生。在一些实施例中,定序片段是从包括但不限于下列的方法所产生:杂交捕获(hybrid capture)、引子延伸目标扩增(primer extensiontarget enrichment)、基于分子倒位探针(molecular inversionprobe)的方法、或多重目标特异性pcr(multiplex target-specific pcr)。28、另一方面,本发明大体上系关于一种测定msi状态的系统。该系统包含一数据储存装置,该装置储存有用于测定msi状态特征的指令,以及一处理器,该处理器被设置成执行指令以运行一方法。该方法包含以下步骤:29、(a)训练一机器学习模型,其中机器学习模型将一个或多个msi特征的训练数据与一供训练用的预估所得msi状态数据彼此对应;30、(b)收集来自一人类个体的一临床样本;31、(c)透过使用次世代定序(ngs)对临床样本的至少六个微卫星位点进行定序,以产生一定序数据;32、(d)通过将从定序数据中撷取出的一msi特征数据导入经过训练的该机器学习模型,以运算msi状态;及33、(e)输出一运算所得msi状态数据。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1