确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组与流程

文档序号:29165319发布日期:2022-03-09 02:16阅读:262来源:国知局
1.本发明涉及基因检测领域,具体地涉及确定用于检测微卫星不稳定状态的位点组合方法、系统及探针组。
背景技术
::2.微卫星是真核生物基因组中均匀分布的、短串联重复序列或简单重复序列,一般由1-6个核苷酸的串联重复单元构成。若错配修复(mismatchrepair,mmr)基因发生突变,导致其无法及时修复微卫星中自发的高频长度变异,从而引起微卫星不稳定(msi),即由dna错配修复系统故障引起的微卫星区域重复序列插入或缺失的现象。3.2017年fda批准帕博利珠单抗用于治疗dmmr/msi-h型不可切除或转移性的实体瘤患者,msi成为全球首个指导肿瘤免疫治疗的分子标志物。msi存在于多种癌症中,包括结直肠癌、子宫内膜癌、胃癌、前列腺癌、卵巢癌和成胶质细胞瘤等。4.msi表现为微卫星位点重复单元的重复次数的波动,其本质为dna重复序列的插入与删除,其发生机制是由于dna错配修复系统相关基因的启动子发生超甲基化或突变使基因无法表达,进而影响到错配修复系统的功能。具体来说,在dna的复制过程中,dna聚合酶在遇到这种高度重复、连续a碱基或者连续t碱基的串联重复序列时很容易发生“打滑”,从而引起微卫星位点中核苷酸的插入或缺失,即复制过程中重复单元的数量错误。而这一过程本可以被mmr系统所识别并修复,若mmr基因发生启动子区的超甲基化或编码区的突变,导致其修复功能丧失,则会无法及时修复微卫星中自发的高频长度变异,从而引起msi。因此,在dna水平上,对于这种短串联重复序列的插入与删除状态的准确检出是msi检测的重点。5.目前检测msi的方法有如下几种:(一)免疫组化方法(immunohistochemistry,ihc)可以通过检测mmr基因缺失来确定是否发生msi,如依赖于免疫组化技术的蛋白水平检测,检测肿瘤组织中错配修复基因mlh1、msh2、msh6及pms2的表达。此方法检测msi相对较简单,成本较低。但存在一些问题,约5%-11%的msi发生并不会出现mmr蛋白的缺陷。6.(二)分子水平的检测1.聚合酶链反应(polymerasechainreaction,pcr)技术目前主要采用多重荧光pcr结合毛细管电泳的方法。通过pcr方法检测特异的微卫星重复序列扩增判定msi状态,比较肿瘤患者的标本组织与正常组织的位点突变情况。多重pcr是msi检测的金标准,可重复性强,是对肿瘤组织msi状态的直接反应。但是需要成对样本,且其检测的基因组合的位点较少、通量较低、无法提供具体的基因突变信息。在结果判断中会碰到如荧光的过强或过少、非特异性峰、不显著的峰大小改变,杂合性缺失等问题。7.2.新一代测序方法(nextgenerationsequencing,ngs)ngs又称为第二代测序技术,是一种高通量测序技术,能一次性对几十万到几百万条基因分子进行序列测定。与pcr相比,ngs方法通量大,涉及基因范围广、灵敏度和特异性更高,可与靶点的突变检测共用一份测序数据。目前已发表的ngs方法中,一般都是以pcr检测结果作为金标准,通过比较二者结果一致性作为评价ngs检测性能的标准。ngs检测方法种类繁多,且大多数需要配对正常样本,成对样本检测的成本是单样本检测的两倍。而在单样本检测中,msimarker的选择对临床样本检测的准确度和灵敏度有非常大的影响。8.当前应用最为广泛的msi检测金标准是多重荧光pcr毛细管电泳法,其检测需要使用肿瘤组织样本和其配对的正常组织样本,针对有限的ms位点进行pcr对比研究,来判断肿瘤样本的msi状态。msi位点主要基于美国国立癌症研究所(nci)所推荐并可微调或拓展。2018版《csco结直肠癌诊疗指南》建议采用nci推荐的5个位点进行msi检测,包括2个单核苷酸重复位点(bat-25、bat-26)和3个双核苷酸重复位点(d2s123、d5s346、d17s250)。而后msi分析系统promega采用5个单核苷酸重复位点(bat-25、bat-26、nr21、nr24、mono27)和2个用于样本识别的位点(pentac、pentad),该系统可以提高msi检测的灵敏度以及优化更优的特异性位点以期差异化的产品。9.目前基于二代测序ngs的msi检测由于其高通量测序的优势,可以在基因组范围选择敏感度、特异性更优的marker位点组合。其检测原理即以微卫星位点重复序列长度的变化来判定该位点的变异状态。因此,目前仍需要解决如何选取最优最有效的位点组合来检测各个msi位点重复单元长度的变化水平,并且构建合适的分类模型来最大程度的区分肿瘤样本的msi-h高频不稳定和mss稳定状态。10.
背景技术
:中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。技术实现要素:11.为解决现有技术中的至少部分技术问题,本发明提供一种使用肿瘤单个样本和二代测序技术检测微卫星不稳定状态的位点组合设计方案。此外,本发明进一步提供针对所筛选的位点组合的评估方法,以实现对msi的准确判读。具体地,本发明包括以下内容。12.本发明的第一方面,提供一种确定用于检测微卫星不稳定状态的位点组合的方法,所述方法为使用肿瘤单个样本且基于二代测序技术的方法,其包括以下步骤:(1)初步筛选得到由多个微卫星位点组成的候选位点集;和(2)计算所述候选位点集中各微卫星位点对于msi状态的贡献度,并根据贡献度大小对所述候选位点集中的微卫星位点进行排序,取排名前n的微卫星位点组成筛选位点集,根据n的不同取值,得到多个筛选位点集,利用筛选位点集计算msi-h和mss两组样本的样本msi评分,根据所述样本评分得到所需的位点组合。13.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,所述候选位点集中各微卫星位点的序列是重复单元长度超过10bp,具有高度多态性且存在插入/缺失突变的单碱基重复序列。14.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,通过分析各微卫星位点与在已知样本集的微卫星状态一致性,并计算已知样本集中对应微卫星位点的总得分作为贡献度。15.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,根据贡献度大小、捕获效率以及均一性对所述候选位点集中的微卫星位点进行排序。16.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,n为10至100的自然数,例如20、40、60、80等。17.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,所述候选位点集由表1所示的位点组成。18.根据本发明所述的确定用于检测微卫星不稳定状态的位点组合的方法,优选地,所述样本评分=不稳定位点数/总位点数,且当样本评分为0.2以上时,则将对应的样本定义为msi-h,否则将对应的样本定义为mss。19.本发明的第二方面,提供一种确定用于检测微卫星不稳定状态的位点组合的系统,其包括:获取数据单元,所述数据包含选自候选位点集中至少一个微卫星位点;数据处理单元,所述数据处理单元通过计算所述候选位点集中各微卫星位点对于msi状态的贡献度,并根据贡献度大小对所述候选位点集中的微卫星位点进行排序,取排名前n的微卫星位点组成筛选位点集;筛选位点集评分单元,其利用筛选位点集计算msi-h和mss两组样本的样本msi评分,根据所述样本评分得到所需的位点组合,其中所述样本评分=不稳定位点数/总位点数,且当样本评分为阈值如0.2以上时,则将对应的样本定义为msi-h,否则将对应的样本定义为mss。20.本发明的第三方面,提供一种探针组的设计方法,其包括针对位点组合中至少一个位点设计探针的步骤,其中,所述位点组合为根据第一方面所述的方法确定的用于检测微卫星不稳定状态的位点组合。21.根据本发明所述探针组的设计方法,优选地,针对各位点的探针包括覆盖该位点序列的侧翼序列且与微卫星位点序列的距离为0-20bp的侧翼探针。22.根据本发明所述探针组的设计方法,优选地,进一步包括覆盖对应微卫星位点的序列且与之完全匹配的野生型探针和/或优化的侧翼探针,其为当候选侧翼探针的特异性差时在所述候选侧翼探针的基础上向所述微卫星位点移动从而使探针覆盖微卫星位点中小于10个碱基而形成的探针。23.本发明的第四方面,提供一种探针组,其包括根据本发明的第二方面所述的方法得到的探针组。附图说明24.图1为flanking两段式侧翼探针示意图(虚线框)。25.图2为flanking两段式侧翼探针和cross-over三段式探针对于143个msi位点区域的捕获效率的对比结果示意图。其中左侧表示三段式探针捕获效率,右侧表示两段式探针捕获效率。26.图3a-图3f示例性出了所挑选6个marker的支持每种类型的重复单元的reads占比与该位点的重复片段长度多态性对比结果。其中,左侧的线表示该位点的msi-h微卫星不稳定状态,右侧的线表示其配对样本该位点的mss微卫星稳定态。27.图4示出了所筛选143个marker位点得分热图。28.图5为各marker组合的性能评估情况。具体实施方式29.现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。30.应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。31.除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。32.本发明中,msi状态是包括微卫星高度不稳定(microsatelliteinstability-high,msi-h)和微卫星稳定(microsatellitestable,mss)型。33.本发明中,术语“检测”是指包括确定样品中的微卫星不稳定位点是否存在、微卫星的状态以及微卫星不稳定位点的组合的方法。34.本发明中,微卫星位点来源于待测样本,术语“待测样本”是指来源于受试者/患者的生物样品。可用于本发明的生物样品类型的实例包括但不限于以下的一种或多种:尿、粪便、泪液、全血、血清、血浆、血液成分、骨髓、细胞、组织、器官、体液、唾液、脸颊拭子、淋巴液、脑脊髓液、病变渗出物和由身体产生的其他流体。生物样品类型也可以是冷冻、固定、石蜡包埋或新鲜的活检样品。35.本文所用术语“受试者”是指脊椎动物,优选为哺乳动物,还优选为人。哺乳动物包括但不限于鼠类、猿、家畜等。具体的哺乳动物包括大鼠、小鼠、猫、狗、猴子和人。非人类哺乳动物包括除人之外的所有哺乳动物。在体外获得或在体外培养的生物实体的组织、细胞及其后代也涵盖在本发明的保护范围之内。36.除非另有说明,本发明的微卫星位点的具体信息如在基因组中的位置是基于基因组数据库hg19版本确定。37.确定用于检测微卫星不稳定状态的位点组合的方法本发明的第一方面,提供一种确定用于检测微卫星不稳定状态的位点组合的方法,其为使用肿瘤单个样本且基于二代测序技术的方法,一般而言其包括以下两个步骤:(1)初步筛选得到由多个微卫星位点组成的候选位点集;(2)从候选位点集中得到多个筛选位点集,通过对筛选位点集进行验证从而最优的筛选位点集,将其作为所需的位点组合。38.本发明的步骤(1)中,候选位点集是指包含涉及单核苷酸重复的位点的msi位点的集合,例如含有单碱基如a或t的重复。优选地,所述候选位点集中各微卫星位点的序列是重复单元长度超过10bp,具有高度多态性且存在插入/缺失突变的单碱基重复序列。示例性地,单碱基重复次数可以为10-50次,还优选为10-30次,进一步优选为15-25次。优选地,候选位点集由表1所示的位点组成。39.本发明的步骤(2)中,通过对候选位点进行排序来进一步筛选所需的位点组合。例如,计算所述候选位点集中各微卫星位点对于msi状态的贡献度,并根据贡献度大小排名来得到筛选位点集。40.本发明中,贡献度可通过例如分析各微卫星位点与其在已知样本集的微卫星状态的一致性,并计算已知样本集中对应微卫星位点的总得分作为贡献度。例如,当每个位点微卫星状态和样本的微卫星状态一致,则该位点加1分,不一致扣1分,最后在所有样本中该位点的总得分为该微卫星位点的最终得分作为贡献度。41.需要说明的是,在候选位点集进行排序时可以只依据贡献度进行排序,也可以在贡献度的基础上结合其他因素进行排序,其他因素的实例包括但不限于探针的捕获效率以及均一性等。42.在确定筛选位点集时,可通过例如取排名前n的微卫星位点组成筛选位点集。当n为不同自然数时,可得到一个由n个位点组成的筛选位点集。例如,当n分别取20、40和60时,分别得到对应的20个位点组成的筛选位点集、40个位点组成的筛选位点集和60个位点组成的筛选位点集。此处,n为根据候选位点集中总位点数而设定的自然数。示例性实施方案中,候选位点集中总位点数为150,则此时n可以是10至100的自然数,例如,20、30、50、60、80等。43.本发明的步骤(2)进一步包括验证不同位点数组成的筛选位点集对已知样本的模拟结果。例如,计算样本的msi评分,具体地,计算msi-h和mss两组样本的样本msi评分,根据所述样本评分选取最优筛选位点集作为所需的位点组合。44.本发明中,样本得分可通过例如,样本msi得分(score)=不稳定位点数(unstable_loci)\总的位点数(total_loci)来计算,并通过设置不同阈值来对结果进行判读。在示例性实施方案中,如果score值大于等于0.2,则该样本判读为msi-h,否则该样本判读为mss。45.通过本发明的确定位点组合的方法,利用表1所示的微卫星位点中,确认选择40-60个微卫星位点具有较高的msi判读的准确性。46.在确定用于检测微卫星不稳定状态的位点组合的基础上,本发明可进一步包括检测微卫星不稳定状态,其包括采用探针进行杂交捕获的步骤和进行二代测序的步骤。此时的方法为检测微卫星不稳定状态的方法,以下简称为“本发明的检测方法”。47.采用特定的探针来进行杂交捕获的步骤中,探针为针对所需位点组合中各微卫星位点的探针,优选为针对位点的侧翼序列设计的侧翼探针。其中,所述侧翼序列包括微卫星位点序列的5’端序列,且与微卫星位点序列的距离为0-20bp,还优选为0-10bp,例如0、1、2、3、4、5、6、7、8、9或10bp的序列;所述侧翼序列还包括微卫星位点序列的3’端序列,且与微卫星位点序列的距离为0-20bp,还优选为0-10bp,例如0、1、2、3、4、5、6、7、8、9或10bp的序列。优选地,此外的探针还包括野生型探针,其为覆盖一个微卫星位点的全部序列且与之完全匹配的探针。在探针设计时,需考虑侧翼探针的位置,优选地候选侧翼探针的位置紧邻微卫星位点,比如左侧(5’端)的侧翼探针的3’端紧邻微卫星序列的5’端。当紧邻侧翼探针的特异性差(例如>20时),则向微卫星靶标的外侧(5’方向)挪动1-20个碱基。或者向内侧(3’方向)挪动10个碱基,此时的探针为优化的侧翼探针。本发明的优化的侧翼探针是为避免例如探针特异性差而优化后的探针。此类探针是可选的探针,即使在包含此类探针时,其也不是探针组中的主要探针。48.在具体实施方案中,将探针组与磁珠混合并吸附后,通过洗脱处理得到目标基因片段。例如,可以先将本发明提供的探针组中的各个探针进行生物素标记,然后在杂交后用链霉亲和素磁珠吸附杂交产物,通过探针上的生物素和链霉亲和素的结合被吸附到磁珠上,再从磁珠上释放出富集的微卫星不稳定相关微卫星位点片段。49.本发明的检测方法包括:利用碱基互补配对原理,将探针与目标区域结合后,进一步对目标区域进行二代测序的步骤。用于二代测序的系统或平台不特别限定,其包括但不限于大规模平行签名测序(massivelyparallelsignaturesequencing,mpss)、聚合酶克隆(polonysequencing)、454焦磷酸测序(454pyrosequencing)、illumina(solexa)sequencing、abisolidsequencing、离子半导体测序(ionsemiconductorsequencing)、dna纳米球测序(dnananoballsequencing)等。50.在具体实施方案中,将洗脱处理得到的目标基因片段利用pcr进行片段扩增,取长度在220-320bp之间的扩增片段,然后进行二代测序并分析,得到每个微卫星位点的微卫星状态。51.探针组及其设计方法本发明进一步包括针对所需的位点组合中至少一个位点设计探针的步骤。其中,所述位点组合为根据第一方面所述的方法确定的用于检测微卫星不稳定状态的位点组合。52.本发明的探针设计可采用本领域已知的方法进行。例如在针对某位点进行探针设计时,一般而言,设计覆盖msi位点序列或其部分序列的探针,其包括覆盖特定msi位点序列及其两侧序列的cross-over三段式探针,以及覆盖msi两侧侧翼序列的flanking两段式探针。53.除了上述探针外,本发明发现针对msi位点设计特定的侧翼探针具有优异的技术效果。此处,侧翼探针是指覆盖msi位点序列的左右两侧的侧翼序列且与微卫星位点序列的距离为0-20bp的侧翼探针。优选地,进一步包括覆盖对应微卫星位点的序列且与之完全匹配的野生型探针和/或优化的侧翼探针。其中,优化的侧翼探针为当候选侧翼探针的特异性差时在所述候选侧翼探针的基础上向所述微卫星位点移动从而使探针覆盖微卫星位点中小于10个碱基而形成的探针。因此,本发明的优化探针是为避免例如探针特异性差而优化后的探针。示例性地,在探针设计时,需考虑侧翼探针的位置,优选地候选侧翼探针的位置紧邻微卫星位点,比如左侧(5’端)的侧翼探针的3’端紧邻微卫星序列的5’端。当紧邻侧翼探针的特异性差(例如>20时),则向微卫星靶标的外侧(5’方向)挪动1-20个碱基,或者向内侧(3’方向)挪动10个碱基,此时的探针为优化探针。优化的侧翼探针是可选的探针,即使在包含此类探针时,其也不是探针组中的主要探针。54.可以理解的是,本发明的探针组可以仅含有针对至少一个微卫星位点的一个侧翼序列的侧翼探针,即该侧翼探针仅覆盖至少一个微卫星位点序列的5’端序列或3’端序列。本发明的探针组也可以含有针对至少一个微卫星位点的两侧的侧翼序列的侧翼探针。此时,侧翼探针可以例如由两个侧翼探针组成,其分别覆盖至少一个微卫星位点序列的5’端序列和3’端序列。侧翼序列与微卫星位点序列的距离为0-20bp。55.在本发明中,对具体探针序列不特别限定,虽然本发明中没有示出具体的探针序列,但是本领域技术人员能够根据本发明所列出的msi位点(参见表1)和探针设计思路得到所需侧翼探针,并进一步组成探针组。56.系统本发明确定用于检测微卫星不稳定状态的位点组合的系统包括:获取数据单元,所述数据包含选自候选位点集中至少一个微卫星位点信息;数据处理单元,所述数据处理单元通过计算所述候选位点集中各微卫星位点对于msi状态的贡献度,并根据贡献度大小对所述候选位点集中的微卫星位点进行排序,取排名前n的微卫星位点组成筛选位点集;用于筛选位点集的评分单元,其利用筛选位点集计算msi-h和mss两组样本的样本msi评分,根据所述样本评分得到所需的位点组合,其中评分单元具有下述模型:样本msi得分(score)=不稳定位点数(unstable_loci)\总的位点数(total_loci),当样本评分为0.2以上时,则将对应的样本定义为msi-h,否则将对应的样本定义为mss。57.数据处理进一步包括测序的数据质控单元。测序获得的数据,使用常用生物信息学分析软件比对至人类参考基因组grch3/hg19(可从ucsc网站http://genome.ucsc.edu下载),经过适当处理,使用常用生物信息学分析软件找出每个微卫星位点不同重复元素的测序片段数。其结果即可作为本发明提出的分析流程的输入信号进行msi状态分析,确认微卫星位点的稳定性及样本的微卫星稳定状态。58.在示例性实施方案中,本发明的系统体现为电子设备。电子设备可以通用计算设备的形式表现。电子设备的组件可以包括但不限于:至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。59.其中,所述存储器存储有程序代码,所述程序代码可以被所述处理单元执行,使得所述处理单元执行本发明所述的方法,其中处理器至少包括本发明所述的数据处理单元(也可以称为“模块”)。存储器可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以进一步包括只读存储单元(rom)。60.本发明的存储器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。61.总线可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。62.电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。63.这种通信可以通过输入/输出(i/o)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管本文未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。64.本领域技术人员应理解,只要能够实现本发明的目的,在上述步骤(1)-(2)前后,或步骤之间还可包含其他步骤或操作,例如进一步优化和/或改善本发明所述的方法。65.实施例本实施例筛选了一组合适的msimarker位点组合,大大提高单样本检测准确度和灵敏度,同时在单样本流程中显著降低了需要配对正常样本共同检测的检测成本。具体如下。66.初步筛选143个msmarker(见表1),其筛选原则为挑选具有微卫星特征的重复单元超过10bp,具有高度多态性、存在插入/缺失突变的单碱基重复序列;包含msi-pcr毛细管电泳法使用的6markers(基于promega分析系统的bat25、bat26、mono27、nr24、nr26、nr27)。67.同时,在探针设计方面在marker重复单元(repeatunit)的左右两个侧翼(见图1)进行flanking两段式的侧翼探针设计,评估marker捕获效率和均一性,以及不同marker组合的msi-h,mss两组样本msi得分分布差异,准确度,得出下列探针组合。并使用下列探针组合,测试了65例组织样本和标准品,包括35例msi-h样本,30例mss样本,准确度和灵敏度均为100%。68.该方案同时可以作为补充模块与全外panel、定制靶标panel或者扩增子panel进行组合检测,可以准确筛选出适合用于判断样本msi状态的msimarker位点。69.表1用于检测msi的143个位点组合msi位点名称chrstartendmsi位点定位及序列重复单元次数msitag1chr1174926861174926883gtacc(t+)cttaa23msitag2chr12901671629016736ttgtg(t+)gtcat21msitag3chr1232564097232564117tagac(t+)agtgt21msitag4chr16603797466038000agttg(t+)aaatt27msitag5chr12622760926227630cagtc(a+)gcctg22msitag6chr1209974529209974549atgcc(a+)tccag21msitag7chr1237675135237675159ccctg(a+)caggt25msitag8chr1120053341120053377ttttc(t+)gagac37msitag9chr1162736822162736832tcagg(a+)gtaat11msitag10chr1161332092161332105attcc(t+)gcttt14msitag11chr104359583743595850aatga(t+)gtcct14msitag12chr1081156698115686aaagt(a+)ttgat18msitag13chr103231546432315475gatcc(t+)aatta12msitag14chr108972867289728692tgttt(a+)catgg21msitag15chr10123336649123336673atctc(a+)tatat25msitag16chr10123341276123341300cattt(a+)gcagc25msitag17chr114945495749454979acaac(t+)agagt23msitag18chr11111741106111741127aaagc(a+)gcatg22msitag19chr11118255663118255683caggt(a+)gattt21msitag20chr111804794118047964acacc(a+)gaacc24msitag21chr11125490766125490786gaaga(t+)aatat21msitag22chr11102193509102193534ctggt(a+)gccac26msitag23chr11108114662108114676aataa(t+)aagaa15msitag24chr11119144792119144808aaagc(t+)aaata17msitag25chr11108121411108121425tatcc(t+)aggct15msitag26chr11108141956108141970tgaac(t+)accac15msitag27chr11108188267108188279cttga(t+)gcctc13msitag28chr11108195977108195995catag(t+)cattt19msitag29chr11118353038118353053aatag(t+)ctaat16msitag30chr127721633177216351gaaga(t+)gagac21msitag31chr12112893676112893692acatg(t+)gcatt17msitag32chr12133237754133237767acctg(a+)ggcaa14msitag33chr121202413212024149gtccc(t+)ccaca18msitag34chr121203296712032985tgttt(a+)ggaaa19msitag35chr121203621112036245tcttc(t+)gagac35msitag36chr133758000037580022atctc(a+)ggttt23msitag37chr134895416048954172acttc(t+)aaatt13msitag38chr133290522032905231tttga(t+)gaggt12msitag39chr133290753632907546ctgtc(t+)gtaaa11msitag40chr145882582658825846aactc(t+)aaggt21msitag41chr142365234723652367ttgct(a+)ggcca21msitag42chr157354570573545730tgatt(a-)(t+)gtttc10/16msitag43chr154262296942622990tttcc(t+)cattt22msitag44chr152293348722933510caggc(t+)aaatg24msitag45chr159130332691303337aagac(t+)ccctc12msitag46chr163147561431475637tcttt(a+)gacgc24msitag47chr163049266730492688catct(a+)gaagt22msitag48chr174575417445754194aaggc(t+)aactt21msitag49chr172955906229559087ctaaa(t+)cagag26msitag50chr174125608841256097aaaag(a+)gaaaa10msitag51chr185636357056363595tttaa(t+)aggaa26msitag52chr184539584645395863acttt(a+)gtgca18msitag53chr184858485648584871ggcta(t+)ggtag16msitag54chr186187352261873573tatgc(g+)acgag52msitag55chr195776906757769091gtatc(t+)gagac25msitag56chr195437802654378047ttttc(t+)aagac22msitag57chr195504800055048020aaagg(a+)gaggg21msitag58chr27588215775882177attgc(t+)aatct21msitag59chr2122520714122520736gtcag(t+)gagac23msitag60chr29584936295849384tccta(t+)gtgag23msitag61chr24393772443937747ttaac(t+)gtatc24msitag62chr24764156047641586caggt(a+)gggtt27msitag63chr26100978961009813tcttc(t+)aattt25msitag64chr2202430429202430449ttgaa(t+)acctt21msitag65chr26112828661128308ttctc(t+)gagac23msitag66chr2225422601225422622gagac(a+)ccaat22msitag67chr23953669039536716cagga(t+)gaggc27msitag68chr24763552447635536tgtac(t+)aagga13msitag69chr24803274148032753tgtga(t+)aaggt13msitag70chr22952342129523440gtctc(a+)tgcat20msitag71chr22952736029527377tgtct(a+)gaaaa18msitag72chr24248175842481772ttgag(t+)aacct15msitag73chr24255776042557775actac(t+)cctga16msitag74chr24803389148033908aaaac(t+)aattt18msitag75chr2215593006215593025ttact(a+)ggcaa20msitag76chr2215593262215593276tagac(t+)gattc15msitag77chr203333473533334756gtgct(a+)gtgac22msitag78chr204475694444756966catcc(t+)agaaa23msitag79chr211965124219651264taagg(t+)gagtc23msitag80chr214509446845094493tttcc(t+)aaaca26msitag81chr214155111241551136aaacc(a+)gacgg25msitag82chr223834351038343535atggc(t+)gagtc26msitag83chr222361709523617118atctc(a+)gagaa24msitag84chr222361859523618609aaaag(a+)gggct15msitag85chr3169525510169525531aatac(a+)gattt22msitag86chr3160253689160253713ttctt(a+)ccaaa25msitag87chr3167045702167045722gtctc(a+)gccat21msitag88chr33299709732997119acttg(t+)gagat23msitag89chr31007601010076029tctca(a+)gattt20msitag90chr36998843869988451cattg(t+)ataga14msitag91chr31263342512633440tccaa(t+)gagac16msitag92chr31263423112634252gccac(t+)gagac22msitag93chr31263528612635304aatcc(t+)ctttt19msitag94chr31263951012639524tttcc(t+)ctgag15msitag95chr31265609412656105taatg(t+)gtaga12msitag96chr3185787291185787309agttg(t+)aaaaa19msitag97chr4187083965187083987aattc(t+)actgt23msitag98chr45559821255598236tttga(t+)gagaa25msitag99chr47766996877669990tctgc(t+)aaatc23msitag100chr42568031025680328tgtaa(t+)actgg19msitag101chr51676222516762253attct(a+)tacaa29msitag102chr59821695798216980aggcc(t+)acctg24msitag103chr5139496405139496425ttggt(a+)gggtc21msitag104chr5175512224175512248gccaa(t+)ggaag25msitag105chr5140907267140907289aaact(a+)ccata23msitag106chr53715803537158060ccgcc(a+)ggctt26msitag107chr5122722371122722392aattt(a+)gcctt22msitag108chr6161523835161523856aagtt(a+)cacga22msitag109chr65150359851503615ttctc(a+)cacag18msitag110chr6117718360117718370tcttg(t+)gaaaa11msitag111chr6117895423117895436aattt(a+)gttac14msitag112chr6152421908152421922agggc(a+)gtttt15msitag113chr6152422170152422186tttag(t+)gtata17msitag114chr74830844848308470tcatc(t+)aacat23msitag115chr7134576497134576519gttgt(a+)tgtgg23msitag116chr7138189193138189218agctc(t+)gagac26msitag117chr72354520523545227aaagc(a+)gttaa23msitag118chr74022803440228054tctcc(a+)caaac21msitag119chr7116409676116409690caacc(t+)ccttt15msitag120chr760370586037074aactg(a+)ttcac17msitag121chr71393586213935873cacat(a+)gtctt12msitag122chr77460874174608753actgc(t+)atggt13msitag123chr79223595292235963ttaga(t+)acttt12msitag124chr7116381122116381137tggtg(t+)ggttt16msitag125chr7140480045140480062cagtc(t+)aagac18msitag126chr7140482264140482279tttcc(a+)tcaac16msitag127chr7140496149140496164atctt(a+)ggctt16msitag128chr7140498360140498380cggcc(t+)aaagc21msitag129chr8101540234101540255ttgct(a+)gttta22msitag130chr8117868532117868554actgt(a+)gtcac23msitag131chr8101280912101280932tgtct(a+)cccaa21msitag132chr8141754889141754904aaaag(a+)gaatt16msitag133chr83828118138281201tgatt(a+)gaatc21msitag134chr957385465738566gagtc(t+)aacat21msitag135chr9133712212133712233gtctc(a+)gagta22msitag136chr9133721247133721259tatct(a+)ttcat13msitag137chr9133721469133721496atgtc(g+)cttgt28msitag138chr9133728558133728580ttttc(t+)gagat23msitag139chrx7083213470832158aaagg(a+)gagga25msitag140chrx106092451106092472gtgta(t+)aggtt22msitag141chrx8452327584523297tggtc(t+)aggag23msitag142chrx123195594123195618ctgac(t+)agcac25msitag143chrx1127283711272858aggcc(a+)tcaag221、杂交前文库构建1)取dna200ng,使用covarism220对dna进行打断;2)使用诺唯赞公司的vahts®ꢀuniversalprodnalibraryprepkit进行核苷酸文库构建:包括末端修复、接头连接、文库富集等步骤;3)将核苷酸文库使用agencourtampurexp磁珠纯化后,使用qubit4.0以及agilent2100毛细管电泳进行质控。70.2、探针杂交捕获1)探针设计选择143个msi位点(见表1),设计两段式flanking侧翼探针,设计方式请见图1。71.2)文库杂交捕获将500ng制备好的杂交前文库与人cot-1dna、文库封闭试剂混合,使用真空抽滤泵45℃蒸干后,再复溶于杂交液中,室温孵育10min后上pcr仪,95℃、5min后加入混合好的探针,再置于65℃杂交4h或者16-18h。72.3)链霉亲和素磁珠吸附与清洗将步骤2)产物与链霉亲和素磁珠混合,在pcr仪上孵育45min,后续用清洗液对磁珠进行清洗。73.4)探针捕获区域富集使用引物、高保真聚合酶等对步骤3)产物进行富集,经过agencourtampurexp磁珠纯化后使用qubit4.0以及agilent2100毛细管电泳进行质控。74.5)上机测序。75.6)生信分析(1)将二代测序的原始数据运用trimmomatic软件进行去除测序接头及低质量序列,得到后续分析所用到的cleandata;(2)将1所得的cleandata运用bwa软件比对到人类参考基因组序列,得到比对后的sam文件;(3)对sam文件运用samtools软件进行排序去重,得到bam文件;(4)对bam文件运用基于肿瘤样本的二代测序数据分析微卫星不稳定的方法得到每个marker位点的微卫星状态;(5)根据公式:样本msi得分(score)=不稳定位点数(unstable_loci)\总的位点数(total_loci),计算样本的msi得分,如果score值大于等于0.2,则判读该样本为msi-h,否则该样本判读为mss。76.(6)评估每个marker位点对样本msi状态判读贡献度(marker性能得分),计分规则为每个位点微卫星状态和样本的微卫星状态一致,该位点加1分,不一致扣1分,最后在所有样本中该位点的总得分为该marker的最终得分。77.(7)综合每个marker性能得分和捕获效率,以及均一性对143个marker进行排序,依次递增引入一个marker加入msi状态分析,得到每个marker组合的准确率,和msi-h,mss组样本score分布。78.(8)结果:得出单样本检测msi的探针组合。79.8.1从下机数据质控可以看出flanking两段式侧翼探针的捕获效率相对于cross-over三段式探针有10%左右的提升,平均捕获效率对比见图2。80.8.2该探针组合共检测了65例组织样本和标准品,其中包括35例msi-h样本,30例mss样本,与荧光qpcr-毛细管电泳法对比(表2所示),msi-h和mss的检测准确度为100%。其判读方法为样本msi得分(score)=不稳定位点数(unstable_loci)\总的位点数(total_loci),计算样本的msi得分,如果score值大于等于0.2,则判度该样本为msi-h,否则该样本判读为mss。81.表2表28.3该探针组合共检测了65例组织样本和标准品,其中包括35例msi-h样本,30例mss样本,上机测序后分析所筛选的各msimarker位点的重复单元的重复次数,即重复片段长度各类型在测序深度的分布情况,计算每种类型的重复片段的测序深度的占该msi位点的总测序深度reads的百分比,不同重复片段长度的序列代表不同的重复单元类型。如图3a-图3f所示,以其中6个marker为例,将支持每种类型的重复单元的reads占比与该位点的重复片段长度多态性作图,可明显看出各msimarker,msi-h样本的不稳定状态(左侧的线)与mss样本的稳定状态(右侧的线)的区分度明显。82.8.4使用公司自主研发的基于肿瘤样本的二代测序数据分析微卫星不稳定的方法得到每个marker位点的微卫星状态,并计算样本msi得分(score)=不稳定位点数(unstable_loci)/总的位点数(total_loci),如果score值大于等于0.2,则判度该样本为msi-h,否则该样本判读为mss。评估每个marker位点对样本msi状态判读贡献度(marker性能得分),计分规则为每个位点微卫星状态和样本的微卫星状态一致,该位点加1分,不一致扣1分,最后在所有样本中该位点的总得分为该marker的最终得分,各marker得分热图见图4。83.综合每个marker性能得分和捕获效率,以及均一性对143个marker进行排序,依次递增引入一个marker加入msi状态分析,得到每个marker组合的准确率,和msi-h,mss两组样本的score分布,各marker组合的性能评估请见图5,横坐标为各组合marker的组成数量(或组合类型),纵坐标为score分布。由各组合score分布图可以看出143个msimarker组合均能准确判断msi的状态,尤其选择40-60个marker组合区间可以得到更优的msi状态判读的区分效果(图5所示)。84.尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1