本发明涉及生物标记物组合筛选,特别是涉及一种改进二代测序数据微卫星不稳定性计算的新方法。
背景技术:
::1、微卫星(microsatellite)dna序列是基因组中一类具有特殊结构的序列,它是由1~10bp碱基组成的重复结构,如“g-cacacacacacacacacaca-a”一段长为20bp的微卫星dna序列中,ca为重复单元,重复次数为10次。微卫星dna的重复次数因人而异,且部分微卫星序列出在dna的编码区,如一些重要蛋白基因的外显子、启动子区域。相比非重复序列,微卫星dna在dna复制过程中更容易出现错配。2、细胞在dna复制过程中不可避免的会出现碱基错配现象,导致子代细胞dna携带错配碱基并发生突变。这种突变如果被遗传到新产生的细胞中将会引起细胞性状发生改变甚至癌变。为了避免在dna复制过程中出现错误,生物体内存在一种错配修复(mismatchrepair,mmr)体系,确保dna复制过程的“保真性”。mmr系统中包括mutsc和mutla两大家族蛋白,其中前者包括msh2、msh3和msh6等,后者包括mlh1、mlh3、pms1和pms2。3、若mmr系统存在缺陷,易发生错配的微卫星序列结构无法得到正确及时的修复,就会对下游基因的表达和蛋白的形态功能产生影响,这种现象就叫做微卫星不稳定(microsatellite instability,msi)。根据msi不稳定的程度,可分为微卫星高度不稳定(microsatellite instability-high,msi-h)、微卫星低度不稳定(microsatelliteinstability-low,msi-l)和微卫星稳定(microsatellite stable,mss)。当生物体表现出msi-h状态时,相关的基因就会出现很多的新生外显子,这些外显子编码的蛋白肽段对生物体免疫系统来说是外来的,继而激发特异性t细胞应答,因此msi-h携带者使用免疫治疗可以强化自身对肿瘤的免疫反应,更容易见效。4、大量研究表明,msi参与恶性肿瘤的发生发展过程,与结肠癌、直肠癌、胃癌、子宫内膜癌、林奇综合征等发生密切相关。例如,90%的林奇综合征患者表现出msi-h状态,因此msi-h可作为林奇综合征疾病初筛的标志物;与mss的结直肠癌患者相比,携带msi-h状态的结直肠癌患者预后更好,提示msi-h可作为结直肠癌预后的独立预测因子。5、目前msi检测对象多为组织类型样本,且检测方式各有其局限性:6、(1)pcr结合毛细管电泳法(pcr-msi):通常选择5-11个单核苷酸重复位点,长度为25bp左右,pcr扩增后通过毛细管电泳测量其长度分布区间,来确定样本的msi状态,该方法目前被认为是“金标准”检测方法。该检测方法需要受检者同时提供血液样本。仅有极少数医院开展了该检测方法对msi状态检测,且多为外送检测。另外,该检测方法纳入检测的微卫星位点数目受到电泳方法的影响,一次实验可检测的位点数目及其有限。因此,什么样的微卫星位点适合纳入该检测方法,临床上没有给出明确的参考和指导意见。市面上目前常见的微卫星位点有:bat25、bat26、d2s123、d5s346、d17s250、nr21、nr22、nr24、nr27和mono27。通过各种组合方式,市面上被大量认可的组合有2b3d、promega、nci等。7、(2)免疫组化法(ihc-msi):选择对mlh1、msh2、msh6和pms2四种蛋白表达情况进行检测,该检测方法可由医院进行独立检测。该检测方法依赖的是mmr系统缺陷引起的dna复制过程中错配不断累积,从而导致msi现象的发生和携带者发生肿瘤易感。大量临床数据显示,约占5%的msi-h携带者的肿瘤组织中这4种蛋白的表达量处于正常水平,mmr系统中除了这四种蛋白外还有多个成员,仅用mlh1、msh2、msh6和pms2蛋白的表达情况无法完全反映mmr系统是否存在缺陷的情况,也就无法从侧面反映出受检者的msi状态。另外,免疫组化实验依赖的是“抗原-抗体相互作用”的原理,现实中是存在不影响蛋白抗原结构但影响蛋白功能和表达的变异,这种情况下免疫组化法无法准确地真实地反映出受检者微卫星状态。8、(3)二代测序检测法(ngs-msi):选择对大量的微卫星位点进行测序分析,计算每一个微卫星位点的重复次数,以参考样本的重复次数平均值和标准差建立稳定状态的波动区间,评估每一个位点的微卫星稳定状态,最终以不稳定位点的占比作为判断受检组织样本的msi状态的评估条件。该检测方法的优势在于可以通过一次检测实现足够多的微卫星序列测序,同时刻画基因组图谱,提供癌症诊断更丰富的信息。结合二代测序“边合成边测序、短读长”的特征,选择合适的微卫星位点便成了该检测方法的重中之重。9、随着二代测序技术的不断完善,ngs-msi与金标准pcr-msi的一致性极高,但与pcr-msi检测方法微卫星位点数量稀少不同的是,ngs-msi可以纳入大量的微卫星位点信息,更加全面的评估受检样本的msi状态。技术实现思路1、为了克服现有技术的不足,本发明的目的是提供一种改进二代测序数据微卫星不稳定性计算的新方法。2、为实现上述目的,本发明提供了如下方案:3、一种改进二代测序数据微卫星不稳定性计算的新方法,包括:4、对原始测序数据质量进行评估,得到评估后的测序序列数据;5、将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和pcr重复序列,对有效序列进行质控分析,得到比对文件;6、从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;7、从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;8、对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。9、优选地,对原始测序数据质量进行评估,得到评估后的测序序列数据,包括:10、查看所述原始测序数据测序质量结果,得到测序序列;所述测序质量结果包括碱基质量得分值分布、gc含量分布和碱基平衡性;11、去除测序序列两端可能为接头的部分;12、去除n碱基数目不满足条件的测序序列;13、去除总长不满足条件的测序序列;14、去除测序序列3’端的ploya尾巴;15、对过滤后的测序序列计算重复度、平均长度,并根据所述重复度和平均长度对所述测序序列进行评估,以得到评估后的测序序列数据。16、优选地,将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和pcr重复序列,对有效序列进行质控分析,得到比对文件,包括:17、将所述测序序列数据比对到参考基因组,获得初始文件;18、对所述初始文件进行坐标排序和重复标记,获得比对文件;19、查看所述比对文件的质量结果;所述比对文件的质量结果包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度和pcr重复率。20、优选地,从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息,包括:21、对参考基因组序列进行扫描,获得所有微卫星位点的信息表;22、将所述信息表的每个微卫星位点的repeat_unit_length字段数值分别与repeat_times字段数值相乘,若乘积小于120则另存入基础文件;23、针对基础文件的每一个微卫星位点,若所述微卫星位点的repeat_unit_length字段数值大于2,则剔除出basic文件,若所述微卫星位点的repeat_times字段数值小于11,则剔除出basic文件,得到剔除后的微卫星序列结构信息。24、优选地,从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态,包括:25、从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并存入mpileup文件;所述测序信息包括测序深度和重复单元重复次数;26、获取mpileup文件的第一个微卫星位点测序信息;27、针对mpileup文件的每一个微卫星位点测序信息,若coverage字段数值小于100,则剔除出mpileup文件;28、针对剔除后的mpileup文件的每一个微卫星位点的readbases字段信息,统计该重复单元在每一条测序序列上的相对重复次数;29、根据所述相对重复次数进行分布统计,得到分布信息,并将所述分布信息保存至msi.txt文件;30、对于所有基线正常组织样本每个微卫星位点,重复次数种类占比峰值位于25%-75%之间,且对于所有基线正常组织样本每个微卫星位点,以重复次数占比的均值mean和标准差std为基础,寻找最大范围的连续区间,保证95%的样本在对应微卫星位点携带的重复次数种类落入该区间,并将该区间确定该微卫星位点在基线正常组织样本的peak区域,并将所述peak区域作为mss状态下该微卫星位点的重复次数特征,获得基线文件;31、对于待检测组织样本的各微卫星位点的特征,以所述基线文件中peak区域为标准,若该特征落入peak区域,则认为该微卫星位点稳定;否则认为该微卫星位点不稳定;32、统计微卫星位点中不稳定位点个数的占比mscore,当mscore值小于10%,待检测组织样本判为mss;高于20%,待检测组织样本判为msi-h;介于10%~20%之间,则将待检测组织样本判为msi-l;33、将各微卫星的稳定状态和mscore值另存入msi_analysis.txt文件。34、根据本发明提供的具体实施例,本发明公开了以下技术效果:35、本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法,包括:对原始测序数据质量进行评估,得到评估后的测序序列数据;将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和pcr重复序列,对有效序列进行质控分析,得到比对文件;从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。本发明对于微卫星不稳定性计算之前,对二代测序数据进行系统分析,如q20/30、gc含量、插入片段长度、目标区域上靶率、均一性、比对率、目标区域有效平均测序深度等,通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求。当前第1页12当前第1页12