本发明涉及基因检测领域,尤其涉及一种snp突变来源的区分方法、系统及装置。
背景技术:
1、林奇综合征(lynch syndrome,ls)是一种常染色体显性遗传疾病。患者易患各种类型的癌症,包括结直肠癌、子宫内膜癌、胃癌、卵巢癌、小肠癌、肝癌、胆道癌、脑癌、输尿管癌以及肾盂移行细胞癌等。林奇综合征主要是由错配修复基因(mismatch repair,mmr)突变引起,mmr主要包括mlh1、msh2、msh6、psm2这四种基因,它们在dna复制过程中发挥着重要的作用,它们可以发现复制过程中的错误并进行修复,保证了dna复制的准确。由于mmr的遗传缺陷,导致dna复制过程中的错误无法得到修复,出现微卫星重复序列的不稳定,经过日积月累,体细胞的突变不断累积,最终导致肿瘤的发生。
2、假基因(pseudogenes)是一类染色体上的基因片段,假基因的序列通常与对应的基因相似,但丧失了一部分功能,一般不能表达或编码的蛋白质没有功能。而与林奇综合征相关的pms2基因存在pms2cl假基因,两者的序列高度相似,由于pms2基因的突变与林奇综合征相关,pms2cl假基因的突变没有临床意义,林奇综合征的突变检测必须区分突变来源于pms2基因还是pms2cl假基因区域。
3、传统的用于区分突变来源于pms2或者pms2cl的方法一般使用长距离pcr(lr-pcr),该方法需要对整个区域发生的突变挨个进行引物设计和pcr扩增,成本高,效率较低并且耗时长,无法满足临床上大样本量的检测需求,另外长距离pcr对样本质量的要求也比较高,扩增失败率较高,不利于林奇综合征患者的检测。
技术实现思路
1、有鉴于此,为了解决现有单核苷酸多态性(snp)突变来源区分方法中一般使用长距离pcr,需要对整个区域发生的突变挨个进行引物设计和pcr扩增,进而导致成本高、效率低且耗时长的技术问题,第一方面,本发明提出一种snp突变来源的区分方法,所述方法包括以下步骤:
2、提取pms2基因序列并与参考基因组进行比对,得到比对结果;
3、根据所述比对结果进行真假基因差异分析,得到差异位点;
4、根据所述差异位点构建差异序列;
5、屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的snp;
6、根据所述差异序列对所述snp进行突变来源判断,得到判断结果。
7、可选的,所述提取pms2基因序列并与参考基因组进行比对,得到比对结果这一步骤,其具体包括:
8、根据pms2基因在人类参考基因组的位置,按外显子区域提取pms2基因序列;
9、基于所述pms2基因序列,将对应的碱基序列比对至所述人类参考基因组,得到比对结果。
10、可选的,所述根据所述比对结果进行真假基因差异分析,得到差异位点这一步骤,其具体包括:
11、根据预设规则对所述比对结果进行过滤,得到与pms2cl假基因序列相似的pms2基因外显子;
12、根据所述与pms2cl假基因序列相似的pms2基因外显子,寻找差异位点。
13、可选的,所述预设规则具体为选择与pms2cl假基因序列任意200bp内差异碱基数小于或等于2个的pms2基因外显子。
14、可选的,所述根据所述差异位点构建差异序列这一步骤,其具体包括:
15、基于所述差异位点,在预设范围内进行扩展,得到候选差异序列;
16、对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列。
17、可选的,所述对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列这一步骤,其具体包括:
18、对所述候选差异序列进行稳定性评估,计算所述候选差异序列中不同碱基突变形式下的总人群频率,删除所述总人群频率大于第一预设值的候选差异序列;
19、对所述候选差异序列进行有效性评估,利用真实临床样本评估所述候选差异序列的有效性,保留提取到预设数量pms2基因的候选差异序列。
20、通过该优选步骤,对与pms2cl假基因序列高度同源的pms2外显子,获取具体差异碱基位置,并在差异碱基位置扩展预设长度,得到差异序列,过滤掉稳定性差或提取有效性低的差异序列,筛选得到最终用于pms2和pmscl真假基因区分的差异序列。
21、可选的,所述屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的snp这一步骤,其具体包括:
22、按预设条件对人类参考基因组的假基因区域中碱基序列进行替换,得到屏蔽后的参考基因组;
23、将测序下机数据比对至所述屏蔽后的参考基因组,得到比对文件;
24、通过该优选步骤,在差异分析时,先屏蔽掉pms2cl假基因区域进行比对,得到pms2区域的snp,这部分snp既来源于pms2真基因,也来源于pms2cl假基因,需要进一步进行区分,通过真假基因差异序列,提取完全匹配为pms2来源的reads序列,如果snp是在pms2来源的reads序列上检测出来的,那这部分snp是来源于pms2真基因,否则是来源于pms2cl假基因。
25、基于所述比对文件,检测pms2基因区域的snp突变,得到对应的snp。
26、第二方面,本发明还提出了一种snp突变来源的区分系统,所述系统包括:
27、差异分析模块,用于提取pms2基因序列并与参考基因组进行比对,得到比对结果;根据所述比对结果进行真假基因差异分析,得到差异位点;根据所述差异位点构建差异序列;
28、变异检测模块,用于屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的snp;根据所述差异序列对所述snp进行突变来源判断,得到判断结果。
29、第三方面,本发明还提出了一种snp突变来源的区分装置,包括:
30、至少一个处理器;
31、至少一个存储器,用于存储至少一个程序;
32、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种snp突变来源的区分方法。
33、基于上述方案,本发明提供了一种snp突变来源的区分方法、系统及装置,结合特定核酸序列靶向富集技术,能够简单高效地区分snp突变来源于pms2基因还是pms2cl假基因,对样本质量要求较低且满足临床上大样本量的检测需求,更有利于林奇综合征患者的检测。
1.一种snp突变来源的区分方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种snp突变来源的区分方法,其特征在于,所述提取pms2基因序列并与参考基因组进行比对,得到比对结果这一步骤,其具体包括:
3.根据权利要求1所述一种snp突变来源的区分方法,其特征在于,所述根据所述比对结果进行真假基因差异分析,得到差异位点这一步骤,其具体包括:
4.根据权利要求3所述一种snp突变来源的区分方法,其特征在于,所述预设规则具体为选择与pms2cl假基因序列任意200bp内差异碱基数小于或等于2个的pms2基因外显子。
5.根据权利要求1所述一种snp突变来源的区分方法,其特征在于,所述根据所述差异位点构建差异序列这一步骤,其具体包括:
6.根据权利要求5所述一种snp突变来源的区分方法,其特征在于,所述对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列这一步骤,其具体包括:
7.根据权利要求1所述一种snp突变来源的区分方法,其特征在于,所述屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的snp这一步骤,其具体包括:
8.一种snp突变来源的区分系统,其特征在于,包括:
9.一种snp突变来源的区分装置,其特征在于,包括: