本发明涉及生物技术领域,具体涉及一种特异地高灵敏度检测低频基因突变的高通量检测方法和试剂盒,尤其在egfr基因突变检测方面取得良好效果。
背景技术:
血浆作为重要的液体活检样本来源之一,含有较多来源于衰老死亡细胞释放的循环dna,病人血浆中含有更多的游离dna,主要由凋亡和坏死的肿瘤细胞产生,其遗传学特性与肿瘤基因组dna相似,变异形式包括缺失、点突变、拷贝数增加等。因此,血浆dna已经作为一种无创性检测样本,成为疾病早期诊断、病情监测、疗效及预后评估的一种重要标志物。
自肿瘤癌症患者的血浆dna中可以获得精细的基因突变,在癌症的初始诊断、治疗监控和复发监控均有望发挥重要作用。随着二代测序技术的广泛应用,血浆dna越来越多地被应用于肿瘤相关基因的变异检测中,进行快速、准确、无创、高灵敏检测,为患者提供各种诊断依据。
但在通常的血液样本中,ctdna含量很低(0.1-1%),且每个突变点可能为低频突变。研究表明,第二代高通量测序可快速准确高通量获得血浆游离dna信息,但以低含量、片段化形式存在的血浆dna使得传统pcr方式很难有效的排除检测到的低频突变的假阳性。
表皮生长因子受体(epidermalgrowthfactorreceptor,egfr)是与人体表皮生长因子结合后启动下游的信号传导通路而发挥一系列生理及病理作用。egfr主要分布于细胞膜表面,属于i型酪氨酸激酶受体家族,具有酪氨酸激酶活性。研宄表明,约43%~89%的非小细胞肺癌患者,egfr高表达,其下游的信号通路会影响肿瘤细胞的增殖、分化、浸润转移及血管生成。egfr基因突变与非小细胞肺癌患者对酪氨酸激酶抑制剂的敏感性有关。egfr基因突变包括3种不同类型(点突变、缺失突变和插入突变),主要集中于编码酪氨酸激酶结构域的18-21外显子。目前,血液egfr突变检测因二代测序的上述局限并未得到广泛开展,针对egfr基因的低频突变检测水平需要更高灵敏度,更高特异性的方法。
技术实现要素:
有鉴于此,本发明创造旨在提出一种癌症相关基因突变高灵敏度检测方法,能够有效排除假阳性的低频突变,检测结果灵敏度和特异性都较高。
本发明创造提供的癌症相关基因突变高灵敏度检测方法,包括下述步骤:
(1)样品dna提取;
(2)第一步扩增:将样品dna与多重pcr扩增试剂混合,同时加入针对至少一个目的基因设计的带标签引物组,进行pcr扩增,得到目的基因dna片段;
其中,针对一个目的基因设计的带标签引物组含有下述4条引物:
序列l1:自5’端依次连接的正向接头序列、uid序列、正向引物序列
序列l2:自5’端依次连接的反向接头序列、uid序列、反向引物序列
序列l3:自5’端依次连接的正向接头序列、uid序列、反向引物序列
序列l4:自5’端依次连接的反向接头序列、uid序列、正向引物序列
其中,所述正向接头序列和反向接头序列均为一段适用于pcr扩增的通用序列;所述uid序列为一段含有若干n或x碱基的标签序列;所述正向引物序列和反向引物序列分别为针对目的基因5’端和3’端设计得到的引物序列;
(3)第二步扩增:对第一步扩增得到的目的基因dna片段进行pcr扩增,以使第一步扩增得到的目的基因dna片段得到富集;
(4)二代测序:将第二步扩增产物进行高通量测序并进行数据分析。
进一步,所述样品dna优选为血浆dna;所述第一步扩增优选进行2-10轮扩增循环;所述第二步扩增第一步扩增优选进行15-35轮扩增循环。
进一步,所述第二步扩增中,利用分别带正向接头序列和反向接头序列的第二步扩增引物对目的基因dna片段进行pcr扩增,第二步扩增引物中可以带有或不带有适用于测序的测序接头。
进一步,所述数据分析包括如下步骤:
s1:将所有读取结果(reads)比对到人类基因组上,去除瑕疵reads;其中,瑕疵reads包括以下至少一种情况:
1)去除比对到基因组多个位置的reads序列,减少非唯一比对reads序列对最终结果的影响;
2)判断测序所得的reads序列是否包含需要检测的位点,如果不包含,去除该条reads,如果包含,去除测序质量低于10的reads序列;
3)识别每条reads序列是否在两端存在完整的uid序列,如果不完整,去除该条reads;
s2:按照uid标签序列,将reads分成不同的家族(family),每个family中前后的uid标签序列相同,去除瑕疵family;其中,瑕疵family包括以下至少一种情况:
1)如果两个family中的uid只差一个位点(base),而其中一个family的reads的数量大于等于另一个family的reads数量的两倍,第二个family可以当作pcr或测序错误所产生的,去除第二个family;
2)对同一个family中reads数目进行统计,如果reads数目少于3条,去除该family;
s3:统计突变型reads并对突变型的存在进行判断,判断标准一般包括以下至少一种情况:
1)对同一个family中突变型和野生型的reads进行统计,当突变型的reads占这个family里面reads的80%以上,才认为该family中这个突变型是真实存在的;
2)统计每个检测位点突变型family的数目,只要该位点突变型family数目大于3且突变型频率占总频率的0.0005以上,才认为该检测位点存在碱基突变。
本发明还提供了一种癌症相关基因突变高灵敏度检测试剂盒,包括带标签引物试剂,所述带标签引物试剂包括至少一个目的基因的一组带标签引物,针对一个目的基因的一组带标签引物组含有下述4条引物:
序列l1:自5’端依次连接的正向接头序列、uid序列、正向引物序列
序列l2:自5’端依次连接的反向接头序列、uid序列、反向引物序列
序列l3:自5’端依次连接的正向接头序列、uid序列、反向引物序列
序列l4:自5’端依次连接的反向接头序列、uid序列、正向引物序列
其中,带标签引物试剂分为两种混合液进行存放,其中一种混合液为所有目的基因的带标签引物中序列l1和序列l2构成的引物混合液,另一种混合液为所有目的基因的带标签引物中序列l3和序列l4构成的引物混合液。
进一步,所述试剂盒还可以包括样品dna提取试剂、多重pcr扩增试剂、与目的基因的一组带标签引物的接头序列匹配的第二步扩增引物试剂、以及引物特异性酶解试剂。
本发明还提供了针对egfr基因的至少一个突变位点的带标签引物,包括下面的至少一组带标签引物:
带标签引物组a:
a-f-p1:
ctaacctgatgggcagtcggtgatnnxxntgaggatcttgaaggaaactgaa
a-r-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxntaccttatacaccgtgccgaa
a-r-p1:
ctaacctgatgggcagtcggtgatnnxxntaccttatacaccgtgccgaa
a-f-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxntgaggatcttgaaggaaactgaa
带标签引物组b:
b-f-p1:
ctaacctgatgggcagtcggtgatnnxxnggtgagaaagttaaaattcccgtc
b-r-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxngatttccttgttggctttcgg
b-f-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxnggtgagaaagttaaaattcccgtc
b-r-p1:
ctaacctgatgggcagtcggtgatnnxxngatttccttgttggctttcgg
带标签引物组c:
c-f-p1:
ctaacctgatgggcagtcggtgatnnxxncctccaggaagcctacgtga
c-r-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxncagcaggcggcacacg
c-f-a1:
ctaacctgatgggcagtcggtgatnnxxncagcaggcggcacacg
c-r-p1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxncctccaggaagcctacgtga
带标签引物组d:
d-f-p1:
ctaacctgatgggcagtcggtgatnnxxnatctgcctcacctccacc
d-r-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxngttcccggacatagtcca
d-f-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxnatctgcctcacctccacc
d-r-p1:
ctaacctgatgggcagtcggtgatnnxxngttcccggacatagtcca
带标签引物组e:
e-f-p1:
ctaacctgatgggcagtcggtgatnnxxncgcagcatgtcaagatcaca
e-r-a1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxnatggtattctttctcttccgc
e-f-a1:
ctaacctgatgggcagtcggtgatnnxxnatggtattctttctcttccgc
e-r-p1:
gcgacctgatgtctccgactcagctaaggtaacgatnnxxncgcagcatgtcaagatcaca
本发明还提供了针对肺癌egfr基因的检测试剂盒,包括分为两种混合液分别存放的带标签引物试剂,其中一种混合液包括上述带标签引物中的
a-f-p1/a-r-a1,b-f-p1/b-r-a1,c-f-p1/c-r-a1,d-f-p1/d-r-a1,e-f-p1/e-r-a1
另一种混合液包括上述带标签引物中的
a-r-p1/a-f-a1,b-f-a1/b-r-p1,c-r-p1/c-f-a1,d-f-a1/d-r-p1,e-r-p1/e-f-a1。
相对于现有技术,本发明创具有以下优势:
1、始游离dna输入量少:起始只需要加入游离dna的量为2-50ng。
2、采用标签技术进行两步扩增的方法,能够有效排除假阳性的低频突变,能够检测到低至0.1%以下的微量低频突变。
3、优化了连接在引物两端的接头序列,pcr扩增特异性大幅度增加。
4、pcr扩增过程采用正反向同时进行双向扩增,消除了链偏差,增加了分析突变的特异性。
5、优化了数据分析步骤,消除了瑕疵序列的干扰,有效排除pcr或测序错误。
具体实施方式
下面详细说明本发明创造。但不用于限定本发明。
本发明检测癌症相关基因突变情况,是通过采用带标签的特异性引物首先对目的基因进行多重pcr扩增,然后在进行高通量二代测序的方法获得的。具体地,可以包括如下处理步骤。
一、带标签引物设计
从在线数据库检索癌症相关基因(如egfr基因)突变位点的dna序列,通过软件进行比对并针对这些突变区域设计引物,在引物端加接头序列和唯一标识符(uniqueidentifier(uid))序列。经过反复试验筛选和验证,得到扩增效率高、特异性好,能够正确获得待检测样本中低频基因突变的带标签引物。
其中,针对癌症相关基因一个外显子的一个突变(目的基因)设有一组带标签引物,一组带标签引物含有下述4条引物:
序列l1:自5’端依次连接的正向接头序列、uid序列、正向引物序列
序列l2:自5’端依次连接的反向接头序列、uid序列、反向引物序列
序列l3:自5’端依次连接的正向接头序列、uid序列、反向引物序列
序列l4:自5’端依次连接的反向接头序列、uid序列、正向引物序列
其中,所述正向接头序列和反向接头序列均为一段适用于pcr扩增的通用序列,便于第二步扩增并为制备文库做好准备;所述uid序列为一段含有若干n或x碱基的标签序列,一条引物序列中(如序列l1)标签序列的数量为n,则扩增后可以产生4n个标签数量;所述正向引物序列和反向引物序列分别为针对目的基因5’端和3’端设计得到的引物序列。
一组带标签引物的4条引物的设计有利于实现双向扩增后测序,消除链偏向性(strandbias),减少了检测结果的非特异性。
非限定性的示例性癌症相关基因可以包括:
(1)tp53基因第175号密码子所携带的突变位点
(2)tp53基因第245号密码子所携带的突变位点
(3)tp53基因第248号密码子所携带的突变位点
(4)tp53基因第273号密码子所携带的突变位点
(5)tp53基因第306号密码子所携带的突变位点
(6)ret基因第918号密码子所携带的突变位点
(7)pten基因第267号密码子所携带的突变位点
(8)pten基因第233号密码子所携带的突变位点
(9)pten基因第159号密码子所携带的突变位点
(10)pik3ca基因第1047号密码子所携带的突变位点
(11)pik3ca基因第542号密码子所携带的突变位点
(12)pik3ca基因第545号密码子所携带的突变位点
(13)pik3ca基因第546号密码子所携带的突变位点
(14)pik3ca基因第549号密码子所携带的突变位点
(15)nras基因第12号密码子所携带的突变位点
(16)nras基因第13号密码子所携带的突变位点
(17)nras基因第61号密码子所携带的突变位点
(18)nras基因第117号密码子所携带的突变位点
(19)nras基因第146号密码子所携带的突变位点
(20)kras基因第12号密码子所携带的突变位点
(21)kras基因第13号密码子所携带的突变位点
(22)kras基因第61号密码子所携带的突变位点
(23)kras基因第117号密码子所携带的突变位点
(24)kras基因第146号密码子所携带的突变位点
(25)kit基因第816号密码子所携带的突变位点
(26)kit基因第642号密码子所携带的突变位点
(27)kit基因第576号密码子所携带的突变位点
(28)kit基因第559号密码子所携带的突变位点
(29)kit基因第557号密码子所携带的突变位点
(30)fgfr3基因第249号密码子所携带的突变位点
(31)fgfr3基因第380号密码子所携带的突变位点
(32)fgfr3基因第391号密码子所携带的突变位点
(33)fgfr3基因第641号密码子所携带的突变位点
(34)fgfr3基因第650号密码子所携带的突变位点
(35)egfr基因第719号密码子所携带的突变位点
(36)egfr基因第747号密码子所携带的突变位点
(37)egfr基因第790号密码子所携带的突变位点
(38)egfr基因第854号密码子所携带的突变位点
(39)egfr基因第858号密码子所携带的突变位点
(40)egfr基因第858号密码子所携带的突变位点
(41)egfr基因第861号密码子所携带的突变位点
(42)ctnnb1基因第37号密码子所携带的突变位点
(43)ctnnb1基因第45号密码子所携带的突变位点
(44)braf基因第466号密码子所携带的突变位点
(45)braf基因第469号密码子所携带的突变位点
(46)braf基因第594号密码子所携带的突变位点
(47)braf基因第596号密码子所携带的突变位点
(48)braf基因第597号密码子所携带的突变位点
(49)braf基因第600号密码子所携带的突变位点
二、采用带标签引物对癌症相关基因进行检测
(1)样品dna提取:提取血浆dna作为检测样本;
(2)目的基因多重pcr扩增(第一步扩增):将样品dna与多重pcr扩增试剂混合,同时加入针对目的基因设计的一组带标签引物,进行pcr扩增,得到目的基因dna片段,一般为160-200bp的长度;本步扩增优选进行2-10轮(cycle)的pcr扩增;
(3)引物二聚体酶解:将得到目的基因dna片段,加入引物特异性酶解试剂,降解去除pcr扩增片段中的引物序列;
(4)第二步扩增:利用分别带正向接头序列和反向接头序列的第二步扩增引物对目的基因dna片段进行pcr扩增,第二步扩增引物中可以带有或不带有适用于测序的测序接头,本步扩增优选进行15-35个cycle的pcr扩增;
(5)二代测序:将第二步扩增产物进行高通量测序并进行数据分析。
本发明的数据分析包括下述步骤:
s1:将所有读取结果(reads)比对到人类基因组上,去除瑕疵reads;其中,瑕疵reads包括以下至少一种情况:
1)去除比对到基因组多个位置的reads序列,减少非唯一比对reads序列对最终结果的影响;
2)判断测序所得的reads序列是否包含需要检测的位点,如果不包含,去除该条reads,如果包含,去除测序质量低于10的reads序列;
3)识别每条reads序列是否在两端存在完整的uid序列,如果不完整,去除该条reads;
s2:按照uid标签序列,将reads分成不同的家族(family),每个family中前后的uid标签序列相同,去除瑕疵family;其中,瑕疵family包括以下至少一种情况:
1)如果两个family中的uid只差一个位点(base),而其中一个family的reads的数量大于等于另一个family的reads数量的两倍,第二个family可以当作pcr或测序错误所产生的,去除第二个family;
2)对同一个family中reads数目进行统计,如果reads数目少于3条,去除该family;
s3:统计突变型reads并对突变型的存在进行判断,判断标准一般包括以下至少一种情况:
1)对同一个family中突变型和野生型的reads进行统计,当突变型的reads占这个family里面reads的80%以上,才认为该family中这个突变型是真实存在的;
2)统计每个检测位点突变型family的数目,只要该位点突变型family数目大于3且突变型频率占总频率的0.0005以上,才认为该检测位点存在碱基突变。
本发明经过上述监测和数据分析,能够有效去除pcr或测序错误产生的假阳性结果,能够检测到低至0.1%以下的微量低频突变。
本发明对癌症相关基因的检测可以采用试剂盒的形式,具体可以包括样品dna(血浆dna)提取试剂、带标签引物试剂、多重pcr扩增试剂、带有测序接头的与目的基因的一组带标签引物的接头序列匹配的第二步扩增引物试剂、以及引物特异性酶解试剂。其中,所述带标签引物试剂包括至少一个目的基因的一组带标签引物,且带标签引物试剂分为两种混合液进行存放,其中一种混合液为所有目的基因的带标签引物中序列l1和序列l2构成的引物混合液,另一种混合液为所有目的基因的带标签引物中序列l3和序列l4构成的引物混合液。进一步,所述试剂盒中还可以包括用于高通量测序的试剂,例如文库扩增试剂等。
下面以egfr基因为例,进一步详细介绍本发明的检测方法。
一、带标签引物设计
针对常见的egfr基因的9个常见突变位点,从pubmed在线数据库检索egfr基因突变位点的dna序列,通过ncbiblast软件(http://www.ncbi.nlm.nih.gov/blast/)进行比对,然后应用primeprimer5(primerbiosoft,usa)软件针对这些突变区域设计引物序列(正向引物序列以f表示,反向引物序列以r表示),在引物端加接头序列(正向接头序列以p1表示,反向接头序列以a1表示)和唯一标识符(uid)序列。经过反复试验筛选和验证,得到了扩增效率高、特异性好,针对待测样本中不同目的基因的五组带标签引物,具体如下。
带标签引物组a用于检测egfr基因18号外显子g719x突变,引物序列如下:
a-f-p1:
a-r-a1:
a-r-p1:
a-f-a1:
带标签引物组b用于检测egfr基因19号外显子e746_a750del&v769_d770insasv的缺失/插入,引物序列如下:
b-f-p1:
b-r-a1:
b-f-a1:
b-r-p1:
带标签引物组c用于检测egfr基因20号外显子s768i突变,引物序列如下:
c-f-p1:
c-r-a1:
c-f-a1:
c-r-p1:
带标签引物组d用于检测egfr基因20号外显子t790m突变,引物物序列如下:
d-f-p1:
d-r-a1:
d-f-a1:
d-r-p1:
带标签引物组e用于检测egfr基因20号外显子l858r&ll861q突变,引物序列如下:
e-f-p1:
e-r-a1:
e-f-a1:
e-r-p1:
在上述带标签引物中,单下划线部分为正向接头序列,双下划线部分为反向结构序列,单曲线部分为正向引物序列,双曲线部分为反向引物序列,无下划线部分为uid序列。
二、采用上述带标签引物对癌症相关基因进行扩增
1、引物稀释与混合
将上述带标签引物高速离心后,分组混合成预混引物,以1:15的比例向预混引物中加入lowtebuffer,配置成引物混合液(primermixer)用于第一步扩增。其中,引物混合液为两种,分别包括5对引物:
primermix1(5pairs):
a-f-p1/a-r-a1,b-f-p1/b-r-a1,c-f-p1/c-r-a1,d-f-p1/d-r-a1,e-f-p1/e-r-a1
primermix2(5pairs):
a-r-p1/a-f-a1,b-f-a1/b-r-p1,c-r-p1/c-f-a1,d-f-a1/d-r-p1,e-r-p1/e-f-a1
上述两种引物混合液可以分别作为成品试剂盒中的带标签引物试剂。
2、样品dna提取
从单个血液样本分离血浆部分,然后用magmaxtmcell-freednaisolationkit提取游离dna。
3、第一步扩增
将样品dna与带标签引物试剂(primermix1&primermix2)混合,进行覆盖度均一的特异性扩增,得到140~190bp长度的目的基因dna片段。本步扩增在目的基因两端加上uid标签,叫做taggingpcr,扩增条件是98℃10秒,65℃秒,72℃30秒,2-10个cycle。
4、引物二聚体酶解
将第一步扩增得到目的基因dna片段,加入引物特异性酶解试剂,降解去除pcr扩增片段中的引物序列。
5、第二步扩增
用pcr扩增试剂盒qiagenmultiplexpcrkit做第二步pcr,将带标签的目的基因dna片段进行富集,本步扩增的扩增引物(第二步扩增引物)包含第一步扩增引物中的接头序列,即正向引物包含ctaacctgatgggcagtcggtgat,反向引物包含
三、高通量测序
1、接头连接
若第二步扩增引物中不同时含有适用于测序的测序接头,可以单独进行接头连接操作,将上述第二步扩增的产物与测序接头、特异性区分序列的barcord标签、连接反应试剂、end-repair反应后纯化,得到加了测序接头的dna片段。
2、文库构建
将含有测序接头的dna片段与文库扩增试剂混合,进行pcr扩增,得到小片段dna文库。
3、文库均一化
将获得的小片段dna文库加入额定吸附能力的磁珠,进行纯化,获得特定浓度的小片段dna文库。
4、文库检测
将上一步所获得的特定浓度的小片段dna文库采用荧光定量pcr的方法检测浓度。
5、上机测序
上一步检测后的特定浓度的小片段dna文库进行高通量测序,采用ionprotontm测序平台(其他高通量测序平台的高通量检测方法也同样适用)。
四、数据分析
1、将所有reads比对到人类基因组上,去除瑕疵reads;其中,瑕疵reads的去除包括:
1)去除比对到基因组多个位置的reads序列,减少非唯一比对reads序列对最终结果的影响;
2)判断测序所得的reads序列是否包含需要检测的位点,如果不包含,去除该条reads,如果包含,去除测序质量低于10的reads序列;
3)识别每条reads序列是否在两端存在完整的uid序列,如果不完整,去除该条reads;
2、按照uid标签序列,将reads分成不同的family,每个family中前后的uid标签序列相同,去除瑕疵family;其中,瑕疵family的去除包括:
1)如果两个family中的uid只差一个base,而其中一个family的reads的数量大于等于另一个family的reads数量的两倍,第二个family可以当作pcr或测序错误所产生的,去除第二个family;
2)对同一个family中reads数目进行统计,如果reads数目少于3条,去除该family;
3、统计突变型reads并对突变型的存在进行判断,判断标准包括:
1)对同一个family中突变型和野生型的reads进行统计,当突变型的reads占这个family里面reads的80%以上,才认为该family中这个突变型是真实存在的;
2)统计每个检测位点突变型family的数目,只要该位点突变型family数目大于3且突变型频率占总频率的0.0005以上,才认为该检测位点存在碱基突变。
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。