检测哺乳动物基因组三核苷酸重复序列的方法及其应用的制作方法

文档序号:516891阅读:469来源:国知局
检测哺乳动物基因组三核苷酸重复序列的方法及其应用的制作方法
【专利摘要】本发明涉及检测哺乳动物基因组三核苷酸重复序列的方法及其应用。具体而言,本发明涉及使用C2H2锌指蛋白检测哺乳动物基因组的三核苷酸重复序列。本发明还涉及具体的C2H2锌指蛋白、其编码序列、含有其编码序列的多核苷酸构建物、以及细胞,以及它们的用途。
【专利说明】检测晡乳动物基因组三核苷酸重复序列的方法及其应用

【技术领域】
[0001] 本发明涉及核苷酸检测领域,具体涉及检测哺乳动物基因组三核苷酸重复序列的 方法及其应用。

【背景技术】
[0002] 三核苷酸重复(trinucleotide repeat, TNR),一种在哺乳动物中普遍存在的三核 苷酸序列的扩增,其在蛋白或RNA水平上通过获得或失去性突变而影响到正常基因功能, 引发与神经-肌肉系统相关的退行性疾病。三核苷酸重复的这种不稳定性在组织及其传代 过程中显现出动态的变化,并且较长的重复序列与较短的相比,更有可能发生重复数增加 的突变。同时由于重复序列的长度与疾病的严重性及病人发病的年龄相关,因此大部分三 核苷酸重复引起的疾病都呈现出遗传早现的特征。随着发育、表观、增殖甚至环境等因素的 变化,三核苷酸重复的不稳定性在个体、组织以及个体不同的年龄阶段之间都表现出复杂 的样式。
[0003] 在人类基因中,三核苷酸重复的扩增引发了一系列的常染色体显性或隐性的疾病 紊乱,比如多聚谷氨酰胺疾病(亨廷顿舞蹈症,各种类型的脊髓小脑性共济失调,脊髓延髓 肌肉萎缩症等),Friedreich共济失调,脆性X综合症,营养不良性肌强直等。现在有三十 种左右的已知疾病与三核苷酸重复相关,其中多聚谷氨酰胺疾病(亨廷顿舞蹈症,各种类型 的脊髓小脑性共济失调,脊髓延髓肌肉萎缩症等)与CAG重复相关;Friedreich共济失调与 GAA重复相关;脆性X综合症与CGG重复相关;营养不良性肌强直与CTG重复相关;等等。 其中,各个疾病的确切发生发展都依赖于对应重复序列在基因中的定位,还有对应致病基 因的时空表达方式及其功能。每个重复序列扩增引发相关的疾病都显现出确切的重复片段 阈值,也就是当重复片段数目超过该确切的阈值时,可能会在蛋白或RNA水平上发生积累 改变,从而引发基因功能的致病改变。
[0004] 因此,三核苷酸具体重复数目对于相应基因受累疾病的预测、及发病病程、病因等 均存在重要的提示作用,检测三核苷酸重复数目对于研究发病机制尤为必要。现在主要的 方法通过设计引物覆盖已知具体基因序列,再进行PCR反应扩增出对应基因的重复片段, 通过测序手段进行确认。然而对于多基因突变相关的神经系统疾病,包括前面提及的单基 因突变疾病,其中三核苷酸重复在多基因水平上所扮演的角色进行研究,则需要对研究手 段需要更多的考虑。目前的研究手段中,即使全基因关联研究(GWAS)对于这类多基因相关 的疾病中的各个基因,尤其是三核苷酸重复所在基因所起的作用也无法进行具体分析,因 此有必要开发出全基因组角度的对三核苷酸重复序列进行系统研究的方法。
[0005] 在人类基因组中,锌指蛋白是最为常见的DNA结合基序,占到2-3%的百分 比("Initial sequencing and analysis of the human genome,', International Human Genome Sequencing Consortium, Nature2001, 409,860 - 921)。锋指蛋白 涉及到一系列的生物功能,包括发育、分化、抑制肿瘤等等(S. Iuchi和N.Kuldell, Zinc Finger Proteins:From atomic contact to cellular function, Landes Biosciences, Georgetown, TX, 2004)。锌指蛋白结构域由二十至三十个氨基酸残基组成,它 们形成由锌离子与指环结构上的Cys和His残基结合形成稳定的二级结构。根据与锌离子 配位的氨基酸种类和数目,可以将锌指蛋白分成多个种类。其中,经典的C 2H2锌指蛋白最为 常见,在锌离子协助下折叠形成β β α二级结构,而α螺旋上的-1,3和6位氨基酸残基 参与锌指蛋白特异地结合靶点DNA序列。并且锌指蛋白大部分由多个C2H 2锌指蛋白通过串 联连接的方式构成。由于C2H2类锌指结构域的独立结构及其特异分子识别特性,被逐渐尝 试用来设计新锌指蛋白,使其具有新DNA结合能力,通过与不同作用结构域的融合,可能用 于各种生物医学应用中。
[0006] 本发明利用C2H2锌指蛋白的可组装及改造后特异识别DNA的特征,对三核苷酸 重复序列进行特异性结合,利用生物化学的方法,将三核苷酸重复序列体外富集出,经过高 通量测序手段和后续生物信息学分析,从全基因组角度将三核苷酸重复所在的基因位点找 出,以寻找未知的参与疾病发生的关键基因,以解决现在仍无法全面了解的症结所在。


【发明内容】

[0007] 本发明首先通过凝胶阻滞实验验证了本发明人开发的锌指蛋白和靶标DNA间的 特异性相互作用;同时开发出了新的ZIP-seq技术,在体外运用锌指蛋白将基因组DNA中富 含特异性重复序列的核酸片段富集出,并且通过高通量测序和生物信息学方法将特定的三 核苷酸重复在全基因组中的分布定位出。临床样本结合,可将本发明的工具用来检测临床 病例中的三核苷酸重复的分布,从而为临床上已知表型,却对发病机制一无所知的分子机 制展开新的视野,并且对可能发现的新基因进行进一步的功能研究。
[0008] 因此,本发明提供一种基因组特殊序列测序或检测基因组特殊序列的方法,该方 法包括:
[0009] 混合特殊序列结合物和含DNA的样品,和
[0010] 对富集的DNA或DNA片段进行测序分析。
[0011] 在一具体实施例中,所述方法包括:
[0012] (1)在适合所述特殊序列结合物与所述DNA结合的条件下孵育所述特殊序列结合 物与DNA ;
[0013] (2)分离出结合的特殊序列结合物-DNA ;
[0014] (3)从步骤(2)获得的特殊序列结合物-DNA分离纯化得到DNA ;和
[0015] (4)对步骤(3)分离纯化得到的DNA进行测序。
[0016] 在一具体实施例中,所述方法还包括,将测序信息与基因组信息匹配,获得基因组 特殊序列信息。
[0017] 在一具体实施例中,所述特殊序列为三核苷酸重复序列。
[0018] 在一具体实施例中,所述特殊序列结合物包括锌指蛋白或转录激活子样效应因 子。
[0019] 在一具体实施例中,所述锌指蛋白是C2H2型锌指蛋白。
[0020] 在一具体实施例中,所述三核苷酸重复序列选自(GCT) n、(CTG) n、(TGC) n、(AGC) η、 (GCA) η、(CAG) η、(GGC) η、(GCG) η、(CGG) η、(GCC) η、(CCG) η、(CGC) η、(GAA) η、(AAG) η、(AGA) η、(TTC) η、(TCT) η和(CTT) η,其中,η为大于等于3的整数。
[0021] 在一具体实施例中,η彡100。
[0022] 在一具体实施例中,所述锌指蛋白是C2H2型锌指蛋白。
[0023] 在一具体实施例中,所述锌指蛋白含有SEQ ID NO :1、2或3所示的氨基酸序列。
[0024] 本发明还提供一种检测哺乳动物基因组三核苷酸重复序列的方法,所述方法包 括:
[0025] 混合锋指蛋白和含DNA的样品,和
[0026] 对富集的DNA或DNA片段进行测序分析,
[0027] 从而检测哺乳动物基因组中的三核苷酸重复序列。
[0028] 在一具体实施例中,所述三核苷酸重复序列选自(GCT) n、(CTG) n、(TGC) n、(AGC) η、 (GCA) η、(CAG) η、(GGC) η、(GCG) η、(CGG) η、(GCC) η、(CCG) η、(CGC) η、(GAA) η、(AAG) η、(AGA) η、(TTC) η、(TCT) η 和(CTT) η,其中,η 彡 3。
[0029] 在一具体实施例中,所述锌指蛋白是C2H2锌指蛋白。
[0030] 在一具体实施例中,所述锌指蛋白包括SEQ ID NO :1、2或3所示的氨基酸序列。
[0031] 本发明提供一种分离的多肽,所述多肽选自:
[0032] (I) SEQ ID NO : 1、2或3所示的氨基酸序列;或
[0033] (2)在SEQ ID NO :1、2或3所示的氨基酸序列中经过一个或几个氨基酸插入、缺 失或突变而获得的保留了 SEQ ID NO :1、2或3的生物学活性的蛋白。
[0034] 在一具体实施例中,所述插入、缺失或突变发生在SEQ ID NO :1、2和3的识别螺旋 氨基酸残基之外。
[0035] 本发明提供一种分离的多核苷酸,所述多核苷酸选自:
[0036] (1)编码权利要求本发明所述多肽的多核苷酸;和
[0037] (2)与(1)互补的多核苷酸。
[0038] 在一具体实施例中,所述多核苷酸选自:SEQ ID NO: 11、12和13。
[0039] 本发明提供一种多核苷酸构建物,其特征在于,所述多核苷酸构建物含有本发明 所述的多核苷酸。
[0040] 在一具体实施例中,所述多核苷酸构建物是一种表达载体。
[0041] 本发明提供一种细胞,所述细胞含有本发明所述的多肽、多核苷酸和/或多核苷 酸构建物。
[0042] 本发明还涉及本发明所述的多肽、多核苷酸、多核苷酸构建物和/或细胞在基因 组三核苷酸重复序列测序或检测基因组三核苷酸重复序列中的应用。
[0043] 本发明还涉及本发明所述的多肽、多核苷酸、多核苷酸构建物和/或细胞在制备 用于疾病的诊断和筛查的药物或试剂中的用途。
[0044] 在一具体实施例中,所述疾病选自多聚谷氨酰胺疾病、Friedreich共济失调、脆性 X综合症和营养不良性肌强直。
[0045] 在一具体实施例中,所述多聚谷氨酰胺疾病选自亨廷顿舞蹈症、脊髓小脑性共济 失调和脊髓延髓肌肉萎缩症等。

【专利附图】

【附图说明】
[0046] 图IA显示锌指蛋白ZFPect中识别螺旋的具体氨基酸残基,FI、F2、F3分别表示锌 指蛋白的识别螺旋氨基酸残基。
[0047] 图IB显示ZFPeCT和ZFPeee随着浓度的增加,其对标记 32P的靶DNA的凝胶阻滞作用 也随之增强,而非靶DNA作为非竞争剂没有对ZFPra的阻滞作用有任何影响,未标记 32P的 靶DNA作为竞争剂将阻滞作用最大程度的减弱。
[0048] 图IC显示ZFPra-flag融合蛋白在细胞核内以点状分布存在。对照是 pcDNA3. Ι-flag 空白质粒。
[0049] 图ID显示一个具体的本发明方法的流程。
[0050] 图IE显示实施例1所制备得到的锌指蛋白的完整序列,Fl、F2、F3分别表示锌指 蛋白的识别螺旋氨基酸残基。
[0051] 图IF显示ZFPra与HTT基因的CTG、TGC和互补链的AGC、GCA、CAG重复序列结合。
[0052] 图IG显示为ZIP反应洗脱下的DNA进行半定量PCR检测结果。使用覆盖多个CAG 重复区域的SCAl引物对(正向引物见SEQ ID NO: 14,反向引物见SEQ ID NO: 15)证实特异 性的富集DNA,而用包括多个CAG重复区域的GAPDH引物对(正向引物见SEQ ID NO: 16,反 向引物见SEQ ID NO: 17)核实非特异性的富集DNA。对富集特异性ZFPra蛋白的DNA进行 高通量测序。
[0053] 图2A显示测序数据计算分析的具体流程。
[0054] 图2B显示读数(reads)在不同参数下的数目(错配参数和比对次数)。其中a为 单态性分类;b为多态性分类。
[0055] 图2C为分别含有单态性重复序列、多态性重复序列及同时包括两种重复序列的 基因数目。
[0056] 图2D_a显示发现的重复序列在不同基因结构中的具体数目。其中a为单态性分 类;b为多态性分类。
[0057] 图2D-b显示多态性重复序列在人类染色体上的分布。其中,两图中46. 7%和 43. 1%均指基因间序列分布,按逆时针依次为内含子、启动子、⑶S、5'UTR、3'UTR和miRNA。
[0058] 图2E_a显示读数中重复序列的长度分布,其中大部分重复数目均为3。
[0059] 图2E_b显示在gene ontology分析中,读数功能可见与神经、肌肉系统发育、功能 相关的生物过程的富集。
[0060] 图2F-a显示对于读数中重复序列的数目,与对应测出的读数数目呈现显著的正 相关性(Spearman相关系数为0. 96)。
[0061] 图2F_b显示ZIP-seq方法与常规ChIP-seq方法相比,特异性的富集CAG相 关重复序列。其中 input,RNAPII,MYC,CTCF 为其它文章(Lee, B. K. et al. Genome Res22, 9-24 (2012))发表的来自MCF-7细胞系的ChIP-seq数据,作为与ZIP-seq进行比较 的非特异性组分。
[0062] 图2F-c显示高通量测序得到的读数在鉴定出的重复序列位点两侧的分布情况。 其中黄色区域标记的即是ZIP-seq特异性富集得到的读数,约占总读数数的24. 7% ;而绿色 区域则是非特异性富集的读数,此处作为测序背景信号。

【具体实施方式】
[0063] 本发明提供一种基因组特殊序列测序或检测基因组特殊序列的方法,该方法包 括:混合特殊序列结合物和含DNA的样品,和对富集的DNA或DNA片段进行测序分析。 [0064] 作为一具体实例,所述方法包括:
[0065] (1)在适合所述特殊序列结合物与所述DNA结合的条件下孵育所述特殊序列结合 物与DNA ;
[0066] (2)分离出结合的特殊序列结合物-DNA复合物;
[0067] (3)从步骤(2)获得的特殊序列结合物-DNA复合物分离纯化得到DNA ;和
[0068] (4)对步骤(3)分离纯化得到的DNA进行测序。
[0069] 本文中,特殊序列包括但不限于三核苷酸重复序列,包括(GCT)n、(CTG)n、(TGC)η、 (AGC) n、(GCA) n、(CAG) n、(GGC) n、(GCG) n、(CGG) n、(GCC) n、(CCG) n、(CGC) n、(GAA) n、(AAG) η、(AGA) η、(TTC) η、(TCT) η和(CTT) η,,其中,η为大于等于3的整数。在一具体实施例 中,η彡100,例如η为3?50、3?30、3?20之间的整数。
[0070] 本文中,所述特殊序列结合物包括锌指蛋白或转录激活子样效应因子,这类转 录激活子样效应因子可以是植物病菌黄单胞菌属的一类蛋白,和锌指蛋白一样具有分子 组装识别DNA的特性。现已有很多文献报道,例如,可SMBogdanove,A.J.&Voytas,D. F.Science333, 1843-1846(2011).。
[0071] 本发明的方法中,在测序获得序列信息之后,还可将序列信息与基因组信息匹配, 获得基因组特殊序列信息。可采用现有已知的方法实施所述匹配,例如使用软件Bowtie。
[0072] 因此,本发明还提供一种检测哺乳动物基因组三核苷酸重复序列的方法,所述方 法包括:
[0073] 混合锋指蛋白和含DNA的样品,和
[0074] 对富集的DNA或DNA片段进行测序分析,
[0075] 从而检测哺乳动物基因组中的三核苷酸重复序列。
[0076] 具体而言,所述方法可包括(1)在适合锌指蛋白与所述DNA结合的条件下孵育锌 指蛋白与DNA ;(2)分离出结合的锌指蛋白-DNA ;(3)从步骤(2)获得的锌指蛋白-DNA分 离纯化得到DNA ;和(4)对步骤(3)分离纯化得到的DNA进行测序。
[0077] 采用本发明上述方法可在全基因组中定位出特殊序列的分布。
[0078] 本发明的锌指蛋白能够特异性识别哺乳动物基因组三核苷酸重复序列。优选的实 施例中,本发明的锌指蛋白是C 2H2锌指蛋白。
[0079] 作为示例性的C2H2锌指蛋白,本发明列举了 SEQ ID NO: 1、2和3所示的锌指蛋白, 它们分别特异性结合GCT、GGC和GAA三核苷酸重复序列。尤其是,SEQ ID NO: 1的锌指蛋 白还可特异性结合CTG、TGC、AGC、GCA和CAG。
[0080] 本发明包括含有SEQ ID NO: 1、2或3所示氨基酸序列的锌指蛋白,以及与SEQ ID NO: 1、2或3具有相同功能的、它们的变异形式。这些变异形式包括(但并不限于):若干个 (通常1-10个,更佳如1-8个、1-5个、1-3个)氨基酸的缺失、插入和/或取代,以及在C末 端和/或N末端添加一个或数个(通常为20个以内,较佳地为10个以内,更佳地为5个以 内)氨基酸。例如,在本领域中,用性能相近或相似的氨基酸进行取代时,通常不会改变蛋 白质的功能。又比如,在C末端和/或N末端添加一个或数个氨基酸通常也不会改变蛋白 质的功能。下表1显示了代表性的氨基酸取代。
[0081] 表 1
[0082]

【权利要求】
1. 一种基因组特殊序列测序或检测基因组特殊序列的方法,该方法包括: 混合特殊序列结合物和含DNA的样品,和 对富集的DNA或DNA片段进行测序分析。
2. 如权利要求1所述的方法,其特征在于,所述方法包括: (1) 在适合所述特殊序列结合物与所述DNA结合的条件下孵育所述特殊序列结合物与 DNA ; (2) 分离出结合的特殊序列结合物-DNA ; (3) 从步骤(2)获得的特殊序列结合物-DNA分离纯化得到DNA ;和 (4) 对步骤(3)分离纯化得到的DNA进行测序。
3. 如权利要求1或2所述的方法,其特征在于,该方法还包括,将测序信息与基因组信 息匹配,获得基因组特殊序列的位置信息。
4. 如权利要求1 一 3中任一项所述的方法,其特征在于,所述特殊序列为三核苷酸重复 序列。
5. 如权利要求1 一 4中任一项所述的方法,其特征在于,所述特殊序列结合物包括锌指 蛋白或转录激活子样效应因子。
6. 如权利要求5所述的方法,其特征在于,所述锌指蛋白是C2H2型锌指蛋白。
7. -种检测哺乳动物基因组三核苷酸重复序列的方法,所述方法包括: 混合锌指蛋白和含DNA的样品,和对富集的DNA或DNA片段进行测序分析, 从而检测哺乳动物基因组中的三核苷酸重复序列。
8. 如权利要求1 一 7中任一项所述的方法,其特征在于,所述三核苷酸重复序列选自 (GCT)n、(CTG)n、(TGC)n、(AGC)n、(GCA)n、(CAG)n、(GGC)n、(GCG)n、(CGG)n、(GCC)n、(CCG)
9. 如权利要求5 - 8中任一项所述的方法,其特征在于,所述锌指蛋白是C2H2型锌指 蛋白。
10. 如权利要求5 - 9中任一项所述的方法,其特征在于,所述锌指蛋白包括SEQ ID NO :1、2或3所示的氨基酸序列。
11. 一种分离的多肽,其特征在于,所述多肽选自: (l)SEQ ID N0:l、2或3所示的氨基酸序列;或 (2 )在SEQ ID NO : 1、2或3所示的氨基酸序列中经过一个或几个氨基酸插入、缺失或 突变而获得的保留了 SEQ ID NO :1、2或3的生物学活性的蛋白。
12. 如权利要求11所示的多肽,其特征在于,所述插入、缺失或突变发生在SEQ ID NO: 1、2和3的识别螺旋氨基酸残基之外。
13. -种分离的多核苷酸,其特征在于,所述多核苷酸选自: (1) 编码权利要求11或12所述的多肽的多核苷酸;和 (2) 与(1)互补的多核苷酸。
14. 如权利要求13所述的多核苷酸,其特征在于,所述多核苷酸选自:SEQ IDN0:11、12 和13。
15. -种多核苷酸构建物,其特征在于,所述多核苷酸构建物含有权利要求13或14所 述的多核苷酸。
16. 如权利要求15所述的多核苷酸构建物,其特征在于,所述多核苷酸构建物是一种 表达载体。
17. -种细胞,其特征在于,所述细胞含有权利要求11或12所述的多肽,或权利要求 13或14所述的多核苷酸,或权利要求15和16所述的多核苷酸构建物。
18. 权利要求11或12所述的多肽,或权利要求13或14所述的多核苷酸,或权利要求 15和16所述的多核苷酸构建物,或权利要求17所述的细胞在基因组三核苷酸重复序列测 序或检测基因组三核苷酸重复序列中的应用。
19. 权利要求11或12所述的多肽,或权利要求13或14所述的多核苷酸,或权利要求 15和16所述的多核苷酸构建物,或权利要求17所述的细胞在制备用于疾病的诊断和筛查 的药物或试剂中的用途。
20. 如权利要求19所述的用途,其特征在于,所述疾病选自多聚谷氨酰胺疾病、 Friedreich共济失调、脆性X综合症和营养不良性肌强直。
21. 如权利要求20所述的用途,其特征在于,所述多聚谷氨酰胺疾病选自亨廷顿舞蹈 症、脊髓小脑性共济失调和脊髓延髓肌肉萎缩症等。
22. -种试剂盒,其特征在于,所述试剂盒含有权利要求11或12所述的多肽、权利要求 13或14所述的多核苷酸、权利要求15和16所述的多核苷酸构建物、和/或权利要求17所 述的细胞。
【文档编号】C12N1/21GK104419756SQ201310390859
【公开日】2015年3月18日 申请日期:2013年8月30日 优先权日:2013年8月30日
【发明者】胡荣贵, 徐星星, 傅兴, 陈侃, 于涛 申请人:中国科学院上海生命科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1