
一种同源2型crispr/cas基因编辑系统的构建方法
技术领域
1.本发明涉及一种同源2型crispr/cas基因编辑系统的构建方法,属于基因编辑技术领域。
背景技术:2.基因编辑(gene editing)技术使得针对dna序列特定位点进行改造成为可能,比如第一代基因编辑工具锌指核酸酶(zinc finger nucleases,zfns),第二代基因编辑工具类似转录激活的小型核酸酶(transcription activator
‑
like effector nucleases,talens),都可以用于改造靶向基因组,但是这些方法设计困难,不易制作,成本昂贵且普适性不强。
3.crispr(成簇的规律间隔的短回文重复序列,clustered regularly interspaced short palindromic repeat)/cas(crispr
‑
associated protein)系统,是来自古生菌和细菌的天然免疫系统,为第三代基因编辑工具。crispr/cas系统不同于以往基因编辑工具(蛋白质
‑
dna识别),其利用向导rna(single guide rna,sgrna)基于核酸互补配对原理进行目标dna碱基序列的识别,引导cas效应蛋白进行定点切割,适用性强、设计简单、成本低、效率高。cas蛋白包含多种不同的效应结构域(domain),在核酸识别、稳定复合物结构、水解dna磷酸二酯键等不同的活动中发挥作用。其中,源自化脓链球菌(streptococcus pyogene cas,spcas9)的ii型crispr/cas9系统因其切割效率高,成为目前应用最为广泛的crispr/cas系统。
4.大多数现有的crispr基因编辑系统是来自streptococcus pyogenes中的spcas9系统。这一系统通过识别并切割靶向的多核苷酸上的原间隔序列临近模块(protospacer adjacent motif,pam)序列,即“ngg”,限制了其进一步的广泛应用,得到更多种具有不同的理化性质并能识别不同pam的同源crsipr/cas系统成为研究重点。与此同时,在庞大以及各色各样的宏基因组中,隐藏了尚未培养甚至尚未发现的微生物,可能存在大量的未被发现的crispr/cas蛋白编辑系统,这些系统在原核生物、真核生物,以及在体外环境中的活性需要得到证实。
技术实现要素:5.本发明的目的在于克服现有技术的不足,提供一种同源2型crispr/cas基因编辑系统的构建方法,通过该构建方法预测出5种新的同源crispr/cas基因编辑系统。
6.为实现上述目的,本发明采取的技术方案为:一种同源2型crispr/cas基因编辑系统的构建方法,包括如下步骤:
7.(1)对宏基因组测序数据进行处理,筛选得到contig序列和蛋白序列;
8.(2)将步骤(1)所述的蛋白序列使用软件进行聚类,再使用hmmer软件包扩大聚类;
9.(3)在步骤(2)扩大的聚类中,用已知的2型crispr/cas系统相关的效应蛋白的隐马尔可夫模型文件搜索与2型crispr/cas系统有关的聚类;
10.(4)将步骤(3)所述的2型crispr/cas系统有关的聚类,与相关数据库进行比对,筛选得到基因;
11.(5)将步骤(4)筛选得到的基因所在的contig,进行crispr/cas系统预测,将预测出的2型crispr/cas系统的效应蛋白提取出,然后用软件分析结构域;
12.(6)将步骤(5)预测出的2型crispr/cas系统的效应蛋白的结构域和2型crispr/cas系统的效应蛋白相关的辅助蛋白做比较基因组学和进化相关分析,即可得到同源2型crispr/cas基因编辑系统。
13.本技术的发明人通过深度分析来自各种环境的宏基因组数据,经过组装短读段序列(100
‑
300bp)得到长dna序列(≥4000bp)草图,在长dna序列中挖掘出新的2型同源crispr/cas基因编辑系统的方法,通过该方法预测的内容包括:cas效应蛋白(cas9、cas12和cas13)、与cas效应蛋白发挥作用相关的辅助蛋白、与cas效应蛋白发挥作用相关的辅助序列、cas效应蛋白发挥作用的关键序列。基于组装长dna序列做crispr
‑
cas相关的蛋白质及元件预测,不依赖物种的精准判断;精确判断2型crispr/cas系统的编码蛋白基因、成簇规律间隔的短回文重复序列,crrna序列及反式激活crrna序列;进一步挖掘其生物学过程中切割dna功能的结构预测,包括但不限于crrna
‑
tracrrna二级结构预测、cas效应蛋白功能域预测、cas
‑
crrna
‑
tracrrna/cas
‑
crrna复合物结构预测;进一步挖掘cas9/cas12效应蛋白识别的多种紧邻靶向序列下游/上游的原间隔序列临近模块(pam)。
14.作为本发明所述的构建方法的优选实施方式,步骤(1)中,所述对宏基因组测序数据进行处理具体为:通过对宏基因组的数据进行质控、拼接和基因预测;所述宏基因组测序数据为肠道宏基因组测序数据;所述contig序列的长度为≥4000bp,所述蛋白序列的长度为≥600bp。
15.作为本发明所述的构建方法的优选实施方式,步骤(2)具体为:所述的蛋白序列使用orthofinder软件进行聚类,再使用hmmer软件包扩大聚类。
16.作为本发明所述的构建方法的优选实施方式,步骤(4)中,相关数据库为swiss prot数据库和ncbi nr数据库。
17.作为本发明所述的构建方法的优选实施方式,步骤(5)中,所述进行crispr/cas系统预测的软件为crisprcasfinder,所述分析结构域的软件为hhpred。
18.本发明的另一目的是采用本发明所述的构建方法构建的同源2型crispr/cas基因编辑系统。
19.作为本发明所述的同源2型crispr/cas基因编辑系统的优选实施方式,所述的同源2型crispr/cas基因编辑系统包括cas核糖核蛋白复合物和crispr rna。
20.作为本发明所述的同源2型crispr/cas基因编辑系统的优选实施方式,所述的同源2型crispr/cas基因编辑系统还包括辅助蛋白cas1、辅助蛋白cas2、辅助蛋白cas4、辅助蛋白csn2、辅助蛋白csx27、辅助蛋白csx28、辅助蛋白wyl或反式激活crispr rna。
21.cas9核酸内切酶是一种多结构域和多功能dna核酸内切酶,其识别靶向序列需要两个重要因素:一个是结合的guide rna与靶向序列互补链碱基互补配对;另一个是靶向序列相邻的原间隔序列临近模块(protospacer adjacent motif,pam)序列具备特异性。cas9蛋白通过不同的核酸酶结构域在靶向序列所在链的pam序列上游有效切割与guide rna互补的双链dna。其中,hnh样核酸酶结构域切割与rna序列互补dna链,ruvc样核酸酶结构域负
责切非互补链dna,从而形成双链dna分子断裂(double
‑
strand breaks,dsb);cas12核酸内切酶通过不同的核酸酶结构域在pam序列的下游切割与crispr rna(crrna)互补的双链dna,产生5个核苷酸突出的粘性末端。其中,核酸酶结构域为hnh样核酸酶结构域或ruvc样核酸酶结构域;cas13是一种多结构域和多功能rna核酸内切酶。它通过两个hepn样核酸酶结构域切割与sgrna互补的单链rna。
22.cas9蛋白系统中crrna(crispr rna)与反式激活crrna(trans
‑
activating,tracrrna)形成sgrna;cas12和cas13蛋白系统中crrna无需反式激活crrna即可发挥guide rna的作用。crispr阵列(array)转录产物前体crrna(pre
‑
crrna)进一步被rna酶处理产生crrna,其为引导cas蛋白识别入侵的外源dna/rna的碱基互补配对部分,这段序列一般长约19
‑
23bp。
23.通过人为设计crrna中的目标序列,crispr/cas系统原则上可以靶向基因组中任意感兴趣的dna/rna序列。对于dna识别,其切割产生位点特异的dsb,进一步通过非同源末端修复dsb,从而在切割位点产生小的随机插入/缺失片段(indels),致使目的基因失活;并通过高保真同源修复,可以使用同源修复模板在dsb位点进行精确的基因组修饰,实现庞大的基因编辑修饰功能。
24.作为本发明所述的同源2型crispr/cas基因编辑系统的优选实施方式,所述cas9核糖核蛋白复合物的链长度为900
‑
1500aa,所述crispr rna的长度为15
‑
36bp。所述反式激活crispr rna的复合物的链长度为70
‑
160bp,所述cas9/cas12核糖核蛋白复合物识别的pam序列长度为1
‑
10bp。
25.作为本发明所述的同源2型crispr/cas基因编辑系统的优选实施方式,
26.所述的同源2型crispr/cas基因编辑系统有3大效应蛋白,分别为效应cas9蛋白、效应cas12蛋白和效应cas13蛋白;
27.所述效应cas9蛋白有12种,编号为c1556、c1793、c1807、c4640、c6165、lt1、lt2、lt3、lt4、lt5、lt6和lt7,其蛋白序列分别如seq1
‑
seq12所示;所述效应cpf1蛋白有1种,编号为ltcpf1,其蛋白序列如seq13所示,所述效应cas13蛋白有2种,编号为ltcas13b和ltcas13d,其蛋白序列分别如seq14
‑
seq15所示;其中,在所述编号为c1556、c1793、c1807、c4640和c6165的同源2型crispr/cas9基因编辑系统中:所述cas9核糖核蛋白复合物的链长度分别为1144aa、1358aa、1426aa、1315aa和1152aa,所述crispr rna与所述反式激活crispr rna的复合物的链长度分别为126bp、124bp、141bp、152bp、120bp,所述cas9核糖核蛋白复合物识别的pam序列分别为w(a>t)tntah(a>t>c)nnat、nats(g>c)ny(c>t)gat、nnnnta、nncgc和cgngagg。
28.与现有技术相比,本发明的有益效果为:
29.(1)本发明提供的一种同源2型crispr/cas基因编辑系统的挖掘方法,过程简单敏感且普适性强;
30.(2)用本发明提供的一种同源2型crispr/cas基因编辑系统的构建方法,设计简单易懂;
31.(3)用本发明提供的一种同源2型crispr/cas基因编辑系统的构建方法,初步发现了12个cas9,1个cpf1和2个cas13,其中编号为c1556、c1793、c1807、c4640和c6165的5个cas9具有不同的理化性质并能识别不同pam的序列,对应识别的pam序列分别为w(a>t)
tntah(a>t>c)nnat、nats(g>c)ny(c>t)gat、nnnnta、nncgc和cgngagg。
附图说明
32.图1为本发明提供的一种通过宏基因组序列组装的挖掘同源2型crispr/cas的方法流程图。
33.图2为本发明所述的编号c1556的同源2型crispr/cas9基因编辑系统;其中,图2a为编号c1556的同源2型crispr/cas9基因编辑系统组成图;图2b为编号c1556的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图;图2c为编号c1556的同源2型crispr/cas9基因编辑系统中crispr序列图;图2d为编号c1556的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图;图2e为编号c1556的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图。
34.图3为本发明所述的为编号c1793的同源2型crispr/cas9基因编辑系统,其中,图3a为编号c1793的同源2型crispr/cas9基因编辑系统组成图;图3b为编号c1793的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图;图3c为编号c1793的同源2型crispr/cas9基因编辑系统中crispr序列图;图3d为编号c1793的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图;图3e为编号c1793的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图。
35.图4为本发明所述的编号c1807的同源2型crispr/cas9基因编辑系统,其中,图4a为编号c1807的同源2型crispr/cas9基因编辑系统组成图;图4b为编号c1807的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图;图4c为编号c1807的同源2型crispr/cas9基因编辑系统中crispr序列图;图4d为编号c1807的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图;图4e为编号c1807的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图。
36.图5为本发明所述的编号c4640的同源2型crispr/cas9基因编辑系统,其中,图5a为编号c4640的同源2型crispr/cas9基因编辑系统组成图;图5b为编号c4640的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图;图5c为编号c4640的同源2型crispr/cas9基因编辑系统中crispr序列图;图5d为编号c4640的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图;图5e为编号c4640的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图。
37.图6为本发明所述的编号c6165的同源2型crispr/cas9基因编辑系统,其中,图6a为编号c6165的同源2型crispr/cas9基因编辑系统组成图;图6b为编号c6165的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图;图6c为编号c6165的同源2型crispr/cas9基因编辑系统中crispr序列图;图6d为编号c6165的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图;图6e为编号c6165的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图。
具体实施方式
38.为更好地说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
39.实施例1
40.本实施例为本发明提供的一种同源2型crispr/cas基因编辑系统的构建方法(具体流程如图1所示),包括如下步骤:
41.(1)对宏基因组测序数据进行处理,筛选得到contig序列和蛋白序列;
42.(2)将步骤(1)所述的蛋白序列使用orthofinder软件进行聚类,再使用hmmer软件包扩大聚类;
43.(3)在步骤(2)扩大的聚类中,用已知的2型crispr/cas系统相关的效应蛋白的隐马尔可夫模型文件搜索与2型crispr/cas系统有关的聚类;
44.(4)将步骤(3)所述的2型crispr/cas系统有关的聚类,与swiss prot和ncbi nr数据库进行比对,筛选得到基因;
45.(5)将步骤(4)筛选得到的基因所在的contig,用crisprcasfinder进行crispr/cas系统预测,包括必要的辅助序列和辅助蛋白;
46.(6)将步骤(5)预测出的2型crispr/cas系统的效应蛋白提取出,然后用hhpred软件分析结构域;
47.(7)将步骤(6)预测出的2型crispr/cas系统的效应蛋白的结构域和2型crispr/cas系统的效应蛋白相关的辅助蛋白做比较基因组学和进化相关分析,即可得到同源2型crispr/cas基因编辑系统。
48.实施例2
49.本实施例为本发明所述的一种同源2型crispr/cas9基因编辑系统的构建方法,关于如下4个步骤具体操作的介绍:1.对宏基因组测序数据进行处理,筛选得到contig序列和蛋白序列;2.对得到的长序列做crispr
‑
cas相关的crispr序列及cas蛋白预测;3.预测同源2型crispr/cas基因编辑系统的rna二级结构;4.预测同源2型crispr/cas基因编辑系统能识别的pam序列。
50.1.初步处理宏基因组数据,得到长读长序列、潜在的编码基因及对应的蛋白序列。
51.(1)材料:igan肾病患者体内肠道样本宏基因组数据
52.(2)软件:fastqc(v0.11.5),fastp(v0.19.8),soapnuke(v1.5.2),hisat2(v2.0.4),samtools(v1.9),genemark(v3.38),idba
‑
ud(v1.1.3),bowtie2(v2.3.5.1),cd
‑
hit(v4.6),hmmer(3.1b2),blast(v2.3.0+)。
53.(3)检测方法:本步骤的数据来源为肠道宏基因组,通过对肠道宏基因组的数据进行质控、拼接和基因预测,得到宏基因组中可能的所有的基因序列、编码蛋白序列,并且对应每一个基因序列所在的基因组长序列;
54.具体操作如下:
55.(a)首先用fastqc软件进行指控,检查数据为原始数据还是清理过的数据,若为原始数据,则接下来使用fastpc软件对原始数据进行清理以及去除接头,若为清理过的数据,则直接进入下一步骤;
56.(b)使用hisat2软件将宏基因组的reads比对至人参考基因组(hg19)上,形成(binary alignment/map)bam格式的文件,再使用samtools提取出不能比对至人参考基因组上的reads,得到无宿主(人)基因污染的数据部分的序列文件;
57.(c)然后进行长序列的组装和基因的预测,使用idba
‑
ud对清理过的read数据进行
组装,得到长序列;
58.(d)去除掉过短的长序列以后,再使用genemark软件中的metagenemark,进行基因预测,得到的基因进行翻译并过滤掉小于600氨基酸的序列;
59.(e)对于cas13的查找,在候选序列上的蛋白质序列中寻找存在hepn domain模型(e
……
rxxxxh)的候选蛋白;对于cas9和cpf1的寻找,使用cd
‑
hit和orthofinder对所有得到的蛋白序列进行聚类,用已知的2型crispr
‑
cas系统相关的序列制作而成的hmm profile对每一个聚类进行搜索,得到可能与crispr
‑
cas系统相关的蛋白序列;
60.(f)再比对主流数据库(nr,swiss prot)得到未被注释为crispr
‑
cas系统相关蛋白的基因,在此步骤中我们得到了12个cas9蛋白序列(seq id no.1
‑
seq id no.12)、1个cpf1蛋白序列(seq id no.13)和2个cas13蛋白序列(seq id no.14
‑
seq id no.15);
61.(g)通过基因名称中的标签,找回对应的长序列,在下一步骤中备用。
62.2.对得到的长序列做crispr/cas系统相关的crispr序列及cas蛋白预测
63.(1)材料:上述1(初步处理宏基因组数据)中得到的可能与crispr
‑
cas系统相关的长序列
64.(2)软件:改造后的crisprcasfinder(v4.2.19),python(v3.7.4),bedtools(v2.25.0)
65.(3)检测方法:本步骤是对得到的可能与2型crispr
‑
cas系统相关的长序列进行分析,得到预测的与crispr
‑
cas系统相关的蛋白和相关的元件。
66.具体操作:
67.(a)使用crisprcasfinder对得到的可能与2型crisprcasfinder系统相关的长序列进行分析和预测,得到cas蛋白,spacer,direct repeat等crispr
‑
cas系统相关的蛋白和元件;
68.(b)注释候选crispr
‑
cas系统相关蛋白,对于cas13蛋白系统:收集cas13a,cas13b,cas13c及cas13d辅助蛋白的hmm文件,对长序列进行hmmer比对,确定是否存在cas1,cas2,csx27,csx28,wyl辅助蛋白;对于cas9/cpf1蛋白系统,收集cas9/cpf1辅助蛋白的hmm文件,对长序列进行hmmer比对,确定是否存在cas1,cas2,cas4及csn辅助蛋白。
69.(c)对于cas9蛋白,在已预测出来的元件互补的部分中寻找anti
‑
repeat并确认tracrrna对应的dna序列;最后确认包含所有必须元件的序列范围,以便后期实验合成。
70.3.预测rna二级结构
71.(1)材料:预测的repeat或tracrrna序列
72.(2)软件:nupack(http://www.nupack.org/partition/new)
73.(3)预测方法:对于cas9蛋白,通过模拟tracrrna和repeat转录出的rna在体外37℃下各1μl的相互作用过程,进行二级结构预测;对于cas12/cas13蛋白,通过模拟体外37℃crispr rna 1μl的环境,得到的rna进行二级结构预测
74.4.预测cas9/cas12的pam序列
75.(1)材料:上述3(预测rna二级结构)中得到的可能与crispr
‑
cas系统相关的spacer序列
76.(2)软件:crisprcasfinder(v4.2.19),python(v3.7.4),bedtools(v2.25.0)
77.(3)数据库:ncbi(phage/virus/plasmid)数据库
array由47bp的重复序列以及29
‑
31个间隔序列为基本单位组成;
98.图4d为编号c1807的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图,sgrna(crrna
‑
tracrrna)结构包含上游的五个bulge结构以及下游的两个stem loop;
99.图4e为编号c1807的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图,该系统能够识别的pam序列为nnnnta。
100.实施例6
101.本实施例为编号c4640的同源2型crispr/cas9基因编辑系统,其是从病人152a肠道宏基因组数据中挖掘预测的同源crispr/cas9系统,该系统所包含的内容如图5所示。
102.图5a为编号c4640的同源2型crispr/cas9基因编辑系统组成图,该系统组成包含cas蛋白基因组座(核酸内切酶cas9和csn2蛋白)、crispr array及反式激活crrna(tracrrna)所在的前导序列;
103.图5b为编号c4640的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图,核酸内切酶cas9蛋白包含ruvx、bh、rec、hnh4、ruvcⅲ、p1共6个结构域;
104.图5c为编号c4640的同源2型crispr/cas9基因编辑系统中crispr序列图,crispr array由37bp的重复序列以及28/29个间隔序列为基本单位组成;
105.图5d为编号c4640的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图,sgrna(crrna
‑
tracrrna)结构包含上游的两个bulge结构以及下游的三个stem loop;
106.图5e为编号c4640的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图,该系统能够识别的pam序列为nncgc。
107.实施例7
108.本实施例为编号c6165的同源2型crispr/cas9基因编辑系统,其是从病人135a肠道宏基因组数据中挖掘预测的同源crispr/cas9系统,该系统所包含的内容如图6所示。
109.图6a为编号c6165的同源2型crispr/cas9基因编辑系统组成图,该系统组成包含cas蛋白基因组座(核酸内切酶cas9、cas1蛋白、cas2蛋白)、crispr array及反式激活crrna(tracrrna)所在的前导序列;
110.图6b为编号c6165的同源2型crispr/cas9基因编辑系统中核酸内切酶cas9蛋白结构图,核酸内切酶cas9蛋白包含rec、hnh4、ruvcⅲ共4个结构域;
111.图6c为编号c6165的同源2型crispr/cas9基因编辑系统中crispr序列图,crispr array由47bp的重复序列以及29/30个间隔序列为基本单位组成;
112.图6d为编号c6165的同源2型crispr/cas9基因编辑系统识别的guide rna分子的rna二级结构预测图,sgrna(crrna
‑
tracrrna)结构包含上游的四个bulge结构以及下游的三个stem loop;
113.图6e为编号c6165的同源2型crispr/cas9基因编辑系统的保守型pam序列一致性示意图,该系统能够识别的pam序列为cgngagg。
114.最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质
和范围。