背景技术:
1、cas酶及其相关的簇状规则间隔短回文重复序列(clustered regularlyinterspaced short palindromic repeats,crispr)向导核糖核酸(rna)似乎是原核生物免疫系统中普遍存在的(约45%的细菌,约84%的古生菌)组分,用于通过crispr-rna导向的核酸裂解保护此类微生物免受非自身核酸诸如传染性病毒和质粒的伤害。虽然编码crispr rna元件的脱氧核糖核酸(dna)元件在结构和长度上可能相对保守,但其crispr相关(cas)蛋白具有高度多样性,含有多种核酸相互作用结构域。虽然早在1987年就已经观察到crispr dna元件,但crispr/cas复合物的可编程核酸内切酶裂解能力直到最近才被认识到,这使得重组crispr/cas系统在不同的dna操纵和基因编辑应用中得到应用。由于这些酶的用途,它们正被重新用于广泛的生物技术、基因编辑和治疗应用。由于它们的单效应子架构,大多数系统目前被重新用于属于crispr 2类ii型和2类v型类别的基因组工程化。
技术实现思路
1、许多2类cas效应子的大尺寸(大于约1200个氨基酸)使其在供治疗应用的递送中具有挑战性。因此,本文描述了方法、组合物和系统,它们与被称为smart(small archaeal-associated)核酸酶系统的新型推定导向的dsdna核酸酶相关。这些核酸内切酶效应子由它们的小尺寸(400aa-1050aa)、ruvc和hnh催化结构域的存在以及其他预测的蛋白质特征(这些特征共同提示了新的生化机制)所定义。
2、在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)包含ruvc结构域和hnh结构域的核酸内切酶,其中所述核酸内切酶来源于未培养的微生物;以及(b)工程化向导核糖核酸结构,其被配置成与所述核酸内切酶形成复合物,所述工程化向导核糖核酸结构包含:(i)向导核糖核酸序列,其被配置成与靶脱氧核糖核酸序列杂交;和(ii)tracr核糖核酸序列,其被配置成结合至所述核酸内切酶;其中所述核酸内切酶具有约96kda或更小的分子量。在一些实施方案中,所述核酸内切酶是古生菌核酸内切酶。在一些实施方案中,所述核酸内切酶是2类ii型cas核酸内切酶。在一些实施方案中,所述核酸内切酶包含与seqid no:1-198、221-459、463-612或617-668中任一个具有至少70%、至少75%、至少80%或至少90%序列同一性的序列。在一些实施方案中,所述核酸内切酶还包含含有rrxrr基序的富精氨酸区域或具有pf14239同源性的结构域。在一些实施方案中,所述富精氨酸区域或所述具有pf14239同源性的结构域与seq id no:1-198、221-459、463-612或617-668中任一个的富精氨酸区域或具有pf14239同源性的结构域具有至少85%、至少90%或至少95%同一性。在一些实施方案中,所述核酸内切酶还包含rec(识别)结构域。在一些实施方案中,所述rec结构域与seq id no:1-198、221-459、463-612或617-668中任一个的rec结构域具有至少85%、至少90%或至少95%同一性。在一些实施方案中,所述核酸内切酶还包含bh(桥式螺旋)结构域、wed(楔形)结构域和pi(pam相互作用)结构域。在一些实施方案中,所述bh结构域、所述wed结构域或所述pi结构域与seq id no:1-198、221-459、463-612或617-668中任一个的bh结构域、wed结构域和/或pi结构域具有至少85%、至少90%或至少95%同一性。
3、在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)包含ruvc-i结构域和hnh结构域的核酸内切酶;以及(b)工程化向导核糖核酸结构,其被配置成与所述核酸内切酶形成复合物,所述工程化向导核糖核酸结构包含:(i)向导核糖核酸序列,其被配置成与靶脱氧核糖核酸序列杂交;和(ii)核糖核酸序列,其被配置成结合至所述核酸内切酶,其中所述核酸内切酶包含与seq id no:1-198、221-459、463-612或617-668中任一个具有至少70%、至少75%、至少80%或至少90%序列同一性的序列。在一些实施方案中,所述核酸内切酶是古生菌核酸内切酶。在一些实施方案中,所述核酸内切酶是2类ii型cas核酸内切酶。在一些实施方案中,所述核酸内切酶还包含含有rrxrr基序的富精氨酸区域或具有pf14239同源性的结构域。在一些实施方案中,所述富精氨酸区域或所述具有pf14239同源性的结构域与seq id no:1-198、221-459、463-612或617-668中任一个的富精氨酸区域具有至少85%、至少90%或至少95%同一性。在一些实施方案中,所述核酸内切酶还包含rec(识别)结构域。在一些实施方案中,所述rec结构域与seq id no:1-198、221-459、463-612或617-668中任一个的rec结构域具有至少85%、至少90%或至少95%同一性。在一些实施方案中,所述核酸内切酶还包含bh结构域、wed结构域和pi结构域。在一些实施方案中,所述bh结构域、所述wed结构域或所述pi结构域与seq id no:1-198、221-459、463-612或617-668中任一个的bh结构域、wed结构域和/或pi结构域具有至少85%、至少90%或至少95%同一性。在一些实施方案中,所述核酸内切酶来源于未培养的微生物。在一些实施方案中,被配置成结合所述核酸内切酶的所述核糖核酸序列包含与seq id no:199-200、460-461或669-673中任一个具有至少80%序列同一性的序列或与seq id no:201-203或613-616中任一个的非简并核苷酸具有至少80%序列同一性的序列。在一些实施方案中,所述向导核酸结构包含与seq id no:201-203、613-616中任一个的非简并核苷酸具有至少80%同一性的序列。
4、在一些方面,本公开提供了一种工程化核酸酶系统,其包含:(a)工程化向导核糖核酸结构,其包含:(i)向导核糖核酸序列,其被配置成与靶脱氧核糖核酸序列杂交;和(ii)核糖核酸序列,其被配置成结合至核酸内切酶,其中所述核糖核酸序列包含与seq id no:199-200、460-461或669-673中任一个具有至少80%序列同一性的序列或与seq id no:201-203或613-616中任一个的非可变核苷酸具有至少80%序列同一性的序列;和(b)rna导向的核酸内切酶,其被配置成结合至所述工程化向导核糖核酸。在一些实施方案中,所述rna导向的核酸内切酶是古生菌核酸内切酶。在一些实施方案中,所述核酸内切酶具有约120kda或更小、100kda或更小、90kda或更小、或60kda或更小的分子量。在一些实施方案中,所述工程化向导核糖核酸结构包含至少两个核糖核酸多核苷酸。在一些实施方案中,所述工程化向导核糖核酸结构包含单个核糖核酸多核苷酸,所述核糖核酸多核苷酸包含所述向导核糖核酸序列和所述tracr核糖核酸序列。在一些实施方案中,所述向导核糖核酸序列与原核生物、细菌、古生菌、真核生物、真菌、植物、哺乳动物或人类基因组序列互补。在一些实施方案中,所述向导核糖核酸序列的长度是15-24个核苷酸。在一些实施方案中,所述核酸内切酶包含一个或多个核定位序列(nls),所述核定位序列靠近所述核酸内切酶的n端或c端。在一些实施方案中,所述nls包含选自seq id no:205-220的序列。在一些实施方案中,所述系统还包含单链或双链dna修复模板,所述单链或双链dna修复模板从5'至3'包含:第一同源臂,其包含在所述靶脱氧核糖核酸序列5'处具有至少20个核苷酸的序列;具有至少10个核苷酸的合成dna序列;和第二同源臂,其包含在所述靶序列3'处具有至少20个核苷酸的序列。在一些实施方案中,所述第一或第二同源臂包含具有至少40、80、120、150、200、300、500或1,000个核苷酸的序列。在一些实施方案中,所述系统还包含mg2+源。在一些实施方案中,所述核酸内切酶和所述tracr核糖核酸序列来源于同一门内的不同细菌物种。在一些实施方案中,所述核酸内切酶包含与seq id no:2-24中任一个具有至少70%序列同一性的序列,并且所述向导rna结构包含预测包含发夹的rna序列,所述发夹包含茎和环,其中所述茎包含至少12对核糖核苷酸。在一些实施方案中,所述向导rna结构还包含第二茎和第二环,其中所述第二茎包含至少5对核糖核苷酸。在一些实施方案中,所述向导rna结构还包含含有至少两个发夹的rna结构。在一些实施方案中,所述核酸内切酶包含与seq id no:1具有至少70%序列同一性的序列,并且所述向导rna结构包含预测包含至少四个发夹的rna序列,所述发夹包含茎和环。在一些实施方案中:a)所述核酸内切酶包含与seq id no:1、2、10、17或613-616中任一个至少70%、至少80%或至少90%相同的序列;并且b所述向导rna结构包含与seq id no:199-200或669-673中任一个或seq id no:201-203或613-616中任一个的非可变核苷酸至少70%、至少80%或至少90%相同的序列。在一些实施方案中:a)所述核酸内切酶包含与seq id no:1-24、462-488或501-612中任一个至少70%、至少80%或至少90%相同的序列;并且b)所述向导rna结构包含与seq id no:199-200或669-673中任一个或seq id no:201-203或613-616中任一个的非可变核苷酸至少70%、至少80%或至少90%相同的序列。在一些实施方案中:a)所述核酸内切酶包含与seq id no:2、10或17中任一个至少70%、至少80%或至少90%相同的序列;并且b)所述向导rna结构包含与seq idno:202-203或613-614中任一个的非可变核苷酸至少70%、至少80%或至少90%相同的序列。在一些实施方案中:a)所述核酸内切酶包含与seq id no:25-198、221-459或489-580中任一个至少70%、至少80%或至少90%相同的序列;并且b)所述向导rna结构包含与2类ii型sgrna或tracr序列至少70%、至少80%或至少90%相同的序列。在一些实施方案中,所述序列同一性通过blastp、clustalw、muscle、mafft、或采用smith-waterman同源性搜索算法参数的clustalw来确定。在一些实施方案中,所述序列同一性通过所述blastp同源性搜索算法确定,该blastp同源性搜索算法使用如下参数:字长(w)为3,期望值(e)为10,且blosum62评分矩阵设置存在缺口成本为11,延伸值为1,并使用条件组成评分矩阵调整。在一些实施方案中,所述核酸内切酶不是cas9核酸内切酶、cas14核酸内切酶、cas12a核酸内切酶、cas12b核酸内切酶、cas 12c核酸内切酶、cas12d核酸内切酶、cas12e核酸内切酶、cas13a核酸内切酶、cas13b核酸内切酶、cas13c核酸内切酶或cas 13d核酸内切酶。在一些实施方案中,所述核酸内切酶与cas9核酸内切酶具有小于80%的同一性。
5、在一些方面,本公开提供了一种工程化单向导核糖核酸多核苷酸,其包含:a)dna靶向区段,其包含与靶dna分子中的靶序列互补的核苷酸序列;和b)蛋白结合区段,其包含杂交以形成双链rna(dsrna)双链体的两个互补核苷酸段,其中所述两个互补核苷酸段通过间插核苷酸彼此共价连接,并且其中所述工程化向导核糖核酸多核苷酸被配置成与核酸内切酶形成复合物,所述核酸内切酶包含与seq id no:1-198、221-459、463-612或617-668中任一个具有至少75%序列同一性的变体。在一些实施方案中,所述dna靶向区段位于所述两个互补核苷酸段两者的5’处。在一些实施方案中:a)所述蛋白结合区段包含与seq id no:199-200或669-673中任一个至少70%、至少80%或至少90%相同的序列;b)所述蛋白结合区段包含与seq id no:201-203或613-616中任一个的非可变核苷酸至少70%、至少80%或至少90%相同的序列。在一些实施方案中:a)所述核酸内切酶包含与seq id no:2、10或17中任一个至少70%、至少80%或至少90%相同的序列;并且b)所述向导rna结构包含与seqid no:200或seq id no:202-203或613-614的非可变核苷酸中的至少一个至少70%、至少80%或至少90%相同的序列。在一些实施方案中:a)所述核酸内切酶包含与seq id no:25-198、221-459或489-580中任一个至少70%、至少80%或至少90%相同的序列;并且b)所述向导rna结构包含与2类ii型sgrna至少70%、至少80%或至少90%相同的序列。在一些实施方案中,所述核酸内切酶还包含与所述核酸内切酶偶联的碱基编辑器或组蛋白编辑器。在一些实施方案中,所述碱基编辑器是腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶包括adar1或adar2。在一些实施方案中,所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中,所述胞嘧啶脱氨酶包括apobec1、apobec2、apobec3a、apobec3b、apobec3c、apobec3d、apobec3f、apobec3g、apobec3h或apobec4。
6、在一些方面,本公开提供了一种脱氧核糖核酸多核苷酸,其编码本文所述的工程化向导核糖核酸多核苷酸中的任一种。
7、在一些方面,本公开提供了一种核酸,其包含为在生物体中表达而优化的工程化核酸序列,其中所述核酸编码包含ruvc结构域和hnh结构域的2类ii型cas核酸内切酶,其中所述核酸内切酶来源于未培养的微生物,并且其中所述核酸内切酶具有约120kda或更小、100kda或更小、90kda或更小、60kda或更小、或30kda或更小的分子量。在一些实施方案中,所述核酸内切酶包含seq id no:1-198、221-459、463-612或617-668或与其具有至少70%序列同一性的其变体。在一些实施方案中,所述核酸内切酶还包含编码一个或多个核定位序列(nls)的序列,所述核定位序列靠近所述核酸内切酶的n端或c端。在一些实施方案中,所述nls包含选自seq id no:205-220的序列。在一些实施方案中,所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人类。在一些实施方案中,所述生物体是原核生物或细菌,并且所述生物体是与所述核酸内切酶所来源的生物体不同的生物体。在一些实施方案中,所述生物体不是所述未培养的微生物。
8、在一些方面,本公开提供了一种载体,其包含核酸序列,所述核酸序列编码包含ruvc-i结构域和hnh结构域的rna导向的核酸内切酶,其中所述核酸内切酶来源于未培养的微生物,并且其中所述核酸内切酶具有约120kda或更小、100kda或更小、90kda或更小、或60kda或更小的分子量,其中所述rna导向的核酸内切酶任选地是古生菌。在一些实施方案中,所述核酸内切酶还包含含有rrxrr基序的富精氨酸区域或具有pf14239同源性的结构域。在一些实施方案中,所述核酸内切酶还包含rec(识别)结构域。在一些实施方案中,所述核酸内切酶还包含bh结构域、wed结构域和pi结构域。
9、在一些方面,本公开提供了一种载体,其包含本文所述的核酸中的任一种。在一些实施方案中,所述载体还包含编码工程化向导核糖核酸结构的核酸,所述工程化向导核糖核酸结构被配置成与所述核酸内切酶形成复合物,所述工程化向导核糖核酸结构包含:a)向导核糖核酸序列,其被配置成与靶脱氧核糖核酸序列杂交;和b)tracr核糖核酸序列,其被配置成结合至所述核酸内切酶。在一些实施方案中,所述载体是质粒、微环、celid、腺相关病毒(aav)衍生的病毒粒子或慢病毒。
10、在一些方面,本公开提供了一种细胞,其包含本文所述的载体中的任一种。在一些实施方案中,所述细胞是细菌、古生菌、真菌、真核生物、哺乳动物或植物细胞。在一些实施方案中,所述细胞是细菌细胞。
11、在一些方面,本公开提供了一种生产核酸内切酶的方法,该方法包括培养本文所述的细胞中的任一种。
12、在一些方面,本公开提供了一种结合、裂解、标记或修饰双链脱氧核糖核酸多核苷酸的方法,该方法包括:(a)使所述双链脱氧核糖核酸多核苷酸与同工程化向导核糖核酸结构呈复合物形式的2类ii型cas核酸内切酶接触,所述工程化向导核糖核酸结构被配置成结合至所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸;(b)其中所述双链脱氧核糖核酸多核苷酸包含原间隔相邻基序(pam);其中所述核酸内切酶具有约120kda或更小、100kda或更小、90kda或更小、或60kda或更小的分子量。在一些实施方案中,所述核酸内切酶裂解所述双链脱氧核糖核酸多核苷酸,其中所述pam包含ngg。在一些实施方案中,所述核酸内切酶裂解所述双链脱氧核糖核酸多核苷酸中6-8个或7个来自所述pam的核苷酸。在一些实施方案中,所述核酸内切酶包含与seq id no:1-198、221-459、463-612或617-668中任一个具有至少70%、至少75%、至少80%或至少90%序列同一性的变体。
13、在一些方面,本公开提供了一种结合、裂解、标记或修饰双链脱氧核糖核酸多核苷酸的方法,该方法包括:(a)使所述双链脱氧核糖核酸多核苷酸与同工程化向导核糖核酸结构呈复合物形式的rna导向的古生菌核酸内切酶接触,所述工程化向导核糖核酸结构被配置成结合至所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸;其中所述双链脱氧核糖核酸多核苷酸包含原间隔相邻基序(pam);并且其中所述核酸内切酶包含与seq id no:1-198、221-459、463-612或617-668中任一个具有至少70%、至少75%、至少80%或至少90%序列同一性的变体。在一些实施方案中,所述核酸内切酶裂解所述双链脱氧核糖核酸多核苷酸,其中所述pam包含ngg。在一些实施方案中,所述核酸内切酶裂解所述双链脱氧核糖核酸多核苷酸中6-8个或7个来自所述pam的核苷酸。在一些实施方案中,所述2类ii型cas核酸内切酶不是cas9核酸内切酶、cas14核酸内切酶、cas12a核酸内切酶、cas12b核酸内切酶、cas 12c核酸内切酶、cas12d核酸内切酶、cas12e核酸内切酶、cas13a核酸内切酶、cas13b核酸内切酶、cas13c核酸内切酶或cas 13d核酸内切酶。在一些实施方案中,所述2类ii型cas核酸内切酶来源于未培养的微生物。在一些实施方案中,所述双链脱氧核糖核酸多核苷酸是原核生物、古生菌、细菌、真核生物、植物、真菌、哺乳动物、啮齿动物或人类的双链脱氧核糖核酸多核苷酸。在一些实施方案中,所述双链脱氧核糖核酸多核苷酸是来自除所述核酸内切酶所来源的物种之外的物种的原核生物、古生菌或细菌的双链脱氧核糖核酸多核苷酸。
14、在一些方面,本公开提供了一种修饰靶核酸基因座的方法,所述方法包括向所述靶核酸基因座递送本文所述的任何工程化核酸酶系统,其中所述核酸内切酶被配置成与所述工程化向导核糖核酸结构形成复合物,并且其中所述复合物被配置成使得当所述复合物与所述靶核酸基因座结合时,所述复合物修饰所述靶核酸基因座。在一些实施方案中,修饰所述靶核酸基因座包括结合、切割、裂解或标记所述靶核酸基因座。在一些实施方案中,所述靶核酸基因座包括脱氧核糖核酸(dna)或核糖核酸(rna)。在一些实施方案中,所述靶核酸包括基因组真核生物dna、古生菌dna、病毒dna或细菌dna。在一些实施方案中,所述靶核酸包括细菌dna,其中所述细菌dna来源于与所述核酸内切酶所来源的物种不同的细菌或古生菌物种。在一些实施方案中,所述靶核酸基因座在体外。在一些实施方案中,所述靶核酸基因座在细胞内。在一些实施方案中,所述核酸内切酶和所述工程化向导核酸结构由单独的核酸分子编码。在一些实施方案中,所述细胞是原核生物细胞、细菌细胞、古生菌细胞、真核生物细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人类细胞。在一些实施方案中,所述细胞来源于与所述核酸内切酶所来源的物种不同的物种。在一些实施方案中,向所述靶核酸基因座递送所述工程化核酸酶系统包括递送本文所述的任何核酸或本文所述的任何载体。在一些实施方案中,向所述靶核酸基因座递送所述工程化核酸酶系统包括递送包含编码所述核酸内切酶的开放阅读框的核酸。在一些实施方案中,所述核酸包含启动子,所述启动子与编码所述核酸内切酶的所述开放阅读框可操作地连接。在一些实施方案中,向所述靶核酸基因座递送所述工程化核酸酶系统包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mrna。在一些实施方案中,向所述靶核酸基因座递送所述工程化核酸酶系统包括递送翻译的多肽。在一些实施方案中,向所述靶核酸基因座递送所述工程化核酸酶系统包括递送编码所述工程化向导核糖核酸结构的脱氧核糖核酸(dna),所述工程化向导核糖核酸结构与核糖核酸(rna)pol iii启动子可操作地连接。在一些实施方案中,所述核酸内切酶在所述靶基因座处或靠近所述靶基因座处诱导单链断裂或双链断裂。在一些实施方案中,所述核酸内切酶在原间隔相邻基序(pam)的5’处靠近所述靶基因座处诱导双链断裂。在一些实施方案中,所述核酸内切酶在所述pam的5’处的6-8个核苷酸或7个核苷酸处诱导双链断裂。在一些实施方案中,所述工程化核酸酶系统在所述靶基因座内或靠近所述靶基因座处诱导核苷酸碱基的化学修饰,或在所述靶基因座内或靠近所述靶基因座处诱导组蛋白的化学修饰。在一些实施方案中,所述化学修饰是腺苷或胞嘧啶核苷酸的脱氨基。在一些实施方案中,所述核酸内切酶还包含与所述核酸内切酶偶联的碱基编辑器。在一些实施方案中,所述碱基编辑器是腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶包括adar1或adar2。在一些实施方案中,所述碱基编辑器是胞嘧啶脱氨酶。在一些实施方案中,所述胞嘧啶脱氨酶包括apobec1、apobec2、apobec3a、apobec3b、apobec3c、apobec3d、apobec3f、apobec3g、apobec3h或apobec4。
15、根据以下详细描述,本公开的另外的方面和优点对于本领域技术人员将变得显而易见,在以下详细描述中仅示出和描述了本公开的说明性实施方案。如将会理解的,本公开能够具有其他和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不背离本公开。因此,附图和说明书将在本质上被视为是说明性的而非限制性的。
16、援引并入
17、本说明书中所提到的所有出版物、专利和专利申请都通过引用并入本文,其并入程度如同指示每个单独的出版物、专利或专利申请明确且单独地通过引用并入。