新型CRISPRDNA靶向酶及系统的制作方法

文档序号:23183480发布日期:2020-12-04 14:12阅读:239来源:国知局
相关申请的交叉引用本申请要求享有以下的优先权:2018年3月14日提交的美国申请号62/642,919;2018年5月3日提交的美国申请号62/666,397;2018年5月16日提交的美国申请号62/672,489;2018年6月1日提交的美国申请号62/679,628;2018年7月26日提交的美国申请号62/703,857;2018年10月3日提交的美国申请号62/740,856;2018年10月16日提交的美国申请号62/746,528;2018年11月27日提交的美国申请号62/772,038;以及2018年12月5日提交的美国申请号62/775,885。上述申请中的每一个的内容通过引用全部并入于此。本公开涉及用于控制涉及序列靶向和核酸编辑的基因表达的系统、方法和组合物,所述系统、方法和组合物使用与成簇规律间隔短回文重复序列(crispr)及其组分相关联的载体系统。
背景技术
::最近应用基因组测序技术和分析的进展,对自然界许多不同领域的生物活动(从原核生物合成途径到人类病理)的遗传基础产生了重要的见解。为了充分理解和评估基因测序技术所产生的巨量信息,需要在基因组和表观基因组操作技术的规模、效率和易用性等方面进行相应的提高。这些新的基因组和表观基因组工程改造技术将加速许多领域的新应用的发展,包括生物技术、农业和人类治疗学。成簇规律间隔短回文重复序列(crispr)和crispr相关联(cas)基因,统称为crispr-cas或crispr/cas系统,目前已被理解为对细菌和古细菌提供抗噬菌体感染的免疫。原核生物适应性免疫的crispr-cas系统是一组极其多样的蛋白质效应子、非编码元件以及基因座结构,其中一些例子已经被工程改造并适应于产生重要的生物技术。参与宿主防御的系统的组分包括一种或多种能够修饰dna或rna的效应子蛋白和负责将这些蛋白活性靶向噬菌体dna或rna上特定序列的rna指导元件。rna指导物由crisprrna(crrna)组成,并且可能需要额外的反式激活rna(tracrrna)以通过所述一种或多种效应子蛋白能够进行靶向核酸操作。crrna由负责蛋白质与crrna结合的直接重复序列和与所需核酸靶序列互补的间隔子序列组成。crispr系统可以通过改变crrna的间隔子序列来重新编程以靶向可替代的dna或rna靶。crispr-cas系统大致可分为两类:1类系统由多个效应子蛋白构成,所述多个效应子蛋白一起围绕crrna形成复合物,2类系统由单个效应子蛋白构成,所述单个效应子蛋白与rna指导物复合以靶向dna或rna底物。2类系统的单亚基效应子组成为工程改造和应用转换提供了更简单的组件集,并且迄今为止一直是可编程效应子的重要来源。因此,新的2类系统的发现、工程改造和优化可能导致广泛和强大的可编程技术用于基因组工程改造和其他方面。crispr-cas系统是古细菌和细菌中的适应性免疫系统,用于保护物种抵御外来的基因元件。以crispr-cas9为例的2类crispr-cas系统的表征和工程改造为基因组编辑和其他方面的多样广泛生物技术应用铺平了道路。然而,除了当前的通过其独特的性质实现了新的应用的crispr-cas系统之外,仍然需要用于修饰核酸和多核苷酸(即dna、rna或任何杂合体、衍生物或修饰)的另外的可编程效应子和系统。本申请中的任何文献的引用或鉴定并不承认该文献作为本发明的现有技术而可以获得。技术实现要素:本公开提供了针对新的单效应子2类crispr-cas系统的非天然存在的工程改造的系统和组合物,以及用于从基因组数据库进行计算鉴定、将天然基因座开发成工程改造的系统、以及实验验证和应用转换的方法。这些新效应子在序列上与现有2类crispr效应子的直系同源物和同系物是不同的,而且还具有独特的结构域组织。它们提供了另外的特征,包括但不限于1)新颖dna/rna编辑特性和控制机制,2)更小的尺寸以便在递送策略中具有更大的通用性,3)基因型触发的细胞过程,例如细胞死亡,和4)可编程的rna指导的dna插入、切除和转移。将本文所述的新颖dna靶向系统添加到基因组和表观基因组操作的技术工具箱中,这使得能够广泛应用于特定的、编程的扰动。一般而言,本公开涉及新的crispr-cas系统,包括新发现的酶和用于创建最小系统的其他组分,用于创建可用于非天然环境中(例如,在最初发现所述系统的细菌以外的细菌中)的最小系统。在一个方面,本公开提供了工程改造的,非天然存在的crispr-cas系统,其包括:i)一种或多种v-i型(clust.029130)rna指导物或编码所述一种或多种v-i型rna指导物的一种或多种核酸,其中v-i型rna指导物包括以下或由以下组成:直接重复序列和能够与靶核酸杂交的间隔子序列;和ii)v-i型(clust.029130)crispr-cas效应子蛋白或编码所述v-i型crispr-cas效应子蛋白的核酸,其中所述v-i型crispr-cas效应子蛋白能够与v-i型rna指导物结合,并且能够靶向与所述间隔子序列互补的靶核酸序列,其中所述靶核酸是dna。如本文所用,v-i型(clust.029130)crispr-cas效应子蛋白也称为cas12i效应子蛋白,并且这两个术语在本公开中可互换使用。在本文描述的任一系统的一些实施例中,v-i型crispr-cas效应子蛋白的长度约为1100个氨基酸或更短(不包括任何氨基酸信号序列或与其融合的肽标签),并且包括至少一个ruvc结构域。在一些实施例中,ruvc结构域中没有、有一个或有多个被催化上失活。在一些实施例中,v-i型crispr-cas效应子蛋白包括以下或由以下组成:氨基酸序列x1shx4dx6x7(seqidno:200),其中x1是s或t,x4是q或l,x6是p或s,并且x7是f或l。在一些实施例中,v-i型crispr-cas效应子蛋白包括以下或由以下组成:氨基酸序列x1xdxnx6x7xxxx11(seqidno:201),其中x1是a或g或s,x是任何氨基酸,x6是q或i,x7是t或s或v,并且x10是t或a。在一些实施例中,v-i型crispr-cas效应子蛋白包括以下或由以下组成:氨基酸序列x1x2x3e(seqidno:210),其中x1是c或f或i或l或m或p或v或w或y,x2是c或f或i或l或m或p或r或v或w或y,并且x3是c或f或g或i或l或m或p或v或w或y。在一些实施例中,v-i型crispr-cas效应子蛋白包括来自seqidno:200、seqidno:201和seqidno:210的组中的一个以上序列。在一些实施例中,v-i型crispr-cas效应子蛋白包括以下或由以下组成:与表4中提供的氨基酸序列(例如,seqidno:1-5和11-18)至少80%(例如,81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)相同的氨基酸序列。在本文描述的任一系统的一些实施例中,v-i型crispr-cas效应子蛋白包括以下或由以下组成:与cas12i1(seqidno:3)或cas12i2(seqidno:5)的氨基酸序列至少80%(例如,81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)相同的氨基酸序列。在一些实施例中,v-i型crispr-cas效应子蛋白是cas12i1(seqidno:3)或cas12i2(seqidno:5)。在一些实施例中,v-i型crispr-cas效应子蛋白能够识别前间隔子相邻基序(pam),并且靶核酸包括pam或由pam组成,所述pam包括以下或由以下组成:核酸序列5’-ttn-3’或5’-tth-3’或5’-tty-3’或5’-ttc-3’。在本文描述的任一系统的一些实施例中,v-i型crispr-cas效应子蛋白包括至少一个ruvc结构域内的一个或多个氨基酸取代。在一些实施例中,所述一个或多个氨基酸取代包括在对应于seqidno:3的d647或e894或d948的氨基残基处的取代,例如丙氨酸取代。在一些实施例中,所述一个或多个氨基酸取代包括在对应于seqidno:5的d599或e833或d886的氨基残基处的丙氨酸取代。在一些实施例中,与没有一个或多个氨基酸取代的v-i型crispr-cas效应子蛋白的核酸酶活性相比,一个或多个氨基酸取代导致v-i型crispr-cas效应子蛋白的核酸酶活性降低。在本文描述的任一系统的一些实施例中,v-i型rna指导物包括直接重复序列,所述直接重复序列包括靠近3’末端(紧邻间隔子序列)的茎环结构。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的茎环,其中茎的长度为5个核苷酸。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的茎环,其中茎的长度为5个核苷酸,并且环的长度为7个核苷酸。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的茎环,其中茎的长度为5个核苷酸,并且环的长度为6、7或8个核苷酸。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的序列5’-ccgucnnnnnnugacgg-3’(seqidno:202),其中n是指任何核碱基。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的序列5’-gugccnnnnnnuggcac-3’(seqidno:203),其中n是指任何核碱基。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的序列5’-gugucn5-6ugacax1-3’(seqidno:204),其中n5-6是指任何5或6个核碱基的连续序列,并且x1是指c或t或u。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的序列5’-ucx3ux5x6x7uugacgg-3’(seqidno:205),其中x3是指c或t或u,x5是指a或t或u,x6是指a或c或g,并且x7是指a或g。在一些实施例中,v-i型rna指导物直接重复序列包括靠近3’末端的序列5’-ccx3x4x5cx7uuggcac-3’(seqidno:206),其中x3是指c或t或u,x4是指a或t或u,x5是指c或t或u,并且x7是指a或g。在一些实施例中,v-i型rna指导物包括直接重复序列,所述直接重复序列包括以下或由以下组成:与表5a中提供的核苷酸序列(例如seqidno:6-19和19-24)至少80%相同,例如85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%相同的核苷酸序列。在一些实施例中,v-i型rna指导物包括以下或由以下组成:表5b中提供的核苷酸序列或其子序列(例如,seqidno:150-163)。在一些实施例中,v-i型rna指导物包括以下或由以下组成:直接重复序列、间隔子序列、直接重复序列的串联构建的核苷酸序列,其中直接重复序列在表5a中提供,并且间隔子的长度在表5b中的间隔子长度1列中提供。在一些实施例中,v-i型rna指导物包括以下或由以下组成:直接重复序列、间隔子序列、直接重复序列的串联构建的核苷酸序列,其中直接重复序列在表5a中提供,并且间隔子的长度在表5b中的间隔子长度2列中提供。在一些实施例中,v-i型rna指导物包括以下或由以下组成:直接重复序列、间隔子序列、直接重复序列的串联构建的核苷酸序列,其中直接重复序列在表5a中提供,并且间隔子的长度在表5b中的间隔子长度3列中提供。在本文描述的任一系统的一些实施例中,v-i型rna指导物的间隔子序列包括以下或由以下组成:约15至约34个核苷酸(例如,16、17、18、19、20、21或22个核苷酸)。在本文描述的任一系统的一些实施例中,间隔子长度在17个核苷酸和31个核苷酸之间。在本文提供的任一系统的一些实施例中,靶核酸是dna。在本文所述任一系统的一些实施例中,靶核酸包括前间隔子相邻基序(pam),例如,包括核酸序列5’-ttn-3’或5’-tth-3’或5’-tty-3’或5’-ttc-3’或由其组成的pam。在本文提供的任一系统的某些实施例中,通过v-i型crispr-cas效应子蛋白和rna指导物靶向靶核酸导致靶核酸中的修饰(例如,单链或双链切割事件)。在一些实施例中,修饰是缺失事件。在一些实施例中,修饰是插入事件。在一些实施例中,修饰导致细胞毒性和/或细胞死亡。在一些实施例中,v-i型crispr-cas效应子蛋白具有非特异性(即,“伴(collateral)”)核酸酶(例如,dna酶)活性。在本文提供的任一系统的某些实施例中,所述系统还包括供体模板核酸(例如dna或rna)。在本文提供的任一系统的一些实施例中,所述系统位于细胞(例如真核细胞(例如哺乳动物细胞)或原核细胞(例如细菌细胞))内。在另一方面,本公开提供靶向和编辑靶核酸的方法,其中所述方法包括使所述靶核酸与本文所述的任一系统接触。这些可以进行离体或体外方法。在一些实施例中,本文描述的方法不修改人类的种系遗传特性。在其他方面,本公开提供了使有效载荷核酸在靶核酸的位点处靶向插入的方法,其中所述方法包括使所述靶核酸与本文所述的任一系统接触。在又一方面,本公开提供了从靶核酸的位点靶向切除有效载荷核酸的方法,其中所述方法包括使所述靶核酸与本文所述的任一系统接触。在另一方面,本公开提供了在识别双链靶dna的靶链(间隔子序列互补链)后靶向和使双链靶dna的非靶链(非间隔子序列互补链)产生切口的方法。所述方法包括使所述双链靶dna与本文所述的任一系统接触。在又一方面,本公开提供了靶向和切割双链靶dna的方法,所述方法包括使所述双链靶dna与本文所述的任一系统接触。在靶向和切割双链靶dna的方法的一些实施例中,在使双链靶核酸的靶链(间隔子互补链)产生切口之前,使双链靶dna的非靶链(非间隔子互补链)产生切口。在又一方面,本公开提供了特异性编辑双链核酸的方法,所述方法包括:使(a)v-i型效应子蛋白和另一种具有序列特异性切口活性的酶接触;(b)v-i型rna指导物,其指导v-i型效应子蛋白相对于所述另一种序列特异性切口酶活性使相对链产生切口;和(c)所述双链核酸接触,其中所述方法导致脱靶修饰的可能性降低。在一些实施例中,v-i型效应子蛋白还包括接头序列。在一些实施例中,v-i型效应子蛋白包括使crispr相关蛋白不能切割dna的一个或多个突变或氨基酸取代。在又一方面,本公开提供了碱基编辑双链核酸的方法,所述方法包括:使(a)包含v-i型效应子蛋白和具有dna修饰活性(例如胞苷脱氨)的蛋白结构域的融合蛋白;(b)靶向所述双链核酸的v-i型rna指导物,和(c)所述双链核酸接触。融合蛋白的v-i型效应子可被修饰为使双链核酸的非靶链产生缺口。在一些实施例中,融合蛋白的v-i型效应子可被修饰为核酸酶缺陷。zzz在另一方面,本公开提供修饰dna分子的方法,所述方法包括使dna分子与本文所述的系统接触。在本文描述的任何方法(以及用于这些方法的组合物)的一些实施例中,细胞是真核细胞。在一些实施例中,细胞是动物细胞。在一些实施例中,细胞是癌细胞(例如肿瘤细胞)。在一些实施例中,细胞是感染原细胞或感染了感染原的细胞。在一些实施例中,细胞是细菌细胞、被病毒感染的细胞、被朊病毒感染的细胞、真菌细胞、原生动物或寄生虫细胞。在另一方面,本公开提供了治疗有需要的受试者的病症或疾病的方法和用于这类方法的组合物。所述方法包括给受试者施用本文所述的系统,其中所述间隔子序列与跟所述病症或疾病相关的靶核酸的至少15个核苷酸互补,其中所述v-i型crispr-cas效应子蛋白与所述rna指导物缔合以形成复合物,其中所述复合物与跟所述间隔子序列的至少15个核苷酸互补的靶核酸序列结合,并且其中所述复合物与所述靶核酸序列结合后,所述v-i型crispr-cas效应子蛋白切割或沉默所述靶核酸,从而治疗所述受试者的所述病症或疾病。在本文描述的方法(以及用于这类方法的组合物)的一些实施例中,所述病症或疾病是癌症或感染性疾病。在一些实施例中,所述病症或疾病是癌症,其中所述癌症选自由以下组成的组:维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤和尿膀胱癌。在一些实施例中,v-i型效应子蛋白包括以下或由以下组成:至少一个(例如,两个、三个、四个、五个、六个或更多个)核定位信号(nls)。在一些实施例中,v-i型效应子蛋白包括以下或由以下组成:至少一个(例如,两个、三个、四个、五个、六个或更多个)核输出信号(nes)。在一些实施例中,v-i型效应子蛋白包括至少一个(例如,两个、三个、四个、五个、六个或更多)nls和至少一个(例如,两个、三个、四个、五个、六个或更多个)nes。在一些实施例中,本文描述的系统包括编码一个或多个rna指导物的核酸。在一些实施例中,编码一个或多个rna指导物的核酸可操作地连接到启动子(例如组成型启动子或诱导型启动子)。在一些实施例中,本文描述的系统包括编码靶核酸(例如,靶dna)的核酸。在一些实施例中,编码靶核酸的核酸可操作地连接到启动子(例如组成型启动子或诱导型启动子)。在一些实施例中,本文描述的系统包括在载体中编码v-i型crispr-cas效应子蛋白的核酸。在一些实施例中,所述系统还包括在载体中存在的编码rna指导物的一种或多种核酸。在一些实施例中,包括在系统中的载体是病毒载体(例如,逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关载体和单纯疱疹载体)。在一些实施例中,包括在系统中的载体是噬菌体载体。在一些实施例中,本文提供的系统处于递送系统中。在一些实施例中,递送系统是纳米颗粒、脂质体、外泌体、微泡和基因枪。本公开还提供了包含本文所述系统的细胞(例如真核细胞或原核细胞(例如细菌细胞))。在一些实施例中,真核细胞是哺乳动物细胞(例如,人细胞)或植物细胞。本公开还提供包括所述细胞的动物模型(例如,啮齿动物、兔、狗、猴或猿模型)和植物模型。在一些实施例中,所述方法用于治疗受试者,例如哺乳动物,例如人患者。哺乳动物受试者也可以是驯养哺乳动物,例如狗、猫、马、猴、兔、大鼠、小鼠、牛、山羊或绵羊。在又一方面,本公开提供了检测样品中的靶核酸(例如dna或rna)的方法,所述方法包括:(a)使所述样品与本文所提供的系统和经标记的报告核酸接触,其中crrna与所述靶核酸的杂交引起所述经标记的报告核酸的切割;和(b)测量由所述经标记的报告核酸的切割产生的可检测信号,从而检测所述样品中所述靶核酸的存在。在一些实施例中,检测靶核酸的方法还可以包括将可检测信号的水平与参考信号水平进行比较,并基于可检测信号的水平确定样品中靶核酸的量。在一些实施例中,使用金纳米颗粒检测、荧光偏振、胶体相变/分散、电化学检测或基于半导体的传感来执行测量。在一些实施例中,经标记的报告核酸可包括荧光发射染料对、荧光共振能量转移(fret)对或猝灭剂/荧光团对,其中效应子蛋白对经标记的报告核酸的切割导致经标记的报告核酸产生的信号量的增加或减少。转向另一个方面,本公开包括修饰靶dna的方法,所述方法包括使所述靶dna与包含cas12i效应子蛋白和工程改造的v-i型rna指导物的复合物接触,所述工程改造的v-i型rna指导物被设计成与所述靶dna的靶序列杂交(例如,与所述靶dna的靶序列至少70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%互补),并且所述系统的区别在于(a)所述系统中缺乏tracrrna,和(b)所述cas12i效应子蛋白和v-i型rna指导物形成与所述靶dna缔合的复合物,从而修饰所述靶dna。在某些实施例中,修饰靶dna包括切割靶dna的至少一条链(例如,产生单链断裂或“缺口”,或产生双链断裂)。可替代地或另外地,靶dna的修饰包括(i)结合靶dna,从而防止靶dna与另一生物分子或复合物缔合,或者(ii)解旋靶dna的一部分。在一些情况下,靶dna包括被cas12i效应子蛋白识别的前间隔子相邻基序(pam)序列,例如5’-ttn-3’或5’-tth-3’或5’-tty-3’或5’-ttc-3’。在某些实施例中,cas12效应子蛋白是cas12i1效应子蛋白或cas12i2效应子蛋白。继续本公开的这一方面,在某些实施例中,靶dna与复合物的接触发生在细胞中,例如通过(a)使细胞与复合物接触,所述复合物是在体外形成的,或(b)使细胞与编码cas12i效应子蛋白和v-i型rna指导物的一种或多种核酸接触,然后所述一种或多种核酸由细胞表达并在细胞内形成复合物。在某些情况下,细胞是原核细胞;在其他情况下,它是真核细胞。在另一方面,本公开涉及改变靶dna的方法,所述方法包括使细胞内的靶dna与基因组编辑系统接触,所述基因组编辑系统包括cas12i蛋白和v-i型rna指导物(例如crrna,指导rna或类似结构,任选地包含一个或多个核苷酸、核碱基或主链修饰),所述v-i型rna指导物包含15-24个核苷酸间隔子序列,所述间隔子序列与靶dna中的序列具有至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的互补性,但所述系统不包含tracrrna。在各种实施例中,cas12i蛋白包括以下或由以下组成:与seqidno:3具有至少95%、例如96%、97%、98%、99%或100%序列同一性的氨基酸序列,并且v-i型rna指导物包含与seqidno:7或24之一具有至少95%、例如96%、97%、98%、99%或100%序列同一性的直接重复序列;或者cas12i蛋白包括以下或由以下组成:与seqidno:5具有至少95%、例如96%、97%、98%、99%或100%序列同一性的氨基酸序列,并且v-i型rna指导物包含与seqidno:9或10之一具有至少95%、例如96%、97%、98%、99%或100%序列同一性的直接重复序列。靶dna任选地是细胞dna,并且所述接触任选地发生在例如原核细胞或真核细胞(例如哺乳动物细胞,植物细胞或人细胞)的细胞内。在一些实施例中,v-i型crispr-cas效应子蛋白包含与seqidno:1-5或11-18之一具有至少90%或至少95%序列同一性的氨基酸序列。根据某些实施例,v-i型crispr-cas效应子蛋白包含seqidno:3给出的氨基酸序列,或seqidno:5给出的氨基酸序列。根据某些实施例的crispr-cas效应子蛋白的总长度小于1100个氨基酸,其中不包括与之融合的任何氨基酸信号序列或肽标签。在一些情况下,crispr-cas效应子蛋白包含氨基酸取代,例如在对应于seqidno:3的d647、e894或d948的氨基酸残基处的取代或在对应于seqidno:5的d599、e833或d886的氨基酸残基处的取代。所述取代任选地是丙氨酸。在又一方面,本公开涉及工程改造的非天然存在的crispr-cas系统,其包括以下或由以下组成:cas12i效应子蛋白和工程改造的v-i型rna指导物(例如,crrna,指导rna或类似结构,任选地包含一个或多个核苷酸、核碱基或主链修饰),所述工程改造的v-i型rna指导物具有与靶序列至少80%、例如85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%互补的15-34个核苷酸间隔子序列。所述系统不包括tracrrna,并且cas12i效应子蛋白和v-i型rna指导物形成与靶序列缔合的复合物。在一些情况下,cas12i效应子蛋白和v-i型rna指导物的复合物引起包含靶序列的dna的至少一条链的切割。靶序列可包括由cas12i效应子蛋白识别的前间隔子相邻基序(pam)序列,所述pam序列任选地是5’-ttn-3’、5’-tty-3’或5’-tth-3’或5’-ttc-3’。v-i型rna指导物可包括与seqidno:7、9、10、24、100或101之一具有至少95%、例如96%、97%、98%、99%或100%序列同一性的直接重复序列。在某些实施例中,所述cas12i效应子蛋白包含与seqidno:3具有至少95%序列同一性的氨基酸序列,并且所述直接重复序列与seqidno:100具有至少95%序列同一性,或者所述cas12i效应子蛋白包含与seqidno:5具有至少95%序列同一性的氨基酸序列,并且所述直接重复序列与seqidno:101具有至少95%序列同一性。可替代地或另外地,所述cas12i效应子蛋白包含选自由以下组成的组的氨基酸取代(任选地,丙氨酸取代):(a)在对应于seqidno:3的d647、e894或d948的氨基酸残基处的取代;和(b)在对应于seqidno:5的d599、e833或d886的氨基酸残基处的取代。在另一个方面,本公开涉及包含编码根据本公开的方面之一的crispr-cas系统(或基因组编辑系统)的一种或多种核酸的组合物。并且在另一方面,本公开涉及编码根据本发明的方面之一的crispr-cas系统(或基因组编辑系统)的病毒载体。本公开还包括以下方法:在识别双链靶dna的间隔子互补链后靶向所述双链靶dna的非间隔子互补链并使其产生切口,所述方法包括使所述双链靶dna与本文所述的任一系统接触。在另一方面,本发明包括靶向和切割双链靶dna的方法,所述方法包括使双链靶dna与本文所述的系统接触。在这些方法中,在使双链靶核酸的间隔子互补链产生切口之前,使双链靶dna的非间隔子互补链产生切口。在其他实施例中,本公开包括检测样品中的靶核酸的方法,所述方法包括:(a)使所述样品与本文所述的系统和经标记的报告核酸接触,其中crrna与所述靶核酸的杂交引起所述经标记的报告核酸的切割;和(b)测量由所述经标记的报告核酸的切割产生的可检测信号,从而检测所述样品中所述靶核酸的存在。这些方法还可包括将可检测信号的水平与参考信号水平进行比较,并基于可检测信号的水平确定样品中靶核酸的量。在一些实施例中,使用金纳米颗粒检测、荧光偏振、胶体相变/分散、电化学检测或基于半导体的传感来执行测量。在一些实施例中,经标记的报告核酸包括荧光发射染料对、荧光共振能量转移(fret)对或猝灭剂/荧光团对,其中效应子蛋白对经标记的报告核酸的切割导致经标记的报告核酸产生的信号量的增加或减少。在另一方面,本文所述方法包括特异性编辑双链核酸,所述方法包括在充分的条件下使以下进行接触充分的时间量:(a)v-i型crispr-cas效应子和具有序列特异性切口活性的另一种酶,以及指导v-i型crispr-cas效应子相对于所述另一种序列特异性切口酶的活性使相对链产生切口的crrna;和(b)所述双链核酸;其中所述方法导致双链断裂的形成。另一方面包括编辑双链核酸的方法,所述方法包括在充分的条件下使以下进行接触充分的时间量:(a)包含v-i型crispr-cas效应子和具有dna修饰活性的蛋白质结构域的融合蛋白和靶向所述双链核酸的rna指导物;和(b)所述双链核酸;其中所述融合蛋白的所述v-i型crispr-cas效应子被修饰以使所述双链核酸的非靶链产生切口。另一方面包括在细胞中诱导基因型特异性或转录状态特异性细胞死亡或休眠的方法,所述方法包括使细胞(例如原核或真核细胞)与本文公开的任何系统接触,其中与靶dna杂交的rna指导物引起伴dna酶活性介导的细胞死亡或休眠。例如,细胞可以是哺乳动物细胞,例如癌细胞。所述细胞可以是感染性细胞或感染了感染原的细胞,例如,感染了病毒的细胞、感染了朊病毒的细胞,真菌细胞,原生动物或寄生虫细胞。在另一方面,本公开提供了治疗有需要的受试者中的病症或疾病的方法,所述方法包括给所述受试者施用本文所述的任一系统,其中间隔子序列与跟所述病症或疾病相关的靶核酸的至少15个核苷酸互补;其中所述v-i型crispr-cas效应子蛋白与所述rna指导物缔合形成复合物;其中所述复合物结合靶核酸序列,所述靶核酸序列与所述间隔子序列的至少15个核苷酸互补;并且其中所述复合物与所述靶核酸序列结合后,所述v-i型crispr-cas效应子蛋白切割所述靶核酸,从而治疗所述受试者的所述病症或疾病。例如,所述病症或疾病可以是癌症或感染性疾病。例如,所述病症或疾病可以是癌症,并且其中所述癌症选自由以下组成的组:维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤和尿膀胱癌。本公开还包括本文所述的系统或细胞,其用作药物或用于治疗或预防癌症或感染性疾病,例如,其中所述癌症选自由以下组成的组:维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤和尿膀胱癌。本公开还提供了本文描述的系统或细胞在以下体外或离体方法中的用途:a)靶向并编辑靶核酸;b)在识别dna靶核酸后非特异性降解单链dna;c)在识别双链靶dna的间隔子互补链后靶向所述双链靶dna的非间隔子互补链并使其产生切口;d)靶向并切割双链靶dna;e)检测样品中的靶核酸;f)特异性编辑双链核酸;g)对双链核酸进行碱基编辑;h)在细胞中诱导基因型特异性或转录状态特异性的细胞死亡或休眠。i)在双链靶dna中创建插入缺失;j)将序列插入双链靶dna,或k)缺失或倒置双链靶dna中的序列。在另一个方面,本公开提供了本文描述的系统或细胞在以下方法中的用途:a)靶向并编辑靶核酸;b)在识别dna靶核酸后非特异性降解单链dna;c)在识别双链靶dna的间隔子互补链后靶向所述双链靶dna的非间隔子互补链并使其产生切口;d)靶向并切割双链靶dna;e)检测样品中的靶核酸;f)特异性编辑双链核酸;g)对双链核酸进行碱基编辑;h)在细胞中诱导基因型特异性或转录状态特异性的细胞死亡或休眠;i)在双链靶dna中创建插入缺失;j)将序列插入双链靶dna,或k)缺失或倒置双链靶dna中的序列,其中所述方法不包括修改人类的种系遗传特性的方法,并且不包括治疗人或动物身体的方法。在本文所述的方法中,切割靶dna或靶核酸导致插入缺失的形成,或者其中切割靶dna或靶核酸导致核酸序列的插入,或者,其中切割靶dna或靶核酸包括在两个位点上切割靶dna或靶核酸,并且导致两个位点之间的序列的缺失或倒置。本文描述的各种系统可能缺乏tracrrna。在一些实施例中,v-i型crispr-cas效应子蛋白和v-i型rna指导物形成与靶核酸缔合的复合物,从而修饰靶核酸。在本文所述系统的一些实施例中,间隔子序列的长度在15和47个核苷酸之间,例如在20和40个核苷酸之间,或在24和38个核苷酸之间。在另一方面,本公开提供真核细胞,例如哺乳动物细胞,例如人细胞,其包含经修饰的目的靶基因座,其中所述目的靶基因座已经根据前述权利要求中任一项所述的方法或通过使用前述权利要求中任一项所述的组合物而被修饰。例如,目的靶基因座的修饰可能导致:(i)所述真核细胞包含至少一种基因产物的改变的表达;(ii)所述真核细胞包含至少一种基因产物的改变的表达,其中所述至少一种基因产物的表达增加;(iii)所述真核细胞包含至少一种基因产物的改变的表达,其中所述至少一种基因产物的表达减少;或者(iv)所述真核细胞包含经编辑的基因组。在另一个方面,本公开提供了本文所述的真核细胞的真核细胞系,或包括本文所述的真核细胞的真核细胞系,或其后代,或包括一个或多个本文所述的真核细胞的多细胞生物体。本公开还提供了包含如本文所述的一个或多个细胞的植物或动物模型。在另一方面,本公开提供了生产具有由目的基因编码的经修饰的目的性状的植物的方法,所述方法包括使植物细胞与本文所述的任一系统接触,从而修饰或引入所述目的基因,并从所述植物细胞再生植物。本公开还提供了鉴定植物中目的性状的方法,其中所述目的性状由目的基因编码,所述方法包括使植物细胞与本文所述的任一系统接触,从而鉴定所述目的基因。例如,所述方法可进一步包括将所鉴定的目的基因引入植物细胞或植物细胞系或植物种质中,并由此产生植物,以此所述植物包含所述目的基因。所述方法可以包括使所述植物表现出所述目的性状。本公开还包括靶向和切割单链靶dna的方法,所述方法包括使靶核酸与本文所述的任一系统接触。所述方法可包括具有感染性的病症或疾病,并且其中所述感染原选自由以下组成的组:人类免疫缺陷病毒(hiv)、单纯疱疹病毒-1(hsv1)和单纯疱疹病毒-2(hsv2)。在本文所述的一些方法中,靶dna的两条链可以在不同的位点被切割,导致交错切割。在其他实施例中,靶dna的两条链在同一位点被切割,导致平双链断裂(dsb)。在本文所述的一些治疗方法中,所述病症或疾病选自由以下组成的组:囊性纤维化、进行性假肥大性肌营养不良、贝克肌营养不良、α-1-抗胰蛋白酶缺乏、庞贝病(pompedisease)、强直性肌营养不良、亨廷顿病、脆性x综合征、弗里德赖希共济失调、肌萎缩侧索硬化、额颞叶痴呆、遗传性慢性肾脏病、高脂血症、高胆固醇血症、莱伯氏先天性黑蒙(lebercongenitalamaurosis)、镰状细胞病和β地中海贫血。本文所用的术语“切割事件”是指由本文所述crispr系统的核酸酶产生的靶核酸中的dna断裂。在一些实施例中,切割事件是双链dna断裂。在一些实施例中,切割事件是单链dna断裂。本文中使用的术语“crispr-cas系统”、“v-i型crispr-cas系统”或“v-i型系统”是指v-i型crispr-cas效应子蛋白(即,cas12i效应子蛋白)和一种或多种v-i型rna指导物,和/或编码v-i型crispr-cas效应子蛋白或一种或多种v-i型rna指导物的核酸,以及任选地与crispr-cas效应子的表达或与rna指导物或两者可操作地连接的启动子。本文使用的术语“crispr阵列”是指包括crispr重复和间隔子的核酸(例如dna)片段,其从第一个crispr重复的第一个核苷酸开始并以最后一个(末端)crispr重复的最后一个核苷酸结束。典型地,crispr阵列中的每个间隔子位于两个重复之间。本文中使用的术语“crispr重复”或“crispr直接重复”或“直接重复”是指多个短的直接重复序列,其在crispr阵列中显示出非常小的序列变化或没有序列变化。适当地,v-i型直接重复可以形成茎环结构。“茎环结构”是指具有二级结构的核酸,所述二级结构包括已知或预测形成双链(茎部分)的核苷酸区域,所述双链(茎部分)在一侧由主要为单链核苷酸的区域(环部分)连接。术语“发夹”和“折回”结构在本文中也用于指茎环结构。这样的结构在本领域中是公知的,并且这些术语与其在本领域中的公知含义一致地使用。如本领域已知的,茎环结构不需要精确的碱基配对。因此,茎可以包括一个或多个碱基错配。可替代地,碱基配对可以是精确的,即不包括任何错配。一些v-i型直接重复的预测茎环结构如图3所示。rna指导物中包含的v-i型直接重复的茎由5个互相杂交的互补核碱基组成,并且环长度是6、7或9个核苷酸。本文使用的术语“crisprrna”或“crrna”是指包含由crispr效应子用于靶向特定核酸序列的指导物序列的rna分子。典型地,crrna包含介导靶识别的间隔子序列和与crispr-cas效应子蛋白形成复合物的直接重复序列(本文中称为直接重复或“dr”序列)。本文所用的术语“供体模板核酸”是指在本文所述的crispr酶改变了靶核酸之后,一种或多种细胞蛋白质可以使用其来改变靶核酸的结构的核酸分子。在一些实施例中,供体模板核酸是双链核酸。在一些实施例中,供体模板核酸是单链核酸。在一些实施例中,供体模板核酸是线性的。在一些实施例中,供体模板核酸是环状的(例如,质粒)。在一些实施例中,供体模板核酸是外源核酸分子。在一些实施例中,供体模板核酸是内源核酸分子(例如,染色体)。本文中使用的术语“crispr-cas效应子”、“crispr效应子”、“效应子”、“crispr相关蛋白”或“crispr酶”、“v-i型crispr-cas效应子蛋白”、“v-i型crispr-cas效应子”、“v-i型效应子”或“cas12i效应子蛋白”是指执行酶活性或结合rna指导物指定的核酸上的靶位点的蛋白。在v-i型crispr-cas系统内相关联的crispr-casv-i型效应子蛋白在本文中也可称为“cas12i”或“cas12i酶”。cas12i酶可以识别与靶dna附近相关联的短基序,称为前间隔子相邻基序(pam)。合适地,本公开的cas12i酶可以识别包含ttn或由ttn组成的pam,其中n表示任何核苷酸。例如,pam可以是ttn、tth、tty或ttc。在一些实施例中,v-i型crispr-cas效应子蛋白具有核酸内切酶活性、切口酶活性和/或核酸外切酶活性。本文使用的术语“crispr效应子复合物”、“效应子复合物”、“二元复合物”或“监视复合物”是指含有v-i型crispr-cas效应子蛋白和v-i型rna指导物的复合物。本文所用的术语“rna指导物”是指促进本文所述蛋白质靶向于靶核酸的任何rna分子。示例性“rna指导物”包括但不限于crrna、前crrna(例如dr-间隔子-dr)和成熟crrna(例如成熟_dr-间隔子,成熟dr-间隔子-成熟_dr)。如本文所用,术语“靶向”是指与不具有与靶核酸相同或相似序列的其他核酸相比,包括crispr相关蛋白和rna指导物(如crrna)的复合物优先或特异性结合到例如杂交到特定靶核酸的能力。如本文所用,术语“靶核酸”是指特定的核酸底物,其包含与rna指导物中间隔子的全部或部分互补的核酸序列。在一些实施例中,靶核酸包含基因或基因内的序列。在一些实施例中,靶核酸包含非编码区(例如,启动子)。在一些实施例中,靶核酸是单链的。在一些实施例中,靶核酸是双链的。本文使用的术语“活化的crispr复合物”、“活化的复合物”或“三元复合物”是指crispr效应子复合物与靶核酸结合或修饰靶核酸后的crispr效应子复合物。本文使用的术语“伴rna”或“伴dna”是指被活化的crispr复合物非特异性切割的核酸底物。本文中用于crispr酶的术语“伴dna酶活性”是指活化的crispr复合物的非特异性dna酶活性。除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常所理解的相同的含义。虽然类似或等同于本文所述的那些的方法和材料可以用于本发明的实践或测试,但是以下描述了适合的方法和材料。本文提及的所有出版物、专利申请、专利和其他参考文献通过引用以其整体而并入。在有矛盾的情况下,将以本说明书(包括定义)为准。另外,材料、方法和实例仅为说明性的,而并非旨在为限制性的。根据以下详细描述和根据权利要求书,本发明的其他特征和优点将是显而易见的。附图说明图中包括一系列示意图以及代表各种蛋白质聚簇的基因座分析结果的核酸和氨基酸序列。图1a-b一起描绘了v型效应子(cas12蛋白)分类树。显示了每个分支对应的crispr-cas基因座的组织结构,与crispr阵列相邻的白色矩形描绘了tracrrna的需要。clust.029130(v-i型)系统被描述为cas12i。图2a是clust.029130(v-i型)效应子(指定为cas12i)的功能结构域的示意性表示。实心灰色阴影表示c末端ruvc结构域的位置,其中指示三个保守序列基序(i、ii和iii)中的催化残基并按比例显示。桥螺旋结构域的位置用上标h指示。图2b是cas12i效应子蛋白多序列比对的示意图,ruvc结构域的保守催化残基的相对位置用ruvci/ii/iii表示。图3是显示v-i型直接重复序列的实例的rna转录物的预测二级结构的一组示意图。图4a是体内筛选效应子和非编码质粒设计的示意图。设计了crispr阵列文库,所述文库包括从pacyc184或侧翼是两个dr并由j23119表达的大肠杆菌必需基因的两条链上均匀取样的非重复间隔子。图4b是负选择筛选工作流的示意图;1)将crispr阵列文库克隆到效应子质粒中,2)将效应子质粒和非编码质粒(当存在时)转化到大肠杆菌中,然后生长,用于对干扰来自pacyc184或大肠杆菌必需基因的dna或rna转录物的crispr阵列进行负选择;3)利用效应子质粒的靶向测序鉴定耗减的crispr阵列,并利用小rna测序鉴定成熟的crrna和tracrrna。图5a-b和图5c-d是分别显示cas12i1和cas12i2的耗减的和非耗减的靶的密度的图形表示。在单独的图中显示了高度耗减的靶向pacyc184和大肠杆菌必需基因的间隔子。分别并与注释基因的定向相关地显示顶链和底链上的靶。图6a和6b是散点图,显示了将ruvc-i催化残基天冬氨酸(针对cas12i1,在位置647;针对cas12i2,在位置599)突变为丙氨酸的效果。每个点代表间隔子,并且值表示在为轴指定的条件下(野生型相比于突变体)的耗减倍数。较高的值表明耗减更强(即存活的菌落更少)。图7a和7b是散点图,显示了在所筛选的v-i型crispr-cas系统中添加或移除非编码序列的效果。每个点代表间隔子,并且值表示在为轴指定的条件下(野生型相比于突变体)的耗减倍数。较高的值表明耗减更强(即存活的菌落更少)。图8a和8b分别是cas12i1和cas12i2的聚集筛选结果的热图。热图被分解成例如直接重复的定向、非编码序列的必要性以及完整ruvc结构域的要求(其中dcas12i是指ruvc-i结构域催化活性残基中的点突变体)等依赖关系。y轴将文库靶分解为靶向pacyc184、大肠杆菌必需基因(大肠杆菌eg)或靶向链(s,正义;as,反义)的组成特征。分别在endurastbl3和e.感受态细胞株中进行cas12i1和cas12i2体内筛选。在没有cas12i1或cas12i2效应子的阴性对照中强耗减的crispr阵列从各自的分析中减去。图9a和9b分别是从针对cas12i1和cas12i2体内筛选的强耗减间隔子的靶侧翼序列中鉴定的5’pam基序的网络日志(weblogo)。图10a和10b是靶和侧翼核苷酸的所有可能排列的比特得分(bitscore)的小提琴图,证实cas12i1和cas12i2各自仅偏爱位于间隔子靶5’第2和第3位置处的单个2-ntpam基序。图11a和11b描述了最小cas12i系统的体内筛选样品的小rna测序的读段图谱,分别揭示了cas12i1和cas12i2系统的成熟crrna。图12是一种变性凝胶,显示了cas12i1效应子蛋白对前crrna的加工。通过cas12i1对从具有24nt重复和28nt间隔子的最小crispr阵列(重复-间隔子-重复-间隔子-重复)表达的前crrna进行镁不依赖性加工。前crrna与cas12i1在37℃孵育30分钟,并在15%tbe-尿素凝胶上进行分析。图13是凝胶图示,其显示了通过增加cas12i1二元复合物剂量对ir800染料标记的靶(左)或非靶(右)ssdna的操纵。样品采用15%tbe-尿素变性凝胶电泳分析。图14是凝胶图示,其显示了在未标记的靶(左)或非靶(右)ssdna存在下,通过增加cas12i1二元复合物的剂量对ir800染料标记的伴ssdna(与靶没有序列相似性)的操纵。样品采用15%tbe-尿素变性凝胶电泳分析。图15是凝胶图示,其显示了通过增加cas12i1二元复合物剂量对ir800染料标记的靶(左)或非靶(右)dsdna的操纵。样品采用15%tbe-尿素变性凝胶电泳分析。图16是凝胶图示,其显示了通过增加cas12i1二元复合物剂量并直接猝灭(左)或在猝灭前用s1核酸酶处理(右)而对ir800染料标记的靶dsdna的操纵。样品用4%-20%tbe非变性凝胶电泳分析。图17a和17b是凝胶图示,其显示了dsdna靶链(间隔子互补;“sc”)相对于非靶链(非间隔子互补;“nsc”)的不对称切割效率。图17a是ir800成像的变性凝胶(仅经标记的dna),而图17b是通过sybr染色(总dna)成像的变性凝胶。每种凝胶都描绘了用5’ir800-标记的nsc链(左)或5’ir800-标记的sc链(右)在cas12i1二元复合物浓度增加的情况下对dsdna的切割或切口产生活性。通过将cas12i1与前crrna在37℃下预孵育10分钟,然后添加到底物中并在37℃下孵育1小时,形成cas12i1二元复合物。图18a是检测基因沉默的体外测定设计的示意图。在一锅反应中(由外边界描述),编码cas12i效应子的线性dna模板、rna指导物和σ因子28与重构的ivtt(体外转录和翻译)试剂和大肠杆菌rna聚合酶核心酶(以rnapc表示)组合。包括编码由rna指导物靶向的gfp的dna质粒,以及表达作为内部对照的rfp的非靶线性dna模板。gfp和rfp都从σ因子28启动子(flic)表达,并且gfp和rfp荧光每5分钟测量一次,持续达12小时。图18b是在体外基因沉默测定中用作底物的gfp编码质粒的设计示意图。质粒编码在sig28启动子下的gfp,工程改造的rna指导物被设计成靶向启动子区和gfp基因的两条链(在两个方向上用短的人字形表示)。图19a和19b是图,其显示了在具有包含与底物gfp编码区的模板链(图19a)和编码链(图19b)互补的序列的指导物的复合物中指示的v-i型效应子经12小时(720分钟,x轴)情况下的gfp荧光耗减倍数(y轴)。gfp荧光耗减倍数计算为具有非靶向rna指导物的复合物中的v-i型效应子情况下的归一化gfp荧光与具有靶向gfp的rna指导物的复合物中的v-i型效应子情况下的归一化gfp荧光的比率。与突变形式cas12i1d647a或cas12i1e894a或cas12i1d948a中每个的活性相比,cas12i1(实线)显示出更大的耗减(基因沉默)。图20显示了用于体外池化筛选的crispr-cas系统的体外重构中不同形式的蛋白质和/或rna。转录方向由t7启动子箭头的定向指示。图21显示了用于体外池化筛选的ssdna和dsdna底物的一个实施例。靶序列的5’和3’侧均有6个简并碱基(“n”),它们相邻共同区域,所述区域用作下一代测序后下游数据分析的基准标记。在dsdna底物中,在将引物退火至3’基准标记后,使用dna聚合酶i填充来完成第二链合成。图22显示了与重构crispr-cas系统孵育后的ssdna片段的单向测序文库制备的示意图。图23显示了可能在与重构crispr-cas系统孵育后的dsdna片段情况下的双向测序文库制备的示意图。测序衔接子可以连接到两个剪切片段,然后选择用于使用衔接子共有引物和dsdna底物共有引物的组合。图24a-b显示了下一代测序文库制备和读出(使用a)i5/p5连接衔接子和3’基准用于靶向扩增和添加i7/p7,或b)i7/p7连接衔接子和5’基准用于靶向扩增和添加i5/p5)捕获的全长和切割产物的形式。图25a-b分别示出了a)ssdna靶长度作图和b)底物长度作图示意图。图26a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i1(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图27a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i1(红色)相比于apo(仅效应子)对照(蓝色),dsdna靶长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图28a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i1(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度(x)相比于靶长度(y)的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图29显示了网络日志(weblogo),表明针对cas12i1的5’ttnpam基序(靶序列左侧)与相对于pam的+24/+25核苷酸之间的非靶链切割相关。cas12i1靶右侧未观察到pam序列要求。图30显示与cas12i1的双链dna切割相关联的5nt3’突出,所述切割由相对于pam在非靶链的+24/+25核苷酸之间观察到的切割和相对于pam在靶链的+19/+20核苷酸之间观察到的切割指示。图31a-b显示了ivtt表达的与非靶crrna复合的cas12i1(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图32a-b显示了ivtt表达的与靶向dsdna的底链(失活定向)crrna复合的cas12i1(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图33a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i2(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图34a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i2(红色)相比于apo(仅效应子)对照(蓝色),dsdna靶长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图35a-b显示了ivtt表达的与靶向dsdna的顶链(活性定向)crrna复合的cas12i2(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度(x)相比于靶长度(y)的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图36显示了网络日志(weblogo),表明针对cas12i2的5’ttnpam基序(靶序列左侧)与相对于pam的+24/+25核苷酸之间的非靶链切割相关。cas12i2靶右侧未观察到pam序列要求。图37显示与cas12i2的双链dna切割相关联的平剪切,所述切割由相对于pam在非靶链的+24/+25核苷酸之间观察到的切割和相对于pam在靶链的+24/+25核苷酸之间观察到的切割指示。图38a-b显示了ivtt表达的与非靶crrna复合的cas12i2(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图39a-b显示了ivtt表达的与靶向dsdna的底链(失活定向)crrna复合的cas12i2(红色)相比于apo(仅效应子)对照(蓝色),dsdna底物长度的分布。(a)制备用于读出的下一代测序文库,其中第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列),第二引物与底物的3’基准序列互补(并含有i7/p7序列)。(b)制备用于读出的下一代测序文库,其中第一引物与底物的5’基准序列互补(并含有i5/p5序列),第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列)。图40是用于本文所述v-i型crispr系统的哺乳动物验证的构建体的示意图。效应子是哺乳动物密码子优化的,并且在蛋白质的c-末端附加核质蛋白核定位序列(npnls)。质粒的哺乳动物表达使用ef1α-短启动子(efs)和来自bgh的聚a序列(bghpa)。rna指导物由线性dsdna片段表达,由rna聚合酶iii启动子(u6)驱动。所述示意图描述了不同的实现方式,其中rna指导物表达为承载单个靶的前crrna,成熟crrna,或者以所示构型与多个靶多重复用。图41a是柱状图,显示了在瞬时转染图40中描述的效应子和rna指导物构建体后72小时,由靶向293t细胞系中vegfa基因座的cas12i2crispr效应子诱导的插入缺失活性。对不同的rna指导物设计进行了测定,并显示出不同程度的功效。误差条表示3个重复情况下的s.e.m.。图41b是来自下一代测序的代表性插入缺失的图示。经标记的是ttcpam序列,并且代表性的插入缺失发生在pam下游≥20bp。具体实施方式crispr-cas防御系统的广泛天然多样性包含了可用于可编程生物技术的广泛的活性机制和功能元件。在一个自然系统中,这些机制和参数能够有效地防御外来dna和病毒,同时提供自我与非自我的区别,以避免自我靶向。在工程改造的系统中,相同的机制和参数也提供了分子技术的多样化工具箱,并定义了靶向空间的边界。例如,系统cas9和cas13a具有典型的dna和rna核酸内切酶活性,并且它们的靶向空间分别由靶向的dna上的前间隔子相邻基序(pam)和靶向的rna上的前间隔子侧翼位点(pfs)限定。本文描述的方法已被用于发现单亚基2类效应子内的另外机制和参数,其可扩展rna可编程核酸操纵的能力。在一个方面,本发明涉及使用计算方法和算法来搜索和鉴定在天然存在的基因组序列内表现出与某些其他特征强共现模式的新蛋白质家族。在某些实施例中,这些计算方法旨在鉴定与crispr阵列很靠近地共现的蛋白质家族。然而,本文公开的方法可用于鉴定天然存在于很靠近其他特征(非编码特征和编码蛋白的特征(例如,细菌基因座的非编码区域中的噬菌体序列片段;或crisprcas1蛋白质))的范围内的蛋白质。应当理解,本文描述的方法和计算可以在一个或多个计算设备上执行。在一些实施例中,从基因组或宏基因组数据库获得一组基因组序列。数据库包括短读段、或重叠群水平数据、或组装的支架、或生物体的完整基因组序列。同样,数据库可包括来自原核生物或真核生物的基因组序列数据,或可包括来自宏基因组环境样品的数据。数据库储存库的实例包括国家生物技术信息中心(ncbi)refseq,ncbi的genbank,ncbi全基因组鸟枪(wgs)和联合基因组研究所(jgi)综合微生物基因组(img)。在一些实施例中,施加最小尺寸要求以选择具有指定的最小长度的基因组序列数据。在某些示例性实施例中,最小重叠群长度可以是100个核苷酸、500个核苷酸、1kb、1.5kb、2kb、3kb、4kb、5kb、10kb、20kb、40kb或50kb。在一些实施例中,从完整的或选定的基因组序列数据集中提取已知的或预测的蛋白质。在一些实施例中,已知或预测的蛋白质取自提取源数据库提供的编码序列(cds)注释。在一些实施例中,通过应用计算方法从核苷酸序列中鉴定蛋白质来确定预测的蛋白质。在一些实施例中,genemark套件用于从基因组序列预测蛋白质。在一些实施例中,prodigal用于从基因组序列预测蛋白质。在一些实施例中,可以在相同的序列数据集上使用多个蛋白质预测算法,其中所得到的蛋白质集被去重复。在一些实施例中,crispr阵列从基因组序列数据中鉴定。在一些实施例中,piler-cr用于鉴定crispr阵列。在一些实施例中,crispr识别工具(crt)用于鉴定crispr阵列。在一些实施例中,通过鉴定重复最小次数(例如2、3或4次)的核苷酸基序的启发式方法来鉴定crispr阵列,其中重复基序的连续出现之间的间隔不超过指定长度(例如50、100或150个核苷酸)。在一些实施例中,多个crispr阵列鉴定工具可以在相同的序列数据集合上使用,其中得到的crispr阵列集合被去重复。在一些实施例中,鉴定与crispr阵列很靠近的蛋白质。在一些实施例中,靠近性被定义为核苷酸距离,并且可以在20kb、15kb或5kb内。在一些实施例中,靠近性被定义为蛋白质和crispr阵列之间的开放阅读框(orf)的数目,并且某些示例性距离可以是10、5、4、3、2、1或0个orf。被鉴定为与crispr阵列很靠近的蛋白质然后被分组进入同源蛋白质聚簇。在一些实施例中,blastclust用于形成蛋白质聚簇。在某些其他实施例中,mmseqs2用于形成蛋白质聚簇。为了建立具有crispr阵列的蛋白质聚簇的成员之间的强共现模式,可以在先前编译的已知和预测的蛋白质的完整集合上执行蛋白质家族的每个成员的blast搜索。在一些实施例中,ublast或mmseqs2可用于搜索类似蛋白质。在一些实施例中,可仅对家族中的代表性蛋白质子集进行搜索。在一些实施例中,通过度量对很靠近crispr阵列内的蛋白质聚簇进行排序或过滤,以确定共现。一个示例性度量是蛋白质聚簇中的元件数目与达到某个e值阈值的blast匹配数目的比率。在一些实施例中,可以使用恒定的e值阈值。在其他实施例中,e值阈值可由蛋白质聚簇的距离最远成员确定。在一些实施例中,蛋白质的总体集合被聚簇,并且共现度量是crispr相关聚簇的元件数目与一个或多个包含的总体聚簇的元件数目的比率。在一些实施例中,基于聚簇中蛋白质的天然存在的基因座结构,使用人工审查过程来评估工程改造的系统的潜在功能性和最小的组分组。在一些实施例中,蛋白质聚簇的图形表示可以帮助人工回顾,并且可以包含信息,所述信息包括成对序列相似性、系统发育树、源生物体/环境、预测的功能结构域和基因座结构的图形描述。在一些实施例中,基因座结构的图形描述可针对具有高表示的附近蛋白质家族过滤。在一些实施例中,可通过相关的附近蛋白质的数目与一个或多个包含的总体聚簇的一个或多个大小的比率来计算表示。在某些示例性实施例中,蛋白质聚簇的图形表示可包含天然存在的基因座的crispr阵列结构的描绘。在一些实施例中,蛋白质聚簇的图形表示可以包含保守的直接重复的数目相比于推定crispr阵列的长度的描绘,或者独特的间隔子序列的数目相比于推定crispr阵列的长度的描绘。在一些实施例中,蛋白质聚簇的图形表示可包含预测新的crispr-cas系统并鉴定其组分的推定效应子与crispr阵列共现的各种度量的描述。池化的筛选为了有效地验证工程改造的新crispr-cas系统的活性,同时以无偏的方式评估不同的活性机制和功能参数,在大肠杆菌中使用了一种新的池化的筛选方法。首先,根据新crispr-cas系统的保守蛋白和非编码元件的计算鉴定,利用dna合成和分子克隆将分离的组分组装成单个人工表达载体,在一个实施例中,所述载体基于pet-28a+骨架。在第二实施例中,效应子和非编码元件在单个mrna转录物上转录,不同的核糖体结合位点用于翻译各单独效应子。其次,用含有靶向第二质粒pacyc184的非天然间隔子的未加工crrna的文库替换天然crrna和靶向间隔子。将该crrna文库克隆到含有蛋白效应子和非编码元件(例如pet-28a+)的载体骨架中,然后将文库连同pacyc184质粒靶转化到大肠杆菌中。因此,每个得到的大肠杆菌细胞含有不超过一个靶向间隔子。在另一个实施例中,含有非天然间隔子的未加工crrna的文库另外靶向大肠杆菌必需基因(从以下中所描述的资源中提取:baba等人(2006)mol.syst.biol.[分子系统生物学]2:2006.0008;和gerdes等人(2003)j.bacteriol.[细菌学杂志]185(19):5673-84,其每一个的全部内容通过引用结合在此)。在该实施例中,破坏必需基因功能的新crispr-cas系统的阳性靶向活性导致细胞死亡或生长停滞。在一些实施例中,必需基因靶向间隔子可与pacyc184靶组合以增加测定的另一维度。在其他实施例中,将crispr阵列侧翼的非编码序列、推定的效应子或辅助开放阅读框、以及指示tracrrna元件的预测的抗重复串联在一起并克隆到pacyc184中,并由lac和iptg诱导的t7启动子表达第三,大肠杆菌在抗生素选择下生长。在一个实施例中,使用三重抗生素选择:卡那霉素(用于确保成功转化含有工程改造的crispr-cas效应子系统的pet-28a+载体)、氯霉素和四环素(用于确保成功共转化pacyc184靶载体)。由于pacyc184通常赋予对氯霉素和四环素的耐药性,因此在抗生素选择下,靶向所述质粒的新crispr-cas系统的阳性活性将清除活跃表达crrna文库效应子、非编码元件和特异性活性元件的细胞。与较早时间点相比较,在较晚时间点检查存活细胞的群体通常提供与非活性crrna相比耗减的信号。在一些实施例中,使用双重抗生素选择。例如,撤销氯霉素或四环素以消除选择压力可以提供关于靶向底物、序列特异性和效力的新信息。在一些实施例中,仅使用卡那霉素来确保成功转化包含工程改造crispr-cas效应系统的pet-28a+载体。该实施例适用于含有靶向大肠杆菌必需基因的间隔子的文库,因为除了卡那霉素之外,不需要额外的选择来观察生长变化。在该实施例中,氯霉素和四环素依赖性被去除,并且它们在文库中的靶(如果有的话)提供了关于靶向底物、序列特异性和效力的负面或正面信息的额外来源。由于pacyc184质粒包含一组可能影响crispr-cas系统活性的不同特征和序列,因此将来自池化筛选的活性crrna映射到pacyc184上提供了活性模式,所述活性模式可以以广泛的、假设不可知的方式提示不同的活性机制和功能参数。这样,在异源原核物种中重构新crispr-cas系统所需的特征可以得到更全面的测试和研究。本文描述的体内池化筛选的某些重要优点包括:(1)多功能性-质粒设计允许表达多个效应子和/或非编码元件;文库克隆策略使计算预测的crrna的两个转录方向都能表达;(2)活性机制和功能参数的综合测试可用于评估多样化的干扰机制,包括dna或rna切割;用于检查特征例如转录、质粒dna复制的共现;以及crrna文库的侧翼序列,以可靠地确定复杂度等价为4n的pam;(3)敏感性-pacyc184是低拷贝质粒,能够对crispr-cas活性具有高敏感性,因为即使适度的干扰率也能消除质粒编码的抗生素耐药性;以及(4)效率-池化的筛选包括优化的分子生物学步骤,使得rna测序的速度更快并且通量更大,并且蛋白质表达样品可以直接从筛选中的存活细胞中获得。如在下面的实例中更详细地讨论的,使用该体内池化筛选评估本文描述的新crispr-cas家族,以评估它们的操作元件、机制和参数,以及它们在其天然细胞环境之外的工程改造的系统中具有活性和重新编程的能力。体外池化筛选也可以使用体外池化筛选方法,并与体内池化筛选互补。体外池化筛选能够快速生化表征crispr系统,并将其还原为系统活性所必需的基本组分。在一个实施例中,使用无细胞体外转录和翻译(ivtt)系统从编码crispr系统的非编码蛋白和效应子蛋白的dna直接合成rna和蛋白,从而使得能够比依赖于fplc纯化的蛋白的常规生化测定更快和更高通量的方法来评估更大量的明显不同的crispr-cas效应子系统。除了能够提高生化反应的通量和效率外,体外筛选还有几个优点,使其与上述体内池化筛选方法互补。(1)直接观察富集和耗减信号-体外池化筛选能够读出切割富集和靶耗减,其中切割产物可直接被捕获和测序,以鉴定活性效应子系统的特定剪切位点、切割模式和序列基序,以及靶耗减,其中来自未切割群体内特定靶耗减的负信号用作活性的代用指标。由于体内池化筛选利用靶耗减读出,富集模式提供了对效应子活性的额外洞察。(2)更好地控制反应组分和环境-专有ivtt的明确定义的组分和活性使得能够精确控制反应组分,以鉴定进一步活性转换所需的最少组分(与复杂的大肠杆菌细胞环境相比)用于体内筛选。此外,可以对反应组分进行非天然修饰,以增强活性或更容易读出;例如,在ssdna和dsdna底物上添加硫代磷酸键以通过限制底物的核酸外切酶降解来降低噪音。(3)对毒性/生长抑制蛋白的稳健性-针对可能对大肠杆菌细胞生长具有毒性的蛋白,体外池化筛选能够在不受活细胞生长限制的情况下进行功能性筛选。这最终使蛋白质选择和筛选具有更大的通用性。本文描述的新crispr-cas家族使用体内和体外池化筛选的组合进行评估,以评估它们的操作元件、机制和参数,以及它们在其天然细胞环境之外的工程改造的系统中具有活性和重新编程的能力。具有ruvc结构域的2类crispr-cas效应子在一个方面中,本公开提供了在此称为clust.029130(v-i型)crispr-cas系统的2类crispr-cas系统。这些2类crispr-cas系统包括具有ruvc结构域的分离的crispr相关蛋白和分离的crrna,也称为rna指导物、指导rna或grna,其包含与靶核酸序列如dna序列互补的间隔子序列。适合地,具有ruvc结构域的crispr-cas效应子蛋白可包括选自以下组的一个或多个基序:ruvciii基序,x1shx4dx6x7(seqidno:200),其中x1是s或t,x4是q或l,x6是p或s,并且x7是f或l;ruvci基序,x1xdxnx6x7xxxx11(seqidno:201),其中x1是a或g或s,x是任何氨基酸,x6是q或i,x7是t或s或v,并且x11是t或a;和ruvcii基序x1x2x3e(seqidno:210),其中x1是c或f或i或l或m或p或v或w或y,x2是c或f或i或l或m或p或r或v或w或y,并且x3是c或f或g或i或l或m或p或v或w或y。适合地,v-i型crispr-cas系统包括具有ruvc结构域和v-i型crrna的crispr-cas效应子。合适地,cas12i效应子的长度约为1100个氨基酸或更少,并且包括识别靶dna中pam的功能性pam相互作用结构域。v-i型crispr-cas效应子蛋白能够与v-i型rna指导物结合以形成v-i型crispr-cas系统,其中v-i型rna指导物包括具有5个核苷酸的茎和6、7或8个核苷酸的环的茎环结构。v-i型crispr-cas系统能够在不存在tracrrna的情况下靶向并结合序列特异性dna。在一些实施例中,v-i型crispr-cas效应子蛋白和v-i型rna指导物形成可包括其他组分的二元复合物。当结合到与rna指导物中的间隔子序列互补的核酸底物(即,序列特异性底物或靶核酸)后,所述二元复合物被活化。在一些实施例中,序列特异性底物是双链dna。在一些实施例中,序列特异性底物是单链dna。在一些实施例中,序列特异性要求rna指导物(例如crrna)中的间隔子序列与靶底物完全匹配。在其他实施例中,序列特异性要求rna指导物(例如crrna)中的间隔子序列与靶底物的部分(连续或非连续)匹配。在某些实施例中,序列特异性进一步要求在与间隔子序列靠近的前间隔子相邻基序(“pam”)序列与crispr相关蛋白识别的典型pam序列之间完全匹配。在某些情况下,不需要完全的pam序列匹配,部分匹配就足以使二元复合物和dna底物的序列特异性缔合。在一些实施例中,靶核酸底物是双链dna(dsdna)。在一些实施例中,靶核酸底物是dsdna并包括pam。在一些实施例中,二元复合物在与靶序列特异性dsdna底物结合后修饰靶序列特异性dsdna底物。在一些实施例中,二元复合物优先使靶dsdna底物的非靶链产生切口。在一些实施例中,二元复合物切割靶dsdna底物它的两条链。在一些实施例中,二元复合物以交错切口切割靶dsdna底物的两条链。在一些实施例中,二元复合物在靶dsdna底物上产生平双链断裂(dsb)。在一些实施例中,靶核酸底物是单链dna(ssdna)。在一些实施例中,靶核酸底物是ssdna并且不包括pam。在一些实施例中,二元复合物在与靶序列特异性ssdna底物结合后修饰靶序列特异性ssdna底物。在一些实施例中,二元复合物切割靶ssdna底物。在一些实施例中,二元复合物在结合到靶底物后变得活化。在一些实施例中,活化复合物表现出“多次周转”活性,由此在作用于(例如,切割)靶底物后,活化复合物保持在活化状态。在一些实施例中,二元复合物表现出“单周转”活性,由此在作用于靶底物后,二元复合物恢复到非活性状态。在一些实施例中,活化复合物表现出非特异性(即“伴”)切割活性,由此活化复合物切割与靶没有序列相似性的核酸。在一些实施例中,伴核酸底物是ssdna。crispr酶修饰核酸酶缺陷型crispr酶当本文所述的crispr酶具有核酸酶活性时,crispr酶可以被修饰为具有降低的核酸酶活性,例如与野生型crispr酶相比,至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少97%或100%的核酸酶失活。核酸酶活性可以通过几种方法来降低,例如,将突变引入crispr酶的核酸酶或pam相互作用结构域。在一些实施例中,鉴定核酸酶活性的催化残基,并且这些氨基酸残基可以被不同的氨基酸残基(例如甘氨酸或丙氨酸)取代以降低核酸酶活性。cas12i1的这种突变的实例包括d647a或e894a或d948a。cas12i2的这种突变的实例包括d599a或e833a或d886a。失活的crispr酶可包含(例如,通过融合蛋白,接头肽,gly4ser(gs)肽接头等)一个或多个功能结构域或与一个或多个功能结构域相关联(例如,通过多个蛋白的共表达)。这些功能结构域可以具有各种活性,例如甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、rna切割活性、dna切割活性、核酸结合活性和开关活性(例如光诱导的)。在一些实施例中,功能结构域是krüppel相关框(krab)、vp64、vp16、fok1、p65、hsf1、myod1和生物素-apex。所述一个或多个功能结构域在失活的crispr酶上的定位允许所述功能结构域的正确空间定向,以所归属的功能效应影响靶。例如,如果功能结构域是转录激活因子(例如,vp16、vp64或p65),则转录激活因子被定位成允许其影响靶的转录的空间定向。同样,转录阻遏子被定位成影响靶的转录,并且核酸酶(例如,fok1)被定位成切割或部分切割靶。在一些实施例中,功能结构域位于crispr酶的n-末端。在一些实施例中,功能结构域位于crispr酶的c-末端。在一些实施例中,将失活的crispr酶修饰为包括在n-末端的第一功能结构域和在c-末端的第二功能结构域。拆分的酶本公开还提供本文所述crispr酶的拆分版本。crispr酶的拆分版本可能有利于递送。在一些实施例中,crispr酶被拆分为酶的两部分,它们一起基本上包含功能性crispr酶。拆分可以以一个或多个催化结构域不受影响的方式进行。crispr酶可以起核酸酶的作用,或者可以是失活的酶,其基本上是具有很少或没有催化活性(例如,由于其催化结构域中的一个或多个突变)的rna结合蛋白。在一些实施例中,核酸酶部分和α-螺旋部分表达为单独的多肽。尽管这些部分本身并不相互作用,rna指导物将它们招募到复合物中,所述复合物重现全长crispr酶的活性,并催化位点特异性dna切割。使用经修饰的rna指导物通过阻止二聚化来消除拆分的酶的活性,从而允许诱导型二聚化系统的开发。拆分的酶例如描述于在wright,addisonv.,等人“rationaldesignofasplit-cas9enzymecomplex,[拆分型cas9酶复合物的合理设计]”proc.nat’l.acad.sci.[美国国家科学院院刊],112.10(2015):2984-2989,其全部内容通过引用结合在此。在一些实施例中,拆分的酶可以例如通过使用雷帕霉素敏感的二聚化结构域与二聚化伴侣融合。这允许产生化学诱导型crispr酶,用于crispr酶活性的时间控制。因此,crispr酶可以通过拆分成两个片段而成为化学诱导型,并且雷帕霉素敏感的二聚化结构域可以用于crispr酶的受控重组。拆分点典型地是经由计算机模拟设计的并且克隆到构建体中。在这个过程中,突变可以被引入拆分的酶,并且非功能结构域可以被去除。在一些实施例中,拆分的crispr酶的两个部分或片段(即n-末端和c-末端片段)可形成完整的crispr酶,其包含例如野生型crispr酶序列的至少70%、至少80%、至少90%、至少95%或至少99%。自活化或失活酶本文描述的crispr酶可设计为自活化或自失活。在一些实施例中,crispr酶是自失活的。例如,可以将靶序列引入crispr酶编码构建体中。因此,crispr酶可以切割靶序列以及编码所述酶的构建体,从而自失活其表达。例如在epstein,benjamine.,和davidv.schaffer.“engineeringaself-inactivatingcrisprsystemforaavvectors[工程改造用于aav载体的自失活crispr系统],”mol.ther.[分子疗法],24(2016):s50(其全部内容通过引用结合在此)中描述了构建自失活crispr系统的方法。在一些其他实施例中,在弱启动子(例如,7sk启动子)控制下表达的另外rna指导物可以靶向编码crispr酶的核酸序列以阻止和/或阻断其表达(例如,通过阻止核酸的转录和/或翻译)。用表达crispr酶、rna指导物和靶向编码crispr酶的核酸的rna指导物的载体转染细胞可导致编码crispr酶的核酸的有效破坏并降低crispr酶的水平,从而限制基因组编辑活性。在一些实施例中,crispr酶的基因组编辑活性可通过哺乳动物细胞中的内源rna特征(例如,mirna)来调节。crispr酶开关可以通过在编码crispr酶的mrna的5′-utr中使用mirna互补序列来实现。这些开关选择性地和有效地响应靶细胞中的mirna。因此,这些开关可以通过感测异质细胞群体内的内源mirna活性来差异地控制基因组编辑。因此,开关系统可以为基于细胞内mirna信息的细胞类型选择性基因组编辑和细胞工程改造提供框架(hirosawa,moe等人“cell-type-specificgenomeeditingwithamicrorna-responsivecrispr-cas9switch[利用microrna响应的crispr-cas9开关的细胞类型特异性基因组编辑],”nucl.acidsres.[核酸研究],2017年7月27日;45(13):e118)。诱导型crispr酶crispr酶可以是可诱导的,例如,光诱导的或化学诱导的。这种机制允许用已知的触发因子活化crispr酶中的功能结构域。光诱导性可以通过本领域已知的各种方法实现,例如,通过设计融合复合物,其中cry2phr/cibn配对用于拆分crispr酶(参见,例如,konermann等人“opticalcontrolofmammalianendogenoustranscriptionandepigeneticstates[哺乳动物内源转录和表观遗传状态的光学控制],”nature[自然],500.7463(2013):472)。化学诱导性可以例如通过设计融合复合物实现,其中fkbp/frb(fk506结合蛋白/fkbp雷帕霉素结合结构域)配对用于拆分crispr酶。雷帕霉素是形成融合复合物所必需的,从而活化crispr酶(参见例如zetsche,volz,和zhang,“asplit-cas9architectureforinduciblegenomeeditingandtranscriptionmodulation[用于诱导型基因组编辑和转录调控的split-cas9架构],”naturebiotech.[自然生物技术],33.2(2015):139-142)。此外,crispr酶的表达可由诱导型启动子调节,例如四环素或强力霉素控制的转录活化(tet-on和tet-off表达系统)、激素诱导型基因表达系统(例如蜕皮激素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统。当作为rna递送时,rna靶向效应子蛋白的表达可以通过核糖开关来调节,核糖开关可以感测小分子如四环素(参见,例如,goldfless,stephenj.等人“directandspecificchemicalcontrolofeukaryotictranslationwithasyntheticrna-proteininteraction[通过合成的rna-蛋白质相互作用直接和特异性地化学控制真核翻译],”nucl.acidsres.[核酸研究],40.9(2012):e64-e64)。诱导型crispr酶和诱导型crispr系统的各种实施例例如在us8871445、us20160208243和wo2016205764中描述,其每一个的全部内容通过引用结合在此。功能性突变如本文所述,可将各种突变或修饰引入crispr酶中,以提高特异性和/或稳健性。在一些实施例中,识别鉴定的前间隔子相邻基序(pam)的氨基酸残基。本文描述的crispr酶可以进一步被修饰以识别不同的pam,例如通过用其他氨基酸残基取代识别pam的氨基酸残基。在一些实施例中,crispr酶可以识别例如如本文所述的可替代的pam。在一些实施例中,crispr相关蛋白包括至少一个(例如,1、2、3、4、5、6、7、8、9或10)附接到蛋白的n-末端或c-末端的核定位信号(nls)。nls的非限制性实例包括从以下衍生的nls序列:sv40病毒大t抗原的nls,其具有氨基酸序列pkkkrkv(seqidno:300);来自核质蛋白的nls(例如,具有序列krpaatkkagqakkkk(seqidno:301)的核质蛋白二分nls);c-mycnls,其具有氨基酸序列paakrvkld(seqidno:302)或rqrrnelkrsp(seqidno:303);hrnpa1m9nls,其具有序列nqssnfgpmkggnfggrssgpyggggqyfakprnqggy(seqidno:304);来自输入蛋白-α的ibb结构域的序列rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv(seqidno:305);肌瘤t蛋白的序列vsrkrprp(seqidno:306)和ppkkared(seqidno:307);人类p53的序列pqpkkkpl(seqidno:308);小鼠c-abliv的序列salikkkkkmap(seqidno:309);流感病毒ns1的序列drlrr(seqidno:310)和pkqkkrk(seqidno:311);肝炎病毒δ抗原的序列rklkkkikkl(seqidno:312);小鼠mx1蛋白的序列rekkkflkrr(seqidno:313);人聚(adp-核糖)聚合酶的序列krkgdevdgvdevakkkskk(seqidno:314);人糖皮质激素受体的序列rkclqagmnlearktkk(seqidno:315)。在一些实施例中,crispr相关蛋白包括至少一个(例如,1、2、3、4、5、6、7、8、9或10)附接到蛋白的n-末端或c-末端的核输出信号(nes)。在优选的实施例中,附接c-末端和/或n-末端nls或nes,用于在真核细胞(例如人细胞)中的最佳表达和核靶向。在一些实施例中,本文描述的crispr酶在一个或多个氨基酸残基处突变以改变一个或多个功能活性。例如,在一些实施例中,crispr酶在一个或多个氨基酸残基处突变以改变其解旋酶活性。在一些实施例中,crispr酶在一个或多个氨基酸残基处突变以改变其核酸酶活性(例如,核酸内切酶活性或核酸外切酶活性)。在一些实施例中,crispr酶在一个或多个氨基酸残基处突变以改变其与rna指导物功能上相关联的能力。在一些实施例中,crispr酶在一个或多个氨基酸残基处突变以改变其与靶核酸功能上相关联的能力。在一些实施例中,本文描述的crispr酶能够切割靶核酸分子。在一些实施例中,crispr酶切割靶核酸分子的两条链。然而,在一些实施例中,crispr酶在一个或多个氨基酸残基处突变以改变其切割活性。例如,在一些实施例中,crispr酶可包含一个或多个突变,所述突变使所述酶不能切割靶核酸。在其他实施例中,crispr酶可包含一个或多个突变,使得所述酶能够切割靶核酸的单链(即,切口酶活性)。在一些实施例中,crispr酶能够切割靶核酸的与跟rna指导物杂交的链互补的链。在一些实施例中,crispr酶能够切割靶核酸的与rna指导物杂交的链。在一些实施例中,本文所述的crispr酶可经工程改造以包含一个或多个氨基酸残基的缺失,以减小酶的大小,同时保留一个或多个所需的功能活性(例如,核酸酶活性和与rna指导物功能上相互作用的能力)。截短的crispr酶可有利地与具有负载限制的递送系统组合使用。在一个方面,本公开提供与本文所述的核酸序列至少10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同的核酸序列。在另一方面,本公开还提供与本文所述氨基酸序列至少10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同的氨基酸序列。在一些实施例中,核酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,例如,连续或不连续的核苷酸)与本文所述序列相同。在一些实施例中,核酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,例如,连续或不连续的核苷酸)与本文所述序列不同。在一些实施例中,氨基酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,例如,连续或不连续的氨基酸残基)与本文所述序列相同。在一些实施例中,氨基酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,例如,连续或不连续的氨基酸残基)与本文所述序列不同。为了测定两个氨基酸序列、或两个核酸序列的百分比同一性,出于最佳比对的目的将序列比对(例如,可以在第一和第二氨基酸或核酸序列中的一个或两个中引入空位以用于最佳比对,并且出于比较目的,非同源序列可以忽略)。通常,用于比较目的的比对的参考序列的长度应该是参考序列长度的至少80%、并且在一些实施例中是参考序列长度的至少90%、95%或100%。然后比较相应的氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的一个位置被与第二序列中相应位置相同的氨基酸残基或核苷酸占据时,则分子在该位置是相同的。两个序列之间的同一性百分比是这两个序列共有的相同位置数目的函数,考虑缺口数、每个缺口的长度,它们需要被引入以进行两个序列的最佳比对。为了本公开的目的,序列的比较和两个序列之间同一性百分数的确定可以使用具有空位罚分12、空位延伸罚分4、以及移码空位罚分5的blosum62评分矩阵实现。除了本文所述的生化和诊断应用之外,本文所述的可编程v-i型crispr-cas系统在真核细胞中具有重要的应用,例如基因组的治疗性修饰,修饰的实例包括但不限于;基因型校正、基因敲除、基因序列插入/缺失(通过同源定向修复或其他方式)、单核苷酸修饰或基因调控。这些基因修饰方式可以使用cas12i的核酸酶活性,双切口,或融合到另外效应子结构域的催化上失活的cas12i的可编程dna结合。在一些实施例中,本文描述的crispr相关蛋白和辅助蛋白可以融合到一个或多个肽标签,包括his-标签、gst-标签、flag-标签或myc-标签。在一些实施例中,本文描述的crispr相关蛋白或辅助蛋白可融合到可检测部分,例如荧光蛋白(例如绿色荧光蛋白或黄色荧光蛋白)。并且在一些实施例中,本公开的crispr相关蛋白或辅助蛋白融合到肽或非肽部分,所述肽或非肽部分允许这些蛋白进入或定位到组织、细胞或细胞的区域。例如,本公开的crispr相关蛋白或辅助蛋白(例如cas12i)可包含核定位序列(nls),例如sv40(猿猴病毒40)nls、c-mycnls或其他合适的单颗粒nls。nls可以融合到crispr相关蛋白或辅助蛋白的n-末端和/或c-末端,并且可以单独融合(即,单个nls)或串联(例如,2、3、4等nls的链)。在标签与crispr相关蛋白融合的那些实施例中,这样的标签可促进crispr相关蛋白的基于亲和力或基于电荷的纯化,例如通过利用固定的亲和力或离子交换试剂的液相色谱或珠分离。作为非限制性实例,本公开的重组crispr相关蛋白(例如cas12i)包含多组氨酸(his)标签,并且为了纯化,将其装载到包含固定化金属离子的色谱柱上(例如由固定在树脂上的螯合配体螯合的zn2+、ni2+、cu2+离子,所述树脂可以是单独制备的树脂或市售树脂或即用型柱,例如由马萨诸塞州马尔堡(marlborough)的通用医疗生命科学公司(gehealthcarelifesciences)市售的histrapff柱)。在装载步骤之后,任选地漂洗柱,例如使用一种或多种合适的缓冲液,然后使用合适的洗脱缓冲液洗脱his-标记的蛋白质。可替代地或另外地,如果本公开的重组crispr相关蛋白利用flag-标签,则可以使用业内已知的免疫沉淀方法纯化这种蛋白。对于本领域技术人员来说,本公开的加标签的crispr相关蛋白或辅助蛋白的其他合适的纯化方法是显而易见的。本文描述的蛋白质(例如,crispr相关蛋白质或辅助蛋白质)可以作为核酸分子或多肽递送或使用。当使用核酸分子时,编码crispr相关蛋白的核酸分子可被密码子优化,如下面进一步详细讨论的。所述核酸可以针对任何目的生物体(特别是人细胞或细菌)进行优化密码子。例如,核酸可以针对任何非人真核生物(包括小鼠、大鼠、兔、狗、家畜或非人灵长类)进行密码子优化。密码子使用表是易于获得的,例如在从www.kazusa.orjp/codon/获得的“密码子使用数据库”中并且这些表可以通过多种方式来调整适用。参见nakamura等人nucl.acidsres.[核酸研究]28:292(2000),其全部内容通过引用结合在此。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可得的,例如基因制造(geneforge)(宾夕法尼亚州雅各布斯的aptagen公司)。在一些情况下,编码用于在真核生物(例如,人或其他哺乳动物细胞)细胞中表达的crispr相关蛋白或辅助蛋白的本公开的核酸包括一个或多个内含子,即一个或多个非编码序列,所述非编码序列在第一末端(例如,5’末端)包含剪接供体序列并且在第二末端(例如,3’末端)包含剪接受体序列。任何合适的剪接供体/剪接受体可用于本公开的各种实施例中,包括但不限于猿猴病毒40(sv40)内含子,β-珠蛋白内含子和合成内含子。可替代地或另外地,本公开的编码crispr相关蛋白或辅助蛋白的核酸可在dna编码序列的3’末端包括转录终止信号,例如聚腺苷酸化(聚a)信号。在一些情况下,聚a信号很靠近或相邻内含子(例如sv40内含子)。rna指导物在一些实施例中,本文描述的crispr系统包括至少一种v-i型rna指导物。许多rna指导物的结构在本领域中是已知的(参见例如国际公开号wo2014/093622和wo2015/070083,其每一个的全部内容通过引用结合在此)。在一些实施例中,本文描述的crispr系统包括多种rna指导物(例如,两种、三种、四种、五种、六种、七种、八种或更多种rna指导物)。在一些实施例中,本文描述的crispr系统包括至少一种v-i型rna指导物或编码至少一种v-i型rna指导物的核酸。在一些实施例中,rna指导物包括crrna。通常,本文描述的crrna包括直接重复序列和间隔子序列。在某些实施例中,crrna包括以下,基本上由以下组成或由以下组成:连接到指导序列或间隔子序列的直接重复序列。在一些实施例中,crrna包括直接重复序列、间隔子序列和直接重复序列(dr-间隔子-dr),其是其他crispr系统中典型的前体crrna(前crrna)构型。在一些实施例中,crrna包括截短的直接重复序列和间隔子序列,其是典型的经加工或成熟的crrna。在一些实施例中,crispr-cas效应子蛋白与rna指导物形成复合物,间隔子序列将该复合物导向与跟间隔子序列互补的靶核酸进行序列特异性结合。合适地,本文描述的crispr系统包括至少一种v-i型rna指导物或编码v-i型rna指导物的核酸,其中所述rna指导物包含直接重复。合适地,v-i型rna指导物可以形成二级结构,例如,如本文所述的茎环结构。直接重复可以包括两个核苷酸段,它们可以彼此互补,被间插的核苷酸隔开,这样使得直接重复可以杂交形成双链rna双链体(dsrna双链体),导致茎环结构,其中两个互补核苷酸段形成茎,并且间插的核苷酸形成环或发夹(图3)。例如,形成“环”的中间核苷酸具有从约6个核苷酸到约8个核苷酸,或约7个核苷酸的长度。在不同的实施例中,茎可以包括至少2个、至少3个、至少4个或5个碱基对。合适地,直接重复可以包括长度为约5个核苷酸的两个核苷酸互补段,其间间隔约7个核苷酸。在图3中示出了v-i型系统的一些示例性直接重复,适当地,当脱离天然存在的v-i型直接重复时,本领域技术人员可以模拟图3中所示的这种直接重复的结构。直接重复可以包括以下或由以下组成:约22至40个核苷酸、或约23至38个核苷酸或约23至36个核苷酸。在一些实施例中,本文描述的crispr系统包括多个rna指导物(例如,2,3,4,5,10,15个或更多个)或编码多个rna指导物的多个核酸。在一些实施例中,本文描述的crispr系统包括rna指导物或编码rna指导物的核酸。在一些实施例中,rna指导物包含以下或由以下组成:直接重复序列和能够与靶核酸杂交(例如,在适当条件下杂交)的间隔子序列,其中直接重复序列包含靠近其3’末端并与间隔子序列相邻的5’-ccgucnnnnnnngacgg-3’(seqidno:202)。在一些实施例中,rna指导物包含以下或由以下组成:直接重复序列和能够与靶核酸杂交(例如,在适当条件下杂交)的间隔子序列,其中直接重复序列包含靠近其3’末端并与间隔子序列相邻的5’-gugccnnnnnnnggcac-3’(seqidno:203)。在一些实施例中,rna指导物包含以下或由以下组成:直接重复序列和能够与靶核酸杂交(例如,在适当条件下杂交)的间隔子序列,其中直接重复序列包含靠近3’末端并与间隔子序列相邻的5’-gugucn5-6ugacax1-3’(seqidno:204),其中n5-6是指任何5或6个核碱基的连续序列,并且x1是指c或t或u。rna指导直接重复序列和效应子蛋白对的实例在表5a中提供。在一些实施例中,直接重复序列包含以下或由以下组成:表5a中列出的核酸序列(例如,seqidno:6-10,19-24)。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始三个5’核苷酸的截短的核酸。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始四个5’核苷酸的截短的核酸。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始五个5’核苷酸的截短的核酸。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始六个5’核苷酸的截短的核酸。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始七个5’核苷酸的截短的核酸。在一些实施例中,直接重复序列包含以下或由以下组成:具有表5a中列出的核酸序列的具有起始八个5’核苷酸的截短的核酸。多重rna指导物clust.029130(v-i型)crispr-cas效应子已被证实使用多于一种rna指导物,从而使这些效应子以及包括它们的系统和复合物能够靶向多个不同的核酸靶。在一些实施例中,本文描述的crispr系统包括多种rna指导物(例如,两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、三十种、四十个或更多种rna指导物)。在一些实施例中,本文描述的crispr系统包括单个rna链或编码单个rna链的核酸,其中rna指导物串联布置。所述单个rna链可包括相同rna指导物的多个拷贝、不同rna指导物的多个拷贝、或其组合。在一些实施例中,clust.029130(v-i型)crispr-cas效应子蛋白与针对不同靶核酸的多种rna指导物复合递送。在一些实施例中,clust.029130(v-i型)crispr-cas效应子蛋白可与多种rna指导物共递送,每种rna指导物对不同的靶核酸具有特异性。例如在us9,790,490和ep3009511中描述了使用crispr相关蛋白的多重复用方法,其每一个的全部内容通过引用明确结合在此。rna指导物修饰间隔子长度rna指导物的间隔子长度可在约15至50个核苷酸的范围内。在一些实施例中,rna指导物的间隔子长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸或至少22个核苷酸。在一些实施例中,间隔子长度为15至17个核苷酸、15至23个核苷酸、16至22个核苷酸、17至20个核苷酸、20至24个核苷酸(例如、20、21、22、23或24个核苷酸)、23至25个核苷酸(例如、23、24或25个核苷酸)、24至27个核苷酸、27至30个核苷酸、30至45个核苷酸(例如、30、31、32、33、34、35、40或45个核苷酸)、30或35至40个核苷酸、41至45个核苷酸、45至50个核苷酸,或更长。在一些实施例中,rna指导物的间隔子长度为31个核苷酸。在一些实施例中,rna指导物的直接重复长度为至少21个核苷酸,或为21至37个核苷酸(例如,23、24、25、30、35或36个核苷酸)。在一些实施例中,rna指导物的直接重复长度为23个核苷酸。rna指导序列可以允许形成crispr效应子复合物并成功结合靶,同时不允许成功的核酸酶活性(即,没有核酸酶活性/没有引起插入缺失)的方式进行修饰。这些经修饰的指导物序列被称为“死指导物”或“死指导物序列”。这些死指导物或死指导物序列对于核酸酶活性而言可以是催化上失活的或构象上失活的。死指导物序列通常比导致活性rna切割的相应指导物序列短。在一些实施例中,死指导物比具有核酸酶活性的相应rna指导物短5%、10%、20%、30%、40%或50%。rna指导物的死指导物序列的长度可以是13至15个核苷酸(例如,13、14或15个核苷酸)、15至19个核苷酸、或17至18个核苷酸(例如,17个核苷酸)。因此,在一个方面,本公开提供了非天然存在的或工程改造的crispr系统,其包括本文所述的功能性crispr酶,以及rna指导物(grna),其中grna包含死指导物序列,由此grna能够与靶序列杂交,使得crispr系统被导向细胞中目的基因组基因座而没有可检测的切割活性。例如,在wo2016094872(其全部内容通过引用结合在此)中描述了对死指导物的详细描述。可诱导型指导物rna指导物可以作为可诱导型系统的组分产生。该系统的可诱导特性允许基因编辑或基因表达的时空控制。在一些实施例中,用于可诱导型系统的刺激包括例如电磁辐射、声能、化学能和/或热能。在一些实施例中,rna指导物的转录可由诱导型启动子调节,例如四环素或强力霉素控制的转录活化(tet-on和tet-off表达系统)、激素诱导型基因表达系统(例如蜕皮激素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统。可诱导型系统的其他实例包括例如小分子双杂交转录激活系统(fkbp,aba等)、光可诱导型系统(光敏色素、lov结构域或隐花色素)或光可诱导型转录效应子(lite)。例如在wo2016205764和us8795965(两者的全部内容通过引用结合在此)中描述了这些可诱导型系统。化学修饰化学修饰可以应用于rna指导物的磷酸主链、糖和/或碱基。主链修饰(例如硫代磷酸酯)修饰磷酸酯主链上的电荷并有助于寡核苷酸的递送和核酸酶抗性(参见例如eckstein,“phosphorothioates,essentialcomponentsoftherapeuticoligonucleotides[硫代磷酸酯,治疗性寡核苷酸的基本组分],”nucl.acidther.[核酸疗法],24(2014),第374-387页);糖的修饰(例如2’-o-甲基(2’-ome),2’-f和锁核酸(lna))增强碱基配对和核酸酶抗性(参见,例如,allerson等人“fully2‘-modifiedoligonucleotideduplexeswithimprovedinvitropotencyandstabilitycomparedtounmodifiedsmallinterferingrna,[与未修饰的小干扰rna相比,完全2’-修饰的寡核苷酸双链体具有改善的体外效能和稳定性]”j.med.chem.[医药化学杂志],48.4(2005):901-904)。化学修饰的碱基,例如2-硫尿苷或n6-甲基腺苷等,可允许更强或更弱的碱基配对(参见例如bramsen等人,“developmentoftherapeutic-gradesmallinterferingrnasbychemicalengineering[通过化学工程改造开发治疗级小分子干扰rna],”front.genet.[遗传学前沿],2012年8月20日;3:154)。此外,rna适于5’端和3’端与多种功能部分缀合,包括荧光染料、聚乙二醇或蛋白质。广泛多种修饰可以应用于化学合成的rna指导物分子。例如,用2’-ome修饰寡核苷酸以提高核酸酶抗性,可以改变沃森-克里克碱基配对的结合能。此外,2’-ome修饰可以影响寡核苷酸如何与转染试剂、蛋白质或细胞中任何其他分子相互作用。这些修饰的效果可以通过经验检验来确定。在一些实施例中,rna指导物包括一种或多种硫代磷酸酯修饰。在一些实施例中,rna指导物包括一个或多个锁定核酸,用于增强碱基配对和/或增加核酸酶抗性。这些化学修饰的概述可以发现于例如kelley等人,“versatilityofchemicallysynthesizedguidernasforcrispr-cas9genomeediting[用于crispr-cas9基因组编辑的化学合成的指导rna的通用性],”j.biotechnol.[生物技术杂志]2016年9月10日;233:74-83;wo2016205764;和us8795965b2;其中每一个的全部内容通过引用结合。序列修饰本文描述的rna指导物和crrna的序列和长度可以优化。在一些实施例中,rna指导物的优化长度可通过鉴定crrna的加工形式或通过crrna的rna指导物的经验长度研究来确定。rna指导物还可以包括一个或多个适配体序列。适配体是能与特定靶分子结合的寡核苷酸或肽分子。适配体可对基因效应子、基因激活子或基因阻遏子具有特异性。在一些实施例中,适配体可对蛋白质具有特异性,所述蛋白质又特异性于并招募/结合特异性基因效应子、基因激活子或基因阻遏子。效应子、激活子或阻遏子可以以融合蛋白的形式存在。在一些实施例中,rna指导物具有两个或更多个对相同衔接蛋白特异性的适配体序列。在一些实施例中,所述两个或更多个适配体序列对不同的衔接蛋白是特异性的。衔接蛋白可以包括例如ms2、pp7、qβ、f2、ga、fr、jp501、m12、r17、bz13、jp34、jp500、ku1、m11、mx1、tw18、vk、sp、fi、id2、nl95、tw19、ap205、φcb5、φcb8r、φcb12r、φcb23r、7s、和prr1。因此,在一些实施例中,适配体选自特异性结合本文所述任何一种衔接蛋白的结合蛋白。在一些实施例中,适配体序列是ms2环。适配体的详细描述可以发现于例如nowak等人,“guidernaengineeringforversatilecas9functionality[针对通用性cas9功能的指导rna工程改造],”nucl.acid.res.[核酸研究],2016年11月16日;44(20):9555-9564;和wo2016205764,其全部内容通过引用结合在此。指导物:靶序列匹配要求在经典的crispr系统中,指导物序列与其对应的靶序列之间的互补程度可以是约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或100%。在一些实施例中,互补程度是100%。rna指导物的长度可以是约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、或更多个核苷酸。为了减少脱靶相互作用,例如为了减少指导物与具有低互补性的靶序列相互作用,可以将突变引入crispr系统,使得crispr系统可以区分具有大于80%、85%、90%或95%互补性的靶序列和脱靶序列。在一些实施例中,互补程度为80%至95%、例如约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%或95%(例如,区分具有18个核苷酸的靶与具有1、2或3个错配的18个核苷酸的脱靶)。因此,在一些实施例中,指导物序列与其对应的靶序列之间的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%或99.9%。在一些实施例中,互补程度是100%。在本领域已知,不需要完全的互补性,前提是有足够的互补性发挥作用。可以通过引入错配(例如一个或多个错配,例如间隔子序列和靶序列之间(包括沿着间隔子/靶的错配的位置)的1或2个错配)来利用切割效率的调节。错配,例如双错配,位于越中心(即,不在3’或5’端);切割效率受到的影响越大。因此,通过选择沿间隔子序列的错配位置,可以调节切割效率。例如,如果期望靶的小于100%的切割(例如,在细胞群体中),则间隔子序列中可引入间隔子序列和靶序列之间的1或2个错配。用于在选择生物中使用的crispr系统的优化密码子优化本发明考虑了核酸(例如cdna)的所有可能的变体,所述变体可以通过基于可能的密码子选择来选择组合而制备。这些组合是根据应用于编码天然存在变体的多核苷酸的标准三联体遗传密码进行的,并且所有这些变体都被认为是具体公开的。本文公开了编码v-i型crispr-cas相关效应子蛋白变体的核苷酸序列,所述核苷酸序列已被密码子优化以用于在细菌(例如大肠杆菌)和人细胞中表达。例如,可以通过将核苷酸序列中在人细胞中以较低频率出现的密码子替换在人细胞中以较高频率出现的密码子来生成用于人细胞的密码子优化序列。密码子的出现频率可以通过本领域已知的方法计算确定。针对各种宿主细胞(例如,大肠杆菌、酵母、昆虫、秀丽隐杆线虫、黑腹果蝇、人、小鼠、大鼠、猪、毕赤酵母、拟南芥、玉蜀黍和烟草)的这些密码子频率的计算的实例已经通过例如密码子使用频率表工具(以下包括大肠杆菌和人的示例密码子使用表)等来源公开或提供。表1.大肠杆菌密码子使用表三重峰氨基酸分数编号三重峰氨基酸分数编号tttf0.5880995tcts0.1738027ttcf0.4258774tccs0.1533430于于al0.1452382tcas0.1432715ttgl0.1347500tcgs0.1431146于a于y0.5963937tgtc0.4619138tacy0.4144631tgcc0.5422188于aa*0.617356tga*0.33623tag*0.09989tggw150991cttl0.1243449cctp0.1827340ctcl0.137347cccp0.1319666ctal0.0415409ccap0.231534ctgl0.47177210ccgp0.4976644cath0.5745879cgtr0.3673197cach0.4334078cgcr0.3672212caaq0.3453394cgar0.0713844cagq0.66104171cggr0.1121552atti0.49109072actt0.1937842atci0.3986796acct0.480547a于ai0.1124984acat0.1733910atgm196695acgt0.2550269aatn0.4975436agts0.1636097aacn0.5178443agcs0.2555551aaak0.74129137agar0.0713152aagk0.2645459aggr0.047607gttv0.2872584gcta0.1862479gtcv0.252439gcca0.2688721gtav0.1742420gcaa0.2377547gtgv0.3589265gcga0.33110308gatd0.63119939ggtg0.3593325gacd0.3770394ggcg0.3799390gaae0.68143353ggag0.1334799gage0.3268609gggg0.1541277表2.人密码子使用表三重峰氨基酸分数编号三重峰氨基酸分数编号tttf0.45336562tcts0.18291040ttcf0.55406571tccs0.22346943于于al0.07143715tcas0.15233110ttgl0.13249879tcgs0.0689429于a于y0.43239268tgtc0.45197293tacy0.57310695tgcc0.55243685于aa*0.2814322tga*0.5225383tag*0.210915tggw1255512cttl0.13253795cctp0.28343793ctcl0.2386182cccp0.33397790ctal0.07138154ccap0.27331944ctgl0.41800774ccgp0.11139414cath0.41207826cgtr0.0893458cach0.59297048cgcr0.19217130caaq0.25234785cgar0.11126113cagq0.75688316cggr0.21235938atti0.36313225actt0.24255582atci0.48426570acct0.36382050a于ai0.16140652acat0.28294223atgm1443795acgt0.12123533aatn0.46331714agts0.15237404aacn0.54387148agcs0.24385113aaak0.42476554agar0.2228151aagk0.58654280aggr0.2227281gttv0.18216818gcta0.26370873gtcv0.24290874gcca0.4567930gtav0.11139156gcaa0.23317338gtgv0.47575438gcga0.11150708gatd0.46443369ggtg0.16215544gacd0.54517579ggcg0.34453917gaae0.42577846ggag0.25325243gage0.58810842gggg0.25326879crispr系统的使用方法本文描述的crispr系统具有多种用途,包括修饰(例如,缺失、插入、移位、失活或激活)多种细胞类型中的靶多核苷酸。crispr系统在以下中具有广泛的应用:例如dna/rna检测(例如特异性高灵敏度酶促报告子解锁(sherlock))、跟踪和标记核酸、富集测定(从背景中提取所需序列)、检测循环肿瘤dna、制备下一代文库、药物筛选、疾病诊断和预后以及治疗各种遗传障碍。在不希望受任何特定理论约束的情况下,包括cas12i蛋白的crispr系统可以表现出增强的活性,或者当靶向于某些环境(例如dna质粒、超螺旋dna或转录活性基因组基因座)时可以优先具有活性。通常情况下的基因组编辑系统术语“基因组编辑系统”是指具有rna指导的dna编辑活性的本公开的工程改造的crispr系统。本公开的基因组编辑系统包括上述crispr系统的至少两个组分:rna指导物和关联crispr效应子蛋白。在本公开的某些实施例中,效应子是cas12i蛋白,并且rna指导物是关联v-i型rna指导物。如上所述,这两种组分形成复合物,所述复合物能够与特定核酸序列缔合并编辑该核酸序列中或周围的dna,例如通过进行单链断裂(ssb或切口)、双链断裂(dsb)、核碱基修饰、dna甲基化或去甲基化、染色质修饰等中的一种或多种。在某些实施例中,基因组编辑系统是瞬时活性的(例如,如上文所述并入可诱导型crispr效应子),而在其他实施例中,所述系统是组成性的(例如,由核酸编码,其中crispr系统组分的表达由一个或多个强启动子控制)。本公开的基因组编辑系统在引入细胞时可改变(a)内源基因组dna(gdna),包括但不限于编码例如目的基因靶,基因的外显子序列,基因的内含子序列,基因或一组基因的调控元件等的dna;(b)内源基因组外dna,例如线粒体dna(mtdna);和/或(c)外源dna,例如非整合的病毒基因组、质粒、人工染色体等。在本公开中,这些dna底物被称为“靶dna”。在基因组编辑通过产生ssb或dsb来操作的情况下,系统引起的改变可能以短dna插入或缺失的形式出现,其统称为“插入缺失”。这些插入缺失可以形成在预测的切割位点内或其附近,所述预测的切割位点通常靠近pam序列和/或在与间隔子序列互补的区域内,尽管在一些情况下,插入缺失可以发生在所述预测的切割位点之外。不希望受任何理论的束缚,认为插入缺失通常是由“易错”dna损伤修复途径(例如非同源末端连接(nhej))修复ssb或dsb的结果。在一些情况下,基因组编辑用于产生彼此在50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1250、1500、1750或2000个碱基对内的两个dsb,这导致一个或多个结果,包括在一个或两个切割位点处形成插入缺失,以及设置在dsb之间的dna序列的缺失或倒置。可替代地,本公开的基因组编辑系统可以通过整合新序列来改变靶dna。这些新序列可以不同于靶dna的现有序列(作为非限制性实例,通过连接平末端通过nhej整合),或者可以对应于具有与靶向的dna的区域同源的一个或多个区域的dna模板。模板同源序列的整合也被称为“同源定向修复”或“hdr”。hdr的模板dna可以是细胞内源性的,包括但不限于以如下形式:位于与靶dna相同染色体的另一拷贝上的同源序列,来自与靶dna相同基因簇的同源序列,等等。可替代地或另外地,模板dna可以外源性地提供,包括但不限于作为游离的线性或环状dna,作为结合(共价或非共价)到一个或多个基因组编辑系统组分的dna,或作为载体基因组的一部分。在一些情况下,编辑包括通过crispr介导的干扰暂时或永久沉默基因,如以下所描述:matthewh.larson等人“crisprinterference(crispri)forsequence-specificcontrolofgeneexpression[crispr干扰(crispri)用于基因表达的序列特异性控制],”natureprotocols[自然实验方案]8,2180-2196(2013),其全部内容通过引用结合用于所有目的。基因组编辑系统可包括其他组分,包括但不限于一个或多个介导位点特异性核碱基修饰、dna甲基化或去甲基化或染色质修饰的异源功能结构域。在一些情况下,异源功能结构域例如通过直接肽键或中间肽接头共价结合到crispr相关蛋白例如cas12i。下面将更详细地描述这种类型的融合。在一些实施例中,异源功能结构域例如通过化学交联与crrna共价结合。并且在一些实施例中,一个或多个官能团可以与crispr相关蛋白和/或crrna非共价缔合。这通过附加到crrna和/或异源功能基团上的适配体、融合到crispr相关蛋白上的肽基序和配置成结合融合到异源功能结构域上的这种基序的结合结构域进行,或者反之亦然。基因组编辑系统设计和基因组编辑结果在本说明书的其他地方更详细地描述。dna/rna检测在一个方面,本文描述的crispr-cas系统可用于通过dna感测进行dna/rna检测。单效应子rna指导的dna酶可以用rna指导物重新编程,为特异的单链dna(ssdna)感测提供平台。活化的crisprv-i型效应子蛋白在识别其dna靶后,参与与靶序列无序列相似性的附近ssdna的“伴”切割。这种rna编程的伴切割活性允许crispr系统通过经标记的ssdna的非特异性降解来检测特定dna的存在。伴ssdna酶活性可以在dna检测应用中与报告子组合,所述应用例如是称为dna核酸内切酶靶向crispr反式报告子(detectr)方法的方法,当与扩增组合时,所述方法实现了对dna检测的渺摩尔敏感性(参见,例如chen等人,science[科学],360(6387):436-439,2018),其全部内容通过引用结合在此。使用本文所述酶的一个应用是在体外环境中降解非靶ssdna。连接荧光团和猝灭剂的“报告子”ssdna分子也可以与未知dna样品(单链或双链)一起添加到体外系统中。当识别未知dna片段中的靶序列后,含有v-i型效应子的监视复合物切割报告子ssdna,从而产生荧光读出。在其他实施例中,sherlock方法(特异性高灵敏度酶促报告子解锁)还提供基于报告子ssdna的核酸扩增和伴切割的具有渺摩尔(或单分子)敏感性的体外核酸检测平台,允许实时检测靶。在sherlock中使用crispr的方法被详细描述于例如gootenberg,等人“nucleicaciddetectionwithcrispr-cas13a/c2c2[使用crispr-cas13a/c2c2进行核酸检测],”science[科学],356(6336):438-442(2017),其全部内容通过引用结合在此。在一些实施例中,本文描述的crispr系统可用于多重复用误差稳健性荧光原位杂交(merfish)中。这些方法描述于例如chen等人,“spatiallyresolved,highlymultiplexedrnaprofilinginsinglecells[在单个细胞中进行空间分辨的高度复用的rna分析],”science[科学],2015年4月24日;348(6233):aaa6090,其全部内容通过引用结合在此。在一些实施例中,本文描述的crispr系统可用于检测样品(例如,临床样品、细胞或细胞裂解物)中的靶dna。本文描述的clust.029130(v-i型)crispr-cas效应子蛋白的伴dna酶活性在效应子蛋白与靶核酸结合时被激活。与目的靶dna结合后,效应子蛋白切割经标记的检测子ssdna以产生或改变信号(例如,增加的信号或减少的信号),从而允许对样品中的靶dna进行定性和定量检测。样品中dna的特异性检测和定量允许包括诊断在内的多种应用。在一些实施例中,所述方法包括:a)使样品与以下物质接触:(i)rna指导物(例如crrna)和/或编码所述rna指导物的核酸,其中所述rna指导物由直接重复序列和能够与靶rna杂交的间隔子序列组成;(ii)clust.029130(v-i型)crispr-cas效应子蛋白和/或编码所述效应子蛋白的核酸;和(iii)经标记的检测子ssdna;其中所述效应子蛋白与所述rna指导物缔合形成监视复合物;其中所述监视复合物与靶dna杂交;并且其中当所述监视复合物与靶dna结合后,所述效应子蛋白表现出伴dna酶活性并切割所述经标记的检测子ssdna;和b)测量通过切割所述经标记的检测子ssdna产生的可检测信号,其中所述测量提供对所述样品中靶dna的检测。在一些实施例中,所述方法还包括将可检测信号与参考信号进行比较,并确定样品中靶dna的量。在一些实施例中,使用金纳米颗粒检测、荧光偏振、胶体相变/分散、电化学检测和基于半导体的传感来执行测量。在一些实施例中,经标记的检测子ssdna包括荧光发射染料对、荧光共振能量转移(fret)对或猝灭剂/荧光团对。在一些实施例中,当经标记的检测子ssdna被效应子蛋白切割后,由经标记的检测子ssdna产生的可检测信号的量减少或增加。在一些实施例中,经标记的检测子ssdna在被效应子蛋白切割之前产生第一可检测信号,在被效应子蛋白切割之后产生第二可检测信号。在一些实施例中,当经标记的检测子ssdna被效应子蛋白切割时,产生可检测的信号。在一些实施例中,经标记的检测子ssdna包括经修饰的核碱基、经修饰的糖部分、经修饰的核酸连接,或其组合。在一些实施例中,所述方法包括通过使用多个clust.029130(v-i型)crispr-cas系统(各自包括不同的直系同源效应子蛋白和相应的rna指导物,从而允许样品中的多个靶dna的区分)对样品中的多个独立靶dna(例如,两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个、三十个、四十个或更多个靶rna)进行多通道检测。在一些实施例中,所述方法包括使用clust.029130(v-i型)crispr-cas系统的多个实例(各自包含具有可区分的伴ssdna酶底物的直系效应子蛋白)对样品中的多个独立靶dna进行多通道检测。使用crispr相关蛋白检测样品中dna的方法例如在美国专利公开号2017/0362644(其全部内容通过引用结合在此)中描述。核酸的跟踪与标记细胞过程依赖于蛋白质、rna和dna之间的分子相互作用网络。准确检测蛋白质-dna和蛋白质-rna的相互作用是理解这些过程的关键。体外邻近标记技术使用亲和标签与报告基团(例如,可光活化基团)组合,以在体外标记目的蛋白或dna附近的多肽和dna。在uv照射后,可光活化基团与跟加标签的分子很靠近的蛋白质和其他分子反应,从而标记它们。经标记的相互作用分子随后可被回收和鉴定。dna靶向效应子蛋白例如可用于将探针靶向选定的dna序列。这些应用也可应用于疾病或难以培养的细胞类型的体内成像的动物模型中。核酸的跟踪和标记方法例如描述于us8795965;wo2016205764;和wo2017070605;其每一个的全部内容通过引用结合在此。利用成对crispr切口酶进行基因组编辑本文所述的crispr系统可以串联使用,使得两种cas12i切口酶、或者一种cas12i酶和另一种具有切口活性的crisprcas酶(它们被一对rna指导物靶向到靶基因座的相对链)可以产生具有突出端的双链断裂。这种方法可降低脱靶修饰的可能性,因为双链断裂预计只发生在两种酶都产生切口的基因座处,从而增加基因组编辑特异性。该方法被称为“双切口”或“配对切口酶”策略,并且描述于例如ran等人,“doublenickingbyrna-guidedcrisprcas9forenhancedgenomeeditingspecificity[rna引导的crisprcas9进行双切口可增强基因组编辑特异性],”cell[细胞],2013年9月12日;154(6):1380-1389,以及mali等人,“cas9transcriptionalactivatorsfortargetspecificityscreeningandpairednickasesforcooperativegenomeengineering[用于靶特异性筛选的cas9转录激活因子和用于协作基因组工程改造的成对切口酶],”naturebiotechnology[自然生物技术],2013年8月01日;31:833-838,其全部内容通过引用结合在此。成对切口酶的首次应用证明了该策略在哺乳动物细胞系中的效用。成对切口酶的应用已描述于以下中:模式植物拟南芥(例如,fauser等人,“bothcrispr/cas-basednucleasesandnickasescanbeusedefficientlyforgenomeengineeringinarabidopsisthaliana[基于crispr/cas的核酸酶和切口酶均可有效地用于拟南芥的基因组工程改造],”theplantjournal[植物杂志]79(2):348-59(2014),和shiml等人,“"thecrispr/cassystemcanbeusedasnucleaseforinplantagenetargetingandaspairednickasesfordirectedmutagenesisinarabidopsisresultinginheritableprogeny[crispr/cas系统可以用作植物基因靶向的核酸酶以及用作拟南芥中定向诱变从而产生可遗传的后代的成对切口酶],”theplantjournal[植物杂志]80(6):1139-50(2014);作物,例如水稻(例如,mikami等人,“precisiontargetedmutagenesisviacas9pairednickasesinrice[水稻中cas9成对切口酶的精确靶向诱变],”plantandcellphysiology[植物和细胞生理学]57(5):1058-68(2016)和小麦(例如,等人,“amultipurposetoolkittoenableadvancedgenomeengineeringinplants[用于在植物中实现高级基因组工程改造的多功能工具包],”plantcell[植物细胞]29:1196-1217(2017);细菌(例如,standage-beier等人,“targetedlarge-scaledeletionofbacterialgenomesusingcrispr-nickases[使用crispr-切口酶的靶向大规模缺失细菌基因组],”acssyntheticbiology[acs合成生物学]4(11):1217-25(2015);以及用于治疗目的的原代人细胞(例如,在dabrowska等人,“preciseexcisionofthecagtractfromthehuntingtingenebycas9nickases[cas9切口酶从亨廷顿基因中精确切除cag区段],”frontiersinneuroscience[神经科学前沿]12:75(2018),和kocher等人,“cutandpaste:efficienthomology-directedrepairofadominantnegativekrt14mutationviacrispr/cas9nickases[剪切和粘贴:通过crispr/cas9切口酶对显性负krt14突变进行高效的同源性指导的修复],”moleculartherapy[分子疗法]25(11):2585-2598(2017)中),其所有者的全部内容通过引用结合在此。本文所述的crispr系统也可用作成对的切口酶来检测剪接连接,如例如描述于santo&paik,“asplicejunction-targetedcrisprapproach(spjcrispr)revealshumanfoxo3btobeaprotein-codinggene,[靶向剪接连接的crispr方法(spjcrispr)揭示人foxo3b是一种蛋白质编码基因]”gene[基因]673:95-101(2018)。本文所述的crispr系统还可用作成对的切口酶以将dna分子插入靶基因座,如例如描述于wang等人,“therapeuticgenomeeditingformyotonicdystrophytype1usingcrispr/cas9[使用crispr/cas9对1型强直性营养不良的治疗性基因组编辑],”moleculartherapy[分子疗法]26(11):2617-2630(2018)。本文描述的crispr系统还可用作单切口酶以插入基因,如例如描述于gao等人,“singlecas9nickaseinducedgenerationofnramp1knockincattlewithreducedoff-targeteffects[单cas9切口酶诱导的具有降低的脱靶效应的nramp1敲入牛产生],”genomebiology[基因组生物学]18(1):13(2017)。使用crispr切口酶增强碱基编辑本文描述的crispr系统可用于增强crispr碱基编辑的效率。在碱基编辑中,将具有dna核苷酸修饰活性(例如胞苷脱氨)的蛋白质结构域融合到已被突变失活的从而不再具有双链dna切割活性的可编程crisprcas酶上。在一些实施例中,使用切口酶作为可编程cas蛋白已经显示出改善碱基编辑的效率,如例如描述于komor等人,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage[在无双链dna切割的情况下对基因组dna中的靶碱基的可编程编辑],”nature[自然]533:420-424(2016),和nishida等人,“targetednucleotideeditingusinghybridprokaryoticandvertebrateadaptiveimmunesystems[使用杂交原核和脊椎动物适应性免疫系统进行靶向核苷酸编辑],”science[科学]353(6305):aaf8729(2016),其两者的全部内容通过引用结合在此。假设使靶基因座的未编辑链产生切口的切口酶刺激内源性dna修复途径—例如错配修复或长补丁碱基切除修复,其优先解决由对所需等位基因的碱基编辑所产生的错配—或提供催化编辑结构域对靶dna的更好可及性。切口酶和dna聚合酶的靶向诱变和dna标记本文描述的crispr系统可与作用于经切口的dna的蛋白质结合使用。其中这样的一类蛋白质是缺口翻译dna聚合酶,如大肠杆菌dna聚合酶i或taqdna聚合酶。在一些实施例中,crispr系统(例如crispr切口酶)可以融合到易出错dna聚合酶i。该融合蛋白可以用rna指导物靶向以在靶dna位点产生切口。然后dna聚合酶在切口处启动dna合成,取代下游核苷酸,并且,由于使用了易出错的聚合酶,导致目标基因座的突变。具有不同过程性、保真度和错掺入偏差的聚合酶变体可用于影响所产生的突变体的特性。该方法称为evolvr,详细描述于例如halperin等人,“crispr-guideddnapolymerasesenablediversificationofallnucleotidesinatunablewindow[crispr指导的dna聚合酶可在可调窗口中实现所有核苷酸的多样化],”nature[自然]560,248-252(2018),其全部内容通过引用结合在此。在一些实施例中,crispr切口酶可用于切口翻译dna标记方案。切口翻译是rigby等人在1977年首次描述的,它涉及将dna与dna切口酶(例如dna酶i)一起孵育,所述dna切口酶在dna分子中产生一个或多个切口。接下来,使用切口翻译dna聚合酶,例如dna聚合酶i,将经标记的核酸残基掺入切口位点。例如,在mccaffery等人,“high-throughputsingle-moleculetelomerecharacterization,”genomeresearch27:1904-1915(2017)(其全部内容通过引用结合在此)中详细描述了使用经典的切口翻译标记方案的变体,利用crispr切口酶的可编程性来用荧光染料共价标记端粒重复的方法。这种方法能够在单分子水平上对端粒长度进行单倍型解析分析。核酸的跟踪与标记细胞过程依赖于蛋白质、rna和dna之间的分子相互作用网络。准确检测蛋白质-dna和蛋白质-rna的相互作用是理解这些过程的关键。体外邻近标记技术使用亲和标签与报告基团(例如,可光活化基团)组合,以在体外标记目的蛋白或rna附近的多肽和rna。在uv照射后,可光活化基团与跟加标签的分子很靠近的蛋白质和其他分子反应,从而标记它们。经标记的相互作用分子随后可被回收和鉴定。rna靶向效应子蛋白例如可用于将探针靶向选定的rna序列。这些应用也可应用于疾病或难以培养的细胞类型的体内成像的动物模型中。核酸的跟踪和标记方法例如描述于us8795965;wo2016205764;和wo2017070605;其每一个的全部内容通过引用结合在此。高通量筛选本文描述的crispr系统可用于制备下一代测序(ngs)文库。例如,为了创建具有成本效益的ngs文库,crispr系统可用于破坏靶基因的编码序列,并且crispr酶转染的克隆可同时通过下一代测序(例如,在离子洪流pgm系统上)进行筛选。关于如何制备ngs文库的详细描述可以发现于例如bell等人,“ahigh-throughputscreeningstrategyfordetectingcrispr-cas9inducedmutationsusingnext-generationsequencing[使用下一代测序技术检测crispr-cas9诱导的突变的高通量筛选策略],”bmcgenomics[bmc基因组学],15.1(2014):1002,其全部内容通过引用结合在此。工程改造的微生物微生物(例如大肠杆菌、酵母和微藻)广泛用于合成生物学。合成生物学的发展具有广泛的用途,包括各种临床应用。例如,本文所述的可编程crispr系统可用于拆分具有用于靶向细胞死亡的毒性结构域的蛋白质,例如使用作为靶转录物的癌连接rna。此外,涉及蛋白质-蛋白质相互作用的途径可以在合成生物系统(例如具有适当效应子如激酶或酶的融合复合物)中受到影响。在一些实施例中,可以将靶向噬菌体序列的rna指导物序列引入微生物中。因此,本公开还提供了接种微生物(例如生产菌株)对抗噬菌体感染的方法。在一些实施例中,本文提供的crispr系统可用于工程改造微生物,例如以提高产率或提高发酵效率。例如,本文所述的crispr系统可用于工程改造微生物,例如酵母,以从可发酵糖产生生物燃料或生物聚合物,或降解源自作为可发酵糖来源的农业废弃物的植物来源木质纤维素。更具体地,本文描述的方法可用于修饰生物燃料生产所需的内源基因的表达和/或修饰可能干扰生物燃料合成的内源基因。这些工程改造微生物的方法描述于例如verwaal等人,“crispr/cpf1enablesfastandsimplegenomeeditingofsaccharomycescerevisiae[crispr/cpf1能快速简便地对酿酒酵母进行基因组编辑],”yeast[酵母],2017年9月8日.doi:10.1002/yea.3278;和hlavova等人,“improvingmicroalgaeforbiotechnology-fromgeneticstosyntheticbiology[改善生物技术中的微藻-从遗传学到合成生物学],”biotechnol.adv.[生物技术进展],2015年11月1日;33:1194-203,其两者的全部内容通过引用结合在此。在一些实施例中,本文所述的crispr系统可用于工程改造具有缺陷修复途径的微生物,例如嗜常温纤维素分解菌—纤维素分解梭状芽孢杆菌(clostridiumcellylolyticum),其是一种用于生物能源研究的模式生物。在一些实施例中,crispr切口酶可用于在靶基因座处引入单个切口,这可导致通过同源重组插入外源提供的dna模板。关于如何使用crispr切口酶编辑修复缺陷微生物的详细方法描述于例如xu等人,“efficientgenomeeditinginclostridiumcellulolyticumviacrispr-cas9nickase[通过crispr-cas9切口酶在解纤维梭菌中的有效基因组编辑],”applenvironmicrobiology[应用环境微生物学]81:4423-4431(2015),其全部内容结合在此。在一些实施例中,本文提供的crispr系统可用于诱导细胞(例如,微生物例如工程改造的微生物)的死亡或休眠。这些方法可用于诱导多种细胞类型的休眠或死亡,所述细胞类型包括原核细胞和真核细胞,所述原核细胞和真核细胞包括但不限于哺乳动物细胞(例如,癌细胞或组织培养细胞)、原生动物、真菌细胞、被病毒感染的细胞、被细胞内细菌感染的细胞、被细胞内原生动物感染的细胞、被朊病毒感染的细胞、细菌(例如,致病性和非致病性细菌)、原生动物以及单细胞和多细胞寄生虫。例如,在合成生物学领域中,非常希望具有控制工程改造的微生物(例如细菌)以防止其繁殖或传播的机制。本文所述的系统可用作“杀死开关”以调节和/或防止工程改造的微生物的繁殖或传播。此外,本领域需要对当前抗生素治疗的替代品。本文所述的系统还可用于期望杀死或控制特定微生物群体(例如细菌群体)的应用中。例如,本文所述的系统可包括靶向属、种或株特异性的核酸(例如dna)并可递送至细胞的rna指导物(例如crrna)。在与靶核酸复合和结合后,clust.029130(v-i型)crispr-cas效应子蛋白的核酸酶活性破坏了微生物的基本功能,最终导致休眠或死亡。在一些实施例中,所述方法包括使所述细胞与本文描述的系统接触,所述系统包括clust.029130(v-i型)crispr-cas效应子蛋白或编码所述效应子蛋白的核酸,以及rna指导物(例如,crrna)或编码所述rna指导物的核酸,其中间隔子序列与靶核酸的至少15个核苷酸(例如,16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或更多个核苷酸)互补。不希望受任何特定理论的约束,clust.029130(v-i型)crispr-cas效应子蛋白的核酸酶活性可诱导程序性细胞死亡、细胞毒性、凋亡、坏死、坏死状凋亡、细胞死亡、细胞周期阻滞、细胞无能、细胞生长减少或细胞增殖减少。例如,在细菌中,clust.029130(v-i型)crispr-cas效应子蛋白对dna的切割可以是抑细菌或杀细菌的。植物应用本文描述的crispr系统在植物中具有广泛的用途。在一些实施例中,crispr系统可用于工程改造植物基因组(例如,改进生产,制造出具有所需翻译后修饰的产物,或引入用于生产工业产物的基因)。在一些实施例中,crispr系统可用于将所需性状引入植物(例如,对基因组进行可遗传修饰或不进行可遗传修饰),或调节植物细胞或整株植物中内源基因的表达。可以使用本公开的crispr系统(例如,cas12i系统)编辑的植物可以是单子叶植物或双子叶植物,并且包括但不限于红花、玉蜀黍、大麻、水稻、甘蔗、低芥酸油菜、高粱、烟草、黑麦、大麦、小麦、粟、燕麦、花生、马铃薯、柳枝稷、草坪草、大豆、苜蓿、向日葵、棉花和拟南芥。本公开还包括具有根据本公开的方法和/或利用本公开的crispr系统产生的性状的植物。在一些实施例中,crispr系统可用于鉴定、编辑和/或沉默编码特定蛋白质(例如过敏性蛋白质(例如花生、大豆、扁豆、豌豆、四季豆和绿豆中的过敏性蛋白质))的基因。关于如何鉴定、编辑和/或沉默编码蛋白质的基因的详细描述是描述于例如nicolaou等人,“moleculardiagnosisofpeanutandlegumeallergy[花生和豆类过敏的分子诊断],”curr.opin.allergyclin.immunol[过敏和临床免疫学的最新观点].,11(3):222-8(2011),和wo2016205764a1;其两者的全部内容通过引用结合在此。基因驱动基因驱动是一种现象,在这种现象中,特定的基因或一组基因的遗传被有利地偏向。本文描述的crispr系统可用于构建基因驱动。例如,crispr系统可以被设计成靶向并破坏基因的特定等位基因,导致细胞复制第二等位基因以固定序列。因为复制,第一等位基因将转换成第二等位基因,增加了第二等位基因传给后代的机会。关于如何使用本文描述的crispr系统以构建基因驱动的详细方法描述于例如hammond等人,“acrispr-cas9genedrivesystemtargetingfemalereproductioninthemalariamosquitovectoranophelesgambiae[针对疟蚊载体冈比亚按蚊中雌性繁殖的crispr-cas9基因驱动系统],”nat.biotechnol.[自然生物技术],2016年1月;34(1):78-83,其全部内容通过引用结合在此。池化的筛选如本文所述,池化的crispr筛选是鉴定参与例如细胞增殖、耐药和病毒感染等生物学机制的基因的有力工具。用本文所述的编码rna指导物(grna)的载体文库成批转导细胞,并且在应用选择性激发之前和之后测量grna的分布。池化的crispr筛选对于影响细胞存活和增殖的机制工作良好,它们可以扩展到测量单个基因的活性(例如,通过使用工程改造的报告细胞系)。阵列crispr筛选一次只针对一个基因,使得使用rna-seq作为读出成为可能。在一些实施例中,本文所述的crispr系统可用于单细胞crispr筛选。关于池化的crispr筛选的详细描述可以发现于例如datlinger等人,“pooledcrisprscreeningwithsingle-celltranscriptomeread-out[具有单细胞转录组读出的池化crispr筛选],”nat.methods.[自然方法],2017年3月;14(3):297-301,其全部内容通过引用结合在此。饱和诱变(“过度攻击(bashing)”)本文描述的crispr系统可用于原位饱和诱变。在一些实施例中,池化的rna指导物文库可用于对特定基因或调控元件执行原位饱和诱变。这些方法可以揭示这些基因或调控元件(例如增强子)的关键的最小特征和离散脆弱性。这些方法描述于例如canver等人,“bcl11aenhancerdissectionbycas9-mediatedinsitusaturatingmutagenesis[通过cas9介导的原位饱和诱变对bcl11a增强子进行解析],”nature[自然],2015年11月12日;527(7577):192-7,其全部内容通过引用结合在此。治疗应用本文描述的在哺乳动物细胞环境中具有活性的crispr系统(例如,cas12i2)可以具有不同范围的治疗应用。此外,每种核酸酶直系同源物可具有使其有利于某些靶向、治疗或递送方式的独特性质(例如,大小、pam等),因此直系同源物选择在分配提供最大治疗益处的核酸酶方面是重要的。有许多因素影响基因编辑作为一种特定疾病的治疗方法的适用性。在以核酸酶为基础的基因疗法的情况下,治疗性编辑的主要方法是基因破坏和基因校正。在前一种情况下,基因破坏通常伴随着激活靶细胞内源性非同源末端连接dna修复机制的事件(例如核酸酶诱导的靶向双链断裂)而发生,产生的插入缺失常常导致旨在使患者受益的功能缺失突变。后者,基因校正利用核酸酶活性在模板dna(无论是内源性还是外源性,单链还是双链)的帮助下诱导选择性dna修复途径(例如同源定向修复,或hdr)。模板dna可以是引起疾病的突变的内源性校正,或者是将治疗性转基因插入替代基因座(通常是安全港基因座,例如aavs1)。设计外源供体模板核酸的方法例如在pct公开号wo2016094874a1中描述,其全部内容通过引用明确结合在此。使用这些编辑模式中的任何一种的治疗方法的一个必要条件是对某种疾病的基因调节子的理解;这些疾病不一定是单基因的,但是深入了解突变如何影响疾病的进展或结果对于提供对基因疗法的潜在功效的指导是很重要的。在不希望受到限制的情况下,本文所述的crispr系统可用于治疗下列疾病,其中除了相关参考之外,还鉴定了特定的基因靶,以帮助v-i型crispr系统适应特定的疾病领域;囊性纤维化(通过靶向cftr)(wo2015157070a2),进行性假肥大性肌营养不良和贝克肌营养不良(通过靶向肌营养不良蛋白(dmd))(wo2016161380a1),α-1-抗胰蛋白酶缺乏(通过靶向α-1-抗胰蛋白酶(a1at))(wo2017165862a1),溶酶体贮积病,例如庞贝病,又称为糖原贮积病ii型(通过靶向酸性α-葡萄糖苷酶(gaa)),强直性肌营养不良(通过靶向dmpk),亨廷顿病(通过靶向htt),脆性x(靶向fmr1),弗里德赖希共济失调(通过靶向共济蛋白),肌萎缩侧索硬化(als)和额颞叶痴呆(ftd)(通过靶向c9orf72),遗传性慢性肾脏病(通过靶向apol1),心血管疾病和高脂血症(通过靶向pcsk9、apoc3、angptl3、lpa)(nature[自然]555,s23-s25(2018)),以及先天性失明例如莱伯氏先天性黑蒙10型(lca10)(通过靶向cep290)(maeder等人,natmed.[自然医药]2019年2月;25(2):229-233)。采用体内基因编辑方法,大多数上述疾病得到最好治疗,其中涉及疾病的细胞类型和组织需要以足够的剂量和效率原位编辑以产生治疗效益。在下面的“crispr系统的递送”部分中描述了体内递送的一些挑战,尽管一般而言,v-i型crispr效应子的较小基因大小使得能够实现更通用地包装进入具有有效载荷限制的病毒载体,例如腺相关病毒。离体编辑(即从患者体内取出细胞,然后在移植回患者体内之前进行编辑)为基因编辑技术提供了主要的治疗机会。在体外操纵细胞的能力具有多种优势,所述多种优势范围从能够使用技术(例如在体内环境中不适用的电穿孔和核转染)将蛋白质、dna和rna高效地输送到细胞中,到能够评估毒性(例如来自脱靶效应),然后进一步选择和扩增成功编辑的细胞,以产生提供治疗优势的群体。这些优点被相对较少的细胞类型和群体所抵消,这些细胞类型和群体可以成功地被采集,加工,然后返回体内,同时保留功能。在不希望受到限制的情况下,仍然存在对使用本文所述系统进行离体基因组编辑顺从的严重疾病。例如,如wo2015148863a2中所引用的镰状细胞病(scd)和如wo2015148860a1中所引用的β地中海贫血,两者都是疾病的实例,其中对病理生理学的理解使得造血干细胞中的多种不同编辑模式能够用于疾病治疗。β地中海贫血和scd都可以通过破坏bcl11a红系增强子以提高胎儿血红蛋白水平来治疗(如psatha等人molthermethodsclindev[分子疗法与临床研发].2018年9月21日使用锌指核酸酶所示)。此外,基因校正方法可用于逆转scd和β地中海贫血的有害突变。在另一个情况中,从安全港基因座表达的β珠蛋白的添加为离体基因编辑提供了另一种可替代的治疗策略。作为造血干细胞离体编辑的推论,免疫细胞也可以被编辑。在癌症免疫治疗中,一种治疗模式是修饰免疫细胞例如t细胞以识别和对抗癌症,如wo2015161276a2中所引用的。为了提高功效和可用性,同时降低成本,创造“现成的”同种异体t细胞疗法是有吸引力的,并且基因编辑有潜力修饰表面抗原以最小化任何免疫学副作用(jung等人,molcell.[分子细胞]2018年8月31日)。在另一个实施例中,本发明用于靶向具有其生命周期中间阶段的双链dna的病毒或其他病原体。具体地说,针对最初感染后会留下长期潜伏感染的病毒将具有重要的治疗价值。在以下实例中,v-i型crispr系统可用于直接靶向病毒基因组(例如hsv-1、hsv-2或hiv),或用于编辑宿主细胞以减少或消除能够实现感染的受体,使宿主细胞不被病毒(hiv)透过,如wo2015153789a1、wo2015153791a1和wo2017075475a1中对hsv-1和hsv-2的提及,以及wo2015148670a1和wo2016183236a1中对hiv的提及。在另一方面,本文所述的crispr系统可经工程改造以实现利用酶学上失活的cas12i作为底盘的另外功能,在所述底盘之上可附着蛋白质结构域以赋予例如转录激活、抑制、碱基编辑和甲基化/去甲基化的活性。因此,本公开提供了用于治疗或预防本文公开的任何疾病的crispr-cas系统和细胞。crispr系统的递送本文描述的crispr系统、或其组分、其核酸分子、或编码或提供其组分的核酸分子可通过各种递送系统(例如载体(例如质粒)、病毒递送载体(例如腺相关病毒(aav)、慢病毒、腺病毒和其他病毒载体)或方法(例如由v-i型效应子及其一种或多种关联rna指导物组成的核糖核蛋白复合物的核转染或电穿孔)递送。蛋白质和一种或多种rna指导物可以包装到一种或多种载体,例如质粒或病毒载体中。对于细菌应用,编码本文所述crispr系统的任一组分的核酸可使用噬菌体递送至细菌。示例性噬菌体包括但不限于t4噬菌体、μ噬菌体、λ噬菌体、t5噬菌体、t7噬菌体、t3噬菌体、φ29、m13、ms2、qβ、和φx174。在一些实施例中,载体(例如质粒或病毒载体)通过例如肌肉内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用被递送至目的组织。这种递送可以经由单剂量或多剂量。本领域技术人员应理解的是,在此有待递送的实际剂量可以在很大程度上取决于多种因素而变化,例如载体选择、靶细胞、生物体、组织、有待治疗的受试者的一般状况、所寻求的转化/修饰的程度、施用途径、给药方式、所寻求的转化/修饰的类型等。在某些实施例中,递送是经由腺相关病毒(aav),例如aav2、aav8或aav9,其可以以包含至少1×105个腺病毒或腺相关病毒颗粒(也称为颗粒单位,pu)的单剂量施用。在一些实施例中,剂量为腺相关病毒的至少约1×106颗粒、至少约1×107个颗粒、至少约1×108个颗粒或至少约1×109个颗粒。例如在wo2016205764和美国专利号8,454,972(两者的全部内容通过引用结合在此)中描述了递送方法和剂量。由于重组aav的有限基因组有效载荷,本文所述的v-i型crisp-cas效应子蛋白的较小尺寸使得在具有有效和细胞类型特异性表达所需的适当控制序列(例如启动子)的效应子和rna指导物的包装方面具有更大的通用性。在一些实施例中,递送是经由重组腺相关病毒(raav)载体进行的。例如,在一些实施例中,经修饰的aav载体可用于递送。经修饰的aav载体可以基于以下中的一种或多种:几种衣壳类型,包括aav1、av2、aav5、aav6、aav8、aav8.2、aav9、aavrhlo、经修饰的aav载体(例如,经修饰的aav2、经修饰的aav3、经修饰的aav6)和假型aav(例如,aav2/8、aav2/5和aav2/6)。可用于生产raav颗粒的示例性aav载体和技术是本领域已知的(参见例如aponte-ubillus等人(2018)appl.microbiol.biotechnol[应用微生物学生物技术].102(3):1045-54;zhong等人(2012)j.genet.syndr.genether[基因综合症与基因疗法].s1:008;west等人(1987)virology[病毒学]160:38-47(1987);tratschin等人(1985)mol.cell.biol.[分子与细胞生物学]5:3251-60);美国专利号4,797,368和5,173,414;以及国际公开号wo2015/054653和wo93/24641,其中每一个通过引用并入)。在一些实施例中,经由质粒递送。剂量可以是足够数量的质粒以引起应答。在一些情况下,质粒组合物中质粒dna的合适量可为约0.1至约2mg。质粒通常包括(i)启动子;(ii)编码靶向核酸的crispr酶的序列,其可操作地连接到启动子;(iii)可选择标记物;(iv)复制起点;和(v)转录终止子,所述转录终止子位于(ii)下游并可操作地连接至(ii)。质粒还可以编码crispr-cas系统的rna组分,但是这些组分中的一个或多个还可以被编码在不同的载体上。给药频率在医学或兽医学从业者(例如医师、兽医师)或本领域技术人员的范围之内。在另一个实施例中,经由脂质体或脂质转染配制品等递送,并且可以通过本领域技术人员已知的方法制备。这样的方法例如描述于wo2016205764和美国专利号5,593,972;5,589,466;和5,580,859;其每一个的全部内容通过引用结合在此。在一些实施例中,经由纳米颗粒或外泌体递送。例如,外泌体已被证明在rna的递送方面特别有用。将新crispr系统的一种或多种组分引入细胞的进一步方法是通过使用细胞穿透肽(cpp)。在一些实施例中,细胞穿透肽与crispr酶连接。在一些实施例中,crispr酶和/或rna指导物偶联到一个或多个cpp以在细胞(例如植物原生质体)内有效地运输它们。在一些实施例中,crispr酶和/或一种或多种rna指导物由一个或多个环状或非环状dna分子编码,所述环状或非环状dna分子与用于细胞递送的一个或多个cpp偶联。cpp是来源于蛋白质或嵌合序列的少于35个氨基酸的短肽,所述短肽能够以受体无关的方式将生物分子跨细胞膜转运。cpp可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有富脯氨酸和抗微生物序列的肽、以及嵌合肽或二分肽。cpp的实例包括例如tat(其是l型hiv病毒复制所需的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞生长因子(fgf)信号肽序列、整合素β3信号肽序列、多精氨酸肽args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽。cpp和使用它们的方法描述于例如等人,“predictionofcell-penetratingpeptides[细胞穿透肽的预测],”methodsmol.biol.[分子生物学方法],2015;1324:39-58;ramakrishna等人,“genedisruptionbycell-penetratingpeptide-mediateddeliveryofcas9proteinandguiderna[通过穿透细胞的肽介导的cas9蛋白和指导rna递送的基因破坏],”genomeres.[基因组研究],2014年6月;24(6):1020-7;和wo2016205764a1;其每一个的全部内容通过引用结合在此。通过电穿孔或核转染将v-i型crispr系统作为核糖核蛋白复合物递送(其中纯化的cas12i蛋白与rna指导物预孵育并电穿孔(或核转染)进入目的细胞)是将crispr系统有效地引入细胞进行基因编辑的另一种方法。这对于离体基因组编辑和细胞疗法的发展特别有用,并且这类方法描述于roth等人“reprogramminghumantcellfunctionandspecificitywithnon-viralgenometargeting[非病毒基因组靶向情况下的重编程人t细胞功能和特异性],”nature[自然],2018年7月;559(7714):405-409。还描述了用于本文所述的crispr系统的各种递送方法,例如,在us8795965、ep3009511、wo2016205764和wo2017070605中;其每一个的全部内容通过引用结合在此。试剂盒本公开还包括用于利用本文描述的crispr系统来执行本公开的各种方法的试剂盒。本公开的一个示例性试剂盒包括(a)编码crispr相关蛋白和关联crrna的一种或多种核酸,和/或(b)crispr相关蛋白和关联crrna的核糖核蛋白复合物。在一些实施例中,试剂盒包含cas12i蛋白和cas12i指导rna。如上所述,蛋白质和指导rna的复合物具有编辑活性,例如ssb形成、dsb形成、crispr干扰、核碱基修饰、dna甲基化或去甲基化、染色质修饰等。在某些实施例中,crispr相关蛋白是变体,例如具有降低的核酸内切酶活性的变体。本公开的试剂盒还任选地包括另外的试剂,所述另外的试剂包括反应缓冲液、洗涤缓冲液、一种或多种对照材料(例如,底物或编码crispr系统组分的核酸)等中的一种或多种。本公开的试剂盒还任选地包括使用试剂盒中提供的材料执行本公开的方法的说明书。所述说明书以物理形式提供,例如,作为与所述试剂盒的另一物品物理包装的打印文档,和/或以数字形式提供,例如,可从网站下载或提供在计算机可读介质上的数字发布文档。实例本发明在以下实例中进一步说明,这些实例不限制权利要求中所描述的本发明的范围。实例1:clust.029130(v-i型)crispr-cas系统最少组分的鉴定(图1-3)该蛋白家族描述了与从淡水环境收集的未培养宏基因组序列中发现的crispr系统相关的大型单一效应子(表3)。clust.029130(v-i型)效应子,命名为cas12i,包括在表3和4中详述的示例性蛋白质。这些系统的示例性直接重复序列显示在表5中。基因组和宏基因组序列从ncbi(benson等人(2013)genbank.nucleicacidsres.[核酸研究]41,d36-42;pruitt等人(2012)ncbireferencesequences(refseq):currentstatus,newfeaturesandgenomeannotationpolicy.[ncbi参考序列(refseq):当前状态,新特征和基因组注释策略]nucleicacidsres.[核酸研究]40,d130-135)、ncbi全基因组测序(wgs)和doejgi整合微生物基因组(markowitz等人(2012)img:theintegratedmicrobialgenomesdatabaseandcomparativeanalysissystem.[img:整合微生物基因组数据库和比较分析系统]nucleicacidsres.[核酸研究]40,d115-122)下载并编译以构建293,985个推定crispr-cas系统的数据库,在该数据库中我们鉴定了新的核酸酶系统。这种流水线工程改造方法在中间阶段执行最小过滤,以扩展新crispr效应子发现的搜索空间并减少偏差。图1a-1b中描述的分类树是通过比较从易比对的cas12蛋白组的多个比对中提取的序列谱构建的。使用hhsearch进行了谱-谱比较(等人(2005)proteinhomologydetectionbyhmm-hmmcomparison.[通过hmm-hmm比较进行蛋白质同源性检测]bioinforma[生物信息学].英国牛津(oxf.engl.)21,951-960);两个谱之间的得分由最小的自我得分归一化,并转换成自然对数尺度上的距离矩阵。利用距离矩阵重构upgma树状图。深度为2个距离单位的树(对应于相对于自评分的e-2d=0.02的成对hhsearch评分)通常可靠地恢复谱相似性,并可用作亚型分类的指南(shmakov等人,2017)。如图2a和2b所示的cas12i的结构域架构表明所述效应子含有ruvc核酸酶结构域的活性催化残基。此外,针对v-i型基因座的最普遍直接重复的预测二级结构(如图3所示)表明在许多示例性v-i型crispr-cas系统的crrna中保守的茎环结构。表3.代表性clust.029130(v-i型)效应子蛋白表4.代表性clust.029130(v-i型)效应子蛋白的氨基酸序列表5a.代表性clust.029130(v-i型)效应子蛋白和直接重复表5b.示例clust.029130(v-i型)前crrna序列实例2:工程改造的clust.029130(v-i型)crispr-cas系统的体内细菌验证(图4a-10b)在鉴定了v-i型crispr-cas系统的最少组分之后,我们选择了两个系统进行功能验证,一个包含命名为cas12i1(seqidno:3)的效应子,而另一个包含命名为cas12i2(seqidno:5)的效应子。方法基因合成及寡核苷酸文库克隆将crispr效应子、辅助蛋白的大肠杆菌密码子优化的蛋白序列克隆到pet-28a(+)(emd-密理博公司(emd-millipore))中,以构建效应子质粒。将cas基因侧翼的非编码序列(包括150nt的末端cds编码序列)或crispr阵列合成(金斯瑞公司(genscript))到pacyc184(新英格兰生物实验室公司(newenglandbiolabs))中以创建非编码质粒(图4a)。效应子突变体(例如,d513a或a513d)质粒使用序列表中指示的引物通过定点诱变进行克隆:首先将序列改变引入pcr片段,然后按照制造商的说明使用neb构建高保真dna组装母混合物(nebuilderhifidnaassemblymastermix)或neb吉布森组装母混合物(nebgibsonassemblymastermix)(新英格兰实验室公司)将其重新组装到质粒中。对于池化的间隔子文库,我们首先计算设计了寡核苷酸文库合成(ols)池(安捷伦公司(agilent))来表达“重复-间隔子-重复”序列的最小crispr阵列。“重复”元件来源于crispr阵列中发现的与效应子相关联的共有直接重复序列,并且“间隔子”代表约8900个靶向pacyc184质粒和大肠杆菌必需基因的序列,或阴性对照非靶向序列。间隔子长度由内源crispr阵列中发现的间隔子长度的模式决定。最小crispr阵列的侧翼是独特的pcr引物位点,所述pcr引物位点使得能够从更大的寡聚体合成池中扩增出特定文库。我们接下来将最小crispr阵列文库克隆到效应子质粒中,以创建效应子质粒文库。我们利用pcr(neb下一代高保真2xpcr母混合物(nebnexthigh-fidelity2xpcrmastermix))将侧翼限制性位点、独特的分子标识符和用于阵列表达的j23119启动子添加到寡核苷酸文库上,然后利用neb金门组装母混合物(nebgoldengateassemblymastermix)(新英格兰实验室公司)组装效应子及其靶向阵列的完整质粒文库。这表示筛选的“输入文库”。体内大肠杆菌筛选除非另有说明,我们使用电感受态e.cloniexpressbl21(de3)大肠杆菌细胞(lucigen公司)进行了体内筛选。感受态细胞与效应子质粒和/或非编码共转化(图4b)。使用带有1.0mm杯的genepulser(伯乐公司(bio-rad)),根据制造商的协议,用“输入文库”电穿孔细胞。将细胞接种到同时含有氯霉素(飞世尔公司(fisher))和卡那霉素(阿尔法奥森公司(alfaaesar))的生物测定板上,并生长11小时,之后我们估计大约的菌落计数以确保足够的文库表示,并收获细胞。使用自旋微型制备试剂盒(spinminiprepkit)(凯杰公司(qiagen))从收获的细胞中提取质粒dna片段以创建“输出文库”,同时通过在direct(左莫研究公司)中裂解收获的细胞来获得总rna=17nt,随后使用directzolrna微型制备试剂盒(左莫研究公司)提取。通过对输入文库和输出文库进行pcr(使用位于效应子质粒文库crispr阵列盒侧翼的定制引物,并包含与依诺米那测序化学兼容的条形码和柄部)来制备用于dna耗减信号的下一代测序文库。然后将该文库归一化,池化,并加载到nextseq550(依诺米那公司(illumina))上以评估效应子的活性。细菌筛选测序分析使用illuminabcl2fastq对筛选输入和输出文库的下一代测序数据进行解复用。每个样品的所得到的fastq文件中的读段包含用于筛选质粒文库的crispr阵列元件。利用crispr阵列的直接重复序列确定阵列定向,并将间隔子序列映射到源(pacyc184或大肠杆菌必需基因)或阴性对照序列(gfp)以确定相应的靶。对于每个样品,对给定质粒文库中每个独特阵列元件(ra)的读段的总数目进行计数并如下归一化:(ra+1)/所有文库阵列元件的总读段。耗减得分是通过将给定阵列元件的归一化输出读段除以归一化输入读段来计算。为了确定导致酶活性和细菌细胞死亡的特定参数,我们使用下一代测序(ngs)来定量和比较输入和输出质粒文库的pcr产物中单个crispr阵列(即重复-间隔子-重复)的表示。我们将每个crispr阵列的耗减倍数定义为归一化输入读段计数除以归一化输出读段计数(加1以避免被零除)。如果阵列的耗减倍数大于3,则其被认为是“强耗减”。在计算跨生物学重复的阵列耗减倍数时,我们取给定crispr阵列跨所有实验的最大耗减倍数值(即强耗减阵列必须在所有生物学重复中强耗减)。我们为每个间隔子靶生成了矩阵,所述矩阵包括阵列耗减倍数和以下特征:靶链、转录物靶向、ori靶向、靶序列基序、侧翼序列基序和靶二级结构。我们研究了该矩阵中不同特征解释v-i型系统靶耗减的程度,从而得到了单一筛选内功能参数的广泛调查。结果图5a-d描绘了靶向pacyc184和大肠杆菌e.必需基因的cas12i1和cas12i2的强耗减靶的位置。值得注意的是,强耗减靶的位置似乎分散在整个潜在靶空间。我们发现v-i型效应子cas12i1(1094aa)和cas12i2(1054aa)的dsdna干扰活性被ruvci基序中保守的天冬氨酸的突变所消除(图6a和6b)。cas12i的ruvc依赖性dsdna干扰活性显示不需要crispr阵列或cas基因侧翼的非编码序列(图7a和7b),表明最小v-i干扰模块仅包括效应子和crrna(图8a和8b)。对来自体内筛选的强耗减阵列对应的靶侧翼序列的分析表明,cas12i对dsdna的干扰是pam依赖性的。具体地说,我们发现cas12i1和cas12i2都表现出5’ttnpam偏好(图9a-b和10a-b)。这些结果表明,紧凑型cas12i效应子具有自主的pam依赖性dsdna干扰能力。实例3:工程改造的clust.029130(v-i型)crispr-cas系统的生化机制表征(图11a-13,15-17b)cas12i体内加工前crrna为了研究针对v-i型crispr-cas系统的crrna生物发生,我们纯化并测序了来自表达cas12i的大肠杆菌的小rna和来自细菌筛选的最小crispr阵列文库。图11a和11b显示rna测序读段的叠合,分别显示cas12i1和cas12i2成熟crrna的强共有形式,以及间隔子长度的分布。观察到的最常见的间隔子长度为21,长度变化在16nt和22nt之间。对于包含cas12i1的v-i型crispr-cas系统,成熟的crrna可以采取5’-auuuuugugcccaucguuggcac[间隔子]-3’(seqidno:100)的形式。对于包含cas12i2的v-i型crispr-cas系统,成熟的crrna可以采取5’-agaaauccgucuuucauugacgg[间隔子]-3’(seqidno:101)的形式。通过使用带有tri试剂的direct-zolrnaminiprepplus(左莫研究公司(zymoresearch))从收获的细菌中提取总rna,对来自体内细菌筛选的小rna进行测序。使用ribo-zerorrna去除细菌试剂盒(ribo-zerorrnaremovalkitforbacteria)去除核糖体rna,然后使用rna清洁和浓缩-5试剂盒(rnacleanandconcentrator-5kit)进行清除。将所得的核糖体rna耗减的总rna在没有atp的情况下用t4pnk处理3小时,以富集3’-p末端,之后添加atp,并且将反应再孵育1小时以富集5’-oh末端。然后将样品进行柱纯化,与rna5’多磷酸酶(鲁西基公司(lucigen))孵育,并在准备使用依诺米那(新英格兰实验室公司)的neb下一代多重小rna文库制备装置(nebnextmultiplexsmallrnalibraryprepset)进行下一代测序之前再次进行柱纯化。在nextseq550(依诺米那公司(illumina))上对文库进行配对末端测序,并使用geneious11.0.2(拜沃迈特公司(biomatters))分析得到的配对末端比对。cas12i效应子纯化将效应子载体转化到大肠杆菌nico21(de3)(新英格兰生物实验室公司),并在t7启动子下表达。转化的细胞最初在3mlluria液体培养基(西格玛公司(sigma))+50ug/ml卡那霉素中生长过夜,随后接种1lterrific液体培养基(西格玛公司)+50ug/ml卡那霉素和1ml过夜培养物。细胞在37℃生长至od600为1-1.5,然后用0.2mmiptg诱导蛋白表达。然后培养物在20℃下再生长14-18小时。收集培养物并通过离心沉淀,然后再悬浮于80ml裂解缓冲液(50mmhepesph7.6,0.5mnacl,10mm咪唑,14mm2-巯基乙醇和5%甘油)+蛋白酶抑制剂(西格玛公司)中。将细胞通过细胞破碎器(恒定系统有限公司(constantsystemlimited))裂解,然后以28,000xg在4℃离心两次20分钟以澄清裂解物。将裂解物装载到5mlhistrapff柱(通用生命科学基团(gelifesciences))上,然后通过fplc(aktapure,通用生命科学基团)经10mm至250mm的咪唑梯度纯化。在低盐缓冲液(50mmhepes-kohph7.8,500mmkcl,10mmmgcl2,14mm2-巯基乙醇和5%甘油)中纯化cas12i1。纯化后,在sds-page凝胶上运行级分,并使用10kdamiconultra-15离心装置池化和浓缩含有适当大小蛋白质的级分。蛋白质浓度用qubit位蛋白测定法(赛默飞世尔公司(thermofisher))测定。cas12i体外加工前crrna为了确定cas12i1是否具有自主crrna生物发生的能力,我们将从大肠杆菌纯化的效应子蛋白与从最小crispr阵列表达的前crrna(重复-间隔子-重复-间隔子-重复)进行了孵育。我们观察到纯化的cas12i1将前crrna加工成与从体内小rnaseq中鉴定的成熟crrna匹配的片段,表明cas12i1能够自主加工前crrna(图12)。cas12i1的前crrna加工测定在37℃下在切割缓冲液中在最终前cr-rna浓度为100nm下进行30分钟。在优化的切割缓冲液(50mmtris-hclph8.0,50mmnacl,1mmdtt,10mmmgcl2,50ug/mlbsa)中进行对于cas12i的反应。添加1ug/ul蛋白酶k(安必恩公司(ambion))使反应猝灭,并在37℃孵育15分钟。在与等体积的2xtbe-尿素样品缓冲液(英杰公司(invitrogen))混合并在65℃变性3分钟之前,向反应中添加50mmedta。样品在15%tbe-尿素凝胶(英杰公司)上进行分析。凝胶用sybr金核酸染色(英杰公司)进行染色5分钟,并在geldocez(伯乐公司)上成像。在sybr染色之前,首先在odysseyclx扫描仪(立卡生物科学公司(li-corbiosciences))上成像包含经标记的前crrna的凝胶。利用强耗减的阵列操纵cas12i1dna为了探讨cas12i1干扰活性的机制,我们从体内阴性选择筛选中选出强耗减的crispr阵列序列,并且以dr-间隔子-dr-间隔子-dr排列方式产生前crrna。前crrna被设计成使cas12i1靶向128nt的ssdna和dsdna底物,所述底物含有与前crrna第二间隔子互补的靶序列。我们观察到由效应子蛋白和前crrna组成的cas12i1二元复合物在62.5nm复合物浓度下将100nm的靶ssdna切割至饱和(图13)。在复合物浓度增加情况下,观察到切割的ssdna进一步降解为短片段或单核苷酸,提示通过二元复合物与ssdna靶的结合而激活的伴ssdna切割(图13)。为了探讨cas12i的dsdna干扰活性,我们将cas12i1二元复合物进行靶向以靶向在非间隔子互补链上含有5’末端标记的dsdna底物。为了全面评价dsdna的切割和切口活性,将所得dsdna的切割反应分成三个级分进行不同的分析。对前两个级分进行猝灭,并分别用变性或非变性凝胶电泳条件进行分析。第三级分用0.1u的s1核酸酶处理以将任何dsdna缺口转化为双链断裂,猝灭,并通过非变性凝胶电泳进行分析。我们在变性条件下观察到剂量依赖性的切割,提示靶切口或dsdna切割(图15)。在没有s1核酸酶处理的非变性条件下,我们观察到初级产物的剂量依赖性增加,所述初级产物迁移的电泳迁移率略低于输入dsdna,提示dsdna产物有切口(图16)。当这些产物与s1核酸酶孵育时,向上移位的条带转换为更小的dsdna产物,指示s1介导的有切口的dsdna向双链断裂的转换(图16)。我们还在高浓度和孵育时间下观察到少量dsdna切割产物,表明cas12i1是dsdna核酸酶,其以实质上不同的效率切割靶dsdna的间隔子互补(“sc”)链和非间隔子互补(“nsc”)链(图17a)。伴随对dsdna底物的间隔子互补链进行5’标记的切口活性观察表明,cas12i1优先使与crrna-靶dna杂交体相对的dna链产生切口。为了验证cas12i1在dna链切割中的这种偏向性,我们产生了在间隔子互补链的5’末端或非间隔子互补链的5’末端被ir800染料标记的dsdna底物。在较低浓度的效应子复合物下,我们仅观察到dna双链体的nsc链的切割,而在较高浓度的效应复合物下,观察到nsc和sc链的切割(图17a-b)。将sybr染色标记所有核酸产物与使用ir800染料的链特异性标记相比较,揭示了链产物形成的速率相比于切割产物的总积累之间的差异。这些结果表明,一系列有序的事件导致dsdna干扰,由此cas12i1二元复合物首先使nsc链产生切口,然后以较低的效率切割sc链,导致dsdna切割。综上所述,这些发现表明cas12i是能够进行自主前crrna加工、ssdna靶向和伴切割以及dsdna切割的效应子。这一催化活性谱与cas12a和cas12b的催化活性谱相似,只是明显偏向于非间隔子互补链切割,导致偏好性dsdna缺口。crrna和底物rna制备从idt订购crrna和底物rna的单链dna寡核苷酸模板。使用nebnexthifi2x母混合物(新英格兰生物实验室公司),pcr扩增底物rna和前crrna模板以产生双链体外转录(ivt)模板dna。通过将t7引物与模板退火然后用dna聚合酶i,大(克列诺夫(klenow))片段(新英格兰生物实验室公司)延伸,生成成熟cr-rna的双链dna模板。退火是通过以下进行:在95℃下孵育5分钟,然后以-5℃/分钟的速度缓慢下降至4℃。通过用hiscribet7快速高产率rna试剂盒(hiscribet7quickhighyieldrnakit)(新英格兰生物实验室公司)将dsdna模板与t7rna聚合酶在37℃孵育3小时,进行体外转录。孵育后,将ivt样品用turbo(赛默飞科技公司(thermoscientific))处理,然后用rna清洁&浓缩试剂盒(rnaclean&concentratorkit)(左莫研究公司)纯化。用小牛肠碱性磷酸酶(赛默飞世尔公司)或rna5’-多聚磷酸酶(鲁西基公司)在37℃处理ivt产生的成熟cr-rna2小时,分别产生5’-羟基或5’-单磷酸,然后用rna清洁&浓缩试剂盒(左莫研究公司)清理。通过nanodrop2000(赛默飞世尔公司)测量浓度。用于生化表征cas12i的前crrna序列包括在表6中。用于制备crrna的寡核苷酸模板和引物包括在表9中。经ir-800标记的底物rna和dna的制备用小牛肠碱性磷酸酶(赛默飞世尔公司)在37℃下处理来自ivt的rna底物30分钟,以将5’-三磷酸转化为5’-末端羟基,并用rna清洁&浓缩试剂盒(左莫研究公司)纯化。通过5’末端标签标记试剂盒(5’endtaglabelingkit)(载体实验室公司(vectorlabs))在dna和rna底物的5’末端羟基上添加硫醇端基,然后用irdye800cw马来酰亚胺(立卡生物科学公司)标记底物。用dna清洁&浓缩试剂盒或rna清洁&浓缩试剂盒(左莫研究公司)纯化底物。通过标记非靶(非间隔子互补)ssdna链,与引物退火,然后用dna聚合酶i,大(克列诺夫)片段(新英格兰生物实验室公司)在25℃延伸15分钟,生成经标记的dsdna底物。用dna清洁&浓缩试剂盒(左莫研究公司)纯化这些底物。通过nanodrop2000(赛默飞世尔公司)测量浓度。用于cas12i的生化表征的rna和dna底物序列包括在表7和8中。用cas12i进行靶切割测定ssdna:在优化的切割缓冲液(50mmtris-hclph8.0,50mmnacl,1mmdtt,10mmmgcl2,50ug/mlbsa)中用ssdna进行cas12i靶切割测定。通过在37℃下将摩尔比为1:2的cas12i:前crrna孵育10分钟,然后转移到冰中来形成二元复合物。所有进一步的复合物稀释均在冰上进行,保持蛋白质:rna比例固定。将复合物添加到100nmir800标记的底物中,并且在37℃孵育30分钟。用rna酶混合物和蛋白酶k处理反应,并如上所述进行分析。设置dsdna:dsdna靶切割测定在优化的切割缓冲液中在37℃持续1小时。如上所述形成二元复合物,并将其添加到100nmdsdna底物中。将反应首先用rna酶混合物处理,在37℃孵育15分钟。然后,将它们用蛋白酶k处理,在37℃下孵育15分钟。为了检测dsdna切割产物,用如前所述的15%tbe-尿素凝胶分析反应。为了检测cas12i的切口活性,将反应在蛋白酶k处理后进行spri纯化,并将其分成三个级分。如上所述,在15%tbe-尿素凝胶上分析一个级分。另一级分与5x高密度tbe样品缓冲液混合,在非变性的4%-20%tbe凝胶上分析,以检测有切口的dsdna产物。最后级分与0.01u/uls1核酸酶(赛默飞科技公司)在50℃孵育1小时,将切口转化为双链断裂,然后与5x高密度tbe样品缓冲液混合,并在非变性的4%-20%tbe凝胶上进行分析。所有凝胶在odysseyclx扫描仪上成像,随后进行5分钟sybr染色并在geldoc成像仪上成像。为了鉴定有切口的链,通过标记靶链(与crrna互补)或非靶链(非间隔子互补,与crrna相同的序列)制备dsdna。切割反应按所述进行。然后将经标记的链与相应的引物退火,并用dna聚合酶i,大(克列诺夫)片段(新英格兰生物实验室公司)在25℃下延伸15分钟。然后用spri纯化法纯化dsdna底物。表6.用于体外clust.029130(v-i型)的前crrna表7.用于clust.029130(v-i型)体外生物化学的底物表8.用于clust.029130(v-i型)体外生物化学的伴核酸表9:用于clust.029130(v-i型)体外生物化学的crrna的idt模板寡核苷酸和引物实例4:用于快速评估crispr-cas系统的体外池化筛选(图20-25)如本文所述,体外池化筛选作为一种高效并且高通量的方法以进行生化评估。作为概述,我们从crispr-cas系统的体外重建开始(图20)。在一个实施例中,使用体外转录和翻译试剂(所述体外转录和翻译试剂使用含有驱动一种或多种效应子蛋白表达的t7-rna聚合酶启动子的dsdna模板)产生效应子蛋白并产生用于反应的蛋白。在另一个实施例中,最小crispr阵列和tracrrna包括使用pcr附加到顶链或底链转录方向上的t7启动子序列,以便询查所有可能的rna定向。如图20所示,apo形式仅包含效应子,二元形式包含效应子蛋白和t7转录物最小crispr阵列,并且二元+tracrrna形式将任何t7转录的tracrrna元件添加到复合物中进行孵育。在一个实施例中,crispr-cas系统的内切核苷酸活性是测定的主要生化活性。图21示出了ssdna和dsdna底物的一种形式,其中靶序列两侧翼是6个简并碱基,以产生可能的pam序列池,所述pam序列可以门控ssdna和dsdna切割活性。除pam序列外,底物包括5’和3’基准标记,其设计用于促进下游下一代测序文库制备方案,所述方案选择性富集底物ssdna或dsdna,以及提供促进切割产物作图的独特序列。在一个实施例中,dsdna底物通过使用短dna引物和dna聚合酶i在5’-至-3’方向上的第二链合成而产生。类似的反应可以使用最小crispr阵列中不同靶的池以及不同ssdna和dsdna序列的文库进行。crispr-cas切割反应是通过将预形成的apo/二元/二元-tracrrna复合物与靶向或非靶向底物混合并孵育来进行。虽然其他方法例如凝胶电泳是可能的,但对于切割的最大灵敏度和碱基对分辨率捕获的有用实施例是在与效应子复合物孵育后对ssdna或dsdna底物进行下一代测序。图22是描述用于富集ssdna底物的文库制备的示意图。通过将引物退火到基准标记内定义明确的序列,第二链合成和末端修复发生,以产生代表剪切和未剪切的ssdna的dsdna片段。然后,新形成的dsdna分子是用于衔接子连接的底物,之后使用与连接衔接子互补的一个引物(i5/p5)和与原始ssdna底物的3’基准互补的另一个引物(i7/p7)进行选择性pcr。这最终产生了测序文库,其中既包含全长的,也包含切割和降解的ssdna产物,如图24a所示。dsdna读出ngs文库制备不需要以引物退火和第二链合成开始,因此可以直接进行末端修复和随后的衔接子连接。图23描述了文库制备的一般概述,所述文库制备与ssdna制备类似,既标记切割/降解的片段,也标记未切割的片段。值得注意的是,dsdna切割片段的任一末端都可以基于pcr引物的选择而富集。在一个实施例中,如图24a所示,用于读出的dsdna操纵下一代测序文库可以用以下制备:第一引物(所述第一引物与连接到全长的或切割的底物的5’末端的柄部互补(并含有i5/p5序列))和第二引物(所述第二引物与底物的3’基准序列互补(并含有i7/p7序列))。在一个实施例中,如图24b所示,用于读出的dna操纵下一代测序文库可以用以下制备:第一引物(所述第一引物与底物的5’基准序列互补(并含有i5/p5序列))和第二引物(所述第二引物与连接到全长的或切割的底物的3’末端的柄部互补(并含有i7/p7序列))。靶长度和底物长度可以从rna/ssdna/dsdna操纵实验(分别如图25a-b所示)中得到的ngs读段中提取。提取的靶长度和底物长度可用于研究rna/ssdna/dsdna切口或切割的存在。实例5:v-i1型crispr-cas系统的dsdna切割活性的表征(图26-32)在计算地鉴定了v-i型crispr-cas系统的最少组分后,我们研究了含有效应子cas12i1的v-i1型系统的双链dna(dsdna)切割活性。ivtt表达的cas12i1与顶链表达的靶向dsdna的crrna复合导致在apo(仅有效应子)对照中不存在的截短的靶长度的群体,如图26a-b所示。使用5’连接衔接子并且选择3’基准(如图24a所示)制备的文库显示在靶序列内的+24位置处在apo对照中不存在的切割产物。该结果表明非靶dsdna链或dsdna的两条链相对于pam在+24和+25核苷酸之间的切口。靶长度分析显示在+24处的峰值,表明靶在核苷酸+24和+25之间的截短(图27a)。该截短的靶序列的群体与底物长度一致,表明靶序列的核苷酸+24和+25之间的非靶dsdna链的切割(图28a)。使用3’连接衔接子并且选择5’基准(如图24b所示)制备的文库显示在靶序列内的-9位置处(在28nt靶情况下+19)在apo对照中不存在的切割产物。该结果表明靶dsdna链或dsdna的两条链相对于pam在+19和+20核苷酸之间的切口。靶长度分析显示距离pam的-9核苷酸处的峰(28nt全长靶),表明靶在核苷酸+19和+20之间的截短(图27b)。该截短的靶序列的群体与底物长度一致,表明在靶序列的核苷酸+19和+20之间的靶dsdna链的切割(图28b)。对显示在相对于pam的+24/+25核苷酸之间的非靶链切割的底物的序列基序分析揭示了cas12i1的靶序列左侧的5’ttnpam基序(图29)。cas12i1靶右侧未观察到pam序列要求。总之,cas12i1的体外筛选表明相对于ttnpam的非靶链的+24/+25核苷酸之间的主要切口,其中这些产物的显著部分通过靶链的相对于pam的+19/+20核苷酸之间的切割而转化为具有5nt3’突出端的双链断裂(图30)。与顶链表达的非靶crrna的复合的cas12i1的靶向导致不操纵相关dsdna,表明cas12i1的切割特异性是由crrna间隔子赋予的(图31a-b)。在底链表达的靶向dsdna底物的crrna存在时,cas12i1不显示切割活性,这表明形成活性cas12i1复合物需要顶链定向的crrna(图32a-b)。实例6:v-i2型crispr-cas系统的dsdna切割活性的表征(图33-39)在计算地鉴定了v-i型crispr-cas系统的最少组分后,我们研究了含有效应子cas12i2的v-i2型系统的双链dna(dsdna)切割活性。ivtt表达的cas12i2与顶链表达的靶向dsdna的crrna复合导致在apo(仅有效应子)对照中不存在的截短的靶长度的群体,如图33a-b所示。使用5’连接衔接子并且选择3’基准(如图24a所示)制备的文库显示在靶序列内的+24位置处在apo对照中不存在的切割产物。该结果表明非靶dsdna链或dsdna的两条链相对于pam在+24和+25核苷酸之间的切口。靶长度分析显示在+24处的峰值,表明靶在核苷酸+24和+25之间的截短(图34a)。该截短的靶序列的群体与底物长度一致,表明靶序列的核苷酸+24和+25之间的非靶dsdna链的切割(图35a)。使用3’连接衔接子并且选择5’基准(如图33b所示)制备的文库显示在靶序列内的-7位置处(在31nt靶情况下+24)在apo对照中不存在的切割产物。该结果表明靶dsdna链或dsdna的两条链相对于pam在+24和+25核苷酸之间的切口。靶长度分析显示距离pam的-7核苷酸处的峰(28nt全长靶),表明靶在核苷酸+24和+25之间的截短(图34b)。该截短的靶序列的群体与底物长度一致,表明在靶序列的核苷酸+24和+25之间的靶dsdna链的切割(图35b)。对显示在相对于pam的+24/+25核苷酸之间的非靶链切割的底物的序列基序分析揭示了cas12i2的靶序列左侧的5’ttnpam基序(图36)。cas12i2靶右侧未观察到pam序列要求。总之,cas12i2的体外筛选表明相对于ttnpam的非靶链的+24/+25核苷酸之间的主要切口,其中这些产物的显著部分通过靶链的相对于pam的+24/+25核苷酸之间的切割而转化为具有平剪切的双链断裂(图37)。与顶链表达的非靶crrna的复合的cas12i2的靶向导致不操纵相关dsdna,表明cas12i2的切割特异性是由crrna间隔子赋予的(图38a-b)。在底链表达的靶向dsdna底物的crrna存在时,cas12i2不显示切割活性,这表明形成活性cas12i2复合物需要顶链定向的crrna(图39a-b)。实例7:clust.029130(v-i型)crisprcas系统可用于体外基因沉默开发了体外基因沉默测定(图18a和18b),以模拟体内基因沉默活性,用于快速验证新crispr-cas系统的活性。该测定可以以无偏的方式同时评价天然细胞环境外的不同活性机制和功能参数。首先,在重构的ivtt(体外转录和翻译)系统中补充大肠杆菌rna聚合酶核心酶,以允许基因表达(蛋白质合成)不仅从t7启动子而且从任何大肠杆菌启动子(只要相应的大肠杆菌存在σ因子)发生。其次,为了便于快速和高通量的实验,直接使用从pcr反应产生的线性dna模板。这些线性dna模板包括编码v-i型效应子、rna指导物和大肠杆菌σ因子28的模板。这些dna模板与重组ivtt试剂孵育导致v-i型效应子和rna指导物的共表达,并形成rnp(核糖核蛋白复合物)。也表达大肠杆菌σ因子28用于后续gfp和rfp表达,如下所述。第三,作为靶底物,在上述孵育反应中包含编码由σ因子28启动子表达的gfp的线性或质粒dna,使得新合成的rnp直接接近靶底物。作为内部对照,还包括编码从σ因子28启动子表达的rfp的非靶线性dna。在合成足够的σ因子28蛋白之前,单独的rna聚合酶核心酶不识别σ因子28启动子。gfp和rfp表达的这种延迟允许新合成的rnp干扰gfp靶底物,这可能导致gfp表达的减少和gfp荧光的耗减。另一方面,rfp的表达没有受到负面影响,这作为蛋白质合成和荧光测量的内部对照。本文描述的体外基因沉默测定的某些重要优点包括:(1)模块化-重构ivtt是由单独纯化的组分组成的合成系统,所述合成系统允许针对各种对照和活性定制设计测定。crispr-cas系统的每个组分都编码在单独的线性dna模板中,允许对不同效应子、效应子变体和rna指导物的组合进行快速测定;(2)复杂性-所述测定包含rna转录和蛋白质合成的所有必需组分,允许在单一的一锅反应中测试不同的干扰机制,如dna和rna切割,以及转录依赖性干扰。测定的动力学荧光读出比终点活性测定提供明显更多的数据点;(3)敏感性-所述测定将效应子蛋白和rna指导物合成与底物干扰偶联,允许新合成的rnp(效应子蛋白和rna指导物的核糖核蛋白复合物)在同一反应中立即与底物相互作用。没有单独的纯化步骤,因此潜在地允许少量的rnp足以产生信号。此外,由于gfp的转录和翻译偶联,每个dna模板可产生>100个gfp蛋白,因此gfp表达的干扰被放大。(4)效率-所述测定被设计成与高通量平台高度兼容。由于其模块性,测定的所有组分都可以通过常用液体处理仪器以96孔、384孔和1536孔格式添加,并且荧光可以通过常用平板荧光计测量。(5)相关性-所述测定测试了crispr-cas效应子蛋白在其天然细胞环境之外的体外工程改造的系统中在转录和翻译过程中干扰基因表达的能力。可能的是,通过这种基因沉默测定所测量的高活性crispr-cas效应子对于哺乳动物细胞中基因编辑也是高效的。该测定已被用于测量当靶向质粒dna中编码的gfp时,如这里所示的cas12i效应子复合物的基因沉默效应。设计了多种型v-irna指导物-一种带有与gfp序列的模板链互补的间隔子序列,另一种带有与gfp序列的编码链互补的间隔子序列。然后将cas12i1效应子蛋白的基因沉默程度与突变体cas12i1d647a、cas12i1e894a和cas12i1d948a的基因沉默程度进行比较。图19a描述了当与互补于模板链的rna指导物复合时,四种被测试的cas12i效应子中的每一个的耗减倍数。在这种情况下,优先被切口的非靶链是编码链。当cas12i1在400分钟后显示出大约2倍的gfp表达耗减时,三种突变形式中的每一种都显示出较小程度的耗减。图19b描述了当与互补于编码链的rna指导物复合时,四种被测试的cas12i1效应子中的每一个的耗减倍数。在这种情况下,优先被切口的非靶链是模板链。在这种构型中,rna聚合酶产生功能性rna转录物的能力似乎被cas12i1显著损害,其中在cas12i的情况下,耗减大于4倍。三种突变体的基因沉默能力明显减弱。综合起来,图19a和图19b所示的数据表明,当使用靶向编码链和模板链的rna指导物时,所述测定在检测cas12i1的基因沉默活性方面是有效的。当靶向编码链时明显高于靶向模板链时的耗减表明cas12i1通过优先使非靶链产生切口来干扰gfp表达。所有三种cas12i1突变体都用丙氨酸(a)取代假定的催化残基(天冬氨酸(d)和谷氨酸(e)。这些cas12i1突变体沉默活性减弱进一步支持dna切割,而不仅仅是结合,是cas12i1基因沉默机制的基础。实例8:clust.029130(v-i型)crispr-cas系统可与荧光报告子一起用于核酸种类的特异性检测cas12i蛋白的核酸酶活性(即,由与crrna间隔子互补的靶ssdna底物激活的非特异性伴dna酶活性)使得这些效应子有望用于核酸种类的检测。先前已经描述了其中一些方法(参见例如,east-seletsky等人“twodistinctrnaseactivitiesofcrispr-c2c2enableguide-rnaprocessingandrnadetection,[crispr-c2c2的两种截然不同的rna酶活性实现指导rna加工和rna检测]”nature.[自然]2016年10月13日;538(7624):270-273),gootenberg等人(2017),chen等人2018,和gootenberg等人(2018)“multiplexedandportablenucleicaciddetectionplatformwithcas13,cas12a,andcsm6[具有cas13、cas12a和csm6的多重复用便携式核酸检测平台]”science[科学]2018年2月15日:eaaq0179),描述了使用cas13a进行rna检测的一般原理(east-seletsky等人(2016)),并辅以扩增以增加检测灵敏度以及优化另外的cas13a酶(gootenberg等人(2017)),以及最近包括了另外的rna靶、直系同源和旁系同源酶以及csm6激活子以实现核酸的多重检测以及检测灵敏度的提高(gootenberg等人(2018))。cas12i添加到这些工具包中为核酸检测提供了正交活性的另外通道。cas12i1的体外生化活性表明,如果经染料标记的伴dna在低靶ssdna浓度下被有效切割并且背景核酸酶活性被非靶向底物限制,那么cas12i1可能在敏感核酸检测的应用中具有前景(图14)。使cas12i1适应于敏感核酸检测应用需要几个步骤,包括但不限于优化底物以敏感地读出伴活性和鉴定间隔子和靶底物之间的每碱基错配耐受性。用于核酸检测的最佳底物的鉴定可以通过对cas12i伴活性针对两种dna底物的切割产物进行下一代测序(ngs)来提供信息。可能必须滴定酶浓度或调节孵育时间,以便产生仍具有足够大小以制备成下一代测序文库的切割片段。ngs数据揭示了酶的切割位点和相邻碱基偏好。已经证明,cas13a和b家族中的单个效应子对rna切割具有不同的二核苷酸碱基偏好,从而产生明显不同的切割幅度和信噪比(gootenberg等人(2018))。因此,伴ngs数据能够更好地洞察cas12i的偏好。鉴定cas12i伴切割二核苷酸偏好的一个单独的实验方法是创建伴dna底物,所述底物具有连续位置上的简并n,从而具有比已定义的序列更宽的序列空间。对ngs数据的文库准备和分析将类似地进行,以鉴定切割的碱基偏好。为了验证偏好性,可以将含有在5’末端和3’末端具有荧光团/猝灭剂对的合成短dna的伴底物引入切割反应以评估信噪比。可以对伴dna底物的长度做进一步的优化,以确定cas12i1是否具有长度偏好。确定了优选底物后,确定的另一个重要参数是cas12i系统的错配耐受性,因为它对影响酶区分单碱基对错配的能力的指导物设计具有启示。可通过设计一组具有不同位置和类型的错配(例如,插入/缺失、单碱基对错配、相邻的双错配、分开的双错配、三错配等)的靶来确定错配耐受性。错配耐受性可以通过评估含有不同量错配的靶的伴dna的切割量来测量。例如,伴dna底物可以是短ssdna探针,所述探针在相对侧上含有荧光团和猝灭剂。对于含有cas12i效应子、rna指导物和含有靶序列中不同数量错配、插入和缺失的靶底物的反应,通过靶向改变的靶dna序列成功激活cas12i系统将导致荧光探针的伴切割。因此,可以使用阴性对照样品对所得到的表示切割的伴底物的荧光测量进行背景减去,并将其归一化为来自完全匹配靶的信号,以估计靶改变对cas12i伴切割效率的影响。所得到的通过cas12i酶的在靶长度上相对于pam的错配、插入和缺失耐受性图谱可用于设计最佳rna指导物,以区分不同dna序列或基因型用于特异性检测,或区分不同核酸种类。使用荧光切割读出和优选的伴底物,将荧光活性与完全匹配的序列进行比较,以确定酶最敏感的错配位置和类型。所述优化过程可进一步应用于其他cas12i直系同源物,以产生可能具有不同性质的其他系统。例如,伴切割的正交二核苷酸偏好将有助于产生单独的检测通道。实例9.clust.029130(v-i型)crisprcas系统可用于成对切口以实现高特异性dsdna操纵clust.029130效应子cas12i能够通过使非靶链产生切口来操纵dsdna(图15,16,17a-b)。催化上失活的cas12i还可以与foki核酸酶结构域融合,以创建能够结合和使dsdna产生切口的融合蛋白。这些方法中的一些已经在前面描述过。ran等人(2013)“doublenickingbyrna-guidedcrisprcas9forenhancedgenomeeditingspecificity[rna引导的crisprcas9双重切口可增强基因组编辑特异性]”science[科学]2013年8月29日描述了使用cas9的进行双切口的一般原理和优化;guilinger等人(2014)“fusionofcatalyticallyinactivecas9tofokinucleaseimprovesthespecificityofgenomemodification[催化失活的cas9与foki核酸酶的融合提高了基因组修饰的特异性]”science[科学]2014年4月25日描述了使用foki-dcas9融合物进行双切口的原理。使用成对的cas12i切口酶使得能够进行如下高特异性的dsdna操纵。将具有靶向dsdna靶区的一条链的crrna的第一cas12i复合物和靶向dsdna的相对链的第二cas12i-crrna复合物一起引入以实现dsdna切割反应。通过将cas12i复合物靶向不同的dsdna链,第一和第二cas12i复合物切割相对的dsdna链,导致双链断裂。为了优化通过双切口形成dsdna双链断裂的效率,我们选择了不同长度的crrna间隔子序列,将它们的期望核酸酶切割位点分开。用具有不同靶位移的cas12i成对切口酶切割dsdna的顶链和底链产生不同的长度序列突出端,从而导致形成双链断裂的效率不同。成对的切口酶靶可以选择特定的方向,以产生3’或5’的突出端,或平(突出端长度为0)双链断裂。对于含有5’ttnpam的cas12i1和cas12i2-wt酶的切口应用,将成对的切口酶靶与pam’out’(pam位于成对靶的外侧)定向导致5’突出端,而将切口酶靶与位于靶对内侧的pam配对导致3’突出端。在某些情况下,3’和5’的突出端范围为1-200nt。在某些情况下,3’和5’突出端在20到100nt之间。自主的前crrna加工促进用于双切口应用的cas12i递送(图12),因为可以从单个crrna转录物靶向两个单独的基因组基因座。其中,cas12i和包含两个间隔子序列(其靶向cas12i以使dsdna的相对链产生切口)的crispr阵列可从单个病毒载体或质粒表达。cas12i和crispr阵列也可以在单独的质粒或病毒载体上递送。然后,cas12i蛋白将crispr阵列加工成两个关联crrna,所述两个关联crrna导致形成成对的切口复合物。病毒载体可以包括噬菌体或腺相关病毒,用于分别递送至细菌或哺乳动物细胞。除了病毒或质粒递送方法外,成对的切口复合物可以使用纳米颗粒或其他直接蛋白质递送方法直接递送,使得包含两个成对crrna元件的复合物被共递送。此外,蛋白质可以通过病毒载体或直接递送到细胞,随后直接递送含有两个成对间隔子的crispr阵列用于进行双切口。在一些情况下,对于直接rna递送,rna可以与至少一个糖部分缀合,例如n-乙酰半乳糖胺(galnac)(特别是三分支galnac)。实例10:clust.029130(v-i型)crisprcas系统效应子针对真核和哺乳动物活性的调适为了开发可用于真核生物应用的clust.029130(v-i型)crisprcas系统,首先对编码蛋白效应子的构建体进行密码子优化,以便在哺乳动物细胞中表达,并任选地在效应子蛋白的n-末端或c-末端或两者上附加特异性定位标签。这些定位标签可以包括例如核定位信号(nls)序列的序列,核定位信号将效应子定位到细胞核以用于基因组dna的修饰。这些序列在上面的“功能突变”一节中有描述。表10中提供了一些非天然存在的、工程改造的核苷酸序列的实例,以编码具有定位标签的哺乳动物密码子优化的cas12i效应子。可以进一步附加其他辅助蛋白,例如荧光蛋白。已经证明,添加稳健的“超折叠”蛋白(如超折叠绿色荧光蛋白(gfp)),当附加至效应子时,可以增加哺乳动物细胞中crispr酶的活性(abudayyeh等人(2017)nature[自然]550(7675):280-4,和cox等人(2017)science[科学]358(6366):1019-27)。然后将编码cas12i及其附加的辅助蛋白和定位信号的经密码子优化序列克隆到具有合适的5’科扎克真核翻译起始序列、真核启动子和聚腺苷酸信号的真核表达载体中。在哺乳动物表达载体中,这些启动子可以包括例如一般启动子,如cmv、ef1a、efs、cag、sv40,以及细胞型特异性rna聚合酶ii启动子,如用于神经元表达的syn和camkiia,以及用于肝细胞表达的甲状腺素结合球蛋白(tbg),仅举几例。类似地,有用的聚腺苷酸化信号包括但不限于sv40、hgh和bgh。另外的转录物稳定或转录物核输出元件例如wpre可用于增加此类构建体的表达。对于前crrna或成熟crrna的表达,可以使用rna聚合酶iii启动子,例如h1或u6。根据应用和包装方式,真核表达载体可以是慢病毒质粒骨架、腺相关病毒(aav)质粒骨架或能够用于重组病毒载体生产的类似质粒骨架。值得注意的是,clust.029130(v-i型)crisprcas效应子蛋白例如cas12i蛋白的小尺寸使得它们理想地适合于与其crrna和适当的控制序列一起包装进入单个腺相关病毒颗粒;aav的4.7kb的包装尺寸限制可能排除了更大效应子的使用,特别是如果大的细胞类型特异性启动子用于表达控制。在调适序列、递送载体和用于真核和哺乳动物用途的方法之后,对本文所述的不同cas12i构建体进行性能表征。通过表达cas12i系统(其具有如上所述针对真核生物用途的调适)的最少组分的dna构建体的脂质体转染进行初始表征。在一个实施例中,cas12i效应子是哺乳动物密码子优化的,并且在蛋白质的c-末端附加核质蛋白核定位序列(npnls)。效应子的表达由延伸因子1α短(efs)启动子驱动,并使用bgh聚(a)信号终止(表10)。使用含有u6启动子的双链的线性pcr产物来表达如从(ran等人“genomeengineeringusingthecrispr-cas9system[使用crispr-cas9系统进行基因组工程改造],”natprotoc.[自然实验方案]2013年11月;8(11):2281-2308.)改适的cas12i系统的关联rna指导物。该方法非常适合于通过质粒克隆和序列验证来检测大量的sgrna。(图40)将效应子质粒和u6-指导物pcr片段以质粒与pcr产物的摩尔比约为1:2的方式共转染到293t细胞中,其中针对24孔板格式使用400ng效应子质粒和30ngu6-指导物pcr产物。使用围绕靶位点的靶向pcr扩增子的下一代测序来评估所产生的基因编辑事件(hsu等人,“dnatargetingspecificityofrna-guidedcas9nucleases[rna引导的cas9核酸酶的dna靶向特异性],”natbiotechnol.[自然生物技术]2013年9月;31(9):827-32.)。cas12i2的初步评估结果显示,在vegfa基因座的具有ttcpam的靶位点处的插入缺失活性为13%。我们测试了不同的rna指导物设计,如图41所述,其中使用前crrna获得最强的插入缺失效率,且插入缺失率随着间隔子长度的缩短而降低。对cas12i2所产生的插入缺失的检查表明,插入缺失的主要位置以相对于pam序列的+20为中心。v-i型效应子的多重复用是利用效应子的前crrna加工能力完成的,其中具有不同序列的多个靶可以被编程在单个rna指导物上。因此,可同时操纵多个基因或dna靶用于治疗应用。rna指导物设计的一个实施例是从crispr阵列表达的前crrna,所述crispr阵列由以下组成:未加工的dr序列交插的靶序列,重复以使得能够通过效应子的内在前crrna加工同时靶向一个、两个或更多个基因座。除了测试针对单个靶的各种构建体构型和辅助序列外,基于池化文库的方法还用于确定1)哺乳动物细胞中特异性cas12i蛋白的任何靶向依赖性,以及2)沿靶向crrna长度的错配位置和组合的影响。简言之,池化文库包括表达靶dna的质粒,所述靶dna含有不同的侧翼序列以及与筛选实验中使用的一个或多个指导物的错配,使得成功的靶识别和切割导致文库中的序列耗减。此外,靶向的插入缺失测序或无偏全基因组切割测定可用于评估clust.029130(v-i型)crispr-cas系统的特异性(hsu等人(2013),tsai等人“guide-seqenablesgenome-wideprofilingofoff-targetcleavagebycrispr-casnucleases.[guide-seq通过crispr-cas核酸酶实现脱靶切割的全基因组分析]”natbiotechnol.[自然生物技术]2015年2月;33(2):187-197,kim等人“digenome-seq:genome-wideprofilingofcrispr-cas9off-targeteffectsinhumancells[digenome-seq:人细胞中crispr-cas9脱靶效应的全基因组分析],”natmethods.[自然方法]2015年3月;12(3):237-43,tsai等人,“circle-seq:ahighlysensitiveinvitroscreenforgenome-widecrispr-cas9nucleaseoff-targets[circle-seq:针对全基因组crispr-cas9核酸酶脱靶的高灵敏度体外筛选],”natmethods.[自然方法]2017年6月;14(6):607-614)。另外还产生突变以扩展cas12i蛋白的功能范围。在一些实施例中,可以制备其中ruvc结构域的保守残基突变为丙氨酸(例如cas12i1的d647a突变和cas12i2的d599a突变)的催化上失活的cas12i蛋白。催化上失活的cas12i版本(称为dcas12i)保留了其可编程dna结合活性,尽管它将不再能够切割靶或伴ssdna或dsdna。dcas12i的直接用途包括免疫沉淀和转录抑制。通过在dcas12i蛋白上附加其他结构域来提供进一步的功能。这些结构域的活性包括但不限于dna碱基修饰(例如:ectad及其演变形式,apobec)、dna甲基化(m6a甲基转移酶和去甲基化酶)、定位因子(kdel保留序列,线粒体靶向信号)、转录修饰因子(例如:krab,vp64)。此外,可以附加结构域以提供另外的控制,例如光门控控制(隐色素)和化学可诱导型组分(fkbp-frb化学可诱导型二聚化)。优化此类融合蛋白的活性需要一种比较将dcas12i和附加结构域连接的接头的系统方法。这些接头可包括但不限于各种组合和长度的柔性甘氨酸-丝氨酸(gs)接头,刚性接头,例如形成eaaak序列的α-螺旋、xten接头(schellenbergerv,等人nat.biotechnol.[自然生物技术]2009;27:1186-1190),以及它们的不同组合(见表11)。然后在相同的crrna靶复合物和功能读出上平行分析各种设计,以确定哪一种设计产生所需的性质。为了使cas12i适应用于靶向dna碱基修饰(参见,例如,gaudelli等人(2017)“programmablebaseeditingofa·ttog·cingenomicdnawithoutdnacleavage[在无需dna切割情况下基因组dna中a·t到g·c的可编程碱基编辑]”science[科学]2017年10月25日),我们从产生最高内源性哺乳动物dna切割活性的cas12i直系同源物和nls组合开始,并突变ruvc结构域的保守残基以创建催化失活的酶(dcas12i)。接下来,用接头来创建dcas12i-nls和碱基编辑结构域之间的融合蛋白。最初,该结构域将由ectada(wt)/ectada*(7.10)异二聚体(以下称为dcas12i-tada异二聚体)组成,所述异二聚体先前针对超活性和将dsdnaa·t二核苷酸修饰为g·c进行了工程改造(表11)。鉴于较小的cas12i相比于先前表征的cas9效应子之间可能存在的结构差异,可替代的接头设计和长度可能产生碱基编辑融合蛋白的最佳设计。为了评估dcas12i衍生的碱基编辑子的活性,用dcas12i-tada异二聚体构建体、表达crrna的质粒和任选的报告子质粒(如果靶向报告子而不是内源基因座)瞬时转染hek293t细胞。瞬时转染后48小时收获细胞,提取dna并准备用于下一代测序。分析含有靶向crrna相比于阴性对照非靶向crrna的样品的基因座的碱基组成可提供有关编辑效率的信息,并且分析转录组更广泛的变化可获得有关脱靶活性的信息。利用cas12i开发dna碱基编辑系统的一个特别优点是,比现有的cas9和cas12a效应子更小的小尺寸使得dcas12i-tada异二聚体及其crrna和控制元件能够更容易地在aav中包装,而不需要蛋白质截短。这种全合一的aav载体使得组织中体内碱基编辑更有效,这作为通向cas12i的治疗应用的途径特别相关。除了使用cas12i和rna指导物进行编辑之外,另外的模板dna序列可以在载体(例如aav病毒载体)中共同递送,或者作为线性单链或双链dna片段共同递送。为了通过同源定向修复(hdr)插入模板dna,模板序列被设计为包含要插入到目的基因座中的有效载荷序列以及与所需插入位点侧翼的内源序列同源的侧翼序列。在一些情况下,对于小于(例如:小于1kb长度)的短dna有效载荷的插入,侧翼同源序列可以是短的(例如:长度从15到200nt的范围)。在其他情况下,对于长dna有效载荷(例如:1kb或更长的长度)的插入,需要长的同源侧翼序列来促进有效的hdr(例如:大于200nt的长度)。针对hdr在与模板dna侧翼区同源的序列之间进行靶基因组基因座的切割可显著增加hdr的频率。促进hdr的cas12i切割事件包括但不限于dsdna切割、双切口和单链切口活性。dsdna片段可含有与使用cas12i双切口产生的突出端互补的突出端序列。插入物与双切口突出端的配对以及随后通过内源性dna修复机制的连接导致模板dna在双切口位点的无缝插入。表10.使具有包括的n-末端mh6标签和c-末端核质蛋白nls序列(粗体)的cas12i效应子能够在哺乳动物中表达的序列表11.clust.029130(v-i型)crispr-cas效应子蛋白的工程改造的变体中基序和功能结构域的氨基酸序列这些结果表明,紧凑型v-icrispr家族的成员可以针对在真核细胞中的活性(特别是针对哺乳动物细胞中的基因组编辑)被工程改造。哺乳动物功能性v-i型效应子使得基于在dna结合底盘之上的进一步工程改造的另外技术的开发成为可能。实例11.v-i型crispr-cas系统可用于提供基因组复制、病毒繁殖、质粒繁殖、细胞死亡或细胞休眠的基因型门控控制v-i型crispr-cas效应子蛋白和crrna与特定的ssdna或dsdna靶的杂交导致底物的切口或切割。这种活性对细胞中特定dna靶的存在的依赖是有价值的,因为它能够基于特定的潜在基因型靶向特定的基因组材料或细胞群体。在真核生物、原核生物和病毒/质粒情境中存在大量的应用,用于控制基因组复制、细胞死亡或细胞休眠。对于原核生物、病毒和质粒应用,v-i型crispr-cas系统(例如,包括v-i型效应子和rna指导物)可以被递送(例如,体外或体内),以便以基因型特异性的方式停止基因组复制和/或诱导特定原核生物群体(例如,细菌群体)的细胞死亡或休眠。例如,v-i型crispr-cas系统可包括一种或多种rna指导物,所述一种或多种rna指导物特异性地靶向特定病毒、质粒或原核生物属、物种或株系。如图5a-d所示通过v-i型系统对使大肠杆菌产生抗生素耐药性的大肠杆菌基因组或质粒dna进行切割、切口或干扰导致含有这些序列的大肠杆菌特异性耗减。病毒、质粒或原核生物的特异性靶向具有许多治疗益处,因为这可以用来诱导不需要的细菌(例如病原细菌,如艰难梭状芽孢杆菌)的死亡或休眠。此外,本文提供的v-i型系统可用于靶向具有特定基因型的原核细胞。在人中定殖的微生物多样性中,只有一小部分细菌菌株能够诱发致病。此外,即使在例如艰难梭状芽孢杆菌的致病菌株中,也不是所有的细菌群体成员都以活跃的致病状态持续存在。因此,基于病毒、质粒或原核细胞的基因型靶向v-i型系统允许在不破坏整个微生物组的情况下特异性地控制靶向哪些基因组或细胞群体。此外,细菌菌株可以容易地用基因回路或环境控制的表达元件进行工程改造,以产生限制经工程改造的细菌菌株的生长、定殖和/或脱落的基因杀伤开关。例如,v-i型效应子和特异性crrna的表达可以使用源自编码响应于外部刺激而表达的蛋白质的基因的调控区的启动子来控制,所述蛋白质例如是冷敏感蛋白(pcspa)、热休克蛋白(hsp)、化学可诱导型系统(tet,lac,arac)。v-i型系统的一种或多种元件的受控表达允许全功能系统仅在暴露于环境刺激后表达,这导致系统的基因型特异性dna干扰活性,并且从而诱导细胞死亡或休眠。包括如本文所述的cas12i效应子的杀伤开关可以优于传统的杀伤开关设计,例如毒素/抗毒素系统(例如ccdb/ccdaii型毒素/抗毒素系统),因为它们不依赖于相对蛋白表达比率(所述相对蛋白表达比率可以受启动子(例如环境刺激依赖性启动子)的漏表达影响),因此允许更精确地控制杀伤开关。其他实施例应当理解,虽然已经结合详细描述对本发明进行了描述,但前面的描述旨在说明而非限制本发明的范围,本发明的范围由所附的权利要求书的范围限定。其他方面、优点和修改在下列权利要求的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1