CRISPR支持的多路基因组工程化的制作方法

文档序号:22327293发布日期:2020-09-25 17:57阅读:220来源:国知局
CRISPR支持的多路基因组工程化的制作方法

本申请是申请日为2015年2月11日、申请号为201580018819.3、发明名称为“crispr支持的多路基因组工程化”的中国专利申请(pct申请号为pct/us2015/015476)的分案申请。

相关申请

根据35u.s.c.§119,本申请要求2014年2月11日提交的美国临时申请61/938,608的权益,该申请的全部教导均通过引用并入本文。



背景技术:

大的dna构建体的理性操作是当前合成生物学和基因组工程工作的主要挑战。近年来,已经开发了多种技术来应对这一挑战并提高能生成突变的特异性和速度。此外,适应性突变是进化的核心驱动因素,但其丰度和对细胞表型的相对贡献即使在大部分充分研究的生物中也知之甚少。这在很大程度上可以归因于与观察和重建这些基因型以及将其存在与感兴趣的表型进行关联相关的技术挑战。例如,依赖于随机诱变的基因组编辑方法导致包含许多突变的复杂的基因型,每一个突变的相对贡献难以解析。而且,由于缺乏关于各个突变的信息,难以确定等位基因之间的上位相互作用(epistaticinteractions)。



技术实现要素:

成簇规律间隔短回文重复序列(clusteredregularlyinterspersedshortpalindromicrepeat)(crispr)存在于许多细菌基因组中,并已被发现在适应性细菌免疫中发挥重要作用。这些阵列的转录产生crisprrna,它引导crispr/cas复合物序列特异性结合至细胞中的dna靶标,导致基因阻抑或dna裂解。这些复合物的特异性允许针对菌株工程化的新型体内应用。

本文描述了理性、多路操作开放阅读框内的染色体(例如,以生成蛋白质文库)或在染色体的任何区段中的多个基因的方法,其中使用不同的crispr系统。这些方法提供了比先前可用的方法更有效的组合基因组工程化。

扩展crispr的多路化(multiplexing)能力提出了当前的一个技术挑战,并且将能够使用这些系统生成高通量格式的理性文库。这样的进展对于力图重构复杂的遗传网络以实现最佳生产的代谢和蛋白质工程领域具有广泛深远的意义。

所述方法包括向细胞中引入crispr系统的组件,包括crispr关联的核酸酶cas9和序列特异性指导rna(grna),从而利用crispr系统诱导序列指导的双链断裂的能力导致序列指导的双链断裂。可将crispr系统的组件,包括crispr关联的核酸酶cas9和序列特异性指导rna(grna),引入至细胞中,在一个或多个载体如质粒上编码。dna重组工程盒(cassette)或编辑寡核苷酸可被理性地设计为包含位于靶基因座内的所需突变以及可被crispr系统识别的在靶基因座外部的常见位置中的突变。所述方法可以用于许多应用,包括改变感兴趣的途径。

在一个实施方案中,所述方法是一种基因组工程化方法,其包括:(a)向细胞中引入载体,该载体编码:(i)编辑盒,其包含与所述细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,如相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变,和前间隔区邻近基序(protospaceradjacentmotif)(pam)突变;(ii)启动子;以及(iii)至少一个指导rna(grna),该grna包含:(a)与所述靶区域的一部分互补的区域(rna);以及(b)募集cas9核酸酶的区域(rna),从而产生包含所述载体的细胞;(b)使包含所述载体的细胞维持在表达cas9的条件下,其中cas9核酸酶在所述载体上编码、在第二载体上编码或在细胞的基因组上编码,导致产生包含所述载体并且不包含所述pam突变的细胞和包含所述载体和pam突变的细胞;(c)在适合于细胞活力的条件下培养(b)的产物,从而产生活细胞;(d)获得在(c)中产生的活细胞;以及(e)对在(d)中获得的至少一个活细胞的载体的编辑寡核苷酸进行测序,并鉴定所述至少一个密码子的突变。

在另一个实施方案中,所述方法是一种通过可追踪crispr富集重组工程化的基因组工程化方法,其包括:(a)向第一细胞群体中引入载体,该载体编码:(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变的区域,如相对于该靶区域在至少一个密码子中的至少一个核苷酸的突变,和(b)前间隔区邻近基序(pam)突变;(ii)至少一个启动子;以及(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna),以及(b)募集cas9核酸酶的区域(rna),从而产生包含所述载体的第二细胞群体;(b)使所述第二细胞群体维持在表达cas9核酸酶的条件下,其中所述cas9核酸酶在所述载体、第二载体上或在所述第二细胞群体的细胞的基因组上编码,导致在不包含pam突变的细胞中的dna裂解和这类细胞的死亡;(c)获得在(b)中产生的活细胞;以及(d)通过对所述第二细胞群体的至少一个细胞的载体的编辑寡核苷酸进行测序,鉴定所述至少一个密码子的突变。

以上实施方案中的任意一个可以进一步包括合成和/或获得编辑寡核苷酸群体。任意一个实施方案可以进一步包括扩增所述编辑寡核苷酸群体。在任意一个所述实施方案中,所述载体可以进一步包含间隔区、至少两个引发位点,或间隔区和至少两个引发位点两者。在一些实施方案中,所述编辑盒包含靶区域,该靶区域包含pam突变的100个核苷酸内的至少一个密码子的突变。

还描述了一种载体,其包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna);以及(b)募集cas9核酸酶的区域(rna)。

进一步的实施方案为一种载体,其包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna);以及(b)募集cas9核酸酶的区域(rna)。

进一步的实施方案为一种载体,其包含:

(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变的区域,以及(b)前间隔区邻近基序(pam)突变;

(ii)至少一个启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与靶区域的一部分互补的区域(rna),以及(b)募集cas9核酸酶的区域(rna)。

所述载体的另一个实施方案为一种载体,其包含:

(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变的区域,以及(b)前间隔区邻近基序(pam)突变;

(ii)至少一个启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与靶区域的一部分互补的区域(rna),和(b)募集cas9核酸酶的区域(rna)。

在任意一个所述实施方案中,所述载体可以进一步包含间隔区;至少两个引发位点;或间隔区和至少两个引发位点。在突变是在至少一个密码子中的至少一个核苷酸的突变的那些载体中,所述编辑盒所述突变可以在例如pam突变的100个核苷酸内。

还描述了一种包含通过本文所述方法产生的细胞群体的文库。细胞群体的文库可以包含具有本文所述的任何载体的细胞。例如,细胞群体可以包含一种载体,该载体包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna);以及(b)募集cas9核酸酶的区域(rna)。

在进一步的实施方案中,细胞群体可以包含一种载体,该载体包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna);以及(b)募集cas9核酸酶的区域(rna)。

在进一步的实施方案中,所述方法是一种crispr辅助的理性蛋白质工程化(组合基因组工程化)方法,该方法包括:

(a)通过将以下物质引入至第一细胞群体中(例如通过共转化)来构建包含重组dna如重组染色体或质粒中的重组dna的供体文库:(i)一个或多个编辑寡核苷酸,如理性设计的寡核苷酸,其使第一单个前间隔区邻近基序(pam)的缺失与邻近pam的基因(邻近基因)中的至少一个密码子的突变偶联,和(ii)指导rna(grna),其靶向位于染色体的开放阅读框的5'侧的核苷酸序列,从而产生包含第一细胞群体的供体文库,该第一细胞群体包含具有靶向密码子突变的重组染色体;

(b)例如通过重组染色体的pcr扩增来扩增在(a)中构建的供体文库,其使用来自所述编辑寡核苷酸的合成特征,并同时在所述基因的3'末端处并入第二pam缺失(终点(destination)pam缺失),从而使靶向密码子突变与终点pam缺失直接偶联如共价偶联,并产生携带所述终点pam缺失和靶向密码子突变的重获(retrieved)的供体文库;以及

(c)将携带终点pam缺失和靶向密码子突变的供体文库与终点grna质粒引入(例如,共转化)至第二细胞群体中,从而产生包含靶向密码子突变的终点文库,该第二细胞群体通常为稚细胞群体。

所述第一细胞群体和所述第二细胞群体(例如,稚细胞群体)通常是这样的群体:其中细胞全部为相同的类型,并且可以是原核生物或真核生物,例如但不限于细菌、哺乳动物细胞、植物细胞、昆虫细胞。

在一些实施方案中,所述方法进一步包括使所述终点文库维持在产生蛋白质的条件下。

在一些实施方案中,所述第一细胞表达具有cas9核酸酶活性的多肽。在一些实施方案中,在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

在一些实施方案中,所述编辑寡核苷酸与存在于所述第一细胞中的(一个、一个或多个、至少一个)靶核酸互补。在一些实施方案中,所述编辑寡核苷酸靶向所述第一细胞中的多于一个靶位点或基因座。在一些实施方案中,所述编辑寡核苷酸的核酸序列[所需密码子]包含相对于靶核酸的一个或多个置换、缺失、插入,或置换、缺失和插入的任意组合。在一些实施方案中,理性地设计所述编辑寡核苷酸;在进一步的实施方案中,通过随机诱变或通过使用简并引物寡核苷酸产生所述编辑寡核苷酸。在一些实施方案中,所述编辑寡核苷酸来源于核酸的集合(文库)。

在一些实施方案中,所述grna在质粒上编码。在一些实施方案中,通过转化,例如通过编辑寡核苷酸和指导(g)rna的共转化,将所述编辑寡核苷酸和所述grna引入至所述第一细胞中。在一些实施方案中,将所述编辑寡核苷酸和所述grna依次引入至所述第一细胞中。在其他实施方案中,将所述编辑寡核苷酸和所述grna同时引入至所述第一细胞中。

在一些实施方案中,重获供体文库进一步包括(a)筛选细胞以供并入所述编辑寡核苷酸,和(b)选择被确认已并入所述编辑寡核苷酸的细胞。在一些实施方案中,重获供体文库进一步包括处理重获的供体文库。

在一些实施方案中,所述终点细胞/稚细胞表达具有cas9核酸酶活性的多肽。在一些实施方案中,在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

还描述了一种crispr辅助的理性蛋白质工程化方法,其包括:

(a)将(i)包含编辑寡核苷酸的合成dsdna编辑盒和(ii)表达靶向正好在感兴趣的基因上游的基因组序列的指导rna(grna)的载体,在发生所述编辑寡核苷酸的多路重组工程化和通过grna的选择性富集的条件下引入(例如,共转化)至第一细胞群体中,从而产生供体文库;

(b)扩增具有缺失与感兴趣的基因的3'端邻近的前间隔区邻近基序(pam)(终点pam)的寡核苷酸的供体文库,从而产生扩增的供体文库,该扩增的供体文库包含已缺失终点pam(具有3’pam缺失)的dsdna编辑盒、理性密码子突变和p1位点;

(c)用酶如限制酶(例如,bsai)处理所述扩增的供体文库以去除p1位点;以及

(d)用在(c)中处理的扩增的供体文库和终点grna共转化稚细胞群体,从而产生共转化细胞群体,该共转化细胞群体包含已经缺失终点pam(具有3'pam缺失)的dsdna编辑盒、理性密码子突变和终点grna。

在所描述的全部实施方案中,突变可以是所需的任何类型,如一个或多个插入、缺失、置换,或者前述突变中两个或三个的任意组合(例如,插入和缺失;插入和置换;缺失和置换;置换和插入;插入、缺失和置换)。插入、缺失和置换可以是任何数目的核苷酸的插入、缺失和置换。它们可以在密码子(编码区)中和/或在非编码区中。

附图说明

图1a和1b显示了crispr辅助的理性蛋白质工程化(carpe)的概览。图1a显示了供体文库构建的示意图。使合成dsdna编辑盒与表达靶向在感兴趣的基因上游的基因组序列的指导rna(grna)的载体共转化。该共转化经由编辑寡核苷酸的多路重组工程化生成供体文库,该编辑寡核苷酸通过grna选择性地富集。随后使用使得与所述基因的3'端邻近的pam(终点pam)发生突变(缺失)的寡核苷酸扩增供体文库。图1b显示了最终蛋白质文库生成的示意图。用bsai处理供体文库以去除p1位点,并将具有3’pam缺失和理性密码子突变的dsdna盒的文库与终点grna共转化以生成最终蛋白质文库。

图2显示了来自galk供体文库构建产生的克隆的dna序列,证实了以高效率并入编辑寡核苷酸的p1特征以及在靶向密码子位置(下划线)处的突变。p1的序列由seqidno:1提供。

图3a显示了引物设计。图3b显示了相对于引物数目的预期密度。

图4a显示了接头与构建体结果。图4b显示了与基于乳液pcr的追踪相关的10个编辑(edit)。

图5是用于代谢工程化的理性蛋白质编辑的示意图。

图6是生成crispr富集的理性蛋白质文库的示意图。

图7是carpe的设置和证明的示意图。

图8显示了迭代(iterative)crispr共选择的策略。

图9显示了使用carpe的多路蛋白质工程化的策略。

图10显示了使用carpe构建galk供体文库。

图11a显示了使用carpe的基于crispr的多路编辑的示意图。图11b显示了使用通过可追踪crispr富集重组工程化的基因组工程化(gen-tracer),基于crispr的多路编辑的示意图。

图12显示了代表性的gen-tracer载体(构建体),其包含用于编辑galk的密码子24的编辑盒、启动子和间隔区。

图13显示了使用gen-tracer的galk编辑的结果。上面的图显示了来自已经用galk密码子24编辑gen-tracer载体转化的细胞的染色体和载体(质粒)的dna测序结果,其表明该载体上的编辑盒(寡核苷酸)可以作为允许高效追踪所需基因组编辑(突变)的“反式条形码”被测序。下面的图示出了细胞的dna测序色谱,其显示出未编辑的野生型表型(红色)。该方法允许鉴定具有既携带未编辑的野生型等位基因又携带编辑的/突变的等位基因的多个染色体的细胞。

图14a-14c显示了gen-tracer的示意图。图14a显示了设计组件的概览。gen-tracer盒含有指导rna(grna)序列,以靶向细胞基因组中的特定位点并引起dsdna裂解。与靶区域互补的同源性区域使得pam和其他附近的所需位点发生突变。将经历重组的细胞选择性地富集为高丰度。对载体中的gen-tracer编辑盒的测序使得能够追踪基因组编辑/突变。图14b显示了针对密码子145处的大肠杆菌galk基因的示例性编辑盒设计。用最近的可用pam突变删除pam,该突变可以针对在最近的可用pam位置处的同义变化而进行。这实现了在pam缺失位点处具有1-2个核苷酸的“沉默疤痕(silentscar)”的诱变。图14c显示了可以使用基于阵列的合成方法合成gen-tracer盒,从而实现至少104-106个盒的平行合成,以用于系统靶向和同时评价在全基因组规模下对数以千计的突变的适合性。

图15a显示了gen-tracer载体的概况。图15b显示了用于在大肠杆菌galk基因中生成y145*突变的代表性gen-tracer的一部分,其中该pam突变和突变的密码子相隔17个核苷酸。代表性gen-tracer的该部分的核酸序列由seqidno:28提供,而反向互补序列由seqidno:33提供。

图16a-16c显示了gen-tracer设计的对照。图16a显示了编辑盒的大小对所述方法的效率的影响。图16b显示了pam突变/缺失与所需突变之间的距离对所述方法的效率的影响。图16c显示了muts系统的存在与否对所述方法的效率的影响。

具体实施方式

细菌和古细菌crispr系统已成为用于精确基因组编辑的强大的新工具。已经在体外特别好地表征了来自酿脓链球菌(streptococcuspyogenes)的ii型crispr系统,并且已经建立了简单的设计规则以便对其双链dna(dsdna)结合活性重编程序(jinek等人science(2012)337(6096):816-821)。crispr介导的基因组编辑方法在很多种生物中的使用在文献中快速积累,该生物包括细菌(cong等人science(2013)339(6121):819-823)、酿酒酵母(dicarlo等人nucleicacidsres.(2013)41:4336-4343)、秀丽隐杆线虫(waaijers等人genetics(2013)195:1187-1191)和各种哺乳动物细胞系(cong等人science(2013)339(6121):819-823;wang等人cell(2013)153:910-918)。像其他基于内切核酸酶的基因组编辑技术,如锌指核酸酶(zfn)、归巢核酸酶和talens一样,crispr系统介导精确基因组编辑的能力源自于靶标识别的高度特异性的性质。例如,来自大肠杆菌和酿脓链球菌系统的i型crispr系统要求crisprrna(crrna)与14-15碱基对识别靶标之间有完全的互补性,这表明自然地采用了crispr系统的免疫功能(jinek等人science(2012)337(6096):816-821;brouns等人science(2008)321:960-964;semenova等人pnas(2011)108:10098-10103)。

本文描述了基因组编辑方法,其采用内切核酸酶,如由cas9基因编码的cas9核酸酶,以在dna如基因组dna中进行定向基因组进化/产生变化(缺失、置换、添加)。cas9基因可以获自任何来源,如细菌,如细菌酿脓链球菌。cas9的核酸序列和/或cas9的氨基酸序列可以相对于天然存在的cas9和/或cas9的序列发生突变;突变可以是例如一个或多个插入、缺失、置换或前述的两个或三个的任意组合。在这样的实施方案中,所得到的突变的cas9可以具有相对于天然存在的cas9增强或降低的核酸酶活性。

图1a、1b和11a显示了被称为crispr辅助的理性蛋白质工程化(carpe)的crispr介导的基因组编辑方法。carpe是一个两阶段的构建过程,它依赖于将来自单链dna(ssdna)或双链dna(dsdna)编辑盒的定向突变直接并入基因组中的“供体”和“终点”文库的生成。在供体构建的第一阶段(图1a)中,将理性设计的编辑寡核苷酸与指导rna(grna)共转化至细胞中,该grna杂交至/靶向靶dna序列,如位于开放阅读框的5'侧的序列或其他感兴趣的序列。carpe的关键创新是编辑寡核苷酸的设计,它使单个前间隔区邻近基序(pam)的缺失或突变与邻近基因中的一个或多个所需密码子的突变偶联,从而使得能够在单一转化中生成整个供体文库。随后使用来自编辑寡核苷酸的合成特征,通过扩增重组染色体,例如通过pcr反应,来重获供体文库;同时在所述基因的3'末端处并入第二pam缺失或突变。因此,该方法将密码子靶向突变与pam缺失直接共价偶联。在carpe的第二阶段(图1b)中,将携带终点pam缺失/突变和靶向突变(一个或多个核苷酸如在一个或多个密码子中的一个或多个核苷酸的所需突变)的pcr扩增的供体文库与终点grna载体共转化至稚细胞中,以生成表达理性设计的蛋白质文库的细胞群体。

在crispr系统中,crispr反式激活(tracrrna)和间隔区rna(crrna)引导靶区域的选择。如本文所用的,靶区域是指细胞或细胞群体的核酸中需要至少一个核苷酸的突变如在至少一个密码子(一个或多个密码子)中的至少一个核苷酸的突变的任何基因座。靶区域可以是例如基因组基因座(靶基因组序列)或染色体外的基因座。tracrrna和crrna可被表达为单一的嵌合rna分子,其被称为单一指导rna、指导rna或grna。grna的核酸序列包含第一核酸序列(也被称为第一区域,它与靶区域的区域互补)和第二核酸序列(也被称为第二区域,它形成茎环结构并用来将cas9募集至靶区域)。在一些实施方案中,grna的第一区域与在靶基因组序列上游的区域互补。在一些实施方案中,grna的第一区域与靶区域的至少一部分互补。grna的第一区域可以与靶基因组序列完全互补(100%互补)或包含一个或多个错配,条件是它与靶基因组序列充分互补以特异性地杂交/引导和募集cas9。在一些实施方案中,grna的第一区域为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29个或至少30个核苷酸的长度。在一些实施方案中,grna的第一区域为至少20个核苷酸的长度。在一些实施方案中,由第二核酸序列形成的茎环结构为至少50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、7、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个核苷酸的长度。在特定的实施方案中,该茎环结构为80至90或82至85个核苷酸的长度,并且在进一步的特定实施方案中,形成茎环结构的grna的第二区域为83个核苷酸的长度。

在一些实施方案中,使用carpe方法引入至第一细胞中的(供体文库的)grna的序列与引入至第二细胞/稚细胞中的(终点文库的)grna的序列相同。在一些实施方案中,将多于一个grna引入至第一细胞群体和/或第二细胞群体。在一些实施方案中,所述多于一个grna分子包含与多于一个靶区域互补的第一核酸序列。

在carpe方法中,用于在所述方法中使用的也被称为编辑寡核苷酸的双链dna盒可以获自或来源于许多来源。例如,在一些实施方案中,dsdna盒来源于已经通过非同源性随机重组(nrr)多样化的核酸文库;这样的文库被称为nrr文库。在一些实施方案中,例如通过基于阵列的合成来合成所述编辑寡核苷酸。所述编辑寡核苷酸的长度可能依赖于获得该编辑寡核苷酸所使用的方法。在一些实施方案中,所述编辑寡核苷酸为约50-200个核苷酸、75-150个核苷酸或80-120个核苷酸的长度。

编辑寡核苷酸包含(a)与细胞的核酸的靶区域同源并且包含相对于该靶区域的至少一个密码子的突变(被称为所需突变)的区域,和(b)前间隔区邻近基序(pam)突变。该pam突变可以是一个或多个核苷酸的任何插入、缺失或置换,其使pam的序列发生突变,使得其不再被crispr系统识别。包含这样的pam突变的细胞可以被称为对crispr介导的杀伤“有免疫力”。相对于靶区域的序列的所需突变可以是在靶区域的至少一个密码子处的一个或多个核苷酸的插入、缺失和/或置换。

仅为了说明的目的,以下参考细菌基因描述了carpe方法。所述方法可以应用于任何感兴趣的基因,包括来自包括细菌和古细菌在内的任何原核生物或来自任何真核生物的基因,包括酵母和哺乳动物(包括人)基因。对大肠杆菌基因组中的galk基因进行carpe方法,这部分地是由于针对该基因的活性测定的可用性。使用bw23115亲代菌株和psim5载体(datta等人gene(2008)379:109-115)进行所述方法以介导重组工程化。将cas9基因克隆至pbtbx-2骨架中,处于pbad启动子的控制下,以允许通过添加阿拉伯糖控制裂解活性。使用来自nnk文库的dsdna盒对选择性并入合成dsdna盒(127bp)的能力进行评估,该nnk文库由简并引物和/或由作为27,000个成员的文库的一部分合成的理性设计的寡核苷酸(oligo)经由微阵列技术构建。在这两种情况下,将寡核苷酸设计为使galk基因产物的活性位点残基发生突变。基于用针对galk基因座的引物获得的扩增子大小的变化,验证了供体菌株文库的高度有效的恢复(recovery)。对来自nrr文库的这些菌落pcr产物的测序表明,来自dsdna盒的合成引发位点(p1)以约90-100%的效率并入。这表明可以在不依靠通常在其他基于重组工程化的编辑方法中使用的易错muts敲除菌株(costantino等人pnas(2003)100:15748-15753;wang等人nature(2009)460:894-898)的情况下,以高效率生成这些文库。密码子突变的效率有所降低(约20%),这可能是由于在等位基因替换过程中的muts校正。终点文库中克隆的初步评估表明,当构建的两个阶段都在muts+背景下进行时,最终密码子编辑效率约为10%。

使用不将pam与密码子突变共价连接而是依赖于它们在复制过程中彼此的接近性的替代方案,完成与其他近来发表的可共选择编辑方案的比较(wang等人nat.methods(2012)9:591-593)。在这些非共价的实验中,使用与上述相同的编辑寡核苷酸,并使用靶向相同供体/终点pam位点的ssdna寡核苷酸努力针对其插入进行共选择。产生的突变体的菌落筛选揭示了pam突变体的恢复的高效率。然而,对于dsdna编辑盒的插入似乎没有强大的共选择。这可能是由于pam缺失寡核苷酸与生成相当大的染色体缺失的编辑盒在相对重组工程化效率上的巨大差异。

可以例如通过在转移到野生型供体菌株之前在muts缺乏的菌株中进行供体构建以试图防止在供体构建阶段中突变的损失,来评估改善carpe方法的最终编辑效率的能力。此外,可以例如通过对包括dxs、meta和fola在内的多个必需基因使用carpe来评估carpe方法的通用性。已经使用描述的grna设计策略有效地靶向必需基因。结果还表明,尽管在供体文库创建过程中发生了基因破坏,但可以在重组工程化后1-3小时内有效地构建并重获供体文库。

本文还提供了使用crispr介导的系统的可追踪精确基因组编辑方法,其被称为通过可追踪crispr富集重组工程化的基因组工程化(gen-tracer)。gen-tracer方法使用编码编辑盒和grna的单个载体获得高效率的编辑/突变。当与平行dna合成如基于阵列的dna合成一起使用时,gen-tracer提供了数以千计的精确编辑/突变的单步生成,并使得通过对载体上的编辑盒进行测序而不是通过对细胞的基因组(基因组dna)进行测序来定位突变成为可能。所述方法在蛋白质和基因组工程化应用方面以及对于突变如实验室进化实验中鉴定的突变的重建具有广泛应用。

gen-tracer方法和载体将包含所需突变和pam突变的编辑盒与编码单一载体上的grna的基因组合起来,这使得在单一反应中生成突变的文库成为可能。如图11b所示,所述方法包括将包含含有所需突变和pam突变的编辑盒的载体引入至细胞或细胞群体中。在一些实施方案中,引入载体的细胞还编码cas9。在一些实施方案中,随后将编码cas9的基因引入至细胞或细胞群体中。在该细胞或细胞群体中包括cas9和grna的crispr系统的表达得到激活;grna将cas9募集至靶区域,在靶区域中发生dsdna裂解。不希望受到任何特定理论的束缚,与靶区域互补的编辑盒的同源区域使得pam和靶区域的一个或多个密码子发生突变。该细胞群体中没有整合pam突变的细胞经历由cas9介导的dsdna裂解引起的未编辑的细胞死亡。该细胞群体中整合了pam突变的细胞不经历细胞死亡;它们保持存活并且选择性地富集为高丰度。获得活细胞并提供靶向突变的文库。

使用gen-tracer的可追踪基因组编辑方法包括:(a)将编码至少一个编辑盒、启动子和至少一个grna的载体引入至细胞或细胞群体中,从而产生包含该载体的细胞或细胞群体(第二细胞群体);(b)使第二细胞群体维持在表达cas9的条件下,其中cas9核酸酶在该载体、第二载体上或在第二细胞群体的细胞的基因组上编码,导致第二细胞群体中不包含pam突变的细胞的dna裂解和死亡,而第二细胞群体中包含pam突变的细胞存活;(c)获得活细胞;以及(d)对第二细胞群体的至少一个细胞中的载体的编辑盒进行测序,以鉴定至少一个密码子的突变。

在一些实施方案中,还将编码cas9的单独载体引入至细胞或细胞群体中。可使用本领域已知的任何方法或技术将载体引入至细胞或细胞群体中。例如,可以通过标准方案如转化(包括化学转化和电穿孔)、转导和粒子轰击引入载体。

编辑盒包含(a)区域,该区域识别(杂交)细胞或细胞群体中核酸的靶区域,与该细胞的核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变),和(b)前间隔区邻近基序(pam)突变。该pam突变可以是一个或多个核苷酸的任何插入、缺失或置换,其使pam的序列发生突变,使得突变的pam(pam突变)不被crispr系统识别。包含如pam突变的细胞可以被称为对crispr介导的杀伤“有免疫力”。相对于靶区域的序列的所需突变可以是在靶区域的至少一个密码子处的一个或多个核苷酸的插入、缺失和/或置换。在一些实施方案中,所述编辑盒上pam突变与所需突变之间的距离为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个核苷酸。在一些实施方案中,pam突变位于距离编辑盒的末端至少9个核苷酸的位置处。在一些实施方案中,所需突变位于距离编辑盒的末端至少9个核苷酸的位置处。

在一些实施方案中,相对于靶区域的序列的所需突变为核酸序列的插入。插入靶区域中的核酸序列可以为任意长度。在一些实施方案中,插入的核酸序列为至少50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或至少2000个核苷酸的长度。在核酸序列插入靶区域中的实施方案中,所述编辑盒包含长度为至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或至少60个核苷酸并且与靶区域同源的区域。

术语“gen-tracer盒”可以用来指编辑盒、启动子、间隔区序列和编码grna的基因的至少一部分。在一些实施方案中,在gen-tracer盒上编码grna的基因的部分编码grna中与靶区域互补的部分。在一些实施方案中,grna中与靶区域互补的部分为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或至少30个核苷酸的长度。在一些实施方案中,grna中与靶区域互补的部分为24个核苷酸的长度。在一些实施方案中,gen-tracer盒进一步包含至少两个引发位点。在一些实施方案中,所述引发位点可以用于通过例如pcr来扩增gen-tracer盒。在一些实施方案中,使用grna中与靶区域互补的部分作为引发位点。

在gen-tracer方法中,用于在所述方法中使用的编辑盒和gen-tracer盒可以获自或来源于许多来源。例如,在一些实施方案中,例如通过基于阵列的合成来合成所述编辑盒。在一些实施方案中,例如通过基于阵列的合成来合成所述gen-tracer盒。所述编辑盒和/或gen-tracer盒的长度可依赖于获得编辑盒和/或gen-tracer盒所使用的方法。在一些实施方案中,所述编辑盒为约50-300个核苷酸、75-200个核苷酸或80-120个核苷酸的长度。在一些实施方案中,所述gen-tracer盒为约50-300个核苷酸、75-200个核苷酸或80-120个核苷酸的长度。

在一些实施方案中,所述方法还包括例如通过基于阵列的合成获得gen-tracer盒以及构建所述载体。构建载体的方法是本领域普通技术人员已知的,并且可以包括将gen-tracer盒连接至载体中。在一些实施方案中,在构建载体之前例如通过pcr来扩增gen-tracer盒或gen-tracer盒的亚组(库)。

在表达cas9的条件下维持或培养包含所述载体并且还编码cas9的细胞或细胞群体。可以控制cas9表达。本文描述的方法包括使细胞维持在cas9表达被激活的条件下,这导致产生cas9。表达cas9的具体条件将取决于诸如用来调节cas9表达的启动子的性质等因素。在一些实施方案中,在诱导物分子如阿拉伯糖的存在下,cas9表达受到诱导。当包含编码cas9的dna的细胞或细胞群体在诱导物分子的存在下时,发生cas9的表达。在一些实施方案中,在阻抑物分子的存在下,cas9表达受到抑制。当包含编码cas9的dna的细胞或细胞群体在不存在阻抑cas9表达的分子时,发生cas9的表达。

从经历由cas9介导的杀伤引起的未编辑的细胞死亡的细胞中获得或分离出保持存活的细胞群体的细胞;这可以通过例如将所述细胞群体涂布在培养表面上以允许活细胞生长(该活细胞随后可用于评估)来完成。

使用gen-tracer方法,通过对所述群体的活细胞(整合了pam突变的细胞)中载体上的编辑盒进行测序,与pam突变偶联的所需突变是可追踪的。这允许在不需要对细胞的基因组进行测序的情况下容易地鉴定突变。所述方法包括对编辑盒进行测序以鉴定一个或多个密码子的突变。可以对作为所述载体的组件的编辑盒进行测序,或在从所述载体中分离出编辑盒和任选扩增之后进行测序。可以使用本领域已知的任何测序方法如通过sanger测序进行测序。

本文所述的方法可以在crispr系统可起作用(例如,靶向和裂解dna)的任何类型的细胞(包括原核细胞和真核细胞)中进行。在一些实施方案中,该细胞是细菌细胞,如埃希氏菌属的种(escherichiaspp.)(例如,大肠杆菌)。在其他实施方案中,该细胞是真菌细胞,如酵母细胞,例如,酵母属的种(saccharomycesspp.)。在其他实施方案中,该细胞是藻细胞、植物细胞、昆虫细胞或哺乳动物细胞,包括人细胞。

“载体”是包含所需序列或有待递送至细胞或在细胞中表达的序列的多种核酸中的任意一种。例如,可以通过限制和连接或通过重组将所需序列包含在载体中。载体通常由dna组成,尽管rna载体也是可用的。载体包括但不限于:质粒、粘粒(fosmid)、噬菌粒、病毒基因组和人工染色体。

在gen-tracer方法中有用的载体包含至少一个如本文所述的编辑盒、启动子和至少一个编码grna的基因。在一些实施方案中,载体上包含多于一个编辑盒(例如2、3、4、5、6、7、8、9、10个或更多个编辑盒)。在一些实施方案中,所述多于一个编辑盒与不同的靶区域同源(例如,存在不同的编辑盒,每一个编辑盒与不同的靶区域同源)。可替代地或除此之外,所述载体可以包含编码多于一个grna(例如,2、3、4、5、6、7、8、9、10个或更多个grna)的多于一个基因。在一些实施方案中,所述多于一个grna含有与不同靶区域的一部分互补的区域(例如,存在不同的grna,每一个grna与不同靶区域的一部分互补)。

在一些实施方案中,将包含至少一个编辑盒、启动子和编码grna的一部分的基因的gen-tracer盒连接至编码grna的另一部分的载体中。经连接,来自gen-tracer盒的grna的部分与grna的另一部分连接并形成功能性grna。

启动子和编码grna的基因可操作地连接。在一些实施方案中,所述方法包括引入编码cas9的第二载体。在这样的实施方案中,该载体可以进一步包含与编码cas9的基因可操作地连接的一个或多个启动子。如本文所用的,“可操作地”连接意指启动子影响或调节诸如编码grna的基因或编码cas9的基因等基因的编码dna的转录。该启动子可以是天然启动子(在引入载体的细胞中存在的启动子)。在一些实施方案中,该启动子是诱导型或阻抑型启动子(调节该启动子以允许诸如编码grna的基因或编码cas9的基因等基因的诱导型或阻抑型转录),如通过分子(例如,诱导物或阻抑物)的存在或不存在调节的启动子。表达grna所需的启动子的性质可以根据物种或细胞类型而变化,并且将被本领域普通技术人员所认识到。

在一些实施方案中,所述方法包括在引入包含至少一个如本文所述的编辑盒、启动子和至少一个grna的载体之前或同时,将编码cas9的单独载体引入至细胞或细胞群体中。在一些实施方案中,将编码cas9的基因整合到细胞或细胞群体的基因组中。可在引入包含至少一个如本文所述的编辑盒、启动子和至少一个grna的载体之前,或在引入包含至少一个如本文所述的编辑盒、启动子和至少一个grna的载体之后,将编码cas9的dna整合到细胞基因组中。或者,核酸分子,如编码cas9的dna,可以由整合到基因组中的dna表达。在一些实施方案中,将编码cas9的基因整合到细胞的基因组中。

在本文所述的gen-tracer方法中有用的载体可以进一步包含间隔区序列、两个或更多个引发位点,或者间隔区序列和两个或更多个引发位点两者。在一些实施方案中,位于gen-tracer盒侧翼的引发位点的存在允许编辑盒、启动子和grna核酸序列的扩增。

本发明提供了包括但不限于以下实施方案:

1.一种基因组工程化方法,其包括:

(a)向细胞中引入载体,该载体编码:

(i)编辑盒,其包含与所述细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna),从而产生包含所述载体的细胞;

(b)使包含所述载体的细胞维持在表达cas9的条件下,其中cas9核酸酶在所述载体上编码、在第二载体上编码或在所述细胞的基因组上编码,导致产生包含所述载体并且不包含所述pam突变的细胞和包含所述载体和所述pam突变的细胞;

(c)在适合于细胞活力的条件下培养(b)的产物,从而产生活细胞;

(d)获得在(c)中产生的活细胞;以及

(e)对在(d)中获得的至少一个活细胞的载体的编辑寡核苷酸进行测序,并鉴定至少一个密码子的突变。

2.一种通过可追踪crispr富集重组工程化的基因组工程化方法,其包括:

(a)向第一细胞群体中引入载体,该载体编码:

(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的突变的区域,和(b)前间隔区邻近基序(pam)突变;

(ii)至少一个启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna),和(b)募集cas9核酸酶的区域(rna),从而产生包含所述载体的第二细胞群体;

(b)使所述第二细胞群体维持在表达cas9核酸酶的条件下,其中所述cas9核酸酶在所述载体、第二载体上或在所述第二细胞群体的细胞的基因组上编码,导致在不包含所述pam突变的细胞中的dna裂解和这类细胞的死亡;

(c)获得在(b)中产生的活细胞;以及

(d)通过对所述第二细胞群体的至少一个细胞的载体的编辑寡核苷酸进行测序,鉴定至少一个密码子的突变。

3.根据实施方案1或实施方案2所述的方法,其进一步包括合成和/或获得编辑寡核苷酸的群体。

4.根据实施方案1至3中任一项所述的方法,其进一步包括扩增编辑寡核苷酸的群体。

5.根据实施方案1-4中任一项所述的方法,其中所述载体进一步包含间隔区和/或至少两个引发位点。

6.根据实施方案1-5中任一项所述的方法,其中所述编辑盒包含靶区域,该靶区域包含所述pam突变的100个核苷酸内的至少一个密码子的突变。

7.一种crispr辅助的理性蛋白质工程化(组合基因组工程化)方法,其包括:

(a)通过将以下物质引入至第一细胞群体中(用以下物质共转化第一细胞群体)来构建包含重组dna如重组染色体或质粒中的重组dna的供体文库:(i)一个或多个编辑寡核苷酸,如理性设计的寡核苷酸,其使第一单个前间隔区邻近基序(pam)的缺失与邻近pam的基因(邻近基因)中的至少一个密码子的突变偶联,和(ii)指导rna(grna),其靶向位于染色体的开放阅读框的5'侧的核苷酸序列,从而产生包含第一细胞群体的供体文库,该第一细胞群体包含具有靶向密码子突变的重组染色体;

(b)通过重组dna(如重组染色体)的扩增(如pcr扩增)重获在(a)中构建的供体文库,其使用来自所述编辑寡核苷酸的合成特征,并同时在所述基因的3'末端处并入第二pam缺失(终点pam缺失),从而使靶向密码子突变与终点pam缺失直接共价偶联,并产生携带所述终点pam缺失和靶向密码子突变的重获的供体文库;以及

(c)将携带所述终点pam缺失和靶向密码子突变的重获的供体文库与终点grna质粒共转化至稚细胞群体中,从而产生包含靶向密码子突变的终点文库。

8.根据实施方案7所述的方法,其进一步包括使所述终点文库维持在产生蛋白质的条件下。

9.根据实施方案7或实施方案8所述的方法,其中所述第一细胞群体表达具有cas9核酸酶活性的多肽。

10.根据实施方案9所述的方法,其中在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

11.根据实施方案10所述的方法,其中所述编辑寡核苷酸与存在于第一细胞中的靶核酸互补。

12.根据实施方案11所述的方法,其中所述编辑寡核苷酸靶向所述第一细胞中的多于一个靶位点或基因座。

13.根据实施方案7-12中任一项所述的方法,其中所述编辑寡核苷酸的核酸序列包含相对于所述靶核酸的一个或多个置换、缺失、插入。

14.根据实施方案7-13中任一项所述的方法,其中理性地设计所述编辑寡核苷酸。

15.根据实施方案7-14中任一项所述的方法,其中使用简并引物寡核苷酸产生所述编辑寡核苷酸。

16.根据实施方案7所述的方法,其中所述编辑寡核苷酸来源于核酸的集合(文库)。

17.根据实施方案7所述的方法,其中所述grna在质粒上编码。

18.根据实施方案7所述的方法,其中通过转化将所述编辑寡核苷酸和所述grna引入至所述第一细胞。

19.根据实施方案7所述的方法,其中将所述编辑寡核苷酸和所述grna依次引入至所述第一细胞。

20.根据实施方案7所述的方法,其中将所述编辑寡核苷酸和所述grna同时引入至所述第一细胞。

21.根据实施方案7所述的方法,其中重获所述供体文库进一步包括以下步骤:(a)筛选细胞以供并入所述编辑寡核苷酸,以及(b)选择被确认已并入所述编辑寡核苷酸的细胞。

22.根据实施方案7所述的方法,其中重获所述供体文库进一步包括处理重获的供体文库。

23.根据实施方案7所述的方法,其中终点细胞/稚细胞表达具有cas9核酸酶活性的多肽。

24.根据实施方案23所述的方法,其中在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

25.一种crispr辅助的理性蛋白质工程化方法,其包括:

(a)将(i)包含编辑寡核苷酸的合成dsdna编辑盒和(ii)表达靶向正好在感兴趣的基因上游的基因组序列的指导rna(grna)的载体,在发生所述编辑寡核苷酸的多路重组工程化和通过grna的选择性富集的条件下,引入(共转化)至第一细胞群体中,从而产生供体文库;

(b)扩增具有缺失与感兴趣的基因的3'端邻近的前间隔区邻近基序(pam)(终点pam)的寡核苷酸的供体文库,从而产生扩增的供体文库,该扩增的供体文库包含具有3’pam缺失的dsdna编辑盒、理性密码子突变和p1位点;

(c)用bsai处理所述扩增的供体文库以去除所述p1位点;以及

(d)用在(c)中产生的扩增的供体文库和终点grna共转化稚细胞群体,从而产生共转化细胞群体,该共转化细胞群体包含具有3'pam缺失的dsdna编辑盒、理性密码子突变和终点grna。

26.根据实施方案25所述的方法,其进一步包括使在(d)中产生的共转化细胞群体维持在发生蛋白质表达的条件下。

27.根据实施方案25或26所述的方法,其中第一细胞表达具有cas9核酸酶活性的多肽。

28.根据实施方案27所述的方法,其中在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

29.根据实施方案25所述的方法,其中所述编辑寡核苷酸与存在于第一细胞中的靶核酸互补。

30.根据实施方案29所述的方法,其中所述编辑寡核苷酸靶向所述第一细胞中的多于一个靶位点或基因座。

31.根据实施方案25-30中任一项所述的方法,其中所述编辑寡核苷酸的核酸序列包含相对于所述靶核酸的一个或多个置换、缺失、插入。

32.根据实施方案25-31中任一项所述的方法,其中理性地设计所述编辑寡核苷酸。

33.根据实施方案25-31中任一项所述的方法,其中使用简并引物寡核苷酸产生所述编辑寡核苷酸。

34.根据实施方案25所述的方法,其中所述编辑寡核苷酸来源于核酸的集合(文库)。

35.根据实施方案25所述的方法,其中所述grna在质粒上编码。

36.根据实施方案25所述的方法,其中通过转化将所述编辑寡核苷酸和所述grna引入至所述第一细胞。

37.根据实施方案25所述的方法,其中将所述编辑寡核苷酸和所述grna依次引入至所述第一细胞群体。

38.根据实施方案25所述的方法,其中将所述编辑寡核苷酸和所述grna同时引入至所述第一细胞。

39.根据实施方案25所述的方法,其中重获所述供体文库进一步包括以下步骤:(a)筛选细胞以供并入所述编辑寡核苷酸,以及(b)选择被确认已并入所述编辑寡核苷酸的细胞。

40.根据实施方案25所述的方法,其中重获所述供体文库进一步包括处理重获的供体文库。

41.根据实施方案25所述的方法,其中终点细胞/稚细胞表达具有cas9核酸酶活性的多肽。

42.根据实施方案38所述的方法,其中在诱导型启动子的控制下表达具有cas9核酸酶活性的多肽。

43.一种载体,其包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna)。

44.一种载体,其包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna)。

45.一种载体,其包含:

(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变的区域,和(b)前间隔区邻近基序(pam)突变;

(ii)至少一个启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna),和(b)募集cas9核酸酶的区域(rna)。

46.一种载体,其包含:

(i)至少一个编辑盒,其包含:(a)与核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变的区域,和(b)前间隔区邻近基序(pam)突变;

(ii)至少一个启动子;以及

(iii)至少一个指导rna(grna),其包含:(a)与所述靶区域的一部分互补的区域(rna),和(b)募集cas9核酸酶的区域(rna)。

47.根据实施方案43至46中任一项所述的载体,其中所述载体进一步包含间隔区;至少两个引发位点;或间隔区和至少两个引发位点。

48.根据实施方案44、46或47中任一项所述的载体,其中所述编辑盒包含靶区域,该靶区域包含pam突变的100个核苷酸内的至少一个密码子的突变。

49.一种文库,其包含通过实施方案1-48中任一项所述的方法产生的细胞群体。

50.一种包含细胞群体的文库,该细胞群体包含实施方案43-48中任一项所述的载体。

51.一种包含载体的细胞群体,该载体包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna)。

52.一种包含载体的细胞群体,其包含:

(i)编辑盒,其包含与细胞中核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna)。

53.一种基因组工程化方法,其包括:

(a)向细胞中引入载体,该载体编码:

(i)编辑盒,其包含与所述细胞中核酸的靶区域同源并且包含相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)的区域,和前间隔区邻近基序(pam)突变;

(ii)启动子;以及

(iii)至少一个指导rna(grna),其包含:

(a)与所述靶区域的一部分互补的区域(rna);以及

(b)募集cas9核酸酶的区域(rna),从而产生包含所述载体的细胞;

(b)使包含所述载体的细胞维持在表达cas9的条件下,其中cas9核酸酶在所述载体上编码、在第二载体上编码或在所述细胞的基因组上编码,导致产生包含所述载体并且不包含所述pam突变的细胞和包含所述载体和pam突变的细胞;

(c)在适合于细胞活力的条件下培养(b)的产物,从而产生活细胞;

(d)获得在(c)中产生的活细胞;以及

(e)对在(d)中获得的至少一个活细胞的载体的编辑寡核苷酸进行测序,并鉴定至少一个密码子的突变。

实施例

实施例1:使用carpe方法编辑galk

对大肠杆菌基因组中的半乳糖激酶基因galk实施carpe方法;有许多试验可用来评估基因产物的活性。使用大肠杆菌bw23115亲代菌株和psim5载体进行实验(datta等人.gene(2008)379:109-115)以介导重组工程化。将编码cas9的基因克隆至pbtbx-2骨架中,处于pbad启动子的控制下,以允许通过向培养基中添加阿拉伯糖来控制cas9裂解活性。

首先,测试选择性地并入合成dsdna盒(127bp)的能力。该合成dsdna盒来源于nnr文库,该nnr文库由简并引物或由作为27,000个成员的文库的一部分合成的理性设计的寡核苷酸经由微阵列技术构建。在这两种情况下,将寡核苷酸设计为使galk基因产物的活性位点残基发生突变,以及含有合成引发位点p1(seqidno:1)。基于使用针对galk基因座的引物通过菌落pcr获得的扩增子大小的变化,验证了供体菌株文库的高度有效的恢复。对来自nnr文库的菌落pcr产物的测序表明,来自dsdna盒的合成引发位点(p1)以约90-100%的效率并入(图2)。这一惊人且出乎意料的结果表明,可以在不依靠通常在其他基于重组工程化的编辑方法中使用的易错muts缺乏的菌株(costantino等人pnas(2003)100:15748-15753;wang等人nature(2009)460:894-898)的情况下,以高效率生成文库。然而,密码子突变的效率有所降低(约20%),这可能是由于在等位基因替换过程中的muts校正。在此项工作中,当构建的两个阶段都在muts+背景下进行时,最终密码子编辑效率约为10%。

为了提高carpe方法的最终编辑效率和通用性,可以在转移到muts+供体菌株之前在muts缺乏的菌株中进行供体构建,以试图防止在供体构建阶段中突变的损失。

实施例2:使用carpe方法靶向必需基因

为了测试carpe方法的通用性,如上所述对包括dxs、meta和fola在内的多种必需基因使用该方法。可以使用grna设计策略靶向必需基因(图3)。

来自靶向dxs基因的carpe实验的数据也表明,尽管在供体文库创建过程中发生基因破坏,但在重组工程化后1-3小时内有效构建并重获供体文库是可能的。

实施例3:使用carpe方法调整异戊烯醇的生产

经由细菌生产寻求用于工业生产的更好的生物燃料,需要进行现有技术基因组设计、工程化和筛选所需产物的能力。先前我们证明了单独改变大肠杆菌基因组中每个基因的表达水平的能力(warner等人nat.biotechnol(2010)28:856-862)。该方法(被称为可追踪多路重组工程化(trmr))产生了约8000个基因组修饰的细胞的文库(约4000个过表达的基因和约4000个敲减的基因)。随后在不同条件下筛查该文库,这使得能够更深入地了解基因产物的活性并在这些选择下产生表现更好的菌株。trmr允许改变两个水平的蛋白质表达(过表达的和敲减的)但不能实现开放阅读框(orf)的修饰。在此,我们的目的是产生orf修饰的大文库,并对整个代谢途径进行工程化以最优化生物燃料的生产。

产生这样的理性设计(相比于随机诱变)的文库的主要困难是将所需突变插入靶细胞中的效率。重组工程化——在大肠杆菌中进行基因组修饰的典型方法——使用来自λ噬菌体的重组基因来促进外来dna向宿主基因组中的插入。然而,该方法具有低效率,并且可通过添加抗生素抗性基因随后选择(如在trmr中)或通过递归诱导重组事件(即,通过mage(wang等人nature(2008)460:894-898))来克服。本文所述的carpe方法提高了重组工程化效率,包括使用crispr系统从群体中去除所有非重组细胞。crispr是近来发现的细菌和古细菌针对入侵噬菌体和质粒的基于rna的适应性防御机制(bhaya等人ann.rev.ofgenetics(2011)45:273-297)。该系统经历巨大工程化,以使得能够使用两个质粒来允许序列引导的双链断裂,一个质粒编码crispr相关的核酸酶cas9,而第二个质粒编码序列特异性指导rna(grna),grna将cas9引导至其独特的位置(qi等人cell(2013)45:273-297)。carpe方法利用crispr系统以序列依赖性方式诱导dna断裂并因此导致细胞死亡的能力。我们产生了dna重组工程化盒,它除了orf内的所需突变以外还包含在被crispr机制所针对的基因的开放阅读框外部的常见位置中的突变。这种将所需突变与由于pam突变/缺失而避免crispr介导的死亡相连接/偶联的方法使得能够显著富集在全部细胞群体内的工程化细胞。

使用dxs途径进一步阐释所述方法。dsx途径导致产生异戊烯焦磷酸(ipp),ipp导致萜类和类萜化合物的生物合成。有趣的是,如果添加所需基因,ipp还可以是番茄红素或异戊烯醇的前体。番茄红素使得细菌菌落呈红色,并因此可容易地筛选,而异戊烯醇被认为是具有比乙醇更高的能量密度和更低的水混溶性的‘第二代’生物燃料。选择以下三种蛋白质进行工程化:1)dsx,所述途径的第一个限速酶,2)ispb,其将代谢流从dxs途径转移,和3)nudf,已证明其在大肠杆菌和枯草芽孢杆菌(b.subtilis)中均将ipp转化为异戊烯醇(withers等人app.environ.microbiol(2007)73:6277-6283;zheng等人biotechnol.forbiofuels(2013)6:57))。将采用针对菌落颜色量化开发的新的图像分析工具针对增加的番茄红素产量来筛选编码dxs和ispb的基因的突变。nudf活性通过经gc/ms测量异戊烯醇水平而直接测定,并且通过将会用作生物传感器的异戊烯醇营养缺陷型细胞而间接测定。该方法提供了以高准确度和效率将大的突变文库理性工程化至大肠杆菌基因组中的能力,以及产生高产率异戊烯醇的菌株。

实施例4:使用gen-tracer方法编辑galk

使用gen-tracer方法编辑galk基因,galk基因已用作在大肠杆菌中重组工程化的模式系统(yu等人2000)。构建的第一gen-tracer盒被设计为在galk的密码子24处引入终止密码子代替框内pam,被称为galk_q24(图12)。使用自定义的python脚本设计构建体和载体以高通量地生成必要突变。

使用环形聚合酶克隆(cpec)法将对照盒克隆至由qi等人cell(2013)描述的grna载体中。采用以下引物使骨架线性化:ccagaaatcatccttagcgaaagctaaggat(seqidno:29)和gttttagagctagaaatagcaagttaaaataaggct(seqidno:30)。

gentracer盒作为gblock定购,并使用以下引物进行扩增:atcacgaggcagaatttcagataaaaaaaatccttagctttcgctaaggatgatttctgg(seqidno:31),actttttcaagttgataacggactagccttattttaacttgctatttctagctctaaaac(seqidno:32)。

使用cpec将组件缝合在一起,并将组件转化至大肠杆菌中以生成载体。使用合并的寡核苷酸文库以多路的方式执行该程序,其中克隆效率为104-105cfu/μg的数量级。

在30℃下,在含有50μg/ml卡那霉素和34μg/ml氯霉素的lb中,使携带psim5(λ-red质粒)和x2-cas9质粒的大肠杆菌mg1655细胞生长至对数中期(0.4-0.7od)。在42℃下诱导psim5载体的重组工程化功能15min,随后在冰上放置10min。随后通过沉淀并用10ml冷却h2o洗涤2次而使细胞成为电感受态细胞。将细胞用100ng的gen-tracer质粒(也编码羧苄青霉素抗性)转化并在37℃下恢复3hr。将50-100μl的细胞接种到含有50μg/ml卡那霉素和100μg/ml羧苄青霉素的合适的培养基中,以选择性地富集crispr编辑的菌株。在补充有半乳糖的macconkey琼脂上使用红色/白色筛选,计算galk基因的编辑效率。

基于macconkey琼脂上的筛选,观察到galk_q24*设计有约100%的编辑效率。有趣的是,不同于需要错配修复敲除来达到高效率的寡核苷酸介导的重组工程化方法(li等人2003;sawitzke等人2011;wang等人2011),在错配修复机制完整或不完整的情况下在菌株中没有影响。

随后通过sanger测序验证染色体和载体序列。

如所预期的,载体中设计的突变反映在染色体上(图13),这表明突变存在于两个位置中并且该质粒充当反式作用条形码(反式条形码)或基因组编辑的记录。

所述设计适合于通过生成由同义pam突变(图14b,δpam)组成的“沉默可选择疤痕”,在基因组规模上理性诱变蛋白质编码框,以针对cas9介导的裂解“免疫”该细胞,而使翻译产物未受到干扰。我们推断沉默疤痕可以允许以高效率共选择在密码子附近的编辑或其他感兴趣的特征。评估同源性臂长和galk中pam突变/缺失与所需突变之间的距离的影响,并比较其效率(图16b)。当用相同的pam编辑将同源性臂长从80个核苷酸延伸至100个核苷酸时,观察到在galk位置145处的突变效率显著增加(分别为约5%和45%)。

实施例5:使用gen-tracer方法重建突变

使用自定义的自动化设计软件将gen-tracer方法扩展至基因组规模,该软件允许用简单的用户输入定义来靶向基因组周围的位点。通过重建来自近来报道的大肠杆菌热适应研究(tenaillon等人2012)的全部非同义点突变来测试所述方法。该研究表征了在来自独立繁殖的菌株的115个隔离株中发生的全套突变。该数据集提供了突变的多样化来源,该来源的单独适合性影响进一步阐明了这一复杂表型的机械基础。在密码子使用和δpam中,在可能的情况下,这些突变中的每一个均以2倍冗余度重建,以便在下游适合性分析中实现pam和靶密码子突变的统计校正。

实施例6:使用gen-tracer方法调整遗传相互作用

通过在大肠杆菌基因组中每个基因的上游整合被环境因素(氧水平、碳源、应力)动态调节的启动子来生成启动子重置(rewiring)文库。使用gen-tracer方法生成菌株,该菌株具有可能有利于例如对用于生产的感兴趣化学品的耐受性的重置的基因型。

序列表

<110>科罗拉多州立大学董事会(法人团体)

<120>crispr支持的多路基因组工程化

<130>c1102.70033wo00

<140>pct/us2015/015476

<141>2015-02-11

<150>61/938,608

<151>2014-02-11

<160>33

<170>patentin版本3.5

<210>1

<211>22

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>1

ccgtggatcctaggctggtctc22

<210>2

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>2

gcctggctaagtgaatt17

<210>3

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>3

agcaaaaacaggtatta17

<210>4

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>4

aaacaggtattaaagag17

<210>5

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>5

gcctggccgcgtgaatt17

<210>6

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>6

ccagtttcaaggctgta17

<210>7

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>7

ccagtttgtaggctgta17

<210>8

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>8

cttcaaacgtaccctgg17

<210>9

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>9

agccaaaaataggtatt17

<210>10

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>10

gcctggccgcgtgaatt17

<210>11

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>11

cttcaaaaggaccctgg17

<210>12

<211>17

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>12

cttcaaaacaaccctgg17

<210>13

<211>1052

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<220>

<221>misc_feature

<222>(325)..(325)

<223>n为a、c、g或t

<220>

<221>misc_feature

<222>(632)..(632)

<223>n为a、c、g或t

<220>

<221>misc_feature

<222>(806)..(806)

<223>n为a、c、g或t

<220>

<221>misc_feature

<222>(892)..(892)

<223>n为a、c、g或t

<220>

<221>misc_feature

<222>(985)..(985)

<223>n为a、c、g或t

<400>13

cggaaccggtattgcagcagctttatcatctgccgctggacggcgcacaaatcgcgctta60

acggtcaggaagaacctcgtgaatcgcatctccgcaacgccaatgacactccgccagcag120

aacgcggcgttggtatggtgtttcagtcttacgcgctctatccccacctgtcagtagcag180

aaaacatgtcatttggcctgaaactggcaagcacgcccggtagcagagcccgagtattac240

atcgaactggatttcaacagcggtaagatccttgagagttttcgccccgaagaacgtttt300

ccaatgatgagcacttttaaagttntgctatgtggcgcggacggtttgggcgaggatgtt360

cgggactgagcgtatggaagagcacttgcgttttgccgcctgctactggcacaccttctg420

ctggaacggggcggatatgtttttcagattgggttgcgagtggtgggcgacggttttatg480

attgcaggtccgctgggcggctggtgcattaagcacttcgaccgctgggtagacggtaag540

atcaaatgccgattgtcagttggagggagcaagggaaccagatcaaaccagagcacttca600

aaaactgggttgaatgggcgaaagccaatcanctcggtctggatccaaccatgcgtatcg660

tgccaagtgcgtcccagacaacaagtatatgaattatcggaggttgtcgatcaactcgat720

atacccgtactttgttatggtttacgtaccgattttcgaggtgaattatttattggcagc780

ccccgttgtggtgtccttctgatgancccattacaggcacgcttgagccaggacctggcg840

cgcgagcaaattcgccaggcgcaggatggtcacttaccgacttgcaacttancccgctgt900

tcccgaggacgttaacgcgctggtcgatgagtacaaaagctgctacaccatgacgccttg960

cataggagccacgaaccgccatacnagacattttgaggcatttcagtcagttgctcaatg1020

tacctatacccagaccgttcagctggatatta1052

<210>14

<211>59

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>14

tttataaatagatggccaatacctccagtcctatggagttggaatgttaatgacccggg59

<210>15

<211>59

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>15

tttataaatagatggccaatacctcaagggctttggagttggaatgttaatgacccggg59

<210>16

<211>59

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>16

tttataaatagatggccaatacctcaaggcctatggagttggaatgttaatgacccggg59

<210>17

<211>59

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>17

aaatatttatgtaccggttatggagttccggatacctcaaccttacaattactgggccc59

<210>18

<211>76

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>18

cactcacaccatttaaacgcctggccgcgtgaatttgattggtgaacacaccgactacaa60

cgacggtttcgttctg76

<210>19

<211>76

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>19

cagaacgaaaccgtcgttgtagtcggtgtgttcaccaatcaaattcacgcggccaggcgt60

ttaaatggtgtgagtg76

<210>20

<211>24

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>20

cacaccatttaaacgcctggccgc24

<210>21

<211>24

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>21

cacaccatttaagcgcctggccgc24

<210>22

<211>24

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>22

cacaccattcaggcgcctggccgc24

<210>23

<211>45

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>23

ggaaccgtattgcagcagctttatcatctgccgctggacggcgca45

<210>24

<211>15

<212>prt

<213>人工序列

<220>

<223>合成多肽

<400>24

glythrvalleuglnglnleutyrhisleuproleuaspglyala

151015

<210>25

<211>45

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>25

ggaacggtattgcagcagctttaacatctgccgctggacggcgca45

<210>26

<211>7

<212>prt

<213>人工序列

<220>

<223>合成多肽

<400>26

glythrvalleuglnglnleu

15

<210>27

<211>7

<212>prt

<213>人工序列

<220>

<223>合成多肽

<400>27

hisleuproleuaspglyala

15

<210>28

<211>200

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>28

ttcggatcgcaggctgcaccgggttaagttcttccgcttcactggaagtcgcggtcggaa60

cggtattgcagcagctttaacatctgccgctggacggcgcacaaatcgcgcttaacggga120

tcttgacagctagctcagtcctaggtataatactagtatgataaagctgctgcaatagtt180

ttagagctagaaatagcaag200

<210>29

<211>31

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>29

ccagaaatcatccttagcgaaagctaaggat31

<210>30

<211>36

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>30

gttttagagctagaaatagcaagttaaaataaggct36

<210>31

<211>60

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>31

atcacgaggcagaatttcagataaaaaaaatccttagctttcgctaaggatgatttctgg60

<210>32

<211>60

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>32

actttttcaagttgataacggactagccttattttaacttgctatttctagctctaaaac60

<210>33

<211>200

<212>dna

<213>人工序列

<220>

<223>合成多核苷酸

<400>33

cttgctatttctagctctaaaactattgcagcagctttatcatactagtattatacctag60

gactgagctagctgtcaagatcccgttaagcgcgatttgtgcgccgtccagcggcagatg120

ttaaagctgctgcaataccgttccgaccgcgacttccagtgaagcggaagaacttaaccc180

ggtgcagcctgcgatccgaa200

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1