识别影响表型的遗传元件的分析的制作方法

文档序号:14186359阅读:157来源:国知局

基于诱变的遗传学已用于研究多种不同的表型。该强大的方法已识别细胞分裂需要的基因(通过搜索温度敏感突变酵母菌株)、早期胚胎发育(通过筛选蝇类中的异常胚胎发生)和程序性细胞死亡(通过研究秀丽隐杆线虫(c.elegans)中的发育中的细胞死亡)。通常,将选择的有机体诱变处理,并且检查所得后代(有时在杂交后)的感兴趣的表型。



背景技术:

在这些情况下,重要的是可以使用活的突变有机体从而将感兴趣的突变与所观察的表型联系。在一些情况下,表型是致死的或降低适应性(fitness)(例如果蝇中的早期发育缺陷或酵母中的细胞分裂表型)。对于这类表型,可将主效突变(causativemutation)可映射在受影响的后代的亲代中,或可利用温度敏感的等位基因。

通常,遗传筛选中的一种主要问题是存在高水平的“噪声(noise)”,显著地妨碍与所研究的表型相关的相关候选物(candidate)/基因的识别。这类噪声的实例包括存在结果是不相关、或不可重复等的大量潜在命中(hit)。因此遗传筛选不仅需要繁复的实验和后续研究来在识别的很多潜在命中中发现相关的,而且还意味着只有非常强的信号可能挑选出。遗漏了在筛选中较不强的但在与所研究的表型的关系中相关的信号/命中。

鉴于此,允许例如在真核系统中基于在细胞内表现的(即在细胞中或有机体的细胞中存在)、或仅可在细胞内检测的(需要进入细胞内部)表型性状的可靠遗传筛选的用于高通量手段的方法是高度期望的,但尚不容易用于在大群体(库(pool)、混合库(complexpool))的修饰细胞(存在突变的异种群体)进行基于诱变的遗传学或其他遗传筛选。

特别地,本领域明确需要可靠、有效和可重复的方法,所述方法允许直接识别影响细胞或有机体的表型(即涉及改变或提供给定特征的某个性状)的未知的遗传元件(geneticelement)(基因、外显子、内含子、snp等),包括由于高水平的噪声而在现有技术遗传筛选中将难以识别的这种遗传元件。这对于在细胞内表现(或仅可在细胞内检测)的那些表型特别相关。具有这种方法将同时允许与这些遗传元件相关的细胞元件(cellularelement)(包括但不限于由这种遗传元件表达或调控的蛋白质、这种细胞元件和/或由这些细胞元件调控或产生的相关生物分子(例如脂质、其他蛋白质或酶、代谢物)的活性)的识别。



技术实现要素:

因此,可在提供符合任何上述需要的这种方法中见到本发明的基本的技术问题。通过权利要求和下文中表征的实施方案来解决所述技术问题。

本发明的目的是提供允许识别影响表型、优选(至少部分)在细胞内表现和/或需要在细胞内检测的遗传元件特别是内源遗传元件的方法或改进的方法。

本发明的进一步目的是提供允许识别与影响表型的遗传元件相关的细胞元件的方法。

本发明的目的是提供允许从已进行诱变处理的大细胞群体中识别一种或多于一种遗传元件(和/或与其相关的细胞元件)的方法,其中各单独的遗传元件、或组合影响在细胞内表现和/或在细胞内检测的表型。

本发明的目的是提供正向遗传筛选(forwardgeneticscreen),其允许识别影响在细胞内表现和/或在细胞内检测的表型的遗传元件(和/或与其相关的细胞元件)特别是内源遗传元件。

本发明的目的是提供这样的正向遗传筛选,其不受或较小程度地受相对高的噪声与相关命中之比的妨碍,换言之示出低水平的噪声即不相关命中。因此这允许相关遗传元件的直接识别,并且可防止或减少其他繁复的验证研究。

本发明的目的是提供真核细胞中的上述内容,所述真核细胞例如但不限于人类细胞,包括携带致病突变的细胞,例如人类癌细胞。

本发明的目的还是提供识别由影响细胞表型的候选基因编码的基因产物、特别是内源基因产物的调节剂(modulator)例如药物的方法。

本发明的目的是提供建立或分析用于识别疾病例如但不限于癌症涉及的基因、用于研究药物-靶标相互作用、用于研究药物-药物相互作用、或分析表型优选与包括癌症的疾病相关的表型的抑制或调控的生物通路的方法。

用本文公开的本发明的方法解决这些和其他目的。

附图说明

图1.对已用多聚甲醛固定的诱变的细胞群体的遗传筛选。

图2.诱变的细胞库的表型分离和通过测序的基因陷阱(gene-trap)插入位点的识别。

图3.识别akt磷酸化的调节因子(regulator)的全基因组(genome-wide)诱变筛选。

图4.kctd5影响akt磷酸化。

图5.筛选方法适用于可以可视化的和用于基于信号强度分离细胞群体的任何细胞内表型。

图6.irf1蛋白质水平(蛋白质表达)的筛选。

图7.iκbα表达(蛋白质降解)的筛选。

图8.p38磷酸化的筛选。

图9.辐射的细胞中的dna损伤的筛选。

图10.组蛋白尾修饰(histonetailmodification)的筛选。

图11.kctd5调节gpcr信号传导。

图12.基于crispr/cas9的筛选识别kctd5为磷酸-akt(pakt)负调节因子。

图13.一组表型中基因相关表型的比较。

图14.组蛋白中相同氨基酸处两种相似的翻译后修饰(posttranslationmodification,ptm)所需要的基因的比较分析。

图15.溶酶体蛋白lamp1丰度的筛选。

图16.单倍体遗传筛选识别在突变时改变疾病标记物水平的基因。

具体实施方式

定义

在以下描述和实例中,使用多个术语。为了提供说明书和权利要求的清楚的和一致的理解(包括待给予这类术语的范围),提供以下定义。除非本文另有定义,所使用的所有技术和科学术语具有如本发明所属领域普通技术人员通常理解的相同的含义。所有出版物、专利申请、专利和其他参考文献的公开内容全部引入本文以作参考。

如本文所使用的,除非另有定义,术语“普通科学术语”指的是具有如本发明所属领域普通技术人员通常理解的相同的含义的技术和科学术语。本领域技术人员将认识到可用于本发明实施的与本文所述的那些相似或等同的很多方法和材料。的确,本发明决不限于所述的方法和材料,并且分子生物学、生物化学、计算化学、细胞培养、重组dna、生物信息学、基因组学、测序和相关领域内的常规技术的实施是本领域技术人员公知的。

如本文所使用的,除非上下文清楚地另有指示,单数形式"一个/种(a,an)"和"所述"包括复述指示对象(pluralreferents)。例如,用于分离"一个"dna分子的方法包括分离多个分子(例如几十、几百、几千、几万、几十万、几百万或更多个分子)。

如本文所使用的,并且除非特别说明或从上下文明显看出,术语"约"理解为在本领域的一般公差(normaltolerance)的范围内,例如在平均值的2个标准差内。约可理解为在所述值的10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.1%、0.05%、或0.01%内。

如本文所使用的,术语“和/或”表示所述情况的一个或多个可单独发生或与至少一种所述情况直至与所有所述情况组合发生。

如本文所使用的,"至少"特定值意为特定值以上。例如,"至少2"理解为与"2以上"即2、3、4、5、6、7、8、9、10、11、12、13、14、15、…等相同。

如本文所使用的,术语“扩增”指的是多核苷酸扩增反应,即,从一种或多种起始序列复制的多核苷酸群体。扩增可指多种扩增反应,包括但不限于聚合酶链式反应、线性聚合酶反应(linearpolymerasereaction)、基于核酸序列的扩增、滚环扩增和相似反应。典型地,扩增引物用于扩增,扩增反应的结果为扩增子。

如本文所使用的,术语“包括(comprising,tocomprise)”和其词形变化指的是所述术语以它们的非限制性意义使用从而意为包括所述词之后的项目、但不排除未特别提及的项目的情况。其还涵盖更限制性的动词“由…组成”。

如本文所使用的,术语“交联”指的是在两个不同位置处将试剂与dna反应从而可连接这两个不同位置的行为。交联可在同一(双链)dna分子的dna链之间和/或dna和蛋白质之间发生。可根据本发明有利地使用的交联剂为(多聚)甲醛。甲醛诱导蛋白质-蛋白质和dna-蛋白质交联。因此甲醛可通过它们的相关蛋白质将不同的dna链彼此交联。可通过加热步骤例如通过在60℃下温育来逆转交联。交联导致蛋白质和/或dna之间的交联的形成,并且允许dna的三维状态基本上保持不变。

如本文所使用的,术语基因的“表达水平”指的是由基因转录的rna转录物的量和/或可从rna转录物例如mrna翻译的蛋白质的量。例如,对于编码mirna的基因,可通过例如使用标准方法如成熟mirna的定量pcr、微阵列(microarray)、或rna印迹量化表达的rna转录物的量来测定表达水平。可选地,表达水平还可通过测量mirna对靶mrna的作用来测定。

如本文所使用的,术语“基因的表达”指的是将可操作地连接至合适的调节区域特别是启动子的dna区域转录为具有生物活性的,即可翻译为生物活性的蛋白质或肽(或活性肽片段)的、或(例如在转录后基因沉默(genesilencing)或rnai中)本身具有活性的rna的过程。

如本文所使用的,术语“基因”指的是含有可操作地连接至合适的调节区域(例如启动子)的、在细胞中转录为rna分子(例如mrna)的区域(转录的区域)的dna序列。因此基因可含有多个可操作地连接的序列,例如启动子、含有例如参与翻译起始的序列的5’前导序列、(蛋白质)编码区域(cdna或基因组dna)和含有例如转录终止位点的3’非翻译序列。

如本文所使用的,术语遗传元件指的是dna或rna分子中的元件,即dna或rna分子的基本部分、或本领域技术人员认为是这类的部分。遗传元件可由一种核苷酸组成,或可含有多于一种核苷酸。在遗传元件含有多于一种核苷酸的情况下,这些核苷酸为相邻核苷酸。因此遗传元件可例如由任何数量的相邻核酸(例如长度为至少/至多1、5、10、100、1000、10000、100000、1000000个核酸)组成,或可由不同组的这种相邻核酸(例如空间上分离的外显子)组成。在本发明的上下文中,遗传元件是用根据本发明的方法认为是影响所研究的表型的dna或rna分子的部分。遗传元件可为dna分子或rna分子(的部分),并且可例如存在于染色体或附加体(episomal)上。在真核生物中,遗传元件可例如存在于核中、细胞溶胶中、或任何其他细胞器中,包括线粒体。遗传元件可天然地存在于进行本发明的方法的细胞中,或可为有目的的引入这些细胞的遗传元件。然而,优选遗传元件为本发明的方法中使用的细胞内源(即源自获取细胞的有机体内和/或持续存在于有机体/细胞的种系)的遗传元件。例如,遗传元件可为用基因识别的单核苷酸多态性(snp),其中根据本发明的方法将snp的存在识别为与所研究的表型相关。然而,优选遗传元件是如通常由本领域技术人员认可的功能遗传元件,包括和优选但不限于启动子、基因、内含子、外显子、增强子、非编码rna分子、和阻抑物元件(repressorelement)等。还考虑单核苷酸多态性(snp),例如没有相关基因的snp。本文所使用的“细胞元件”指的是任何其他元件,特别是不是dna或rna分子的细胞中的生物分子。该上下文中的术语细胞元件指的是不是遗传元件的细胞中的任何其他元件,并且包括但不限于存在于细胞中的蛋白质、脂质、糖、和碳水化合物,但还包括存在于细胞中的其他代谢物和生物分子、细胞的细胞器或膜。如本领域技术人员将理解的,用根据本发明的方法识别遗传元件还可允许识别相关细胞元件。例如在遗传元件是编码蛋白质的基因(的部分)的情况下,由所述基因编码的蛋白质是相应的细胞元件。例如,在遗传元件是编码已知为结合特定脂质的蛋白质的基因(的部分)的情况下,所述脂质也可为相应的细胞元件。例如,在遗传元件是非编码rna例如参与rna干扰的情况下,含有所述非编码rna的互补体(complement)的rna、和编码的蛋白质是相应的细胞元件。

如本文所使用的,术语“基因产物”指的是由作为特定基因的转录和翻译的产物的核苷酸或氨基酸链组成的分子,不提及特定作用模式、尺寸、三维结构或来源。

如本文所使用的,术语“高通量测序”和“下一代测序”和“深度测序(deepsequencing)”指的是可生成通常是数千(即几万或几十万)或数百万数量级的序列读序(read)而不是一次几百的大量读序的测序技术。高通量测序区别和不同于常规桑格(sanger)或毛细管测序(capillarysequencing)。

如本文所使用的,"小于"或"多至"等意为从零多至且包括提供的值的范围。例如,"小于10"或"多至10"理解为0、1、2、3、4、5、6、7、8、9、或10。

如本文所使用的,术语“表型”指的是有机体或有机体的细胞的至少一种可观察特征(characterstic)或性状,例如其形态、发育、生物化学或生理特性、物候学、行为、和行为的产物。表型起因于基因的表达以及环境因子的影响,和两者之间的相互作用。虽然表型是有机体所展示的可观察特征的集合,但表型组(phenome)一词有时用来指性状的集合,并且它们的同时研究称为表型组学(phenomics)。因此本文所使用的“影响表型的遗传元件”指的是影响所述表型的表现的如本文所定义的遗传元件,即所述表型的/调控所述表型的/影响所述表型的调节剂。遗传元件可例如涉及引起或促进表型的第一性状(或特征的第一性状),或可涉及抑制相同表型的另一性状。在这类遗传元件中诱导改变,例如,如本文所述的诱变处理的结果,可因此引起这类表型的修饰(性状可改变)。因此本发明的方法允许基于检测所述/一种受影响的(改变的(changed)、修饰的(modified)、变化的(altered))表型(即表型性状的表现、表型特征的不同变体、或有机体或细胞的特点(character))来识别这类遗传元件。

如本文所使用的,术语"启动子"指的是功能为控制一个或多个基因的转录的核酸片段,其相对于基因的转录起始位点的转录方向位于上游,并且通过下列物质的存在而在结构上识别:dna依赖性rna聚合酶(dna-dependentrnapolymerase)的结合位点,转录起始位点,和任何其他dna序列,包括但不限于转录因子结合位点、阻抑物和激活物蛋白结合位点、和本领域技术人员公知的直接或间接作用来调节从启动子的转录量的任何其他核苷酸序列。

如本文所使用的,术语“测序”指的是测定核酸样品例如dna或rna中的核苷酸(碱基序列)的顺序。

如本文所使用的,在生物学的背景下,术语“性状”指的是关于有机体、或单个细胞的单个成员相比于相同有机体的或(任何)其他单个细胞的(任何)其他单个成员的任何表型不同的特点的性状。例如,在本发明中,比较(来自相同有机体的)细胞的(优选相同特点的)性状。在本发明的上下文中,性状可遗传,即可通过有机体中的遗传信息的方式传递至有机体的下一代。如本文所使用的,术语“相同特点的性状"和"所述特点的性状"指的是特点所存在的(或变得明显的)至少两种性状的组中的任何一个。例如,在特点"花的颜色"的情况下,表型表现(性状)可包括蓝色、红色、白色等。在上述实例中,蓝色、红色、和白色都是相同特点的不同性状。

本发明的具体描述

本发明的目标和目的用在权利要求、从属项(clauses)、说明书、附图和实施例中在此所表征的本发明的方法来解决。

本发明的方法是一种高通量手段,其例如在真核系统中基于优选在细胞内表现或仅可在细胞内检测的表型性状提供可靠的遗传筛选的。所述方法关于对/用大细胞群体即细胞的库或混合库进行的基于诱变的遗传学。优选细胞的库由等基因的细胞组成或为相同类型(例如,源于相同的细胞系)的细胞。库中的细胞可进行诱变处理。这些处理可为就细胞中引入的突变而言获得异质细胞群体。换言之,在处理后,库中的不同细胞可含有在多种位置处的和多种数量上的多种突变。例如,这种诱变处理后群体中的第一细胞可含有5种突变,例如基因a、基因b、外显子c、内含子d和基因e中的突变,而另一细胞可含有基因组中的不同位置处的和不同数量的相同突变。在修饰基因表达和如本文详述的处理的情况下,可设想相应的情况。接下来,基于所研究的表型(优选在细胞的固定和透化后)对经处理的库中的细胞进行分选;例如在不具有给定特点的定义的(或期望的或预定的)性状的第一群体和具有该性状的第二群体中。基于分选,可识别参与表型(特点、性状)的潜在的遗传元件。

特别地,所述方法提供允许影响识别细胞或有机体的表型、特别关于在细胞内表现/仅可在细胞内检测的那些表型的未知遗传元件的可靠的、有效的和可重复的方法。

在第一方面中,提供识别影响细胞的表型的遗传元件的方法,优选其中所述表型在细胞内表现(即,可以或必须在细胞中监测,例如使用在细胞内检测表型的探针)。如本文以下所述,识别影响细胞的表型的遗传元件的方法包括多个步骤。本发明的步骤包括:

(a)将细胞库进行诱变处理;

(b)固定所述细胞库,优选用固定试剂和任选地用交联剂进行;和透化所述细胞库,优选用透化试剂进行(即,将处理的细胞池中的至少部分细胞进行固定和透化,并任选地进行交联);

(c)用一种或多种可检测探针、优选抗体或rna探针处理所述细胞库,从而特异性地检测受影响的(或表现的)表型;

(d)基于所述一种或多种可检测探针的至少一种的检测来分选所述细胞,从而获得一种或多种细胞群体;

(e)任选地,去交联所得细胞群体各自中的细胞;和

(f)测序至少部分所得细胞群体的至少部分细胞,从而识别影响所述细胞的所述表型的遗传元件。

虽然根据本发明的方法的连续步骤可连续进行(即没有任何其他步骤在本文所述的步骤之间进行),但本发明不限于此;可在本文所公开的发明方法的任何步骤之前或之后或者在本发明的方法的两个连续步骤之间进行其他步骤。

根据本发明的方法优选在体外进行,虽然原则上所述方法的某些步骤可例如在体内例如在植物或非人类动物中进行。特别地,在该方法包括将活细胞暴露于环境条件(例如应激、生长条件、药物和代谢物、和由其他细胞产生的代谢物等)的实施方案中,期望的是在体内进行至少部分的该方法。

本发明的方法仅需要一个细胞库,但可连续地或平行地使用多于一个细胞库,即在第一细胞库之后或同时(在平行实验中)进行所述方法的多个步骤。

在本发明的上下文中,术语体外用于表示用细胞进行的、并且在这些细胞的正常生物背景之外例如在组织或使用人工培养基的细胞培养(系统)中进行的方法(步骤)。在本发明的上下文中,所述术语还涵盖离体(exvivo)(即在外部环境(动物的身体外部)中在来自有机体的组织中或上完成的实验)。体内研究是在动物或植物中进行的那些。本领域技术人员将理解根据本发明的方法还可用于单细胞的有机体和/或由有限量的细胞组成的有机体(例如细菌和真菌)。优选根据本发明的方法使用真核细胞进行。

本发明的方法允许识别遗传元件。在本发明的上下文中,识别指的是建立、辨别(recognizing)和/或关联与受影响的表型相关的某种遗传元件。所述方法允许识别参与或引起或修饰表型例如引起特点的性状的表现的遗传元件。如在本文以下实施例中示例的,根据本发明的方法允许建立、辨别、或关联与给定表型相关的遗传元件。所述遗传元件可为公知的遗传元件,或甚至与给定表型相关的公知的遗传元件,但所述方法特别允许识别未知的或不知晓关于/参与给定表型的遗传元件。

所识别的遗传元件可为细胞中存在的任何遗传元件。遗传元件可为dna遗传元件或rna遗传元件,并且其可例如存在于染色体或附加体上。在真核生物中,遗传元件可例如存在于核内、细胞溶胶内、或任何其他细胞器包括线粒体内。遗传元件可天然地存在于进行本发明的方法的细胞中,或可为有目的的引入这些细胞中的遗传元件。然而,优选遗传元件为本发明的方法中使用的细胞内源性遗传元件(即源自获取细胞的有机体内和/或持续存在于有机体/细胞的种系中的)。例如,其可存在于细胞中的染色体内/上。

只要遗传元件在给定表型的上下文中识别,遗传元件可由任何数量的相邻核酸(例如长度为至少/至多1、5、10、100、1000、10000、100000、1000000个核酸)组成。

例如,遗传元件可为用基因识别的单核苷酸多态性(snp),其中根据本发明的方法将snp的存在识别为与所研究的表型相关。然而,优选遗传元件是如通常由本领域技术人员认可的功能遗传元件,包括和优选但不限于启动子、基因、内含子、外显子、增强子、非编码rna分子、和阻抑物元件等。还考虑单核苷酸多态性(snp),例如没有相关基因的snp。

如本领域技术人员将理解的,遗传元件的识别可随后用于识别其他细胞元件。例如,一旦用根据本发明的方法识别了基因,还通过根据本发明的方法识别了由这种基因编码的蛋白质。此外,例如当由所识别的基因编码的蛋白质是产生代谢物的酶时,所述代谢物可用根据本发明的方法识别。另一实例是当蛋白质例如参与其他蛋白质和/或脂质(例如激酶)的翻译后修饰、或者参与表观遗传修饰(epigeneticmodification)时;所述蛋白质的靶标也可用根据本发明的方法识别。另一实例是当基因编码非翻译转录物例如影响另一基因的表达的微小rna(microrna)时,这种转录物的靶标也可用根据本发明的方法识别。细胞元件特别是蛋白质和酶包括例如(dna和rna的)甲基化酶的这种识别,特别地认为是属于本文所述的发明。

本文所公开的方法允许识别影响细胞中的表型的遗传元件(和相应的细胞元件)(例如蛋白质或代谢物)。根据本发明的方法涉及例如使用化学诱变、基因陷阱或使用引导rna序列(guidernasequence)的crispr文库(本文以下详细讨论)将细胞进行诱变处理。在优选的实施方案中,处理例如允许在进行处理的细胞库中引入很多不同的和全基因组的突变。换言之,在细胞库中(即在相同样品中),作为细胞的处理的结果,细胞将携带很多不同的(例如随机的)突变,并且其中不同细胞携带不同突变。

接下来,为了识别引起或关联给定表型即影响表型的遗传元件,基于至少一种给定表型来分选细胞。换言之,用根据本发明的方法识别的遗传元件涉及引起或关联所考虑的特点的性状和/或表型。例如,识别的遗传元件可为作为例如诱变处理的结果而已经突变的基因,所述基因引起例如相应蛋白质的不表达,这转而引起给定特点的某种性状、表型。遗传元件,在该情况下为基因,由此涉及建立特点的多种性状(一种性状为遗传元件(在这种情况下为基因)的不表达的结果,而因此另一性状与遗传元件的表达有关),并且由此影响本发明的上下文中的表型。

在本发明的上下文中,表型是由有机体或细胞表现的某种特点的性状(表型特征的不同变体)。性状可直接地或间接地观察,在后一情况下,性状是使用其他方式(例如通过使用抗体或任何其他方式或功能分析)可检测的。例如,特点可为“对药物的反应”,可能的性状为“抗性”或“敏感”。另一特点可为蛋白质的丰度,可能的性状为“低”、“正常”或“高”。第三个实例是特点“蛋白质的细胞激酶活性”,可能的性状为“无活性”、“低活性”或“高活性”。最后的实例为“蛋白质的磷酸化状态”,再次,可能的性状为例如“非磷酸化”或“磷酸化”。从上述,本领域技术人员理解性状(或表型)可以以定性方式(例如,蛋白质的非表达与表达)或以定量方式(无表达、低表达、正常表达、多于正常表达、高表达(或丰度))来考虑。

其他优选特点(和相应表型/性状)的实例包括但不限于:蛋白质的活性、蛋白质的丰度、rna的丰度、代谢物的丰度、线粒体膜电位、蛋白质的翻译后修饰、溶酶体的数量、细胞器的形状(例如使用amnis提供的流式细胞仪如imagestream)、活性氧类(reactiveoxygenspecies,ros)、过氧化物酶体或其他细胞器的数量、ca-流(ca-flux)或其他阳离子、蛋白质构象(使用构象特异性抗体筛选(例如检测错误折叠的蛋白质))、激酶活性、磷酸酶活性等,以及可列举的其他常见蛋白质活性。

对于根据本发明的方法,表型(特点/性状)可在细胞内或上的任意位置表现或检测(例如在细胞表面、细胞膜内(内层和/或外层)、细胞溶胶中、和细胞器的膜或腔内等)。表型可直接地或间接地检测。然而,并且与本领域内公知的方法相对的,根据本发明的方法特别适用于在细胞内(即除细胞表面以外的任何位置)表现或检测的表型(特点/性状)。用根据本发明的方法,变得可以通过实际上杀死细胞库中的细胞(通过透化和固定),(基于遗传元件所探寻的表型)分选来自细胞库的细胞、和使用测序技术识别涉及或关于表型的遗传元件,而在细胞库中的单个细胞中检测这类细胞内表型。在优选实施方案中,表型是在细胞内表现的、特别是例如在固定和透化细胞库(本文以下更详细地讨论)后可在细胞内检测的表型。在进一步优选的实施方案中,表型是仅可在细胞内检测的表型,并且因此需要准备已进行固定和透化的、并且作为这种处理的结果为无活性的细胞。优选在细胞内检测的表型是仅可间接地检测(即对肉眼不可见,但需要其他方法例如探针来检测表型)的表型。在特别优选的实施方案中,根据本发明的方法是用于识别影响细胞的表型的遗传元件(例如启动子、基因、内含子、外显子、非编码rna)的方法,其中所述表型是(待)细胞内检测的表型。换言之,根据本发明的方法特别适用于但不限于可在以例如通过透化细胞膜、允许检测探针进入细胞等可在细胞内检测表型的方式处理细胞后检测到的那些表型。这种处理使细胞变得无活性(即细胞不可在数量上倍增)。在进一步优选的实施方案中,虽然本发明不限于此,所述方法用于仅可在细胞内检测的、即在性状(表型、特点)可检测前需要细胞膜透化的性状(表型;特点)。在这类实施方案中,不可从细胞外部检测性状(表型、特点)(即性状(表型、特点)仅可在细胞内检测)。

在本文所述方法的初始步骤中,将细胞库进行诱变处理(例如如本文所详述的)。虽然不限于此,但细胞库可优选从同一个体有机体获得的细胞,尽管还可使用包含不同来源的细胞的细胞库。细胞库可为原代细胞,但是为了实用的原因,优选使用细胞系。细胞系可为建立的细胞系(例如商购可得的细胞系)。库中的细胞的数量对于本文所述的方法不重要,但根据例如在该初始步骤中使用的细胞和或处理方法,库可典型地包含1百万至几亿个细胞。

术语诱变处理在本领域内公知,并且关于例如通过一种或多种核苷酸的插入、缺失或取代而在细胞中存在的原始遗传信息(dna)中引入改变的处理。突变可包括仅一个核苷酸的改变,或可包括很多相邻核苷酸(例如通过其他核苷酸的缺失或插入)。在本发明的上下文中,诱变处理优选引起全基因组的缺失、插入或取代,即可以在进行处理的细胞中存在的整个基因组的不同位置处引起突变。突变处理优选以随机或半随机方式引起突变,即处理不是特异性针对例如一种预定遗传元件的处理。还考虑包含以下方式的文库的用途,其中各方式在特定位置处引入特定突变,并且其中文库中的方式共同引入全基因组的突变(即在整个基因组的不同位置处)。

该初始步骤中使用的诱变处理优选但不限于在整个基因组中引入很多不同突变的处理。换言之,根据本发明的方法的诱变处理优选为引入很多不同突变的、并且在进行处理的细胞中存在的整个遗传物质的很多不同位置处的处理。作为结果,获得细胞库,其中一种细胞与相同细胞库中的另一细胞相比可具有不同突变,并且其中细胞可具有多于一种突变、并且在细胞中存在的遗传物质中的不同位置处。换言之,诱变处理是在多于一个位置处引入突变、即提供当相互比较时携带不同突变的细胞的处理。例如,诱变处理可为随机地或半随机地引入突变的、并且因此可影响细胞中存在的不同遗传元件的处理。可选地,可通过使用各自针对特定靶的(大量的)一些突变(例如使用crispr技术)提供诱变。通过用这种文库处理,还将获得各自携带(位置上和数量上)不同的突变的细胞。使用诱变处理,细胞库因此变为就在单个细胞中的突变的存在而言并且与未处理的细胞库相比的异质细胞库;即异质诱变的细胞库。

的确,一个目标是提供允许识别参与给定表型的(新的)遗传元件的本发明的方法。在这方面,所述方法认为是关于正向遗传筛选,即测定负责、参与或关联给定(预定)表型的遗传基础。因此,根据本发明的所述方法还可认为是用于测定负责、参与、关联表型例如预定表型的遗传元件的方法。所述方法首先检测或测定表型,然后识别影响所述表型的遗传元件(正向遗传手段)。正向遗传学不同于反向遗传学,所述反向遗传学通过分析变化的dna序列(例如通过在预定的遗传元件中有目的地和有选择地引入突变)的表型作来测定基因的功能。

本领域技术人员熟知细胞库进行诱变处理和/或修饰基因表达的处理所需要的条件和情况。这类方法已在各种手册中广泛地描述,并且对于本领域技术人员是容易获得的。例如,可使用本文实施例所述的方法。

在根据本发明的方法的下一步中,将进行诱变处理的细胞库固定和透化。这可在一个步骤中进行(使用固定并且透化细胞的一种组合物),或可使用单独的组合物在不同步骤中完成。本领域技术人员熟知用于固定细胞的方式和方法。固定可包括交联,但还可用非交联剂完成。因此在一个实施方案中且任选地,固定包括交联。在另一实施方案中,将细胞固定、交联和透化。在其他实施方案中,将细胞固定和透化。这可在同一处理中或在不同处理中完成。通过细胞固定,防止自溶和/或腐败,因此保存细胞组分。特别地,细胞固定允许(细胞)dna和/或rna的稍后的提取和后续测序。

在本领域中,很多不同方法或方案可用于细胞、包括在本发明的方法中使用的这类细胞库的固定。例如,可使用基于使用交联固定剂例如醛类的方案来进行固定(交联固定剂通过在细胞中的蛋白质之间产生共价化学键来作用),或可使用基于使用沉淀固定剂例如醇类的方案来进行固定(例如如smith等人analbiochem.1987;160(1):135-8所述;沉淀固定剂通过减少蛋白质分子的溶解度来作用,并且(通常)通过破坏给予很多蛋白质它们的三级结构的疏水相互作用来作用)。然而,也可使用用于细胞固定的其他方法(包括基于氧化剂、和hope(hepes-谷氨酸缓冲液介导的有机溶剂保护作用)、固定剂(例如http://www.dcs-diagnostics.de/)的方法,据报道所述方法提供蛋白质抗原的良好保存、和良好的rna和dna收率、且没有交联蛋白)。

除细胞固定以外,还透化细胞。可在相同步骤中和/或可使用相同试剂提供固定和透化。同样,本领域技术人员熟知透化细胞的方式和方法。为了检测细胞内和细胞器内的(intra-organellar)化合物(即细胞元件)例如抗原或脂质等,可需要透化。为此,例如在固定后,细胞库由此必须先透化(但固定和透化还可同时发生)。

虽然原则上可使用任何类型的试剂来透化库中的细胞,通常使用两种一般类型的试剂:有机溶剂(还可用于固定),例如甲醇、乙醇和丙酮,以及洗涤剂例如皂苷、tritonx-100和tween-20。有机溶剂溶解来细胞膜的脂质,使它们可透过。因为有机溶剂还凝固蛋白质,所述有机溶剂可用于同时固定和透化细胞。皂苷与膜胆固醇相互作用,选择性地将其移除,并且在膜中留下孔。洗涤剂例如tritonx-100和tween-20实质上是非选择性的(由jamurmethodsmolbiol.2010;588:63-6.详细综述)。

如本领域技术人员将理解的,通过固定和透化库中的细胞,由于所述细胞在固定和透化细胞的处理后不能存活,这些细胞失去分裂和生长的能力。本发明的方法因此特别用于但不限于识别影响表型的遗传元件,其中表型的检测需要细胞的固定和/或透化。

在本文所述的方法的下一步骤中,固定和透化的细胞库用可检测的、和可用于(特异性地)检测将识别遗传元件的受影响的(或表现的)表型(即特点的性状)的一种或多种探针处理。如本文上述已讨论的,性状可为定性性状和/或定量性状。在性状是定性性状的情况下,探针可用于检测表型(性状)的存在或不存在。在定量性状的情况下,使用的探针最初可在具有或不具有给定表型的细胞两者中引起可检测的信号,但基于信号的水平,对于表现所研究的给定表型,细胞将是合格的或不合格的。例如,在抗体用作探针来检测蛋白质丰度的情况下,将具有高水平的蛋白质和将具有低水平的蛋白质的细胞两者将由探针检测。基于丰度的水平(例如,低对高),如果表型定义为高蛋白质丰度,则显示低蛋白质丰度的细胞将被认为(和分选为)不具有表型。高丰度可例如定义为提供总细胞库中细胞的前5、10、20或20%高的信号。

在本发明的方法中,可使用一种或多种可检测的探针。所述探针可针对相同的表型,但也可针对在同一实验中检测不同的表型。因此还提供在同一实验(多重)中识别针对多于一种表型的一种或多于一种遗传元件的方法。

根据本发明的方法可特别用于由多于一种元件组成的表型。例如,表型/性状可定义为具有第一蛋白质的高表达并且具有第二蛋白质的低表达。在这类实施方案中,表型可因此通过检测表型的第一元件的第一探针和检测表型的第二元件的第二探针来检测。在该实例中,后续分选基于允许(从细胞库)获得表现期望的、定义的、和/或给定的表型的细胞的两种探针。因此,本发明的上下文中的表型可为仅包含一种元件的表型,但其实质上还可更复杂并且包含共同限定表型的不同元件。

在该方法的该步骤中使用的探针可为适用于检测给定表型(的元件)的任何探针。在优选实施方案中,可检测的探针为抗体、rna探针或dna探针。如本领域技术人员已知的,rna探针是用于检测样品中的互补核苷酸序列的存在的可变长度的序列。rna探针可用可通过例如荧光或化学发光检测的修饰的核苷酸来标记。例如,可利用包括rna荧光原位杂交(rnafish)的技术。例如,可使用针对端粒的rna探针从而量化端粒dna的丰度(例如作为受影响的表型)。可选地,可使用分子信标(beacon)或rna信标。(分子信标包括在一端配备有荧光猝灭剂并且在相对端配备有荧光染料(也称为报道分子(reporter)或荧光团)的茎环发夹(stem-loophairpin)结构的寡核苷酸。该结构允许信标在没有它们的互补序列时不发荧光。在结合至靶时,由于猝灭剂和报道分子的空间分离,信标发出荧光。)在根据本发明的方法中,分子信标可用作可检测探针(还参见journalofnucleicacidsvolume2011(2011),文章编号741723),并且可从不同公司例如eurogentec获得。通常,这些rna探针可用于量化rna分子例如mrna分子。它们通过杂交发现它们的靶标,并且可配备有荧光团或其他物质(参见例如klemm等人natmethods.2014may;11(5):549-51.doi:10.1038/nmeth.2910)。

合适的抗体包括但不限于检测某种蛋白质的抗体、特异性检测特定翻译后修饰的存在或不存在的抗体(例如磷酸特异性抗体(phosphospecificantibody))、或特异性检测蛋白质三级结构的抗体。其他优选探针包括但不限于抗体模拟物(antibodymimetics)(例如高亲和性多聚体(avimer)、和亲和体(affibody)分子等)、基于生物素/链霉抗生物素的探针、抗体样蛋白质捕获剂(antibody-likeprotein-captureagent)、纳米抗体(nanobody)、适体(aptamer)等。

接下来基于一种或多种可检测探针的至少一种的检测,来分选库中的细胞。阴性和阳性群体(即具有性状的和不具有性状的)的比较导致调节因子的识别。细胞的分选是本领域技术人员熟知的技术,并且可使用本领域内公知的任何方法。非限制性实例包括流式细胞术,包括荧光激活细胞分选(fluorescentactivatedcellsorting,facs)。流式细胞术和细胞分选是临床诊断和生物医学研究中已确立的技术。通常,在facs中,细胞的异质混合物置于悬浮液中,并且通过一个或多个激光探测点(laserinterrogationpoint)。收集从颗粒发出的信号,并且与给定表型例如细胞形态、表面和细胞内蛋白质表达、基因表达、和细胞生理关联。基于用户定义的参数,然后可将单个细胞从流体流转移,并且以特别高的速度和接近100%的纯度收集成均一级分(参见ibrahimsfadvbiochemengbiotechnol.2007;106:19-39)。如本领域技术人员将理解的,作为固定和透化步骤的结果,在根据本发明的方法中分选的细胞是不存活的。

其他合适的技术包括磁性细胞分选(magneticcellsorting,macs)、亲和结合技术和基于微流体学(microfluidics)的方法(由autebertj.methods.201257(3):297-307综述)。可进行的分选是一个步骤、或可由多于一个步骤组成(即其中在下一步骤中进一步分选第一组分选出的细胞)。分选导致基于所研究的表型的一个或多个细胞群体。例如,分选可导致具有通过探针检测的性状的第一细胞群体和不具有所述性状的第二细胞群体。细胞还可分选为多个不同的群体,例如,基于通过探针的检测,不含有某种蛋白质或rna的细胞、含有(用户定义的)低水平的某种蛋白质或rna的细胞、含有(用户定义的)正常水平的某种蛋白质或rna的细胞、和含有(用户定义的)高水平的某种蛋白质或rna的细胞。分选还可导致仅一种群体,其中例如(基于用于检测的探针)所有细胞表现给定表型或所有细胞不表现给定表型。所述一种群体可例如与从不具有表型/性状的细胞群体获得的先前信息比较,或通过与分选前的整个细胞群体(即未分选的群体)(的部分)进行比较来比较。

在分选细胞后,任选但优选在基于交联的固定后,为了使dna和/或rna可用于根据本发明的方法的测序步骤,可将细胞去交联。此外,例如,当醇用于细胞的固定和透化时,为了纯化来自分选的细胞的dna/rna,可用蛋白酶进一步处理细胞。在不包括交联的方法中,可使用本领域技术人员已知的方法容易地分离dna/rna,不需要去交联。用其他试剂例如甲醛(和例如洗涤剂)固定和透化的细胞可在dna分离前去交联。用于去交联细胞的方法是本领域技术人员容易获得的,并且部分取决于使用的固定和透化的方法。例如,为了促进分选的细胞的沉淀的去交联,可在缓冲液中重悬细胞,并且在搅拌下和加入蛋白酶k和裂解缓冲液后温育几小时(参见本文下述的实施例)。其他去交联方案包括没有蛋白酶k、在65摄氏度下温育5小时,之后加入蛋白酶k并且在42摄氏度下温育几小时。

因此在本发明的优选实施方案中,细胞库的固定是可逆的固定,即所述方法包括使用固定剂的可逆固定步骤(还参见例如eltoumiadvancedconceptsinfixation:1.effectsoffixationonimmunohistochemistry,reversibilityoffixationandrecoveryofproteins,nucleicacids,andothermoleculesfromfixedandprocessedtissues.2.developmentalmethodsoffixation.jhistotechnol2001;24;201-210),和/或是不影响用于后续处理的遗传物质的方法。这类方法通常在本领域内公知,一个非限制性的实例是使用甲醛的可逆固定;所述方法的实例在本文的实施例中示出。可选地,如本文已讨论的,固定和透化可不用交联进行,例如使用醇类。在这类方法中,不需要去交联,并且可容易地获得dna/rna。

在下一步骤中,测序至少部分获得的群体的至少部分细胞从而识别影响细胞的表型的一种或多种遗传元件(rna或dna)。对于本发明,测序的方法不重要,然而优选测序包含高通量测序方法和/或下一代测序技术,例如454焦磷酸测序(pyrosequenceing)、illumina(solexa)测序(参见本文下述实施例)、solid测序、dna纳米球测序、rna测序、或任何其他技术。优选测序涉及深度测序(即其中读取的总数比所研究的序列的长度大很多倍;即至少2、7、10或甚至50或100以上的深度(depth)/覆盖度(coverage))。

在遗传物质的测序前,遗传物质可进行其他准备或处理步骤,例如使用例如聚合酶链式反应(pcr)的遗传物质(的部分)的扩增。例如,当细胞库使用基因陷阱载体的诱变方案处理,在整个哺乳动物基因组中引入插入突变时,插入位点可在测序前使用pcr扩增,例如和优选使用利用总基因组dna的线性扩增聚合酶链式反应(lam-pcr)。本领域技术人员熟知这类方法,包括其变化(参见例如ranzani等人(2013)protocolexchange(2013)doi:10.1038/protex.2013.009或schmidt等人(2007)naturemethods4,1051-7)。

在一个实施方案中,测序总dna或rna,在另一实施方案中,测序仅部分的dna或rna。

基于测序的结果,例如通过比较分选为表现给定表型的第一群体和分选为不(或更小程度)表现给定表型的第二(或更多)群体的结果,可识别影响表型的一种或多种遗传元件。获得的dna序列的不同表示参与或不参与给定表型的遗传元件。例如,如果发现基因陷阱载体插入显示表型的细胞群体的给定基因中,并且不在不示出表型的细胞群体中,(由于基因陷阱载体使基因失活)认为这种基因是影响表型的遗传元件。

例如,可使用多种方法来识别已插入基因陷阱载体的基因/遗传元件。例如,可使用反向pcr识别在插入位点侧翼(flankingtheinsertion)的基因组序列。可选地,使用splinkerettepcr(horn,c,等人,nat.genet.,39:807-8,2007),或使用5'-race(cdna端的快速扩增)来扩增基因陷阱融合转录物中含有的细胞序列(参见例如naturemethods,2(8),2005)。如本领域技术人员将理解的,越频繁地在表现给定表型的细胞群体中特异性发现/识别某种遗传元件(并且在不示出给定表型的群体中没有或较少)、或识别特定遗传元件的衍生(例如影响相同基因的不同突变的集合),候选遗传元件越可能影响表型。例如当插入的诱变在所述方法的步骤中使用时,可对基因组中的多个位置确定分选的群体之间的基因组中的插入比。如果遗传元件是给定表型/性状的正调节因子,相比于对于性状是阳性的细胞群体中的非相关遗传元件,其将在遗传元件中示出相对较少的插入。在对于性状是阳性的细胞群体中,给定表型/性状的负调节因子将示出相对较多的插入。用于比较群体的方法是本领域技术人员熟知的(参见例如,vanopijnen等人naturemethods6,767-772(2009)或sun等人cellreports7,86–93,2014(http://dx.doi.org/10.1016/j.celrep.2014.02.045.)。其他这类可能的方法在实施例中描述。

显然,可将从测序表现表型(或独立地不表现表型)的细胞获得的结果与较早的分析比较,而不与第二获得的群体比较。

在本发明的一个实施方案中,可使用从不表现给定表型的细胞获得的结果来从涉及影响给定表型中排除候选遗传元件。

优选的是在步骤(d)中,基于一种或多种可检测探针的检测来分选细胞,获得至少两种细胞群体,并且在步骤(f)中将至少两种细胞群体测序和比较从而识别影响细胞的表型的遗传元件。

本发明不限于根据本发明的方法的步骤(d)中的一种或两种群体;根据表型,根据本发明的方法还可包括使用三种、四种、五种甚至更多群体。通过例如比较更多群体,所述方法可例如允许在不同群体中起不同作用的遗传元件的识别。例如,当比较具有不同丰度(无、低、正常、高)的给定mrna时,可揭示在第二群体中涉及某种遗传元件a,在第三群体中,接着遗传元件a,还涉及某种遗传元件b,而在第四群体中,仅涉及遗传元件c。因此,在本发明的方法的优选实施方案中,在步骤(d)中获得至少三种、四种、五种、六种或更多群体,并且优选在步骤(f)中至少两种、三种、四种、五种、六种或更多群体进行测序。

如以上所讨论的,遗传元件可为细胞中存在的任何种类的元件。然而,优选遗传元件是遗传物质中的功能单元,其优选选自由以下组成的组:基因、内含子、外显子、启动子和非编码rna。其他包括操纵子(operon)、操作元件(operator)、转录起始位点、增强子、沉默子、和绝缘子(insulator)等。较优选识别的遗传元件是基因。

本文所公开的方法可使用可在本发明的步骤中进行不同处理(诱变固定等)的任何种类的细胞例如原核和真核细胞来应用。然而在优选的实施方案中,细胞库中的细胞选自由以下组成的组:真核细胞、动物细胞、植物细胞、酵母细胞、哺乳动物细胞、人类细胞、或干细胞。细胞可例如为多能干细胞或诱导多能干细胞。细胞可从非人类胚胎获得。在优选实施方案中,细胞不从人类胚胎获得,特别地导致胚胎破坏。所述方法不用于修改人类的生殖系身份。细胞可为原代细胞或可为细胞系。细胞系可以是或不是遗传修饰的。

细胞可具有对于细胞最初获取自的有机体是正常的倍性(细胞中染色体组的数量)(例如对于人类和多数动物是二倍体)。细胞可为二倍体细胞,或例如在植物材料的情况下,为多倍体细胞,例如三倍体、四倍体、五倍体等。在优选实施方案中,细胞为近单倍体细胞或完全单倍体细胞,优选近单倍体或完全单倍体哺乳动物细胞,更优选近单倍体细胞或完全单倍体人类细胞。

在几乎所有哺乳动物包括人类中,多数体细胞通常为二倍体,即它们含有各染色体的两个同源拷贝(除两个性染色体以外,基于性别和特定物种,所述性染色体可为同源或非同源的)。同源对的成员为在相同位点处均含有相同基因的、但可能具有这些基因的不同等位基因(即不同遗传变体)的非相同的染色体。

相反,单倍体细胞仅含有各染色体的单个拷贝。如在本领域内使用的,近单倍体哺乳动物细胞指的是不多于5个染色体以两个以上拷贝存在的哺乳动物细胞。在一些实施方案中,近单倍体哺乳动物细胞具有以两个以上拷贝存在的不多于1、2、3、或4个染色体。当没有染色体以两个以上拷贝存在时,认为细胞是单倍体细胞。

在本发明的一些实施方案中,近单倍体哺乳动物细胞是人类细胞。在本发明的一些实施方案中,近单倍体哺乳动物细胞是非人类哺乳动物细胞,例如非人类灵长动物细胞或啮齿动物细胞,例如小鼠、大鼠、或兔细胞。在本发明的一些实施方案中,近单倍体哺乳动物细胞是造血谱系细胞,例如淋巴样细胞或髓样细胞。在本发明的一些实施方案中,近单倍体哺乳动物细胞是肿瘤细胞,例如最初从肿瘤获得的细胞的后代。例如,近单倍体哺乳动物细胞是kbm7细胞系的细胞,或其亚克隆。在本发明的另一实施方案中,近单倍体哺乳动物细胞是平滑肌肉瘤细胞(dalsin,p.,等人,jpathol.,185(1):112-5,1988)。近单倍体细胞在本领域内公知,并且在例如ep2451982中描述。

可在根据本发明的方法中使用各种诱变方法。因为本发明的方法的目的是识别影响给定表型的遗传元件(正向遗传学),优选用于诱变的方法在存在于细胞库的整个基因组中引入修饰。在优选实施方案中,随机或半随机引入突变。在本发明的上下文中,随机和半随机诱变与以随机或半随机方式(例如靶向存在于整个基因组的某些区域和基于同源性)引入突变的诱变方法有关。认为化学诱变剂例如甲磺酸乙酯(ems)、亚硝酸、丝裂霉素c、n-甲基-n-亚硝基脲(mnu)、二环氧丁烷(deb)、1,2,7,8-二环氧辛烷(deo)、甲磺酸甲酯(mms)、n-甲基-n’-硝基-n-亚硝基胍(mnng)、4-硝基喹啉1-氧化物(4-nqo)、2-甲氧基-6-氯-9(3-[乙基-2-氯乙基]-氨基丙氨基)-吖啶二盐酸盐(icr-170)、2-氨基嘌呤(2ap)、和羟胺(ha)在基因组中引起随机突变。另外,辐射例如紫外辐射和/或放射性辐射的使用引入随机突变。可选地,可使用插入诱变(例如使用逆转录病毒或转座子)、签名标签诱变(signature-taggingmutagenesis)、基因陷阱、和其他非(特异性)基因靶向。

可选地,可使用利用诱变剂的文库的诱变方法,所述诱变剂靶向库中的细胞的遗传物质中很多不同位点,但其中文库中的各成员对遗传物质中的仅一个或少数位点是特异性的。例如,这类文库可由引导rna序列的crispr文库组成,其中各引导rna靶向库中的细胞的基因组中的有限量的序列/位置,但其中库由各自靶向细胞中的特定序列的不同的引导rna组成(然而所述序列可在细胞中存在多于一次)。

诱变还可包括成簇规律间隔短回文重复(clusteredregularlyinterspacedshortpalindromicrepeats,crispr)技术,或大范围核酸酶包括转录激活子样效应物核酸酶(transcriptionactivator-likeeffectornucleases,talens)、和锌指核酸酶(zincfingernuclease)等的使用。这些用于引入突变的技术都是本领域技术人员熟知的。

诱变处理可例如为平均每细胞仅诱导少数突变(例如平均每细胞1、2、3、4、5、…10个突变)或更多的方法。

在优选实施方案中,诱变处理为随机诱变处理。

在优选实施方案中,诱变涉及使用辐射、紫外线和电离辐射,诱变化学品,优选甲磺酸乙酯、亚硝酸、或乙基亚硝基脲,插入诱变,优选基于转座子的插入诱变或基于逆转录病毒的随机插入诱变,引导rna序列的crispr文库(目标是在很多或全部人类基因、启动子、增强子或非编码rna等中生成突变),大范围核酸酶和/或通过抑制dna修复的方法(由此积累突变)。

在优选实施方案中,在细胞在步骤(b)中固定和透化前、优选在进行步骤(a)和步骤(b)之间,将细胞暴露于感兴趣的特定应激(stress)条件或生长条件和/或用化合物优选药物处理细胞。

在该实施方案中,在细胞固定和透化前,库中存在的细胞可暴露于应激条件或生长条件,或用化合物优选药物处理。暴露或处理可在步骤(a)中的处理前、步骤(a)中的处理中、和/或步骤(a)中的处理后;但在步骤(b)中的固定和透化前。生长条件的应激条件可为需要细胞适应给定表型或诱导这类表型的生长条件的应激。可选地,这类条件可与步骤(a)的处理组合使用,从而选择已采用表型的那些细胞(由于允许细胞更好地在生长条件的应激下存活的步骤(a)中的处理),并且使用本发明的方法从而识别影响该表型的遗传元件。例如,应激条件可为增加的温度或盐浓度或生长培养基中有毒材料的存在。其他实例包括代谢应激、低氧、和暴露于病原体。

应注意在根据本发明的方法中,细胞库还可为已修饰从而已携带已知为引起特定表型例如(可遗传的)(人类)疾病的突变的细胞库。当这类细胞在根据本发明的方法中用作细胞库、并且进行各个步骤(a)–(f)时,可识别遗传元件例如在给定遗传背景中影响这类表型,并且可为干预的令人感兴趣的靶标(参见图16)。因此在优选实施方案中,在本发明的方法中使用的细胞库包含含有(在动物/人类/植物,优选人类中)引起病症例如遗传病症的至少一种突变的细胞。例如病症可包括:包括癌症在内的疾病、或例如对某些药物的抗性。

还可使用(在进行基因表达修饰处理的诱变之前、之后或同时)不同地处理例如经受不同形式的应激或化合物的不同细胞库,并在根据本发明的方法中比较。

根据本发明的方法还可用于研究细胞对药物的反应、和何种遗传元件涉及与对药物(例如,诱导应激通路或诱导蛋白质的磷酸化的药物)的反应相关的给定表型。例如,给定药物可已知为引起某种蛋白质的磷酸化的抑制。通过将细胞暴露于所述药物和进行根据本发明的方法,可识别例如参与克服所述蛋白质的磷酸化的抑制、或参与抑制的遗传元件。

使用根据本发明的方法,在一些实施方案中,将相同的细胞库进行诱变处理。诱变处理是在同一细胞库中引起很多不同的(随机或靶向的)突变的处理。换言之,获得细胞库,其中单个细胞包含不仅在数量上、而且就突变的位置而言的不同突变。根据本发明的方法使得可以从该异质细胞库识别表现感兴趣的表型的细胞,并反过来识别负责影响(或引起)性状(或表型)的遗传元件。

在本发明的优选实施方案中,固定细胞的固定试剂选自由以下组成的组:交联试剂,优选甲醛、多聚甲醛、福尔马林和戊二醛,或非交联试剂,优选基于氯化汞的固定剂、乙醇、甲醇或丙酮。

根据本发明的方法中使用的固定试剂可为任何类型的合适的固定试剂,只要其允许基因组dna/rna可随后溶解并且用于序列分析(其可或可不涉及进一步dna扩增步骤)即可。然而,优选的材料包括交联试剂,优选甲醛、多聚甲醛、福尔马林和戊二醛,或非交联试剂,优选基于氯化汞的固定剂、乙醇、甲醇或丙酮。

优选透化试剂选自由以下组成的组:溶剂,优选甲醇和丙酮,或洗涤剂,优选皂苷、毛地黄皂苷、tritonx-100和tween-20。在本发明的上下文中,本领域技术人员熟知用于固定和透化细胞库的合适的方法。

可检测探针可为可用于检测表型或其元件的任何类型的探针。优选可检测探针与蛋白质、翻译后修饰的蛋白质、脂质、dna、rna结合,或者结合或检测代谢物或细胞元件。换言之,可检测的和可用于检测rna、蛋白质、蛋白质修饰(例如由泛素、甲基基团、脂质等修饰)、rna修饰、dna修饰或任何代谢物的任何探针可适用于本发明的方法。

例如和在优选实施方案中,探针为抗体,优选的是优选用荧光标签标记的抗体,或可用包含这类标签的其他抗体检测的抗体。抗体还可为磷酸特异性抗体(例如仅结合蛋白的磷酸化形式的抗体)。可检测探针还可为配体的受体或受体的配体。可检测探针还可为将基于与细胞中的靶标(dna或rna)互补的序列特异性杂交的核酸。还可利用如上所述的其他有用的探针,包括抗体模拟物。

该上下文中的术语细胞元件指的是细胞中的不是遗传元件的任何其他元件,并且包括但不限于细胞中存在的蛋白质、脂质和糖和碳水化合物,但还包括细胞、细胞器或膜中存在的代谢物和生物分子。

可在本发明的方法中应用分选细胞的任何合适的方法,只要其可用于检测用于本发明的方法的探针即可。在优选实施方案中,分选涉及流式细胞术、facs分析、质谱流式细胞术(masscytometry)、和/或磁性分选。

优选地,用于本发明的方法的探针包含可检测部分,所述可检测部分优选选自荧光部分、放射性部分、磁性部分、或可使用质谱测量的标签。这类标签和其用途是本领域技术人员熟知的。

在根据本发明的方法的优选实施方案中,所述方法用于在细胞溶胶中、细胞器内部、细胞器的膜中、或细胞膜中,优选细胞膜的内层上表现的表型。

优选表型是需要细胞的透化从而允许用探针检测表型的表型。

本发明的方法可用于任何类型的表型。优选表型是或涉及增加的蛋白质丰度、减小的蛋白质丰度、增加的蛋白质活性、减小的蛋白质活性、增加的蛋白质的翻译后修饰、减小的蛋白质的翻译后表达、增加的mrna丰度或减小的mrna丰度。

在另一方面,提供用于识别由影响细胞的表型的候选基因编码的(内源)基因产物的调节剂例如抑制剂或激活剂的方法,优选其中所述表型在细胞内表现(或检测和存在),所述方法包括以下步骤:

(a)将细胞库进行诱变处理;

(b)固定所述细胞库,优选用固定试剂和任选地用交联剂进行,和透化所述细胞库,优选用透化试剂进行;

(c)用一种或多种可检测探针、优选抗体或(荧光)rna探针处理所述细胞库,从而检测受影响的(或表现的)表型;

(d)基于所述一种或多种可检测探针的至少一种的检测来分选所述细胞,从而获得一种或多种细胞群体,

(e)任选地,去交联所得细胞群体各自中的细胞;

(f)测序至少部分所得细胞群体的至少部分细胞,从而识别影响所述细胞的所述表型的遗传元件,其中所述遗传元件为候选基因;

(g)识别影响所述细胞的所述表型的所识别的所述候选基因的表达产物的表达或活性的调节剂。

使用根据本发明的方法,可识别影响给定表型的遗传元件。基于所述遗传元件,可识别相应细胞元件,例如,活性、表达或丰度由识别的遗传元件(例如遗传元件为编码蛋白质的基因)调控的蛋白质。反之,可使用筛选分析识别所识别的候选基因的基因产物(例如蛋白质)的活性的调节剂。调节剂可例如直接影响基因产物的表达、或可调控蛋白质的活性、或可调控蛋白质的分解或翻译后加工。

本文所述的方法可用于多种目的。优选所述方法用于建立或分析生物通路、用于识别疾病优选癌症中涉及的基因、用于研究药物-靶标相互作用、用于研究药物-药物相互作用、或分析表型的抑制或调控,优选其中所述表型是与疾病有关的表型。从本文的公开内容的观点,本领域技术人员理解根据本发明的方法可如何用于上述给定目的。

调节剂可为任何种类的化合物,包括有机或无机化合物、和候选药物等。

对本领域技术人员清楚的是,根据本发明的方法不仅允许遗传元件的识别,而且所述方法还因此允许与所述遗传元件相关或对应的细胞元件的识别。例如,基于所识别的遗传元件,可识别相应蛋白质或酶、或相关遗传元件(例如启动子和基因)或甚至包含多于一种蛋白质的通路。

本发明的方法示出相对于本领域内的那些方法的很多优点,并且允许不能通过现有技术方法识别的遗传元件的识别,如本文所例举的,包括例如疾病抑制的靶标的识别(参见图16)。该手段的优点之一是所述方法直接将表型(或定量生物分子测量)与基因组中的实际突变配对,并且允许使用具有数百万不同基因型的数百万细胞如此操作。所述方法允许在固定的、并且不可再生长来增加突变基因组的数量的细胞中如此操作,由此允许例如细胞内存在的表型的分析。在一个实施方案中,这通过使用例如基因陷阱或基于类似的(comparable)插入诱变的手段来实现。例如当使用基因陷阱时,在整个基因组中发生整合(integration),并且不可设计2种特异性引物序列来恢复受影响的侧翼dna序列。然而这可用其中已开发了优化的lam-pcr方案的已开发方法来实现,所述方法使能够从固定和透化的非常少的细胞甚至单独的细胞恢复基因陷阱插入位点。使恢复足够敏感的步骤为例如使用双生物素化的捕获引物(captureprimer)、accurprime聚合酶即还可连接单链dna的重组rna连接酶,以及使用序列优化的预腺苷酸化连接体(pre-adenylatedlinker)。该手段对于这类基因陷阱和类似的插入诱变方法非常有效。例如该手段还通过利用用于诱变的合并crispr文库实现,但优选使用基因陷阱。直接将基因组中的突变与表型配对增加信号的精度(参见以下)以及强度。

本发明的方法的其他优点是,对于很多基因,每个单独的基因可测量几百或几千个突变。鉴于此,可计数突变在单个基因中的频率。因为可使用计数,因而不需要测量各突变的丰度(或基因干扰剂(gene-perturbingagent)例如shrna或crispr)。由于pcr扩增引入的变异,测量复合文库的各组分的丰度对有限量的生物材料是挑战性的。在所开发的方法中,忽略恢复突变的频率,但计数和比较单个基因中突变的数量。现在当比较不同的表型状态时(例如具有高量lamp1蛋白质的细胞对比具有低量lamp1蛋白质的细胞),这再次导致具有非常低的假阳性结果的影响表型的基因的识别。

该突变频谱的定量性质和大多数命中不由噪声引起的事实使得可以跨表型地(例如乙酰化或三甲基化的赖氨酸基团的生物发生(biogeneration)所需要的基因)或跨基因型地(表型的基因型特异性抑制子或增强子)比较突变频谱与表型的强度(高/低生物分子)。最后,通过比较很多不同的表型读出(readout),可基于基因的表型输出将基因聚类。因此,突变频谱的比较分析促进研究和比较生物表型的新方式。重要地,当使用手段时报告显著量的噪声或需要显著实验后续来从噪声分开真正命中将是不实用的。

最后,因为可直接比较突变频谱,野生型和突变细胞的可比较筛选可指出基因型特异性的表型增强子或抑制子。重要地,当感兴趣的基因型与人类疾病(例如遗传疾病或由体细胞dna突变引起的疾病)有关时,这可指出用于疾病抑制的靶标。这可用于识别当抑制时保护免受疾病的基因产物。开发来作用于这类靶标的药物可用于抑制疾病(参见图16)。在本文充分描述本发明之后,本领域技术人员将理解,在不背离本发明的精神和范围并且没有过多实验的情况下可在等效参数、浓度、和条件的宽范围内进行相同处理。

虽然已结合本发明的具体实施方案描述本发明,将理解,其可进一步修改。本申请旨在涵盖本发明的任何变化、用途、或修改,其总体上遵循本发明的原理,并且包括偏离本发明所属领域内的公知的或惯用的实践的本公开的这些,并且可应用于在所附权利要求的范围中所述的本文上述基本特征。

本文引用的所有参考文献,包括期刊文献或摘要、公开的或相应美国或别国专利申请、授权的美国或别国专利、或任何其他参考文献,其全部内容引入本文以作参考,包括引用的参考文献中存在的所有数据、表、图、和文字。此外,本文引用的参考文献中所引用的参考文献的全部内容也引入本文以作参考。

参考已知的方法步骤、常规的方法步骤、已知的方法或常规的方法绝不是承认在相关领域中公开、教导或暗示本发明的任何方面、描述或实施方案。

具体实施方式的以上描述将充分揭示本发明的一般性质,从而其他人可以通过应用本领域技术中的知识(包括本文引用的参考文献的内容),没有过多实验、不背离本发明的一般概念,容易地修改和/或改变这类具体实施例的各种应用。因此,基于本文给出的教导和指导,这种改变和修改旨在在公开的实施方案的等同的含义和范围内。

应理解,本文的措辞或术语是为了描述而不是限制的目的,从而本说明书的术语或措辞应由本领域技术人员根据本文给出的教导和指导、结合本领域普通技术人员的知识来解释。

实施例

方法

hap1细胞的诱变所需要的基因陷阱逆转录病毒(例如carette等人(2011).nature,477(7364),340–3.doi:10.1038/nature10348所述;从www.horizon-genomics.com/hap1-wildtype.html可得)在hek293t细胞中使用先前描述的基因陷阱载体产生(jae等人,science2013340(6131):479-83),并且使用绿色荧光蛋白(gfp)换为蓝色荧光蛋白(bfp)的相似的基因陷阱逆转录病毒。

将细胞以40%汇合接种于12个t175摇瓶中。第二天,在用每t175摇瓶6.6微克基因陷阱质粒结合包装质粒gag-pol、vsvg和padv转染前,将培养基用补充有30%胎牛血清(fcs)的dmem置换(carette等人,science2009326(5957):1231-1235)。转染后48小时收获培养基,然后通过超离心以21.000rpm在4℃下浓缩2小时。弃去上清液,并且将沉淀在200微升磷酸盐缓冲盐水(pbs,lifetechnologies)中4℃下过夜重悬。收集含有逆转录病毒的培养基,并且每天浓缩两次,持续三天。

为了产生诱变的hap1细胞群体,接种4000万个hap1细胞,并且在8微克/ml硫酸鱼精蛋白(sigma)的存在下用来自连续三天的两次结合的收获物的基因陷阱逆转录病毒转导。然后在通过facs染色分析细胞内表型前,将突变文库扩展最长期限10天。

为了遗传筛选,将诱变的hap1文库扩展至3x109个细胞,使用胰蛋白酶-edta(lifetechnologies)解离,然后使用bd固定缓冲液i(bdbiosciences)在37℃下固定10分钟。在用含有1%fcs的pbs清洗后,通过在冷(-20℃)bd透化缓冲液(bdbiosciences)中悬浮同时涡旋来透化细胞,并且在冰上温育30分钟。

在pbs/1%fcs中清洗两次后,将细胞通过40微米粗滤器(bdfalcontm)过滤。在具有特定一级抗体(1:200-1:400)的每107个细胞100微升中在室温下进行染色。在清洗缓冲液(pbs/1%fcs)中清洗细胞两次,并且用二级抗体(alexa488、-568或-647抗体,lifetechnologies)在黑暗中染色1小时。

此外,为了使携带基因陷阱整合的等位基因是杂合的二倍体细胞的潜在混杂作用最小化,使用3μm4',6-二脒基-2-苯基吲哚(dapi)或10微克/ml碘化丙啶(lifetechnologies)溶液染色脱氧核糖核酸(dna)内容物(content)。在后者的情况下,还用100微克/mlrnasea(qiagen)在室温下处理细胞1小时。

对于核区室中的抗体染色(例如组蛋白修饰),将细胞在黑暗中用固定/透化缓冲液(ebioscience)在室温下固定1小时。在含有5%fcs的透化缓冲液中清洗两次后,在2mhcl中重悬细胞,并且在室温下温育30min从而聚集细胞和变性dna。由此,温和地混合细胞悬浮液。为了中和,用0.1mna2b4o7(ph=8.5)清洗细胞,并且用含有5%fcs的透化缓冲液(ebioscience)中的一级抗体(每107个细胞100微升;1:200-1:400)染色。室温下1小时后,清洗细胞,并且用二级抗体在室温下、黑暗中染色1小时(在含有5%fcs的透化缓冲液(ebioscience)中)。最后的清洗步骤在pbs/1%fcs中进行。

染色后,将细胞在biorads3细胞分选仪(组合:bfp基因陷阱,alexa488二级抗体,pi测量dna含量)或astriosmoflo(组合:gfp基因陷阱,alexa488、-568或-647抗体、dapi测量dna含量)上基于感兴趣的信号(对于查询抗体(queryantibody)为约1-5%最高和最低的染色群体)和dna含量(1n)进行分选。

分选的细胞通过离心(2500rpm10min.)沉淀,使用qiagendna微型试剂盒分离基因组dna。为了促进去交联,将沉淀在pbs(200微升/1000万细胞)中重悬,并且在加入蛋白酶k(qiagen)和裂解缓冲液(bufferal,qiagen)后在56℃和搅拌下过夜温育。第二天,根据制造商的说明分离dna,并且通过nanodrop2000分光光度计(thermofisher)测量。

使用利用总基因组dna(0.5-2微克/反应)的线性扩增聚合酶链式反应(lam-pcr)扩增插入位点,各50微升反应(rxn)含有1mmmgso4、0.75pmol双生物素化的引物(5'-/双生物素/ggtctccaaatctcggtggaac-3')(seqidno:1)、accuprimetaqhifi(0.4微升/rxn)和所提供的缓冲液ii(lifetechnologies)。反应以58℃的退火温度30秒和68℃的延伸温度60秒进行120个循环。为了捕获生物素化的单链dna(ssdna)产物,pcr反应与m270链霉抗生物素涂覆的磁性珠(lifetechnologies)在2x结合缓冲液(6mlicl,10mmtris,1mmedta,ph=7.5)在室温下结合2小时,然后使用磁体捕获。在结合前,将珠在1.5ml不粘管(non-sticktube)(lifetechnologies)中在含有0.1%牛血清白蛋白(bsa)的pbs中清洗一次。磁性沉降后,在连接体连接前将珠用含有0.05%tritonx-100(sigma)的pbs清洗三次。

将ssdna连接体(5'/磷酸/atcgtatgccgtcttctgcttgactcagtagttgtgcgatggattgatg/二脱氧胞苷/3')(seqidno:2)连接至在含有2.5mmmnch、1m甜菜碱、12.5pmol连接体、分别1微升和0.5微升的circligaseii(illumina)缓冲液和酶的nx10ul反应中的生物素化产物的3'端,n=lam-pcr反应的数量。可选地,将预腺苷酸化连接体(5'/腺苷/atcgtatgccgtcttctgcttgactcagtagttgtgcgatggattgatg/二脱氧胞苷/3')(seqidno:3)在含有12.5pmol腺苷酸化连接体、18.75%peg6000、2.5微克bsa、2.5mmmnch、1微升缓冲液(500mmmops,100mmkcl,50mmmgcl2,10mm二硫苏糖醇(dtt))和2微克rna连接酶的nx10微升反应中使用来自水管致黑栖热菌(thermusscotoductus)噬菌体的大肠杆菌纯化的ts2126热稳定rna连接酶1连接至单链扩增的dna产物(blondal等人,nucleicacidresearch2005,33(1)135-142,专利wo2010/094040a1)。全部连接反应在60℃下在不粘1.5ml管(lifetechnologies)中发生2小时,然后在室温下的20分钟温育后用具有0.05%tritonx-100(sigma)的pbs清洗三次。然后,引入illumina测序(p5和p7)所需要的接头(adaptor)序列的pcr反应在含有25pmol的各引物、5微升缓冲液ii和0.6微升accuprimetaqhifi(lifetechnologies)的nx50微升反应(n=0.5xlam-pcr反应的数量)中进行。

该最终扩增使用18个循环和55℃的退火温度30s然后使用以下引物(在68℃下)延伸105s来进行:5'-aatgatacggcgaccaccgagatctgatggttctctagcttgcc-3'(seqidno:4)和5'-caagcagaagacggcatacga-3'(seqidno:5)。

纯化产物(pcr纯化试剂盒,qiagen),然后在illuminahiseq2000(illumina)或hiseq2500(illumina)上使用测序引物5'-ctagcttgccaaacctacaggtggggtctttca-3'(seqidno:6)测序为51bp单端读序(single-read)(18皮摩尔上样浓度)。

在深度测序后,对高低分选的细胞内表型群体使用bowtie(langmead等人,genomebiol2009,10:r25)将基因陷阱插入位点识别为没有或具有单个错配的独特地比对人类基因组(hg19)的读序。比对的读序与hg19基因坐标相交从而使用intersectbed(quinlan和hall,bioinformatics2010,26(6):841-842)建立基因内插入位点和它们相对于基因的取向。为了该分析的目的,基因内有义整合的插入位点认为是破坏性的。对于具有相反编码链的重叠基因,仅考虑特定区域。此外,对于使用相同编码链的重叠基因,基因名称串联。为了在任一查询群体(querypopulation)中识别富含破坏性基因陷阱整合的基因,各基因和总计一种群体(例如信号高)中的破坏性插入位点的数量使用单侧费歇尔精确检验(one-sidedfisherexacttest)与其他群体(例如信号低)中的那些值比较,反之亦然。使用benjamini和hochbergfdr校正来调整多重检验的所得p值。通过计算由两种群体中总整合的数量归一化的两种群体中的每基因的破坏性整合的数量之比(在y轴上作图)和在高群体和低群体两者中识别的破坏性整合的总数(在x轴上作图),产生了鱼尾图(fishtailplot)。

对于基于遗传crispr/cas9的筛选,从zhang的实验室通过addgene(shalem等人,2014science,343(6166),84–87.doi:10.1126/science.1247005;www.addgene.org/crispr/libraries/geckov2/)获得慢病毒gecko文库(版本1和版本2)。将文库在大肠杆菌中扩增,并且根据制造商的说明(qiagen)纯化dna。通过深度测序确认文库复杂度(librarycomplexity)(>98%恢复率)。在hek293t细胞中使用合适的包装质粒产生慢病毒。在多天收获病毒,并且在beckmannsw28转子中沉淀(4℃下21.000rpm2小时)。在补充有50mmhepes的完全培养基中重悬病毒,并且在-80℃下以等份冷冻。在病毒滴定后,用慢病毒文库转导1亿个hap1细胞,并且在感染后2天用0.75微克/ml嘌呤霉素选择。抗性细胞扩增6-8天,然后细胞以每管5000万个细胞的等份冷冻。对于单个筛选,解冻多个等份,并且接种在多个t175摇瓶中。培养7天后(目标是±1.109个细胞)将细胞固定和透化,抗体染色处理,并且如上所述分选。分选的细胞群体的深度测序和数据分析如shalem等人2014所述进行,稍作修改。用于从分离的基因组dna扩增文库的初始pcr的引物:5'-aatggactatcatatgcttaccgtaacttgaaagtatttcg-3'(seqidno:7)和5'-ctttagtttgtatgtctgttgctattatgtctactattcttcc-3'(seqidno:8)。对于对pcr1的产物的第二、嵌套pcr2:5'-aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatctnnnnnntcttgtggaaaggacgaaacaccg-3'(seqidno:9)和5'-caagcagaagacggcatacgagatgtgactggagttcagacgtgtgctcttccgatcttctactattctttcccctgcactgt-3'(seqidno:10)。

kctd5敲除细胞的生成

设计了靶向kctd5(kctd5#15'-caccgaggtgccgccgacgttgagt-3'(seqidno:11)和kctd5#25'-caccggacgttgagtcggacccact-3')(seqidno:12)的hapl:crispr,并且克隆到px330中(cong等人science.2013,pmid:23287718)。除了含有斑马鱼tia基因的引导rna(5'-ggtatgtcgggaacctctcc-3')(seqidno:13),和2a序列、接着是杀稻瘟素抗性基因、侧翼是两个tia靶位点的盒的载体以外,还用一种px330载体转染hap1细胞。与px330的共转染导致盒从质粒的切除并随后在靶基因组基因座的位点处通过非同源性末端连接(non-homologousendjoining)进行散发性掺入(sporadicincorporation)(与maresca等人,genomeres.2013mar;23(3):539-46.中所述相似)。盒至靶基因的成功整合破坏等位基因,赋予细胞杀稻瘟素抗性,并且提供突变位置的标签。转染后4天,用杀稻瘟素(10微克/ml)补充培养基。克隆扩增存活的菌落。

hek293t:设计了靶向kctd5(kctd5#35'-caccgaggatttcgggtcccggcac-3')(seqidno:14)的另一cripsr,并且在px330中克隆。用crisprkctd5#3和crisprkctd5#1或crisprkctd5#3和crisprkctd5#2转染细胞,与pmx-ires-blast共转染。两种crispr的共转染将导致基因中两个位置的双链断裂,导致基因组区域的删除。转染选择使用杀稻瘟素(80微克/ml)进行2天。将存活的菌落克隆扩增和基因分型(genotyped)。

表1:各个实施例中使用的抗体

结果和讨论

进行的各种实验的结果在附图中示出。

图1示出对已用多聚甲醛固定的hap1细胞的诱变群体的遗传筛选的结果。先前,(jae等人,science,2013)识别细胞表面处的糖基化的肌营养不良蛋白聚糖的抗体用于富集细胞表面处的缺乏相应抗原的突变。分选活细胞,在培养基中扩增,并且进行基因陷阱插入位点的深度测序(图1a)。图1b(jae等人,2013中公开),显示示出存活选择的细胞群体中的富含突变的基因的图。识别了α-肌营养不良蛋白聚糖的糖基化所需要的基因。图1c和图1d示出根据本发明的方法的结果。但现在对用多聚甲醛固定的细胞,如上所述进行相同抗体染色。在这种情况下,死细胞直接进行去交联(通过热)和基因组dna分离,而没有活细胞内部的基因组的任何在先扩增。基因陷阱整合位点从固定的非扩增细胞的恢复得到lampcr扩增的dna的典型涂片(smear)。基因陷阱突变使用深度测序识别,并且分析基因的破坏性突变的富集。这些结果示出固定的、非扩增的细胞也是识别α-肌营养不良蛋白聚糖的糖基化所需要的基因的合适来源。该试验表明先前对活细胞进行的筛选可对在表型检验时固定和非活性的细胞群体重现。其进一步表明单个固定的突变细胞可用作恢复和测序基因组突变(基因陷阱插入)的来源。

图2示出诱变细胞库的表型分离和基因陷阱插入位点的测序。图2a示出如何将已使用逆转录病毒基因陷阱诱变的单倍体或近单倍体(near-haploid)细胞群体固定、透化然后使用针对磷酸-akt(丝氨酸473)的抗体进行荧光标记。图2b示出如何将固定、透化和针对磷酸-akt染色的细胞使用流式细胞术分离,从而富集显示高或低(总群体的最高/最低的1-5%)akt磷酸化的库。然后,从两种细胞群体分离基因组dna,并且用于映射基因陷阱插入位点。图2c显示示出在左(低磷酸akt)和右(高磷酸-akt)细胞群体的已知的负调节因子(inpp4a)中检测的破坏性基因缺陷插入的频率的图。所述图示出inpp4a的突变在具有'高'磷酸-akt信号的细胞群体中富集。该实验表明,使用根据本发明的方法,已针对差异性akt磷酸化选择的诱变细胞群体富集或删除在询问的(interrogated)细胞内表型的已知调节因子中的突变。

图3示出识别akt磷酸化的调节因子的全基因组诱变筛选。图3a示出导致涉及pip3信号传导的akt磷酸化的通路和mtor复合物ii(mtorcii)的示意图。图3b显示示出相对于'低'群体,磷酸-akt'高'群体中每基因的基因陷阱突变的相对数量的图。发现不影响akt磷酸化的基因在'高'和'低'群体(群体的最高/最低的1-5%)中以可比较的频率突变。影响akt磷酸化的基因在突变时,在高群体相比于低群体中示出其突变频率的显著改变。识别了已知的通路调节因子(例如pten、lst8、sin1)(负和正调节因子两者)。该实验示出可全基因组检验不同的细胞群体中的突变频率,导致akt通路的已知正和负调节因子的识别。重要地,很多新因子显示它们的突变频率(深灰色点)的显著偏差,并且因此与akt磷酸化相关联。

图4示出kctd5影响akt磷酸化。图4a示出用根据本发明的方法的akt调节因子的全基因组筛选将kctd5识别为显著的异常值。图4b示出使用crispr的hap1细胞中的kctd5的功能丧失(loss-of-function)突变导致akt磷酸化的增加。图4c示出kctd5的crispr产生的敲除细胞在通过流式细胞术检测时显示磷酸-akt的染色增加。图4c示出crispr产生的敲除细胞中的kctd5表达的恢复使akt磷酸化归一化。这些实验表明可识别akt磷酸化的新的调节因子,并且使用crispr产生的基因失活和蛋白质印记来分析验证。这表明wd40-重复e3-连接酶kctd5是akt磷酸化的新的调节因子。

图5示出根据本发明的筛选方法适用于可视觉化的并且用于基于信号强度分离细胞群体的任何细胞内表型。例如,使用单倍体诱变细胞的这种筛选方法,可原则上用于可通过分离方法如facs(例如使用总蛋白质抗体、翻译后抗体或标记的探针,从而量化内源rna分子的表达或丰度)量化的任何细胞内性状。该图列出可应用于筛选手段的细胞内表型的不同读出。

图6示出irf1蛋白质水平(蛋白质表达)的筛选结果。用干扰素γ(ifn-y)处理单倍体诱变细胞从而诱导irf-1表达。24小时后,将细胞固定、透化、并且对于irf-1染色。分选细胞从而富集显示'高'或'低'水平的irf1的群体,并且进行基因陷阱插入位点的深度测序,从而识别任一细胞群体中所富集的突变。还显示的是示出引起irf-1转录的ifn-y信号传导通路的流程。利用根据本发明的方法,在筛选中识别指示的标记的多种基因(jak1、jak2、irf1和stat1)。使用所述方法允许识别ifn-y信号传导通路的组分。

图7示出iκbα表达(蛋白质降解)的筛选。将单倍体hap1细胞诱变并且用tnf-a处理30min。用特异性iκbα抗体染色后,分选细胞从而富集具有高和低iκbα强度的群体。为了识别在任一细胞群体中富集的突变,测序基因陷阱插入位点。还显示示出在筛选中识别的nfkb信号传导组分的流程。该实验说明对nfkb信号传导通路应用固定细胞的表型筛选。可识别nfkb信号传导的已知的和未知的调节剂。

图8示出p38磷酸化的筛选。用茴香霉素处理单倍体诱变细胞从而诱导p38a的磷酸化。4小时后,将细胞固定、透化、和用特异性磷酸-p38a抗体染色。分选细胞从而富集显示'高'或'低'水平的磷酸-p38a的群体。从两种细胞群体分离基因组dna,并且用于映射基因陷阱插入位点。还显示示出mapk信号传导通路的流程和筛选中识别的基因。该实验说明对mapk信号传导通路应用根据本发明的固定细胞的表型筛选。识别已知的组分,但还有涉及rna代谢/剪接的基因例如prpf39。

图9示出辐射的细胞中dna损伤的筛选。将单倍体诱变细胞暴露于电离辐射、固定、透化、和对于h2ax磷酸化染色。如流程所示,组蛋白h2ax在dna损伤时磷酸化。分选细胞从而富集显示'高'或'低'水平的h2ax磷酸化的群体,并且进行基因陷阱插入位点的深度测序,从而识别任一细胞群体中富集的突变。该实验说明对非活性的透化的细胞应用诱变筛选从而研究dna损伤信号传导。具有较多h2ax磷酸化(表示dna损伤)的突变影响核基质、核孔、和多梳通路(polycombpathway),说明核构型(nuclearorganization)在dna损伤中的关键作用。

图10示出组蛋白尾修饰的筛选。将单倍体诱变细胞固定、透化、和对于与转录抑制相关的h3k27三甲基化染色。分选细胞从而富集显示'高'或'低'水平的h3k27三甲基化的群体,从两种细胞群体分离基因组dna,并且用于映射基因陷阱插入。该实验显示根据本发明的方法给出对调节h3k27三甲基化的复合物的启示。已知多梳抑制复合物2是产生该修饰所需要的,并且由ezh2、suz12和eed构成。所有这些组分在筛选中识别。

图11示出kctd5如何调控gpcr信号。图a和b示出akt调节因子的两种全基因组筛选(hap1wt细胞和kctd5ko细胞的筛选)的比较,并且揭示在kctd5缺陷细胞中激活akt磷酸化的通路。图11c显示gpcr信号传导的流程。突出显示识别的组分(gnb1、gnb2、gng5、gng7、pdlc)。图11d示出e3-连接酶kctd5引起gnb1(鸟嘌呤核苷酸结合蛋白β-1)、即参与gpcr信号传导的异源三聚体g蛋白的亚单元的蛋白质水平减少。相比于293野生型细胞,kctd5ko细胞示出增加的gnb1蛋白质表达。根据本发明的方法可识别细胞内性状的基因型特异性调节剂,并且可阐明负责突变相关的表型以及这类表型的增强子或抑制子的机制。

图12示出基于crispr/cas9的筛选识别kctd5为磷酸akt(pakt)的负调节因子。将慢病毒geckov2文库(sanjana等人nat.methods2014;含有±123.000个引导rna序列)引入hap1细胞,并且分离具有高和低pakt水平的群体。通过pcr扩增和深度测序识别各引导rna(靶向其相应基因)在两种细胞群体中的丰度。对于kctd5,5/6grna序列(用kctd5表示)清楚地在具有高pakt水平的细胞群体中富集。这显示使用基于crispr/cas9的文库的诱变也可用于,例如在hap1细胞中,研究除基因陷阱诱变以外的细胞内表型或其他类型的诱变。

图13显示一组表型之间基因相关的表型的比较。表型读出在x轴上列出。突变指数在y轴上表示。显著的正调节因子具有负的值,负调节因子具有正的值。在prc2(多梳抑制复合物2)亚单元未识别为显著调节因子的筛选中,数据点用圆圈标记。复合物具有组蛋白甲基转移酶活性,和主要在赖氨酸27上的组蛋白h3三甲基化物(即h3k27me3)。通过沉积h3k27me3标记,prc2复合物是基因表达的主调节因子,因此预计会影响广泛种类的筛选之间的很多表型。该概述表明prc2复合物的三种组分(ezh2、eed和suz12)显示不同筛选之间接近相同的表型结果。该可比较的手段可用于向基因分配功能。

筛选:h3k27-ac组蛋白3赖氨酸27乙酰基;h3k27-but组蛋白3赖氨酸27丁酰基;h2ak119-crot组蛋白2a赖氨酸119巴豆酰基;h3k27-crot组蛋白3赖氨酸27巴豆酰基;crot-panpan巴豆酰赖氨酸;gnb1鸟嘌呤核苷酸结合蛋白β多肽1的丰度;ikka保守的螺旋-环-螺旋泛素激酶的丰度;kctd5含有四聚体结构域的钾通道5的丰度;lamp1溶酶体相关的膜蛋白1的丰度;饥饿和氯喹处理时,lc3微管相关蛋白1轻链3α的丰度;h3k27-me3组蛋白3赖氨酸27三甲基;non-p-bcatβ-未磷酸化的连环蛋白;p-chek1磷酸化的检查点(checkpoint)激酶1;p-chek2磷酸化的检查点激酶2;p-erk磷酸化的促分裂原-激活蛋白激酶1;p-p38磷酸化的促分裂原-激活蛋白激酶14;h3k14-succ组蛋白3赖氨酸14琥珀酰基;xbp1x-盒结合蛋白(boxbindingprotein)丰度,毒胡萝卜素诱导的;m6an6-甲基腺苷;p-tsc2磷酸化的结节性硬化症2

图14示出组蛋白中相同氨基酸处两种相似的翻译后修饰(ptm)需要的基因的比较分析。组蛋白3赖氨酸27(h3k27)已知为乙酰化的(由creb结合蛋白,即与活性染色质相关的标记物)和三甲基化的(由与沉默的染色质相关的多梳抑制复合物2(prc2))。由于这些修饰影响相同的残基,它们是相互排斥的,并且h3k27ac增加引起h3k27me3的量降低。这也在筛选中观察到,其中cbp识别为h3k27ac的强的正调节因子和h3k27me3的负调节因子,对于prc2反之亦然。此外,可识别修饰特异性的基因。

图15示出溶酶体蛋白lamp1丰度的筛选。假阳性命中对于本发明的方法是非常罕见的。如溶酶体蛋白lamp1(左)的丰度的筛选在此所示,当考虑hap1细胞的rna测序数据和在筛选数据组(左)上重叠时,3000个非活或最低表达基因(右)不参与查询表型(右)。这说明所述手段的精度。

图16示出单倍体遗传筛选可识别在突变时改变疾病标记物水平的基因。“疾病标记物”的丰度表示“疾病基因型”中的异常细胞生理。(a)将诱变的hap1细胞固定、透化、和用识别疾病标记物的抗体染色。分选具有低和高水平的标记物的细胞,然后如所述的对两种群体中的突变谱进行图谱分析。多个已知的疾病诱导基因的突变导致升高的标记物水平(较高异常值中未标记)。(b)染色疾病基因缺陷的诱变的hap1细胞,并且如上所述处理。该“抑制子”筛选识别在疾病基因缺陷的背景下在失活时降低疾病标记物水平的基因1、2和3,这模拟可遗传的人类综合征。

序列表

<110>施特丁·奈德兰卡克研究所-安东尼·范·列文虎克医院(stichtinghetnederlandskankerinstituut-antonivanleeuwenhoekziekenhuis)

<120>识别影响表型的遗传元件的分析

<130>73010pc

<150>nl2014877

<151>2015-05-28

<160>14

<170>siposequencelisting1.0

<210>1

<211>22

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(22)

<223>引物

<400>1

ggtctccaaatctcggtggaac22

<210>2

<211>49

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(49)

<223>引物

<400>2

atcgtatgccgtcttctgcttgactcagtagttgtgcgatggattgatg49

<210>3

<211>49

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(49)

<223>引物

<400>3

atcgtatgccgtcttctgcttgactcagtagttgtgcgatggattgatg49

<210>4

<211>44

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(44)

<223>引物

<400>4

aatgatacggcgaccaccgagatctgatggttctctagcttgcc44

<210>5

<211>21

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(21)

<223>引物

<400>5

caagcagaagacggcatacga21

<210>6

<211>33

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(33)

<223>引物

<400>6

ctagcttgccaaacctacaggtggggtctttca33

<210>7

<211>41

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(41)

<223>引物

<400>7

aatggactatcatatgcttaccgtaacttgaaagtatttcg41

<210>8

<211>43

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(43)

<223>引物

<400>8

ctttagtttgtatgtctgttgctattatgtctactattcttcc43

<210>9

<211>88

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(88)

<223>引物

<220>

<221>misc_feature

<222>(59)..(64)

<223>n为a、c、g、或t

<400>9

aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatctnn60

nnnntcttgtggaaaggacgaaacaccg88

<210>10

<211>83

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(83)

<223>引物

<400>10

caagcagaagacggcatacgagatgtgactggagttcagacgtgtgctcttccgatcttc60

tactattctttcccctgcactgt83

<210>11

<211>25

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(25)

<223>引物

<400>11

caccgaggtgccgccgacgttgagt25

<210>12

<211>25

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(25)

<223>引物

<400>12

caccggacgttgagtcggacccact25

<210>13

<211>20

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(20)

<223>引物

<400>13

ggtatgtcgggaacctctcc20

<210>14

<211>25

<212>dna

<213>人工序列(artificialsequence)

<220>

<221>gene

<222>(1)..(25)

<223>引物

<400>14

caccgaggatttcgggtcccggcac25

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1