用于个人表观基因组学的至天然染色质的转座的制作方法_3

文档序号:9583260阅读:来源:国知局
示在例如计算 机显示器上。示例性表观遗传图谱显示于图1C、3A、4A、4B、5B和5C中。
[0088] 如本文所用的术语"映射信息"是指将实验获得的关于区域的信息组装至该区域 的物理图谱。
[0089] 如本文所用的术语"序列读数丰度"是指特定序列或核巧酸在一批序列读数中观 察到的次数。
[0090] 如本文所用的术语"无核小体的片段"是指相对贫乏或缺乏核小体(即核小体之 间)的基因组DNA的片段。
[0091] 如本文所用的术语"染色质可接近性(c虹omatinaccessibility)"是指多核巧酸 例如基因组DNA内的核酸位点可接近的程度,即染色质"开放"的程度。与多肤关联的核酸 位点,例如核小体中的基因组DNA,通常是不可接近的。未与多肤复合的核酸位点通常是可 接近的,例如核小体之间的基因组DNA(除与转录因子和其它DNA结合蛋白复合的核酸位点 W外)。
[0092] 如本文所用的术语"DNA结合蛋白的占据"是指针对序列特异性DNA结合蛋白的结 合位点(例如,针对转录因子的结合位点)是否由DNA结合蛋白占据。DNA结合蛋白的占据 可W定量或定性测量。
[009引如本文所用的术语"总体占据"是指是否有多个分布在整个基因组中的针对DNA结合蛋白的不同结合位点(例如,针对转录因子的结合位点)被DNA结合蛋白结合。DNA结 合蛋白的占据可W定量或定性测量。
[0094] 如本文所用的术语"诊断"是指测定受试者是否患有特定疾病或病状。
[009引如本文所用的术语"预后"是指预测临床结果例如疾病复发、从疾病恢复、死亡,W及预测患有特定疾病或病状的受试者如何响应特定治疗。
[0096] 术语的其它定义可W出现在整个说明书中。
[0097] 示例忡连施方案的描沐
[0098] 在一个方面,提供了用于分析染色质的方法。在某些实施方案中,该方法包括:(a) 用插入酶复合物处理分离自细胞群的染色质W产生基因组DM的标记片段。在该步骤中, 染色质通过使用插入酶来标签片段化(tagmented)(即,在相同的反应中切割和标记),所 述插入酶为例如Τη5或MuA,其在染色质的开放区域中切割基因组DNA并将衔接子添加至 片段的两个末端。用于标签片段化分离的基因组DNA的方法是本领域已知的(参见例如, CaruccioMethodsMol.Biol.2011 733:241-55 ;Kape;r等人,P;roc.化tl.Acad.Sci.2013 110:5552-7;Marine等人,Appl.Environ.Microbiol. 2011 77:8071-9 和US20100120098) 并且可商购自Illumina(SanDiego,CA)及其它供应商。运样的系统可容易地适用于本发 明。在一些情况下,可W调整条件W获得染色质中插入的期望水平(例如,插入在开放区域 中W平均每50至200个碱基对出现)。在该方法中使用的染色质可W通过任何合适的方法 来制备。在一些实施方案中,可分离、裂解细胞核,并可进一步例如从核膜纯化染色质。在 其它实施方案中,染色质可W通过将分离的细胞核与反应缓冲液接触来分离。在运些实施 方案中,分离的细胞核在与反应缓冲液(其包含插入酶复合物和其它必需的试剂)接触时 可裂解,运允许插入酶复合物接近染色质。在运些实施方案中,该方法可W包括从细胞群中 分离细胞核;并将分离的细胞核与转座酶和衔接子组合,其中所述组合导致细胞核裂解W 释放所述染色质,W及产生基因组DNA的加衔接子标签的片段。染色质不需要如其它方法 (例如化IP-SEQ方法)中的交联。
[0099] 在染色质已被分割和标记W产生基因组DNA的标记片段后,对至少一些加衔接子 标签的片段进行测序W产生多个序列读数。所述片段可W使用任何方便的方法进行测序。 例如,片段可W使用Illumina可逆终止法、Roche焦憐酸测序法(454)、LifeTechnologies 连接测序(SOLiD平台)或LifeTechnologiesIonTorrent平台来进行测序。运样的 方法的实例描述于下列参考文献中:Margulies等人(化化re2005 437 :376-80) ;Rona曲i 等人(AnalyticalBiochemistry1996 242:84 - 9);化endure等人(Science2005 309:1728-32) ;Imelfo;rt等人度riefBioinform. 2009 10:609-18);Fox等人(Methods MolBiol. 2009;553:79-108);Appleby等人(MethodsMolBiol. 2009;513:19-39)和 Morozova等人(Genomics. 2008 92:255-64),其通过引用并入方法的一般描述和方法的具 体步骤,包括所有的起始产物、文库制备的方法、试剂、W及每个步骤的最终产物。如将是显 而易见的,与所选的下一代测序平台兼容的正向和反向测序引物位点可在扩增步骤中被添 加至片段的末端。在某些实施方案中,片段可W使用杂交至已被添加至所述片段的标签的 PCR引物来扩增,其中用于PCR的引物具有与特定测序平台兼容的5'尾。在某些情况下,所 使用的引物可化含有分子条形码("索引"),使得不同的库可W在测序之前合并在一起,并 且序列读数可W用该条形码序列追溯至特定样品。
[0100] 在另一个方面,本公开内容提供了用于测定多核巧酸在某位点的可接近性的方 法,其中所述多核巧酸来自细胞样品,所述方法包括:用插入酶将多个分子标签插入多核巧 酸和使用所述分子标签来测定所述位点上的可接近性。细胞样品可W来自原始来源。细胞 样品可W由单个细胞组成。细胞样品可W由有限数量的细胞(例如少于约500, 000个细 胞)组成。
[0101] 该方法还可包括使用所测定的可接近性来鉴定在该位点结合至多核巧酸的一种 或多种蛋白。在一些情况下,蛋白的至少一种是转录因子。此外,该方法可W包括使用分子 标签来产生多核巧酸的可接近性图谱。
[0102] 多核巧酸在分子标签的插入过程中可被分割成多个片段。在一些情况下,片段可 被扩增。在某些情况下,片段可被测序W产生多个测序读数。运可用来测定任何给定多核 巧酸在某位点的可接近性。片段可W使用高通量测序技术进行测序。在一些情况下,测序 读数可基于插入酶的序列插入偏好来标准化。测序读数的长度用于确定染色质状态注释。
[0103] 多核巧酸可结合至多个关联分子。关联分子可W是例如蛋白质、核酸或糖。在一 些情况下,关联分子可包括组蛋白。在其它情况下,关联分子可包括适体。
[0104] 插入酶可W是能够将核酸序列插入多核巧酸的任何酶。在一些情况下,插入酶可 基本上序列非依赖性方式将核酸序列插入多核巧酸。插入酶可W是原核生物的或真核 生物的。插入酶的实例包括但不限于转座酶、肥RMES和HIV整合酶。转座酶可W是化转座 酶(例如化3,化5,化7,化10,化552,Τη903)、MuA转座酶、Vibhar转座酶(例如来自哈氏 弧菌)、Ac-Ds、Ascot-1、Bsl、Cin4、Copia、En/Spm、F因子、hobo、Hsma;rl、Hsmar2、INGnV)、 ISl、IS2、IS3、IS4、IS5、IS6、ISIO、IS21、IS30、IS50、IS51、IS150、IS256、IS407、IS427、 IS630、IS903、IS911、IS982、IS1031、ISL2、Ll、Mariner、P因子、Tam3、Tcl、Tc3、Tel、raE-l、 化/0、化4、化3、化5、化7、化10、化552、化903、1'〇11、1'〇12、化10、了71、任何原核转座酶或与上 面所列的那些相关的和/或来源于其的任何转座酶。在某些情况下,与亲代转座酶相关的 和/或来源于其的转座酶可W包括与亲代转座酶的相应肤片段具有至少约50%、约55%、 约 60%、约 65%、约 70%、约 75%、约 80%、约 85%、约 90%、约 91 %、约 92%、约 93%、约 94%、约95%、约96%、约97%、约98%、或约99%氨基酸序列同源性的肤片段。肤片段的 长度可W是至少约10、约15、约20、约25、约30、约35、约40、约45、约50、约60、约70、约 80、约90、约100、约150、约200、约250、约300、约400、或约500个氨基酸。例如,来源于 Τη5的转座酶可包含长度为50个氨基酸并且与亲代Τη5转座酶的相应片段约80%同源的 肤片段。在一些情况下,插入可W通过添加一种或多种阳离子来促进和/或触发。阳离子 可W是二价阳离子,例如,Ca2\Mg2+和Μη2+。
[0105] 分子标签可W包括测序衔接子、锁核酸(LNA)、拉链核酸狂ΝΑ)、RNA、亲和反应分 子(例如生物素、dig)、自身互补分子、硫代憐酸修饰、叠氮化物或烘基。在一些情况下,测 序衔接子还可包括条形码标记。此外,条形码标记可包含独特的序列。独特的序列可用于 鉴定个体插入事件。任何所述标签还可包括巧光标签(例如巧光素、罗丹明、切3、切5、嚷挫 澄等)。
[0106] 此外,插入酶还可包含亲和标签。在一些情况下,亲和标签可W是抗体。抗体可W 结合至例如转录因子、修饰的核小体或修饰的核酸。修饰的核酸的实例包括但不限于甲基 化或径甲基化的DNA。在另一些情况下,亲和标签可W是单链核酸(例如ssDNA,ssRNA)。 在一些实例中,单链核酸可结合于祀核酸。在其它情况下,插入酶还可包含核定位信号。
[0107] 在一些情况下,细胞样品可W经透化W允许插入酶进入。可最小限度地扰乱 细胞样品中的细胞核的方式来进行透化。在一些情况下,细胞样品可W使用透剂来透化。透 化剂的实例包括但不限于NP40、洋地黄皂巧、吐溫、链球菌溶血素和阳离子脂质。在其它情 况下,细胞样品可W使用低渗休克和/或超声处理来透化。在其它情况下,插入酶可W是带 高电荷的,运可允许其通过细胞膜渗透化。
[010引在另一个方面,本公开内容提供了用于分析来自细胞样品的多核巧酸的Ξ维结构 的方法,包括:用插入酶将多个分子标签插入多核巧酸;和使用分子标签来分析所述多核 巧酸的Ξ维结构。插入酶可包含包含两个或更多个酶部分,其可任选地连接在一起。酶部 分可W通过使用任何合适的化学合成或生物缀合方法来连接。例如,酶部分可W通过醋/ 酷胺键、琉基至马来酷亚胺的添加、天然化学连接(NCL)技术、点击化学(即烘-叠氮化物 对)、或生物素-抗生蛋白链菌素对。在一些情况下,每个酶部分可将共同的序列插入多核 巧酸。共同的序列可包含共同的条形码。酶部分可包括转座酶或其衍生物。在一些实施方 案中,多核巧酸可在插入过程中被分割成多个片段。包含共同的条形码的片段可被测定为 在多核巧酸的Ξ维结构中是靠近的。
[0109] 多核巧酸可W是基因组DNA。多核巧酸还可结合至蛋白质例如组蛋白,并且可任选 地包装在染色质的形式中。在特定情况下,对应于基因组的一个或多个区域(例如2个或 更多、10个或更多、50个或更多、100个或更多、多至1000个或更多个区域)的DNA片段可 W在测序之前通过杂交富集(即选择)。在运些实施方案中,不需要对整个文库测序。取决 于所期望的结果和所选择的区域的长度(如果已进行了选择步骤),该方法的此步骤可导 致至少1000个测序(例如,至少10, 000、至少100, 000、至少500, 000、至少106、至少5xl06、 多至1〇7或更多个测序读数)。序列读数通常存储在计算机存储器中。
[0110] 方法的一些实施方案包括制作细胞基因组的区域的表观遗传图谱。此步骤可通过 将获自序列读数的信息映射至该区域来完成。在运些实施方案中,对序列读数进行计算分 析W产生许多被映射到目标区域的表示法(例如,图形表示法)的数值输出。如将在下文 更详细地解释的,可对许多类型的信息进行映射,包括但不限于:(i)转座酶的切割位点; (ii)在步骤a)中产生的片段的大小;(iii)片段长度;(iii)确定长度范围的序列读数的 位置;和(iv)序列读数丰度。
[0111] 例如,可W对序列读数进行计算分析W鉴定片段的末端(从其可推断转座子切割 位点)。在运些实施方案中,片段的一个末端可W通过位于测序读数的开头的序列限定并且 片段的另一末端可w通过位于第二测序读数的开头的序列限定,其中第一和第二测序读数 通过配对末端测序(例如,使用Illumina的测序平台)获得。相同的信息可W从检查较长 序列读数的开头和末端(其理论上应具有两个衔接子的序列;一个在一个末端上,另一个 在另一末端上)获得。在运些实施方案中,单个序列读数可包括两个衔接子序列,在此情况 下可W从单个序列读数来推断片段的两个末端(其对应于两个单独的转座酶的两个切割 位点)。片段的长度可W通过例如将片段末端映射至目标区域的核巧酸序列并对那些位置 之间的碱基对数目计数来计算。信息可W通过使用在序列读数的开头和/或末端上的核巧 酸序列获得。
[0112] 在某些情况下,可W将序列读数按长度分组。在一些实施方案中,一些序列可基于 其大小被注释为无核小体的序列(即,被预测为在核小体之间的片段的序列)。还可鉴定 与单核小体、双核小体和Ξ核小体关联的读数。运些截断值可使用图12中所示的数据来确 定。片段长度(其提供与序列读数长度相同的信息)也可同样的方式处理。在某些情 况下,可W计算序列读数丰度,即,基因组区域中的特定序列被表示在序列读数中的次数。
[0113] 所得的表观遗传图谱可提供目标区域中的染色质的分析。例如,取决于所映射的 信息,图谱可W显示W下的一种或多种:沿区域的染色质可接近性的特征谱;区域中位点 的DNA结合蛋白(例如,转录因子)占据;区域中的无核小体的DNA;沿区域的核小体定位; W及沿着区域的染色质状态的特征谱。在一些实施方案中,方法还可包括例如通过综合一 个DNA结合蛋白在该蛋白结合的多个位点上的数据来测量DNA结合蛋白的结合位点的总体 占据。在某些情况下,图谱还可W用序列信息化及关于该序列的信息(例如,启动子、内含 子、外显子、已知的增强子、转录起始位点、非翻译区、终止子等的位置)来注释,W使得表 观遗传信息可W在该注释的情境下查看。
[0114] 在某些实施方案中,表观遗传图谱可W提供关于活性调节区和/或结合至调节区 的转录因子的信息。例如,核小体位置可W从所产生的测序读数的长度来推断。可选择地, 转录因子结合位点可W从所产生的测序读数的大小、分布和/或位置来推断。在一些情况 下,新的转录因子结合位点可W从所产生的测序读数推断。在其它情况下,新的转录因子可 W从所产生的测序读数推断。
[011引在测定中使用的细胞群可W包括任何数目的细胞,例如约500至约106或更多的 细胞、约500至约100, 000个细胞、约500至约50, 000个细胞、约500至约10, 000个细胞、约 50至1000个细胞、约1至500个细胞、约1至100个细胞、约1至50个细胞、或单个细胞。 在一些情况下,细胞样品可W由少于约1000、约2000、约3000、约4000、约5000、约6000、约 7000、约 8000、约 9000、约 10, 000、约 15, 000、约 20, 000、约 25, 000、约 30, 000、约 40, 000、 约 50, 000、约 60, 000、约 70, 000、约 80, 000、约 90, 000、约 100, 000、约 120, 000、约 140, 000、 约 160, 000、约 180, 000、约 200, 000、约 250, 000、约 300, 000、约 350, 000、约 400, 000、约 450, 000、约 500, 000、约 600, 000、约 700, 000、约 800, 000、约 900, 000、或约 1,000, 000 个细 胞组成。在其它情况下,细胞样品可W由多于约1000、约2000、约3000、约4000、约5000、 约 6000、约 7000、约 8000、约 9000、约 10, 000、约 15, 000、约 20, 000、约 25, 000、约 30, 000、 约 40, 000、约 50, 000、约 60, 000、约 70, 000、约 80, 000、约 90, 000、约 100, 000、约 120, 000、 约 140, 000、约 160, 000、约 180, 000、约 200, 000、约 250, 000、约 300, 000、约 350, 000、约 400, 000、约 450, 000、约 500, 000、约 600, 000、约 700, 000、约 800, 000、约 900, 000、或约 !,000, 000个细胞组成。
[0116] 细胞可W来自任何来源。在某些情况下,细胞可W获自细胞的培养物,例如细胞 系。在其它情况下,细胞可W分离自个体(例如,患者或类似的)。细胞可W分离自软组织 或体液或体外生长的细胞培养物。在具体的实施方案中,染色质可W分离自软组织,例如 脑、肾上腺、皮肤、肺、脾、肾、肝、脾、淋己结、骨髓、膀脫胃、小肠、大肠或肌肉等。体液包括血 液、血浆、唾液、粘液、疲、脑脊髓液、胸膜液、泪液、阴道管液(lactal化ctfluid)、淋己液、 疲液、脑脊液、滑膜液、尿液、羊水和精液等。
[0117] 在一些实施方案中,在方法中使用的多核巧酸(例如基因组DNA,染色体DNA)可W来自血细胞,其中血细胞是指全血样品或全血中的细胞亚群。全血中的细胞亚群包括血 小板、红血细胞(红细胞)、血小板和白血细胞(即外周血白细胞,其由嗜中性粒细胞、淋己 细胞、嗜酸性粒细胞、嗜碱性粒细胞和单核细胞构成)。运五种类型的白血细胞可W被进一 步分为两组:粒细胞(也称为多形核白细胞并且包括嗜中性粒细胞、嗜酸性粒细胞和嗜碱 性粒细胞)和单核白细胞(其包括单核细胞和淋己细胞)。淋己细胞可进一步分为T细胞、 B细胞和NK细胞。外周血细胞发现于血液循环池并且不隔离在淋己系统、脾、肝或骨髓内。 可分离存在于血液中的其它细胞。如果血液首先与试剂接触,然后将血液样品用于测定,那 么部分或全部的接触血液可用于测定。
[0118] 在某些实施方案中,细胞样品可W直接分离自原始来源。例如,细胞样品可W直接 分离自新鲜组织。在其它情况下,细胞样品可W直接分离自冷冻组织。在另一些情况下,细 胞样品可W直接分离自经固定的组织。细胞样品的原始来源的其它实例包括但不限于,从 组织解离的细胞、血液细胞、FF阳组织、细菌、病毒、线粒体、叶绿体、体外组装的蛋白DN
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1