细胞异质性调整的克隆甲基化(CHALM):甲基化定量方法与流程

文档序号:37600600发布日期:2024-04-18 12:42阅读:12来源:国知局
细胞异质性调整的克隆甲基化(CHALM):甲基化定量方法与流程

本发明大体上涉及用于定量甲基化,特别是表现出不同生物学功能的差异甲基化基因的方法。更具体地,本发明涉及单个细胞中基因组基因座的二元甲基化状态(甲基化或未甲基化)(例如,由亚硫酸氢盐测序数据中的一个或多个序列读段表示)。


背景技术:

1、基因组基因座内的dna甲基化可以影响多种生物学功能。例如,启动子dna甲基化是一种公认的转录抑制机制,尽管其与基因表达的整体相关性较弱。这种弱相关性可以归因于当前的甲基化定量方法未能考虑测序的大量细胞之间的异质性。启动子甲基化与基因表达之间较差的相关性部分是由于传统dna甲基化定量方法过于简单化(即,它仅确定启动子内每个cpg的平均甲基化水平)(schultz,m.d.,schmitz,r.j.和ecker,j.r.trendsgenet.28,583-585,2012)。因此,这种传统方法的一个主要缺点是它无法虑及测序的大量细胞之间的异质性,而是似乎它们是相同的一般来对待细胞内或细胞间的cpg。本领域需要改进的甲基化定量技术以更好地理解dna甲基化与生物学功能之间的联系。


技术实现思路

1、在某些方面,提供了一种用于确定基因组区域的细胞异质性调整的克隆甲基化(chalm)评分的方法,所述方法包括:接收包含序列读段的测序信息;根据所述测序信息确定与所述基因组区域或其部分相关的甲基化序列读段的数量,其中所述甲基化序列读段各自包含映射至所述基因组区域或其部分的至少一个合格cpg位点的甲基化;根据所述测序信息确定与所述基因组区域或其部分相关的未甲基化序列读段的数量,其中所述未甲基化序列读段各自包含映射至所述基因组区域或其部分的至少一个合格cpg位点,并且其中所述未甲基化序列读段的所述合格cpg位点都不被甲基化;以及基于与所述基因组区域或其部分相关的甲基化序列读段的数量除以与所述基因组区域或其部分相关的甲基化序列读段和未甲基化序列读段的数量之和,确定所述基因组区域的所述chalm评分。

2、在一些实施方案中,所述合格cpg位点包含来自所述测序信息的覆盖所述cpg位点的至少一个序列读段。在一些实施方案中,所述合格cpg位点包含来自所述测序信息的覆盖所述cpg位点的至少四个序列读段。在一些实施方案中,所述方法还包括基于覆盖所述cpg位点的序列读段的数量来确定cpg位点是否是合格cpg位点。

3、在一些实施方案中,所述方法还包括确定(例如)鉴定所述基因组区域。

4、在一些实施方案中,所述方法包括确定两个或多个基因组区域的chalm评分。

5、在一些实施方案中,所述测序信息是从测序技术获得的。在一些实施方案中,所述测序技术是下一代测序技术。在一些实施方案中,所述测序技术是全基因组测序技术。在一些实施方案中,所述测序技术是靶向测序技术。在一些实施方案中,所述方法还包括进行所述测序技术。在一些实施方案中,所述测序技术包括对从个体的样品获得的核酸进行测序。

6、在一些实施方案中,所述样品是包含无细胞dna的血液样品。在一些实施方案中,在测序之前使从所述样品获得的所述核酸经历处理,其中所述处理使得能够确定所述核酸的一个或多个cpg位点的甲基化状态。在一些实施方案中,所述处理是用于转化未甲基化胞嘧啶以使得能够确定一个或多个cpg位点的甲基化状态的基于酶的技术。在一些实施方案中,所述基于酶的技术是em-seq技术。在一些实施方案中,所述处理是基于亚硫酸氢盐的技术。

7、在一些实施方案中,所述测序技术能够提供双端测序读段。在一些实施方案中,进行所述测序技术使得测序深度为至少约50x。

8、在一些实施方案中,在确定甲基化序列读段和/或未甲基化序列读段的数量之前使接收的测序信息经历信息学预处理。在一些实施方案中,所述信息学预处理包括去除低质量读段。在一些实施方案中,所述信息学预处理包括去除序列衔接子序列。在一些实施方案中,所述信息学预处理包括将序列读段映射至参考基因组。在一些实施方案中,所述参考基因组是人参考基因组。

9、在一些实施方案中,所述方法还包括基于所述基因组区域的所述chalm评分确定与所述基因组区域或其部分相关的差异甲基化。在一些实施方案中,所述差异甲基化是基于β-二项模型确定的。

10、在一些实施方案中,所述方法还包括将所述基因组区域的所述chalm评分与相关基因的表达水平相关联。

11、在一些实施方案中,所述方法包括将所述基因组区域的所述chalm评分与相关h3k4me3水平相关联。

12、在另一些方面,本文提供了一种从个体的样品生成一种或多种生物标志物的甲基化谱的方法,其中所述一种或多种生物标志物包含一个或多个基因组区域,所述方法包括:根据本文所述的任何方法确定所述一个或多个基因组区域中的每一个的chalm评分;基于确定的chalm评分生成甲基化谱。在一些实施方案中,所述方法还包括基于相关的chalm评分确定所述一个或多个基因组区域的差异甲基化。

13、在一些实施方案中,所述样品是cfdna样品。在一些实施方案中,所述个体疑似患有癌症。在一些实施方案中,所述癌症是肝癌。在一些实施方案中,所述癌症是结肠癌。在一些实施方案中,所述甲基化谱指示所述个体患有所述癌症。

14、在一些实施方案中,所述方法在系统上执行,所述系统包括一个或多个处理器、存储一个或多个程序的存储器,所述一个或多个程序被配置成由所述一个或多个处理器执行,并且所述一个或多个程序包括用于执行本文所述的chalm定量方法的指令。

15、在一些实施方案中,所述基因组区域是启动子或其部分。在一些实施方案中,所述基因组区域包含10,000或更少个碱基对。

16、在另一些方面,提供了一种用于确定基因组区域的细胞异质性调整的克隆甲基化(chalm)评分的系统,所述系统包括:一个或多个处理器;以及存储一个或多个程序的存储器,所述一个或多个程序被配置成由所述一个或多个处理器执行,所述一个或多个程序包括用于以下操作的指令:接收包含序列读段的测序信息;根据所述测序信息确定与所述基因组区域或其部分相关的甲基化序列读段的数量,其中所述甲基化序列读段各自包含映射至所述基因组区域或其部分的至少一个合格cpg位点的甲基化;根据所述测序信息确定与所述基因组区域或其部分相关的未甲基化序列读段的数量,其中所述未甲基化序列读段各自包含映射至所述基因组区域或其部分的至少一个合格cpg位点,并且其中所述合格cpg位点都不被甲基化;以及基于与所述基因组区域或其部分相关的甲基化序列读段的数量除以与所述基因组区域或其部分相关的甲基化序列读段和未甲基化序列读段的数量之和,确定所述基因组区域的chalm评分。

17、在一些实施方案中,所述一个或多个程序还包括用于确定所述基因组区域的差异甲基化的指令。在一些实施方案中,差异甲基化是基于β-二项模型确定的。在一些实施方案中,所述系统包括一个或多个机器学习分类器,其中所述一个或多个机器学习分类器中的至少一者包括所述β-二项模型。在一些实施方案中,所述基因组区域是启动子或其部分。在一些实施方案中,所述基因组区域包含10,000或更少个碱基对。

18、在某些方面,本文提供了用于分析基因组dna中胞嘧啶的甲基化状态的方法。在一些实施方案中,提供了一种用于确定个体的癌症(例如肝癌)的方法。本文还提供了用于确定患有肝癌的受试者的预后的方法。在一些方面,本文还提供了方法,其通过检查转录活性与基因表达和h3k4me3水平的相关性来改进对转录活性的预测。h3k4me3是dna包装蛋白组蛋白h3的表观遗传修饰,其与转录活性基因相关。

19、例如,本方法可用于诊断癌症。在具体的实施方案中,本方法可用于鉴定比传统方法更准确的表现出不同生物学功能的差异甲基化基因。

20、在某些实施方案中,本文提供了一种方法,其包括“确定”从患者获得的生物样品中许多独立基因组cpg位置的“dna甲基化状态”的步骤。确定甲基化状态可以使用本领域已知的任何适合评估dna中胞嘧啶残基的甲基化的方法进行。此类方法是本领域已知的并且已经被描述过;并且本领域技术人员将知道如何根据要测试的样品的数量、可用样品的数量等来选择最合适的方法。

21、在一些实施方案中,所述方法将启动子甲基化定量为甲基化读段(≥1mcpg)与映射至给定启动子区的总读段的比率。

22、在一些实施方案中,细胞异质性调整的克隆甲基化(chalm)确定的甲基化水平与基因表达表现出更加线性且单调的关系。

23、在一些实施方案中,chalm方法提供了更好的基因表达预测。

24、在一些实施方案中,chalm在双端和高深度测序数据集中表现最好。

25、在一些实施方案中,与传统的甲基化定量方法(例如,基因组基因座内每个cpg的平均甲基化水平)相比,chalm提供了更有意义的结果(例如,与生物学相关功能的联系)。在一些实施方案中,比较还包括基于甲基化读段的不同定义来分析传统方法和chalm。

26、在一些实施方案中,所述方法指示基于svd的插补方法(奇异值分解(svd)本身不是插补算法)来延长读段。

27、在一些实施方案中,可以通过将读段延长至不同长度(例如,多达300个碱基对的长度)来改进性能。

28、在一些实施方案中,所述方法包括复杂但直观的深度学习模型。

29、在一些实施方案中,所述方法将原始测序数据处理成类似图像的数据结构,在该结构中一个通道包含甲基化信息并且另一个通道包含读段位置信息。

30、在一些实施方案中,所述方法可以利用更多信息用于进行基因表达预测,例如读段与转录起始位点之间的距离以及具有多于1个mcpg的读段的权重。

31、在一些实施方案中,所述方法在基于启动子cgi甲基化水平预测基因表达方面比传统方法表现得更好。

32、在一些实施方案中,chalm在肿瘤形成期间鉴定更准确的高甲基化基因。

33、在一些实施方案中,所述chalm方法利用选自以下项中的一种或多种的算法:主成分分析、逻辑回归分析、最近邻分析、支持向量机和神经网络模型。

34、在一些实施方案中,chalm提供了差异甲基化与差异基因表达之间更好的相关性。

35、在一些实施方案中,所述方法还鉴定与所研究的潜在机制更相关的从头差异甲基化区域(dmr)。chalm是一种用于定量细胞异质性调整的平均甲基化的方法,但是它本身不是一种用于定量甲基化异质性的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1