用于疾病关联的人类基因组变异分析和报告的系统及方法
【专利说明】用于疾病关联的人类基因组变异分析和报告的系统及方法
[0001] 受限版权授权
[0002] 本专利文献的公开内容中的一部分包括受版权保护的资料。当该受版权保护的资 料出现在专利商标局的专利文件或记录中时,版权所有人不反对任何人对专利文件或专利 公开内容中的任一者进行复制,但在其他方面仍保留所有版权。
【背景技术】 阳00引相关技术的描述
[0004] 可W使用包括基因组变异的基因组测序结果的计算分析来预测疾病的可能性。
【发明内容】
阳〇化]根据本公开内容的一些方面的计算机系统可W包括:一个或更多个计算机处理 器;W及有形存储设备,该有形存储设备存储有变异分析模块、验证模块、报告模块和用于 疾病风险预测的一个或更多个统计模块。所述模块可W被配置成用于由一个或更多个计算 机处理器来执行。所述模块可W被配置成接收和提取疾病相关变异信息。所述模块还可W 被配置成将疾病相关变异信息存储在第一数据结构中。针对与个人相关联的多个基因组序 列中的每个基因组序列,可W经由变异分析模块来识别多个基因组变异。可W将多个基因 组变异存储在第二数据结构中。可W经由一个或更多个统计模块中的至少一个统计模块W 及被存储在第一数据结构中的疾病相关变异信息来确定与多个基因组变异中的至少一个 或更多个基因组变异相关联的一个或更多个疾病概率。针对多个基因组变异中的具有大于 阔值的至少一个疾病概率的至少一个或更多个基因组变异,可W使用验证模块来获得对多 个基因组变异中的至少一个基因组变异的验证。响应于确定出获得对多个基因组变异中的 至少一个基因组变异的验证,可W经由报告模块来创建报告。该报告可W至少包括疾病和 该疾病的可能性。该疾病的可能性可W至少部分基于一个或更多个统计模块W及被存储在 第一数据结构中的疾病相关变异信息来确定。
【附图说明】
[0006] 通过结合附图来参照下面的详细描述,前述方面和许多伴随优点将变得更好理 解,从而将更容易领会,在附图中:
[0007] 图1是示出在用于基因组测序和比对的说明性操作环境中的数据流的一个实施 方式的流程图。
[0008] 图2是示出在接收到基因组测序结果之后的序列处理步骤的一个实施方式的流 程图。
[0009] 图3是示出数据库查询、变异分析、疾病的可能性的统计预测、验证和定制报告的 过程的一个实施方式的系统图和流程图。
[0010] 图4是可W被生成并且呈现给用户W使用户能够生成定制的变异分析和疾病可 能性报告的说明性用户界面,该变异分析和疾病可能性报告包括关于对运样的分析和/或 报告的验证的信息。
[0011]图5是示出用于计算和呈现基因组序列变异分析数据和疾病可能性数据的系统 的一个实施方式的框图。 阳01引图6A是可W包括例如疾病风险、载体状态、性状和/或药物反应的信息的临床报 告的实施方式。
[0013] 图6B是包括例如变异、疾病关联、疾病的可能性和受影响的基因的信息的报告的 实施方式。
[0014] 图6C是可W被生成并且呈现给用户W示出与一个或更多个基因组变异相关联的 特定疾病风险的用户界面的实施方式。
[0015] 图抓是与患者的基因组变异有关的细节的实施方式。
[0016] 图7是示出可能与疾病有关的祖先相关信息的界面的实施方式。
[0017] 图8是使与患者的基因组序列数据有关的基因组测序变异文件显现的报告的实 施方式。
[0018] 图9A是可W被生成并且呈现给用户的具有疾病概率的警告的疾病预测报告模板 的实施方式,该疾病预测报告模板可W包括突变和关联疾病风险的条形图表示。
[0019] 图9B是可W被生成并且呈现给用户W指示疾病的风险的疾病预测报告模板的实 施方式,该疾病预测报告模板可W包括基因型数据和关联疾病风险的散点图表示。
【具体实施方式】
[0020] 下面将参照附图对系统、方法、过程W及数据结构的各种实施方式进行描述。还将 对表示其他实施方式的系统、方法、过程和数据结构的变型进行描述。系统、方法、过程和数 据结构的某些方面、优点和新颖特征在本文中被描述。应该理解的是,根据任何特定实施方 式未必可W实现所有运样的优点。因此,系统、方法、过程和/或数据结构可下述方式 来实施或实现:实现如本文所教导的一个优点或一组优点,而未必实现如本文可W教导或 建议的其他优点。
[0021] 可W对基因组测序数据进行比对,使得通过将个体的基因组序列与一个或更多个 参考序列进行比较来检测该个体的基因组序列中的变异。可W应用统计和/或机器学习方 法W基于W下信息来预测疾病的可能性:基因组变异信息W及关于基因组变异与疾病之间 的可能关系的信息。
[0022] 本文公开了用于基因组变异分析、疾病可能性预测、分析和预测验证W及定制报 告生成的系统和方法。运样的系统和方法可W用于为临床医生、研究人员和/或患者作出 高可信度的基于变异的疾病可能性分析和预测。
[0023] 基因测序和比对过程示例
[0024] 图1是示出在用于基因组测序和比对的说明性操作环境中的数据流的一个实施 方式的流程图。如图1中所示,可W从多个患者110获得DNA样本。在一些实施方式中,一 次可W批量地获得和处理超过90例患者的DNA样本。在一些实施方式中,可W从胎儿获得 DNA样本。在一些其他实施方式中,可W从各种其他生物样本获得DNA样本。例如,生物样 本可W包括大量样本,例如人类(包括婴儿)组织、动物组织和具有大量细胞的细胞系。还 可W从有限的资源一一例如稀缺资源并且在一些情况下珍贵资源(包括例如具有较少且有 限数量细胞的细胞系)一-获得DNA样本。甚至可W从单个细胞或者在出于各种目的某些 纯化和其它处理过程之后获得DNA样本。根据实施方式,图1的方法可W包括更少的块或 附加的块,并且可WW与所示出的顺序不同的顺序来执行块。
[00巧]根据实施方式,可W通过例如多重置换扩增("MDA")技术来对所获得的DNA样本 进行扩增。MDA扩增技术能够迅速将所获得的DNA样本扩增至足W进行基因组分析的合理 的数量。相比于传统的PCR扩增技术,MDAW通常较低的错误频率来生成较大尺寸的产品。 [00%] 在一些实施方式中,MDA过程设及W下步骤:例如DNA产品的样本制备、调整、终止 反应化及纯化。在MDA扩增过程完成之后,可W获得经扩增的DNA样本120。
[0027] 根据本公开内容的一些实施方式,经扩增的DNA样本可W经历库构造过程。在库 构造过程期间,可W用条形码对包含经扩增的DNA样本120的试管进行标记。例如,如果总 共有96个经扩增的DNA样本,则可W用条形码1至条形码96对包含经扩增的DNA样本120 的试管进行标记。因此可W构造经扩增的DNA样本120的库130。如果DNA样本从大量样 本例如人类(包括婴儿)组织、动物组织和具有大量细胞的细胞系来获得,则可W使用DNA 片段化方法(例如剪切)和基于PCR扩增的库构造方法来构造库130。如果DNA样本从有 限的资源例如单个细胞或者具有较少且有限数量细胞的细胞系来获得,则可W使用其它方 法来构造库130,所述其他方法包括例如多重置换扩增(MDA)W及基于多重退火环状循环 扩增(MBLAC)的扩增方法。在一些实施方式中,样本的条形码可W包含另外的相关信息。
[0028] 在一些实施方式中,经扩增的DNA样本120作为库130可W经历测序过程。在一 些实施方式中,测序仪例如IonProton?系统可W被用于测序。在一些其他实施方式中, 其它最先进的测序系统可W用于测序目的。可W获得来自各种测序方法一一例如鸟枪法测 序、单分子实时测序、离子半导体测序、焦憐酸测序、合成法测序、结扎法测序、链终止法测 序一一的数据并且所述数据可W用于获得原始数据140。
[0029] 在一些实施方式中,为了保证测序覆盖的质量和深度,库130中的每个样本可W 被测序达一定的测序深度,W产生20x至50x的覆盖。在一些实施方式中,在测序处理中可 W实现更多覆盖或更少覆盖。针对被测序的每个样本创建更多覆盖的目的是为了确保所检 测的基因