等位基因调用和倍性调用的方法_5

文档序号:8412775阅读:来源:国知局
多技术放大。在一个具体实 施方式中,目标个体是所有的同胞。在一个【具体实施方式】中,对目标个体的一次或多次基因 测量在单细胞上进行。在一个【具体实施方式】中,可使用平台响应模型来测定给出了基因分 型技术的观察基因测量结果和典型测量偏差的真实基因型的可能性。
[0125] 目标个体的基因数据可使用选自包括但不限于下列组的工具和或技术测量:分 子倒置探针(MIP)、基因分型微数列、TaqMan单核苷酸多态性(SNP)基因分型分析法、 Illumina基因分型体系、其它基因分型分析法、荧光原位杂交(FISH)、测序、其它高通量基 因分型平台,及其组合。目标个体的基因数据可通过分析选自包括但不限于下列组的物质 测量:一个或多个来自目标个体的二倍体细胞、一个或多个来自目标个体的单倍体细胞、一 个或多个来自目标个体的卵裂球、在目标个体中发现的额外细胞基因物质、在母方血液中 发现的来自目标个体的额外细胞基因物质、在母方血液中发现的来自目标个体的细胞、已 知来源于目标个体的基因物质,及其组合。相关个体的基因数据可通过分析选自包括但不 限于下述组的物质测量:相关个体的大量二倍体组织、一个或多个来自相关个体的二倍体 细胞、一个或多个取自相关个体的单倍体细胞、一个或多个由来自相关个体的配子创造的 胚胎、一个或多个取自这类胚胎的卵裂球、在相关个体中发现的额外细胞基因物质、已知来 源于相关个体的基因物质,及其组合。
[0126] 第二,可对每个个体的等位基因集合创立多个等位基因假说的集合。每个等位基 因假说是指所述个体的等位基因集合中的每个等位基因可能的特性。在一个【具体实施方式】 中,目标个体等位基因的特性包括等位基因的起源,g卩,等位基因基因起源的父母,以及等 位基因基因起源的特定染色体。假说的集合可包括预期目标个体具有的等位基因集合中所 有可能的等位基因状态。
[0127] 最后,每个等位基因假说的统计概率可在考虑所得基因数据后测定。特定假说的 概率测定可通过本发明描述的任何算法完成,特别是那些在等位基因调用部分中的算法。 个体的等位基因假说的集合可包括个体等位基因集合中所有可能的等位基因状态。那些与 目标个体有噪音的测量基因数据匹配更紧密的假说更可能被校正。与目标个体的真实基因 数据正好对应的假说更可能以非常高的概率被测定。等位基因状态可确定为与具有最高概 率的假说相对应的等位基因状态。在一些【具体实施方式】中,等位基因状态可对等位基因集 合的不同子集测定。
[0128] 亲代支持
[0129] 本发明的一些【具体实施方式】可使用利用信息的亲代支持?(PS)法。在一些具体实 施方式中,亲代支持?法是可用来对一个或少量细胞以高准确度测定基因数据的方法的聚 集,特别是测定疾病相关联的等位基因、其它有利的等位基因,和/或细胞的倍性态 [0130] 亲代支持?法利用已知的亲代基因数据,即母亲和/或父亲的单倍体和/或二倍 体基因数据,和减数分裂机理的知识,以及目标DNA、可能的一个或多个相关个体有缺陷的 测量结果,以高度的可信度经计算机模拟来重建在多个等位基因上的基因型,和/或胚胎 或任何目标细胞,以及关键基因座位点上的目标DNA的倍性态。亲代支持?法不仅可重建 测定不充分的单核苷酸多态性,还可以重建根本没有测量的插入和缺失、单核苷酸多态性 (SNP)或DNA区域整体。此外,亲代支持?法即可测量多疾病相关联的基因座,还可筛查来 自单细胞的非整倍体。在一些【具体实施方式】中,亲代支持?法可用来表征在体外受精(IVF) 周中一个或多个来自胚胎活检的细胞,以确定一个或多个细胞的基因状况。
[0131] 亲代支持^法允许清除有噪音的基因数据。这可通过使用相关个体(父母)的基 因型作为参考推断目标基因组(胚胎)正确的遗传等位基因来实现。亲代支持"*在只有少 量的基因物质可用(例如植入前基因诊断(PGD)),以及基因型的直接测量由于有限量的基 因物质而具有固有噪音时特别相关。亲代支持?法能重建胚胎高度精确有序的二倍体等 位基因序列,以及染色体片段的复制数,甚至是常规的、无序的二倍体测量结果也可用高效 率的等位基因漏失、降低、易变的扩增偏差及其它错误表征。所述方法能同时采用基本的基 因模型和测量误差的基本模型。基因模型可同时测定每个单核苷酸多态性(SNP)的等位基 因概率和单核苷酸多态性(SNP)之间的基因转换概率。等位基因概率可在每个单核苷酸多 态性(SNP)上利用由亲代得到的数据,以及利用了由HapMap数据库得到的数据单核苷酸多 态性(SNP)之间的模型基因转换概率,如International HapMap Project所开发的。考虑 到合适的基本基因模型和测量误差模型,通过对计算效率调整,可使用最大后验估计(MAP) 判断,来评估胚胎中每个单核苷酸多态性(SNP)上正确、有序的等位基因值。
[0132] 亲代支持?技术的一个方面是在一些使用亲代基因型背景的【具体实施方式】中的 染色体拷贝数调用算法。为了调用染色体拷贝数,所述算法可结合使用基因座遗漏(LDO) 的现象和预期的胚胎基因型分布。在全基因组扩增过程中,必然会出现基因座遗漏(LDO)。 基因座遗漏(LDO)率与来源的基因物质的拷贝数一致,即,较少的基因复制会导致较高的 基因座遗漏(LDO),反之亦然。照这样,其遵照所述在胚胎中以典型模式表现的具有特定情 形亲代基因型的基因座,并与等位基因对胚胎贡献的概率相关。例如,如果父母双方都具有 同型组合BB状态,那么胚胎应决不会有AB或AA状态。在该情形中,A检测通道的测量结果 预期具有由背景噪音和各种干扰信号确定的分布,但是没有有效的基因型。相反,如果父母 双方都具有同型组合AA状态,那么胚胎应绝不会有AB或BB状态,并且A通道的测量结果 预期具有可能给出特定全基因组扩增中基因座遗漏(LDO)率的最大强度。当胚胎的基础拷 贝数状态不同于二体时,对应于特殊亲代背景的基因座会基于父母一方提供或缺少的额外 等位基因内容以预期的模式表现。这允许对每个染色体或染色体片段的倍性态进行测定。 该方法一个【具体实施方式】的细节在本发明的其它部分有记载。
[0133] 使用亲代背景的拷贝数调用
[0134] 亲代背景的概念在拷贝数调用(又称为"倍性测定")的情形中很有用。当基因分 型时,在对特定的倍性态进行测量时,第一亲代背景中的所有单核苷酸多态性(SNP)预期 可在统计学上以相同的方式表现。相比之下,在特定情形中,一些来自第二亲代背景的单核 苷酸多态性(SNP)集合在统计学上预期与在第一亲代背景中的那些表现不同,例如对于特 定的倍性态,所述表现上的不同可能对于一个或一组特定倍性态而言是特有的。有许多统 计技术可用来分析各种亲代背景中不同基因座的测量响应。在本发明的一些【具体实施方式】 中,可对每个假说的输出概率使用统计技术。在本发明的一些【具体实施方式】中,可对每个假 说的输出概率以及对所估计概率的可信度使用统计技术。当应用于个体时,有些技术不足 以以特定水平的可信度测定特定染色体的倍性态。
[0135] 本发明一个方面的关键是基于这样的事实:有些专门的专业技术特别善于确认或 消除特定倍性态或倍性态集合的争议,但是在单独使用时不能正确测定倍性态。这与一些 专业技术相比能较好区分彼此间大多数或所有的倍性态,但是在区分一个特定的倍性态子 集时没有和一些特殊的专业技术同样高的可信度。有些方法使用一种普遍的技术来测定倍 性态。但是,将适当的一组特殊专业技术结合,可比使用一种普遍的专业技术测定倍性更精 确。
[0136] 例如,一种专业技术能以非常高的可信度确定目标是否为单体,第二种专业技术 能以非常高的可信度确定目标是否为三体或四体,而第三种技术能以非常高的可信度检测 单亲源二体。这些技术单独不能进行精确的倍性测定,但是当将这三种特殊的专业技术组 合使用时,它们能以比使用一种能非常好区分所有倍性态的专业技术更高的精确度确定倍 性调用。在本发明的一些【具体实施方式】中,可组合多种技术的输出概率来实现高可信度的 倍性态测定。在本发明的一些【具体实施方式】中,每种技术对特定假说预测的概率可相乘在 一起,所得结果被认为是所述假说的组合概率。与具有最高组合概率的假说相关联的倍性 态可被称为正确的倍性态。如果能适当地选择专业技术的集合,那么概率的组合结果可比 单个技术更精确地确定倍性态。在逆向的一些【具体实施方式】中,来自一个以上技术的假说 的概率可相乘,例如使用线性代数并再归一化,得到组合概率。在一个【具体实施方式】中,概 率的可信度能以与概率相同的方式组合。在本发明的一个【具体实施方式】中,假说的概率可 在它们为独立的假设下组合。在本发明的一些【具体实施方式】中,一个或多个技术的输出结 果可作为其它技术的输入数据。在本发明的一个【具体实施方式】中,使用一个或一组专业技 术得到的倍性调用可用来确定等位基因调用技术适宜的输入数据。在本发明的一个具体实 施方式中,来自等位基因调用技术的精准的基因数据输出结果可用作一个或一组专业倍性 调用技术的输入数据。在本发明的一些【具体实施方式】中,各种技术的使用可反复进行。
[0137] 在本发明的一些【具体实施方式】中,倍性态能以高于约80%的可信度被调用。在本 发明的一些【具体实施方式】中,倍性态能以高于约90%的可信度被调用。在本发明的一些具 体实施方式中,倍性态能以高于约95 %的可信度被调用。在本发明的一些【具体实施方式】中, 倍性态能以高于约99%的可信度被调用。在本发明的一些【具体实施方式】中,倍性态能以高 于约99. 9%的可信度被调用。在本发明的一些【具体实施方式】中,一个或一组等位基因可以 高于约80%的可信度被调用。在本发明的一些【具体实施方式】中,等位基因可以高于约90% 的可信度被调用。在本发明的一些【具体实施方式】中,等位基因可以高于约95%的可信度被 调用。在本发明的一些【具体实施方式】中,等位基因可以高于约99%的可信度被调用。在本 发明的一些【具体实施方式】中,等位基因可以高于约99. 9%的可信度被调用。在本发明的一 些【具体实施方式】中,输出的等位基因调用数据是定相的,并从两个同源染色体中区分出基 因数据。在本发明的一些【具体实施方式】中,定相的等位基因调用数据是所有个体的输出结 果。
[0138] 以下描述了几种可用来测定倍性态的统计技术。该列表不意欲作为可能的专业技 术的穷举列表。有可能使用能辨认目标倍性态假说集合概率和/或可信度的任意统计技 术。任意的下列技术均可组合,或者它们可与本发明未讨论的其它技术组合。
[0139] 棑列抟术
[0140] 基因座遗漏(LDO)率与来源基因物质的拷贝数相一致,即较少的染色体复制会导 致较高的基因座遗漏(LDO),反之亦然。其遵照所述在胚胎中以典型模式表现的、具有特定 情形亲代基因型的基因座,并与等位基因对胚胎贡献的概率相关。在本发明的一个具体实 施方式中被称为"排列技术",其可能在各种亲代背景中使用基因座特有的行为来推断那些 基因座的倍性态。特别地,该技术涉及对不同亲代背景的等位基因测量数据所观察分布之 间的关系进行比较,以及确定哪种倍性态与分布之间观察到的关系集合相匹配。该技术在 确定样本中存在的同源染色体时特别有用。通过对每个亲代背景作累积分布函数(CDF)曲 线图,可以观察聚集在一起的各种背景。注意的是,累积分布函数(CDF)仅仅是设想和比较 所观察到的等位基因测量数据分布的一种方式。例如,附图1显示了二体染色体的累积分 布函数(⑶F)曲线。特别地,附图1显示了来自亲代基因型(母亲I父亲)特定背景的等 位基因测量数据是如何在胚胎中以典型的模式表现的,并与等位基因对胚胎贡献的概率相 关。当所考虑的染色体是二体时,9个亲带背景被分类为
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1