核酸重复序列计数的自动调用方法

文档序号:10556414阅读:559来源:国知局
核酸重复序列计数的自动调用方法
【专利摘要】本公开涉及用于测定包含核酸重复序列区的DNA片段中核酸重复序列数目的方法。一个示例方法可以包括:接收通过解析DNA扩增产物生成的DNA大小和丰度数据。可以通过将低通滤波器应用于DNA大小和丰度数据来生成一组低通数据,可以通过将带通滤波器应用于DNA大小和丰度数据来生成一组带通数据。可以基于从低通数据和带通数据鉴别的峰来鉴别代表DNA中核酸重复序列数目的DNA大小和丰度数据中的峰。
【专利说明】核酸重复序列计数的自动调用方法
[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年11月13日提交的题为"核酸重复序列计数的自动调用方法" 的美国临时序列号61/903847和于2013年11月14日提交的题为"核酸重复序列计数的自动 调用方法"的美国临时序列号61/904439的优先权,其全部内容通过引用并入本文用于所有 目的。
[0003] 领域
[0004] 下面的公开一般涉及确定基因型,更具体地涉及确定与核酸重复序列相关的基因 型。
[0005] 背景
[0006] 核酸重复序列与各种疾病相关。例如,在FMR1基因(0ΜΠ #309550)的5'UTR中CGG三 联体重复序列的扩展与智力迟钝最常见的遗传形式脆性X综合征(FXS,0M頂#300624)相关。 这种重复序列扩展到全突变范围(>200个重复序列)引发FMR1的甲基化和转录沉默,导致 FXS。在"正常"范围(5-44个重复序列)内,重复序列在几代之间是稳定的;中间的等位基因 (45-54个重复序列)需要至少两代扩展到全突变;前突变等位基因(55-200个重复序列)当 从母亲传给她的孩子时可以扩展到全突变。由于扩增长的三联体重复序列的难度,对于FXS 携带者状态的传统测试依赖于Southern印迹法来检测扩展的CGG重复序列。聚合酶链式反 应(PCR)方法的最新进展允许以相当于Southern印迹法的精度和灵敏度来检测这些重复序 列。PCR产物的毛细管电泳使得量化CGG重复序列计数成为可能,但需要费力的峰调用和计 数。
[0007] 概述
[0008] 本公开涉及用于测定包含核酸重复序列区(例如,CGG富集区)的DNA片段中核酸重 复序列(例如,CGG重复序列)数目的方法。一个实例方法可以包括:接收通过解析DNA扩增产 物生成的DNA大小和丰度数据。可以通过将低通滤波器应用于DNA大小和丰度数据来生成一 组低通数据,可以通过将带通滤波器应用于DNA大小和丰度数据来生成一组带通数据。可以 基于从低通数据和带通数据鉴别的峰来鉴别代表DNA中核酸重复序列数目的DNA大小和丰 度数据中的一个或多个峰。
[0009] 因此,在一个方面,本公开提供了测定包含核酸重复序列区的DNA片段中核酸重复 序列数目的方法。这些方法可以包括将DNA序列的高频信号与低频信号分离,以使混合的引 物ig号去卷积。
[0010] 在另一个方面,提供了确定与涉及个体中核酸重复序列的疾病相关的基因型的方 法。这种方法有利于例如评估个体作为疾病等位基因携带者的风险,以及个体有患有这种 疾病的儿童的概率。
[0011]还提供了用于执行这些方法的系统和非临时性计算机可读存储介质。
[0012] 本文描述的所有参考文献通过引用整体并入本文。
[0013] 附图简要说明
[0014] 图1示出用于测定根据各种实施例的基因中核苷酸序列的重复序列数目的示例性 方法。
[0015] 图2示出显示通过对示例性电泳痕迹采样而生成的信号或一组数据的曲线图,其 中X轴标准化为CGG重复序列计数。
[0016] 图3示出显示低通和带通过滤图2所示的信号或一组数据的结果的曲线图。
[0017] 图4示出用于确定根据各种实施例的基因中核苷酸序列的重复序列数目的示例计 算系统。
[0018] 图5示出60个表征的Coriell样本的验证和性能。
[0019] 图6示出通过自报种族划分的等位基因大小分布的对数级直方图。
[0020] 图7示出通过种族划分的等位基因大小的累积分布。
[0021] 图8示出大等位基因的分布。
[0022] 详述
[0023]计算核酸重复序列的方法
[0024]在一个方面,本公开提供了测定包含核酸重复序列区的DNA片段中的核酸重复序 列数目的计算机实现方法。在一些实施方案中,提供了一种测定包含核酸重复序列区的DNA 片段中核酸重复序列数目的计算机实现方法,该方法包括:a)将低通滤波器和带通滤波器 应用于DNA扩增产物的DNA大小和丰度数据以生成一组低通数据和一组带通数据,该DNA扩 增产物是通过使用引物组由包含核酸重复序列区的DNA片段生成,该引物组包括识别核酸 重复序列区的第一引物和识别核酸重复序列区外部的区域的第二引物;b)基于低通数据和 带通数据鉴别一个或多个终峰,其中该一个或多个终峰代表核酸重复序列区中的核酸重复 序列的数目。在一些实施方案中,该引物组还包括识别核酸重复序列区外部的区域(其位于 第二引物所识别的区域的对侧)的第三引物,其中第二引物和第三引物允许包含整个核酸 重复序列区的区域的扩增。在一些实施方案中,核酸重复序列为2、3、4、5、6、7、8、9、10或更 多个核苷酸的重复序列。在一些实施方案中,核酸重复序列是三核苷酸重复序列,包括但不 限于 CGG、GCC、GAA、CTG 和 CAG。
[0025]在一些实施方案中,提供了一种用于测定包含核酸重复序列区的DNA片段中的核 酸重复序列数目的计算机实现方法,该方法包括:a)由一个或多个处理器接收DNA扩增产物 的DNA大小和丰度数据,该DNA扩增产物是通过使用引物组由包含核酸重复序列区的DNA片 段生成,该引物组包括识别核酸重复序列区的第一引物和识别核酸重复序列区外部的区域 的第二引物;b)由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生 成一组样本数据;c)由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一 组低通数据;d)由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带 通数据;e)由一个或多个处理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器 鉴别带通数据中的一个或多个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一 个或多个峰,由一个或多个处理器鉴别代表核酸重复序列数目的最终峰。在一些实施方案 中,该引物组还包括识别核酸重复序列区外部的区域(其位于第二引物所识别的区域的对 侦U的第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的扩增。 [0026]在一些实施方案中,提供了一种用于确定包含CGG富集区的DNA片段中CGG重复序 列数目的计算机实现方法,该方法包括:a)由一个或多个处理器接收DNA扩增产物的DNA大 小和丰度数据,该DNA扩增产物是通过使用引物组由包含CGG富集区的DNA片段生成,该引物 组包括识别CGG富集区的第一引物和识别CGG富集区外部的区域的第二引物;b)由一个或多 个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样本数据;c)由一个 或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据;d)由一个或多 个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据;e)由一个或多个处 理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器鉴别带通数据中的一个或多 个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个 处理器鉴别代表包含CGG富集区的DNA片段中CGG重复序列数目的最终峰。在一些实施方案 中,该引物组还包括识别CGG富集区外部的区域(其位于第二引物所识别的区域的对侧)的 第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的扩增。
[0027] 在根据上述任何方法的一些实施方案中,该方法还包括在步骤a)之前解析DNA扩 增产物以生成DNA大小和丰度数据。解析可通过例如毛细管电泳进行。在一些实施方案中, 电泳图是通过毛细管电泳生成的。
[0028] 在根据上述任何方法的一些实施方案中,该方法还包括在步骤b)之前由一个或多 个处理器将DNA大小和丰度数据从采样(例如,时间)域转换为碱基对长度域。在一些实施方 案中,使用DNA梯带将DNA大小和丰度数据从时域转换到碱基对长度域。
[0029] 在一些实施方案中,采样频率相当于每个碱基对2、3、4、5、6或更多样本的任一个。
[0030] 在根据上述任何方法的一些实施方案中,通过以采样频率对DNA大小和丰度数据 采样而生成一组样本数据,包括:生成DNA大小和丰度数据的线性内插;和以采样频率对DNA 大小和丰度数据的线性内插进行采样。在其他实施方案中,通过以采样频率对DNA大小和丰 度数据采样而生成一组样本数据,包括:生成DNA大小和丰度数据的三次样条内插;和以采 样频率对DNA大小和丰度数据的三次样条内插进行采样。在其他实施方案中,通过以采样频 率对DNA大小和丰度数据采样而生成一组样本数据,包括:生成DNA大小和丰度数据的零阶 保持/最邻近内插;和以采样频率对DNA大小和丰度数据的零阶保持/最邻近内插进行采样。 [0031 ]在根据上述任何方法的一些实施方案中,带通滤波器具有为奈奎斯特频率的1/13 的低截止频率(例如,两倍采样频率)和为奈奎斯特频率的1/11的高截止频率。在根据上述 任何方法的其他实施方案中,带通滤波器可以具有为奈奎斯特频率的1/14、1/15、1/16或1/ 17的任一个的低截止频率和为奈奎斯特频率的1/10、1/9、1/8或1/7的任一个的高截止频 率。根据采样频率和核酸重复序列的周期可使用其他频率。
[0032]在根据上述任何方法的一些实施方案中,低通滤波器具有奈奎斯特频率乘以5.0* 10-6的截止频率。在根据上述任何方法的其他实施方案中,低通滤波器可具有奈奎斯特频率 乘以8.0X10- 6至2.0X10-6之间的截止频率,如奈奎斯特频率乘以8.0*10-6、7.0*10- 6、6.0* 10-6、4· 0*10-6、3.0*10-6或 2.0*10-6 的任一个。
[0033] 在根据上述任何方法的一些实施方案中,低通滤波器和带通滤波器是使用汉明窗 口实现的零相位有限脉冲响应(FIR)滤波器。
[0034] 在根据上述任何方法的一些实施方案中,该组样本数据包括代表核酸重复序列区 (如CGG富集区)的核酸重复系列(如CGG系列)和包含核酸重复序列区(如CGG富集区)的DNA 片段的全长扩增子的组合的信号,该组带通数据包括代表核酸重复序列区(如CGG富集区) 的核酸重复系列(如CGG系列)的信号,该组低通数据包括代表包含核酸重复序列区(如CGG 富集区)的DNA片段的全长扩增子的信号。
[0035]在根据上述任何方法的一些实施方案中,确定代表包含核酸重复序列区(如CGG富 集区)的DNA片段中的核酸重复序列(如CGG重复序列)数目的最终峰,包括一个或多个步骤: 从在低通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰;从带 通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰;从带通数据 中的一个或多个峰中除去高度小于具有较大碱基对长度的相邻峰的高度的峰;响应于低通 数据中的一个或多个峰中的某一峰,其高度小于带通数据中的一个或多个峰中的某一峰的 高度,且其在低通数据的一个或多个峰的3个碱基对内,将低通数据中的一个或多个峰的某 一峰的中心设定为带通数据中的一个或多个峰的某一峰的中心,将低通数据中的一个或多 个峰的某一峰的边界设定为低通数据中的一个或多个峰的某一峰和带通数据中的一个或 多个峰的某一峰的并集(union);将低通数据中的一个或多个峰中和带通数据中的一个或 多个峰中碱基对长度大于165个碱基对且在彼此的30个碱基对内的峰合并;并将低通数据 中的一个或多个峰中和带通数据中的一个或多个峰中碱基对在15个内且其高度相差大于 两倍的峰合并;其中低通数据中的一个或多个峰的其余峰是最终峰。
[0036]在一些实施方案中,该DNA片段包含CGG富集区。在一些实施方案中,包含CGG富集 区的DNA片段是脆性X智力迟钝1基因(FMR1)的5'-UTR。在一些实施方案中,包含CGG富集区 的DNA片段是脆性X智力迟钝2基因(FMR2)的5 '-UTR。在一些实施方案中,第一引物包含至少 1、2、3、4、5、6、7或8个CGG或CCG重复序列。
[0037]在一些实施方案中,该DNA片段包含CAG富集区。在一些实施方案中,包括CAG富集 区的DNA片段在蛋白质的编码区中。在一些实施方案中,第一引物包含至少1、2、3、4、5、6、7 或8个CAG或CTG重复序列。
[0038] 测定与疾病相关的基因型的方法
[0039] 在一些实施方案中,提供了一种用于测定与涉及个体中的核酸重复序列的疾病 (如遗传病)相关的基因型的计算机实现方法,该方法包括:a)使用引物组执行DNA扩增反 应,该引物组包括识别疾病基因上核酸重复序列区的第一引物和识别疾病基因上核酸重复 序列区外部的区域的第二引物;b)解析DNA扩增产物以获得DNA大小和丰度数据;c)将低通 滤波器和带通滤波器应用于DNA大小和丰度数据,以鉴别代表疾病基因上含有核酸重复序 列区中的核酸重复序列数目的峰;以及d)基于所鉴别的峰测定该个体的基因型。在一些实 施方案中,该引物组还包括识别核酸重复序列区外部的区域(其位于第二引物所识别的区 域的对侧)的第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的 扩增。
[0040] 在一些实施方案中,提供了一种用于测定与个体脆性X综合征相关的基因型的计 算机实现方法,该方法包括:a)使用引物组执行DNA扩增反应,该引物组包括识别FMR1基因 的5 ' UTR上的CGG富集区的第一引物和识别FMR1基因的5 ' UTR上的CGG富集区外部的区域的 第二引物;b)解析DNA扩增产物以获得DNA大小和丰度数据;c)将低通滤波器和带通滤波器 应用于DNA大小和丰度数据,以鉴别代表FMR1基因的5 'UTR上的CGG富集区中的CGG重复序列 数目的峰;以及d)基于所鉴别的峰确定该个体的基因型。在一些实施方案中,该引物组还包 括识别CGG富集区重复序列外部的区域(其位于第二引物所识别的区域的对侧)的第三引 物,其中第二引物和第三引物允许包含整个CGG富集区的区域的扩增。
[0041] 在根据上述任何方法的一些实施方案中,解析可通过毛细管电泳进行并可以产生 电泳图。
[0042]在根据上述任何方法的一些实施方案中,该方法还包括在步骤c)之前由一个或多 个处理器将DNA大小和丰度数据从采样(例如,时间)域转换为碱基对长度域。
[0043]在根据上述任何方法的一些实施方案中,使用DNA梯带将DNA大小和丰度数据从时 间域转换到碱基对长度域。
[0044] 在根据上述任何方法的一些实施方案中,该方法还包括以采样频率对DNA大小和 丰度数据进行采样,并且其中将低通滤波器和带通滤波器应用于DNA大小和丰度数据包括 将低通滤波器和带通滤波器应用于采样的DNA大小和丰度数据。
[0045] 在根据上述任何方法的一些实施方案中,采样频率相当于每个碱基对2、3、4、5、6 或更多样本的任一个。
[0046] 在根据上述任何方法的一些实施方案中,通过以采样频率对DNA大小和丰度数据 采样而生成一组样本数据,包括:生成DNA大小和丰度数据的线性内插;和以采样频率对DNA 大小和丰度数据的线性内插进行采样。在其他实施方案中,通过以采样频率对DNA大小和丰 度数据采样而生成一组样本数据,包括:生成DNA大小和丰度数据的三次样条内插;和以采 样频率对DNA大小和丰度数据的三次样条内插进行采样。在其他实施方案中,通过以采样频 率对DNA大小和丰度数据采样而生成一组样本数据,包括:生成DNA大小和丰度数据的零阶 保持/最邻近内插;和以采样频率对DNA大小和丰度数据的零阶保持/最邻近内插进行采样。
[0047] 在根据上述任何方法的一些实施方案中,带通滤波器具有为奈奎斯特频率的1/13 的低截止频率(例如,两倍采样频率)和为奈奎斯特频率的1/11的高截止频率。在根据上述 任何方法的其他实施方案中,带通滤波器可以具有为奈奎斯特频率的1/14、1/15、1/16或1/ 17中任一个的低截止频率和为奈奎斯特频率的1/10、1/9、1/8或1/7中任一个的高截止频 率。根据采样频率和核酸重复序列的周期可使用其他频率。
[0048]在根据上述任何方法的一些实施方案中,低通滤波器具有奈奎斯特频率乘以5.0* 10-6的截止频率。在根据上述任何方法的其他实施方案中,低通滤波器可具有奈奎斯特频率 乘以8.0X10- 6至2.0X10-6之间的截止频率,如奈奎斯特频率乘以8.0*10-6、7.0*10- 6、6.0* 10-6、4 · 0*10-6、3 · 0*10-6或 2 · 0*10-6 中的任一个。
[0049] 在根据上述任何方法的一些实施方案中,低通滤波器和带通滤波器是使用汉明窗 口实现的零相位有限脉冲响应(FIR)滤波器。
[0050] 在根据上述任何方法的一些实施方案中,DNA大小和丰度数据包括代表FMR1基因 的CGG系列和FMR1基因的5'UTR的全长扩增子的组合的信号,该组带通数据包括代表FMR1基 因的CGG系列的信号,该组低通数据包括代表FMR1基因的5'UTR的全长扩增子的信号。
[00511在根据上述任何方法的一些实施方案中,鉴别代表FMR1基因的5'UTR上的CGG富集 区中的CGG重复序列数目的峰,包括:从在低通滤波器输出中的一个或多个峰中除去宽度小 于4.5个碱基对且高度小于阈值的峰;从带通滤波器数据输出中的一个或多个峰中除去宽 度小于4.5个碱基对且高度小于阈值的峰;从带通滤波器输出中的一个或多个峰中除去高 度小于具有较大碱基对长度的相邻峰的高度的峰;响应于低通滤波器输出中的一个或多个 峰中的某一峰,其高度小于带通滤波器输出中的一个或多个峰中的某一峰的高度,且其在 低通滤波器输出的一个或多个峰的3个碱基对内,将低通滤波器输出中的一个或多个峰的 某一峰的中心设定为带通滤波器输出中的一个或多个峰的某一峰的中心,将低通滤波器输 出中的一个或多个峰的某一峰的边界设定为低通滤波器输出中的一个或多个峰的某一峰 和带通滤波器输出中的一个或多个峰的某一峰的并集;将低通滤波器输出中的一个或多个 峰中和带通滤波器输出中的一个或多个峰中碱基对长度大于165个碱基对且在彼此的30个 碱基对内的峰合并;和将低通滤波器输出中的一个或多个峰中和带通滤波器输出中的一个 或多个峰中碱基对在15个内且其高度相差大于两倍的峰合并;其中低通滤波器输出中的一 个或多个峰的其余峰是最终峰。
[0052]核酸重复序列病症携带者的确定
[0053]上面描述的方法可用于确定个体是否为涉及核酸重复序列(本文称为"核酸重复 序列病症")的疾病(如遗传病)的携带者。
[0054]在一些实施方案中,核酸重复序列病症选自下组:脆性X、弗里德赖希共济失调、肌 强直性营养不良、DRPLA(齿状核红核苍白球路易体萎缩)、HD(亨廷顿氏病)、SBMA(脊延髓肌 萎缩症或肯尼迪病)、SCA1(脊髓小脑性共济失调1型)、SCA2(脊髓小脑性共济失调2型)、 SCA3(脊髓小脑性共济失调3型或马查多-约瑟夫病)、SCA6(脊髓小脑性共济失调6型)、SCA7 (脊髓小脑性共济失调7型)、SCA17(脊髓小脑性共济失调17型)和脊髓小脑性共济失调。 [0055]在一些实施方案中,核酸重复序列病症是三核苷酸重复序列病症。三核苷酸重复 序列病症(也称为三核苷酸重复序列扩展病症,三联体重复序列扩展病症或密码子重复序 列病症)是一组由三核苷酸重复序列扩展引起的遗传性疾病,一种其中某些基因中的三核 苷酸重复序列超过正常稳定的阈值的突变,其每个基因不同。该突变是在所有基因组序列 中发生的不稳定的微卫星重复序列的子集。如果重复序列存在于健康基因中,则动态突变 会增加重复序列计数,并导致有缺陷的基因。在一些实施方案中,三核苷酸重复序列病症涉 及CAG重复序列,例如聚谷氨酰胺(polyQ疾病)。目前,已知有至少九种神经系统疾病是由 CAG重复序列数目增加导致的,通常位于其他不相关蛋白质的编码区中。在蛋白质合成期 间,扩展的CAG重复序列被翻译成一系列不间断的谷氨酰胺残基,形成所谓的多聚谷氨酰胺 尾巴("polyQ")。该多聚谷氨酰胺尾巴可以经受聚集的增加。表1中提供了各种polyQ疾病和 致病重复序列阈值。
[0056]表1.多聚谷氨酰胺(PolyQ)疾病
[0057]
[0058] 在一些实施方案中,三核苷酸重复序列病症涉及CGG重复序列,例如脆性X综合征 和脆性X相关的震颤/共济失调综合征。在一些实施方案中,三核苷酸重复序列病症涉及GCC 病症,例如脆性XE智力迟钝。在一些实施方案中,三核苷酸重复序列病症涉及GAA重复序列, 例如弗里德赖希共济失调。在一些实施方案中,三核苷酸重复序列病症涉及CTG重复序列, 例如肌强直性营养不良或脊髓小脑性共济失调8型。在一些实施方案中,三核苷酸重复序列 病症涉及在5 '末端的三个核苷酸,如脊髓小脑性共济失调12型。表2中提供各种疾病和致病 重复序列阈值。
[0059] 表2.
[0060]
[0061]
[0062] 在一些实施方案中,该方法包括基于个体的基因型确定个体是否为脆性X综合征 的携带者,其中FMR1基因的5'UTR上CGG富集区中5-44个重复序列之间的CGG重复序列数目 指示正常等位基因,FMR1基因的5'UTR上CGG富集区中45-54个重复序列之间的CGG重复序列 数目指示中间等位基因,FMR1基因的5 'UTR上CGG富集区中55-200个重复序列之间的CGG重 复序列数目指示前突变等位基因,并且其中FMR1基因的5'UTR上CGG富集区中大于200个重 复序列的CGG重复序列数目指示全突变等位基因。
[0063] 在一些实施方案中,该方法包括基于个体的基因型确定个体是否为亨廷顿氏病的 携带者,其中HTT基因的编码区上的CAG富集区中少于约35个重复序列的CAG重复序列数目 指示正常等位基因,HTT基因的编码区上的CAG富集区中30-60个重复序列之间的CAG重复序 列数目指示不完全外显等位基因,HTT基因的编码区上的CAG富集区中超过约40个重复序列 的CAG重复序列数目指不完全外显等位基因。
[0064] 诊断涉及核酸重复序列的疾病的方法
[0065] 在一些实施方案中,提供了通过使用本文描述的任何一种方法诊断涉及核酸重复 序列的疾病的方法。
[0066]从包含核酸重复序列区的DNA扩增DNA的方法
[0067]本领域中公知从包含核酸重复序列区的DNA扩增DNA的方法,并已报道于以下文献 中:例如Chen等,重复序列An Information-Rich CGG Repeat Primed PCR That Detects the Full Range of Fragile X Expanded Alleles and Minimizes the Need for Southern Blot Analysis,Journal of Molecular Diagnostics(2010)第12(5)卷,第589- 600页;Alessandro Saluto等,An Enhanced Polymerase Chain Reaction Assay to Detect Pre-and Full Mutation Alleles of the Fragile X Mental Retardation lGene,Journal of Molecular Diagnostics(2005)第7(5)卷,第605-612页;Feras M.Hantash等,重复序列Qualitative assessment of FMRl(CGG)n triplet repeat status in normal, intermediate ,permutation,full mutation,and mosaic carriers in both sexes:Implications for fragile X syndrome carrier and newborn screening,Genetics in Medicine(2010)12:162-173;Stela Flilipovic-Sadic等,A Novel FMR1PCR Method for the Routine Detection of Low Abundance Expanded Alleles and Full Mutations in Fragile X Syndrome,Clinical Chemistry(2010),% 56(3)卷,第399_4〇8页;和Flora Tassone等,A rapid polymerase chain reation-based screening method for identification of all expanded alleles of the fragile X (FMRl)gene in newborn and high-risk populations,Journal of Molecular Diagn〇stiCS(2008)第10(1)卷,第43-49页;其每一篇的内容均通过引用整体并入本文。扩 增核酸重复序列区的方法也描述在例如美国专利号7855053、美国专利号8409805和美国专 利公开号2010/0243451中,其每个的内容均通过引用整体并入本文。
[0068] 在一些实施方案中,第一引物包括至少1、2、3、4、5、6、7或8个CGG或CCG重复序列。 在一些实施方案中,第一引物还包括位于CCG区的5'的非CGG重复序列残基。在一些实施方 案中,第一引物还包括位于CCG区的3'的非CGG重复序列残基。
[0069]示例性方法
[0070] 在本公开的以下描述和实施例中,参考其中通过可以实施的说明性具体实施例显 示的附图。应该理解,在不背离本公开的范围的情况下可以实施其他实施例并且可以进行 结构变化。
[0071] 本公开涉及用于测定包含CGG富集区的DNA中CGG重复序列数目的方法。一个示例 方法可以包括:接收通过解析DNA扩增产物生成的DNA大小和丰度数据。可通过将低通滤波 器应用于DNA大小和丰度数据生成一组低通数据,可通过将带通滤波器应用于DNA大小和丰 度数据生成一组带通数据。基于从低通数据和带通数据鉴别的峰,可以鉴别代表DNA中CGG 重复序列数目的DNA大小和丰度数据的峰。
[0072] 图1示出了用于测定根据各实施例的基因中核苷酸重复序列数目的示范性方法 100。本文的方法100被描述为测定包含CGG富集区的脱氧核糖核酸(DNA)中CGG的重复序列 数目。然而,应理解方法100同样可以用于确定任何期望的基因中任何期望的核苷酸序列的 数目,以鉴定任何类型的核酸重复序列病症。
[0073]在框102中,可以由计算设备的一个或多个处理器接收DNA大小和丰度数据。可通 过利用毛细管电泳(例如,生成电泳图)等解析DNA扩增产物来生成大小和丰度数据。可以使 用引物组从DNA生成DNA扩增产物,该引物组包括识别CGG富集区的第一引物,识别CGG富集 区外部的区域的第二引物,以及识别CGG富集区外部的位于由第二引物识别的区域对侧的 区域的第三引物。第一引物可以包括四个或更多个CGG或CCG重复序列,可进一步包括CGG富 集区外部的序列(如驻留在对CGG重复序列退火的引物部分的内部或端部的A或T)。在一些 实例中,包含CGG富集区的DNA可以包括脆性X智力迟钝1基因(FMR1)的5 '-UTR。在这些实施 例中,第一引物可识别FMR1基因的5 ' -UTR上的CGG富集区,第二引物和第三引物可以识别 FMR1基因的5'-UTR上的CGG富集区外部及相对侧的区域。在其他实例中,包含CGG富集区的 DNA可以包括脆性X智力迟钝2基因(FMR2)的5 ' -UTR。在这些实施例中,第一引物可识别FMR2 基因的5 ' -UTR上的CGG富集区,第二引物和第三引物可以识别FMR2基因的5 ' -UTR上的CGG富 集区的外部及相对侧的区域。应当理解,其他基因可以由DNA大小和丰度数据表示。
[0074]在一些实施例中,DNA大小和丰度数据可以包括具有荧光值的多个数据点以及该 数据点采样的相关时间。在这些实施例中,DNA大小和丰度数据可以从时间域变换到碱基对 长度域。这可以使用具有已知长度的片段的DNA梯带并通过将DNA大小和丰度数据的X值从 机器采样时间转换到碱基对长度来完成。在一些实施例中,与个体的DNA对应的DNA片段可 以用荧光染料例如FAM进行标记,与DNA梯带对应的片段可以用不同的荧光染料例如R0X进 行标记。在一些实施例中,高FAM信号强度可能会在荧光检测通道之间产生串扰,添加假峰 或移除真峰,阻碍R0X梯带峰的自动检测。在这些情况下,梯带峰的预期位置上的先验分布 可用于将观察到的峰与先前使用的动态编程匹配,以同时分配峰和使用以下公式最小化峰 位置的方差:
[0076]在一些实施例中,用于生成DNA大小和丰度数据的机器的采样间隔在碱基对长度 上可能不是线性的。在这些实施例中,一旦DNA大小和丰度数据被转换成碱基对长度域,即 可使用线性内插、三次样条内插或零阶保持/最邻近内插对DNA大小和丰度数据进行内插, 并采样到恒定的分辨率。在一个实施例中,可以使用任何期望的分辨率,并且可以使用每个 碱基对四个样本的采样频率。采样的结果可以是一组数据或信号,其具有代表CGG富集区 (例如,FMR1基因的5 ' UTR)的CGG系列的第一组分和代表全长扩增子(例如,FMR1基因的5 ' UTR)的第二基因特异性组分。由于第一组分代表CGG系列,预计其具有3个碱基对或12个样 本的周期。但是,预计第二组分将具有较长的周期或可能完全不是周期性的,因为预计该 DNA大小和丰度数据仅包括一个或少量全长扩增子,这取决于样本接合性,这不太可能仅被 一个重复序列隔开。
[0077]图2示出显示通过对样本电泳痕迹采样而生成的信号或一组数据的曲线图200,其 中X轴被标准化为CGG重复序列计数。如图所示,该组数据或信号包括归属于该组数据或信 号的第一组分的第一部分202,该组数据或信号代表具有与连续较长的CGG重复序列对应的 递减的一系列周期峰的CGG富集区的CGG系列。例如,初始峰(在最左边)可对应于CGG 5重复 序列,在右边的下一个峰可对应于CGG6重复序列等。由于扩增效率降低,第一部分202中的 峰的峰振幅会随着部分复制子的重复序列长度的增加而降低。曲线图200还示出具有第二 部分204的一组数据或信号,第二部分204归属于代表全长扩增子的该组数据或信号的第二 组分。
[0078] 返回参考图1所示的方法100,在框104中,可将低通滤波器应用于DNA大小和丰度 数据,以生成与代表全长扩增子的DNA大小和丰度数据的第二组分对应的一组低通数据。如 上所述,DNA大小和丰度数据的第二组分的周期可以比第一组分的周期更长或可以完全不 是周期性的。因此,截止频率高于第二组分的频率的低通滤波器可用于将第二组分从整组 DNA大小和丰度数据中分离。在一些实施例中,可以采用用汉明窗口实现的且具有1.0*10-5 乘以采样频率的截止频率的24抽头零相位有限脉冲响应(FIR)滤波器。然而应理解,可以使 用具有凭经验测定或通过计算测定的截止频率的其他类型的低通滤波器。图3示出显示低 通和带通(如下讨论)过滤图2所示的信号或一组数据的结果的曲线图300。具体地,曲线图 300示出了代表低通过滤图2所示的信号或一组数据的结果的线304。如图所示,线304包括 在随CGG重复序列计数增加而逐渐降低的强度的第一个小的初始增加,和集中于45.6个CGG 重复序列计数,并在43.0和46.3个重复序列计数具有边界的第二大峰。这个较大峰可以是 代表性的并归属于全长扩增子。
[0079] 返回参考图1所示的方法100,在框106中,可将带通滤波器应用于DNA大小和丰度 数据,以生成与代表CGG富集区的CGG系列的DNA大小和丰度数据的第一组分对应的一组带 通数据。如上所述,DNA大小和丰度数据的第一组分的周期可以是三个碱基对或12个样本。 因此,预计发生该CGG重复序列信号的频率是每个碱基对1/3。因此,具有包括该频率的截止 频率的带通滤波器可用于将第一组分从整组DNA大小和丰度数据中分离。在一些实施例中, 可以采用用汉明窗口实现的且具有下截止频率(1/13M2M在框102中使用的采样频率) 和上截止频率(1/11)*(2)*(在框102中使用的采样频率)的24抽头零相位FIR滤波器。然而 应理解,可以使用具有凭经验测定或通过计算测定的截止频率的其他类型的带通滤波器。 图3示出的曲线图300的线302表示带通过滤图2所示的信号或一组数据的结果。如图所示, 线302包括小的递减周期信号,之后是CGG重复序列计数中对应的一组较大峰和线304的大 峰。
[0080] 返回参考图1所示的方法100,在框108中,可以鉴别代表DNA中核苷酸重复序列数 目的DNA大小和丰度数据中的一个或多个峰。在一些实施例中,这可以包括鉴别在框104中 生成的低通数据中的峰和在框106中生成的带通数据中的峰。为了鉴别这些峰,可以使用三 次样条内插由函数f表示的每个信号或每组数据(例如,低通数据和带通数据),内插的数据 可用于近似信号或该组数据f的一阶导数f'和二阶导数f"。接着,可以鉴别也满足C处的二 阶导数f"(C)〈0的条件的一阶导数f'的根C。该根C可被指定为相应峰的中心。值L和R可以是 分别邻近(例如,具有更高和更低的CGG重复序列计数的f'的最接近的根)根C的左边和右边 的f'的根的位置。为了计算C为中心的峰的峰边界L'和R',可以使用以下等式:
[0081] L7 =min xe [L,C]s. t. | f7 (x) | >D
[0082] R'=max xe [C,R]s · t · | f'(x) | >D〇
[0083] 换言之,左峰边界L'可以是相邻的根L和中心C之间的最小的X轴值(例如,CGG重复 序列计数),其具有绝对值大于截止D的一阶导数f'd值可以取决于DNA大小和丰度数据的 动态范围(并因此,在样本协议和硬件上),并且可以被选择为与人将鉴定为峰边界的位置 对应的值。同样,右峰边界R'可以是中心C和相邻的根R之间的最大X轴值(例如,CGG重复序 列计数),其具有绝对值大于截止D的一阶导数f'。可以对满足C处的二阶导数f'(C)〈0的条 件的每个信号或每组数据(例如,低通数据和带通数据)的一阶导数f'的每个根C执行该峰 鉴别过程。以这种方式,可以鉴别低通数据的每个峰和高通数据的每个峰。虽然以上描述了 具体的峰检测算法,但应当理解,可以使用其他的峰检测算法。
[0084] 一旦鉴别低通数据中的一组峰和带通数据中的一组峰,各组中的峰可被过滤以除 去具有高噪声可能性的峰,而不是准确地反映 CGG富集区的CGG系列或全长扩增子的那些。 在一些实施例中,峰过滤可以包括鉴别宽度小于CGG重复序列的第一阈值数(例如,1.5)和 高度小于机器依赖性第二阈值的薄峰。可凭经验或通过计算测定并设定这些第一阈值和第 二阈值的确切值,以除去由噪声产生的峰。所鉴别的薄峰可以从它们各自组的峰(例如,从 低通数据的该组峰或从带通数据的该组峰)中除去,或可以以其他方式鉴别(例如,使用标 志)为噪音。高度小于在同一组数据内(例如,低通数据内或带通数据内)紧邻其右边的峰 (例如,具有较大CGG重复序列计数)高度的峰也可以从它们各自组的峰中除去或可以其他 方式鉴别为噪声,因为随着长度增加扩增的效率降低,预期每个峰的高度将小于前面的峰 (例如左边)。
[0085] 在一些实施例中,低通滤波器可能会错误地排除全长峰。这种排除的峰在带通数 据中可具有远大于带通数据的其他峰(代表CGG富集区的CGG系列)的对应的大峰。因此,来 自带通数据的峰可用于调节低通峰。具体地,如果来自低通数据的峰Pl在来自带通数据的 峰Pb(其大于峰Pl)的CGG重复序列的阈值数内(例如,一个重复序列),低通峰Pl峰的中心可 被设定为带通峰Pb的中心。低通峰Pl的峰边界也可被设定成低通峰Pl及带通Pb的并集。
[0086] 在一些实施例中,如果确定一个或多个峰归于噪声,则可合并某些峰。峰的合并可 以包括将两个或更多个合并的峰处理为单峰,这意味着该合并峰的最大峰可视为真峰。在 一些实施例中,可以合并具有高于阈值数(例如55)的峰的每组数据内(例如,低通数据内或 带通数据内)的峰,如果它们位于彼此的重复序列的阈值数(例如10)内。无论重复序列计数 如何,可以合并该同一组数据(例如,低通数据内或带通数据内)的所有峰,如果它们位于重 复序列的阈值数(例如5)内且振幅相差超过2倍。
[0087] 低通数据中产生的峰可以以对应于DNA中CGG重复序列数目的CGG重复值为中心。 在一些实施例中,返回参考图1的方法100,基于在框108中鉴别的一个或多个峰,在框110中 可以测定与DNA大小和丰度数据相关的个体基因型。例如,如果包含CGG富集区的DNA包括 FMR1基因的5'-UTR,则与在框108中鉴别的峰相关的CGG重复序列值可用于确定该个体是否 为FXS的携带者。在这个实施例中,如果在框108中鉴别的峰以5-44之间的CGG重复值为中 心,则它可以指示正常等位基因。如果在框108中鉴别的CGG峰以45-54之间的CGG重复值为 中心,则它可以指示中间等位基因。如果在框108中鉴别的CGG峰以55-200之间的CGG重复值 为中心,则它可以指示前突变等位基因。如果在框108中鉴别的CGG峰以大于200的CGG重复 值为中心,则它可以指示全突变等位基因。在一些实施例中,测定个体的基因型时可考虑个 体的性别、种族等。例如,可以使用特定的性别、种族等的已知分布来修改用于鉴别不同基 因型的CGG重复序列计数的范围。
[0088]有关确定CGG重复序列计数的一个或多个功能可通过与图4所示的系统400类似或 相同的系统来执行。系统400可以包括储存在非临时性计算机可读存储介质诸如存储器404 或存储设备402中并由处理器406执行的指令。指令可以在专用于指令执行系统、装置或设 备,例如基于计算机的系统,包含处理器的系统,或可以从指令执行系统、装置或设备提取 指令并执行指令的其他系统或与其有关的系统的任何非暂时性计算机可读存储介质内存 储和/或传输。在该文件的上下文中,"非临时性计算机可读存储介质"可以是可以含有或存 储专用于指令执行系统、装置或设备或与其有关的程序的任何介质。非临时性计算机可读 存储介质可以包括但不限于:电、磁、光、电磁、红外或半导体系统、装置或设备,便携式计算 机磁盘(磁的),随机存取存储器(RAM),只读存储器(ROM),可擦除可编程只读存储器 (EPROM)(磁的),便携式光盘诸如〇)、00-1?、〇)-1^、0¥0、0¥0-1?或0¥0-1^,或闪存存储器如小 型闪存卡,安全数字卡,USB存储设备,记忆棒等。
[0089] 指令还可以在专用于指令执行系统、装置或设备,诸如基于计算机的系统,包含处 理器的系统,或可以从指令执行系统、装置或设备提取指令并执行指令的其他系统或与其 连接的任何传输介质内传播。在该文本的上下文中,"传输介质"可以是专用于指令执行系 统、装置或设备或与其连接的可通讯、传播或传输程序的任何介质。传输介质可以包括但不 限于:电、磁、光、电磁或红外有线或无线传播介质。
[0090] 在一些实施例中,系统400可被配置成执行方法100的各框,如上所述。应理解,系 统并不限于图4的组件和结构,但可以根据不同实施例包括多种配置的其他或附加组件。 实施例
[0091 ]实施例1.对患者样本的脆性X验证和经验进行自动群体大规模筛选 [0092] 使用AmplideX FMR1PCR试剂盒(Asuragen)运行CGG重复序列引发的PCR,在3500/ 3500x1/3730x1遗传分析仪(Applied Biosystems)上对样本进行分析。我们检查了指示常 规携带者筛选(即,没有指出家族史和不孕症)的76421个样本。具有明显镶嵌性(>2个峰)的 298个样本被排除在群体分析外。183个样本来自男性;另外76238个均来自女性。
[0093]我们在来自Coriell的60个外部表征样本上验证了调用算法,并通过对人工审查 临床样本库的性能进一步评估其准确性。通过检查结果审查过程中人工干预的量由实验室 主任测定算法性能。测定峰调用方面的性能。
[0094]三联体重复序列引发的PCR中的重复"残迹(stutter)"信号击败了现成的峰调用 软件,因为它在每个CGG重复序列处生成单独的峰。对在bp-空间中为线性的CE数据(而不是 CE扫描数)重新采样后,使用零相位FIR滤波器除去高频残迹;使用在这个低通信号上操作 的一阶/二阶导数阈值的峰调用,并使用合并残迹数据的带通组分调节精确的峰位置。 [0095]在一些样本中,高(FAM)信号强度阻碍了分级所需的(R0X)梯峰的自动检测;串扰 可能会增加假峰或除去真峰。我们在梯峰的预期位置上进行了先验分布并将观察到的峰与 先前使用的动态编程匹配,以同时分配峰和最小化峰位置的方差:
[0097] 如图5所示,在60个表征的Coriell样本中,自动调用者获得了0.71个CGG重复序列 的平均误差,2.12个CGG重复序列的RMS误差,和临床分型的100%的准确度。在针对人工审 查临床样本的验证中,调用者显示〇. 18 %假阳性率的99.38 %的灵敏度。
[0098]在患者样本中,自动算法调用96906个峰,有204假峰和702个错峰,总灵敏度为 99.3%。在一个CPU上,自动调用比人工调用快23倍。我们发现等位基因大小分布中存在显 著(P〈0.01)的群体结构。东亚人有中间或更大的等位基因的概率较低,而中东人有其的概 率较高。欧洲和德系犹太人的等位基因大小群集在一起;南亚裔、非裔美国人、中东人、西班 牙人形成第二群集;东亚人和东南亚人形成鲜明的第三群集。
[0099] 我们的自动算法能够使用CGG重复序列引发的PCR对脆性X群体进行准确的高通量 筛选。自动化使得实验室主任在90秒内即可审查一批,而不是手动调用所需的半小时。
[0100] 图6示出自报种族划分的等位基因大小分布的对数级直方图。N表示等位基因的数 目。仅示出〈80个重复序列的等位基因。在所有的群体中,30是最常见的重复序列计数。东亚 人和东南亚人在30个重复序列前具有小于通常的峰,在37个重复序列处具有较大的峰。西 北欧洲人具有N = 35338,南欧人具有N = 5974,其他白种人具有N = 37848,未知的具有N = 17574,德系犹太人具有N=9062,中东人具有N=3506,西班牙人具有N=14132,非裔美国人 具有N=9280,南亚人具有N=6586,东南亚人具有N=3302,东亚人具有N=8294。
[0101] 如图7所示,我们还示出了脆性X等位基因大小的首个世界范围内的目录。我们发 现,东亚人往往有较短的等位基因,中东人的较长,但其他群体似乎在中间或更大的等位基 因上并无显著区别。对脆性X综合征的三联体重复序列引发的PCR+基于CE的试验的自动信 号处理是高效可靠的,允许进行成本效益高的群体规模携带者筛查。FMR1重复序列长度根 据种族而显著变化:东亚人和东南亚人有小(〈30)和大(>45)等位基因的概率非常低。东亚 人和东南亚人有大量CGG-37等位基因。白种人有小等位基因(20%〈 = 28CGG)的频率最高。 有报道中东或德系犹太人血统的样本显示等位基因>45个重复序列的概率较高。
[0102] 图8显示东亚人、东南亚人、南亚人、非裔美国人、西班牙人、中东人、德系犹太人、 未知、其他的白种人、南欧人和西北欧洲人的大等位基因的分布。用贝叶斯二项式等式测试 P值的-loglO以比较种族之间具有中间或更大等位基因的个体的概率。最浅的颜色表示"无 显著差异",为? = 0.01(8〇11&^〇1^校正)。不同的白人群体显示无显著差异。东亚人与除其 他亚洲人外的所有其他组的大等位基因的概率显著不同。
[0103] 尽管已参照附图对本公开和实施例作了充分的说明,但应注意,各种变化和修改 对本领域技术人员将是显而易见的。这些变化和修改将被理解为包括在由所附权利要求限 定的本公开和实施例的范围内。
【主权项】
1. 一种用于测定包含CGG富集区的DNA中CGG重复序列数目的计算机实现方法,所述方 法包括: a) 由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,所述DNA扩增产物通 过使用引物组由包含CGG富集区的DNA生成,所述引物组包括识别CGG富集区的第一引物和 识别CGG富集区外部的区域的第二引物; b) 由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样 本数据; c) 由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据; d) 由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据; e) 由一个或多个处理器鉴别低通数据中的一个或多个峰; f) 由一个或多个处理器鉴别带通数据中的一个或多个峰;和 g) 基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理 器鉴别代表CGG富集区中CGG重复序列数目的最终峰。2. 根据权利要求1所述的计算机实现方法,还包括在步骤a)之前解析DNA扩增产物以生 成DNA大小和丰度数据。3. 根据权利要求2所述的计算机实现方法,其中所述解析是通过毛细管电泳进行。4. 根据权利要求1-3任一项所述的计算机实现方法,还包括在步骤b)之前由一个或多 个处理器将DNA大小和丰度数据从时间域转换为碱基对长度域。5. 根据权利要求4所述的计算机实现方法,其中使用DNA梯带将DNA大小和丰度数据从 时间域转换到碱基对长度域。6. 根据权利要求1-5任一项所述的计算机实现方法,其中所述采样频率等于每个碱基 对4个样本。7. 根据权利要求1-6任一项所述的计算机实现方法,其中所述带通滤波器具有为采样 频率的2/13的低截止频率和为采样频率的2/11的高截止频率。8. 根据权利要求1-7任一项所述的计算机实现方法,其中所述低通滤波器具有采样频 率乘以1.0*10_5的截止频率。9. 根据权利要求1-8任一项所述的计算机实现方法,其中所述低通滤波器和所述带通 滤波器是使用汉明窗口实现的零相位有限脉冲响应(FIR)滤波器。10. 根据权利要求1-9任一项所述的计算机实现方法,其中通过以所述采样频率对DNA 大小和丰度数据采样而生成样本数据组包括: 生成DNA大小和丰度数据的线性内插;和 以所述采样频率对DNA大小和丰度数据的线性内插进行采样。11. 根据权利要求1-10任一项所述的计算机实现方法,其中该组样本数据包括代表CGG 富集区的CGG系列和包含CGG富集区的DNA的全长扩增子的组合的信号,该组带通数据包括 代表CGG富集区的CGG系列的信号,该组低通数据包括代表包含CGG富集区的DNA的全长扩增 子的信号。12. 根据权利要求1-11任一项所述的计算机实现方法,其中鉴别代表包含CGG富集区的 DNA中的CGG重复序列数目的最终峰包括: 从低通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰; 从带通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰; 从带通数据中的一个或多个峰中除去高度小于具有较大碱基对长度的相邻峰的高度 的峰; 响应于低通数据中的一个或多个峰中的某一峰,其高度小于带通数据中的一个或多个 峰中的某一峰的高度,且其在低通数据的一个或多个峰的峰的3个碱基对内,将低通数据中 的一个或多个峰的某一峰的中心设定为带通数据中的一个或多个峰的某一峰的中心,将低 通数据中的一个或多个峰的某一峰的边界设定为低通数据中的一个或多个峰的某一峰和 带通数据中的一个或多个峰的某一峰的并集; 将低通数据中的一个或多个峰中和带通数据中的一个或多个峰中碱基对长度大于165 个碱基对且在彼此的30个碱基对内的峰合并;和 将低通数据中的一个或多个峰中和带通数据中的一个或多个峰中碱基对在15个内且 其高度相差大于两倍的峰合并;其中低通数据中的一个或多个峰的其余峰是最终峰。13. 根据权利要求1-12任一项所述的计算机实现方法,其中所述含CGG富集区的DNA是 脆性X智力迟钝1基因(FMR1)的5 ' -UTR。14. 根据权利要求1-13任一项所述的计算机实现方法,其中所述包含CGG富集区的DNA 是脆性X智力迟钝2基因(FMR2)的5 ' -UTR。15. 根据权利要求1-14任一项所述的计算机实现方法,其中所述第一引物包含至少4个 CGG或CCG重复序列。16. 根据权利要求1-15任一项所述的计算机实现方法,其中所述引物组还包括识别CGG 富集区外部的且位于第二引物所识别的区域对侧的区域的第三引物。17. -种用于测定与个体脆性X综合征相关的基因型的计算机实现方法,所述方法包 括: a) 使用引物组执行DNA扩增反应,所述引物组包括识别FMR1基因的5 ' UTR上的CGG富集 区的第一引物和识别FMRl基因的5'UTR上的CGG富集区外部的区域的第二引物; b) 解析DNA扩增产物以获得DNA大小和丰度数据; c) 将低通滤波器和带通滤波器应用于DNA大小和丰度数据,以鉴别代表FMRl基因的5' UTR上的CGG富集区中的CGG重复序列数目的峰;和 d) 基于所鉴别的峰测定所述个体的基因型。18. 根据权利要求17所述的计算机实现方法,其中所述解析是通过毛细管电泳进行。19. 根据权利要求17或18所述的计算机实现方法,还包括在步骤c)之前由一个或多个 处理器将DNA大小和丰度数据从时间域转换为碱基对长度域。20. 根据权利要求19所述的计算机实现方法,其中使用DNA梯带将DNA大小和丰度数据 从时间域转换到碱基对长度域。21. 根据权利要求17-20任一项所述的计算机实现方法,其中所述方法还包括以采样频 率对DNA大小和丰度数据进行采样,其中将低通滤波器和带通滤波器应用于DNA大小和丰度 数据包括将低通滤波器和带通滤波器应用于采样的DNA大小和丰度数据。22. 根据权利要求21所述的计算机实现方法,其中所述采样频率等于每个碱基对4个样 本。23. 根据权利要求21-22任一项所述的计算机实现方法,其中所述带通滤波器具有为采 样频率的2/13的低截止频率和为采样频率的2/11的高截止频率。24. 根据权利要求21-23任一项所述的计算机实现方法,其中所述低通滤波器具有采样 频率乘以1.0* HT5的截止频率。25. 根据权利要求21-24任一项所述的计算机实现方法,其中以所述采样频率对DNA大 小和丰度数据采样包括: 生成所述DNA大小和丰度数据的线性内插;和 以所述采样频率对所述DNA大小和丰度数据的线性内插进行采样。26. 根据权利要求17-25任一项所述的计算机实现方法,其中所述低通滤波器和所述带 通滤波器是使用汉明窗口实现的零相位有限脉冲响应(FIR)滤波器。27. 根据权利要求17-26任一项所述的计算机实现方法,其中所述DNA大小和丰度数据 包括代表FMRl基因的CGG系列和FMRl基因的5 'UTR的全长扩增子的组合的信号,该组带通数 据包括代表FMRl基因的CGG系列的信号,该组低通数据包括代表FMRl基因的5 ' UTR的全长扩 增子的信号。28. 根据权利要求17-27任一项所述的计算机实现方法,其中鉴别代表FMRl基因的5' UTR上的CGG富集区中的CGG重复序列数目的峰包括: 从低通滤波器输出中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的 峰; 从带通滤波器数据输出中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈 值的峰; 从带通滤波器数据输出中的一个或多个峰中除去高度小于具有较大碱基对长度的相 邻峰的高度的峰; 响应于低通滤波器输出中的一个或多个峰中的某一峰,其高度小于带通滤波器输出中 的一个或多个峰中的某一峰的高度,且其在低通滤波器输出的一个或多个峰的峰的3个碱 基对内,将低通滤波器输出中的一个或多个峰的某一峰的中心设定为带通滤波器输出中的 一个或多个峰的某一峰的中心,将低通滤波器输出中的一个或多个峰的某一峰的边界设定 为低通滤波器输出中的一个或多个峰的某一峰和带通滤波器输出中的一个或多个峰的某 一峰的并集; 将低通滤波器输出中的一个或多个峰中和带通滤波器输出中的一个或多个峰中碱基 对长度大于165个碱基对且在彼此的30个碱基对内的峰合并;和 将低通滤波器输出中的一个或多个峰中和带通滤波器输出中的一个或多个峰中碱基 对在15个内且其高度相差大于两倍的峰合并;其中低通滤波器输出中的一个或多个峰的其 余峰是最终峰。29. 根据权利要求17-28任一项所述的计算机实现方法,还包括基于个体的基因型确定 个体是否为脆性X综合征的携带者,其中FMRl基因的5'UTR上CGG富集区中5-44个重复序列 之间的CGG重复序列数目指示正常等位基因,FMRl基因的5 ' UTR上CGG富集区中45-54个重复 序列之间的CGG重复序列数目指示中间等位基因,FMRl基因的5'UTR上CGG富集区中55-200 个重复序列之间的CGG重复序列数目指示前突变等位基因,并且其中FMRl基因的5'UTR上 CGG富集区中大于200个重复序列的CGG重复序列数目指示全突变等位基因。30. -种用于测定包含核酸重复序列区的DNA中的核酸重复序列数目的计算机实现方 法,所述方法包括: a) 由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,所述DNA扩增产物是 通过使用引物组由包含核酸重复序列区的DNA生成,所述引物组包括识别核酸重复序列区 的第一引物和识别核酸重复序列区外部的区域的第二引物; b) 由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样 本数据; c) 由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据; d) 由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据; e) 由一个或多个处理器鉴别低通数据中的一个或多个峰; f) 由一个或多个处理器鉴别带通数据中的一个或多个峰;和 g) 基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理 器鉴别代表核酸重复序列数目的最终峰。31. -种非临时性计算机可读存储介质,其包含用于执行权利要求1-30任一项所述的 计算机实现方法的计算机可执行指令。32. -种系统,其包含被配置为执行权利要求1-30任一项所述的计算机实现方法的处 理器。
【文档编号】A61K31/12GK105916508SQ201480068327
【公开日】2016年8月31日
【申请日】2014年11月13日
【发明人】A·S·帕特森, I·S·哈奎, E·A·伊万斯, C·查
【申请人】康希尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1