专利名称:用于谱dna分析的方法
技术领域:
本发明涉及一种用于执行谱DNA分析的方法,即使用傅立叶变换在谱空间中表示 DNA序列。本发明还涉及一种对应的计算机程序产品。
背景技术:
过去已经描述了根据DNA序列的DNA谱图方法,对于该主题的早期参考,参看 Benson ^f X^] Nucleic Acid Research.中 18 Ql),ρ· 6305-6310 和 18 (10),3001-3006, 1990。通过将DNA序列转换为二进制指示符(indicator)序列并且然后应用短时傅立叶 变换且映射到颜色空间以便使输出可视化来生成DNA谱图。为了允许频域中大量长序列的 系统发育学的和生物学的比较,这些序列需要被可视化,以使得相似性是可(容易)检测的, 甚至可被人类观察者检测。因此,需要将具有相似的频率图案(pattern)的序列聚集在一 起的策略。在谱域中执行DNA分析的一个重要优点在于,避免了常规的序列到匹配序列的 N2-缩放(scaling),N是序列中核苷酸碱基的数量。US6,287,773公开了例如一种基于频 域的比较方法,其规模为(scale as) Nlog (N),这可以非常显著地降低针对长序列的计算 时间,所述长序列例如长于10000个核苷酸碱基。即使利用本用于DNA分析的谱分析的优点,仍然需要甚至更快和/或更高效的 分析工具,因为数据量巨大。例如,人类基因组的完整染色体1是2. 47亿核苷酸长,并 且相应地作为(如最近由 N. Dimitrova 等人的"Analysis and visualization of DNA spectrograms: open possibilities for genome research,,,in ACM MM. , Santa Barbara, CA, Oct. 2006建议的)所谓的谱视频(spectra video)来观看DNA谱图也可能 是冗长的任务。而且,尽管迄今为止进行了许多努力,但是仍然需要用于方便迅速分析DNA序列 信息的系统和方法。而且仍然需要可以识别展示出相似谱特性的在结构上或组成上相似的 图案的工具。这样的工具将与设法以线性次序或通过核苷酸外观(appearance)比对序列 的常规的序列比对工具形成对照。当前用于序列比对的聚类算法不适合谱分析,在谱分析中我们需要分析各个频率 处的内容。标准的聚类方法包括全局距离度量(glcAal distance metric),在这种情况下 其将被应用在谱图中所考虑的所有频率上。尽管这种方法将能够检测许多频率中的强图 案,但是它将筛选出在各个频率中的强图案。然而,在不同频率上的图案之间没有关系以在 单个距离度量中考虑它们。在谱分析中,各单个频率上的强(长)图案是相关的。因此,一种用于分析DNA序列的改进的方法将是有利的,并且特别是一种更高效 的和/或可靠的方法将是有利的。
发明内容
因此,本发明优选地设法单独地或任意组合地减轻、缓和或消除上面所提及的缺 点的一个或多个。特别地,可以看作本发明的一个目的的是,提供一种解决上面提及的现有 技术的分析DNA序列的问题的方法。在本发明的第一方面,该目的和若干其他目的通过提供一种用于分析DNA序列的 方法获得,所述方法包括
-提供DNA序列,
-基于所述DNA序列通过将DNA序列转换为多个二进制指示符序列并将短期傅立叶变 换(STFT)应用在所述二进制指示符序列上来创建多个谱,每个谱包括对应的频率(k)和傅 立叶系数(Usk_X(k)),其中每种傅立叶系数构成通道(X),
-对于适用于相对于一个或多个通道(X)的傅立叶系数(Usk_x(k))的频率(K’)定义 装箱函数(BF),
-将装箱函数(BF)应用在多个谱的至少一部分上并且由此修改对应的傅立叶系数 ⑶sk_X(k)),以及
-在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数(Usk_X(k))。本发明特别地但非排他地有利于获得用于向用户提供在大量的DNA序列数据中看 到独特的强图案的改进很大的能力的方法。进一步可能的是,提取图案的强度并评估在单个 频率或一组频率上哪一个是最强图案或评估DNA序列中的所有频率上的所有图案来分析。本发明可以有利地利用对所有DNA谱的全自动或半自动图案搜索结合注释和/或 可视化环境来实现。装箱函数(BF)的使用可以允许灵活测量“相似性”,其可以被调适于(adapted to) 数据集以便检测所有相关图案,从而对付DNA序列中的变化。此外,本发明是可扩展的(scalable)并且适合于并行实现,所述并行实现使得搜 索大基因组数据空间(例如不同物种的基因组)变得可行。该方法可以基于多个大基因组序列的谱图案来高效地和有效地比较这些基因组 序列以便导出基因同源性并且因此导出系统发育学关系。各序列中的共同谱图案可以例如标识所述序列中的核苷酸周期性重复并且将帮 助在编码和非编码DNA中发现新颖的重复元素(element),否则所述新颖的重复元素可能 不“可见”,这归因于在周期性间隔中随机排列的核苷酸之后仅特定的核苷酸的周期性。在本发明的上下文中,也可以有利地应用其他用于谱分析的方法,例如PCT申请 PH008112W01 (律师参考号)、IB2008/051434 (PCT申请号)中描述的方法。所述装箱函数可以包括截取、上舍入、下舍入、模函数和/或阈值函数,或技术人 员可获得的可以结合本发明实现的任何其他相关的装箱函数。典型地,装箱函数(BF)针对所有通道(X)而被定义。因此,对于DNA,可以修改通 道X= {A,T, C和G},但是可替代地,仅通道的子集可以依赖于分析的要求得以修改。有利地,在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数(Usk_ X(k))可以包括定量分析修改的傅立叶系数(Usk_X(k))相对于所述装箱函数(BF)的分布。 因此,它可以包括绘制所述分布,例如以将在下文中更详细地解释的柱状图绘制,或以其他 类型的图绘制。
典型地,依赖于期望的分析的要求,针对一组频率(K_i),例如所有频率,或间隔, 连续或不连续地(即分开)重复所述方法。应当注意,所述方法同样可以应用于分析RNA序列或氨基酸序列而不是DNA序列。 本发明的应用因此不限于关于DNA序列的分析的应用,而是也可以应用在在生物化学内相 关(relevance)的相似序列(例如RNA序列和氨基酸序列)上。我们可以创建用于氨基酸(其中20种)的二进制指示符表示,并且随后我们应用 STFT以将BIS序列转换为傅立叶域空间。随后,用于实现本发明的其余过程将是相同的。 这里是氨基酸的列表
丙氨酸-ala - A 精氨酸-arg - R 天门冬酰胺-asn - N 天门冬氨酸-asp - D
半胱氨酸-cys-谷氨酰胺-gin-谷氨酸-glu -E甘氨酸-gly -G组氨酸-his -H异白氨酸-ile-白氨酸-leu -L赖氨酸-Iys -K蛋氨酸-met -M苯丙氨酸-phe-脯氨酸-pro -P丝氨酸-ser -S苏氨酸-thr -T色氨酸-trp -W酪氨酸-tyr -Y缬氨酸-val -V
这20种不同的氨基酸可以被映射到红-绿-蓝(RGB)(或色调饱和度值-HSV空间)中 的20种不同颜色。这些空间中任一种可以被量化为20种颜色-每种氨基酸一个颜色。因 此,本发明的教导不限于DNA分析,而是可以利用本领域技术人员容易认识到的相关修改 而扩展到RNA和氨基酸分析。优选地,使用合并函数可以将二进制指示符序列的集合减小到BIS的更小集合, 该合并函数可以优选地包括逻辑AND函数。在所述多个谱的所述部分内所发现的基本相等的修改的傅立叶系数(Usk_X(k)) 的集合可被定义为构成图案。在一个实施例中,在任何频率和/或通道中具有基本相等的 修改的傅立叶系数(Usk_X(k))的最大集合的第一组谱(S)可被发现并且与剩余谱分离,剩 余谱形成第二组谱。术语“最大集合”的意思是具有最高数量的重新发生的修改的傅立叶 系数的集群(collective group)。此外,基本相等的修改的傅立叶系数(Usk_X(k))的最大集合可在第二组谱内被发现并且被分离。而且,谱分离为第一和第二组谱可以重复进行,忽 视先前发现的修改的傅立叶系数(Usk_X(k))的最长集合,从而发现下一个最长集合。可以 重复将谱分离为第一和第二组的操作i)直到发现修改的傅立叶系数(Usk_X(k))的最长 集合的预定义阈值为止,ii)直到执行了预定义次数的将谱分离为第一和第二组谱的操作 为止,或iii)直到第一和/或第二组谱包含单个序列为止,以便提供所述分离的结束。在另一个实施例中,在任何频率和/或通道中具有基本相等的修改的傅立叶系数 (Usk_X(k))的最大集合的第一组谱(S)可被发现并被做标记。所述集合可以优选地被显示 以供分析。而且,在任何频率和/或通道中具有基本相等的修改的傅立叶系数(Usk_X(k)) 的最大集合的第二组谱可被发现并被做标记,忽视先前发现的修改的傅立叶系数(Usk_ X(k))的最长集合。所述集合优选地也可以被显示给用户以供分析。此外,第一组和/或下 一组谱可被重排序并且优选地被显示,其中考虑所述标记。这样,在任何频率和/或通道中 最长的图案可被发现。最后,所述最长集合可被发现并且这组谱可被重排序i)直到修改 的傅立叶系数(Usk_X(k))的最长集合的长度的预定义阈值被发现为止,ii)直到预定义数 量的最长集合被发现为止,或iii)直到最长集合包含单个序列为止,以便提供该实施例的 过程的结束。在又一个实施例中,所发现的修改的傅立叶系数(Usk_X(k))的图案的长度超出第 一预定义阈值(N_thresl)的所有组谱(S)或包含k个最长图案(k是整数)的所有组谱可被 发现并且与剩余谱分离,剩余谱形成第二组谱。所选的各组谱不必是分开的。可以使用用于 修改的傅立叶系数(Usk_X(k))的图案的长度的第二预定义阈值(N_thres2)或使用j个最 长图案(j是等于或不同于k的整数)来进一步分离这样分离的每个组谱。为了提供所述分 离的结束,谱分离为各组的操作可被重复进行i)直到修改的傅立叶系数(Usk_X(k))的图 案的长度的预定义阈值被发现为止,ii)直到执行了预定义次数的分离为第一和第二组谱 的操作为止,或iii)直到第一和/或第二组谱包含长度等于1的修改的傅立叶系数(Usk_ X(k))的序列为止。在第二方面,本发明涉及一种适于使得包括至少一个计算机的计算机系统能够实 现根据本发明的第一方面的方法的计算机程序产品。本发明的该方面特别地但非排他地有利于本发明可以通过使得计算机系统能够 执行本发明第二方面的操作的计算机程序产品来实现。因此,预期通过在计算机系统上安 装控制所述光学记录装置的计算机程序产品来改变一些已知的计算机系统以根据本发明 进行操作。这种计算机程序产品可以在任何种类的计算机可读介质(例如基于磁性的或光 学的介质)上提供或通过基于计算机的网络(例如因特网)提供。本发明可以以包括硬件、软件、固件或这些的任意组合的任何适当形式来实现。本 发明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和/或数字信号处 理器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任 何适当的方式实现。事实上,所述功能可在单个单元、多个单元中实现或实现为其他功能单 元的一部分。同样,本发明可以单个单元中实现,或者可以在物理上和功能上分布在不同的 单元和处理器中。本发明的这些和其他方面将根据下文描述的实施例而清楚并且参照这些实施例 而被阐明。^0χ.,.ΑΝ/2] + 1 I=A' T' c,
或 G (1)
如图3所示,序列U[k]提供在频率k处的频率内容(frequency content)的度量,其 等于N/k个样本的基础(underlying)周期。N是窗口 W中的核苷酸碱基的总数,参看图5 和图6。碱基的数量可以是最多300个核苷酸碱基,优选地为最多500个碱基,或者甚至更 优选地为700个核苷酸碱基。可替代地,所述周期可以最多为3000个核苷酸碱基,优选地 为最多5000个核苷酸碱基,或者甚至更优选地为最多10000个核苷酸碱基。
现在将参照附图仅通过实例解释本发明,在附图中 图1是示范性二进制序列(BIS)图案,
图2是四个核苷酸碱基A、T、C和G的来自图1的对应的BIS图案的图, 图3是每个碱基的转换的频谱,
图4与图3相似,并且在右边指示出,获得了被相应核苷酸碱基的频率分量的大小加权 的颜色映射向量的叠加,
图5示意性示出从DNA序列的一部分的短时傅立叶变换(STFT)生成单个、彩色谱,
图6与图5相似,并且示出通过沿DNA序列重复进行STFT来生成多个谱,
图7是根据本发明的装箱函数(BF)的应用的原理草图,
图8是根据本发明的在各个频率处的谱的示意图,
图9是与图8相似的图,其示出根据本发明的装箱函数(BF),
图10是与图8相似的图,其示出根据本发明的另一个装箱函数(BF’),
图11是与图8相似的图,其示意性示出装箱函数的应用并绘制为根据本发明的柱状
图,
图12和图13示出根据本发明的所谓的自顶向下的层次分类(TDHS)的实例, 图14和图15示出根据本发明的所谓的独立迭代分类(incbpendent iterative sorting, IIS)的实例,以及
图16是根据本发明的方法的流程图。
具体实施例方式DNA谱图可以以常规方式生成,如下文中将参照图1-6更详细地描述的。例如,可 以使用用于生成DNA谱图的常规算法或技术,其需要下列5个步骤
(i)针对所述四个核苷酸碱基形成二进制指示符序列(BIS) uA[n],uT[n],uc[n]和 uG[η] 0图1中再现了从DNA序列10生成的示范性BIS图案,并且图2中呈现了 BIS值的 图。(ii)在BIS上进行离散傅立叶变换(DFT)。每个碱基的频谱是通过使用公式(1) 计算每个碱基相应的BIS的DFT而获得的
(iii)将DTF值映射到RGB颜色。所述4个(DFT)序列在RGB空间中通过下面再 现的一组线性方程而被减少到3个序列
其中{ar, ag, ab), {tr, tg, tb), {cr, cg, cb)和 igr, gg, gb)分别是核苷酸碱基 A、 T、C和G的颜色映射向量。所得的像素颜色OUk],^[k], ZJk])因此是被如图4右侧所 指示的它们各自的核苷酸碱基的频率分量的大小加权的颜色映射向量的叠加。在图5中针 对单个谱20示出了 DFT值到颜色的映射,并且在图6中针对若干谱20 (即谱图30)示出了 DFT值到颜色的映射。图5和图6 二者在这里为了说明的目的以灰度色调重现。基于频域 的U值的其他颜色空间映射也是可能的,例如映射到HSV空间。(iv)将像素值归一化。在再现彩色谱图30之前,每个像素的RGB值通常被归一化 以使其落在0与1之间。对于本领域技术人员而言,一旦认识到本发明总的原理,许多归一 化过程就容易可用。(ν)短时傅立叶变换(STFT)。通过各个DNA序列谱20 (“条”)的级联 (concatenation)形成多个DNA谱20,即谱图30,其中每个条或谱通常描绘局部DNA片段的 频谱,如图6所示。短期傅立叶变换(STFT)具有如图6所示沿着DNA序列从5’移位到3’ 的窗口 W。图6中所示的谱图具有60个核苷酸碱基的长度,并且所述窗口 W每次被移位一个 碱基。在谱图30中的水平标度上,示出了频率k (向下增加),而DNA序列10上的开始位置 P_ini在谱图30中的水平标度上示出。谱图30的外观(appearance)非常受STFT窗口 W的尺寸、相邻窗口 W之间的重叠 序列的长度以及颜色映射向量的选择的影响,参看公式(2)。所述窗口尺寸确定了谱图30 中像素值的有效范围。较大的窗口导致展现从较长DNA片段收集的统计数据的谱图。一般 地,窗口 W的尺寸应当被制造得为感兴趣的重复图案的长度的若干倍大并且为包含感兴趣 的图案的区域的尺寸的若干分之一小。为了探查的目的,推荐尝试窗口尺寸的范围。所述 窗口重叠确定了两个相邻STFT窗口共同的DNA片段的长度。因此所述重叠越大,频谱从一 个STFT窗口到下一个窗口的转变越渐进。图像分辨率较高使得通过图像处理或视觉检查 提取特征较为容易。观看大量的序列数据需要一种用于信息分析和可视化(visualization)的高效 方法。为了优化对从非常大的序列导出的谱或包含许多小窗口的谱的观看,所述谱可被再 现为由本发明的发明人示出的视频;N. Dimitrova等人的“Analysis and visualization of DNA spectrograms: open possibilities for genome research", in ACM MM, Santa Barbara, CA, Oct. 2006,该文献通过整体应用合并于此。图7是根据本发明的根据三种不同情况的装箱函数应用的原理草图。参照图3和
图8 (参看下文),所述四个通道A、T、C和G中的每一个通过坐标频率k、傅立叶系数
X(k)和谱数s定义了倒易k-空间中的三维空间。因此,对于一个通道,频率k可以通过三
维向量11、[2、13^_4或15表示。本发明通过定义相对于例如一个通道C (通常研究多于一个的通道)的装箱函数BF来操作。在图7中通过点状箭头示意性指示装箱函数BF的 操作,并且所述五个向量U_1、U_2、U_3、U_4和U_5分别被示意性修改为U_1 ’、U_2’、U_3’、 U_4,和 U_5,。在情况A中,装箱函数BF被应用在由向量[1指示的一个频率上,并且作为装箱 函数BF的结果,U_1的傅立叶系数hk_X(k)被修改并且因此如图所示改变了所述向量。在情况B中,装箱函数BF被应用在由向量U_2和U_3指示的两个频率上,并且作 为装箱函数BF的结果,U_2和U_3 二者的傅立叶系数Usk_X(k)分别被修改为向量U_2’和 U_3,。在该特定情况下,装箱函数BF具有效果U_2’等于U_3’。这可以例如是装箱函数BF 的下述情况明显改变了值,例如苛刻的下舍入或类似改变。因此,丢失了信息,但是可以执 行更容易的和/或改进的分析。在情况C中,装箱函数BF被应用在由向量U_4和U_5指示的两个频率上,并且作 为装箱函数BF的结果,U_4和U_5 二者的傅立叶系数Usk_X(k)分别被修改为向量U_4’和 U_5,。在该特定情况下,装箱函数BF具有在向量空间中转变(turn)两个向量U_4和U_5的 效果。图8是根据本发明的在各个频率处的谱的示意图,其具体列出了在该图左部通过 行进索引s向下连续编号的不同谱20的傅立叶系数Usk_X(k)。所述频率k还在图8的顶 部被示出。DFT的频率从1到傅立叶变换的最大频率km行进。如前所述,所述四个核苷酸 碱基A、T、C和G构成四个通道,即Χ=Α、Τ、C和G。通常,研究多于一个通道,并且由此与所 述搜索模板的相似性可以基于多于一个通道(例如X=A和C)的变化程度,并且特别地,所述 相似性可以基于所有通道(即X=A、T、C和G)的变化程度。为了强调图8中每个条目包括4 个不同的通道,第一行(s=l)中名称为Ulk_x的条目已经被放大(blow up)并且所有四个通 道在图8的上部中明确地被写出。图9是与图8相似的图,其示出根据本发明的装箱函数BF。基于DNA序列通过将 DNA序列转换为多个二进制指示符序列(BIS)并且将短期傅立叶变换(STFT)应用在所述二 进制指示符序列上来获得多个谱s,每个谱包括对应的频率k和傅立叶系数(k),其中 每种傅立叶系数构成通道X。随后,针对频率K’(其中K’ =2)定义装箱函数BF,其适用于相对于相关通道X的 傅立叶系数hk_X(k)。因此,所述装箱函数可以例如包括截取、上舍入、下舍入、模函数和/ 或阈值函数,或相关于本发明的目的的其他相关的数学函数。在一个实施例中,执行所述截 取。典型地,所述装箱函数(BF)针对所有通道X定义,因此X= {A,T,C和G},但是对于一些 应用,一个或例如C和G的子集可以是待分析的通道。在图9中,装箱函数(BF)被应用在 从s=l到s的所述多个谱的一部分上,并且由此修改对应的傅立叶系数hk_X(k)。可替代 地,所述装箱函数(BF)可以应用在更小的部分上,例如s=l到s=2。其后,所述多个谱(例如S=I以及向上)的所述部分内的基本相等的修改的傅立叶 系数hk_X(k)被发现并且优选地被做标记或打上标签以供进一步分析。因此,发现的意思 是例如计数具有修改的傅立叶系数hk_x(k)的一定值的条目有多少,例如10个。术语“基 本相等”的意思是考虑在应用了装箱函数BF之后引入的数值误差。图10是与图8相似的图,其示出根据本发明的另一个装箱函数BF’。所述方法可 以针对一组频率K_i或者并行地或者连续地(典型地以一定间隔)被重复,但是这组K_i也可以在特定的k个值上“跳动”。因此,应当强调,所述频率组或间隔K_i可以包括若干不同 的频率间隔,即K_i可以包括k=2, k=6或k=2和k=4。因此,K_i可以是从k=l到k=km (傅 立叶变换的最大频率)的间隔内的任何适当的子组或各子组的组合。图11是与图8相似的图,其示意性示出装箱函数BF在多个谱上的应用,但是为了 简化起见仅仅针对一个频率k示出了所述应用。在应用了所述装箱函数BF(在这种情况下 为简单截取)之后,修改的傅立叶系数的相等值被发现,然后将发生的次数作为装箱值的函 数绘制为柱状图,例如Usl_G(k)=6的两次发生和Usl_G(k)=9的一次发生等等。对于每个频率,“相似的”值(即根据所应用的装箱函数BF为基本相等的)被聚集 在一起,并且示出落入每个箱(bin)中的值的个数的柱状图被建立。针对单独的频率的A、 C、G、T的值可以独立地进行比较,或者可以以常见方法(common measure)来组合,所述常 见方法考虑所有四个核苷酸上的相似性以发现所述频率中的相似性。图11提供了如何应 用装箱函数BF和如何生成柱状图的实例。然后,可以应用频率分类或聚类方法的各种实施 例。使用所述装箱函数,针对所有频率的A、T、C和G,生成示出所述“相似”值的柱状图。接下来,对于每个频率,根据所选择的策略选择一个或多个柱状图箱(例如最大 的)。在下文中,进一步解释了三个这样的策略自顶向下的层次分类(TDHS)、独立迭代分类 (IIS)和格状分类(LS),但是在本发明的上下文和教导内技术人员容易获得其他方法。然 后,可以根据所选的策略并考虑柱状图箱来将域(domain)分割(split),并且在每个子域 中重复所述过程直到达到停止标准为止。例如,当最大的箱被选择时,它提供最大数量的序列,所述序列在针对所述核苷酸 之一的所述特定频率中共享根据所述装箱函数BF的“相似”值。针对在跨越所有频率的所 有柱状图箱中(对于每一个频率,存在单个柱状图)最大值的频率被选择,并且对该柱状图 有贡献的序列被聚集在一起。这样,各序列的整个域被分割成共享在所述频率中的相似性 的序列的组和其余组,从而获得两个“群(cluster)” (尽管这不是字面严格意义上的聚类算 法,但是可以采用该术语),并且特定选择和处理策略被应用在这两个群的每一个上。接下 来,再次建立所述各值的柱状图,或者将计算的柱状图箱更新以反映分割成各群;选择最长 的柱状图,并且根据该柱状图再次将所述域分割成两个群。当最长的柱状图的尺寸低于预 定义阈值时,当达到用户定义的数量的待提取的长图案时,或者当所述两个群的每一个包 含单个序列时,迭代停止。也可以应用其他停止标准。图12和图13示出根据本发明的所谓的自顶向下的层次分类(TDHS)的实例。一 旦发现最长的图案,例如k=l、c通道,三次值“8”,TDHS算法将窗口或谱的域分割成包含最 长图案和剩余图案的域。为了说明这个过程,在右边示出了三个所选通道的柱状图,即k=l, A&C通道和k=2,A通道。禾Ij用中间的柱状图中的实线圆,示意性标识了最长图案。接下来,在所述两个群的每一个或第一组和第二组中,(下一个)最长图案被发现 并且所述群中的每一个再次被分割成或细分成包含长图案和剩余图案的多个群或组。这在 图13中被示出,在图13中窗口或谱s=l,2和3形成被分割成包含最长图案k=2、具有2次 出现的装箱值“10”的A通道的谱的组和谱s=2的组。在图13的左下部中通过“分类三”示出了具有两个分支点的该层次分类。TDHS分 类的第一分支也在图12的左下部被示出。当达到最长图案或步骤数的阈值时,或当所述两个群或组的每一个包含单个序列时(例如图13中的谱s=2),该算法停止。最后,将具有一种图案的层次。可以选择在分离的 每个步骤处显示两个群,或仅仅显示具有最长图案的群或组。该策略可能在长图案在先前 步骤中被分割时遗漏长图案。TDHS的一种变化是停止分割树的左侧-已经包含最长图案的 侧。这将导致多叶二叉树。图14和图15示出根据本发明的所谓独立迭代分类(IIS)的实例。IIS以图案的尺 寸的降序显示了所述域中的所有图案。它首先选择如用于TDHS分类算法的图12中所示的 最长图案,然后IIS算法将包含最长图案的群重排序在顶部并且显示整个域。接下来,IIS 选择独立于第一图案的第二 (不同的)最长图案(如图14所示,k=l,具有两次出现的装箱值 “2”的通道A,用实线圆在柱状图中示出(尽管k=2,通道A也具有两次出现的装箱值“10”)) 等等,直到所有图案被发现为止。因此,在图15中,第三最长图案是k=2,具有两次出现的 装箱值“10”的通道A,如也利用实线圆在柱状图中指示。利用该策略,完全同时存在的图 案(在更长的图案中没有间隙)或完全分开(disjoint)的图案(没有公共序列)将总是出现。 还应当注意,在不同的迭代中所获得的群可以包含相同的(重叠的)谱。而且,所谓的格状分类(LS)算法可以结合本发明实现。开始,对于比给定尺寸丄 thresl长的所有图案(或可替代地对于k个最长的图案),通过选择包括这些图案的行或谱 并且放弃其余的行或谱来形成群。随后,在每个群或组中反复(iteratively)执行相同的选 择,直到找不到合适的图案为止,即直到所有的图案都比N_thres2短(或剩余的所有图案 长度都为1)为止。利用该策略,所述群可以是重叠的,并且每个群具有一个子群。与TDHS 不同,LS从不遗漏长图案。也利用该策略,完全共存的图案将总是出现。TDHS、IIS和LS的所有上述策略可以在以下意义下交互式实现在每个步骤,所述 图案可被可视化并且用户可以决定探究群或组的层次中的哪些分支。接下来,所述谱可以在如图6所示的一种被称为分类的视频的新表示中堆叠于彼 此之上并且可以被显示。依赖于用户的偏好,所有群可以被示出,或者只有那些在所述算法 步骤中包含最强图案的群被示出。此外,本发明有助于并行化,这与本领域已知的其他聚类方法(比如层次聚类)不 同。为了分类,针对每个频率建立柱状图,这使得容易在若干过程中分割傅立叶值的域并且 并行地、在并行系统或分布式系统上或在网格上执行它们。最后,本发明提供一种可视化方法(如图6所示),其使得生物学家或临床医生更容 易看到关于这些图案的相似性的结果并发现关于这些图案的相似性的进一步解释。为了这 个任务,可以提供可用的基因组注释,比如基因的名称或基因组元素、物种、实验等等。图16是根据本发明的方法的流程图。所述方法包括 Sl提供DNA序列,
S2基于所述DNA序列,通过将该DNA序列转换为多个二进制指示符序列(BIS)并且将 短期傅立叶变换(STFT)应用在所述二进制指示符序列上来创建多个谱20,每个谱包括对 应的频率k和傅立叶系数hk_X(k),其中每种傅立叶系数构成通道X,
S3对于适用于相对于一个或多个通道X的傅立叶系数hk_X(k)的频率K’,定义装箱 函数BF,
S4将装箱函数BF应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶系数 hk_X(k),以及S5在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数hk_X(k)。本发明可以以包括硬件、软件、固件或这些的任何组合的任何适当形式实现。本发 明或本发明的一些特征可以被实现为运行在一个或多个数据处理器和/或数字信号处理 器上的计算机软件。本发明的实施例的元件和组件在物理上、功能上和逻辑上可以以任何 适当的方式实现。事实上,所述功能可在单个单元、多个单元中实现或实现为其他功能单元 的一部分。同样,本发明可以单个单元中实现,或者可以在物理上和功能上分布在多个不同 的单元和处理器之间。尽管已经结合指定的实施例描述了本发明,但是本发明不期望限于本文所陈述的 特定形式。相反地,本发明的范围仅仅由所附权利要求限定。在权利要求中,术语“包括”不 排除其他元件或步骤的存在。此外,尽管各个特征可以包含在不同的权利要求中,但是这些 特征可以有利地被组合,并且在不同权利要求中包含所述各个特征并不暗示这些特征的组 合是不可行的和/或不是有利的。此外,单数引用不排除多个。因此,对“一”、“第一”、“第 二”等的引用不排除多个。而且,权利要求中的附图标记不应当被解释为限制范围。
权利要求
1.一种用于分析DNA序列(10)的方法,该方法包括提供DNA序列,基于所述DNA序列,通过将所述DNA序列转换为多个二进制指示符序列(BIS)并且将 短期傅立叶变换(STFT)应用在所述二进制指示符序列上来创建多个谱(20),每个谱包括 对应的频率(k)和傅立叶系数(Usk_X(k)),其中每种傅立叶系数构成通道(X),对于适用于相对于一个或多个通道(X)的傅立叶系数(Usk_X(k))的频率(K’),定义装 箱函数(BF),将所述装箱函数(BF)应用在所述多个谱的至少一部分上并且由此修改对应的傅立叶 系数(Usk_X(k)),以及在所述多个谱的所述部分内发现基本相等的修改的傅立叶系数(Usk_X(k))。
2.根据权利要求1的方法,其中在所述多个谱的所述部分内发现基本相等的修改的 傅立叶系数(Usk_X(k))包括定量分析修改的傅立叶系数(Usk_X(k))相对于所述装箱函数 (BF)的分布。
3.根据权利要求1的方法,其中针对一组频率(K_i)重复所述方法。
4.根据权利要求1的方法,其中使用合并函数将二进制指示符序列的集合减小到BIS 的更小集合,该合并函数优选地包括逻辑AND函数。
5.根据权利要求1或3的方法,其中发现在任何频率和/或通道中具有基本相等的修 改的傅立叶系数(Usk_X(k))的最大集合的第一组谱(S)并且将其与剩余的谱分离,所述剩 余的谱形成第二组谱。
6.根据权利要求5的方法,其中在第二组谱内发现并且分离基本相等的修改的傅立叶 系数(Usk_X(k))的最大集合。
7.根据权利要求6的方法,其中将谱分离为第一和第二组谱被重复,忽视先前发现的 修改的傅立叶系数(Usk_X(k))的最长集合。
8.根据权利要求6或7的方法,其中重复将谱分离为第一和第二组的操作i)直到发 现修改的傅立叶系数(Usk_X(k))的最长集合的预定义阈值为止,ii)直到执行了预定义次 数的分离为第一和第二组谱的操作为止,或iii)直到第一和/或第二组谱包含单个序列为 止。
9.根据权利要求1或3的方法,其中发现在任何频率和/或通道中具有基本相等的修 改的傅立叶系数(Usk_X(k))的最大集合的第一组谱(S)并对其做标记。
10.根据权利要求9的方法,其中发现在任何频率和/或通道中具有基本相等的修改的 傅立叶系数(Usk_X(k))的最大集合的第二组谱并对其做标记,忽视先前发现的修改的傅立 叶系数(Usk_X(k))的最长集合。
11.根据权利要求9-10中任一项的方法,其中发现所述最长集合并且所述组的谱被 重排序i)直到发现修改的傅立叶系数(Usk_X(k))的最长集合的长度的预定义阈值为止, ii)直到发现预定义数量的最长集合为止,或iii)直到最长集合包含单个序列为止。
12.根据权利要求1或3的方法,其中发现所发现的修改的傅立叶系数(Usk_X(k))的 图案的长度超出第一预定义阈值(N_thresl)的所有组的谱(S)或包含k个最长图案的所有 组的谱并且将其与剩余的谱分离,所述剩余的谱形成第二组谱,其中k是整数。
13.根据权利要求12的方法,其中使用修改的傅立叶系数(Usk_X(k))的图案的长度的第二预定义阈值(N_thres2)或使用j个最长图案来进一步分离根据权利要求18分离的每 组谱,其中j是等于或不同于k的整数。
14.根据权利要求13的方法,其中将谱分离为组的操作被重复进行i)直到发现修改 的傅立叶系数(Usk_X(k))的图案的长度的预定义阈值为止,ii)直到执行了预定义次数的 分离为第一和第二组谱的操作为止,或iii)直到第一和/或第二组谱包含长度等于1的修 改的傅立叶系数(Usk_X(k))的序列为止。
15.一种适于使得包括至少一台计算机的计算机系统能够实现根据权利要求1的方法 的计算机程序产品。
全文摘要
本发明涉及一种用于分析DNA序列的方法。通过将所述DNA序列转换为多个二进制指示符序列(BIS)并且在所述二进制指示符序列上应用短期傅立叶变换(STFT)来分析DNA序列。装箱(binning)函数(BF)被应用于傅立叶系数(Usk_X(k)),由此修改对应的傅立叶系数(Usk_X(k))。最后,发现基本相等的修改的傅立叶系数(Usk_X(k))。本发明向用户提供一种改进很大的在大量的DNA序列数据中看到独特的强图案(strongpattern)的能力。
文档编号G06F19/26GK102067141SQ200980122875
公开日2011年5月18日 申请日期2009年6月12日 优先权日2008年6月19日
发明者I. D. 布库尔 A., 米塔尔 C., J. A. 范利尤文 J., 迪米特罗瓦 N. 申请人:皇家飞利浦电子股份有限公司