核酸序列聚类方法、装置、计算机可读存储介质、终端

文档序号:32616237发布日期:2022-12-20 21:26阅读:来源:国知局

技术特征:
1.一种核酸序列聚类方法,其特征在于,包括如下步骤:步骤a:初始化参数;步骤c:判断待测序列是否为空,若是跳到步骤d;若否跳到步骤f;步骤d:输出簇情况以及核心序列集;步骤e:结束;步骤f:取出一条待测序列与树结构进行检索;步骤g:判断是否能检索到相似核心序列,若是跳到步骤h;若否跳到步骤j;步骤h:将该条待测序列与相似核心序列划为同簇;步骤i:可选地进行全局比对并纠正核心序列错误;步骤j:将该待测序列加入核心序列集以及树结构,跳到步骤c。2.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,步骤a中,所述初始化参数包括初始化树结构的数量、树结构的长度、树结构选取的区间位置、纵向漂移值、横向漂移值阈值、进程数、输入文件格式、输出文件格式、核心序列集和树结构。3.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,若为多进程模式,在步骤a之后,步骤c之前,还包括步骤b:对待测序列进行分流。4.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,步骤f-j具体包括:取出一条待测序列与树结构进行检索,判断是否能检索到相似核心序列;首先,比较首段区间与首段树结构是否能够匹配,若能匹配到则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若首段区间无法匹配到,则再进行末端区间与末端树结构的匹配,若末端区间可以成功匹配,则停止后续树结构的检索,将该条待测序列与相似核心序列划为同簇,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若末端也无法成功匹配,则进行中间区间的匹配在选取中间区间时,将会在原指定区间基础上,允许横向漂移纵向漂移数个碱基位置,进而允许选择多个区间,碱基区间检索树结构后,将选择最小横向漂移值的区间与匹配序列,若此时横向漂移值小于阈值则匹配成功,若开启了全局比对功能,则此时将该序列与所匹配到的序列进行全局比对,全局比对后将会标记序列中不同的碱基位,若核心序列集中某条序列的某个碱基位被频繁标记则将会被视为错误碱基位进而进行纠正;若仍无法匹配,则将该条测序序列视为一个新的簇,将其加入到核心序列集中,并将其指定区间加入到树结构中。5.根据权利要求1所述的一种核酸序列聚类方法,其特征在于,在步骤c和步骤d之间,还包括步骤k,所述步骤k为设置一个阈值,若某个簇内所含序列较少,则认为该簇为一个噪声簇,将其从核心序列集中舍弃,此外若选择多进程模式,则将不同进程间的核心序列集进行合并,但是序列集中不同的序列不会合并,若输入文件为带标签的数据集,则会进行耗时、准确率、正确率的计算,最后输出簇的结果以及核心序列集。6.一种核酸序列聚类装置,其特征在于,包括如下单元:参数初始化单元,用于初始化参数;
分流单元,用于对待测序列进行分流;待测序列判断单元,用于判断待测序列是否为空;结果输出单元,用于输出簇情况以及核心序列集;检索单元,用于取出一条待测序列与树结构进行检索;检索结果判断单元,用于判断是否能检索到相似核心序列;判断结果划分单元,用于将该条待测序列与相似核心序列划为同簇,或者,将该待测序列加入核心序列集以及树结构;全局比对纠错单元,用于进行全局比对并纠正核心序列错误。7.一种计算机可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机上运行时,实现如权利要求1-5中任一项所述的核酸序列聚类方法。8.一种计算机终端,其特征在于,包括存储器,以及与所述存储器通信连接的一个或多个处理器;所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现如权利要求1-5中任一项所述的核酸序列聚类方法。

技术总结
本发明公开了一种核酸序列聚类方法、装置、计算机可读存储介质、终端通过构建了多个分支的树结构来对核酸序列的指定区间进行检索,进而避免了传统计算编辑距离所消耗的大量时间。此外,本申请采用节点漂移算法以对抗核酸序列发生错误所带来的干扰。与目前已有的核酸聚类算法相比,本申请提供的方法可以对未识别的大量核酸序列进行聚类的同时,还具备对聚类后的核酸序列进行自动纠错与比对的功能,可以直接输出纠错后的核酸原始序列,从而大大减少测序读取后的处理时间。少测序读取后的处理时间。少测序读取后的处理时间。


技术研发人员:曲冠锦 吴华明
受保护的技术使用者:天津大学
技术研发日:2022.04.07
技术公布日:2022/12/19
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1