一种对核酸序列信息进行匹配的方法

文档序号:9350252阅读:1103来源:国知局
一种对核酸序列信息进行匹配的方法
【专利说明】
[0001] 本案为2012年07月08日申请的,申请号为201210263634. 7,发明名称为《一种 对核酸序列信息进行匹配的系统和方法》的分案申请。
技术领域
[0002] 本发明涉及信息处理领域,更具体地说,涉及一种对核酸序列信息进行匹配的系 统和方法。
【背景技术】
[0003] 美国科学家于1985年提出人类基因组计划,经过美国、英国、法兰西共和国、德 意志联邦共和国、日本和中国科学家的共同努力,于2000年完成了人类基因组"工作框架 图"。并于2001年公布了人类基因组图谱及初步分析结果。其研究内容还包括创建计算机 分析管理系统(也即通过计算机分析系统对测序的结果进行处理,得到核酸序列信息),检 验相关的伦理、法律及社会问题。在人类基因组图谱公布后,国内外开始积极投入到各个生 物种族的基因图谱绘制的工作中。利用核酸序列信息与已有的基因组图谱(参考序列)进行 比较,通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变等进行匹配分析, 可获得与疾病相关基因的信息。通过核酸序列信息与基因组图谱进行匹配、分析,并揭秘患 病的根源,已成为生化医疗领域高度关注的问题,全球的基因测序技术也因此发展的如火 如荼,但要准确快速的从浩瀚的测序结果数据中得到基因信息,却成了当前基因测序技术 发展的瓶颈。
[0004] 对核酸序列信息进行匹配的系统是利用计算机对测序所得的核酸序列片段在已 知的参考序列上进行匹配,也即一一比对,根据匹配的结果进行后续的分析。对核酸序列信 息进行匹配的方法是基于对核酸序列信息进行匹配的系统对核酸序列信息进行匹配的过 程。
[0005] 现有技术中,一种对核酸序列信息进行匹配的方法,所述方法包括步骤:A、根据允 许错配的个数n,将每条核酸序列片段分成至少n+1条参与匹配的短片段,得短片段的数据 库;B、根据参与匹配的短片段的长度建立并存储参考序列索引,得数据库;C、把每条核酸 序列片段分段建立的短片段分别单独在数据库中进行匹配,得匹配结果。因为参考序列索 引是等长的,根据概率的原理,存在完全相同的多个参考序列索引。该技术方案中,每条参 与匹配的短片段依次与参考序列索引进行匹配,短片段需要与所有的参考序列索引分别进 行匹配(短片段需要分别与多个相同的参考序列索引进行匹配),这将大大降低信息处理的 速度。并且参考序列和核酸序列均需要进行分段处理,这将进一步增加了信息处理的工作 量,从而进一步降低了信息处理的速度。另外,参考序列建立的参考序列索引和核酸序列分 段建立的短片段,将产生大量的信息,这将增加信息处理装置的存储空间。
[0006] 因此需要一种新的对核酸序列信息进行匹配的系统和方法,能够实现核酸序列与 参考序列快速匹配。

【发明内容】

[0007] 本发明的目的在于提供一种对核酸序列信息进行匹配的系统和方法,旨在解决现 有技术核酸序列信息与参考序列进行匹配时,速度慢的问题。
[0008] 为了实现发明目的,一种对核酸序列信息进行匹配的系统包括数据库、参考序列 变化单元、标记单元和匹配单元。所述数据库,用于存储参考序列;所述参考序列变换单元, 用于对数据库中的参考序列进行BWT变换,得匹配参考序列;所述标记单元,用于对数据库 中的匹配参考序列进行间隔标记;所述匹配单元,用于将核酸序列片段依次与数据库中的 匹配参考序列进行一致性匹配,得匹配核酸序列。
[0009] -致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸 序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错 配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整 数。
[0010] 其中,所述参考序列变换单元包括参考序列矩阵模块和BWT矩阵模块。所述参考 序列矩阵模块,用于对在数据库中的参考序列末端或前端加上标识符,并将该参考序列循 环移动,得参考序列矩阵;所述BWT矩阵模块,用于将参考序列矩阵按照字典顺序排序,得 BWT参考序列矩阵。所述参考序列变换单元还可包括匹配参考序列模块,所述匹配参考序 列模块,用于获取BWT参考序列矩阵第一列与最后一列,得匹配参考序列,并储存在数据库 中。
[0011] 其中,所述标记单元,用于对数据库中的匹配参考序列按照等差数列进行间隔标 记。
[0012] 进一步的,所述标记单元,还用于在每个等差数列间隔中再利用等差数列对数据 库中的匹配参考序列进行进一步标记。
[0013] 上述任一技术方案中,所述匹配单元,用于将核酸序列片段反向互补形成反向互 补核酸序列片段,并将反向互补核酸序列片段与数据库中的匹配参考序列进行一致性匹 配,得匹配核酸序列。
[0014] 其中,所述匹配单元,利用回溯法依次在反向互补核酸序列片段不能匹配的位置 之前的位置上进行碱基替换,并从替换位置开始继续在数据库中进行匹配。
[0015] 上述任一技术方案中,所述对核酸序列信息进行匹配的系统还包括信息接收单 元;所述信息接收单元,用于通过USB接口或光盘驱动接口或INTERNET获取核酸序列片段 和参考序列。
[0016] 为了更好的实现本发明,本发明还包括一种对核酸序列信息进行匹配的方法。
[0017] 所述方法包括步骤:A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并 将匹配参考序列存储在数据库中;B、对将数据库中的匹配参考序列进行间隔标记;C、将核 酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。其中, 数据库中存储有参考序列,步骤A和步骤B分别数据库中的参考序列进行变换。
[0018] -致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸 序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错 配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整 数。
[0019] 其中,所述步骤A包括:AU对数据库中的参考序列末端或前端加上标识符,并将 该参考序列经过循环移动,得参考序列矩阵;A2、将参考序列矩阵按照字典顺序排序,得 BWT参考序列矩阵,并存储在数据库中。在步骤A2之后还可包括步骤A3、获取BWT参考序 列矩阵第一列与最后一列,得匹配参考序列,并存储在数据库中。
[0020] 其中,所述步骤B中,对数据库中的匹配参考序列按照等差数列进行间隔标记。
[0021] 其中,所述步骤B中,在每个等差数列间隔中再利用等差数列对数据库中的匹配 参考序列进行进一步标记。
[0022] 上述任一技术方案中,所述步骤C为,将核酸序列片段反向互补形成反向互补核 酸序列片段,然后将反向互补核酸序列片段与数据库中的匹配参考序列中进行一致性匹 配,得匹配核酸序列。
[0023] 其中,所述步骤C中,在允许错配的情况下,利用回溯法依次在反向互补核酸序列 片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置继续在数据库上进行匹 配。
[0024] 由上可知,本发明通过核酸序列片段无需分段,直接与在数据库中进行匹配,同 时,核酸序列片段无需与所有相同的匹配参考序列一一匹配,只需与所有相同的序列进行 一次匹配即可,从而从整体上提高了信息处理的速度;另外,数据库中的参考序列无需建立 参考序列索引,且数据库中的匹配参考序列无需一一标记,从而大大降低了对系统的存储 空间的要求。
【附图说明】
[0025] 图1是本发明一个实施例中对核酸序列信息进行匹配的系统的结构示意图。
[0026] 图2是本发明另一个实施例中对核酸序列信息进行匹配的系统的结构示意图。
[0027] 图3是本发明一个实施例中参考序列变换单元的结构示意图。
[0028] 图4是本发明另一个实施例中参考序列变换单元的结构示意图。
[0029] 图5是本发明一个实施例中核酸序列片段进行匹配的方法流程图。
[0030] 图6是本发明另一个实施例中对核酸序列信息进行匹配的系统的结构示意图。
[0031] 图7是本发明一个实施例中对参考序列进行变换的方法流程图。
[0032] 图8是本发明一个实施例中对核酸序列片段进行匹配的方法流程图。
[0033] 图9是本发明一个实施例中对正向核酸序列片段进行一致性匹配的示意图。
[0034] 图10是本发明一个实施例中对反向核酸序列片段进行一致性匹配的示意图。
[0035] 图11是本发明一个实施例中对核酸序列片段进行匹配的示意图。
[0036] 图12是本发明一个实施例中对核酸序列片段进行匹配的示意图。
【具体实施方式】
[0037] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。
[0038] 为了说明本发明的技术方案的方便,以下实施例中的核酸序列片段和参考序列都 只给出了较短碱基序列,其并不代表真正意义上的核酸序列片段和参考序列片段。一般核 酸序列片段长度在20bp或以上,参考序列长度在2000bp或以上,当然这只是一般的情况, 也存在核酸序列片段长度在20bp以下,参考序列长度在2000bp以下的情况。
[0039] 本发明所述核酸序列片段一般可通过对某物种测序得到,也可通过人工合成得 至IJ,也即人工序列。所述参考序列为已知的核酸序列,其用于作为匹配的模板,核酸序列片 段与参考序列进行匹配,根据匹配的情况可得到测序是否准确等信息。需要说明的是,本发 明中的核酸序列片段无特殊限制,可包括由A、
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1