专利名称:用图形处理单元加速元基因组的物种分析的方法和系统的制作方法
技术领域:
本发明涉及一种元基因组的物种分析技术,尤其涉及利用图形处理单元(GPU)加速元基因组的物种分析的方法和系统。
背景技术:
已有的微生物研究方法需要先对微生物进行分离培养,但是据估计只有大约1%的原核微生物能够在实验室中培养。因此,传统的方法研究微生物具有很大的局限性。元基因组是一种不依赖培养的方法对从环境样本中提取到的DNA进行直接测 序。因此,元基因组具有揭示环境中微生物群落真实组成的潜力。进行元基因组分析,最基础也是最重要的一个步骤是准确地将元基因组序列分配到其来源的物种。这个过程叫做元基因组物种分析。元基因组物种分析是指寻找元基因组序列的来源物种的过程,这对于后续的分析具有重要的基础意义。按照分析的手段不同,可以将元基因组物种分析分为两类基于比对的方法和基于组成的方法。当元基因组序列所来自的物种已经被完整测序,基于比对的方法可以得到更加准确的结果。但是,通常元基因组中包含着大量的未知物种,用比对的办法很难将所有元基因组序列很好地归类。而基于组成的元基因组分析方法,可能并不能将元基因组序列准确地将每一条序列都精确地分类到种和属的水平,但是却可以在纲和目的水平上大致地推测出每一条物种的来源。在最近两年,新一代测序技术用比传统测序方法更高的通量和更低的测序成本在包括元基因组在内的各个领域得到了广泛的应用。但是,新一代测序技术所提供的读长较短,给元基因组的物种分析和拼接都带来了巨大的挑战。目前最好的元基因组物种分析系统Phymm使用的是插值马尔科夫模型,在模拟的测试中Phymm被证明有着最高的敏感性和特异性。但是Phymm的计算量非常大,处理新一代测序技术产生的海量数据需要相当长的时间。综上,尽管已经有许多工具可以进行元基因组分析,要迅速的进行元基因组物种分析仍然是一个巨大的挑战。
发明内容
本发明的目的在于解决上述问题,提供了一种用图形处理单元加速元基因组的物种分析的方法,在保持和现有Phymm系统相似准确性的同时,可以比现有的Phymm系统快至少两个数量级。本发明的另一目的在于提供了一种用图形处理单元加速元基因组的物种分析的系统。本发明的技术方案是本发明揭示了一种用图形处理单元加速元基因组的物种分析的方法,包括从训练集中预先构建k阶马尔科夫模型;将构建好的所述k阶马尔科夫模型载入到所述图像处理单元中;将待分类的序列转换为寡核苷酸频数向量;将所述寡核苷酸频数向量载入到所述图像处理单元中;在所述图像处理单元中计算所述序列和每一个已知基因组的相似性分数;将所述这些相似性分数送回主内存;处理器用所述这些相似性分数最小的基因组的物种信息注释所述序列。 根据本发明的用图形处理单元加速元基因组的物种分析的方法的一实施例,所述的k阶马尔科夫模型中,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后(k-Ι)个字符和后一状态的前(k-Ι)个字符相同。根据本发明的用图形处理单元加速元基因组的物种分析的方法的一实施例,计算所述序列和每一个已知基因组的相似性分数的步骤中包含了计算每一基因组的从第一状态到第二状态的概率kMM, mn = PXOm I OJ =其中Oni和On是长度为k的寡核苷酸,Pi (OjOn)在第i个基因组中是从状态Oni转移到状态On的概率,Fi (Om I On)是在第i个基因组中观测到从状态Om转移到状态On的频数,Fi (Offl)是在第i个基因组中观测到状态Om的频数,是第i个基因组从状态Om转移到状态On的概率。本发明还揭示了一种用图形处理单元加速元基因组的物种分析的系统,包括模型构建模块、模型载入模块、序列转换模块、向量载入模块、相似性分数计算模块、数据返回模块、物种信息注释模块,其中所述模型构建模块,从训练集中预先构建k阶马尔科夫模型;所述模型载入模块,连接所述模型构建模块,将构建好的所述k阶马尔科夫模型载入到所述图像处理单元中;所述序列转换模块,将待分类的序列转换为寡核苷酸频数向量;所述向量载入模块,连接所述序列转换模块,将所述寡核苷酸频数向量载入到所述图像处理单元中;所述相似性分数计算模块,连接所述模型载入模块和所述向量载入模块,在所述图像处理单元中计算所述序列和每一个已知基因组的相似性分数;所述数据返回模块,连接所述相似性分数计算模块,将所述这些相似性分数送回主内存;所述物种信息注释模块,连接所述数据返回模块,通过处理器,利用所述这些相似性分数最小的基因组的物种信息注释所述序列。根据本发明的用图形处理单元加速元基因组的物种分析的系统的一实施例,所述模型构建模块构建的k阶马尔科夫模型,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后(k-Ι)个字符和后一状态的前(k-Ι)个字符相同。根据本发明的用图形处理单元加速元基因组的物种分析的系统的一实施例,所述相似性分数计算模块中包含基因组概率计算单元,计算每一基因组的从第一状态到第二状态的概率
权利要求
1.一种用图形处理单元加速元基因组的物种分析的方法,包括 从训练集中预先构建k阶马尔科夫模型; 将构建好的所述k阶马尔科夫模型载入到所述图像处理单元中; 将待分类的序列转换为寡核苷酸频数向量; 将所述寡核苷酸频数向量载入到所述图像处理单元中; 在所述图像处理单元中计算所述序列和每一个已知基因组的相似性分数; 将所述这些相似性分数送回主内存; 处理器用所述这些相似性分数最小的基因组的物种信息注释所述序列。
2.根据权利要求I所述的用图形处理单元加速元基因组的物种分析的方法,其特征在于,所述的k阶马尔科夫模型中,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后(k-Ι)个字符和后一状态的前(k-Ι)个字符相同。
3.根据权利要求2所述的用图形处理单元加速元基因组的物种分析的方法,其特征在于,计算所述序列和每一个已知基因组的相似性分数的步骤中包含了计算每一基因组的从第一状态到第二状态的概率
4.一种用图形处理单元加速元基因组的物种分析的系统,包括模型构建模块、模型载入模块、序列转换模块、向量载入模块、相似性分数计算模块、数据返回模块、物种信息注释模块,其中 所述模型构建模块,从训练集中预先构建k阶马尔科夫模型; 所述模型载入模块,连接所述模型构建模块,将构建好的所述k阶马尔科夫模型载入到所述图像处理单元中; 所述序列转换模块,将待分类的序列转换为寡核苷酸频数向量; 所述向量载入模块,连接所述序列转换模块,将所述寡核苷酸频数向量载入到所述图像处理单元中; 所述相似性分数计算模块,连接所述模型载入模块和所述向量载入模块,在所述图像处理单元中计算所述序列和每一个已知基因组的相似性分数; 所述数据返回模块,连接所述相似性分数计算模块,将所述这些相似性分数送回主内存; 所述物种信息注释模块,连接所述数据返回模块,通过处理器,利用所述这些相似性分数最小的基因组的物种信息注释所述序列。
5.根据权利要求4所述的用图形处理单元加速元基因组的物种分析的系统,其特征在于,所述模型构建模块构建的k阶马尔科夫模型,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后(k-Ι)个字符和后一状态的前(k-Ι)个字符相同。
6.根据权利要求5所述的用图形处理单元加速元基因组的物种分析的系统,其特征在于,所述相似性分数计算模块中包含基因组概率计算单元,计算每一基因组的从第一状态到第二状态的概率
全文摘要
本发明公开了用图形处理单元加速元基因组的物种分析的方法和系统,在保持和现有Phymm系统相似准确性的同时,可以比现有的Phymm系统快至少两个数量级。其技术方案为方法包括从训练集中预先构建k阶马尔科夫模型;将构建好的k阶马尔科夫模型载入到图像处理单元中;将待分类的序列转换为寡核苷酸频数向量;将寡核苷酸频数向量载入到图像处理单元中;在图像处理单元中计算序列和每一个已知基因组的相似性分数;将这些相似性分数送回主内存;处理器用这些相似性分数最小的基因组的物种信息注释序列。
文档编号G06F19/18GK102789551SQ20111012502
公开日2012年11月21日 申请日期2011年5月16日 优先权日2011年5月16日
发明者刘雷, 贾鹏, 赵一雷, 韦朝春 申请人:上海交通大学, 上海生物信息技术研究中心, 中国科学院上海生命科学研究院