蛋白质远程同源性检测方法及装置的制造方法

文档序号:8319448阅读:916来源:国知局
蛋白质远程同源性检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及生物信息学,具体涉及一种蛋白质远程同源性检测方法及装置。
【背景技术】
[0002] 蛋白质远程同源性检测是蛋白质结构和功能研宄中一个重要的问题,也是计算机 辅助药物设计所依赖的关键技术。蛋白质远程同源性检测是指利用蛋白质序列间的相似 性检测一个新的蛋白质的家族,之后利用已知蛋白质家族的结构和功能信息来预测新测定 蛋白质的结构和功能。该领域中的计算方法利用蛋白质的序列信息、理化性质和进化信息 提取特征,使用机器学习算法来预测蛋白质远程同源性,主要两种策略:分类策略和排序策 略。分类策略的思想是把蛋白质远程同源性检测作为一个多分类问题,采用已知家族的蛋 白质训练预测模型,之后该模型用于预测目标蛋白质的家族。该类方法可以较好的预测目 标蛋白质的家族,但不能预测两个蛋白质之间的同源性,而且当模型中不包含目标蛋白质 的家族信息时,该类方法无法正确预测。排序策略将目标蛋白质作为查询序列,计算其与数 据库中已知蛋白质的相似性,将检索到的蛋白质按照同源相似性将序排列,与查询蛋白质 具有较高同源相似性的蛋白质排在前面,较低同源相似性的蛋白质排在后面。排序方法可 以预测两个蛋白质之间的同源性,但目前排序方法的准确率普遍较低,稳定性较差,不能取 得理想的效果。因此我们提出一种融合多个蛋白质同源性检测的排序方法,通过组合不同 的基排序方法来提高蛋白质远程同源性检测的效果。

【发明内容】

[0003] 根据本发明的一个方面,提供一种蛋白质远程同源性检测方法,包括训练过程和 检测过程;所述训练过程包括:将样本蛋白质作为查询序列输入一组基于排序策略的蛋白 质同源性检测的基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源 蛋白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序 排序,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入基于 排序学习的方法中进行训练以得到排序模型;所述检测过程包括:将目标蛋白质作为查询 序列输入所述基排序方法,并在数据库中进行检索,每一个基排序方法检索出来的同源蛋 白质列表对应一个同源相似性评分,将所有基排序的检索结果按照同源相似性评分降序排 列,将所述检索结果中的同源相似性评分组合成特征向量,将得到的特征向量输入训练好 的排序模型进行排序,得到排序结果,根据所述排序结果确定所述目标蛋白质的远程同源 性检测结果。
[0004] 根据本发明的另一个方面提供一种与上述方法对应的蛋白质远程同源性检测装 置。
[0005] 本发明的有益效果在于:通过将一组基于排序策略的蛋白质同源性检测的基排序 方法的检测结果作为基于排序学习的方法的特征向量,由此融合成一个新的排序模型,从 而可以有效提高蛋白质远程同源性检测的准确性和稳定性。
【附图说明】
[0006] 图1为本发明一种实施例的蛋白质远程同源性检测方法的流程示意图;
[0007] 图2为本发明一种实施例的蛋白质远程同源性检测方法的训练过程示意图;
[0008] 图3为本发明一种实施例的蛋白质远程同源性检测方法的检测过程示意图;
[0009] 图4为本发明一种实施例的蛋白质远程同源性检测方法中采用一个基排序方法 检索的结果示意图;
[0010] 图5为本发明一种实施例的蛋白质远程同源性检测方法中采用一组基排序方法 检索的结果示意图;
[0011] 图6为本发明一种实施例的蛋白质远程同源性检测方法中将检索结果组合成特 征向量的示意图;
[0012] 图7为LambdaMART排序学习方法的伪代码示意图。
【具体实施方式】
[0013] 本发明的设计思想是基于排序学习 (Learning to Rank)的方法来实现蛋白质远 程同源性检测,通过组合不同排序方法来提高蛋白质远程同源性检测的精度,即首先将目 标蛋白质作为查询序列,从多个基排序方法中检索出同源蛋白列表,并按同源相似性降序 排列,同源性高的排在前面,然后将基排序检索结果中的同源性评分作为排序学习方法的 特征,组合成特征向量,接着将特征向量输入到排序学习方法中。该方法融合了多个蛋白质 远程同源性检测方法,可以有效提高排序结果的准确性和稳定性。
[0014] 下面通过具体实施例结合附图对本发明作进一步详细说明。
[0015] 实施例1 :
[0016] 如图1所示,为本实施例的蛋白质远程同源性检测方法,其包括训练过程和检测 过程。
[0017] 在训练过程中,对于训练集的每个查询q,首先对它的每个相关序列d进行标注, 记为y,也就是进行排序,再对排序y建立特征向量X,然后对X进行学习,得到排序函数 f (X),如图2所示。在检测过程中,对于测试集中的查询q,首先对它的每个相关序列d进行 标注,记为y,再对排序y建立特征向量X,使用f(x)函数对特征向量排序,得到新的排序, 然后进行评估,如图3所示。
[0018] 具体地,首先假设存在一个蛋白质序列P,且存在一组基于排序策略的蛋白质同源 性检测的基方法R 1, R2, R3,…,Rn,其中,R1表示第一个基排序方法,R2表示第一个基排序方 法,…,R n表示第η个基排序,η为正整数。这里的基排序方法可以是已知的基于排序策略 的蛋白质同源性检测方法中的任意种。
[0019] 将蛋白质序列P作为查询序列输入到基排序方法Ri(l < i < η)中,并在数据库 中检索。将检索结果按照同源性降序排序,同源性高的排在前面,其过程可以简单地表示为 图4所示。其中,P 1, P2, P3,…,Pk是采用基排序方法R i在数据库检索到的同源蛋白质列表 (即共m个同源蛋白质,m为正整数),Vl,v2, V3,…,Vk是相应的同源相似性评分。列表按照 同源相似性评分降序排序。P 1是与P同源性最高的蛋白质,P2次之。以此类推,当将蛋白质 序列P作为查询序列输入到每个基排序方法,可以得到η个L 1, L2, L3,…,Ijf序列表,如图 5所示。每一个基排序方法检索出来的同源蛋白质列表都有相应的同源相似性评分,把得到 的同源性评分作为Learning to Rank的一个特征,组合成一个特征向量,结果如图6所示。 其中,P1, P2, P3,…,Pm是所有基排序检索结果列表的并集(指η个排序列表中去除重复者后 的合集,共m个)。是每个基排序检索结果的同源相似性评分,当V υ不存在时,设为默认 值,即同源相似性最小值。
[0020] 然后,根据 SCOP (Structural Classificat
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1