氨基酸序列特征提取方法、装置、存储介质及电子设备与流程

文档序号:14836175发布日期:2018-06-30 12:30阅读:来源:国知局
氨基酸序列特征提取方法、装置、存储介质及电子设备与流程

技术特征:

1.一种氨基酸序列特征提取方法,其特征在于,所述方法包括:

获取待进行特征提取的氨基酸序列;

确定所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;

确定每种预设氨基酸在[-S,S]分数区间内的得分分布;

合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。

2.根据权利要求1所述的方法,其特征在于,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:

针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。

3.根据权利要求1所述的方法,其特征在于,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:

设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述M种预设氨基酸为20种天然氨基酸。

5.一种氨基酸序列特征提取装置,其特征在于,所述装置包括:

获取模块,用于获取待进行特征提取的氨基酸序列;

第一确定模块,用于确定所述获取模块获取到的所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;

第二确定模块,用于确定每种预设氨基酸在[-S,S]分数区间内的得分分布;

合并模块,用于合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。

6.根据权利要求5所述的装置,其特征在于,所述第二确定模块用于:

针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。

7.根据权利要求5所述的装置,其特征在于,所述第二确定模块用于:

设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:

8.根据权利要求5-7中任一项所述的装置,其特征在于,所述M种预设氨基酸为20种天然氨基酸。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:

权利要求9中所述的计算机可读存储介质;以及

一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1