本公开实施例涉及生物信息学,尤其涉及一种基于图注意机制的肽序列标签鉴定方法。
背景技术:
1、在蛋白质组学中,基于肽序列标签的数据库搜索算法是de novo方法和数据库搜索算法的结合,是蛋白质组学中利用串联质谱数据鉴定蛋白质的关键技术。利用de novo方法得到局部肽序列,再利用该序列进行数据库搜索,最终确定蛋白质序列。
2、随着蛋白质组数据库的不断扩充和质谱数据量的急剧增加,需要鉴定的氨基酸序列数量也随之增多。目前,已有的鉴定方法已无法满足研究人员的需求。
3、目前存在着两种主要的蛋白质鉴定方法:基于数据库搜索和从头测序。然而,这些方法都存在一些缺陷。
4、数据库搜索方法:严重依赖于蛋白质数据库的正确性,无法鉴定出翻译后修饰的蛋白质,并且由于搜索空间大,计算时间很长。
5、从头测序方法:不依赖数据库,需要高质量的ms/ms谱,不能有效分辨图谱中信号模糊区域的x型离子和y型离子,可靠性较低。
6、肽序列标签方法:能有效地处理数据库规模过大和蛋白质的翻译后修饰等问题。不能根据每个实验谱信息生成准确的序列标签。
7、可见,亟需一种计算效率和适应性高的基于图注意机制的肽序列标签鉴定方法。
技术实现思路
1、有鉴于此,本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法,至少部分解决现有技术中存在计算效率和适应性较差的问题。
2、本公开实施例提供了一种基于图注意机制的肽序列标签鉴定方法,包括:
3、步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;
4、步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;
5、步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;
6、步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;
7、步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
8、根据本公开实施例的一种具体实现方式,所述步骤1具体包括:
9、步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;
10、步骤1.2,对于一个已知母体质量m的二级质谱图a中的质量峰值f,获取其质量顶点;
11、步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为m的两个顶点作为图的开始点和结束点;
12、步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;
13、步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到n条蛋白质长序列;
14、步骤1.6,通过裂解从n条蛋白质长序列中获取长度不定的候选肽序列标签集。
15、根据本公开实施例的一种具体实现方式,所述步骤2具体包括:
16、步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集t中的候选序列标签嵌入向量;
17、步骤2.2,将候选肽序列标签集t中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;
18、步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;
19、步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;
20、步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征。
21、根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
22、步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;
23、步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;
24、步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。
25、根据本公开实施例的一种具体实现方式,所述步骤3.3具体包括:
26、步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中,计算公式为xk2=f1×1(xk),f1×1(·)为卷积核大小为1x1的卷积层;
27、步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量其中,计算公式为xk3=fpool(fgroup(xk2)),fgroup(·)为分组卷积运算,fpool(·)为全局最大池化层,将特征向量xk3分为g组,每组特征中包含c2/g个特征,此时
28、步骤3.3.3,计算每对通道特征和的相关边,得到边集相关矩阵ec,从而构建通道相关图gc(vc,ec),然后利用图注意网络学习节点之间的相关性,得到特征其公式为xk4=gat(gc);
29、步骤3.3.4,将特征xk4和特征xk2相乘,然后将输出结果与特征xk2相加,得到最终结果特征xk2'作为蛋白质序列的组成相关性。
30、根据本公开实施例的一种具体实现方式,所述步骤4具体包括:
31、步骤4.1,调整标签注意力模块和通道注意力模块的输出特征大小,得到新的特征向量,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,得到肽标签关系特征;
32、步骤4.2,使用softmax函数对肽标签关系特征s在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征;
33、步骤4.3,通过两层全连接层,生成最终的预测向量作为肽序列标签,并使用交叉熵损失函数训练整个模型。
34、根据本公开实施例的一种具体实现方式,所述步骤5具体包括:
35、步骤5.1,根据母体质荷比初步搜索出符合质量的蛋白质,再将肽序列标签对应的肽标签按概率排序,选取前预设数量的肽标签,对其对应的蛋白质数据库进行筛选,得到含有肽标签的肽序列;
36、步骤5.2,将含有肽标签的肽序列作为理论质谱图,与预处理之后的实验质谱图计算匹配分值,得到二级质谱图对应的氨基酸序列,其中,所述匹配分值包括高强度匹配的峰值百分比、连续匹配序列长度和质量偏差;
37、步骤5.3,通过c-sore将匹配分值整合,取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。
38、根据本公开实施例的一种具体实现方式,所述连续匹配序列长度的计算公式为
39、
40、其中,cf是理论质谱图中的裂解信号总数,tf为两图中最长的序列匹配长度,length(p)为肽段长度;
41、所述质量偏差的计算公式为
42、
43、其中,t为最大的质量偏差,md是用来计算峰值p与其对应离子之间质量偏差的计算函数;
44、所述c-sore将匹配分值整合的公式为
45、
46、其中,sh为高强度匹配的峰值百分比。
47、本公开实施例中的基于图注意机制的肽序列标签鉴定方案,包括:步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
48、本公开实施例的有益效果为:1.通过对二级质谱文件进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签;利用标签注意力模块提取候选序列标签之间的顺序相关性;通过卷积神经网络模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;将两个注意力模块有效融合,构建完整的标签分类模型,从而生成肽序列标签;利用肽标签在蛋白质数据库中进行搜索获得相关蛋白质序列,对理论质谱图和实验质谱图进行匹配打分,得到二级质谱对应的氨基酸序列;
49、2.利用标签注意力模块自动构建标签关系矩阵,从训练数据中有效地提取候选序列标签之间的顺序相关性,显式地建立标签之间的相关性;利用通道注意力模块获取增强的串联质谱数据特征,可以隐含地捕获标签之间的相关性,增强蛋白质序列组成之间的相关性。
50、3.采用改进的图注意力网络,它使用图注意网络生成一种基于稀疏矩阵操作的gat层。这种gat层通过自注意操作来计算自注意系数,并采用msa扩展子空间的探索能力,使存储复杂度降低至节点和边的线性级别。这让gat模型能够在更大的图数据集上执行,有效缓解通过人工构建训练标签的邻接矩阵存在的缺陷。