本发明涉及生物,具体涉及一种镜像肽段质谱图对识别方法。
背景技术:
1、在基于质谱技术的蛋白质组学研究中,肽从头测序方法以其灵活性和高效性得到了广泛的关注,然而从头测序的精度受质谱数据质量尤其是离子覆盖率低的限制。镜像酶技术是解决离子覆盖率低的常用手段。镜像酶切指用两种酶分别在同一个氨基酸的c端和n端进行酶切,产生分别以该氨基酸开头和结尾、且中间序列相同的肽段,这样的肽段在质谱中表现出互为镜像的特征,因而称为镜像肽段,对应的两张谱图称为镜像谱图对。
2、对于常见的分开打谱,其关键在于识别哪些是镜像谱图对。当前主流的镜像谱图对识别方法是对肽段进行预测序,再匹配序列互为镜像的谱图对,这类方法的准确性很大程度上依赖于预测序结果的准确性,而且测序所消耗的时间成本也是不可忽视的。因此,研究不依赖于序列的镜像谱图对识别算法是很有必要的。同时,镜像谱图对识别结果可以帮助实现部分谱图的碎片离子峰完整化覆盖和离子种类辨识,从而发展出更准确的肽从头测序方法。
技术实现思路
1、本发明提供一种镜像肽段质谱图对识别方法,不需要预测序,即可准确识别镜像肽段质谱图对,提高识别效率。
2、为此,本发明提供如下技术方案:
3、一种镜像肽段质谱图对识别方法,所述方法包括:
4、获取分别通过成对镜像酶酶切得到的两组质谱图,生成谱图对集;
5、从所述谱图对集中筛选候选镜像谱图对,得到候选镜像谱图对列表;
6、直接利用谱图对间的信息差异计算所述候选镜像谱图对列表中每对候选镜像谱图对的匹配度得分;
7、根据所述候选镜像谱图对的匹配度得分确定镜像谱图对。
8、可选地,所述成对镜像酶包括:任意成对的镜像酶,或者任意成对镜像酶的组合。
9、可选地,所述从所述谱图对集中筛选候选镜像谱图对,得到候选镜像谱图对列表包括:
10、对所述谱图对集中的每对谱图对,计算所述谱图对的母离子质量差;
11、如果所述母离子质量差在理论质量差设定的误差范围内,则将该对谱图对作为候选镜像谱图对。
12、可选地,所述方法还包括:在计算所述候选镜像谱图对列表中每对候选镜像谱图对的匹配度得分之前,对所述候选镜像谱图对进行预处理。
13、可选地,所述预处理包括以下任意一种或多种:去同位素峰并转换为单电荷、去失水失氨峰、去亚胺离子峰、去噪音峰、谱峰强度归一化、生成互补离子峰。
14、可选地,所述谱图对间的信息差异包括:碎片离子谱峰质荷比差异、母离子质量差异;
15、所述直接利用谱图对间的信息差异计算所述候选镜像谱图对列表中每对候选镜像谱图对的匹配度得分包括:
16、利用碎片离子谱峰质荷比差异和母离子质量差异计算候选镜像谱图对的匹配度得分。
17、可选地,所述利用碎片离子谱峰质荷比差异和母离子质量差异计算候选镜像谱图对的匹配度得分包括:
18、将所述碎片离子谱峰质荷比差异均匀分成多个小区间,统计落在每个小区间内的碎片离子强度和、以及碎片离子对数目,并将每个区间的所述碎片离子强度和与所述碎片离子对数目相乘作为该区间的质量差统计量;
19、根据所述质量差统计量和所述母离子质量差异计算候选镜像谱图对的统计打分;
20、根据所述候选镜像谱图对的统计打分确定候选镜像谱图对的匹配度得分。
21、可选地,所述根据所述质量差统计量和所述母离子质量差异计算候选镜像谱图对的统计打分包括:
22、根据所述母离子质量差异确定碎片离子理论质量差所在的一个或多个区间;
23、计算所述碎片离子理论质量差所在区间的所述质量差统计量的最大值,并将所述最大值在全部区间所述质量差统计量中的排名值作为候选镜像谱图对的统计打分;或者
24、由全部区间所述质量差统计量的分布计算所述碎片离子理论质量差所在区间的最小e-value值作为候选镜像谱图对的统计打分。
25、可选地,所述谱图对间的信息差异还包括:保留时间差异;
26、所述方法还包括:
27、在从所述谱图对集中筛选候选镜像谱图对之前,对所述谱图对集中的每对谱图对,计算所述谱图对的保留时间差异;
28、去除候选镜像谱图对列表中谱图对间所述保留时间差异大于设定的时间阈值的候选镜像谱图对。
29、可选地,所述信息差异包括:碎片离子谱峰质荷比差异、母离子质量差异、保留时间差异;
30、所述直接利用谱图对间的信息差异计算所述候选镜像谱图对列表中每对候选镜像谱图对的匹配度得分包括:
31、将候选镜像谱图对的碎片离子质量和强度、母离子质量、碎片离子谱峰质荷比差异、母离子质量差异、保留时间差异输入人工构造的或基于机器学习训练得到的匹配度识别模型,得到所述候选镜像谱图对的匹配度得分。
32、可选地,所述根据所述候选镜像谱图对的匹配度得分确定镜像谱图对包括:
33、筛选匹配度得分大于设定匹配度阈值的候选镜像谱图对作为镜像谱图对。
34、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行前面所述镜像肽段质谱图对识别方法的步骤。
35、本发明提供的镜像肽段质谱图对识别方法,获取分别通过成对镜像酶酶切得到的两组质谱图,生成谱图对集,然后从谱图对集中筛选出候选镜像谱图对列表;然后计算候选镜像谱图对列表中每对候选镜像谱图对的匹配度得分;根据候选镜像谱图对的匹配度得分确定镜像谱图对。由于候选镜像谱图对匹配度得分的计算只与谱图本身所提供的信息有关,不依赖于其他软件的预测序结果,因此,不仅可以提高识别效率,节省时间成本;而且还有效提高了识别结果的准确性。
1.一种镜像肽段质谱图对识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述成对镜像酶包括:任意成对的镜像酶,或者任意成对镜像酶的组合。
3.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述从所述谱图对集中筛选候选镜像谱图对,得到候选镜像谱图对列表包括:
4.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的镜像肽段质谱图对识别方法,其特征在于,所述预处理包括以下任意一种或多种:去同位素峰并转换为单电荷、去失水失氨峰、去亚胺离子峰、去噪音峰、谱峰强度归一化、生成互补离子峰。
6.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述谱图对间的信息差异包括:碎片离子谱峰质荷比差异、母离子质量差异;
7.根据权利要求6所述的镜像肽段质谱图对识别方法,其特征在于,所述利用碎片离子谱峰质荷比差异和母离子质量差异计算候选镜像谱图对的匹配度得分包括:
8.根据权利要求7所述的镜像肽段质谱图对识别方法,其特征在于,所述根据所述质量差统计量和所述母离子质量差异计算候选镜像谱图对的统计打分包括:
9.根据权利要求6至8任一项所述的镜像肽段质谱图对识别方法,其特征在于,所述谱图对间的信息差异还包括:保留时间差异;
10.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述信息差异包括:碎片离子谱峰质荷比差异、母离子质量差异、保留时间差异;
11.根据权利要求1所述的镜像肽段质谱图对识别方法,其特征在于,所述根据所述候选镜像谱图对的匹配度得分确定镜像谱图对包括:
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至11中任一项所述镜像肽段质谱图对识别方法的步骤。