一种小分子肽阿胶的多肽谱匹配数据分析方法及系统与流程

文档序号:39776460发布日期:2024-10-25 13:59阅读:91来源:国知局
一种小分子肽阿胶的多肽谱匹配数据分析方法及系统与流程

本发明涉及蛋白质数据分析领域,更具体地说,它涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。


背景技术:

1、阿胶主要成分为蛋白质(约80%),但蛋白质的消化吸收需要蛋白酶参与降解,随着现代生物工程技术的发展,目前采用生物仿生酶解法可获得阿胶酶解物,即阿胶蛋白肽,为了确保肽阿胶产品的质量和纯度,需要对阿胶蛋白肽中所含的具体蛋白质成分进行鉴定,为了准确地鉴定阿胶蛋白肽中所有的蛋白质种类,需要在进行鉴定之前,将不同类型的蛋白质分离出单个,然后对分离出的多个蛋白质单独进行鉴定。

2、目前常见的蛋白鉴定方法是,通过多肽谱数据与已知蛋白质数据库进行比对,对多肽谱数据中的肽段和蛋白质进行鉴定,但是传统的蛋白鉴定方法通常采用确定性的规则或评分函数,这种使用单一的固定规则或评分函数往往无法充分适应所有情况,难以适应复杂多变的质谱数据特征,导致对多肽谱数据对应的蛋白质进行识别的结果准确性低,并且进行蛋白鉴定的检测手段容易重复,不是最优的检测方式。


技术实现思路

1、本发明提供一种小分子肽阿胶的多肽谱匹配数据分析方法及系统,解决上述背景技术中提出的技术问题。

2、本发明提供了一种小分子肽阿胶的多肽谱匹配数据分析方法,包括以下步骤:

3、步骤101,获取历史蛋白鉴定数据和理论质谱蛋白质数据库,历史蛋白鉴定数据包括多肽谱数据、酶解信息,多肽谱数据包括肽段的质荷比值、丰度和碎裂模式下的b/y离子的质荷比值、丰度,酶解信息包括使用的酶种类,每一种酶均对应有特定的酶切位点、酶解时间和条件;

4、步骤102,基于历史蛋白质数据构建策略网络模型,策略网络模型的输入是综合特征向量,输出是在当前状态下的动作;

5、步骤103,执行策略网络模型输出的动作,将动作应用到新的蛋白质,得到新的多肽谱数据,根据得到的新的多肽谱数据分析获得对应的蛋白鉴定结果。

6、在一个优选的实施方式中,在步骤101中,对历史蛋白鉴定数据进行去噪处理,去除噪声和低质量的峰值;对质荷比值和丰度进行归一化处理,以确保数据在统一的尺度上;对实验质谱数据和理论质谱数据进行峰值对齐,确保相同的肽段在不同谱图中的峰值能够匹配;提取历史多肽谱数据,将每个肽段及其碎裂产物的质荷比值、丰度和碎裂产物的类型作为特征。

7、在一个优选的实施方式中,策略网络模型包括:

8、状态空间的定义:

9、酶解信息:使用的酶的种类;

10、多肽谱数据:肽段的质荷比值、丰度、碎裂模式下的b/y离子的质荷比和丰度;

11、已鉴定肽段序列:已确认的肽段序列及其在蛋白质中的位置;

12、数据库查询状态:与已知数据库匹配的肽段数量、匹配程度、匹配上的肽段覆盖度;

13、资源消耗:已用时间、试剂消耗;

14、将酶解信息、多肽谱数据、已鉴定肽段序列、数据库查询状态和资源消耗信息编码后串联拼接成一个综合特征向量。

15、在一个优选的实施方式中,策略网络模型包括:动作空间的定义:

16、选择酶解策略:选择特定的酶;

17、质谱参数调整:调节扫描范围、分辨率、碎裂模式、碎裂能量;

18、数据库查询:选择查询的数据库、设置搜索参数;

19、实验流程控制:决定是否继续酶解、重复质谱分析、改变实验方向。

20、在一个优选的实施方式中,策略网络模型包括:建立策略网络模型输出动作的奖励函数,奖励目标是选择最优的酶解策略、质谱参数设置和数据库查询方法,最大化鉴定的准确性和效率,奖励函数如下:

21、若鉴定出的蛋白质与真实蛋白质完全匹配时给予的奖励:

22、r1=+100

23、若鉴定出的蛋白质与真实蛋白质部分匹配时给予的奖励:

24、

25、其中,coveragecurrent表示当前鉴定的肽段覆盖率,coveragemax表示最大覆盖率;

26、每增加1%的肽段覆盖率的奖励为:

27、r3=+0.5

28、资源效率奖励的计算公式:

29、

30、其中,resourcepreset表示预设资源阈值,resourceused表示实际消耗资源;

31、错误鉴定扣除的奖励为:

32、r5=-50

33、超出资源预算,每超出10%扣除的奖励为:

34、r6=-10

35、重复无效操作扣除的奖励为:

36、r7=-1

37、探索的奖励为:

38、r8=+2

39、持续学习的奖励为:

40、r9=+1

41、总奖励的计算公式为:

42、rtotal

43、=r1·i1+r2·i2+r3·i3+r4·i4-r5·i5-r6·i6-r7·i7+r8·i8+r9·i9

44、

45、其中,rtotal表示总奖励,r1表示蛋白质与真实蛋白质完全匹配时获得的奖励值,r2表示蛋白质与真实蛋白质部分匹配时获得的奖励值,r3表示每增加1%的肽段覆盖率获得的奖励值,r4表示资源低于预设阈值的一定比例完成鉴定获得的奖励值,r5表示鉴定出的蛋白质与真实不符时获得的惩罚值,r6表示超过预设资源阈值时获得的惩罚值,r7表示重复无效操作时获得的惩罚值,r8表示探索获得的奖励值,r9表示持续学习获得的奖励值,coveragecurrent表示当前鉴定的肽段覆盖率,coveragemax表示理论最大覆盖率,resourcepreset表示预设资源阈值,resourceused表示实际消耗资源,i1、i2、i3、i4、i5、i6、i7、i8、i9分别表示第1、2、3、4、5、6、7、8、9个条件系数。

46、在一个优选的实施方式中,策略网络模型:包括输入层、第一隐藏层、第二隐藏层和输出层;

47、将综合特征向量输入到输入层中,输入层将综合特征向量输出到第一隐藏层,生成第一中间特征向量,第一隐藏层输出第一中间特征向量到第二隐藏层中,生成第二中间特征向量,第二隐藏层将第二中间特征向量输出到输出层,生成动作向量,动作向量映射获得在当前状态下执行相应动作的概率。

48、在一个优选的实施方式中,第一隐藏层的计算公式为:

49、z1=w1x+b1

50、h1=f(z1)

51、其中,h1表示第一中间特征向量,f表示relu激活函数,z1表示综合特征向量经过线性变换后的结果,x表示综合特征向量,w1表示第一权重矩阵,b1表示第一偏置项;

52、第二隐藏层的计算公式为:

53、z2=w2h1+b2

54、h2=f(z2)

55、其中,h2表示第二中间特征向量,f表示relu激活函数,z2表示第一中间特征向量经过线性变换后的结果,h1第一中间特征向量,w2表示第二权重矩阵,b2表示第二偏置项;

56、输出层的计算公式为:

57、z3=w3h2+b3

58、

59、其中,z3表示动作特征,w3表示第三权重矩阵,h2表示第二中间特征向量,b3表示第三偏置项,yi表示在当前状态下执行第i个动作的概率,表示动作特征向量中第i个分量,表示动作特征向量中第j个分量,且i,j∈n,n表示所有可执行动作的数量,e表示自然常数。

60、策略网络模型第h次输入综合特征向量,然后输出第h+1次水解蛋白质质谱分析的动作;

61、第一次水解蛋白质质谱分析的动作来源于人工经验或同类蛋白质质谱分析使用的历史参数,h=0时,综合特征向量来源于第一次水解蛋白质质谱分析后的数据;

62、策略网络模型根据前述的方法不断的迭代生成动作,当达到任意一个终止条件是停止生成动作的步骤,终止条件包括:

63、生成的动作的次数达到设定的上限值;例如20次;

64、肽段覆盖率达到设定的率值;例如96%,一般来说该率值需要设置为大于85%。

65、在一个优选的实施方式中,策略网络模型的损失函数为ppo中的clip loss或a3c的策略损失函数。

66、一种小分子肽阿胶的多肽谱匹配数据分析系统,包括以下模块:

67、数据采集模块,用于获取历史蛋白鉴定数据和理论质谱蛋白质数据库;

68、流程优化模块,用于构建策略网络模型,输出在当前状态下应采取的最佳酶解策略和质谱参数配置;

69、多肽谱数据分析与鉴定模块,用于根据得到的新的多肽谱数据分析获得对应的蛋白鉴定结果。

70、一种存储介质,其存储了非暂时性计算机可读指令,当非暂时性计算机可读指令由计算机执行时,能够执行如上述的一种小分子肽阿胶的多肽谱匹配数据分析方法中的步骤。

71、本发明的有益效果在于:本发明的分析方法通过整合历史数据、构建智能决策模型,并利用策略网络进行动态调整,为复杂样品中蛋白质的高效、精确鉴定提供了一种新方法,不仅提高了鉴定的科学性,还加速了研究进程,尤其是在处理像阿胶这样的含有多种复杂成分的样品时效果更佳。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1