一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法

文档序号:34376017发布日期:2023-06-07 22:49阅读:68来源:国知局
一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法

本发明属于质谱检测领域,具体涉及到一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法。


背景技术:

1、随着高通量质谱技术的发展,蛋白质的翻译后修饰位点的信息呈现出指数型增长的趋势,随着蛋白质的翻译后修饰相关数据库的快速发展与更新,各种计算模型使得蛋白质的翻译后修饰位点的预测更加便捷。

2、但在,蛋白质翻译后修饰功能串扰的预测方面,现有的预测模型发展缓慢。少数的几个翻译后修饰功能串扰预测模型也只使用了蛋白质的翻译后修饰位点的序列信息及少量的结构信息。

3、目前,蛋白质的翻译后修饰位点的序列演化性质在翻译后修饰功能串扰模型中应用较多,但是缺少对蛋白质翻译后修饰位点结构拓扑和动力学性质等生物物理特征的考虑。另一方面,蛋白质翻译后修饰的功能串扰是在蛋白质-蛋白质互作网络中发生的,但现有的少数预测模型并未考虑蛋白质-蛋白质互作的信息。


技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述和/或现有技术中存在的问题,提出了本发明。

3、因此,本发明的目的是,克服现有技术中的不足,提供一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法。

4、为解决上述技术问题,本发明提供了如下技术方案:一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法,包括,

5、从phosphositeplus、iptmnet、epsd及cplm数据库获取蛋白质序列及翻译后修饰位点信息;

6、从uniprot、aphafold数据库获取蛋白质序列和结构数据信息;

7、构建蛋白质翻译后修饰功能串扰预测模型,利用该预测模型对蛋白质翻译后修饰位点功能串扰信息进行预测;其中,

8、构建蛋白质翻译后修饰功能串扰预测模型,包括,构建第一子网、构建第二子网和构建第三子网,其中,

9、构建第一子网:通过计算翻译后修饰位点的序列、结构及动力学特征信息,构建由蛋白质的翻译后修饰位点残基的特征构成的一个特征集矩阵,即为第一子网;

10、构建第二子网:对蛋白质-蛋白质互作信息进行结构深层网络嵌入,对翻译后修饰串扰网络进行线性图变分自编码器计算,得到特征向量;

11、构建第三子网:对前两个子网的位点特征和网络特征进行特征融合,经过随机森林模型对翻译后修饰串扰给出预测打分。

12、作为本发明所述预测方法的一种优选方案,其中:所述构建第一子网,包括,

13、计算蛋白质翻译后修饰位点残基的序列特征;

14、计算蛋白质翻译后修饰位点残基的结构和动力学特征;

15、将得到蛋白质翻译后修饰位点残基的序列、结构及动力学特征后,将序列特征向量与结构动力学特征相乘后展平成一维特征向量fp,使用全连接神经网络模型对提取的特征fp进行预处理,得到每个蛋白质翻译后修饰位点残基的特征向量tw 28维。

16、作为本发明所述预测方法的一种优选方案,其中:所述计算蛋白质翻译后修饰位点残基的序列特征,包括,

17、从uniprot数据库获取蛋白质的序列数据信息,并通过同源序列搜索获得多序列比对,计算蛋白质翻译后修饰位点残基的保守性和共演化信息;

18、其中,保守性香农熵计算公式如下:

19、

20、i表示所有序列中翻译后修饰位点残基的位置,表示的概率函数;

21、共演化信息计算的互信息矩阵是基于香农熵,测量给定随机变量y下随机变量x的不确定度,其公式如下:

22、mi(x,y)=h(x)-h(x|y)=h(x)+h(y)-h(x,y)

23、其中,h(x)是香农熵,h(x|y)=h(x,y)-h(y),h(x,y)是两个随机变量的香农熵,其公式如下:

24、

25、其中,表示在序列i位置观察到氨基酸x的概率,表示在相应序列位置i和j观察到氨基酸x和y的联合概率,k和l均表示蛋白质氨基酸的序列长度。

26、作为本发明所述预测方法的一种优选方案,其中:所述计算蛋白质翻译后修饰位点残基的结构和动力学特征,包括,

27、首先从alphafold数据库获取蛋白质的结构数据信息,使用蛋白质侧链网络计算蛋白质翻译后修饰位点残基的三维结构的网络特征,并使用粗粒化网络模型计算其一系列的动力学特性;其中,

28、在蛋白质侧链网络计算中通过使用氨基酸残基的cα原子作为节点来构建蛋白质侧链网络:

29、如果至少有一个侧链原子对在截止距离内,则在节点对之间用边连接,节点间相互作用强度计算如下:

30、

31、其中,iij是残基i和j之间的相互作用强度,nij是截止距离内的原子对的数量,ni、nj是残基i和j的归一化值;

32、在构建好蛋白质侧链网络的基础上,计算蛋白质翻译后修饰位点残基的拓扑特征介数:

33、节点介数是指通过节点的所有最短路径与网络中最短路径总数之比,其公式如下:

34、

35、其中njk是连接蛋白质侧链网络中任意节点j和节点k的最短路径数,而njk(i)是连接节点j和节点k并通过节点i的最短路径数,反映了节点在特定网络拓扑中位置的重要程度,能有效区分模块的内外边;

36、计算蛋白质翻译后修饰位点残基的拓扑特征紧密度:紧密度表征了局部度量,反映了节点自身的关联能力,不考虑其他节点的控制问题,其公式如下:

37、

38、其中,d(i,j)表示蛋白质侧链网络中节点j到任意节点i的路径;

39、在粗粒化网络模型计算中,粗粒化网络模型中蛋白质残基的波动服从高斯分布,节点代表蛋白质残基,每个残基均由其碳原子表示,边代表残基之间的相互作用;如果残基之间的距离小于截止距离rc,则将残基连接起来,通常rc取

40、残基间的相互作用势能,公式如下:

41、

42、其中υij为力常数,δrij为残基i,j之间的波动;

43、在构建好粗粒化网络模型的基础上,计算蛋白质翻译后修饰位点残基的波动性大小,公式如下:

44、<(δri)2>=<δri·δri>=(3kbt/γ)[γ-1]ii

45、其中kb为玻尔兹曼常数,t代表绝对温度,[γ-1]ii为基尔霍夫矩阵的倒数;

46、计算蛋白质翻译后修饰位点残基的动力学性质互相关性:互相关性提供了残基之间相对运动的信息,相关性的归一化形式如下:

47、

48、其中,δri表示第i个残基从其平衡位置的位移的向量;

49、

50、其中μik是第k个特征向量的第i个残基,λk是第k个特征值,n是目标残基的数量;cij的值介于-1和1之间,cij的绝对值越大,表示两个残基之间的相关性越高。

51、作为本发明所述预测方法的一种优选方案,其中:所述预处理得到每个蛋白质翻译后修饰位点残基的特征向量tw(28维),包括,

52、给每一个输入向量fp分配权值,计算出一个权重向量tw(28维);

53、tw公式如下:

54、tw=mt×fp+b

55、其中,m是线性网络中的权值向量,fp是展平处理后的蛋白质序列结构动力学特征向量,b是权和偏置向量,mt是指m向量的转置向量。

56、作为本发明所述预测方法的一种优选方案,其中:所述构建第二子网,包括,

57、使用基于图形和统计特征的蛋白质序列编码工具fegs对蛋白质序列进行编码,通过整合蛋白质序列的图形和统计特征,得到500维向量作为每个蛋白质序列的特征向量;

58、利用图编码工具sdne对蛋白质-蛋白质互作信息进行编码,将生成的蛋白质序列编码的特征作为蛋白质-蛋白质互作网络各节点的特征,得到每个蛋白质的特征矩阵xi(120维);

59、将翻译后修饰功能串扰对形成一个加权的无向图,其中,将每个蛋白质对之间的翻译后修饰功能串扰数作为无向图中边的权重;

60、结合来自蛋白质-蛋白质互作和蛋白质序列编码的特征矩阵,加入翻译后修饰功能串扰的图嵌入层,并使用图编码方式linear_vae来提高对翻译后修饰功能串扰的预测效果,得到的特征向量称为tpair。

61、作为本发明所述预测方法的一种优选方案,其中:所述利用图编码工具sdne对蛋白质-蛋白质互作信息进行编码,包括,

62、首先,根据从aaindex数据库中选择的氨基酸的理化指标:

63、aaindex是代表氨基酸和氨基酸对的各种物理化学和生化性质的数据库,一组20个值,代表20个氨基酸不同的物理化学性质,这20个氨基酸被定位在三维空间的20个点上;通过扩展基于右锥体的三维蛋白质路径,构建每个蛋白质序列的图形曲线;

64、根据理化指标的递增顺序,将20种氨基酸进行了分类,i表示该指数下的氨基酸数量,每个指标下的氨基酸数量不同,根据指标数将出现不同的锥形图;

65、根据以下公式,将20个氨基酸排列在一个高度为1的右锥体底部的圆圈中:

66、

67、其中,ωi代表20个氨基酸中的每一个;

68、然后,所有氨基酸对通过以下方程式映射到右锥体的底部:

69、

70、ωiωj对应于氨基酸对中的一个;

71、假设给定了一个含有n个氨基酸的蛋白质序列,则使用根据上述右锥体构建的三维蛋白质路径作为其三维图形曲线:从起点p0(0,0,0)开始,在3d空间中延伸到第一个氨基酸s1点p1(x1,y1,z1),然后延伸到第二个氨基酸s2点p2(x2,y2,z2),最后一个氨基酸sn点pn(xn,yn,zn),从而获得3d蛋白质路径p;

72、对于蛋白质中的氨基酸si,三维坐标pi(xi,yi,zi)由下方公式确定:

73、

74、其中ψ(s0)=(0,0,0),fω1ω2是蛋白质序列第一个i氨基酸的子序列中氨基酸对的频率;

75、选定的理化性质指数对应于一个唯一的右锥体,最终得到对应于不同氨基酸理化性质的每个蛋白质序列的三维图形曲线;

76、在获得蛋白质序列的图形表示之后,将图形转换为数字特征来分析蛋白质序列:

77、首先,通过锥图将其表示为m*m的非负对称矩阵,其中m表示蛋白质的序列长度,其中mij定义为两点pi和pj之间的欧氏度量和以及pi和pj之间的几何长度的商;

78、然后利用矩阵m的主要特征值作为矩阵的代表特征,可以有效地将蛋白质序列描述为图形特征;

79、由于80个索引用于生成80条图形曲线,因此获得了80维特征向量vg作为蛋白质序列的图形特征:

80、vg=[λ1,λ2,…,λ80]

81、除了上述图像特征外,使用两种常见的统计特征,氨基酸组成aac和二肽组成dpc;

82、aac是20个标准氨基酸的给定蛋白质序列的定量统计,可表示为以下公式:

83、va=[f1,f2,...,f20]

84、fi代表蛋白质序列中第i个氨基酸的标准化频率;

85、dpc表示蛋白质序列中400个氨基酸对的频率,该序列由400维向量组成,如下式所示:

86、vd=[f1,f2,...,f400]

87、fj代表氨基酸组合{aa、ac、ad…yy}中j氨基酸对的频率;

88、通过拼接vg、va和vd,得到500维特征向量vs作为蛋白质s的特征向量;

89、假设此时给出n个蛋白质序列,通过上述特征计算得到n*500特征矩阵:

90、vs=vg+va+vd。

91、作为本发明所述预测方法的一种优选方案,其中:所述构建第三子网,包括,

92、将第一子网获得的特征集矩阵记为tw;

93、将第二子网获得的特征集矩阵记为tpair;

94、输入tw和tpair计算双线性特征,双线性特征计算公式为:

95、fb=tw×tpair

96、其中,fb表示双线性特征;

97、随后将fb展平为一维向量fc,将其传入预测模型,计算串扰的预测分数,其中,预测模型为:

98、

99、其中,wc是分类模型的权重矩阵,类似于softmax函数的权重矩阵。

100、本发明有益效果:

101、(1)本发明首次将翻译后修饰位点的结构拓扑特征、动力学特征及、蛋白质-蛋白质互作图信息及翻译后修饰串扰图信息运用到深度学习网络模型中,对翻译后修饰功能串扰进行打分预测,具有重要意义;随着翻译后修饰功能数据的不断累积,对翻译后修饰构建功能串扰预测模型将会获得更加理想的效果。该模型能够促进对翻译后修饰功能串扰的研究,加深翻译后修饰在疾病中的分子机制研究,为精准医疗及药物设计提供丰富的可靶空间。

102、(2)本发明在引入动力学特征及蛋白质-蛋白质互作图特征等基于生物物理特征的基础上,整合全连接网络模型、图嵌入模型及随机森林模型,构建一个主动学习的翻译后修饰功能串扰的预测模型;

103、相比于其它翻译后修饰功能串扰模型具有较高的预测准确性;

104、首次阐释了功能性翻译后修饰功能串扰对具有较高的动力学波动性及显著差异的网络拓扑性质;

105、构建的预测模型能够对翻译后修饰的功能串扰进行打分,极大地促进了翻译后修饰的功能研究。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1