基于蛋白质序列数据的生物物种同源性分析方法与流程

文档序号:34236918发布日期:2023-05-24 22:59阅读:475来源:国知局
基于蛋白质序列数据的生物物种同源性分析方法与流程

本发明涉及生物物种同源性分析,尤其涉及一种基于蛋白质序列数据的生物物种同源性分析方法。


背景技术:

1、近年来,各种由病毒引发的疾病逐渐增多,在这种情况下,快速有效的对引起突发情况的生物物种进行同源性分析和物种判别具有重要作用,及时分析生物物种间的同源性和物种类别,对医药工作者研发对应的药物和抗体、政府相关部门应对疫情防控具有重要意义。

2、目前,对生物物种的判别和同源性分析,往往是通过进行生物医学实验和提取相关比对特征进行分析,需要耗费大量的时间和高昂的人力、物力、财力成本。在疫情防控时期,时间的持续往往意味着疾病的传播范围更广、防控难度更大、造成的经济社会损失更严重,现有检测方法不仅成本高、而且效率低下。

3、因此,现有技术中缺少一种基于蛋白质序列数据的生物物种同源性分析方法。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种基于蛋白质序列数据的生物物种同源性分析方法,用以解决现有检测方法成本高且效率低下的问题。

2、一方面,本发明实施例提供了一种基于蛋白质序列数据的生物物种同源性分析方法,包括:

3、获取x组生物物种的蛋白质序列,根据所述各组蛋白质序列中各种氨基酸出现频次和各氨基酸的物化性质,生成x组蛋白质序列的氨基酸频次信息向量和氨基酸物化性质平均值向量;

4、根据所述蛋白质序列中1~k字氨基酸出现的位置信息,生成x组氨基酸位置概率向量;当k≥2时,对各组所述氨基酸位置概率向量进行降维,得到降维后的氨基酸位置概率向量;k字氨基酸为k个指定连续的氨基酸,其中,1≤k≤k;

5、根据所述氨基酸频次信息向量、氨基酸物化性质平均值向量和所述降维后的氨基酸位置概率向量,计算每两组蛋白质序列的距离,根据所述距离的大小进行蛋白质序列同源性远近的分析。

6、进一步地,根据所述蛋白质序列中1~k字氨基酸出现的位置信息,生成x组氨基酸位置概率向量,包括:

7、对每组蛋白质序列均进行如下操作,从而得到x组氨基酸位置概率向量:

8、对蛋白质序列从1进行排序,并以k字氨基酸中第一个氨基酸对应的排序序号作为k字氨基酸的位置信息值;

9、依次计算各种k字氨基酸在蛋白质序列中出现的位置信息值之和其中,i为第i种k字氨基酸,1≤i≤20k;

10、通过各种k字氨基酸的位置信息值之和与蛋白质序列中所有氨基酸位置信息值之和的比值,获取各种k字氨基酸位置信息占比得到k字氨基酸位置概率向量dk,其中,1≤k≤k;

11、将1~k字氨基酸的位置概率向量d1~dk拼接成该组氨基酸的氨基酸位置概率向量v’d。

12、进一步地,所述氨基酸位置概率向量vd',表达为:

13、v’d=(d1,d2,…dk…,dk)

14、

15、

16、

17、

18、其中,k为k字氨基酸中连续氨基酸的数量,1≤k≤k;dk为k字氨基酸位置概率向量;为第i个k字氨基酸的位置信息占比;为第i 种k字氨基酸在蛋白质序列中出现的位置信息值之和,n为蛋白质序列中氨基酸的总数量。

19、进一步地,所述氨基酸位置概率向量v’d为m1维向量,其中, m1=20+202+…20k+…20k;

20、当k≥2时,对各组所述氨基酸位置概率向量进行降维得到降维后的氨基酸位置概率向量,包括:

21、将所述氨基酸位置概率向量进行零均值化处理,得到测量矩阵x′;

22、对所述测量矩阵x′的协方差矩阵s进行特征值分解,得到协方差矩阵 s的m1个特征值,并以降序排列,取前m个特征值对应的特征向量组成特征向量矩阵获取与特征向量矩阵对应的氨基酸位置概率向量vd;

23、vd为降维后得到的m维的氨基酸位置概率向量。

24、进一步地,所述生成x组蛋白质序列的氨基酸频次信息向量,包括:

25、对每组蛋白质序列均进行如下操作,从而得到x组蛋白质序列的氨基酸频次信息向量:

26、统计蛋白质序列中所述各种1字氨基酸出现的次数,通过各种氨基酸出现次数与所述蛋白质序列中氨基酸总数量的比值,得到所述氨基酸频次信息向量;所述氨基酸频次信息向量vf,表达为:

27、vf=(f1,f2,…,fi…,f20)

28、

29、

30、其中,fi为氨基酸出现的频次信息,ni为氨基酸出现的次数, n为蛋白质序列中氨基酸的总数量,为1字氨基酸中第i种氨基酸。

31、进一步地,所述生成x组蛋白质序列的氨基酸物化性质平均值向量,包括:

32、对每组蛋白质序列均进行如下操作,从而得到x组蛋白质序列的氨基酸物化性质平均值向量:

33、选取各种1字氨基酸的j种物化性质参数值,根据所述各种1字氨基酸物化性质参数值的最大值和最小值,将所述各氨基酸物化性质参数值进行标准化处理,得到各种氨基酸的标准化物化性质参数;

34、根据各种氨基酸的标准化物化性质参数及各种氨基酸出现的频次信息,计算各物化性质平均值,得到氨基酸物化性质平均值向量;所述氨基酸物化性质平均值向量vp,表达为:

35、

36、

37、

38、其中,为标准化物化性质数据,pji为第i种1字氨基酸的第j 种物化性质参数值,pab为第b种1字氨基酸的第a种物化性质参数值,为蛋白质序列中各物化性质平均值,fi为第i种1字氨基酸出现的频次信息,1≤j≤j。

39、进一步地,根据所述氨基酸频次信息向量、氨基酸物化性质平均值向量和氨基酸位置信息向量,构建不同蛋白质序列的数值化表示向量,所述数值化表示向量,表达为:

40、v=(vf,vd,vp)

41、其中,vf为氨基酸频次信息向量,vd为氨基酸位置信息向量,vp为氨基酸物化性质平均值向量。

42、进一步地,根据所述不同蛋白质序列的数值化表示向量,计算每两组蛋白质序列s和蛋白质序列t的距离d(s,t),所述两组蛋白质序列之间的距离d(s,t),表达为:

43、

44、其中,其中vs[q]和vt[q]分别为蛋白质序列s和蛋白质序列t的数值化表示向量中第q个相对应的元素,1≤q≤q,q=20+m+8,m为氨基酸位置概率向量vd的维数。

45、进一步地,当某一组未知生物物种蛋白质序列与某一组已知生物物种的蛋白质序列的距离小于距离阈值dth时,则所述未知生物物种与所述已知生物物种同源。

46、进一步地,当某一组未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列中的距离均大于距离阈值dth时,根据所述未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种。

47、与现有技术相比,本发明至少可实现如下有益效果之一:

48、1、本发明通过氨基酸出现的频率信息、氨基酸物化性质平均值信息及k字氨基酸位置概率信息的结合,可以全面准确的分析蛋白质序列,通过两条蛋白质序列之间距离的比较,可以更准确进行蛋白质同源性的分析;

49、2、本发明通过基于蛋白质序列数据的物种同源性比对分析方法,可以对物种的遗传信息进行快速归类,有利于相关医药工作者采取针对性方案;

50、3、基于生物蛋白质序列数据的生物物种同源性分析及物种判别方法与系统比传统方法大大减少了实验所需要的的时间,节省了人力、物力和财力成本。

51、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1