一种免疫原性肽呈递的预测方法、系统、装置及存储介质与流程

文档序号:35958647发布日期:2023-11-08 20:48阅读:25来源:国知局
一种免疫原性肽呈递的预测方法、系统、装置及存储介质与流程

本发明涉及生物信息处理,尤其涉及一种免疫原性肽呈递的预测方法、系统、装置及存储介质。


背景技术:

1、在生物体内,由蛋白质合成出来的多肽链需被剪切为小的肽段才能发挥它们的生物学功能,这涉及到复杂的酶解和加工过程。其中,免疫原性肽是一类能够引起免疫应答的的肽段。这些肽段可以与主要组织相容复合体(mhc)分子结合,再被呈递到细胞表面,由此激活t细胞并引发免疫反应,如抗体产生、细胞毒性t淋巴细胞介导的杀伤作用。mhc分子是一类位于细胞膜表面的受体,它能够结合和呈递来自内源或外源的抗原肽段。能够被mhc呈递到细胞表面的肽段才有可能被t细胞识别,因此预测mhc ii类免疫原性肽的呈递是研究免疫学、疫苗设计等方面的关键问题。

2、实验方法常用质谱法、elispot法、淋巴细胞增殖试验等技术来预测免疫原性肽段,需要昂贵的实验设备和耗材,成本较高,通常需要数周到数月的时间分析样品,对样品的纯度和数量有一定的要求。目前深度学习、机器学习模型都存在局限性,仅能预测肽段与mhc的结合,无法有效预测肽段的呈递,而免疫原性肽还需要满足其他特定要求才能呈递给t细胞。例如,它们必须具有特定长度和氨基酸序列,以及适当的空间构象等,以便被t细胞受体识别。此外,许多细胞会通过不同的机制来调节免疫原性肽的呈递,以避免无意识地引发自身免疫反应或过度的免疫应答。


技术实现思路

1、有鉴于此,本发明实施例的目的是提供一种免疫原性肽呈递的预测方法、系统、装置及存储介质,能够更精准、快速地预测免疫原性肽的呈递。

2、一方面,本发明实施例提供了一种免疫原性肽呈递的预测方法,包括以下步骤:

3、将免疫原性肽段、上游氨基酸序列和下游氨基酸序列输入到训练好的剪切预测模型,提取肽段剪切特征;

4、将所述免疫原性肽段输入到训练好的预训练蛋白语言模型,提取肽段氨基酸序列特征;

5、将所述免疫原性肽段和主要组织相容复合体等位基因序列输入到训练好的结合预测模型,提取所述免疫原性肽段与主要组织相容复合体的结合特征;

6、将所述肽段剪切特征、所述肽段序列特征和所述结合特征进行融合,得到融合特征,并将所述融合特征输入到呈递预测模型,得到呈递预测结果。

7、可选地,用于模型训练的样本数据通过以下步骤获得:

8、通过第一公开数据库获取免疫原性肽数据样本,并将所述免疫原性肽数据进行清洗,所述免疫原性肽数据包括若干个免疫原性肽段氨基酸序列样本、对应的主要组织相容复合体等位基因名称和对应的蛋白名称;

9、通过第二公开数据库获取若干个主要组织相容复合体等位基因的氨基酸全长序列样本;

10、通过第三公开数据库获取若干个蛋白的氨基酸全长序列样本。

11、可选地,所述免疫原性肽数据的清洗过程如下:

12、将长度不在人类肽段长度范围内的免疫原性肽以及重复的免疫原性肽剔除。

13、可选地,所述剪切预测模型的训练过程如下:

14、将清洗后的免疫原性肽数据中无全长蛋白对应的肽段剔除,得到第一正样本肽段;

15、在蛋白系列中随机截取人类肽段长度的氨基酸序列,若截取的氨基酸序列不属于所述第一正样本肽段,将截取的氨基酸序列作为第一负样本肽段;

16、截取所述第一正样本肽段的上游和下游的第一类氨基酸序列,截取所述第一负样本肽段的上游和下游的第二类氨基酸序列;

17、将所述第一正样本肽段、所述第一负样本肽段、所述第一类氨基酸序列和所述第二类氨基酸序列分成第一训练集和第一测试集,采用所述第一训练集对所述剪切预测模型进行训练,并采用所述第一测试集对剪切预测模型进行测试,直至剪切预测模型满足第一预设要求。

18、可选地,所述结合预测模型的训练过程如下:

19、将清洗后的免疫原性肽数据中缺少对应主要组织相容复合体等位基因信息的肽段剔除,得到样本肽段;其中,根据实验测定结果确定可以与主要组织相容复合体结合的样本肽段为第二正样本肽段,其余的样本肽段为第二负样本肽段;

20、根据所述第二正样本肽段及其主要组织相容复合体等位基因样本序列和所述第二负样本肽段及其主要组织相容复合体等位基因样本序列分成第二训练集和第二测试集,采用所述第二训练集对所述结合预测模型进行训练,并采用所述第二测试集对结合预测模型进行测试,直至结合预测模型满足第二预设要求。

21、可选地,所述呈递预测模型的训练过程如下:

22、将满足剪切筛选条件、结合筛选条件且可被呈递的肽段作为第三正样本肽段;所述第三正样本肽段还包括主要组织相容复合体等位基因名称和对应的蛋白质名称;

23、在蛋白序列中随机截取人类肽段长度的氨基酸序列作为第三负样本;所述第三负样本包括还包括随机匹配的主要组织相容复合体等位基因名称、等位基因序列,所有肽段根据蛋白名称匹配的蛋白全长序列,以及肽段的上下游氨基酸;

24、将所述第三正样本肽段和所述第三负样本分成第三训练集和第三测试集,采用所述第三训练集对呈递预测模型进行训练,并采用所述第三测试集对呈递预测模型进行测试,直至所述呈递预测模型满足第三预设要求。

25、另一方面,本发明实施例提供了一种免疫原性肽呈递的预测系统,包括:

26、第一模块,用于将免疫原性肽段、上游氨基酸序列和下游氨基酸序列输入到训练好的剪切预测模型,提取肽段剪切特征;

27、第二模块,用于将所述免疫原性肽段输入到训练好的预训练蛋白语言模型,提取肽段氨基酸序列特征;

28、第三模块,用于将所述免疫原性肽段和主要组织相容复合体等位基因序列输入到训练好的结合预测模型,提取所述免疫原性肽段与主要组织相容复合体的结合特征;

29、第四模块,用于将所述肽段剪切特征、所述肽段序列特征和所述结合特征进行融合,得到融合特征,并将所述融合特征输入到呈递预测模型,得到呈递预测结果。

30、另一方面,本发明实施例提供了一种免疫原性肽呈递的预测装置,包括:

31、至少一个处理器;

32、至少一个存储器,用于存储至少一个程序;

33、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。

34、另一方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

35、另一方面,本发明实施例提供了一种免疫原性肽呈递的预测系统,包括计算机设备以及与所述计算机设备连接的若干个存储设备;其中,

36、若干个所述存储设备,用于存储模型训练的样本数据;

37、所述计算机设备包括:

38、至少一个处理器;

39、至少一个存储器,用于存储至少一个程序;

40、当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。

41、实施本发明实施例包括以下有益效果:本实施例中通过将免疫原性肽段上游氨基酸序列和下游氨基酸序列输入到训练好的剪切预测模型以提取肽段剪切特征,通过将免疫原性肽段输入到训练好的预训练蛋白语言模型以提取肽段氨基酸序列特征,通过述免疫原性肽段和主要组织相容复合体等位基因序列输入到训练好的结合预测模型以提取免疫原性肽段与主要组织相容复合体的结合特征,并将肽段剪切特征、肽段氨基酸序列特征以及结合特征进行融合以得到融合特征,通过将融合特征输入到呈递预测模型以得到呈递预测结果,从而挖掘出肽段从剪切到结合再到呈递的内在关系信息,以达到更精准、更快速地预测免疫原性肽的呈递。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1