基于语言模型的信号肽-蛋白组合分泌效率预测方法及系统与流程

文档序号:35218443发布日期:2023-08-24 18:43阅读:来源:国知局

技术特征:

1.一种基于语言模型的信号肽-蛋白组合分泌效率预测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述信号肽特征序列长度即m取值在80~200之间,优选100至150。

3.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述翻译单元是指mrna序列翻译为氨基酸序列的最小独立单元,一般蛋白质亚基为翻译单元。

4.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述与训练的蛋白质语言模型包括但不限于esm-1、esm-2、aminobert、以及采用氨基酸序列进行训练的自然语言深度学习模型,所述自然语言深度学习模型的框架为bert及其衍生框架、或gpt及其衍生框架;

5.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽-蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,进行归一化处理后,获得所述信号肽-蛋白序列的分泌特征向量。

6.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽-蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,采用以下方式之一:

7.如权利要求6所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述一维卷积模型包括一个一维卷积层、以及一个池化层;氨基酸残基特征向量和/或蛋白质序列特征向量通过一维卷积层,在序列长度方向进行卷积;卷积层输出通过一个池化层降低信息维度,防止过拟合;池化层输出转化为一维向量,将多个已转化成一维的向量直接拼接为分泌特征向量。

8.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述预测模型为分类模型或回归模型;优选分类模型,例如支持向量机、随机森林、多层感知器模型。

9.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述预测模型,按照如下方法进行训练:

10.一种系统,为电子设备或非暂态计算机可读存储介质,其特征在于,所述电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9任一项所述的信号肽-蛋白组合分泌效率预测方法的步骤;


技术总结
本发明公开了一种基于语言模型的信号肽‑蛋白组合分泌效率预测方法及系统。所述方法包括:(1)将待预测的信号肽‑蛋白序列划分为翻译单元,对于每一个翻译单元截取N端的前M位氨基酸序列,作为信号肽特征序列;(2)输入到预训练的蛋白质语言模型,获得氨基酸残基特征向量和/或蛋白质序列特征向量;(3)将氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,获得所述信号肽‑蛋白序列的分泌特征向量获得所述信号肽‑蛋白序列的分泌特征向量;(4)将信号肽‑蛋白序列的分泌特征向量输入到预测模型,预测所述信号肽‑蛋白序列的分泌效率等级。本发明提高了预测模型对于信号肽‑蛋白组合分泌效率的预测准确性。

技术研发人员:陈亮,龙永康,胡志鹏,梁国龙
受保护的技术使用者:深圳太力生物技术有限责任公司
技术研发日:
技术公布日:2024/1/14
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1