1.一种基于语言模型的信号肽-蛋白组合分泌效率预测方法,其特征在于,包括以下步骤:
2.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述信号肽特征序列长度即m取值在80~200之间,优选100至150。
3.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述翻译单元是指mrna序列翻译为氨基酸序列的最小独立单元,一般蛋白质亚基为翻译单元。
4.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述与训练的蛋白质语言模型包括但不限于esm-1、esm-2、aminobert、以及采用氨基酸序列进行训练的自然语言深度学习模型,所述自然语言深度学习模型的框架为bert及其衍生框架、或gpt及其衍生框架;
5.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽-蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,进行归一化处理后,获得所述信号肽-蛋白序列的分泌特征向量。
6.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽-蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,采用以下方式之一:
7.如权利要求6所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述一维卷积模型包括一个一维卷积层、以及一个池化层;氨基酸残基特征向量和/或蛋白质序列特征向量通过一维卷积层,在序列长度方向进行卷积;卷积层输出通过一个池化层降低信息维度,防止过拟合;池化层输出转化为一维向量,将多个已转化成一维的向量直接拼接为分泌特征向量。
8.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述预测模型为分类模型或回归模型;优选分类模型,例如支持向量机、随机森林、多层感知器模型。
9.如权利要求1所述的信号肽-蛋白组合分泌效率预测方法,其特征在于,所述预测模型,按照如下方法进行训练:
10.一种系统,为电子设备或非暂态计算机可读存储介质,其特征在于,所述电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9任一项所述的信号肽-蛋白组合分泌效率预测方法的步骤;