本发明涉及蛋白质,特别涉及一种蛋白质溶解度预测方法、装置、设备及介质。
背景技术:
1、蛋白质的一级结构,特别是氨基酸序列,是蛋白质溶解度的主要决定因素。许多研究表明,蛋白质的溶解度与基于序列的特征之间存在很强的相关性,例如:疏水延伸的存在、不同残基类型的组成和蛋白质序列的长度。因此,使用基于序列的信息来估计溶解度的预测技术在蛋白质工程研究界获得了相当大的关注。这些技术提供了通过预选最有前景的蛋白质序列来取代昂贵的实验程序的潜力。现有技术中,已经开发了许多基于机器学习的预测方法来使用基于序列的信息来估计蛋白质溶解度。这些方法采用了诸如支持向量机svm(support vector machine)、朴素贝叶斯和神经网络的模型,以及包含结构和生物特征的手工特征。通过优化各种生物工艺的设计,机器学习模型显著提高了溶解度预测的准确性。然而大多数现有的机器学习模型都是针对二元分类任务进行训练的,将数据集分类为可溶和不可溶类别,而不是提供更理想的连续溶解度值。在蛋白质工程领域,连续溶解度值比二元分类更重要,因为它们为下游任务提供了更多信息指导。例如,在大型蛋白质数据集中,可以基于连续的溶解度值来选择最佳蛋白质序列,而二进制值无法完成这一任务。
2、综上,如何实现蛋白质的连续溶解度值的准确预测是本领域有待解决的技术问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种蛋白质溶解度预测方法、装置、设备及介质,能够实现蛋白质的连续溶解度值的准确预测。其具体方案如下:
2、第一方面,本技术公开了一种蛋白质溶解度预测方法,包括:
3、将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型,以便通过所述目标零样本特征学习模型提取所述待预测蛋白质序列的生物特征和高级深度特征;其中,所述生物特征为与蛋白质的物理性质和化学性质关联的蛋白质特征;所述高级深度特征包括蛋白质的三维结构、功能域、序列模式;
4、利用所述目标蛋白质溶解度预测模型的特征加权模块对所述生物特征和所述高级深度特征进行特征重加权,以输出用于预测溶解度的混合特征信息;
5、通过所述目标蛋白质溶解度预测模型并基于所述混合特征信息确定所述待预测蛋白质序列的连续溶解度值。
6、可选的,所述将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型之前,还包括:
7、获取大肠杆菌整体蛋白的完整溶解度数据库;
8、利用所述完整溶解度数据库中的蛋白质数据对初始蛋白质溶解度预测模型进行模型训练,以得到基于蛋白质三维结构特征的目标蛋白质溶解度预测模型。
9、可选的,所述利用所述完整溶解度数据库中的蛋白质数据对初始蛋白质溶解度预测模型进行模型训练,以得到基于蛋白质三维结构特征的目标蛋白质溶解度预测模型之前,还包括:
10、利用蛋白质序列数据库中的蛋白质序列数据对零样本特征学习模型进行预训练,以得到目标零样本特征学习模型;
11、将所述目标零样本特征学习模型嵌入至初始蛋白质溶解度预测模型,以便所述初始蛋白质溶解度预测模型通过所述目标零样本特征学习模型提取完整溶解度数据库的蛋白质特征。
12、可选的,所述将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型,以便通过所述目标零样本特征学习模型提取所述待预测蛋白质序列的生物特征和高级深度特征,包括:
13、将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型,以便通过所述目标零样本特征学习模型提取所述待预测蛋白质序列的esm特征作为高级深度特征,提取所述待预测蛋白质序列的blosum62特征、pssm特征、aaphy7特征、hhm特征和spider3特征作为生物特征。
14、可选的,所述利用所述目标蛋白质溶解度预测模型的特征加权模块对所述生物特征和所述高级深度特征进行特征重加权,以输出用于预测溶解度的混合特征信息,包括:
15、将所述生物特征和所述高级深度特征中每个蛋白质特征中最大信息量的特征信息编码为混合重加权特征;
16、利用所述目标蛋白质溶解度预测模型的特征加权模块基于目标通道权重将所述混合重加权特征进行特征重加权,以输出用于预测溶解度的混合特征信息。
17、可选的,所述利用所述目标蛋白质溶解度预测模型的特征加权模块基于目标通道权重将所述混合重加权特征进行特征重加权,以输出用于预测溶解度的混合特征信息之前,还包括:
18、获取所述混合重加权特征各自对应的特征通道;
19、利用全局平均池化提取各个特征通道的全局特征,然后从各所述全局特征中提取特征通道之间的非线性交互特征;
20、利用各所述特征通道的全局特征和所述非线性交局特征确定各所述特征通道对应的通道权重,以得到目标通道权重。
21、可选的,所述利用所述目标蛋白质溶解度预测模型的特征加权模块对所述生物特征和所述高级深度特征进行特征重加权,以输出用于预测溶解度的混合特征信息,包括:
22、利用所述目标蛋白质溶解度预测模型的特征加权模块对混合重加权特征与目标通道权重进行通道相乘,以输出用于预测溶解度的混合特征信息。
23、第二方面,本技术公开了一种蛋白质溶解度预测装置,包括:
24、特征提取模块,用于将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型,以便通过所述目标零样本特征学习模型提取所述待预测蛋白质序列的生物特征和高级深度特征;其中,所述生物特征为与蛋白质的物理性质和化学性质关联的蛋白质特征;所述高级深度特征包括蛋白质的三维结构、功能域、序列模式;
25、重加权模块,用于利用所述目标蛋白质溶解度预测模型的特征加权模块对所述生物特征和所述高级深度特征进行特征重加权,以输出用于预测溶解度的混合特征信息;
26、溶解度预测模块,用于通过所述目标蛋白质溶解度预测模型并基于所述混合特征信息确定所述待预测蛋白质序列的连续溶解度值。
27、第三方面,本技术公开了一种电子设备,包括:
28、存储器,用于保存计算机程序;
29、处理器,用于执行所述计算机程序,以实现前述公开的蛋白质溶解度预测方法的步骤。
30、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的蛋白质溶解度预测方法的步骤。
31、由此可见,本技术公开了一种蛋白质溶解度预测方法,包括:将待预测蛋白质序列输入至目标蛋白质溶解度预测模型中的目标零样本特征学习模型,以便通过所述目标零样本特征学习模型提取所述待预测蛋白质序列的生物特征和高级深度特征;其中,所述生物特征为与蛋白质的物理性质和化学性质关联的蛋白质特征;所述高级深度特征包括蛋白质的三维结构、功能域、序列模式;利用所述目标蛋白质溶解度预测模型的特征加权模块对所述生物特征和所述高级深度特征进行特征重加权,以输出用于预测溶解度的混合特征信息;通过所述目标蛋白质溶解度预测模型并基于所述混合特征信息确定所述待预测蛋白质序列的连续溶解度值。可见,通过提取待预测蛋白质序列的生物特征和高级深度特征,将生物特征和高级深度特征相结合,提高蛋白质溶解度预测的准确性,另外通过特征重加权的方式补充待预测蛋白质序列的溶解度预测任务中的深层特征,能够进一步提升连续溶解度值预测的准确性。