基于迁移学习的生物大分子体系数据库构建方法及系统与流程

文档序号：31786261发布日期：2022-10-12 13:35阅读：来源：国知局

技术特征：
1.一种基于迁移学习的生物大分子体系数据库构建方法，其特征在于，包括：获取生物大分子数据建模的原任务和目标任务；所述原任务包括原输入数据以及原输出数据；所述目标任务包括目标输入数据以及目标输出数据；所述原输入数据以及所述目标输入数据均为独立的生物大分子结构，生物大分子和小分子/离子的复合结构，或，生物大分子和生物大分子的复合结构；所述原输出数据为所述原输入数据对应的生物大分子性质，所述目标输出数据为所述目标输入数据的对应的生物大分子性质；两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构；根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度，确定迁移类型；所述迁移类型包括纵向迁移、横向迁移以及交叉迁移；基于所述迁移类型，根据所述原输入数据以及所述原输出数据建立原任务模型；基于所述迁移类型，根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整，建立目标任务模型；根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库；所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库，生物大分子和小分子/离子体系的复合结构-属性数据库，或，生物大分子与生物大分子的复合结构-属性数据库；所述生物大分子体系数据库用于研究独立的生物大分子体系，研究生物大分子和小分子/离子体系的相互作用，或，研究生物大分子之间的相互作用。2.根据权利要求1所述的基于迁移学习的生物大分子体系数据库构建方法，其特征在于，所述纵向迁移为所述原输入数据与所述目标输入数据相同，所述原输出数据的保真度与所述目标输出数据的保真度不同；所述横向迁移为所述原输入数据与所述目标输入数据不同，所述原输出数据的保真度与所述目标输出数据的保真度相同；所述交叉迁移为所述原输入数据与所述目标输入数据不同，所述原输出数据的保真度与所述目标输出数据的保真度不同。3.根据权利要求1所述的基于迁移学习的生物大分子体系数据库构建方法，其特征在于，所述基于所述迁移类型，根据所述原输入数据以及所述原输出数据建立原任务模型，具体包括：基于所述迁移类型，以所述原输入数据的特征为输入，以所述原输出数据为输出，利用机器学习算法，随机初始化所述机器学习算法所建立的机器学习模型的参数，建立原任务模型；所述特征包括组成特征以及结构特征；所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率；所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图；所述机器学习模型根据所述原输出数据的格式建立。4.根据权利要求3所述的基于迁移学习的生物大分子体系数据库构建方法，其特征在于，所述基于所述迁移类型，根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整，建立目标任务模型，具体包括：基于所述迁移类型，以所述目标输入数据的特征为输入，以所述目标输出数据为输出，将所述机器学习模型的参数为所述目标任务中机器学习模型的初始点，对所述目标任务中机器学习模型进行调整，构建目标任务模型。5.一种基于迁移学习的生物大分子体系数据库构建系统，其特征在于，包括：
原任务和目标任务获取模块，用于获取生物大分子数据建模的原任务和目标任务；所述原任务包括原输入数据以及原输出数据；所述目标任务包括目标输入数据以及目标输出数据；所述原输入数据以及所述目标输入数据均为独立的生物大分子结构，生物大分子和小分子/离子的复合结构，或，生物大分子和生物大分子的复合结构；所述原输出数据为所述原输入数据对应的生物大分子性质，所述目标输出数据为所述，目标输入数据的对应的生物大分子性质；两个所述生物大分子性质均为稳定性、活性、结合能、能量、原子受力或空间结构；迁移类型确定模块，用于根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度，确定迁移类型；所述迁移类型包括纵向迁移、横向迁移以及交叉迁移；原任务模型建立模块，用于基于所述迁移类型，根据所述原输入数据以及所述原输出数据建立原任务模型；目标任务模型建立模块，用于基于所述迁移类型，根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整，建立目标任务模型；生物大分子体系数据库建立模块，用于根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库；所述生物大分子体系数据库为独立生物大分子体系的结构-属性数据库，生物大分子和小分子/离子体系的复合结构-属性数据库，或，生物大分子与生物大分子的复合结构-属性数据库；所述生物大分子体系数据库用于研究独立的生物大分子体系，研究生物大分子和小分子/离子体系的相互作用，或，研究生物大分子之间的相互作用。6.根据权利要求5所述的基于迁移学习的生物大分子体系数据库构建系统，其特征在于，所述纵向迁移为所述原输入数据与所述目标输入数据相同，所述原输出数据的保真度与所述目标输出数据的保真度不同；所述横向迁移为所述原输入数据与所述目标输入数据不同，所述原输出数据的保真度与所述目标输出数据的保真度相同；所述交叉迁移为所述原输入数据与所述目标输入数据不同，所述原输出数据的保真度与所述目标输出数据的保真度不同。7.根据权利要求5所述的基于迁移学习的生物大分子体系数据库构建系统，其特征在于，所述原任务模型建立模块，具体包括：原任务模型建立单元，用于基于所述迁移类型，以所述原输入数据的特征为输入，以所述原输出数据为输出，利用机器学习算法，随机初始化所述机器学习算法所建立的机器学习模型的参数，建立原任务模型；所述特征包括组成特征以及结构特征；所述组分特征包括电负性、电离能、原子序数、价电子数、共价半径以及极化率；所述结构特征包括径向分布函数、晶体衍射、化学局部环境、内坐标以及晶体卷积图；所述机器学习模型根据所述原输出数据的格式建立。8.根据权利要求7所述的基于迁移学习的生物大分子体系数据库构建系统，其特征在于，所述目标任务模型建立模块，具体包括：目标任务模型建立单元，用于基于所述迁移类型，以所述目标输入数据的特征为输入，以所述目标输出数据为输出，将所述机器学习模型的参数为所述目标任务中机器学习模型
的初始点，对所述目标任务中机器学习模型进行调整，构建目标任务模型。

技术总结
本发明涉及一种基于迁移学习的生物大分子体系数据库构建方法及系统。该方法包括：获取生物大分子数据建模的原任务和目标任务；根据所述原输入数据、所述目标输入数据、所述原输出数据的保真度以及所述目标输出数据的保真度，确定迁移类型；所述迁移类型包括纵向迁移、横向迁移以及交叉迁移；基于所述迁移类型，根据所述原输入数据以及所述原输出数据建立原任务模型；基于所述迁移类型，根据所述目标输入数据以及所述目标输出数据对所述原任务模型进行调整，建立目标任务模型；根据所述原任务模型以及所述目标任务模型建立生物大分子体系数据库。本发明能够降低成本，提高生物大分子体系数据库的通用性。大分子体系数据库的通用性。大分子体系数据库的通用性。

技术研发人员：李金金汪志龙韩彦强
受保护的技术使用者：上海茵肽信息科技有限公司
技术研发日：2022.07.26
技术公布日：2022/10/11

完整全部详细技术资料下载

当前第2页1 2