一种基于分子Images和SMILES字符串预训练的分子性质预测方法

文档序号:36419528发布日期:2023-12-20 06:40阅读:来源:国知局

技术特征:

1.一种基于分子images和smiles字符串预训练的分子性质预测方法,其特征在于实施步骤为:

2.根据权利要求1所述的一种基于分子images和smiles字符串预训练的分子性质预测方法,其特征在于数据收集阶段:

3.根据权利要求1所述的一种基于分子images和smiles字符串预训练的分子性质预测方法,其特征在于数据预处理阶段:

4.根据权利要求1所述的一种基于分子images和smiles字符串预训练的分子性质预测方法,其特征在于模型预训练阶段:

5.根据权利要求1所述的一种基于分子images和smiles字符串预训练的分子性质预测方法,其特征在于下游任务微调阶段:


技术总结
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于分子Images和SMILES字符串预训练的分子性质预测方法。其发明内容主要包括:(1)从PubChem收集SMILES字符串,使用RDKit工具包,将SMILES字符串转化为分子Images;(2)将350万条Images‑SMILES pairs划分训练集、测试集,并进行数据预处理;(3)建立基于VLP(Vision‑LanguagePretraining)双塔结构神经网络,并设置三个预训练任务对模型进行无监督预训练;(4)完成预训练后,更换预测头,加载模型权重并在下游性质预测任务中微调。对于分类任务,采用受试者操作特征曲线下面积(ROC‑AUC)进行评估。对于回归任务,采用均方根误差(RMSE)进行评估。最终选定14个与药物挖掘相关的小数据集作为微调任务,以此验证该方法的有效性。

技术研发人员:陈浩文,张翔,聂豪
受保护的技术使用者:湖南大学
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1