基于机器学习的吸附机理分析和吸附条件定位方法及装置

文档序号:35125628发布日期:2023-08-14 19:25阅读:42来源:国知局
基于机器学习的吸附机理分析和吸附条件定位方法及装置

本发明涉及机器学习,尤其涉及一种基于机器学习的吸附机理分析和吸附条件定位方法及装置。


背景技术:

1、金属有机骨架(mofs)作为一种模块化多孔材料,可以通过金属中心和有机连接体自由拼接,形成周期性的网络结构。由于mofs具有丰富的孔结构和较大的比表面积,因此在污染物吸附去除领域受到了广泛关注。然而,mofs可以组装成几乎无限数量的材料,具有多样性、规律性和可设计性的特点。已构建了数千个可合成mofs的数据库(如coremofs和hmofs数据库)。然而,mofs结构的巨大多样性导致其对特定物质的吸附性能存在巨大差异,这导致通过传统的实验材料研发模式筛选最佳mofs吸附剂的成本巨大。另一方面,根据材料的规律性,通过对材料的描述,可以定位出性能最佳的特定材料,从而准确地指导材料设计。这些研究已广泛应用于气体吸附、分离和储存领域。

2、随着mofs结构数量的迅速增加,传统的高通量计算筛选已难以满足巨大的计算需求。因此,一些研究人员借助强大的机器学习实现了mofs的快速开发和智能设计模式。“chemically intuited,large-scale screening of mofs by machine learningtechniques”公开了基于已知特征训练机器学习模型,识别mof的一些结构特征,并将“化学直觉”集成到其算法中;结果发现,一些基于机器学习的预测与实验数据相符,预测的准确性随着样本量的增加而增加,这表明mofs的化学性质是可预测的。然而,大多数研究都集中在气体吸附和分离领域,而用于水相吸附的mofs吸附剂的智能设计方面还存在研究空白。

3、尽管水处理中多功能有机物的智能筛选有限,但许多研究已经使用机器学习来预测不同类型吸附材料在液相的吸附能力。“predicting aqueous adsorption of organiccompounds onto biochars,carbon nanotubes,granular activated carbons,andresins with machine learning”建立了一个结合多参数线性自由能关系(pp-lfers)的神经网络模型,以预测有机污染物对生物炭、活性炭、碳纳米管和树脂的吸附效果。“deeplearning neural network approach for predicting the sorption of ionizable andpolar organic pollutants to a wide range of carbonaceous materials”利用深度学习神经网络方法解决了碳材料上可电离和极性有机物吸附预测的问题。以上研究表明,机器学习可以有效地预测吸附过程。

4、尽管以上技术已经实现吸附过程的预测,但是,一方面该技术仅实现了吸附量的预测,通过该模型实现材料的筛查和设计存在一定局限,且不能通过模型实现不同类型吸附材料主导吸附机理的分析;另一方面,吸附材料的吸附性能受吸附条件的影响较大,以往研究尚未通过机器学习模型实现不同材料-污染物组合的最优吸附参数定位。因此,机器学习为用于水中污染物去除的mofs材料开发提供有力保障,基于机器学习的机理分析和条件定位技术亟待开发。


技术实现思路

1、发明目的:本发明的目的是提供一种快速、精准、高效的基于机器学习的吸附机理分析和吸附条件定位方法;本发明的另一目的是提供一种吸附机理分析和条件定位装置。

2、技术方案:本发明的基于机器学习的吸附机理分析和最优吸附条件定位方法,包括以下步骤:

3、(1)获取训练特征:本发明使用rdkit计算化合物的分子指纹作为污染物的分子描述符;分子指纹识别是一种将化合物的分子转换为由0和1组成的二进制向量的方法,该向量的每一位都代表了化合物的某种结构或亚结构信息;同时结合材料的结构参数和吸附条件参数构建训练数据库;材料的结构参数包括最大孔道直径、孔道极限直径、孔隙率、质量比表面积、体积比表面积、拓扑性质和互穿性质;吸附过程参数包括ph、温度、固液比和初始浓度;

4、(2)最优模型选择:本发明验证了若干种机器学习模型对吸附过程的预测性能,并利用网格搜索(grid search)对模型的超参数进行调整优化,达到最优性能后计算模型对测试集的预测精度,评价模型的预测性能,选取性能最佳的算法进行机器学习吸附模型的构建,评价指标如下:

5、

6、

7、

8、

9、式中n代表数据集的总数,和yi分别是第i个数据的最佳模型预测值和真实值,是所有预测值的平均值。

10、(3)数据集的拆分:本发明使用k-means这一无监督算法对污染物进行聚类处理;该算法将数据中的每个数据点视为在空间中具有位置的对象,并将数据点划分为事先确定的k个互斥簇,即为k个集群,每个集群中的对象彼此尽可能接近,并且尽可能远离其他集群中的对象;每个集群都由样本对象和质心(或中心)组成;k-means循环执行各数据点到质心距离(一般为欧氏距离)的计算和样本集群的划分,最终实现质心与集群所有成员对象之间的距离之和的最小化,如此便确定了每个样本所属的类别以及每个类的质心,返回每个数据点所分配的簇的索引;

11、(4)特征工程:本发明基于shap库的内嵌方程,使用夏普利值来解释机器学习模型,该算法通过与某一特征取基线值时的预测作对比,来解释该特征取某一特定值的影响,具体方法如下:首先基于获取的实验数据训练机器学习模型,其次利用python的内置shap包计算模型不同特征的夏普利值,通过支持树模型的shap.treeexplainer()评价本研究xgboost模型中不同特征对预测结果的贡献度,最后利用summary_plot绘制每个样本的夏普利值,用以更加全面的呈现模型各特征的贡献度,增加模型的可解释性;

12、(5)吸附机理分析:根据训练数据中mofs吸附剂金属中心的类型,将训练数据划分为若干个子数据集分别训练模型,并分别计算夏普利值评价各类型mofs材料在污染物吸附过程中的关键影响因素,分析主导吸附机理;

13、(6)材料筛查和条件定位:整理汇总文献中的材料、core mofs数据库以及hmofs数据库,建立潜在材料数据库,作为候选材料用于特定污染物最优材料的筛查;提取所有mofs结构的最大孔道直径、孔道极限直径、孔隙率、质量比表面积和体积比表面积等训练特征,用于对不同污染物吸附性能的预测计算;建立吸附条件库,ph、温度、固液比、初始浓度各设置56个数值梯度,两两代入模型预测相应去除率,评价不同吸附条件对吸附过程的共同影响,获取去除率最高的点即为最优mofs材料对指定污染物的最佳吸附条件。

14、进一步地,步骤(1)中,本发明使用的分子指纹为maccs keys fingerprints;maccs keys fingerprints由前mdl开发,是一种在分子数据库中进行子结构筛选的快速方法,共包含167个键,即167个0和1,每个键对应于特定的分子特征,其中第零位为占位符,无实际含义。

15、进一步地,步骤(1)中需要对原始数据进行清洗,利用dropna函数删除含有缺失值的条目,利用describe()函数查看数据结构,剔除离群点;模型训练前通过归一化、标准化等操作对原始数据进行预处理。

16、进一步地,步骤(2)中的机器学习模型包括k邻近、多层感知机、多元回归、线性回归、多项式回归、岭回归、决策树、线性核函数的支持向量机、多项式核函数的支持向量机、径向基核函数的支持向量机、xgboost、adaboost、lgboost、随机森林、多粒度级联森林、深度神经网络中的至少三种模型。

17、进一步地,步骤(4)中通过特征删除识别影响模型预测的关键特征,避免冗余特征对模型训练的干扰;基于夏普利值确定对模型预测结果贡献度最高的若干个特征,循环遍历全部上述特征,随机删除1到5个特征,共建立n个模型,通过mae、mse、rmse和r2等指标评估各模型的性能保留程度,进而研究各特征对模型性能的影响,初步识别模型关键参数;同时,基于不同特征删除方式所得模型的预测精度,删除对模型预测过程影响较大的冗余特征,保留适用于建立吸附模型的关键参数,以评估冗余特征对学习过程的影响,确定机器学习吸附模型的关键参数。

18、进一步地,步骤(5)中主导吸附机理的判断是以不同特征的夏普利值大小为定量依据。

19、进一步地,步骤(6)中材料-污染物吸附性能的预测结果和条件定位结果通过静态吸附实验进行验证;吸附实验在40ml的旋盖玻璃管中于25℃恒温摇床中进行。实验设置不同固液比、污染物初始浓度和ph,将指定量mofs加入不同浓度的污染物水溶液(30ml)中,实验中所有溶液的ph通过0.1mol/l的hcl与naoh溶液调节。经吸附过后的溶液用10ml的注射器取出,经0.22μm滤头过滤置于50ml的离心管中,用紫外分光光度计在特定波长处分别测量所验证污染物的吸光度,通过标准曲线计算其浓度,并根据污染物的初始浓度计算去除率。

20、另一方面,本发明提供一种利用上述的基于机器学习的吸附机理分析和吸附条件定位方法的吸附机理分析和条件定位装置,包括数据采集模块,用以获取污染物分子指纹、材料结构参数和吸附条件的描述符,进行数据清洗,建立原始数据集;模型预训练模块,用以根据不同的算法生成多个包含超参数的初始模型,调参选择最优超参数,基于污染物的分子指纹进行数据拆分;特征工程模块,用以识别影响模型性能和吸附与效果的关键参数;机理分析模块,用以分析不同类型mofs的关键吸附参数和主导吸附机理;筛查预测模块,用以筛选对于特定污染物的最佳吸附材料,并定位不同材料-污染物组合的最优吸附条件;指导合成模块,用以基于模型预测结果,并输出最佳材料的结构信息。

21、有益效果:与现有技术相比,本发明具有如下显著优点:

22、(1)引入分子指纹作为污染物的分子描述符,从微观的层面对污染物结构进行更加精准的描述,实现基于构效关系的预测思路,提升模型预测性能;

23、(2)基于污染物的分子指纹对训练数据进行聚类分析,依据聚类标签进行数据拆分,以更加精细的亚结构和原子团特征作为分类依据,从吸附机理层面更大程度的避免数据泄漏对模型性能的影响;

24、(3)在面对未经试验的吸附材料时,实现最优吸附条件的快速定位和精准调控,可为未知吸附材料的快速应用开辟广阔前景;

25、(4)通过机器学习模型,计算不同特征的夏普利值,基于不同类型材料各特征对模型预测过程的贡献度确定其关键影响因素。此外通过各特征夏普利值的分布,分析不同特征之间的相互作用关系,联合分析不同影响因素之间的协同作用。基于不同类型材料各特征对模型预测过程贡献度绝对值的大小,确定不同类型材料的主导吸附机理,实现基于机器学习模型的吸附机理优先级定量比较。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1