强化学习环境的搭建及交互方法与流程

文档序号：31223559发布日期：2022-08-23 17:50阅读：262来源：国知局

1.本发明属于强化学习和材料合成技术领域，具体提供一种强化学习环境的搭建及交互方法。

背景技术：

2.不同结构的晶体具有不同的特性。在晶体材料合成的过程中，通常需要制备出具有某项最佳性能的晶体结构的材料，方法是从已有的晶体结构通过相变过程变为目标晶体结构，过程需要经过多次实验进行验证，而实验的成本过高。

技术实现要素：

3.本发明是为了解决上述问题而进行的，目的在于提供一种强化学习环境的搭建及交互方法。
4.本发明提供了一种强化学习环境的搭建方法，用于模拟晶体结构的相变过程，具有这样的特征，包括：获取晶体结构发生相变过程的所有可能结构从而构建模拟相变环境；基于构建好的模拟相变环境定义变换规则。
5.本发明提供的方法，还具有这样的特征：其中，变换规则包括第一变换规则、第二变换规则及第三变换规则，第一变换规则用于判断每种可能结构按元素类型进行编码后并改变原子位点的元素类型获得的晶体结构是否满足第一预定范围；第二变换规则用于判断每种可能结构可视化后的降维信息与之变换后的可变换结构之间的距离是否满足第二预定范围；第三变换规则用于判断满足第一预定范围与第二预定范围的可变换结构的可用能量值是否为正值。
6.本发明提供的方法，还具有这样的特征：其中，若可变换结构的可用能量值为正值，则变换成功；若可变换结构的可用能量值为负值，则保持该结构不变，并在预定的范围内寻找其他可变换结构。
7.本发明提供的方法，还具有这样的特征：其中，预定的范围包括第一预定范围与第二预定范围，第一预定范围为编码后的所有可能结构，第二预定范围为每种可能结构可视化后的降维信息与之变换后的可变换结构之间的距离是否小于预定距离。
8.本发明提供的方法，还具有这样的特征：其中，若每种可能结构可视化后的降维信息与之变换后的可变换结构之间的距离小于预定距离，则满足第二预定范围，否则，重新选取另一可变换结构进行预定距离判断。
9.本发明提供的方法，还具有这样的特征：其中，预定距离用于判断变换前后的可能结构之间的相似性。
10.本发明提供的方法，还具有这样的特征：其中，将变换成功的可变换结构确定为第一可变换结构，并依次确定下一个可变换结构。
11.本发明提供的方法，还具有这样的特征：其中，判断可变换结构是否为终点结构或是否满足最大变换次数；若是，则变换结束，否则重复执行变换规则。
12.本发明提供一种强化学习环境的交互方法，具有这样的特征：将强化学习环境对应的所有可能结构映射为状态表示后与强化学习代理进行交互；或将强化学习环境对应的所有可能结构进行量子态编码，并映射为状态表示后与强化学习代理进行交互，其中，强化学习环境由上述强化学习环境的搭建方法搭建得到。
13.本发明提供的方法，还具有这样的特征：其中，量子态编码包括：将每种可能结构的高维数据归一化后得到归一化向量；将归一化向量处理得到量子态右矢；将量子态右矢共轭转置得到对应的量子态左矢；将量子态右矢与量子态左矢做外积，即得量子态编码后得到的结构密度矩阵。
14.发明的作用与效果
15.根据本发明提供的强化学习环境的搭建方法，因为该方法利用计算机模拟晶体结构的相变过程来获取相变过程的中间结构，并定义变换规则，从而可以有效地辅助实验的进行，所以可以减少实验次数降低成本，对材料合成学科具有很高的经济价值。
附图说明
16.图1是本发明实施例的强化学习环境的搭建方法的总流程图；
17.图2是本发明实施例的第一预定范围及第二预定范围的形成示意图；
18.图3是本发明实施例的第一预定范围及第二预定范围的范围示意图；
19.图4是本发明实施例的第一预定范围的示意图；
20.图5是本发明实施例的第二预定范围的示意图；
21.图6是本发明实施例确定第一可变换结构的示意图；
22.图7是晶体结构的量子态编码过程示意图。
具体实施方式
23.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例与附图对本发明提供的一种强化学习环境的搭建及交互方法作具体阐述。
24.《实施例》
25.图1是本发明实施例的强化学习环境的搭建方法的总流程图。
26.本实施例提供的强化学习环境的搭建方法总体思路为通过获取晶体结构发生相变过程的所有可能结构从而构建模拟相变环境；基于构建好的模拟相变环境定义变换规则，本实施例中的变换规则主要包括三个变换规则，分别为第一变换规则、第二变换规则及第三变换规则。
27.如图1所示，本发明实施例中强化学习环境的搭建方法包括如下步骤：
28.步骤s1，获取晶体发生相变的所有可能结构及其对应的原子三维空间坐标信息与能量初值信息。
29.具体地，本实施例基于dft理论(密度泛函理论)进行模拟计算，获得晶体的所有可能的结构信息，至少包括每种可能结构的原子三维空间坐标信息和能量初值信息。
30.图2是本发明实施例的第一预定范围及第二预定范围的形成示意图；图3是本发明实施例的第一预定范围及第二预定范围的范围示意图。参见图2-图3，对本实施例中第一预定范围及第二预定范围的形成及范围进行描述。
31.步骤s2，按元素类型编码所有可能结构从而形成第一预定范围。
32.进一步地，本实施例中第一变换规则用于对每种可能结构按元素类型进行编码，并判断编码后的晶体结构是否满足第一预定范围，该第一预定范围即为晶体结构对应的所有可能结构。具体地，编码后的所有晶体结构均具有各自的独立类别表示。如晶体中有a、b两种元素可变且共有m个原子位点，则其中某个结构可采用如下编码表示：(1，1，-1
…
1)，其中可将a元素编码为-1，b元素编码为1。将编码后的所有可能结构保存为一个二维数组，其中每行代表一种可能结构表示，每一列代表一种可变位置。
33.本实施例中第一变换规则的结构变换方式为：基于编码后的每种可能结构的某些原子位点的元素类型不同，因此可以通过改变可能结构的原子位点的元素类型，从而实现不同可能结构之间的结构变换。本实施例中第一预定范围为：基于编码后的每种可能结构及第一变换规则的结构变换方式，即每个可变换结构的原子位点进行允许的元素类型改变，并且改变元素类型后的可能结构还属于所规定的所有可能结构的范围中。
34.本实施例中基于获取的每种可能结构的能量初值信息，计算所有可能结构的能量初值信息之间的最大差值，作为模拟相变环境能量补给的参考值，并基于预定的实验材料合成的加热方式，对模拟相变环境的单步能量补给值进行调控。
35.步骤s3，基于形成的第一预定范围，对每种可能结构的原子三维空间坐标信息进行降维处理后计算相似性从而形成第二预定范围。
36.进一步地，本实施例中的第二变换规则即通过设置相似半径从而计算每种可能结构的相似性。具体地，本实施例中将每种可能结构的原子三维空间坐标信息拉直处理得到原子三维空间坐标信息对应的高维信息，然后将每组高维信息采用流形降维算法进行降维处理，从而得到原子三维空间坐标信息对应的二维向量。采用上述降维处理的方法用于保持高维数据与低维数据的某个不变特征量来找到合理的低维特征表示，利于可视化同时降低计算需求。将每种所有可能结构的对应的二维向量进行可视化得到对应的二维数据点(降维坐标)，并规定可能材料之间相互变换的可变换范围。参见图5，根据可视化后二维平面图的大小、图上点的密集程度及材料合成的加热方式(三个方面)从而决定相似半径r，同时r值的放缩方式可根据精度需求进行多次模拟来调整。图5中，x1、xn分别为所有可能结构中降维坐标的最小值与最大值，基于两者之间的最大差值x(图中未示出)设置变换半径的范围，则图5中半径具体的变换半径可根据具体情况随机设定，本实施例包括基于最大差值x设定的其他变换半径。
37.如图3所示，本实施例中先通过第一预定范围筛选满足条件的所有可能结构，而后在第一预定范围内通过计算相似性形成第二预定范围。
38.步骤s4，基于形成的第一预定范围、第二预定范围，随机选取一个晶体结构进行结构变换。
39.参见图4-6，在形成的第一预定范围及第二范围内，随机选取一个晶体结构为初始结构按照原子位点元素改变元素类型，可对每种可能结构的m个原子位点进行变换，本实施例示例性地以原子位点1进行说明。将初始结构原子位点1的b元素变换为a元素，并确定变换后的结构1满足第一预定范围；然后基于第一预定范围，判断结构1是否在初始结构的相似半径r(图5中r0)的范围内，经判断结构1在初始结构r的范围内，则结构1被确定为第一待
可变换结构。
40.步骤s5，基于步骤s4判断变换后的晶体结构是否满足第一预定范围，若满足，则执行步骤s6；否则返回步骤s4。
41.步骤s6，判断满足第一预定范围的晶体结构是否满足第二预定范围，若满足，则执行步骤s7；否则返回步骤s4。
42.步骤s7，判断满足第一预定范围及第二预定范围的第一待可变换结构的可用能量值是否为正值。
43.步骤s8，若晶体结构的可用能量值为正值，则此次结构变换成功，并将该结构确定为第一可变换结构，切换变换结构范围和搜索半径区域，依次确定下一个可变换结构；否则返回步骤s4。
44.具体地，判断第一可变换结构的可用能量值是否为正值，若为正值，则第一可变换结构变换成功。本实施例中规定能量的定义为：材料结构相变需要吸收或释放能量，每种结构的计算生成数据中带有其能量初值。同时在模拟相变发生的过程中，也会根据实验开始时加热的方式，给予环境一个能量的补给值。每一时刻结构的可用能量值越高，其可变范围越大。可用能量的计算方式为：环境能量补给值+变换前后结构能量初值的差值。如果可用能量值为负，则此次变换不成功，保持原结构。同时根据环境的类型决定能量补给值变换规则的约束程度。
45.步骤s9，重复步骤s4-步骤s8并判断变换后的晶体结构是否为终点结构或是否满足最大变换次数，若满足二者之一，则结构变换结束；否则返回步骤s4。
46.另外，本实施例还规定了用于对晶体结构的变换进行评价的环境奖励函数r，好的变换会给代理一个正反馈，不好的变换会给代理一个负反馈。根据具体实验中晶体材料相变的倾向定义变换的好坏。根据规定的奖励函数，算法进行迭代来对代理如何选择变换路径产生影响。经历多次迭代后收敛的算法，其所选变换路径往往符合真实环境下晶体材料发生相变的过程。具体设置方法根据有无具体已知起点结构和终点结构分为不同情况。
47.如果已知起点和终点结构，根据一般的强化学习环境设置，可将结构变换成功的奖励设为1，其余中间过度结构设奖励设为0，以便于算法快速迭代找到合理的的相变路径。
48.如果未知起点或终点，可利用相变过程中的能量吸收或释放值作为奖励设置参考值，并将满足最大变换次数的结构定义为终点结构。
49.以上两种奖励函数只是具体设定的例子，具体奖励函数可以根据奖励函数的定义可以进行修改和调整，本专利覆盖这些修改和调整。
50.本实施例还提供将上述搭建好的强化学习环境与量子强化学习算法进行交互的方法，具体过程如下：搭建好的模拟相变环境可以判断材料在不同结构之间能否变换。定义量子强化学习算法中的每一个状态为一种结构的编码表示，所有的结构组成了模拟相变系统的状态集。某一时刻从模拟环境获得一个结构，对应映射为一个表示，输入状态表示给强化学习代理，代理会在所有可选择的动作范围内，选择输出一个动作，材料变换为另一种状态，即另一种结构，同时获得一个奖励反馈用于算法的迭代更新。
51.参见图7，本实施例还提供一种对原子位点编码表示的量子编码方法，具体过程如下：
52.步骤s1，将长度为n的结构编码表示进行归一化。
53.步骤s2，将归一化得向量转变为复数形式，即量子态右矢。
54.步骤s3，将nx1维的右矢取共轭转置获得1xn维的左矢。
55.步骤s4，将右矢和左矢做外积，获得一个nxn维的量子态密度矩阵，完成量子态编码。
56.实施例的作用与效果
57.根据本实施例提供的强化学习环境的搭建方法，因为该方法利用计算机模拟晶体结构的相变过程来获取相变过程的中间结构，并定义变换规则，从而可以有效地辅助实验的进行，所以可以减少实验次数降低成本，对材料合成学科具有很高的经济价值。
58.进一步地，本实施例先将获取的每种可能结构按元素类型进行编码，从而确定可变换结构的范围，然后将每种可能结构的原子三维空间坐标进行降维处理，可视化后进行相似性判断进行进一步地限制，因此通过双重约束后该方法既能减轻强化学习算法训练迭代所需要的计算量，也能增大计算机模拟材料相变过程结果轨迹的可信性，在材料学科具有较高的应用前景。
59.以上通过说明和附图，给出了具体实施方式的特定结构的典型实施例，上述发明提出了现有的较佳实施例，但这些内容并不作为局限。对于本领域的技术人员而言，阅读上述说明后，各种变化和修正无疑将显而易见。因此，所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容，都应认为仍属本发明的意图和范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李翔宇
技术所有人：上海图灵智算量子科技有限公司
我是此专利的发明人

上一篇：一种多媒体互动智能广告应用装置
上一篇：一种基于深度学习的碳排放预测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。