一种对抗场景下的对手模型构建方法及存储介质

文档序号：31872342发布日期：2022-10-21 19:51阅读：来源：国知局

技术特征：
1.一种对抗场景下的对手模型构建方法，其特征在于，包括如下步骤：数据采集以及预处理步骤s110:采集对手智能体的历史数据，按照时间序列提取历史数据中的高维输入观测信息，进行数据预处理后，构造出样本集，所述样本集包括t时刻的状态动作转移环境状态量样本数据；其中，表示当前t时刻状态下的状态及动作数据对，表示发生状态转移后的下一步状态；对手智能体状态模型构建及训练步骤s120：构建对手智能体状态模型，所述对手智能体状态模型包括神经网络，输入带时序信息的对手状态数据，利用所述神经网络提取出时序特征组，再在隐空间将所述时序特征组进一步提取处理，生成标准正态分布n(z)，以及该标准正态分布的均值和方差，再对这些标准正态分布n(z)做概率采样，生成隐状态t时刻的状态数据并输出，利用步骤s110中的状态动作转移环境状态量样本数据对所述对手智能体状态模型进行学习训练直至收敛，输出该观测状态的抽象表示；对手智能体状态预测模型构建及训练步骤s130：在低维隐空间中利用ddpg深度强化学习网络构建状态预测模型，输入t时刻的状态数据和对手智能体动作数据，输出t+1时刻的隐空间状态变量预测值，利用kl散度和重构前后的损失函数之和作为目标函数，根据需要设定具体阈值，如果达到训练目标，则停止训练，反之继续训练，通过不断调参使模型对目标函数的优化达到最优；状态转移模型构建及输出步骤s140：利用解码器在隐变量空间中构建状态转移模型，通过重参数，恢复对手智能体特征信息里的采样数据，将隐变量映射为可观测变量的估计值，升维重构生成新的重构样本值。2.根据权利要求1所述的对抗场景下的对手模型构建方法，其特征在于，在步骤s110中，所述历史数据包括对手智能体状态类数据和对手智能体动作类数据，所述对手智能体状态类数据包括各智能体的位置、性能，所述位置是指物理空间的位置，所述性能是指装备的损伤程度；所述对手智能体动作类数据包括各装备智能体的行动指令数据，行动指令在交战规则集中选取，包含攻击或防守的目标和动作；所述数据预处理包括对数据进行归一化和异常值处理。3.根据权利要求1所述的对抗场景下的对手模型构建方法，其特征在于，在步骤s120中，所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块，利用卷积神经网络模块输入带时序信息的对手状态数据，提取特征，将连续n时刻的特征
处理为时序特征组，输出至循环神经网络模块；循环神经网络模块对应均值方差计算模块，生成标准正态分布n(z)，以及该标准正态分布的均值和方差，再对这些标准正态分布n(z)做概率采样，生成隐状态下t时刻的状态数据并输出。4.根据权利要求1所述的对抗场景下的对手模型构建方法，其特征在于，步骤s130具体为：在低维隐空间利用ddpg深度强化学习网络构建状态预测模型，ddpg深度强化学习网络包括：actor现实策略网络、actor估计策略网络、critic现实得分网络和critic估计得分网络，输入t时刻的状态数据和对手智能体动作数据，输出t+1时刻的状态预测值自身的隐状态，隐状态是前一时刻的隐状态和当前时刻数据的函数，即预测输出下一时刻状态值的概率密度函数，此时以概率密度函数的形式输出，概率密度函数不是一个确定值，是一个范围区间，其中，表示深度强化学习网络模型在t+1时刻的隐状态，即智能体对于自身行动所引发的环境变化的预测，利用kl散度和重构前后的损失函数之和作为目标函数，根据需要设定具体阈值，如果达到训练目标，则停止训练，反之继续训练，通过不断调参使模型对目标函数的优化达到最优。5.根据权利要求4所述的对抗场景下的对手模型构建方法，其特征在于，在步骤s130中，所述目标函数使用的是kl散度与重构前后的均方误差之和作为评价指标。6.根据权利要求1所述的对抗场景下的对手模型构建方法，其特征在于，在步骤s140中，解码器为反卷积模块，将循环神经网络提取的潜在变量从预设分布中采样重构，在隐空间对下一时刻状态预测值实施反卷积，生成和原始训练样本分布相似的新样本数据，得到重构样本值并输出。7.一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的对抗场景下的对手模型构建方法。

技术总结
一种对抗场景下的对手模型构建方法及存储介质，该方法包括将整体环境模型区分为对手智能体状态表示模型和对手智能体状态转移模型：其中对手智能体状态表示模型利用编码器构造，将高维空间中的训练数据映射到低维空间，保持原始数据网络结构的低维节点的抽象压缩表示，使得较大相似度的节点具有类似的向量表示；对手智能体状态预测模型采用解码器结合深度强化学习网络构造，在低维潜在空间生成未来状态的预测表示；利用对手智能体状态类数据和动作类数据对模型进行学习训练，当达到训练目标或者收敛后，利用变分自编码器的生成模块，在隐空间对下一时刻状态预测并输出。在隐空间对下一时刻状态预测并输出。在隐空间对下一时刻状态预测并输出。

技术研发人员：王伟林旺群田成平伊山杜静卜先锦李妍
受保护的技术使用者：中国人民解放军军事科学院战略评估咨询中心
技术研发日：2022.06.01
技术公布日：2022/10/20

完整全部详细技术资料下载

当前第2页1 2