一种协同制导律模型的预训练方法、训练方法和系统

文档序号：35962566发布日期：2023-11-09 01:25阅读：来源：国知局

技术特征：

1.一种协同制导律模型的预训练方法，其特征在于，包括：

2.根据权利要求1所述的协同制导律模型的预训练方法，其特征在于，所述获取从弹的预训练样本，包括：

3.根据权利要求2所述的协同制导律模型的预训练方法，其特征在于，所述根据所述第一时刻对应的动作值，通过训练环境进行仿真，得到第二时刻环境状态和第一时刻对应的奖励值，包括：

4.根据权利要求1所述的协同制导律模型的预训练方法，其特征在于，所述根据所述预训练样本，对所述预训练模型进行强化学习训练，直到达到停止条件，得到预训练协同制导律模型，包括：

5.根据权利要求4所述的协同制导律模型的预训练方法，其特征在于，所述根据所述初始评价目标值、所述第一奖励值和所述第二奖励值，确定评价目标值，包括：

6.根据权利要求4所述的协同制导律模型的预训练方法，其特征在于，所述根据所述评价目标值、所述评价值和预训练样本对预训练模型进行迭代训练，直至达到停止条件得到预训练协同制导律模型，包括：

7.根据权利要求6所述的协同制导律模型的预训练方法，其特征在于，所述预训练样本还包括：第一时刻对应的动作值，

8.一种协同制导律模型的训练方法，其特征在于，包括：

9.一种协同制导律模型的预训练系统，其特征在于，包括：

10.一种协同制导律模型的训练系统，其特征在于，包括：

技术总结
本申请涉及控制的技术领域，尤其是涉及一种协同制导律模型的预训练方法、训练方法和系统，预训练方法包括：获取从弹的预训练样本和预训练模型，进而基于预训练样本对预训练模型进行离线的强化学习训练以得到预训练协同制导律模型，并将该预训练协同制导律模型中的预训练评价网络的网络参数和预训练评价目标网络的网络参数作为协同制导律模型训练过程中的待训练评价网络的初始网络参数和待训练评价目标的初始网络参数，能够简化实际训练的过程，提高训练效率，快速高效的得到协同制导律模型。

技术研发人员：路鹰,赵大海,胡一帆,韩特,付斌,邱璐莹
受保护的技术使用者：西北工业大学
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

当前第2页1 2