1.一种协同制导律模型的预训练方法,其特征在于,包括:
2.根据权利要求1所述的协同制导律模型的预训练方法,其特征在于,所述获取从弹的预训练样本,包括:
3.根据权利要求2所述的协同制导律模型的预训练方法,其特征在于,所述根据所述第一时刻对应的动作值,通过训练环境进行仿真,得到第二时刻环境状态和第一时刻对应的奖励值,包括:
4.根据权利要求1所述的协同制导律模型的预训练方法,其特征在于,所述根据所述预训练样本,对所述预训练模型进行强化学习训练,直到达到停止条件,得到预训练协同制导律模型,包括:
5.根据权利要求4所述的协同制导律模型的预训练方法,其特征在于,所述根据所述初始评价目标值、所述第一奖励值和所述第二奖励值,确定评价目标值,包括:
6.根据权利要求4所述的协同制导律模型的预训练方法,其特征在于,所述根据所述评价目标值、所述评价值和预训练样本对预训练模型进行迭代训练,直至达到停止条件得到预训练协同制导律模型,包括:
7.根据权利要求6所述的协同制导律模型的预训练方法,其特征在于,所述预训练样本还包括:第一时刻对应的动作值,
8.一种协同制导律模型的训练方法,其特征在于,包括:
9.一种协同制导律模型的预训练系统,其特征在于,包括:
10.一种协同制导律模型的训练系统,其特征在于,包括: