1.一种基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述基于模糊决策树的深度强化学习空战博弈解释方法,包括:
步骤s1、采用已训练的深度强化学习模型进行空战博弈,成对保存输入的特征向量和深度强化学习模型的输出作为样本数据,得到训练集和特征集;
步骤s2、构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集;
步骤s3、根据所述训练集和模糊特征集建立模糊决策树;
步骤s4、通过极小化决策树的损失函数对模糊决策树进行剪枝;
步骤s5、遍历剪枝后的模糊决策树的所有路径,得到模糊决策树训练的规则集合,其中每一路径表示一个空战博弈规则;
步骤s6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。
2.如权利要求1所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述成对保存输入的特征向量以及深度强化学习模型的输出作为样本数据,得到训练集,包括:
若保存的样本数据的长度为n,并且采用x表示特征向量,采用y表示深度强化学习模型的输出,则得到的训练集为:
d={(x1,y1),(x2,y2),…(xn,yn)}
其中,d表示训练集,xn表示第n个输入的特征向量,yn表示深度强化学习模型的第n个输出;
根据特征向量得到对应的特征集如下:
ψ={ψ1,ψ2,…ψi,…ψn}
其中,ψ为特征集,n为特征集中特征的总个数,ψi为第i个特征;
并且特征ψi的可选特征值值空间为:
其中,l为特征ψi的可选特征值空间的总数,
3.如权利要求2所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集,包括:
步骤s2.1、构建各特征的隶属度函数的分割点;
步骤s2.2、采用梯形函数作为隶属度函数,单个梯形函数由四个参数{aq,bq,cq,dq}表征,则隶属度函数的表达式如下:
步骤s2.3、采用最大隶属度原则进行隶属度选择:
μ=max(μ1,μ2,…μl)
步骤s2.4、利用隶属度函数逐一将特征模糊化,将原始的特征集进行模糊化转换,得到模糊特征集如下:
a={a1,a2,a3,…ai,…an}
其中,a为模糊特征集,n为模糊特征集中模糊特征的总个数,ai为第i个模糊特征;
并且模糊特征ai的可选向量空间为:
其中,l为模糊特征ai的可选特征值空间的总数,
4.如权利要求3所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述根据训练集和模糊特征集建立模糊决策树,包括:
步骤s3.1、计算信息增益比:
计算模糊特征ai在整个训练集d中的相对熵为:
根据相对熵计算模糊特征ai的信息增益:
g(d,ai)=h(d)-h(d|ai)
其中,c为模糊决策树总的样本类别,即为深度强化学习模型输出的总类别,dk表示将训练集d根据模糊特征ai划分,类别为第k类的子集,|dk|为子集dk的样本数量,|dkj|为子集dk中第j个特征值的样本数量,l为模糊特征ai的可选特征值空间的总数,g(d,ai)表示模糊特征ai在整个训练集d中的信息增益,h(d|ai)为模糊特征ai下训练集d的相对熵,h(d)表示训练集d的相对熵;
根据相对熵和信息增益计算模糊特征ai的信息增益比:
其中,gr为信息增益比;
步骤s3.2、选择信息增益比最大的模糊特征作为模糊决策树当前的切分点:
并将当前所选特征achosen从模糊特征集{a|a1,a2,a3,…ai,…an}中移除;
步骤s3.3、重复步骤s3.1和步骤s3.2,直至满足结束条件中的一个,结束循环,得到模糊决策树。
5.如权利要求4所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述结束条件,包括:
1)无可用特征,即模糊特征集{a|a1,a2,a3,…ai,…an}为空;
2)模糊特征集a中剩余的所有样本属于同一类别;
3)模糊特征集a中属于第k类的样本数量大于或等于给定阈值;
4)模糊特征集a中剩余的样本数量小于给定阈值。
6.如权利要求5所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述通过极小化决策树的损失函数对模糊决策树进行剪枝,包括:
步骤s4.1、构建优化的目标函数为:
其中,cα(t)为损失函数,gr(t)为当前模糊决策树的信息增益比,t为叶节点数量,α为可调超参;
步骤s4.2、取一组叶节点,若该组叶节点回缩到其父节点前后的树分别为tl和tf,分别计算tl和tf的目标函数cα(tl)和cα(tf);
如果满足cα(tl)≥cα(tf),则删除该组叶节点,回缩到其父节点;否则保留该组叶节点;
步骤s4.3、重复步骤s4.2,递推地从树的叶节点向上回缩,直至无法递推为止,得到剪枝后的模糊决策树。
7.一种基于模糊决策树的深度强化学习空战博弈解释系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的基于模糊决策树的深度强化学习空战博弈解释方法的步骤。