一种基于强化学习的综合化航空电子系统可调度分析方法

文档序号:41605696发布日期:2025-04-11 17:56阅读:4来源:国知局
一种基于强化学习的综合化航空电子系统可调度分析方法

本发明属于安全关键软件,具体为一种基于强化学习的综合化航空电子系统可调度分析方法。


背景技术:

1、在过去的飞机系统中,曾经采用了联邦式架构:每个航空电子功能都集成在一个单独的计算资源上,形成了“一功能等于一台计算机”的模式。这种架构所隐含的应用程序隔离促进了运行时的安全故障隔离,但代价是飞机需要嵌入过多的重量、体积和电缆,以便为所有模块提供足够的电力和连接。随着航空电子系统的不断演进,现代飞机已经嵌入了比早期飞机更为智能的功能。与旧有架构相比,新功能被添加到现代系统的数量呈指数增长,使得“一功能等于一台计算机”的模式及其所需的计算资源、重量和电力消耗变得不再可行。

2、为了应对这一挑战,综合模块化航空电子(ima)架构应运而生。在ima架构下,多个航空电子功能可以在同一台计算机上共享计算资源。ima不仅有效减少了飞机所需的空间、重量和功率消耗,而且通过集成多个功能到一个模块中,实现了处理资源、电源供应和i/o管理服务等组件的共享,进一步降低了系统的热散和燃油消耗。此外,ima架构的另一大优势在于其通用性,这有利于在设计阶段实现特定应用与其他应用以及硬件平台的独立性,从而促进了系统的灵活性和可扩展性。

3、当前航空电子系统的管理和调度任务大多是手动进行的,并没有有效地考虑在多核处理器环境下因为资源竞争而可能发生的时间延误。这导致一旦系统发生变更或需要升级,现有的任务分配和调度程序就必须重新进行规划,这个过程相当耗时且工作量巨大。


技术实现思路

1、发明目的:为解决综合化航空电子系统在多核处理器上任务调度方面存在效率低下、需要大量人工和时间成本等问题,本发明提出一种基于强化学习的综合化航空电子系统可调度分析方法,采用基于多头注意力机制的强化学习,自动、安全、优化地得到预期的调度结果,减少手工迭代的过程,提高任务调度生成的效率。

2、技术方案:一种基于强化学习的综合化航空电子系统可调度分析方法,包括以下步骤:

3、步骤1:根据综合化航空电子系统可调度问题设计马尔可夫决策过程,构建虚拟环境;

4、步骤2:将基于价值的强化学习算法与多头注意力机制进行结合,通过智能体与虚拟环境进行交互,学习得到最优状态-动作值函数;

5、步骤3:当智能体与环境进行交互时,使用步骤2得到的最优状态-动作值函数,获得当前状态下每个可行动作的价值;选择具有最高价值的可行动作,并执行该可行动作;获取下一个状态和奖励,并将奖励累加。

6、进一步的,所述的根据综合化航空电子系统可调度问题设计马尔可夫决策过程,构建虚拟环境,具体包括:

7、对综合化航空电子系统可调度问题进行建模;

8、根据综合化航空电子系统可调度模型,构造马尔可夫决策过程,构建虚拟环境。

9、进一步的,所述的对综合化航空电子系统可调度问题进行建模,具体包括:

10、按照下式,计算每核心上的分区执行任务所需的时间预算,表示为:

11、

12、式中,表示分区pi上被分配在核心c上的任务所需要的时间预算,csw表示从刚刚完成其执行的任务到下一个计划的任务的上下文切换所对应的开销;

13、

14、rj表示任务j执行时间,pidj表示任务所属分区代号,i表示分区代号,k表示分区所在的帧,pi表示分区的周期,tj表示任务的周期;

15、比较核心上的所有分区的时间预算,取最大值作为分区的总时间预算,具体计算公式如下:

16、

17、式中,表示分区pi在第k帧的总时间预算,c表示所在核心,nc表示核心数量;

18、maf为主时间框架,mif为次时间框架,将maf分为等长的帧,一个mif为一帧,mif的数量为nframes,maf和mif的长度与周期相关,周期总是mif长度的整数倍,表示为:

19、

20、

21、式中,pi表示分区标识,lcm表示最小公倍数,gcd表示最大公因数。

22、进一步的,所述的根据综合化航空电子系统可调度模型,构造马尔可夫决策过程,构建虚拟环境,具体操作包括:

23、在调度问题的求解过程中,每个状态下的可选行动是为当前分区分配一个开始时间,将动作空间定义为:at={v},v∈[0,maf];式中,v表示为当前分区分配的开始时间;

24、为了确定每个分区的开始时间,在状态定义中引入一个全局的动作数组,该动作数组用于存储在求解过程中每一次所选择的动作值,该动作值指每个分区的开始时间;

25、状态转移过程描述为一个四元组:(st,at,rt,st+1);式中,st表示时间步t的状态,at表示在状态st下智能体选择执行的动作,rt表示智能体在状态st下执行动作at后获得的即时奖励,st+1表示执行动作后环境进入的下一个状态;

26、奖励函数表示为:

27、

28、式中,n为调度问题中的任务数量,items_taken为全局的动作数组,cpu_time[i]表示分区的时间预算;

29、以此构造马尔可夫决策过程,构建虚拟环境。

30、进一步的,所述的将基于价值的强化学习算法与多头注意力机制进行结合,通过智能体与虚拟环境进行交互,学习得到最优状态-动作值函数,具体包括:

31、所述基于价值的强化学习算法为ddqn算法,该算法在学习过程中,每个智能体都会构建一个评估网络和一个目标网络,所述评估网络用于生成针对任务的调度策略,该评估网络的输入是状态s,输出是基于状态计算出的调度价值函数q(s,a,ω),ω表示评估网络的参数,所述目标网络则用于评估下一个状态的调度价值函数q(s',a',ω'),下一个状态的调度价值函数q(s',a',ω')将作为评估网络学习的目标值,ω'为目标网络的参数;

32、所述ddqn算法,包括:

33、首先,初始化经验回放池以及所有智能体的评估网络的参数ω和目标网络的参数ω';所述经验回放池用于存储智能体与环境交互产生的数据,该数据以四元组的形式存在,表示为(st,at,rt,st+1);

34、随后,每个智能体与环境进行交互,对于任意一个智能体,接收当前的状态s作为输入,利用ε-greedy探索策略选择动作a,执行该动作a;所述ε-greedy探索策略,表示为:

35、

36、式中,a表示动作,argmaxq(s,a)表示在当前状态s下选择q值最大的动作,p表示选择的概率,ε表示最低探索率;

37、选择下一个动作时,使用评估网络基于当前参数ω找到使q值最大的动作a'=argmaxq(s',a',ω),式中,a'表示下一个状态s′下所有可能动作的最大q值,s'表示下一个状态,ω表示策略网络的参数;

38、然后,观察环境并获取新的状态st+1和即时奖励rt;

39、当所有智能体与环境完成一轮互动后,从经验回放池中随机选取一批四元组;智能体利用评估网络计算当前状态的调度价值函数q(s,a,ω)并输出,并利用目标网络计算下一个状态的调度价值函数q(s',a',ω');随后,智能体根据这些计算结果构建损失函数,通过反向传播和梯度下降更新评估网络参数;在经过一定数量的迭代后,将评估网络参数复制到目标网络,更新目标网络的参数,这一系列步骤循环执行,直至达到预设的最大迭代次数或任务终止条件;

40、所述的智能体根据这些计算结果构建损失函数,通过反向传播和梯度下降更新评估网络参数,表示为:

41、使用时间差分误差来更新调度价值函数的参数,其公式为:l(θ)=|qe(st,a,θ)-qti|;式中,θ代表网络的参数集合,st表示输入的状态,a表示动作,qe(st,a,θ)表示用于估计在给定状态st和参数θ下,执行动作a时的q值,qti表示期望达到的目标q值,表示为:

42、qti=rt+λq(st+1,argmaxq(st+1,at+1,ω),ω')

43、式中,λ表示折扣系数;

44、在所述评估网络和目标网络中均引入多头注意力机制。

45、进一步的,所述评估网络和目标网络均包括编码器和解码器;

46、所述编码器由两个isab模块组成,用于对输入数据进行编码,捕捉集合中元素之间的关系;

47、所述解码器通过一个dropout层进行正则化,通过pma模块进行池化,提取固定数量的种子,再次通过dropout层进行正则化,最后通过一个全连接层将池化后的结果映射到输出维度;

48、其中,每个isab模块包括两个mab模块,第一个mab模块用于处理诱导点集合和输入集合之间的关系,第二个mab模块用于处理更新后的输入集合和诱导点集合之间的关系;所述pma模块为一个池化模块,通过mab模块实现,用于从输入数据中提取固定数量的种子,并通过多头注意力机制将这些种子与输入数据进行交互;

49、所述mab模块为最基本的注意力块,它接收查询q、键k和值v,通过多头注意力机制计算输出;

50、所述的通过多头注意力机制计算输出,包括:

51、将查询q、键k和值v在最后一个特征维度上分割成多个头;

52、对每个头独立地计算查询q与键k的点积,然后应用softmax函数得到注意力权重a;

53、使用注意力权重a对值v进行加权求和,得到每个头的输出;

54、将所有头的输出在最后一个维度上拼接起来,通过一个线性变换进行维度变换,得到最终的多头注意力输出。

55、本发明公开了一种基于强化学习的综合化航空电子系统可调度分析方法,包括以下步骤:

56、步骤1:根据综合化航空电子系统可调度问题设计马尔可夫决策过程,构建虚拟环境;

57、步骤2:将基于策略的强化学习算法与多头注意力机制进行结合,通过智能体与虚拟环境进行交互,学习得到最优策略函数;

58、步骤3:当智能体与环境进行交互时,使用步骤2得到的最优策略函数获得若干预选动作,根据预测的概率分布,为每个预选动作生成一个候选动作序列,并记录相应的状态转移和奖励更新;对所有候选动作序列按得分降序排序,记录并返回得分最高的候选动作序列及其对应的奖励,执行得分最高的候选动作序列。

59、进一步的,所述的根据综合化航空电子系统可调度问题设计马尔可夫决策过程,构建虚拟环境,具体包括:

60、对综合化航空电子系统可调度问题进行建模,具体操作包括:

61、按照下式,计算每核心上的分区执行任务所需的时间预算,表示为:

62、

63、式中,表示分区pi上被分配在核心c上的任务所需要的时间预算,csw表示从刚刚完成其执行的任务到下一个计划的任务的上下文切换所对应的开销;

64、

65、rj表示任务j执行时间,pidj表示任务所属分区代号,i表示分区代号,k表示分区所在的帧,pi表示分区的周期,tj表示任务的周期;

66、比较核心上的所有分区的时间预算,取最大值作为分区的总时间预算,具体计算公式如下:

67、

68、式中,表示分区pi在第k帧的总时间预算,c表示所在核心,nc表示核心数量;

69、maf为主时间框架,mif为次时间框架,将maf分为等长的帧,一个mif为一帧,mif的数量为nframes,maf和mif的长度与周期相关,周期总是mif长度的整数倍,表示为:

70、

71、

72、式中,pi表示分区标识,lcm表示最小公倍数,gcd表示最大公因数;

73、根据综合化航空电子系统可调度模型,构造马尔可夫决策过程,构建虚拟环境,具体操作包括:

74、在调度问题的求解过程中,每个状态下的可选行动是为当前分区分配一个开始时间,将动作空间定义为:at={v},v∈[0,maf];式中,v表示为当前分区分配的开始时间;

75、为了确定每个分区的开始时间,在状态定义中引入一个全局的动作数组,该动作数组用于存储在求解过程中每一次所选择的动作值,该动作值指每个分区的开始时间;

76、状态转移过程描述为一个四元组:(st,at,rt,st+1);式中,st表示时间步t的状态,at表示在状态st下智能体选择执行的动作,rt表示智能体在状态st下执行动作at后获得的即时奖励,st+1表示执行动作后环境进入的下一个状态;

77、奖励函数表示为:

78、

79、式中,n为调度问题中的任务数量,items_taken为全局的动作数组,cpu_time[i]表示分区的时间预算;

80、以此构造马尔可夫决策过程,构建虚拟环境。

81、进一步的,使用ppo算法作为基于策略的强化学习算法。

82、进一步的,所述ppo算法,具体包括:

83、首先,初始化经验回放缓存区以及actor网络和critic网络,所述actor网络扮演了策略函数的角色,负责与任务调度环境交互并生成调度动作,该actor网络接收环境状态作为输入,在计算后输出动作,critic网络对actor网络输出的动作进行评估;在训练过程中,critic网络接收状态矩阵作为输入,并计算在当前状态下采取最佳动作获得的最大奖励值,以帮助actor网络进行参数更新;

84、随后,每个智能体与环境进行交互,在环境中执行当前策略,收集训练样本(st,at,rt,st+1),将收集到的训练样本存储到经验回放缓存区;

85、按照下式计算重要性采样比rt(θ),表示为:

86、

87、其中,πθ(at|st)表示当前策略在t时刻智能体处于状态s所采取的行为概率,πθold(at|st)表示之前策略所采取行为概率;

88、按照下式计算优势函数,表示为:

89、

90、式中,表示优势函数,δt表示时间步t的td误差,γ表示折扣系数,λ表示基于广义优势估计的超参数,t表示调度结束的时间;

91、其中:

92、δt=rt+γv(st+1)-v(st)

93、式中,v(·)表示对状态的价值函数估计;

94、在每个迭代中,从经验回放缓存区中采样训练样本;

95、按照下式计算目标函数lclip(θ):

96、

97、其中,ε表示截断超参数,clip(·)表示截断函数,采用截断函数clip(·)对截断超参数ε进行限制,确保比例rt取值在[1-ε,1+ε]区间内;同时,通过min函数选择未经截断和截断目标的较小值作为下限;

98、对于critic网络,利用均方误差l(μ)作为其损失函数,以便更新网络参数,表示为:

99、

100、式中,et表示表示对时间步t的期望;

101、更新actor网络和critic网络的网络参数,以最小化lclip(θ)和l(μ);

102、当达到预设的最大迭代次数或任务终止条件时,算法结束,并输出训练后的网络;在所述actor网络和critic网络中均引入多头注意力机制。

103、有益效果:本发明与现有技术相比,具有以下优点:

104、(1)本发明方法在任务已完成分配后的情况下,考虑多核处理器和分区对调度结果带来的影响,对系统进行建模,定义所需要的变量,给出了航空电子系统任务调度问题的马尔可夫决策过程建模,基于ddqn算法与ppo算法,使用随机生成的调度问题实例训练神经网络,并引入多头注意力机制对算法进行优化,构建一套基于强化学习的调度算法,自动、安全、优化地生成分区调度的结果;

105、(2)本发明方法为航空电子系统提供了一种多核场景下的任务调度方法,用强化学习的手段代替手工迭代的过程,提高效率和节省大量的人力和时间成本的同时,可以更加安全、优化地得到预期的结果;

106、(3)本发明方法使用基于多头注意力机制的强化学习方法解决了航空电子系统调度问题,引入多头注意力机制,可以关注任务之间的相关性,提高调度效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1