天地空一体化网络中面向综合效益的资源智能化协同调度方法

文档序号:30615548发布日期:2022-07-02 00:52阅读:127来源:国知局
天地空一体化网络中面向综合效益的资源智能化协同调度方法

1.本发明属于天地空一体化网络资源调度领域,具体涉及一种天地空一体化网络中面向综合效益的资源智能化协同调度方法。


背景技术:

2.卫星互联网将会与地面网络组成天地空一体的融合网络,这种三维空间的覆盖不受地域限制,一体化网络下的互联互通,可以很大程度上解决如地理位置,灾后救援等实际需求无法满足的问题,高效的完成不同用户的通信需求。
3.但天地空一体化网络由于网络的构成复杂,卫星的动态性使得网络拓扑时刻变化,节点的数量众多且节点之间的连接关系也很复杂,给资源调度不可避免的带来了较高的计算时间上的开销以及具有很大误差的准确性。卫星的资源的约束也导致了很难用有限的资源去调度完成海量的业务需求。所以如何高效的进行资源调度时天地空一体化网络急需解决的问题之一。
4.传统进行资源调度的方法包括先来先服务算法、短服务时间作业优先算法、划分不同优先级算法、加权公平队列算法、基于流量估计的加权轮询,像这一类传统的调度通常用于研究单颗高轨卫星在地球静止轨道下的资源调度,不适用于天地空一体化下网络的异构性,拓扑的动态性,多星协同等特征,在此类环境下用户业务资源调度的时间复杂度很高,计算开销占比巨大,难以保证调度工作正常运行。而基于ai技术的资源调度虽有一定优势,减少了海量业务调度问题的时间开销,但对于一体化下资源协同进行调度或部分非日常业务等的需求难以有效满足。


技术实现要素:

5.本发明的目的在于克服上述不足,提供天地空一体化网络中面向综合效益的资源智能化协同调度方法,以解决现有技术中在资源调度过程中,没有考虑天地一体化网络,同时没有考虑在异构性网络和动态性拓扑的环境下海量需求各异的任务采取之前的方案进行资源调度造成不适用,性能低下,严重误差,计算开销大等问题。
6.为了达到上述目的,本发明包括以下步骤:
7.s1,选取阈值内的时间区间作为静态时间区间,将所需时间段划分为若干静态时间区间,将所有静态时间区间对应为网络拓扑,完成天地空一体化网络拓扑的建模;
8.s2,接收业务请求资源信息;
9.s3,获取当前天地空一体化网络中资源状态信息集合;
10.s4,根据业务请求资源信息和当前天地空一体化网络中资源状态的信息集合初始化调度算法策略模型,确定约束条件,初始化不同调度算法的权重系数;
11.s5,根据初始化后的不同调度算法的权重系数,对不同调度算法进行强化学习优化,得到集成算法模型,通过强化学习优化的实际反馈信息检测此次调度的有效性,作为之
后强化学习优化的奖励函数并决定规则奖励度,调整调度算法的权重系数;
12.s6,将调整后的调度算法权重系数送入s5中,改进天地空一体化网络中资源的调度策略,直至实现满足综合效益的资源调度。
13.天地空一体化网络拓扑包括各类卫星、地面节点及链路。
14.业务请求资源信息包括业务请求的服务端、客户端、带宽情况以及业务的优先级情况。
15.接收的业务请求资源信息包括j个不同需求的业务组成业务集合w,w={1,2,
···
,i,j},其中每一个业务i在发出请求时都有特定的请求信息组成,即wn={wjs,wjc,wjb,wjg},wjs、wjc、wjb和wjg分别代表为j业务请求的服务端、客户端、带宽情况以及业务的优先级情况。
16.s4中,约束条件包括调度方案需要满足从属于此用户业务的请求起始节点集合begin、请求终点节点集合end以及两节点之间的链路集合link。
17.begin、end、link满足以下约束条件:
[0018][0019]vy
nodeic》0
[0020]vy
nodejs》0
[0021][0022]
通过分配的权重系数得到一个初始的调度算法。
[0023]
s5中,通过强化学习优化的实际反馈信息检测此次调度的有效性时,通过资源利用率以及实际业务服务质量来进行调度结果检测,通过目前调度方案和资源状态更新此权重系数形成的策略和信息,更新方式如下:
[0024][0025]
其中,为学习率,μ为衰减因子,correct为获得的奖励。
[0026]
决定规则奖励度的奖励函数为:
[0027]
r=θ*ru+(1-θ)*rs
[0028]
其中,θ为权重系数;
[0029]
ru为调度各类资源利用率以及实际业务服务质量为总体优化目标,资源利用率包括cpu资源、存储资源以及带宽资源利用率,奖励函数为:
[0030][0031]
其中,rescpu为cpu资源利用率,resstorge为存储资源利用率,resbw为带宽资源利用率,ε1、ε2和ε3为权重系数;
[0032]
实际服务质量qos关注调度策略完成此业务的时长、业务的时延、业务的传输速率和业务的抖动,将执行此调度策略后业务服务着重点进行组合,形成本次业务的实际服务质量,总体实际服务质量的奖励函数为:
[0033][0034]
其中,stime为业务的时长,sdelay为业务的时延,srate为业务的传输速率,sd为
业务的抖动,ε4、ε5、ε6和ε7为权重系数。
[0035]
此次调度的奖励函数值r与此门限值进行比较,则:
[0036]
如果r》r
lim
,则在此调度策略下奖励度为reward
schedule
=reward
schedule
+correct,调高权重系数;
[0037]
如果r《r
lim
,,则在此调度策略下奖励度reward
schedule
=reward
schedule-correct,降低权重系数。
[0038]
与现有技术相比,本发明通过对天地空一体化网络的拓扑状态进行分析,以强化学习为研究工具,联合调度各类资源利用率以及实际业务服务质量为总体优化目标,借助业务分析模块,判断日常业务请求的资源需求,进行资源的合理分配与调度,面向于综合效益,而非单纯的某一类资源的利用率。本发明采取强化学习策略从历史的调度经验中进行自主学习并进行知识更新将评价标准进行权重分配,在资源调度问题中选取最合理的基于全局性的规划决策,并根据此次完成的反馈信息进行学习改进,更好的适应在天地空一体化网络环境中动态的资源调度,旨在提高业务资源调度服务质量的同时提升资源调度的合理性以及减少资源的浪费,实现满足综合效益的资源调度方法。本发明通过采取强化学习策略选取最合理的基于全局性的规划决策进行资源调度,其考虑到了在基于ai的资源调度中通过优先级的方式进行业务的区分,可对特殊业务进行紧急资源调度。
附图说明
[0039]
图1为天地空一体化网络拓扑图;
[0040]
图2为天地空一体化网络通信业务服务路径图;
[0041]
图3为强化学习过程示意图;
[0042]
图4为资源智能化协同调度流程图。
具体实施方式
[0043]
下面结合附图对本发明做进一步说明。
[0044]
本发明通过对天地空一体化网络的拓扑状态进行分析,以强化学习为研究工具,联合调度各类资源利用率以及实际业务服务质量为总体优化目标,借助业务分析模块,判断日常业务请求的资源需求,进行资源的合理分配与调度,采取强化学习策略从历史的调度经验中进行自主学习并进行知识更新将评价标准进行权重分配,在资源调度问题中选取最合理的基于全局性的规划决策,并根据此次的业务完成的反馈信息进行学习改进,更好的适应在天地空一体化网络环境中动态的资源调度,实现满足综合效益的资源调度方法,具体包括以下步骤:
[0045]
步骤1,对天地空一体化网络拓扑结构进行分析建模。根据实际情况,选取一个较短的时间区间,天地空一体化的拓扑结构我们可以看做是静态没有变化的,所以我们可以选取需要研究的时间段,将此时间段划分为各个较短的时间区间,则可以通过该时间区间的静态结构对应为网络拓扑图,在这各时间段内就可以反映出天地空一体化网络拓扑结构的动态变化。
[0046]
对于卫星节点s={satnum,satorb,satfun},其中satnum,satorb,satfun分别代表卫星的编号,卫星所在的轨道信息,卫星的功能属性信息;
[0047]
对于地面节点g={gnum,gpos},gnum,gpos分别代表地面节点的编号,地理位置信息;
[0048]
链路包括星间链路,星地链路,不同节点的资源状态信息就组成了天地空一体化网络中的资源状态信息集合,可表示为l={si,l
ij
,vl
ik
},si,l
ij
,vl
ik
分别代表i节点的编号、i节点和j节点当前链路可用带宽和i节点是否对业务k可见。
[0049]
拓扑图模型为:topo={time,mat,attr},其中time代表天地空一体化网络运行中的特定某一时刻、mat代表在某时刻下的关系矩阵情况即节点之间的连接情况,取值为1或0,表示俩节点是否存在连接,1表示节点之间存在连接,0表示节点之间不存在连接、attr表示此连接的连接编号、连接属性、连接的类型、连接状态信息。最终可得到天地空一体化网络拓扑结构随不同时间区间变化的的拓扑模型,可参考图1所示。
[0050]
步骤2,接收业务请求资源信息。
[0051]
海量通信用户业务由j个不同需求的业务组成业务集合w={1,2,
···
,i,j},其中每一个业务i在发出请求时都有特定的请求信息组成,即wn={wjs,wjc,wjb,wjg},wjs,wjc,wjb,wjg分别代表为j业务请求的服务端、客户端、带宽情况以及业务的优先级情况。通信业务服务可选择路径如图2所示。
[0052]
步骤3,收集并更新一体化网络资源信息。获取当前天地空一体化网络中资源状态信息集合。如步骤1中描述可得。
[0053]
步骤4,初始化调度算法策略模型,初始化多个调度算法的权重。
[0054]
约束条件包括此调度方案需要满足从属于此用户业务的请求起始节点集合begin、请求终点节点集合end以及两节点之间的链路集合link,其中begin、end、link满足以下约束条件:
[0055][0056]vy
nodeic》0(2)
[0057]vy
nodejs》0(3)
[0058][0059]
其中node为网络中所以节点编号的集合,node={a,b,

,y},l为业务客户端到服务端可达的星间链路路径集合,l={(ab,bd,

,iy)

},其中,ab等为节点链路之间相互连接的编号,即节点a与节点b存在连接链路,这一组集合则代表从节点a到节点y可达的路径集合,l中的每一组则代表为此业务服务的满足条件的路径集合。
[0060]
最终的调度路径为包含于l集合里且满足起始节点编号包含于begin集合,结束节点编号包含于end集合,满足于条件(1);节点i对业务y的客户端是否可服务,节点j对业务y的服务端是否可服务,begin节点集合要对用户业务j客户端可见,end节点要对用户业务j服务端可见,分别满足于条件(2),(3);且选择的节点直接对应的链路资源可用的带宽量都要大于用户业务请求的带宽资源量,满足于条件(4)。
[0061]
在满足约束的情况下,选取基本的n个调度算法。初始化权重各为1/n,通过分配的权重系数得到一个初始的调度算法。则可得到
[0062][0063]
学习器通过本次各个调度算法的权重系数组合形成的调度策略结果,包括资源利
用率以及实际业务服务质量来进行调度结果检测,通过目前调度方案,资源状态等更新此权重系数形成的策略和信息。可通过以下公式进行策略的更新:
[0064][0065]
公式中,为学习率,μ为衰减因子,correct为获得的奖励,根据当前调度方案的调度结果进行实时更新策略,实现资源调度综合效益最大化。
[0066]
步骤5,更新调度算法策略模型。
[0067]
集成多个基本调度算法通过强化学习优化权重系数得到集成算法模型,强化学习过程示意图如图3所示。联合调度各类资源利用率以及实际业务服务质量为总体优化目标,通过本次调度实际反馈信息检测此次调度的有效性,根据此效用性作为之后强化学习的奖励函数并决定规则奖励度,不断优化权重系数,改进在天地空一体化网络中资源的的调度策略,选取最合理的基于全局化的规划决策,实现满足综合效益的资源调度,具体包括以下步骤:
[0068]
(1)根据实际调度情况来检测本次权重系数分配后的业务调度资源的情况来检测总体优化目标,包括资源利用率以及实际业务服务质量。资源利用率规定阈值为70%,实际服务质量规定阈值为70%,如果资源利用率小于阈值或实际服务质量小于阈值,则证明此次调度动作是无效的,若两者都大于阈值,则证明此次调度方案是有效的。
[0069]
(2)通过步骤4得到如先来先服务调度算法,短作业优先调度算法,优先级队列调度算法的初始化权重,进而得到一个初始化的调度算法方案,选取总体优化目标,包括总体资源利用率以及实际业务服务质量。
[0070]
在节点a上统计出此次调度后运行的资源实际利用率主要包括rescpu,resstorge,resbw分别代表cpu资源、存储资源以及带宽资源这三类,将执行此调度策略后分配的所有节点的资源实际利用率进行组合,形成本次的总体实际资源利用率,则总体实际资源利用率的奖励函数为:
[0071][0072]
其中将各个节点上各项资源利用率衡量指标相加后进行权重分配,得到总的资源利用率奖励函数。
[0073]
实际服务质量qos主要关注stime、sdelay、srate、sd这四类,分别代表调度策略完成此业务的时长、业务的时延、业务的传输速率、业务的抖动,将执行此调度策略后业务服务着重点进行组合,形成本次业务的实际服务质量。则总体实际服务质量的奖励函数为:
[0074][0075]
其中将各个节点上通过此调度方法得到的各项服务质量衡量指标相加后进行权重分配,得到总的服务质量奖励函数。ε1、ε2、ε3、ε4、ε5、ε6、ε7为每一项的权重系数,且相加为1。
[0076]
(3)通过本次调度的效用性作为强化学习的奖励函数r。通过实际资源利用率以及实际服务质量定义整体奖励函数为:
[0077]
r=θ*ru+(1-θ)*rs(8)
[0078]
其中,θ为权重系数,由实际关注点来决定具体取值。
[0079]
(4)学习器确定奖励度,通过当前的天地空一体化网络资源调度的决策方案以及
目前总体资源的状态等信息进行确定。
[0080]
设r
lim
为步骤(3)中奖励函数的阈值,此阈值的取值范围为[0,2],取此门限值为1,将此次调度后的资源利用率和实际服务质量计算得出结果,将correct作为此次调度方案下奖励度的修正值。
[0081]
将此次调度的奖励函数值r与此门限值进行比较,则:
[0082]
如果r》r
lim
,则证明此调度策略是有效的,则在此调度策略下奖励度为:
[0083]
reward
schedule
=reward
schedule
+correct(9)
[0084]
之后加强在此环境下做出此调度动作的趋势;
[0085]
如果r《r
lim
,则证明此调度策略是无效的,则在此调度策略下奖励度为:
[0086]
reward
schedule
=reward
schedule-correct(10)
[0087]
之后就减弱在此环境下出现此调度动作的趋势。
[0088]
(5)采用规则奖励度的值来确定下一次调度权重系数的分配,最终形成一个调度动作,综合资源调度的综合效益,达到最优的调度方法进行资源调度。整个天地空一体化网络中资源智能化协同调度流程图如图4所示。
[0089]
实施例
[0090]
在天地空一体化网络中,对于卫星网络节点:
[0091]
s={satnum,satorb,satfun}(11)
[0092]
其中satnum,satorb,satfun分别代表卫星的编号,卫星所在的轨道信息,卫星的功能属性信息;
[0093]
对于地面网络节点g={gnum,gpos}(12)
[0094]
gnum,gpos分别代表地面节点的编号,地理位置信息;
[0095]
链路包括星间链路,星地链路,不同节点的资源状态信息就组成了天地空一体化网络中的资源状态信息集合,可表示为:
[0096]
l={si,l
ij
,vl
ik
}(13)
[0097]
si,l
ij
,vl
ik
分别代表i节点的编号、i节点和j节点当前链路可用带宽和i节点是否对业务k可见。
[0098]
拓扑图模型为:topo={time,mat,attr}(14)
[0099]
借鉴传统地面网络应用场景,考虑天地空一体化信息网络的时变性和异构性特点,选取需要研究的时间段,将此时间段划分为各个较短的时间区间,则可以通过该时间区间的静态结构对应为网络拓扑图,在这各时间段内就可以反映出天地空一体化网络拓扑结构的动态变化。
[0100]
接收业务请求资源信息,收集并更新天地空一体化网络中资源,初始化调度算法策略模型,初始化多个调度算法的权重。约束条件包括此调度方案需要满足从属于此用户业务的请求起始节点集合begin、请求终点节点集合end以及两节点之间的链路集合link,其中begin、end、link满足以下约束条件:
[0101][0102][0103]vy
nodeic》0(17)
[0104]vy
nodejs》0(18)
[0105]
l
ij
≥wjb(19)
[0106]
进行策略的更新:
[0107][0108]
更新调度算法策略模型,集成多个基本调度算法通过强化学习优化权重系数得到集成算法模型,联合调度各类资源利用率以及实际业务服务质量为总体优化目标,通过本次调度实际反馈信息检测此次调度的有效性,根据此效用性作为之后强化学习的奖励函数并决定规则奖励度。资源利用率主要考虑cpu资源、存储资源以及带宽资源,奖励函数为:
[0109][0110]
实际服务质量qos主要关注调度策略完成此业务的时长、业务的时延、业务的传输速率、业务的抖动,则总体实际服务质量的奖励函数为:
[0111][0112]
通过本次调度实际反馈信息检测此次调度的有效性,根据此效用性作为之后强化学习的奖励函数并决定规则奖励度,通过实际资源利用率以及实际服务质量定义整体奖励函数为:
[0113]
r=θ*ru+(1-θ)*rs(23)
[0114]
将此次调度的奖励函数值r与此门限值进行比较,则:
[0115]
如果r》r
lim
,则证明此调度策略是有效的,则在此调度策略下奖励度为reward
schedule
=reward
schedule
+correct,之后加强在此环境下做出此调度动作的趋势;
[0116]
如果r《r
lim
,则证明此调度策略是无效的,则在此调度策略下奖励度reward
schedule
=reward
schedule-correct,之后就减弱在此环境下出现此调度动作的趋势。
[0117]
不断优化权重系数,改进在天地空一体化网络中资源的的调度策略,选取最合理的基于全局化的规划决策,实现满足综合效益的资源调度。
[0118]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1