面向差异化业务的高吞吐跳波束调度方法

文档序号:30421998发布日期:2022-06-15 13:34阅读:652来源:国知局
面向差异化业务的高吞吐跳波束调度方法

1.本发明涉及卫星通信领域,具体而言涉及一种跳波束卫星波束分簇调度方法,可用于卫星覆盖区域业务需求动态变化较快的场景下,为不同业务需求小区进行合理的卫星资源分配。


背景技术:

2.早期单波束多为全球波束或区域波束,波束宽度宽,天线增益小。为了应对业务需求的飞速增长,采用了以点波束为基础的多波束技术。其波束很窄,所以增益较高,再加上频率复用技术,显著提高了卫星的系统容量,服务了更多的业务。但随着通信及物联网的快速发展,地面业务呈现出时空分布不均匀的特性,尤其是低轨卫星的高动态性更加面临业务的不均匀性。为了解决这个问题,提高资源利用率,尽量避免出现“过劳不均”的情况,提出了跳波束技术,从而进一步提高系统容量。但现有跳波束技术在资源分配方面,通常只基于地面业务需求的非均匀性进行设计,集中在寻找最佳的吞吐量,以满足不同区域的容量需求,但未考虑业务类型、时延等因素。而在实际过程中,不同用户的业务时延要求是不同的。为了保障用户体验,需要综合考虑吞吐量及业务时延要求。在分簇方面,出于简化系统考虑以及提高资源利用率,通常采用均匀分簇、均匀功率分配、全频复用的方式,也就是说每个簇分配的功率都是一致且不可调的。在簇间资源相同的情况下,不考虑簇间业务的不均匀性,均匀分簇,会出现过载或欠载现象。
3.中国人民解放军陆军工程大学在其申请的专利文献“基于时隙分配算法的跳波图案优化方法及装置、存储介质”(专利申请号201910675600.0,申请公布号cn 110518956 a)中公开了一种分簇场景下的改进的跳波束时隙分配方法。该方法先通过预分配的方式为每个小区分配时隙数,然后再利用同频干扰距离门限进行再分配,在提升系统容量的同时有效排除干扰对信号质量的影响。但该方法由于未考虑业务时延性能,导致实时业务可能因超时等待而失效。
4.上海垣信卫星科技有限公司申请的专利文献“一种基于跳波束调度资源的方法”(专利申请号201811070246.0,申请公布号cn 109121147 a)中公开了一种针对低轨跳波束卫星波束调度方法。该方法将卫星覆盖区域用两个三维矩阵进行表征。其中,第一个矩阵为用户实际需求矩阵,加上一个时间维度构成三维矩阵;第二个矩阵为跳波束服务矩阵,同样添加一个时间维度。通过两个矩阵相乘得到待优化目标矩阵,然后求解。该方法解决了低轨卫星的快速移动场景下,卫星容量与地面需求匹配的问题。但随着卫星波束和波位小区数量的增加,该方法面向全局调度的优化算法的搜索空间急剧增大,算法复杂度提高。


技术实现要素:

5.本发明的目的在于克服上述现有技术的不足,提出了一种面向差异化业务的高吞吐跳波束调度方法,以在保障吞吐量的同时,提高资源利用率,并降低计算复杂度。
6.本发明实现上述目的的具体思路是:通过建立基于免疫算法的负载均衡分簇模
型,将卫星覆盖范围内的波位小区划分为不同的簇,降低计算复杂度;通过构建面向时延容忍度约束的波束资源调度模型,采用基于优先级回放的深度强化学习方法,完成波束资源调度。
7.根据上述思路,本发明技术方案包括如下:
8.(1)生成卫星覆盖范围内的分簇结果:
9.1a)将卫星覆盖范围内的波位小区划分不同的簇;
10.1b)根据各簇间负载均衡原则和簇内波位小区地理位置就近原则,建立簇间负载均衡的分簇模型:
[0011][0012]
s.t.c1:d
mn
≤s,m∈m
i and n∈mi[0013][0014]
其中,p为最小化簇间负载均方差的目标函数,k簇的数量,n为波位小区的数量,rj为小区j的业务需求量,x
ij
表示波位j是否属于簇i,r为k个簇的负载均值,c1为距离约束条件,c2为保证一个波位小区只属于一个簇的约束条件,m,n表示同一个簇内的两个波位小区,d
mn
表示m小区和n小区的波位中心距离,s为簇内两个波位中心的距离上限,mi表示属于簇i的波位小区的集合;
[0015]
1c)利用免疫算法对簇间负载均衡的分簇模型进行求解,得到分簇结果;
[0016]
(2)建立簇内波束动态调度模型:
[0017]
2a)根据不同业务类型对时延的要求,为其确定以跳变时隙为单位的时延容忍度;
[0018]
2b)执行不同类型的数据包在星上缓存队列等待被下发的过程,且每经过一个跳变时隙,对应的时延容忍度就减一,当数据包在星上等待时延超过其容忍度时将会被丢弃,视为超时失效;
[0019]
2c)根据最大化业务服务保障率和最小化业务超时失效率的原则,建立基于时延容忍度的跳波束调度模型:
[0020][0021][0022][0023][0024]
其中,p1为最大化簇内业务服务保障率,t为跳波束卫星对同一区域覆盖时间范围内的所有决策时刻的集合,n为簇内总波位小区数,表示在tj时隙结束后向小区n发送的数据包量,表示截止到tj时隙,卫星接收到发往小区n的总数据包量,p2为最小化簇内业
务超时失效率,表示目的地址为波位小区n的数据包因超时等待而失效的数据包量,c1为保证簇内每个跳变时隙内获得波束调度的小区个数为1,c2为保证当前时刻星上数据包不超过最大限制,表示在tj时隙波位小区n是否被工作波束照射,表示被照射,反之,未被照射,表示在tj时隙结束后波位小区n对应的卫星存储器中存储的数据包数量,l为星上每个波位小区缓存队列的最大容量;
[0025]
(3)在(1)划分的每个簇内,建立(2)所述的波束动态调度模型,并将该调度模型问题视为马尔科夫决策过程,根据深度强化学习进行求解,得到波束调度结果。
[0026]
本发明与现有技术相比具有如下优点:
[0027]
第一、计算复杂度得到降低:针对功率均匀分配、全频复用的卫星系统,随着卫星波束和波位小区数量的增加,面向全局调度的优化算法的搜索空间急剧增大,算法复杂度提高;而本发明建立的负载均衡分簇模型,将一个复杂的任务拆分为多个子任务,缩小了搜索空间,从而降低了计算复杂度。
[0028]
第二、系统服务保障率得到提高:与现有的跳波束调度算法相比,本发明在调度过程中考虑到业务的差异化,提出了基于时延容忍度的波束调度模型,具体操作时,以最大化业务服务保障率和最小化业务超时失效率为目标函数建立优化问题,使得系统吞吐量增大的同时,业务服务保障率提高,业务超时失效率降低。
附图说明:
[0029]
图1是本发明的实现总流程图;
[0030]
图2是本发明中利用免疫算法求解负载均衡分簇模型的子流程图;
[0031]
图3是本发明中的波位小区分布图;
[0032]
图4是本发明中的分簇结果图;
[0033]
图5是本发明中的状态重构图;
[0034]
图6是本发明与现有全局跳变算法的深度强化学习收敛速度对比图;
[0035]
图7是本发明与现有不同跳变算法的归一化吞吐量对比图;
[0036]
图8是本发明与现有不同跳变算法的服务保障率对比图。
具体实施方式
[0037]
为使本发明的上述目的、特征和优点能更明显易懂,以下结合实例和附图作进一步详细描述。
[0038]
本实例包括两大部分:第一部分是使用免疫算法产生负载均衡的分簇结果,第二部分是使用深度强化学习算法得到波束动态调度结果。
[0039]
参照图1,本实例的实现步骤如下:
[0040]
第一部分:使用免疫算法产生负载均衡的分簇结果。
[0041]
步骤1,将卫星覆盖范围内的波位小区划分不同的簇。
[0042]
初始化跳波束卫星覆盖范围内所有小区业务请求量和地理位置,如图3所示,其包括覆盖区19个波位小区的相对地理位置、每个小区的业务请求量和波位小区编号;
[0043]
根据单星所拥有的工作波束数k确定划分的簇数,将工作波束与簇一一对应,每个
工作波束负责在一个簇内进行波束动态调度。
[0044]
本实例设置卫星拥有3个工作波束,根据单星工作波束与簇一一对应的关系,则划分3个簇,每个工作波束负责在一个簇内进行波束动态调度。
[0045]
步骤2,根据各簇间负载均衡原则和簇内波位小区地理位置就近原则,建立簇间负载均衡的分簇模型。
[0046]
2.1)确定每个波位小区的业务请求量,计算卫星覆盖区域内所有小区的业务请求量之和s;
[0047]
2.2)计算k个簇的负载均值建立负载均衡优化目标:
[0048][0049]
其中,p为最小化簇间负载均方差的目标函数,k簇的数量,n为波位小区的数量,rj为小区j的业务需求量,x
ij
表示波位j是否属于簇i,r为k个簇的负载均值;
[0050]
2.3)确定簇内两个波位中心的距离上限s,建立距离约束条件:
[0051]dmn
≤s,m∈m
i and n∈mi[0052]
其中,m,n表示同一个簇内的两个波位小区,d
mn
表示m小区和n小区的波位中心距离,mi表示属于簇i的波位小区的集合。
[0053]
2.4)将2.2)中的负载均衡优化目标与2.3)中的距离约束条件相结合,得出簇间负载均衡的分簇模型:
[0054][0055]
其中,p为最小化簇间负载均方差的目标函数,k簇的数量,n为波位小区的数量,rj为小区j的业务需求量,x
ij
表示波位j是否属于簇i,r为k个簇的负载均值,c1为距离约束条件,c2为保证一个波位小区只属于一个簇的约束条件,m,n表示同一个簇内的两个波位小区,d
mn
表示m小区和n小区的波位中心距离,s为簇内两个波位中心的距离上限,mi表示属于簇i的波位小区的集合。
[0056]
步骤3,利用免疫算法对簇间负载均衡的分簇模型进行求解,得到分簇结果。
[0057]
参照图2,本步骤的具体实现如下:
[0058]
3.1)初始化各簇中心波位种群和记忆库,即根据波位小区数量和划分簇数设置迭代次数ne、种群规模s、记忆库容量o,交叉概率pc、变异概率pm、多样性评价参数ps,并设置当前迭代次数n=0;随机产生m个初始分簇中心抗体群,本实施例中m为35;
[0059]
3.2)针对分簇模型,设计亲和度函数:
[0060][0061]
其中,av为亲和度函数,p为最小化簇间负载均方差的目标函数p,c是针对不满足距离要求的解的惩罚常数,y表示不满足距离约束条件c1的波位数;
[0062]
3.3)根据3.2)中的适应度函数表达式,计算所有个体的适应度函数值;
[0063]
3.4)计算所有个体的繁殖率和抗体浓度:
[0064]
3.4.1)计算两个抗体之间的亲和力:
[0065][0066]
其中,s
v,s
为抗体与抗体之间亲和力,k
v,s
表示抗体s和抗体v相同的位数,l表示抗体的长度;
[0067]
3.4.2)根据3.4.1)结果计算抗体浓度:
[0068][0069][0070]
其中,cv为抗体浓度,n为抗体总数,t为预先设置的阈值;
[0071]
3.4.3)根据适应度函数和抗体浓度,计算繁殖率:
[0072][0073]
其中,p为繁殖率,α为常数,av为适应度函数值,cv为抗体浓度;
[0074]
3.5)根据繁殖率,将高适应度、第低抗体浓度的个体加入记忆库,并取前s个形成父代群;
[0075]
3.6)采用轮盘赌的选择机制选择个体进行交叉、变异,得到新群体,再从记忆库中取出部分个体与该新群体共同构成新群体;
[0076]
3.7)判断是否达到最大迭代次数ne:
[0077]
若达到迭代次数ne,则输出最优分簇结果a,
[0078]
否则,重复3.3)-3.6),直到达到迭代次数ne,输出最优分簇结果a。
[0079]
本实施例中得到的分簇结果如图4所示,其中相同颜色的波位小区为一个簇。
[0080]
第二部分:使用深度强化学习算法得到波束动态调度结果。
[0081]
步骤4,根据不同业务类型对时延的要求,确定以跳变时隙为单位的时延容忍度。
[0082]
4.1)计算数据包在到达目的卫星前的传输过程中经过的时延:
[0083]
t
delay_1
=t
prop
+t
trans
[0084]
其中,t
delay_1
为到达目的卫星前经历的总时延,t
prop
为传播时延,t
trans
为传输时延;
[0085]
4.2)预估数据包从目的卫星发送到用户终端的传输时延t
delay_2

[0086]
4.3)确定该数据包所属业务类型的qos保障中时延限制t
limit
,确定跳波束跳变时隙的长度bh
slot
,计算该数据包的剩余时延容忍度:
[0087][0088]
其中,d
tole
为剩余时延容忍度,t
delay_1
为到达目的卫星前的传输过程中经历的总时延。本实施例中设置3中业务类型,剩余时延容忍度分别为2、4、20。
[0089]
步骤5,剩余时延容忍度会随时间不断减小。
[0090]
执行不同类型的数据包在星上缓存队列等待被下发的过程,且每经过一个跳变时隙,对应的时延容忍度就减一,当数据包在星上等待时延超过其容忍度时将会被丢弃,视为超时失效。
[0091]
步骤6,根据最大化业务服务保障率和最小化业务超时失效率的原则,建立基于时延容忍度的跳波束调度模型。
[0092]
6.1)表征簇内跳波束系统场景:
[0093]
设一个工作波束服务簇内n为波位小区,各小区业务请求量以数据包形式表示,服从到达率为λi,i=1,2,...,n的泊松分布;
[0094]
将每个波位小区对应的卫星存储器中存储的数据量表示为其中表示在tj时隙结束后,第n个波位小区对应的卫星存储器中存储的数据包数量;
[0095]
6.2)依据各小区数据包到达情况,建立最大化业务服务保障率和最小化业务超时失效率的优化目标函数:
[0096][0097][0098]
其中,p1为最大化簇内业务服务保障率,p2为最小化簇内业务超时失效率,t为跳波束卫星对同一区域覆盖时间范围内的所有决策时刻的集合,n为簇内总波位小区数,表示在tj时隙结束后向小区n发送的数据包量,表示截止到tj时隙卫星接收到发往小区n的总数据包量,表示目的地址为波位小区n的数据包因超时等待而失效的数据包量;
[0099]
6.3)根据工作波束与簇一一对应关系,建立波束约束条件:
[0100][0101]
其中,表示在tj时隙波位小区n是否被工作波束照射,表示被照射,反之,未被照射;
[0102]
6.4)确定星上每个波位小区缓存队列的最大容量l,建立缓存约束条件:
[0103][0104]
其中,表示在tj时隙结束后波位小区n对应的卫星存储器中存储的数据包数量,l为星上每个波位小区缓存队列的最大容量;
[0105]
6.5)将6.2)中的最大化业务服务保障率与最小化业务超时失效率的优化目标函数与6.3)中的波束约束条件和6.4)中的缓存约束条件相结合,得出基于时延容忍度的跳波束调度模型:
[0106][0107][0108][0109][0110]
其中,c1为波束约束条件,保证簇内每个跳变时隙内获得波束调度的小区个数为1,c2为缓存约束条件,保证当前时刻星上数据包不超过最大限制。
[0111]
步骤7,在第一部分的每个簇内,建立6.5)中所述的波束调度模型,并将每个调度模型问题视为马尔科夫决策过程。
[0112]
马尔科夫决策过程包括状态、动作、奖励的设计,将波束调度模型中的最大化业务服务保障率与最小化业务超时失效率的优化目标函数转换为奖励,将波束调度模型中的波束约束条件转换为动作,将各波位小区具有时延容忍度的数据包到达情况转换为状态,具体实现如下:
[0113]
7.1)设计状态为当前时隙每个波位队列中拥有的不同剩余时延容忍度的待传数据包个数矩阵为:
[0114][0115]
其中,为tj时隙时的状态,为二维状态矩阵;
[0116]
该矩阵是由当前时隙簇内各波位缓存队列中的数据包到达情况重构得到的,具体状态重构过程如图5所示,其中波位n代表簇内编号为n的小区,t
th
为所有业务类型中最大的时延容忍度,tj为数据包在等待过程中所经历的时隙,
“×”

“○”

“△”
分别代表三种不同类型的业务数据包到达,将图5左图所示的当前时隙簇内各波位队列中的数据包数量按类型划分得到右图矩阵行号代表剩余时延容忍度,列号代表波位小区编号,矩阵a行b列中的值代表波位小区b中剩余时延容忍度为a的数据包数量;
[0117]
7.2)设计动作为当前时隙选择照射的波位小区:
[0118][0119]
其中,为tj时隙时选择的动作,xn表示波位在该时隙是否被工作波束照射,n为簇内的波位小区总数;
[0120]
7.3)设计奖励为当前时隙处理包数与失效包数差:
[0121][0122]
其中,为tj时隙执行动作后获得的奖励,表示当前时隙选择动作后,系统总处
理的包数,为当前时隙总超时失效的包数。
[0123]
步骤8,依据步骤7的马尔科夫决策过程设计,利用深度强化学习进行求解,得到波束调度结果。
[0124]
8.1)初始化参数:
[0125]
8.1.1)初始化跳波束卫星簇内场景参数:
[0126]
根据步骤3得到的分簇结果,确认每个簇内的波位小区参数和波束参数;该簇内波位小区参数包括簇内小区的编号、簇内小区的业务请求量、业务类型、数据包大小;波束参数包括单波束工作带宽、单波束功率;
[0127]
8.1.2)初始化深度强化学习参数:
[0128]
将工作波束作为智能体,簇内数据包到达情况作为环境,设置训练周期m,每个周期时隙数t,学习率α,经验池容量n
ep
,批量数据大小nb,折扣因子γ,网络更新频率c,当前网络q,目标网络贪婪因子ε;
[0129]
8.2)初始化当前环境的状态为s
t
,更新贪婪因子ε;
[0130]
8.3)将s
t
作为q网络的输入,得到q网络的所用动作对应的q值输出,用ε-贪婪法选择动作a
t

[0131]
8.4)在状态s
t
下执行动作a
t
,得到新状态s
t+1
和奖励r
t

[0132]
8.5)将8.4)中的(s
t
,a
t
,r
t
,s
t+1
)存入经验池,更新当前环境为s
t+1

[0133]
8.6)从经验池中采样nb个样本,对q网络进行训练,使用梯度下降法更新q网络;
[0134]
8.7)判断当前时隙t是否达到网络更新频率:
[0135]
如果t modc=1,即t整除c的余数为1,则更新网络,否则,不更新网络;
[0136]
8.8)判断当前时隙t是否达到每个周期时隙数t:
[0137]
如果t=t,则再判断当前迭代轮数m是否达到训练周期m:
[0138]
若m=m,则迭代终止,输出训练结束的调度模型;
[0139]
否则,重复8.2)-8.7),继续训练;
[0140]
如果t≠t,则重复8.3)-8.7),继续训练。
[0141]
本发明的效果可通过以下仿真结果进一步说明:
[0142]
一、仿真条件:
[0143]
仿真参数:设定卫星工作波束为3个,卫星覆盖波位数为19个,单波束工作带宽为100mhz,单波束功率为70w,跳波束时隙为20ms,数据包大小为20kbits,三种业务的时延容忍度分别为2、4、20,种群规模20,免疫算法迭代次数为100,多样性评价参数为0.95,交叉概率为0.5,变异概率为0.4,记忆库容量为15,深度强化学习训练周期为600轮,每个周期时隙数为1000,学习率为0.00001,经验池容量为100000,批量数据大小为32,折扣因子为0.9,更新步长为20,初始探索率1,最终探索率0.01。
[0144]
仿真环境为:matlabr2018b,python3.6。
[0145]
二、仿真内容与结果
[0146]
仿真1:分别对本发明基于时延容忍度的跳波束分簇调度方法与现有全局跳变算法的深度强化学习收敛速度进行仿真,结果如图6,由图6可以看出,本发明在迭代400轮开始收敛,而全局调度方法则在1200才开始收敛,本发明调度方法比全局调度提高了两倍收
敛速度,降低了计算复杂度。
[0147]
仿真2:将本发明出的基于时延容忍度的跳波束分簇调度方法与现有最长队列优先、轮询、随机调配跳变算法的归一化吞吐量进行仿真,结果如图7,由图7可以看出,在供需比为110%时,本发明比最长队列优先、轮询、随机调配算法分别提高了6%、10%、15%的吞吐量。
[0148]
仿真3:将本发明出的基于时延容忍度的跳波束分簇调度方法与现有最长队列优先、轮询、随机调配跳变算法的服务保障率进行仿真,结果如图8,由图8可以看出,在供需比为110%时,本发明比最长队列优先、轮询、随机调配算法的服务需求保障率分别提高了7%、11%、15%。
[0149]
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1