基于CMADDQN网络的多波束卫星通信系统资源分配方法

文档序号:31767205发布日期:2022-10-12 05:06阅读:37来源:国知局
基于CMADDQN网络的多波束卫星通信系统资源分配方法
基于cmaddqn网络的多波束卫星通信系统资源分配方法
技术领域
1.本发明属于无线通信技术领域,涉及多波束卫星通信技术领域,具体涉及一种基于cmaddqn网络的多波束卫星通信系统资源分配方法。


背景技术:

2.近年来,卫星通信系统作为对地面通信网络基础结构的一种补充,以其全球覆盖能力强、通信距离远、抗重大自然灾害、可提供固定及移动通信业务等优点,得到了广泛应用。为提升卫星系统频谱资源利用率及系统传输性能,可采用多波束卫星,通过使用多个高增益窄波束提升用户的覆盖能力,实现频谱复用增益。然而,针对多波束卫星通信系统用户需求多样化以及卫星通信系统拓扑动态性与时空分布不均匀性等特点,如何设计高效波束分配、子信道分配及发送功率分配策略,实现用户服务质量保障及系统性能提升成为重要的研究课题。现有研究已经考虑了多波束卫星通信系统的资源分配问题,但是很少有工作研究针对地面用户业务随机动态到达场景,研究基于长期性能优化的资源分配策略。


技术实现要素:

3.有鉴于此,本发明的目的在于提供一种基于cmaddqn网络的多波束卫星通信系统资源分配方法,针对包含一个多波束低地球轨道卫星(low earth orbit,leo)及n个汇聚设备的多波束卫星通信系统,建模系统期望累计奖励为优化目标,实现波束分配、子信道分配及发送功率阶数选择策略,提高系统综合性能。
4.为达到上述目的,本发明提供如下技术方案:
5.一种基于cmaddqn网络的多波束卫星通信系统资源分配方法,针对包含一个多波束leo及n个汇聚设备的多波束卫星通信系统,该方法具体包括以下步骤:
6.s1:建模多波束卫星通信场景;
7.s2:建模卫星子信道分配变量、卫星载波功率分配和卫星信道;
8.s3:建模卫星传输速率和卫星业务模型;
9.s4:计算业务公平性系数;
10.s5:建模卫星通信系统资源分配限制条件;
11.s6:建模系统状态及动作;
12.s7:建模系统回报函数;
13.s8:构建并训练多智能体协作双深度q学习(cooperative multi-agent double deep q-learning,cmaddqn)网络;
14.s9:基于cmaddqn网络优化确定卫星通信系统资源分配策略。
15.进一步,步骤s1中,建模多波束卫星通信场景,具体包括:多波束卫星的最大波束数为k,系统总带宽为b0,将总带宽分为m个等长的子信道,每个子信道带宽为b=b0/m,每个波束可以使用的最大子信道数目为m,cm为第m个子信道的载波频率;令n表示卫星服务的小区数目,un为小区n的汇聚设备,该设备汇聚小区的通信流量需求;系统总时间为t,将t分为
等长的时隙,每个时隙长度为τ;卫星以等长数据包形式发送用户数据至各小区,令λ
n,t
为t时隙小区n的数据包平均到达率,数据包长度为f,各数据包到达后需在j个时隙内发送,否则丢弃数据包。
16.进一步,步骤s2中,建模卫星子信道分配变量,具体包括:令x
n,t
=[x
n,1,t x
n,2,t

x
n,m,t

x
n,m,t
]
t
表示t时隙小区n的子信道分配标识,x
n,m,t
∈{0,1},若t时隙卫星地面小区分配到子信道m,x
n,m,t
=1,若t时隙小区n没有分配到子信道m,x
n,m,t
=0;
[0017]
建模卫星载波功率分配,具体包括:令p
n,t
=[p
n,1,t p
n,2,t

p
n,m,t

p
n,m,t
]
t
表示t时隙卫星发送数据至小区n时的发送功率,其中p
n,m,t
表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率,p
n,m,t
可建模为其中s为功率量化数目,ps为第s阶量化功率,即p
tot
为每个波束的最大发送功率,δ
n,m,t,s
为发送功率阶数选择变量,若t时隙卫星占用子信道m发送数据至小区n时选择发送功率ps,δ
n,m,t,s
=1,否则,δ
n,m,t,s
=0;
[0018]
建模卫星信道,具体包括:令h
n,m,t
表示t时隙卫星与un在子信道的信道增益,h
n,m,t
可以建模为其中表示un接收天线增益,可以建模为其中j1(
·
)表示第一类一阶贝塞尔函数,j3(
·
)表示第一类三阶贝塞尔函数;u
n,t
=2.07123sin(θ
n,t
)/sin(θ
3db
),θ
n,t
表示t时隙卫星与un接收天线的离轴角,θ
3db
为3db波束带宽对应的角度,g
max,r
为接收天线最大增益;表示卫星发送天线增益,可表示为:
[0019][0020]
其中g
max,t
为卫星发送天线最大增益,θ
n,t
为t时隙un到卫星的仰角,l
n,m
为卫星与un之间链路在子信道m的自由损耗,其中c为光速,dn为un与卫星之间的距离;为t时隙信道雨衰,h
n,t
表示t时隙卫星到un之间链路的随机衰落特性。
[0021]
进一步,步骤s3中,建模卫星传输速率,具体包括:令其中r
n,t
表示t时隙卫星与un之间的传输速率,i
n,m,t
为t时隙un受到的干扰,σ
n2
为噪声功率,σ
n2
=bn0,n0为噪声功率谱密度;
[0022]
建模卫星业务模型,具体包括:令q
n,t
表示t时隙末卫星需发送至小区n的数据包数
量,q
n,t
的更新公式为
[0023]
进一步,步骤s4中,计算业务公平性系数,表达式为:
[0024][0025]
其中,ρ
t
表示用户业务公平性系数;d
n,t,j
表示截至t时隙,前j时隙小区n请求但未服务的数据包数量。
[0026]
进一步,步骤s5中,建模卫星通信系统资源分配限制条件,具体包括:
[0027]
1)卫星波束分配限制
[0028]
令y
t
={y
n,t
,1≤n≤n}为t时隙波束分配集合,其中y
n,t
表示波束分配变量,y
n,t
∈{0,1},若t时隙卫星波束点亮小区n,y
n,t
=1,否则,y
n,t
=0,每个时隙最多只有k个小区被卫星波束覆盖,则有
[0029][0030]
子信道分配与波束分配变量需满足如下限制:
[0031][0032]
2)卫星发送功率限制
[0033]
卫星在t时隙的总发送功率需满足最大功率限制,则有
[0034][0035]
其中,p
max
为卫星最大发送功率;每一个波束的发送功率需小于卫星波束最大发送功率,则有
[0036][0037]
其中,p
tot
为卫星波束最大发送功率;每个载波发送功率需满足波束分配变量的限制,则有
[0038][0039]
3)卫星发送功率阶数选择限制
[0040]
卫星发送功率阶数选择变量应满足:
[0041]
进一步,步骤s6中,建模系统状态及动作,具体包括:令s
t
为t时隙的状态,可建模为s
t
={h
n,m,t
,d
n,t
},其中d
n,t
=[d
n,t,0 d
n,t,1
…dn,t,j-1
];令a
t
为t时隙的动作空间,a
t
可建模为a
t
={y
n,t
,x
n,m,t

n,m,t,s
}。
[0042]
进一步,步骤s7中,建模建模系统回报函数,具体包括:令r
t
为t时隙系统回报函
数,r
t
可建模为其中ω1,ω2,ω3为加权系数,r
1,t
表示系统t时隙系统吞吐量回报函数,建模为
[0043]
进一步,步骤s8中,构建并训练cmaddqn网络,具体包括:构建k个波束选择智能体和mk个功率选择智能体,每个波束拥有一个波束选择智能体和m个功率选择智能体,每个波束选择智能体选择一个小区并提供服务;每个功率选择智能体为子信道选择发送功率阶数,每个智能体包含一个q网络和一个目标q网络;训练阶段首先初始化经验回放缓冲区1≤α≤(m+1)k;设定折扣因子γ,0≤γ≤1;初始化q网络参数π
t
和目标q网络参数初始化每个智能体观察环境状态s
α,t
;令ε为噪声参数,对于每一个智能体的q网络,以概率p<ε从动作空间a
α,t
中随机选取动作a
α,t
,否则选取动作各智能体执行联合动作a
t
=(a
1,t
,a
2,t
,

,a
α,t
,

,a
(m+1)k,t
),环境状态转移到s
t+1
,每个v
α
智能体得到全局奖励r
t
,将四元组(s
t
,a
α,t
,r
t
,s
α,t+1
)存入经验回放缓冲区;对于每一个智能体的目标q网络,从经验回放缓冲区v
α
中随机抽取小批量的数据样本计算目标q网络的q值其中q
α,t
(s
α,t+1
,a
α,t

t
)表示从v
α
抽取的小批量的数据样本中观察状态为s
t+1
时的q值;计算损失函数利用梯度下降算法基于l
α
(s
α,t
,a
α,t

t
)最小化更新q网络的参数π
t
,并更新相应的
[0044]
进一步,步骤s8中,基于cmaddqn网络优化确定卫星通信系统资源分配策略,具体包括:令表示期望累计奖励,在满足多波束卫星波束分配,子信道分配,发送功率分配和发送功率阶数选择的限制条件下,以最大化期望累计奖励为目标,优化确定波束调度和资源分配策略,即:
[0045][0046]
其中和分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。
[0047]
本发明的有益效果在于:本发明能够有效保障通信业务时空分布不均匀的情况下,基于波束分配、子信道分配及卫星发送功率阶数选择,实现期望累计奖励最大化,提高系统综合性能。
[0048]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0049]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0050]
图1为本发明涉及的多波束卫星通信系统场景示意图;
[0051]
图2为本发明多波束卫星通信系统资源分配方法的流程示意图。
具体实施方式
[0052]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0053]
请参阅图1~图2,图1为本发明采用的多波束卫星通信系统场景示意图,如图1所示,该通信系统包含一个leo卫星及n个汇聚设备,通过联合设计最优波束分配、子信道分配及卫星发送功率阶数选择策略可实现系统期望累计奖励最大化。
[0054]
图2为本发明多波束卫星通信系统资源分配方法的流程示意图,如图2所示,该方法具体包括以下步骤:
[0055]
步骤1:多波束卫星通信场景建模;
[0056]
多波束卫星通信场景建模,具体为:多波束卫星的最大波束数为k,系统总带宽为b0,将总带宽分为m个等长的子信道,每个子信道带宽为b=b0/m,每个波束可以使用的最大子信道数目为m,cm为第m个子信道的载波频率;令n表示卫星服务的小区数目,un为小区n的汇聚设备,该设备汇聚小区的通信流量需求;系统总时间为t,将t分为等长的时隙,每个时隙长度为τ;卫星以等长数据包形式发送用户数据至各小区,令λ
n,t
为t时隙小区n的数据包平均到达率,数据包长度为f,各数据包到达后需在j个时隙内发送,否则丢弃数据包。
[0057]
步骤2:卫星子信道分配变量建模;
[0058]
卫星子信道分配变量建模,具体为:令x
n,t
=[x
n,1,t x
n,2,t

x
n,m,t

x
n,m,t
]
t
表示t时隙小区n的子信道分配标识,x
n,m,t
∈{0,1},若t时隙卫星地面小区分配到子信道m,x
n,m,t
=1,若t时隙小区n没有分配到子信道m,x
n,m,t
=0。
[0059]
步骤3:卫星载波功率分配建模;
[0060]
卫星载波功率分配建模,具体为:令p
n,t
=[p
n,1,t p
n,2,t

p
n,m,t

p
n,m,t
]
t
表示t时隙卫星发送数据至小区n时的发送功率,其中p
n,m,t
表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率,p
n,m,t
可建模为其中s为功率量化数目,ps为第s阶量化功率,即p
tot
为每个波束的最大发送功率,δ
n,m,t,s
为发送功率阶数选择变量,若t时隙卫星占用子信道m发送数据至小区n时选择发送功率ps,δ
n,m,t,s
=1,否则,δ
n,m,t,s
=0。
[0061]
步骤4:卫星信道建模;
[0062]
卫星信道建模,具体为:令h
n,m,t
表示t时隙卫星与un在子信道的信道增益,h
n,m,t

以建模为其中表示un接收天线增益,可以建模为其中u
n,t
=2.07123sin(θ
n,t
)/sin(θ
3db
),θ
n,t
表示t时隙卫星与un接收天线的离轴角,θ
3db
为3db波束带宽对应的角度,g
max,r
为接收天线最大增益,表示卫星发送天线增益,可表示为:
[0063][0064]
其中g
max,t
为卫星发送天线最大增益,θ
n,t
为t时隙un到卫星的仰角,l
n,m
为卫星与un之间链路在子信道m的自由损耗,其中c为光速,dn为un与卫星之间的距离,为t时隙信道雨衰,h
n,t
表示t时隙卫星到un之间链路的随机衰落特性。
[0065]
步骤5:卫星传输速率建模;
[0066]
卫星传输速率建模,具体为:令其中i
n,m,t
为t时隙un受到的干扰,σ
n2
为噪声功率,σ
n2
=bn0,n0为噪声功率谱密度。
[0067]
步骤6:卫星业务模型建模;
[0068]
卫星业务模型建模,具体为:令q
n,t
表示t时隙末卫星需发送至小区n的数据包数量,q
n,t
的更新公式为
[0069]
步骤7:业务公平性建模;
[0070]
业务公平性建模,具体为:令d
n,t,j
表示截至t时隙,前j时隙小区n请求但未服务的数据包数量,ρ
t
表示用户业务公平性系数,ρ
t
可以建模为
[0071]
步骤8:卫星通信系统资源分配限制条件建模,具体包括:
[0072]
1)卫星波束分配限制
[0073]
令y
t
={y
n,t,
1≤n≤n}为t时隙波束分配集合,其中y
n,t
表示波束分配变量,y
n,t
∈{0,1},若t时隙卫星波束点亮小区n,y
n,t
=1,否则,y
n,t
=0,每个时隙最多只有k个小区被卫星波束覆盖,则有
[0074][0075]
子信道分配与波束分配变量需满足如下限制:
[0076][0077]
2)卫星发送功率限制
[0078]
卫星在t时隙的总发送功率需满足最大功率限制,则有
[0079][0080]
其中,p
max
为卫星最大发送功率;每一个波束的发送功率需小于卫星波束最大发送功率,则有
[0081][0082]
其中,p
tot
为卫星波束最大发送功率;每个载波发送功率需满足波束分配变量的限制,则有
[0083][0084]
3)卫星发送功率阶数选择限制
[0085]
卫星发送功率阶数选择变量应满足:
[0086][0087]
步骤9:系统状态和动作建模;
[0088]
系统状态和动作建模,具体为:令s
t
为t时隙的状态,可建模为s
t
={h
n,m,t
,d
n,t
},其中d
n,t
=[d
n,t,0 d
n,t,1
…dn,t,j-1
];令a
t
为t时隙的动作空间,a
t
可建模为a
t
={y
n,t
,x
n,m,t

n,m,t,s
}。
[0089]
步骤10:系统回报函数建模;
[0090]
系统回报函数建模,具体为:令r
t
为t时隙系统回报函数,r
t
可建模为其中ω1,ω2,ω3为加权系数,r
1,t
表示系统t时隙系统吞吐量回报函数,建模为
[0091]
步骤11:构建并训练cmaddqn网络;
[0092]
构建并训练cmaddqn网络,具体为:构建k个波束选择智能体和mk个功率选择智能体,每个波束拥有一个波束选择智能体和m个功率选择智能体,每个波束选择智能体选择一个小区并提供服务;每个功率选择智能体为子信道选择发送功率阶数,每个智能体包含一个q网络和一个目标q网络;训练阶段首先初始化经验回放缓冲区1≤α≤(m+1)k;设定折扣因子γ,0≤γ≤1;初始化q网络参数π
t
和目标q网络参数初始化每个智能体观察环境状态s
α,t
=s
t
;令ε为噪声参数,对于每一个智能体的q网络,以概率p<ε从动作空间a
t
中随机选取动作a
α,t
,否则选取动作各智能体执行联合动作a
t
=(a
1,t
,a
2,t
,

,a
α,t
,

,a
(m+1)k,t
),环境状态转移到s
t+1
,每个智能体得到全局奖励r
t
,将四元
组(s
t
,a
α,t
,r
t
,s
α,t+1
)存入经验回放缓冲区v
α
;对于每一个智能体的目标q网络,从经验回放缓冲区v
α
中随机抽取小批量的数据样本计算q值计算损失函数利用梯度下降算法基于l
α
(s
α,t
,a
α,t

t
)最小化更新q网络的参数π
t
,并更新相应的
[0093]
步骤12:基于cmaddqn算法优化确定卫星通信系统资源分配策略,具体为:
[0094]
令表示期望累计奖励,在满足多波束卫星波束分配,子信道分配,发送功率分配和发送功率阶数选择的限制条件下,以最大化期望累计奖励为目标,优化确定波束调度和资源分配策略,即:
[0095][0096]
其中和分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。
[0097]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1