本发明涉及卫星通信,特别是指一种低轨道卫星通信中的智能化资源分配方法及装置。
背景技术:
1、随着信息化时代的到来,卫星通信已经成为举足轻重的通信方式,与传统的移动通信方式相比,卫星通信具有覆盖范围广、通信距离远、通信容量大等优点,是地面移动通信的重要补充。
2、在多波束卫星通信系统中,每颗卫星携带多个波束,覆盖地面的不同区域,通过对资源的有效配置可以很好地提升卫星通信系统的性能。传统的资源分配方案为固定分配方式,并不适用于高复杂、高动态的低轨卫星通信系统。
技术实现思路
1、针对现有技术中无法解决以及动态变化的卫星环境资源分配的问题,本发明提出了一种低轨道卫星通信中的智能化资源分配方法及装置。
2、为解决上述技术问题,本发明提供如下技术方案:
3、一方面,提供了一种低轨道卫星通信中的智能化资源分配方法,该方法应用于电子设备,包括以下步骤:
4、s1:对卫星通信系统中的参数进行初始化,接收用户的接入请求;
5、s2:将所述卫星通信系统中的资源分配优化问题,构建为马尔科夫决策过程,得到奖赏函数;
6、s3:构建深度q网络,根据所述奖赏函数,对所述深度q网络进行训练和更新;
7、s4:接收用户请求状态,输出最终资源策略,完成低轨道卫星通信中的智能化资源分配。
8、可选地,步骤s1中,对卫星通信系统中的参数进行初始化,包括:
9、初始化用户数目总数为uset={u|u=1,2,3…,u};初始化低轨卫星状态-动作值函数q(s,a);其中s表示状态,a表示动作;设定折扣系数λ,设定深度q网络参数,并设置目标深度q网络参数。
10、可选地,步骤s1中,接收用户的接入请求,包括:
11、用户ut在时刻t到达并发出接入请求,当用户接入的波束存在空闲载波的时候,允许用户接入,否则,用户进行等待并进入下一时刻,直至成功接入。
12、可选地,步骤s2中,将所述卫星通信系统中的资源分配优化问题,构建为马尔科夫决策过程,得到奖赏函数,包括:
13、s21:根据下述公式(1)计算马尔科夫决策过程中的状态量s:
14、s={wt,ut,ut} (1)
15、其中,wt表示t时刻卫星载波分配矩阵,ut表示已经服务的用户的集合,ut表示新到需要服务的用户;
16、s22:将状态量s输入到深度q网络,输出m个对应不同载波的q值,则根据下述公式(2)计算马尔科夫决策过程中的动作值a:
17、a={m,m∈m} (2)
18、其中,m表示第m个q值;
19、s23:将马尔科夫决策过程中的奖赏r,定义为优化目标的判断指标,则根据下述公式(3)构建奖赏函数,即优化目标的增量δf,以此判断奖赏r的增加和减少:
20、δf=ft+1-ft (3)
21、其中,ft+1表示t+1时刻的优化目标;ft表示t时刻的优化目标;当优化目标的增量为正时,说明卫星通信系统的奖赏r增加,则给予卫星通信系统正反馈 rn;当优化目标的增量为负时,说明卫星通信系统的奖赏r减少,则给予卫星通信系统负反馈rn。
22、可选地,步骤s23中,构建优化目标的增量δf,包括:
23、s231:根据下述公式(3-1)计算卫星通信系统总功率p:
24、
25、其中,p0是卫星平台本身的功率损耗,pn表示第n个波束的功率;
26、s232:根据下述公式(3-2)计算所述卫星通信系统在理想状态下的能量效率ee:
27、
28、其中,ri表示用户i的最大速率;
29、s234:根据下述公式(3-3)计算卫星通信系统的频谱效率se:
30、
31、其中,w表示载波的总带宽;
32、s235:根据所述频谱效率se,计算如下述公式(3-4)的卫星通信系统的优化目标f:
33、f=ω1a1se+ω2a2se (3-4)
34、其中,a1,a2表示公式中的归一化参数,即a1+a2=1,ω1,ω2表示所述卫星通信系统的权重参数;根据所述优化目标f,则得到优化目标的增量为下述公式(3):
35、δf=ft+1-ft (3)
36、其中,ft+1表示t+1时刻的优化目标;ft表示t时刻的优化目标;当优化目标的增量为正时,说明卫星通信系统的奖赏r增加,则给予卫星通信系统正反馈 rn;当优化目标的增量为负时,说明卫星通信系统的奖赏r减少,则给予卫星通信系统负反馈rn。
37、可选地,步骤s3中,构建深度q网络,根据所述奖赏函数,对所述深度q 网络进行训练和更新,包括:
38、s31:基于获得的状态s以及动作值a,配置动作-价值网络即重新配置深度q 网络;
39、s32:通过卷积神经网络搭建所述深度q网络,根据所述奖赏函数对深度q 网络进行强化学习;
40、s33:计算误差函数,将计算结果通过随机梯度下降sgd方法对强化学习后的深度q网络进行反向训练更新,对网络参数进行修正。
41、可选地,步骤s33中,计算误差函数,将计算结果通过随机梯度下降sgd 方法对训练好的深度q网络进行反向训练更新,对网络参数进行修正,包括:
42、s331:根据下述公式(4)计算误差函数l(θ):
43、l(θ)=e[yi-q(s,a;θ)] (4)
44、其中,yi表示深度q网络所要达到的目标q值;
45、s332:将计算结果通过随机梯度下降sgd方法对训练好的深度q网络进行反向训练更新,间隔一定步数后,将深度q网络复制给目标q网络,用q网络参数更新目标q网络参数θ-,即θ-=θ。
46、可选地,步骤s33还包括:采用经验回放的机制,在强化学习的过程中建立经验池,将数据放入经验池中,当经验池的数据达到一定的数量后,随机的在经验池中选取数据进行神经网络的反向训练更新。
47、可选地,步骤s4中,接收用户请求状态,输出最终资源策略,完成低轨道卫星通信中的智能化资源分配,包括:
48、s41:接收用户请求状态,若用户离开系统,则删除其在线时间内所用载波,进入下一状态时刻;若用户未离开系统,则继续执行资源分配操作;
49、s42:输出最终策略、资源分配结果以及优化结果,完成低轨道卫星通信中的智能化资源分配。
50、一方面,提供了一种低轨道卫星通信中的智能化资源分配装置,该装置应用于电子设备,该装置包括:
51、初始化模块,用于对卫星通信系统中的参数进行初始化,接收用户的接入请求;
52、优化目标构建模块,用于将所述卫星通信系统中的资源分配优化问题,构建为马尔科夫决策过程,得到奖赏函数;
53、训练更新模块,用于构建深度q网络,根据所述奖赏函数,对所述深度q 网络进行训练和更新;
54、资源分配模块,用于接收用户请求状态,输出最终资源策略,完成低轨道卫星通信中的智能化资源分配。
55、一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种低轨道卫星通信中的智能化资源分配方法。
56、一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种低轨道卫星通信中的智能化资源分配方法。
57、本发明实施例的上述技术方案至少具有如下有益效果:
58、上述方案中,本发明提出了一种基于强化学习的智能化资源分配方法。该算法将卫星通信系统中的资源分配优化问题建模为马尔科夫决策过程,并利用卫星智能体与环境的交互学习完成资源的分配以及优化。本发明提供的方法可以对动态卫星通信系统进行有效的资源分配,提高卫星通信系统能量效率及频谱效率,对多波束卫星系统的吞吐量和功率性能进行优化,达到卫星资源分配的多目标优化的目的。