本发明涉及无线通信领域,尤其涉及一种基于深度强化学习的联合波束成形和功率分配方法。
背景技术:
1、沉浸式通信业务下行链路传输中的智能波束调控问题近年来受到了广泛的关注。为确保用户能够体验到极高可靠与极低延时的实时交互服务,在沉浸式通信中,快速精准的波束调控技术显得尤为重要。然而,在无法获取完美信道状态信息的条件下,依赖波束扫描在每次传输前对所有用户的服务波束进行搜索时,会带来极高的复杂度。在用户需求时变的情况下,实时决策每个时隙内的波束成形方案也成为了困难。此外,由于波束码本中的波束成形矢量均经过归一化处理,选择波束码字仅决定了波束的指向。为了实现更为精细的资源管理,波束调控往往需要与功率分配技术相结合,以满足用户多样化且时变的传输需求。可以利用基于深度强化学习的方法,将具体优化问题转化为马尔可夫决策过程,通过其强大的探索能力实现波束成形和功率分配方案的优化与设计。然而,面对码本空间庞大且多任务动作网络架构下的学习网络收敛困难的问题,需要设计一些策略来提高动作空间探索效率,降低搜索空间,使得强化学习网络可以收敛。因此,如何设计一种基于深度强化学习的联合波束成形和功率分配方法成为了关键性问题。
技术实现思路
1、本发明目的在于针对现有技术的不足,提出一种基于深度强化学习的联合波束成形和功率分配方法。
2、本发明的目的是通过以下技术方案来实现的:一种基于深度强化学习的联合波束成形和功率分配方法,该方法包括:
3、s1、初始化用户和信道,进行波束扫描,选取候选波束集合;
4、s2、根据视频帧的到达时间激活用户,建立基站端智能体的混合近端策略优化网络,包括多任务动作网络和评价网络,
5、所述多任务动作网络包括波束选择网络和功率分配网络,基于用户待传输视频帧状态和候选波束集合生成对不同用户的波束选择策略和功率分配策略;
6、所述评价网络通过波束选择策略和功率分配策略后的用户反馈的传输速率和传输效用得到奖励值;
7、s3、对混合近端策略优化网络进行训练:每个时隙使用生成的波束选择和功率分配方案服务活跃用户,根据状态和网络输出结果得到每个时隙的经验并进行存储,当存储的经验大于批量训练大小时,对多任务动作网络和评价网络进行更新,直至网络收敛,
8、s4、使用训练好的网络对待传输数据的状态进行策略生成,实现实时传输。
9、进一步地,所述s1具体包括:初始化用户和用户信道,执行波束扫描,每个用户根据其接收到的信号强度,选择信号强度最高的b个波束的索引,作为候选波束集合。
10、进一步地,所述混合近端策略优化网络中,生成策略具体包括:
11、在第t个时隙,用第k个活跃用户的剩余待传数据量qk,t除以剩余传输延迟τk,t,可计算得到用户在该时隙的期望平均传输速率rk,t=qk,t/τk,t;令st=rt,将该速率作为状态输入混合近端策略优化网络中,得到在当前时隙的波束选择策略和功率分配策略其中,通过初始扫描、降维后的波束选择动作空间大小为bk,采用k位b进制编码来对所有用户服务波束的索引进行编码,在第t个时隙,波束选择网络的输出动作为
12、进一步地,所述混合近端策略优化网络中,具体结构为:
13、波束选择网络、功率分配网络和评价网络的输入均为状态st,波束选择网络包含五层隐藏层,网络输出所有能实现波束选择策略的概率,并经过softmax函数后采样得到最终的波束选择方案;
14、功率分配网络包含三层隐藏层,网络输出从k个从独立的高斯分布中采样得到的连续动作;其中,所有分布的均值μ和方差σ均通过神经网络学习得到,功率分配网络输出经过softmax函数来实现所有用户功率的归一化。
15、评价网络直接采用了包含三层隐藏层的全连接网络结构,输入状态st,输出对混合动作的价值预测。
16、进一步地,所述传输速率和传输效用计算方法为:
17、使用波束选择和功率分配方案服务活跃用户,得到用户传输速率ck=w log(1+sinrk),其中w为信道带宽,sinrk为信干噪比,用户k在第t个时隙的视频帧的效用函数为
18、
19、其中t为单位时隙长度,qk为待传视频帧的数据量大小。
20、进一步地,所述根据状态和网络输出结果得到每个时隙的经验并进行存储中,经验具体包括当前状态、动作、下一时刻状态和奖励对;其中奖励值rt通过用户反馈的传输速率和传输效用计算得到,
21、
22、其中β为权重因子,tstep为任务完成时的时隙,为该回合结束时的时隙,一个回合为某一视频帧的传输过程,视频帧传输完成或剩余传输时延为0时则该回合结束,开始新的视频帧传输过程。
23、进一步地,所述对多任务动作网络和评价网络进行更新中,
24、价值网络的损失函数为:
25、
26、其中,γ为折现因子,vφ为评价网络输出,优势函数at计算为
27、
28、其中λ为广义优势函数参数;
29、功率分配网络的目标函数设计为
30、
31、其中,表示新旧策略的比值;表示在状态st下,由参数θp确定的策略产生的动作的概率分布,为t时隙功率分配网络输出的第k个用户的功率;clip为裁剪函数,将限制在[1-∈,1+∈]之间,∈是超参数;为策略熵,α为策略熵系数;实现波束选择的离散策略网络目标函数设计为:
32、
33、上角标b、p用于区分波束选择网络和功率分配网络。
34、另一方面,本说明书还提供了一种基于深度强化学习的联合波束成形和功率分配装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于深度强化学习的联合波束成形和功率分配方法。
35、另一方面,本说明书还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于深度强化学习的联合波束成形和功率分配方法。
36、另一方面,本说明书还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现所述的一种基于深度强化学习的联合波束成形和功率分配方法。
37、本发明的有益效果:
38、本发明提出的基于深度强化学习的联合波束成形和功率分配方法,能实时地根据用户当前的传输状态对传输方案进行决策,从而确保沉浸式通信场景中的用户能够体验到极高可靠与极低延时的实时交互服务。此外,为了进一步提升多任务网络的收敛速度,本方法基于场景先验对动作空间进行了降维,提高了网络的训练效率。
1.一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述s1具体包括:初始化用户和用户信道,执行波束扫描,每个用户根据其接收到的信号强度,选择信号强度最高的b个波束的索引,作为候选波束集合。
3.根据权利要求1所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述混合近端策略优化网络中,生成策略具体包括:
4.根据权利要求1所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述混合近端策略优化网络中,具体结构为:
5.根据权利要求1所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述传输速率和传输效用计算方法为:
6.根据权利要求5所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述根据状态和网络输出结果得到每个时隙的经验并进行存储中,经验具体包括当前状态、动作、下一时刻状态和奖励对;其中奖励值rt通过用户反馈的传输速率和传输效用计算得到,
7.根据权利要求1所述的一种基于深度强化学习的联合波束成形和功率分配方法,其特征在于,所述对多任务动作网络和评价网络进行更新中,
8.一种基于深度强化学习的联合波束成形和功率分配装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的一种基于深度强化学习的联合波束成形和功率分配方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于深度强化学习的联合波束成形和功率分配方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于深度强化学习的联合波束成形和功率分配方法。