一种基站预编码和有源ARIS波束赋形的联合优化方法

文档序号:38209855发布日期:2024-06-06 18:45阅读:43来源:国知局
一种基站预编码和有源ARIS波束赋形的联合优化方法

本发明涉及6g领域中的智能超表面技术,特别涉及一种基于深度强化学习的基站预编码与有源aris波束赋形的联合优化方法。


背景技术:

1、随着6g通信应用的不断快速发展,未来的地面无线网络将致力于通过提供无缝接入、超高数据速率、高可靠性和低延迟来改善用户体验。以上6g愿景的实现,需要大规模无线接入点的部署,将导致高昂的资本和运营成本,并且随着接入节点的增多,设备更容易受到自然灾害的影响。为了应对这一问题,通常采用无人机(unmannedaerial vehicle,uav)携带物联网设备,将其灵活部署在任意位置以与地面协同通信。空中接入网络与传统地面网络相结合的空地一体化网络已成为未来网络发展的重要元素。

2、然而,uav在飞行过程中,与地面通信节点之间的无线传输环境将实时变化。但由于发射机和接收机都无法控制信道中的无线传输环境,相关研究只能被动地适应时变的无线传输环境。近年来,得益于国内外新型人工电磁材料技术的发展,提出的智能超表面(reconfigurable intelligent surface,ris)被认为是解决无线传输信道不可控问题的新兴技术,能够为实现可编程无线传输环境提供可行的技术手段。ris由大量亚波长电磁反射单元排列组成,通过控制反射元件上的偏置电压,动态地控制电磁单元的电磁性质,进而以可编程方式重构无线传输环境。在无线传输环境较为复杂的区域,如城市区域,ris的优势将更加明显,通过在收发机之间部署ris,构建虚拟视距链路(virtual line ofsight,vlos),可以有效缓解视距链路受阻导致的通信性能降低的情况。目前,作为一种低成本、易部署的器件,ris大多部署在建筑物外墙以辅助地面用户通信,增强信号覆盖,提升系统传输容量。然而,将ris固定在某个位置并不能最大化ris的性能。相比起固定位置的ris,搭载于uav上的ris将不再受物理位置的约束,可以实现360°全向相位反射,部署更加灵活。值得注意的是,传统无源ris在真正部署时需要大量反射单元的支持,反射单元的数量的增加,除了增加成本外,还可能会导致因重量过大无法正常被uav搭载,因此,拥有较少反射单元的有源ris将更适合uav搭载的场景,即使有源器件会带来一部分热噪声。这种搭载于uav上的ris称为空中ris(ariel ris,aris)。相关研究表明,当反射单元数目达到106量级时,无源反射单元带来的性能提升接近有源反射单元,因此在反射单元较少的情况下,aris对提升性能优势更加可观。

3、在上述背景下,为有效提升空地一体化网络下行传输速率,需要在最大发射功率和反射单元相移区间的约束条件下,对基站天线预编码矩阵和aris波束赋形矩阵进行联合优化设计。但是,现有技术中尚无法解决求解传输速率时自变量之间的相互耦合问题,因而无法得到系统传输速率的闭式解,这限制了aris技术的进一步发展及应用。


技术实现思路

1、本发明的目的是提供一种基站预编码和有源aris波束赋形的联合优化方法,该方法基于深度强化学习实现,能够最大化空地一体化系统的多用户下行传输速率。

2、为实现上述目的,本发明采用了如下技术方案:

3、一种基站预编码和有源aris波束赋形的联合优化方法,包括以下步骤:

4、步骤s1,构建有源aris辅助的地面多用户通信系统模型,通信系统模型包括一个具有m根天线的基站、k个用户,以及一架搭载有源智能超表面的无人机,其中,有源智能超表面上有n个有源反射单元;

5、步骤s2,对通信系统模型的直连信道和级联信道进行建模;通信系统模型中包含基站-用户k的直连信道响应矩阵将基站到用户的级联信道拆分为基站-智能超表面信道响应矩阵和智能超表面-用户k信道响应矩阵其中,表示复数集合,的上标表示笛卡尔积,k=1,2,..,k;直连信道的信号弱于由有源智能超表面辅助的级联信道的信号;

6、步骤s3,构建有源aris反射信号模型及多用户速率最大化优化模型;其中,信号从基站发出之前,首先经过基站预编码矩阵进行信号预处理,随后信号分别进入直连信道hk和级联信道,在级联信道上,信号首先进入信道g,当抵达智能超表面后,经过波束赋形处理的信号通过信道fk到达用户端,其中波束赋形矩阵为第i个反射元件的幅值为βi∈[0,1],相位为qi∈[0,2π),diag表示构造对角矩阵;于是,基站预编码后的信号建模为:

7、x=ws(1)

8、有源aris反射信号模型包括有用信号反射、由有源器件产生的噪声和信道噪声三部分,建模为:

9、yaris=φgx+φv+n(2)

10、其中,x和v分别表示有用信号向量和噪声信号向量,n代表信道噪声信号,服从于均值为零、方差为s2的圆形对称复数高斯分布;智能超表面上的有源器件在放大有用信号的同时,也会放大部分噪声信号;

11、用户k的接收端信号包括直连信道信号和级联信道信号两部分,建模为:

12、

13、

14、其中,和分别为直连信道和智能超表面-用户k的信道噪声信号;

15、联立式(3)、式(4),则用户k处的接收信号为:

16、

17、其中

18、用户k处的信干噪比为:

19、

20、因此,多用户速率最大化优化模型建模为式(7):

21、

22、其中,和分别代表基站最大发射功率和aris最大发射功率;

23、步骤s4,基于柔性动作-评价算法构建经验回放池及深度强化学习神经网络,将智能体部署在智能超表面的控制器处,智能体获取由当前状态、当前动作、当前奖励、下一步状态组成的四元组,并将四元组放入经验回放池中,用于后续动作的采样;其中,将步骤s2中涉及的基站-aris、aris-用户以及基站-用户的信道作为状态;步骤s3涉及的基站预编码矩阵和aris波束赋形矩阵作为动作;步骤s4涉及到的多用户速率作为当前奖励,而下一步状态则通过对本步骤中涉及的经验回放池中采样获得;深度强化学习神经网络包括q网络、策略网络和v网络三个网络,其中,策略网络用于学习在给定状态下采取每个动作的概率分布,目标是最大化期望累积奖励;q网络为两个,分别学习各自的状态-动作值函数q(s,a),其中一个q网络通过更新q(s,a)来评价状态s时选择动作a的好坏,另一个q网络将q(s,a)作为目标函数来减少前一个q网络更新的波动;v网络通过学习来计算状态值函数v(s),以估计在给定状态s下的长期累积奖励期望;具体来说,状态会作为v网络的输入,用于计算状态值v(s),以当前状态的长期累计奖励期望;而状态经过策略网络之后,经过神经网络的计算过程后最终会根据重要性采样输出动作的一个采样值,采样的动作和状态值v(s)则共同作为q网络的输入,通过计算网络输出状态-动作值q(s,a),用于评估当前状态和动作;

24、步骤s5,初始化信道响应矩阵,将基站-aris、aris-用户以及基站-用户的三个信道作为神经网络的输入状态参数,信道响应矩阵中的复数数据在输入神经网络时先将数据分为实部和虚部;

25、步骤s6,对步骤s4中构建的神经网络进行训练;神经网络训练过程中,第t步的状态由基站-用户、基站-智能超表面和智能超表面-用户三个信道的信道响应矩阵共同决定,输出基站预编码矩阵和智能超表面波束赋形矩阵作为动作参数,第t步的动作由基站预编码矩阵w和波束赋形矩阵φ组成;神经网络训练的流程如下:

26、(1)根据当前策略网络的输出得到一个采样动作;

27、(2)执行采样动作并与环境交互,观察环境的奖励和下一个状态;

28、(3)将由当前状态、动作、奖励和下一个状态所组成的四元组存储到经验回放池中;

29、(4)从经验回放池中采样一批经验数据,根据最大熵策略梯度来更新策略网络;

30、(5)根据采样的经验数据,通过训练来最小化软贝尔曼残差以更新q函数参数,通过最小化残差误差平方更新v网络参数;

31、(6)重复步骤(1)至步骤(5),直至达到设定的回合数或者达到奖励目标值;

32、步骤s7,基于训练优化后的深度强化学习神经网络,得到最优的联合基站预编码和aris波束赋形方案。

33、进一步地,步骤s2中,直连信道和级联信道的建模均包含小尺度衰落和大尺度衰落两个部分,针对基站-智能超表面、智能超表面-用户和基站-用户三条信道,小尺度衰落均采用莱斯衰落模型;

34、大尺度衰落遵循3gpp release 9,当基站-用户信道被障碍物遮挡时,基站-用户信道的大尺度衰落根据plw=41.2+28.7logd建模,其中,d表示收发端之间的距离;

35、级联信道涉及的基站-智能超表面信道和智能超表面-用户信道的大尺度衰落采用pls=37.3+22.0logd建模;当基站-用户信道未被障碍物遮挡时,基站-用户信道的大尺度衰落根据pls=37.3+22.0logd建模;

36、级联信道涉及的基站-智能超表面信道和智能超表面-用户信道的大尺度衰落采用plw=41.2+28.7logd建模。

37、进一步地,步骤s3的多用户速率最大化优化模型中,基站的发射功率pbs和智能超表面处的发射功率paris分别表示为:

38、

39、

40、其中,为满足约束条件c1,对预编码基站执行归一化操作,即满足其中表示基站处最大发射功率,wh表示基站预编码矩阵的共轭转置,tr{}用于求解基站预编码矩阵和其共轭转置矩阵的迹;另外,设置智能超表面波束赋形矩阵中的幅值为1,即

41、本发明采用上述技术方案所取得的有益效果在于:

42、1、本发明在更能反映真实通信场景的设置中联合优化基站预编码和aris波束赋形。本发明考虑因素包括:(1)在uav上采用aris以提供更好的信道增益;(2)用户和基站之间的视距链路因障碍物遮挡导致信号较弱;(3)uav移动性的存在可能导致信道状态信息的失效。

43、2、本发明提出了一种los信道较弱时,通过uav搭载有源ris辅助的地面用户通信的空地一体化网络架构。在此基础上,提出了一个优化问题,旨在通过优化基站的预编码矩阵和aris的波束赋形矩阵,同时考虑与发射功率、无人机位置和aris相移能力相关的约束条件,使下行链路通信中所有用户的总数据率最大化。

44、3、本发明利用深度强化学习方法,将优化问题转换为马尔可夫决策过程,并设计基于softactor-critic算法的深度强化学习算法来训练策略,该策略能够在基站最大发射功率、aris最大发射功率和aris波束赋形相移范围的约束条件下,根据直连信道和级联信道的信道响应矩阵推导出基站的最优预编码矩阵和aris的最优波束赋形矩阵,从而最大化总数据速率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1