一种基于深度强化学习的智能反射表面相位优化方法与流程

文档序号：20778735发布日期：2020-05-19 21:02阅读：1197来源：国知局

本发明涉及通信技术领域，特别是涉及一种基于深度强化学习的智能反射表面相位优化方法。

背景技术：

近年来，多项5g关键技术的诞生，使得无线通信系统频谱效率及容量显著提升。但是，在实际部署过程中，仍面临过高的能耗，硬件实现复杂度及信号处理算法复杂度等实际问题。随着射频微机电系统及超材料的发展，使得低能耗且能适应时变无线通信系统的智能反射表面(intelligentreflectingsurface，irs)的应用成为可能。irs一般由大量无源的印刷偶极子天线单元构成，每一根无源天线可以对入射信号动态产生独立的相位偏置。与传统的前向中继放大技术(amplify-and-forwardrely，af)不同的是，智能反射表面在信号传输过程中仅仅反射信号而不产生新的信号，从而在不引入额外功率的前提下增大用户的接收信噪比。

为了解决相位优化问题，已经有学者提出使用半定松弛(semidefiniterelaxation，sdr)算法进行求解，但带来过高的计算复杂度，不适用于配置大规模阵列的irs。还有学者提出使用深度学习进行相位偏置设计，但是前提为获取大量的训练样本及对应标签。然而在实际情况中，训练样本需大量的存储空间且标签的获取几乎是不可能的，因此也不实用。

强化学习，又名增强学习，主要基于两种策略优化思路：基于价值和基于策略。基于价值的算法多适用于处理离散的动作空间，基于策略的算法多用于处理连续的动作空间。二者均采用迭代的方式最终获取最大化长期奖励的最优策略；深度神经网络在通信领域已取得了显著的成就，通过神经网络可以处理高维状态空间避免维度爆炸。将神经网络与强化学习算法相结合的深度强化学习，具有高维拟合、在线学习的特性，无需大量训练样本以及标签，在大部分复杂控制系统中具有广泛的应用。

技术实现要素：

本发明的目的是为了解决sdr算法的高计算复杂度以及深度学习的样本获取问题，本发明为基站使用大规模均匀线性天线阵的下行传输系统提供一种基于深度强化学习的智能反射表面优化方法，所提出的算法可以根据经验池中的样本在线训练网络模型，节省样本存储空间及相位优化时间。

为了达到上述目的，本发明采用的方法是：一种基于深度强化学习的智能反射表面相位优化方法，包括以下步骤：

步骤1、无线通信系统中基站配置均匀线性天线阵，该天线阵包括m个天线阵元，智能反射表面配置均匀平面反射单元，包括垂直方向ny行反射单元，水平方向每行nx个反射单元，用户配置单根接收天线；基站及反射单元已知用户信道状态信息；

所述信道状态信息包括：基站到用户信道矢量基站到智能反射表面的信道矩阵和智能反射表面到用户的信道矢量hd中的第m个元素[hd]m为基站第m个天线单元与用户间的信道系数；hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数；g中的第m行第n列元素[g]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数。

步骤2、构建智能体的经验池及深度强化学习神经网络，包括：动作估计网络、动作现实网络、评价估计网络和评价现实网络；所述动作估计网络和动作现实网络构成智能反射表面的动作网络，所述评价估计网络和评价现实网络构成智能反射表面的评价网络；所述智能体以智能反射表面的相位偏置所构成的矢量为动作，以用户的接收信噪比为奖励，以动作和奖励构成的矢量为状态；上述各部分网络功能说明如下：

所述动作估计网络负责根据智能反射表面当前状态s选择当前动作a＝μ(s；θμ)用于与无线通信系统交互生成下一状态s′以及奖励r，其中，μ(·)代表动作估计网络函数，θμ为其网络参数。

所述动作现实网络负责根据经验池中采样样本中的下一状态s′选择下一个动作a′＝μ′(s′；θμ′)，其中μ′(·)为动作现实网络函数，θμ′为其网络参数。

所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数q′(s′,a′；θq′)，其中θq′为其网络参数。

所述评价估计网络负责计算当前动作价值函数q(s,a；θq)和目标q值y＝r+q′(s′,a′；θq′)，其中θq为评价估计网络参数。

步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq，并令动作现实网络及评价现实网络初始化参数满足θq′＝θq、θμ′＝θμ；设置经验池容量d，单次随机采样数量nb。

步骤4、对步骤2中构建的深度强化学习神经网络进行训练，得到训练完毕的动作网络及评价网络参数用于最优智能反射表面相位偏置矩阵生成。具体包括以下子步骤：

a1)设置初始时刻t＝1；随机生成包含n＝nxny个元素的时刻t-1智能反射表面相位偏置角矢量其元素均从[0,2π]中随机选取，生成时刻t-1的角度偏置矩阵其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和智能反射表面角度偏置矩阵φ^(t-1)计算时刻t-1用户的接收信噪比其中为时刻t-1基站的波束赋形矢量，pmax为基站发射功率，(·)^h代表共轭转置，|·|表示取绝对值，σ²为用户接收噪声功率。设置时刻t状态

a2)将时刻t的状态st作为动作网络输入得到时刻t的动作其中为探索噪声；之后将当前动作at中元素整合为时刻t智能反射表面相位偏置矩阵并根据步骤a1)所述方法计算时刻t的用户接收信噪比γ^(t)作为时刻t的奖励rt；得到时刻t+1的状态将经验样本(st,at,rt,st+1)存入经验池中。

a3)若经验池中的记录数量小于取样数量nb，则令t＝t+1进入步骤a2)；若经验池中的样本数目大于等于取样数量nb则进入a4)；若经验池中的样本数达到容量上限时，则新增加的经验样本覆盖经验池中最早的一条记录，然后进入a4)；

a4)从经验池中随机采样nb个样本，将第j,j＝1,…,nb个样本中的下一个状态输入动作目标网络得到对应于下一个状态的最优动作将与构成新的矢量作为评价现实网络的输入用于计算目标q值，其中tj为第j个样本中第一个元素所对应的时刻。将样本中的与构成新的矢量作为评价估计网络的输入用于计算q值。利用随机梯度下降更新动作估计网络参数，利用策略梯度更新评价估计网络参数，利用软更新更新动作、评价现实网络参数。若网络收敛则进入步骤5，否则进入步骤a2)；

步骤5、得到收敛之后的网络模型参数，输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵φ^opt。

进一步地，作为本发明的一种优选技术方案：所述步骤2中构建的深度强化学习神经网络模型均包含一个输入层、两个隐藏层以及一个输出层。所述动作估计网络和动作现实网络使用同样的网络结构；所述评价估计网络和评价目标网络使用同样的网络结构。

进一步地，作为本发明的一种优选技术方案：所述步骤4中用于动作探索的噪声为服从均值为0方差为0.1的加性复高斯噪声；用于网络参数更新的目标q值使用bellman方程计算，其具体表达式为：

其中λ＜1为折扣因子。

进一步地，作为本发明的一种优选技术方案：所述步骤4中动作估计网络采用随机梯度下降的方法更新网络参数，其具体的均方误差损失函数为：

则新的动作估计网络参数为：其中α为学习率，▽x表示对变量x求偏导；所述步骤4中评价估计网络采用策略梯度的方法跟新网络参数，其具体的策略梯度增益为：

则新的评价估计网络参数为：所述步骤4中动作、评价目标网络采用软更新的方法更新网络参数，其具体表达式为：

θμ′＝τθμ+(1-τ)θμ′

θq′＝τθq+(1-τ)θq′

其中τ＜＜1为软更新系数。

本发明涉及一种基于深度强化学习的智能反射表面相位优化方法，有益效果如下：

1、本发明无需大量训练样本，实现复杂度低，适用于各种典型的无线通信环境；

2、本发明融合了深度q网络以及策略梯度的优势，能够有效地处理高维状态空间以及连续动作空间；

3、本发明训练过程更加稳定，收敛性更好。

附图说明

图1是本发明方法在线训练智能体的流程图。

图2是本发明智能体中动作网络和评价网络的网络结构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

如图1所示，本发明公开了一种基于深度强化学习的智能反射表面相位优化方法，该方法具体包括以下步骤：

步骤2、构建智能体的经验池及深度强化学习神经网络，包括：动作估计网络、动作现实网络、评价估计网络和评价现实网络；所述动作估计网络和动作现实网络构成智能反射表面的动作网络，所述评价估计网络和评价现实网络构成智能反射表面的评价网络；如图2所示：网络包含一个输入层，两个隐藏层(全连接层)及一个输出层，前三层后接relu激活函数，输出层后接tanh激活函数；所述评价网络结构与动作网络相同，但输出层后不接tanh函数；所述智能体以智能反射表面引入的相位偏置所构成的矢量为动作，以用户的接收信噪比为奖励，以动作和奖励构成的矢量为状态，上述各部分网络功能说明如下：

所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数q′(s′,a′；θq′)，其中θq′为其网络参数。

所述评价估计网络负责计算当前动作价值函数q(s,a；θq)和目标q值y＝r+q′(s′,a′；θq′)，其中θq为评价估计网络参数。

a1)设置初始时刻t＝1；随机生成包含n＝nxny个元素的时刻t-1智能反射表面相位偏置角矢量其元素均从[0,2π]中随机选取，生成时刻t-1的角度偏置矩阵其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和的智能反射表面的角度偏置矩阵φ^(t-1)计算时刻t-1用户的接收信噪比其中为时刻t-1基站的波束赋形矢量，pmax为基站发射功率，(·)^h代表共轭转置，|·|表示取绝对值，σ²为用户接收噪声功率。设置时刻t状态

a3)若经验池中的记录数量小于取样数量nb，则令t＝t+1进入步骤a2)；若经验池中的样本数目大于等于取样数量nb则进入a4)，对当前神经网络进行训练；若经验池中的样本数达到容量上限时，则新增加的经验样本覆盖经验池中最早的一条记录，然后进入a4)；

a4)从经验池中随机采样nb个样本，将第j,j＝1,…,nb个样本中的下一个状态输入动作目标网络得到对应于下一个状态的最优动作将与构成新的矢量作为评价现实网络的输入用于计算目标q值，其中tj为第j个样本中第一个元素所对应的时刻。目标q值使用bellman方程计算，其具体表达式为：

其中λ＜1为折扣因子。将样本中的与构成新的矢量作为评价估计网络的输入用于计算q值。利用随机梯度下降更新动作估计网络参数，其均方误差损失函数表达式为：

则新的动作估计网络参数为：θ′q＝θq-α▽l(θq)，其中α为学习率，▽x表示对变量x求偏导；利用策略梯度更新评价估计网络参数，其具体的策略上升增益为：

则新的评价估计网络参数为：利用软更新更新动作、评价目标网络参数：

θμ′＝τθμ+(1-τ)θμ′

θq′＝τθq+(1-τ)θq′

其中τ＜＜1为软更新系数。当网络收敛则进入步骤5，否则进入步骤a2)；

步骤5、得到收敛之后的网络模型参数，输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵φ^opt。

为了验证本发明方法可在不需要大量训练样本的前提下减少优化时间，提升用户接收信噪比，特列举一个验证例进行说明。

本验证例是一种基于深度强化学习的智能反射表面相位优化方法，解决深度学习需要提前获取并存储大量训练样本及传统sdr算法复杂度较高的问题，所提出的深度强化学习算法可以根据经验池中的样本在线学习，优化irs的相位偏置矩阵，增大用户接收信噪比。具体包括如下步骤：

步骤1、考虑一个irs辅助的单用户下行多输入单输出(multiple-input-single-output，miso)无线通信系统。系统中基站配置均匀线性天线阵，该天线阵包括m＝10个天线阵元，智能反射表面配置均匀平面反射单元，包括垂直方向ny＝5行反射单元，水平方向每行nx＝10个反射单元，相邻反射单元间距均为载波半波长，用户配置单根接收天线；基站及反射单元已知用户信道状态信息，基站总发射功率为pmax＝5dbm，用户接收噪声功率为σ²＝-75dbm；

所述信道状态信息包括：基站到用户的信道矢量hd、基站到智能反射表面的信道矩阵g和智能反射表面到用户的信道矢量hr，列矢量hd中的第m个元素[hd]m为基站端第m个天线单元与用户间的信道系数；列矢量hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数；矩阵g中的第m行第n列元素[g]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数。

步骤2、构建智能体的经验池及深度强化学习神经网络，包括：动作估计网络、动作现实网络、评价估计网络和评价现实网络；所述动作估计网络和动作现实网络构成智能反射表面的动作网络，所述评价估计网络和评价现实网络构成智能反射表面的评价网络；所述动作网络的输入层包含51个神经元，两个隐藏层分别包含300、200个神经元，输出层包含50个神经元。所述评价网络输入层包含101个神经元，两个隐藏层的神经元数与动作网络一致，输出层包含1个神经元；所述智能体以智能反射表面引入的相位偏置所构成的矢量为动作，以用户的接收信噪比为奖励，以动作和奖励构成的矢量为状态，上述各部分网络功能说明如下：

所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数q′(s′,a′；θq′)，其中θq′为其网络参数。

所述评价估计网络负责计算当前动作价值函数q(s,a；θq)和目标q值y＝r+q′(s′,a′；θq′)，其中θq为评价估计网络参数。

步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq，并令动作现实网络及评价现实网络初始化参数满足θq′＝θq、θμ′＝θμ；设置经验池容量d＝50000，单次随机采样数量nb＝16。

设置初始时刻t＝1；随机生成包含n＝nxny＝10×5＝50个元素的时刻t-1智能反射表面相位偏置角矢量其元素均从[0,2π]中随机选取，生成时刻0的角度偏置矩阵其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和时刻0的智能反射表面角度偏置矩阵φ⁽⁰⁾计算用户初始接收信噪比其中为时刻0基站的波束赋形矢量，其中(·)^h代表共轭转置，|·|表示取绝对值。设置时刻0的状态

a3)若经验池中的经验样本数量小于16，则令t＝t+1进入步骤a2)；若经验池中的经验样本数大于等于16则进入a4)，对当前神经网络进行训练；若经验池中的样本数达到容量上限时，则新增加的经验样本覆盖经验池中最早的一条记录，然后进入a4)；

a4)根据随机采样的16个样本，将第j,j＝1,…,16个样本中的下一个状态输入动作目标网络得到对应于下一个状态的最优动作将与构成新的矢量作为评价现实网络的输入用于计算目标q值。其中目标q值使用bellman方程计算，令折扣因子λ＝0.95其具体表达式为：

将样本中的与构成新的矢量作为评价估计网络的输入用于计算q值。利用随机梯度下降更新动作估计网络参数，其均方误差损失函数表达式为：

令学习率α＝0.001，则新的动作估计网络参数为：▽x表示对变量x求偏导；利用策略梯度更新评价估计网络参数，其具体的策略上升增益为：

则新的评价估计网络参数为：利用软更新更新动作、评价目标网络参数，令软更新系数τ＝0.005：

θμ′＝0.005θμ+(1-0.005)θμ′

θq′＝0.005θq+(1-0.005)θq′

当网络收敛则进入步骤5，否则进入步骤a2)；

步骤5、得到收敛之后的网络模型参数，输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵φ^opt。

综上，所提出的基于深度强化学习的智能反射表面方法可以通过对经验池中的样本随机采样训练网络模型，相比于深度学习不需要大量训练样本，相比传统的高复杂度sdr算法节省了大量计算时间，该方法能够适应于不同信道环境以及智能反射表面反射单元数的变化，具有推广性。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李潇;冯轲铭;金石
技术所有人：东南大学
我是此专利的发明人

上一篇：双极膜电渗析技术处理高盐废水并进行资源化回收的方法与流程
上一篇：一种泰拉霉素肠溶颗粒的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。