基于Q学习的免授权频谱下5G多系统共存资源分配方法与流程

文档序号：20511790发布日期：2020-04-24 18:37阅读：来源：国知局

技术特征：

1.一种基于q学习的免授权频谱下5g多系统共存资源分配方法，其特征在于：包括以下步骤：

步骤1：计算共存场景下nr-u系统与wifi系统的吞吐量；

步骤2：计算共存场景下的最优abs数量；

步骤3：匹配共存场景下的abs位置，具体运用q学习实现wifi系统与abs位置的匹配，步骤如下：

步骤3.1)nr-u系统作为q学习中的智能体通过侦听wifi系统的网络环境参数，获得abs持续时间内wifi吞吐量的最小值smin以及最大值smax；

步骤3.2)初始化q值表，从状态空间s中随机选择一个状态st以及从动作集合a＝{at},t∈[0,10-nabs]随机选择一个动作at；

其中，状态空间s表示为(12):

其中，sw为wifi在abs持续时间内的平均吞吐量；

步骤3.3)执行动作at获得其回报值r，并观察下一状态at+1；

其中，回报值r定义为智能体在状态st下采取动作at可以获得的奖励值，表示为(13)：

其中，表示在第i个abs对应的持续时间内wifi系统的吞吐量，σ的设置是为了避免分母为0；当与smax越接近，回报值越高；反之，当与smax差距越大，回报值越低；

步骤3.4)按照(14)更新q值表，并更新当前状态st＝st+1；

q(st,at)＝(1-α)q(st,at)+α[r+γmaxaq(st+1，a)](14)

其中，q(st,at)表示在当前状态st下，智能体执行动作at得到的累计决策信息；

步骤3.5)找到当前状态st下对应最好的q值，其对应的动作就是abs的位置。

2.根据权利要求1所述的一种基于q学习的免授权频谱下5g多系统共存资源分配方法，其特征在于：步骤1中wifi系统的吞吐量为(1):

其中，ptr和ps表示信道中有用户传输且传输成功的概率以及信道中至少有一个用户在传输的概率，e[p]表示在一个时隙中传输的平均数据，tσ，ts和tc分别表示空闲时隙的平均时间、数据成功传输的平均时间和发生碰撞的平均时间；ptr、ps、ts和tc分别表示为(2)、(3)、(4)和(5)：

ptr＝1-(1-τ)ⁿ(2)

ts＝h+e[p]+sifs+δ+ack+difs+δ(4)

tc＝h+e[p]+difs+δ(5)

其中，n为共存场景下wifista个数，h为mac和phy层头部的长度，δ为传输时延，ack、difs和sifs分别代表dcf的帧间距、确认帧时间和短帧间距，τ为每个wifista在任意时隙内的传输概率，表示为(6)：

其中，cwmin表示最小竞争窗的大小，m代表最大退避状态，pc表示信道中数据帧发生碰撞的概率，可以表示为(7)：

pc＝1-(1-τ)^n-1(7)。

3.根据权利要求1所述的一种基于q学习的免授权频谱下5g多系统共存资源分配方法，其特征在于：步骤1中nr-u系统的吞吐量为(8):

其中，b为免授权频段一个信道的子带宽，γm为第m个ue的信干噪比，可表示为γm＝pm|gm|²/(i+r)，pm为第m个ue的传输功率，gm为第m个ue的信道增益，i为干扰功率，r为白噪声的功率；

其中，用户设备，全称userequipmentdevices,简写为ue。

4.根据权利要求1所述的一种基于q学习的免授权频谱下5g多系统共存资源分配方法，其特征在于：步骤2，具体为:

步骤2.1依次遍历目标函数(9)中q的所有取值找到符合优化目标的q值：

其中，约束条件q∈[0.1,0.2,...,0.9]是为了保证为wifi分配的abs数量是子帧的整数倍；stotal为系统的总吞吐量即nr-u系统与wifi系统吞吐量之和，q为nr-u系统占用的时间比例，(1-q)为nr-u系统静默时间也就是abs的持续时间，λ为衡量吞吐量和公平性的权重因子，fq表示nr-u系统与wifi系统的公平指数，表示为(10)：

步骤2.2根据步骤2.1计算出来的q值计算出abs的数量nabs，具体通过公式(11)计算：

nabs＝(1-q)t(11)

其中，t为5gnr系统中一个无线帧的长度。

完整全部详细技术资料下载

当前第2页1 2 3