一种考虑业务优先级的多信道接入建模及分布式实现方法

文档序号：30076926发布日期：2022-05-18 03:31阅读：来源：国知局

技术特征：
1.一种考虑业务优先级的多信道接入建模及分布式实现方法，包括以下步骤：步骤1：建立考虑业务优先级的多链路动态信道接入约束优化模型；步骤2：将所述步骤1建立的约束优化模型转化为multi-agent强化学习决策过程，构建基于所述约束优化模型的多链路动态信道决策的深度学习框架；步骤3：将所述步骤1建立的约束优化模型的优化目标作为奖励，对所述步骤2构建的深度学习框架的所有agent进行集中训练，将训练好的agent加载到网络对应的各链路发射机上进行分布式执行，输入当前时隙的各链路局部观测，从而得到当前时隙每条链路发射机选择接入的信道。2.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤1中的约束优化模型为：征在于，所述步骤1中的约束优化模型为：征在于，所述步骤1中的约束优化模型为：在模型中，n条无线链路同时接入一段包含k个正交信道的无线频谱，每条链路的发射机拥有一个包含l个优先级的业务缓存队列，且缓存队列标号越小优先级越高，各队列最大缓存容量为b
max
个数据包；各信道在时间上被划分成等周期时隙，连续f个时隙定义为一个时帧；假设所有链路已完成时间同步，各信道上每个时隙被称为一个传输机会，且所有传输机会的容量为1个数据包；在时隙t、第n条链路的发射机根据自己的缓存队列情况做出信道选择决策从而获得各信道的反馈表示第i条信道被第n条链路的发射机选择，否则没被选择，表示第n条链路的信息在第i条信道上被成功传输，否则没有成功或因不选择该链路而没有反馈；ρ
n
(t)为链路传输价值变量：其中，b
u
是用于归一化链路传输价值的常数，为第l
*
优先级队列的权重，且有
表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号；为每个传输机会用于传输不同链路业务对全网产生的效益为：优化目标opt1表示一个时帧内所有链路的效益和，优化目标opt2为当前时帧内所有链路都完成传输时的时隙标号；约束条件c1表示每条链路发射机决策动作的定义；约束条件c2表示每条链路发射机各级业务缓存队列中数据包的更新；约束条件c3表示每条链路传输价值的更新；c4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数；约束条件c5表示一个信道只能被一条链路成功接入，否则会发生碰撞；约束条件c6给出优化目标的opt2数学表达。3.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤2中，基于multi-agent深度强化学习框架中配有n个agent，每个agent配有一个相同架构的多层神经网络，其中第一层用于接收每条链路的局部观测，最后一层直接输出所有信道接入决策的q值，用于动作的选择；每个agent的局部观测为：其中，表示第n条链路发射机所有缓存队列中当前缓存的数据包数量；ρ
n
(t)表示第n条链路当前时隙的传输价值；a
n
(t-1)表示第n条链路发射机上一时隙的决策动作；表示上一时隙动作对应的各信道反馈；表示第n条链路对各信道的感知结果；e和ε分别为当前训练的次数和随机选择的概率；各agent的动作空间定义为：其维度为2
k
；所述深度强化学习框架按照所有链路发射机缓存队列没有清空之前所获得奖励为所有链路效益和，以及当所有链路发射机的各级缓存队列数据包均被清空后所获得奖励为一个常数r0设定协作奖励方程：4.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3包括：步骤3.1：获取系统参数，包括链路数量n、信道数量k、缓存队列数量l、各缓存队列的最大缓存数据包数b
max
；步骤3.2：基于所述步骤2建立的multi-agent深度强化学习框架构建multi-agent集中
训练系统，进行所有agent神经网络参数的离线训练；步骤3.3：将所述步骤3.2中训练完成的神经网络部署到实际网络中的发射机上；步骤3.4：网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果在内的局部观测，并输入到加载的agent神经网络模型中，以得到该时隙的信道选择结果。5.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中的multi-agent集中训练系统包括每条链路对应的agent、每个agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。6.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中，每个agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池，所述的目标神经网络和训练神经网络拥有相同的神经网络结构。7.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中的离线训练包含以下步骤：步骤3.2.1：初始化2n个神经网络的参数以及n个经验池；设置业务随机产生区间根据该区间随机初始化每条链路发射机的各级缓存队列数据包数量；将各链路初始观测为第一个时隙各级缓存队列数据包数量、第一个时隙传输价值、上一时隙动作选择均为0，信道反馈均为0，信道感知结果均为1，当前训练次数为1及随机选择的概率为1；将贪婪概率系数ε设置为1；步骤3.2.2：开始执行循环过程，循环包括n
e
次大循环，每个大循环包含f次小循环；每经过f次小循环，每个agent从各自经验记忆回放池中随机采样m条经验，计算均方误差损失，并利用rmsprop算法进行各自神经网络参数的训练；每经过n
p
次大循环，每个agent将各自的训练神经网络参数复制给目标神经网络参数，其中n
e
为使得算法达到收敛循环次数，n
p
<<n
e
。8.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，每经过1次大循环，减小贪婪概率系数ε。9.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，每经过1次大循环，重新设置业务随机产生区间，重新初始化每条链的局部观测。10.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，第t次小循环过程如下：(a)每个agent观测当前环境状态，获得本地观测状态o
n
(t)；(b)将观测状态o
n
(t)输入到训练神经网络中，并根据训练神经网络输出和随机选择概率来选取决策动作：其中，表示随机选择动作；(c)所有agent共同执行所选择的动作a
n
(t)，得到环境的奖励:
(d)所有agent更新缓存队列内的数据包、自身的传输价值、上一时隙动作选择、信道反馈、信道观测、当前训练次数及随机选择的概率，从而获得下一观测状态o
n
(t+1)；(e)每个agent将(o
n
(t),a
n
(t),r
n
(t+1),o
n
(t+1))存储到经验记忆回放池中。

技术总结
本发明提出了一种考虑业务优先级的多信道接入建模及分布式实现方法，基于一个考虑业务优先级分类的通用缓存队列模型，结合相同无线资源传输不同优先级业务对全网所产生的效益不同这一特性，建立了新的网络效益最大化约束优化模型；将该模型转化为Multi-agent强化学习决策过程，从而构建了基于该模型的多链路分布式动态信道接入的深度学习框架，用所建立模型的优化目标作为奖励对所有Agent进行集中训练，得到了相应的分布式动态信道接入方法；通过将该深度学习框架训练的Agent加载到链路发射机上进行分布式执行，可实现各链路仅利用局部观测就能实现具有全局业务优先级平衡效果的动态频谱接入决策。果的动态频谱接入决策。果的动态频谱接入决策。

技术研发人员：张树英倪祖耀匡麟玲赵旭
受保护的技术使用者：清华大学
技术研发日：2022.02.21
技术公布日：2022/5/17

完整全部详细技术资料下载

当前第2页1 2