一种基于多智能体强化学习的多用户MIMO资源调度方法

文档序号：33882312发布日期：2023-04-20 13:28阅读：162来源：国知局

本发明涉及调度领域，尤其涉及一种基于多智能体强化学习的多用户mimo资源调度方法。

背景技术：

1、随着第五代通信技术的不断发展，多用户多入多出(mu-mimo)的应用场景也越来越多，吸引了大批的研究人员开始对mu-mimo系统进行研究。为了将下行链路中有限的通信资源进行更好的分配，目前存在一些应用于mu-mimo的下行链路资源调度方法，但传统的资源调度方法往往都因多用户间的干扰较大或者mu-mimo系统较为复杂的原因，造成系统总吞吐量不高，进而影响通信传输效率的结果。因此，为了将mu-mimo系统通信资源得到更好的分配，采用基于多智能体强化学习的mu-mimo资源调度方法是一种更为高效、合理、科学的资源调度策略。

技术实现思路

1、针对现有技术中的问题，本发明提出了一种基于多智能体强化学习的mu-mimo资源调度方法，更加合理完成下行链路通信资源调度。

2、为了实现本发明的上述目的，本发明提供了一种基于多智能体强化学习的mu-mimo资源调度方法，其特征在于，包括：

3、s1，所有终端设备发送信道质量信息给基站；

4、s2，基站的资源调度器获取来自物理层和媒体接入控制层(mac)的用户信息；

5、s3，构建多智能体强化学习模型，资源调度器进行训练学习，并执行子用户集的选择；

6、s4，基站与所选择的用户子集中的终端建立通信连接。

7、所述的基于多智能体强化学习的mu-mimo资源调度方法，其特征在于，所述s1包括：

8、给在一个单基站m个用户的多用户mimo下行链路系统中，各用户终端通过测量下行信道质量，获取信道质量相关信息，从而将信道质量指示(cqi)、预编码矩阵指示符(pmi)、秩指示符(ri)上报给基站。

9、所述的基于多智能体强化学习的mu-mimo资源调度方法，其特征在于，所述s2包括：

10、每个传输时间间隔(tti)内，基站物理层接收所有服务用户反馈的信道质量信息，位于mac层的资源调度器接收来自物理层的用户信道质量信息和来自mac层的各用户缓存队列信息和服务质量(qos)参数信息。其中，基站将上报的ri和cqi依据5g协议中的选阶表的解调门限折算为干扰信噪比(sinr)，qos参数包括qos分类标识(qci)、保证比特速率(gbr)、聚合最大比特速率(ambr)。将上述得到的所有信息输入强化学习的策略网络，作为智能体的观测值oi。

11、所述的基于多智能体强化学习的mu-mimo资源调度方法，其特征在于，所述s3包括：

12、调度器需要从所有可调度用户集合中选取性能最优的，在同一时频资源上选取调度用户子集。将所有可调度的用户看作多智能体群体，调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入，用户是否作为调度子集看作智能体的决策动作，奖励设置为系统总吞吐量。

13、然后使用中心化训练去中心化执行的方法，选择出最优子用户集。将强化学习的策略网络定义为π(ai|oi；θi)和价值网络q(o,a；wi)，其中策略网络中，ai为第i个智能体的选择，oi为智能体的观测信息，即信道质量信息和高层队列等，θi为策略网络训练时的第i个智能体的参数；价值网络q中，o为所有智能体的观测，a为所有智能体的动作决策，wi为价值网络训练时第i个智能体的参数。

14、对策略网络和价值网络进行训练学习，不断迭代更新网络参数，待网络达到收敛后，将得到的模型部署到资源调度器中。输入s2中得到的信息，模型执行决策操作，得到最终的子用户集。

15、所述的基于多智能体强化学习的mu-mimo资源调度方法，其特征在于，所述s4包括：

16、基站与选出的子用户集中的所有终端建立通信连接，多数据流通过空分复用的方式被调度给该用户子集中的多个用户，通过空间维度的多用户调度获得了额外的多用户分集增益，最终系统总吞吐量和频谱效率达到最优。

技术特征：

1.一种基于多智能体强化学习的多用户mimo资源调度方法，其特征在于，包括：

2.所述的基于多智能体强化学习的多用户mimo资源调度方法，其特征在于，所述s1包括：

3.所述的基于多智能体强化学习的多用户mimo资源调度方法，其特征在于，所述s2包括：

4.所述的基于多智能体强化学习的多用户mimo资源调度方法，其特征在于，所述s3包括：

5.所述的基于多智能体强化学习的多用户mimo资源调度方法，其特征在于，所述s4包括：

技术总结
本发明提出一种基于多智能体强化学习的多用户MIMO(MU‑MIMO)资源调度方法，以完成下行链路的通信资源调度。采用多智能体强化学习，将所有可调度的用户看作多智能体群体，调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入，用户是否作为调度子集看作智能体的决策动作，奖励设置为系统总吞吐量。该方法使用中心化训练去中心化执行的方法，选出最优用户子集从而与基站建立通信连接。该方法有效地解决了MU‑MIMO系统因其多用户间的干扰较大或者系统较为复杂导致系统下行链路总吞吐量不高的问题，提升了系统总吞吐量，降低用户间干扰，进而提高通信传输效率。

技术研发人员：廖勇,高歌,孙远欣
受保护的技术使用者：重庆大学
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖勇高歌孙远欣
技术所有人：重庆金美通信有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。