本发明涉及调度领域,尤其涉及一种基于多智能体强化学习的多用户mimo资源调度方法。
背景技术:
1、随着第五代通信技术的不断发展,多用户多入多出(mu-mimo)的应用场景也越来越多,吸引了大批的研究人员开始对mu-mimo系统进行研究。为了将下行链路中有限的通信资源进行更好的分配,目前存在一些应用于mu-mimo的下行链路资源调度方法,但传统的资源调度方法往往都因多用户间的干扰较大或者mu-mimo系统较为复杂的原因,造成系统总吞吐量不高,进而影响通信传输效率的结果。因此,为了将mu-mimo系统通信资源得到更好的分配,采用基于多智能体强化学习的mu-mimo资源调度方法是一种更为高效、合理、科学的资源调度策略。
技术实现思路
1、针对现有技术中的问题,本发明提出了一种基于多智能体强化学习的mu-mimo资源调度方法,更加合理完成下行链路通信资源调度。
2、为了实现本发明的上述目的,本发明提供了一种基于多智能体强化学习的mu-mimo资源调度方法,其特征在于,包括:
3、s1,所有终端设备发送信道质量信息给基站;
4、s2,基站的资源调度器获取来自物理层和媒体接入控制层(mac)的用户信息;
5、s3,构建多智能体强化学习模型,资源调度器进行训练学习,并执行子用户集的选择;
6、s4,基站与所选择的用户子集中的终端建立通信连接。
7、所述的基于多智能体强化学习的mu-mimo资源调度方法,其特征在于,所述s1包括:
8、给在一个单基站m个用户的多用户mimo下行链路系统中,各用户终端通过测量下行信道质量,获取信道质量相关信息,从而将信道质量指示(cqi)、预编码矩阵指示符(pmi)、秩指示符(ri)上报给基站。
9、所述的基于多智能体强化学习的mu-mimo资源调度方法,其特征在于,所述s2包括:
10、每个传输时间间隔(tti)内,基站物理层接收所有服务用户反馈的信道质量信息,位于mac层的资源调度器接收来自物理层的用户信道质量信息和来自mac层的各用户缓存队列信息和服务质量(qos)参数信息。其中,基站将上报的ri和cqi依据5g协议中的选阶表的解调门限折算为干扰信噪比(sinr),qos参数包括qos分类标识(qci)、保证比特速率(gbr)、聚合最大比特速率(ambr)。将上述得到的所有信息输入强化学习的策略网络,作为智能体的观测值oi。
11、所述的基于多智能体强化学习的mu-mimo资源调度方法,其特征在于,所述s3包括:
12、调度器需要从所有可调度用户集合中选取性能最优的,在同一时频资源上选取调度用户子集。将所有可调度的用户看作多智能体群体,调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入,用户是否作为调度子集看作智能体的决策动作,奖励设置为系统总吞吐量。
13、然后使用中心化训练去中心化执行的方法,选择出最优子用户集。将强化学习的策略网络定义为π(ai|oi;θi)和价值网络q(o,a;wi),其中策略网络中,ai为第i个智能体的选择,oi为智能体的观测信息,即信道质量信息和高层队列等,θi为策略网络训练时的第i个智能体的参数;价值网络q中,o为所有智能体的观测,a为所有智能体的动作决策,wi为价值网络训练时第i个智能体的参数。
14、对策略网络和价值网络进行训练学习,不断迭代更新网络参数,待网络达到收敛后,将得到的模型部署到资源调度器中。输入s2中得到的信息,模型执行决策操作,得到最终的子用户集。
15、所述的基于多智能体强化学习的mu-mimo资源调度方法,其特征在于,所述s4包括:
16、基站与选出的子用户集中的所有终端建立通信连接,多数据流通过空分复用的方式被调度给该用户子集中的多个用户,通过空间维度的多用户调度获得了额外的多用户分集增益,最终系统总吞吐量和频谱效率达到最优。
1.一种基于多智能体强化学习的多用户mimo资源调度方法,其特征在于,包括:
2.所述的基于多智能体强化学习的多用户mimo资源调度方法,其特征在于,所述s1包括:
3.所述的基于多智能体强化学习的多用户mimo资源调度方法,其特征在于,所述s2包括:
4.所述的基于多智能体强化学习的多用户mimo资源调度方法,其特征在于,所述s3包括:
5.所述的基于多智能体强化学习的多用户mimo资源调度方法,其特征在于,所述s4包括: