一种基于强化学习的基站休眠方法、设备和介质与流程

文档序号：31541026发布日期：2022-09-16 23:52阅读：来源：国知局

技术特征：
1.一种基于强化学习的基站休眠方法，其特征在于，具体包括以下步骤：步骤1、假设超密集网络是由1个宏基站和n个微基站构成的异构网，其中宏基站负责控制整个网络，微基站负责业务数据传输；宏基站一直处于激活状态；微基站的状态分为激活和休眠两种状态，其决策问题建模成一个二进制整数规划，将这些基站记为集合bs＝{sbs1,...,sbs
n
}，每隔一个周期统计各个基站的流量负载，并将其记录，各个微基站根据历史流量数据应用于lstm网络中训练各自流量的预测模型；步骤2、根据步骤1得到的流量预测模型，统计当前各个微基站的每个时刻的流量值并输入到lstm网络中，获取微基站在下一统计时刻的流量预测值，并且根据当前时刻的流量负载情况和预测得到的流量负载情况，设置相应的预留资源，避免由于突发业务导致通信链路堵塞问题；步骤3、当步骤2的微基站流量预测值和资源预留总和大于门限阈值的时候，将该微基站加入候选关闭微基站集合；步骤4、统计候选微基站覆盖范围内的用户数量和各个用户的流量需求；通过csi-rs反馈获取每个用户的信干噪比sinr；步骤5、根据步骤3得到的候选关闭微基站集合和步骤4得到的基站服务用户的流量需求，通过对预测流量大小对候选微基站进行排序，流量小的微基站具有更高的关闭优先级；根据价值函数将流量负载小的微基站覆盖的用户移交给临近的开启的微基站，并且接收微基站根据用户当前速率需求调整其预留资源的大小；步骤6、获取每个基站当前时刻的关闭状态集合，以及候选关闭微基站集合内的微基站服务用户的速率；采用ε-greedy策略选择基站关闭集合，得到待关闭微基站集合，如果满足最小速率需求条件，便将其作为一个可选的关闭微基站集合，并计算奖励回报值，将其存储到存储单元memory中，然后从memory中随机选取数据，输入到网络中，从而修正网络模型；如果不符合条件，舍弃这个集合。2.根据权利要求1所述的方法，其特征在于，微基站i服务的用户j的信干噪比记作sinr
i,j
，当前用户的传输速率记为r
i,j
，根据香农公式可得r
i,j
＝blog2(1+sinr
i,j
)，其中b是传输带宽。3.根据权利要求2所述的方法，其特征在于，在步骤1中，微基站历史流量数据为其中r
it
表示在t统计时刻时，微基站i的流量数据；运用lstm网络根据各个微基站的流量数据训练各自的lstm模型。4.根据权利要求3所述的方法，其特征在于，所述训练各自的lstm模型具体为：输入搜集到的基站历史流量数据，将其分为训练数据集合和测试数据集合，用训练数据训练lstm网络，获取lstm模型，输入测试数据集，计算误差函数，根据误差修正网络模型，当误差小于门限值后，输出当前微基站的流量预测模型，并且预测下一统计时刻的流量数据。5.根据权利要求4所述的方法，其特征在于，对于微基站i，根据微基站i当前流量数据、历史流量数据以及移交用户的速率情况，确定资源预留值大小，当资源预留值与流量预测值之和大于流量门限值的时候，微基站i加入到候选关闭微基站集合中，否则该基站会处于开启状态。6.根据权利要求5所述的方法，其特征在于，在步骤4中，假设用户j的服务微基站为i，
在实际网络中，基站发射csi-rs给用户，用户根据导频信号进行信道估计得到信道矩阵从而计算得到下行链路的信干噪比，然后通过上行的csi-rs反馈信令反馈给服务基站，根据香农公式可得r
i,j
＝blog2(1+sinr
i,j
)，其中b是传输带宽。7.根据权利要求6所述的方法，其特征在于，在步骤5中，根据关闭候选微基站和用户的流量需求，通过对预测流量大小对候选微基站进行排序，流量小的微基站具有更高的关闭优先级，对于优先级高的微基站，先考虑该微基站覆盖范围内用户的移交，将其移交给临近微基站，当该微基站内的服务用户移交结束之后，该微基站关闭。8.根据权利要求7所述的方法，其特征在于，在步骤6中，先初始化两个相同的网络eval_model和target_model，只考虑候选关闭微基站集合，状态空间为每个基站当前统计时刻的关闭状态集合和用户速率；采用ε-greedy策略探索基站关闭集合，随机生成一个数r，当r小于epsilon的时候，将状态输入到eval_model，得到价值函数，根据价值函数取得关闭基站集合；当r小于epsilon的时候，随机确定候选微基站关闭状态；根据当前基站关闭状态，如果每个微基站覆盖的用户都满足最小速率需求条件，便将其作为一个可选的关闭微基站集合，并计算奖励回报值，将其存储到存储单元memory中，然后从memory中随机选取数据，输入到两个网络中，从而修正网络模型；如果不符合条件，并舍弃这个集合，根据最终微基站决策动作，确定需要关闭的微基站。9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。

技术总结
本发明提出一种基于强化学习的基站休眠方法、设备和介质。所述方法包括：建立深度强化学习模型，对超密集网络中的各个基站的未来流量负载进行预测，确定超密集网络中各个基站的关闭情况。该方法通过引入LSTM模型，通过历史数据来预测网络中各个基站未来的流量负载情况；然后根据预测出的流量负载情况，在保证用户服务质量的情况下，利用强化学习的方法选取合适的基站进行休眠，从而降低网络能耗。从而降低网络能耗。从而降低网络能耗。

技术研发人员：吴宣利陈志杰付楠楠吴玮袁国程潘天助
受保护的技术使用者：河北远东通信系统工程有限公司
技术研发日：2022.05.28
技术公布日：2022/9/15

完整全部详细技术资料下载

当前第2页1 2