低轨卫星网络中多地面用户的接入选择方法和装置

文档序号:37295139发布日期:2024-03-13 20:43阅读:18来源:国知局
低轨卫星网络中多地面用户的接入选择方法和装置

本发明涉及通信的,尤其是涉及一种低轨卫星网络中多地面用户的接入选择方法和装置。


背景技术:

1、低轨卫星网络为了实现对地球表面的完全无缝覆盖,在进行星间组网时多个低轨卫星小区之间产生了一定的重叠,新呼叫用户在发起接入请求时会面临多颗卫星同时覆盖的情况,因此用户需要进行覆盖卫星的接入选择。传统的基于最大接收信号功率(rss)的接入选择方法只将接收信号强度作为唯一优化目标,容易造成多个用户选择同一颗目的卫星,从而导致卫星间负载不均衡,引起接入过载或者信道资源的浪费。此外,由于传统接入选择决策的主体是地面站,需要与地面移动终端进行频繁的信令交互,从而导致巨大的信令开销。

2、综上所述,现有的地面用户对低轨卫星的接入选择方法存在星间负载不均衡且地面用户通信开销大的技术问题。


技术实现思路

1、本发明的目的在于提供一种低轨卫星网络中多地面用户的接入选择方法和装置,以在保证吞吐量的同时达到更优的卫星间负载均衡,还能避免地面用户与地面站之间频繁的信令交互,大大降低了信令开销。

2、第一方面,本发明提供一种低轨卫星网络中多地面用户的接入选择方法,包括:获取目标时隙下低轨卫星网络中每个卫星的位置信息和每个地面用户的位置信息;其中,所述目标时隙表示预设连续时隙中的任一时隙;基于目标用户的位置信息和每个卫星的位置信息,确定所述目标用户在目标时隙的状态空间;其中,所述目标用户表示所述低轨卫星网络中的任一地面用户;所述状态空间为所述目标用户与每个卫星之间距离的集合;以最大化全局奖励为目标,基于所有地面用户在所述预设连续时隙下的状态空间对初始多智能体深度强化学习模型进行训练,得到目标多智能体深度强化学习模型;其中,所述全局奖励与所有地面用户的和速率正相关,且与卫星服务用户数量的方差负相关;所述初始多智能体深度强化学习模型中的智能体与地面用户一一对应,所述初始多智能体深度强化学习模型中智能体的网络参数与其对应的地面用户的接入选择模型的网络参数相同,所述智能体的状态空间为与其对应的地面用户的状态空间,所述智能体的动作表示地面用户选择接入的卫星;利用所述目标多智能体深度强化学习模型中目标智能体的网络参数更新其对应的地面用户的接入选择模型的网络参数,以使该地面用户的接入选择模型基于更新后的网络参数选择待接入的卫星。

3、在可选的实施方式中,以最大化全局奖励为目标,基于所有地面用户在所述预设连续时隙下的状态空间对初始多智能体深度强化学习模型进行训练,得到目标多智能体深度强化学习模型,包括:针对目标时隙,基于所述目标用户的位置信息和每个卫星的位置信息,确定每个卫星与所述目标用户的覆盖关系;其中,所述覆盖关系包括以下其中一种:覆盖,非覆盖;基于所有卫星与所述目标用户的覆盖关系,确定所述目标用户对应的智能体的动作空间;利用所述初始多智能体深度强化学习模型对目标时隙下所有智能体的状态空间和动作空间进行处理,得到每个智能体在目标时隙的动作、所有动作的全局奖励和对应的联合动作价值函数值;基于所述全局奖励和所述联合动作价值函数值计算损失函数,以基于所述损失函数对所述初始多智能体深度强化学习模型进行训练,得到所述目标多智能体深度强化学习模型。

4、在可选的实施方式中,所有智能体在目标时隙的动作的全局奖励的计算流程,包括:统计所有智能体在目标时隙的动作,得到目标卫星服务的用户数量;其中,所述目标卫星表示所述低轨卫星网络中的任一卫星;基于所述目标卫星的位置信息和其每个服务用户的位置信息,计算所述目标卫星与其每个服务用户之间的数据传输速率;基于所述低轨卫星网络中,每个卫星服务的用户数量和每个卫星与其服务用户之间的数据传输速率,确定所有智能体在目标时隙的动作的全局奖励。

5、在可选的实施方式中,所述全局奖励表示为:;其中,,表示所有地面用户的和速率,如果时隙t地面用户n接入卫星m,则,如果时隙t地面用户n未接入卫星m,则,表示时隙t地面用户n与卫星m之间的数据传输速率,表示低轨卫星网络中地面用户的总数,表示低轨卫星网络中卫星的总数;,表示卫星服务用户数量的方差,表示吞吐量阈值,表示卫星负载阈值,表示吞吐量与负载均衡之间的权衡系数,。

6、在可选的实施方式中,针对目标时隙,基于所述目标用户的位置信息和每个卫星的位置信息,确定每个卫星与所述目标用户的覆盖关系,包括:基于所述目标用户的位置信息和目标卫星的位置信息,计算所述目标用户与所述目标卫星之间的仰角;如果所述仰角大于或等于预设通信仰角阈值,则确定所述目标用户位于所述目标卫星的覆盖区域内;如果所述仰角小于所述预设通信仰角阈值,则确定所述目标用户不在所述目标卫星的覆盖区域内。

7、第二方面,本发明提供一种低轨卫星网络中多地面用户的接入选择装置,包括:获取模块,用于获取目标时隙下低轨卫星网络中每个卫星的位置信息和每个地面用户的位置信息;其中,所述目标时隙表示预设连续时隙中的任一时隙;确定模块,用于基于目标用户的位置信息和每个卫星的位置信息,确定所述目标用户在目标时隙的状态空间;其中,所述目标用户表示所述低轨卫星网络中的任一地面用户;所述状态空间为所述目标用户与每个卫星之间距离的集合;训练模块,用于以最大化全局奖励为目标,基于所有地面用户在所述预设连续时隙下的状态空间对初始多智能体深度强化学习模型进行训练,得到目标多智能体深度强化学习模型;其中,所述全局奖励与所有地面用户的和速率正相关,且与卫星服务用户数量的方差负相关;所述初始多智能体深度强化学习模型中的智能体与地面用户一一对应,所述初始多智能体深度强化学习模型中智能体的网络参数与其对应的地面用户的接入选择模型的网络参数相同,所述智能体的状态空间为与其对应的地面用户的状态空间,所述智能体的动作表示地面用户选择接入的卫星;更新和选择模块,用于利用所述目标多智能体深度强化学习模型中目标智能体的网络参数更新其对应的地面用户的接入选择模型的网络参数,以使该地面用户的接入选择模型基于更新后的网络参数选择待接入的卫星。

8、在可选的实施方式中,所述训练模块包括:第一确定单元,用于针对目标时隙,基于所述目标用户的位置信息和每个卫星的位置信息,确定每个卫星与所述目标用户的覆盖关系;其中,所述覆盖关系包括以下其中一种:覆盖,非覆盖;第二确定单元,用于基于所有卫星与所述目标用户的覆盖关系,确定所述目标用户对应的智能体的动作空间;处理单元,用于利用所述初始多智能体深度强化学习模型对目标时隙下所有智能体的状态空间和动作空间进行处理,得到每个智能体在目标时隙的动作、所有动作的全局奖励和对应的联合动作价值函数值;计算和训练单元,用于基于所述全局奖励和所述联合动作价值函数值计算损失函数,以基于所述损失函数对所述初始多智能体深度强化学习模型进行训练,得到所述目标多智能体深度强化学习模型。

9、在可选的实施方式中,所有智能体在目标时隙的动作的全局奖励的计算流程,包括:统计所有智能体在目标时隙的动作,得到目标卫星服务的用户数量;其中,所述目标卫星表示所述低轨卫星网络中的任一卫星;基于所述目标卫星的位置信息和其每个服务用户的位置信息,计算所述目标卫星与其每个服务用户之间的数据传输速率;基于所述低轨卫星网络中,每个卫星服务的用户数量和每个卫星与其服务用户之间的数据传输速率,确定所有智能体在目标时隙的动作的全局奖励。

10、第三方面,本发明提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的低轨卫星网络中多地面用户的接入选择方法的步骤。

11、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现前述实施方式中任一项所述的低轨卫星网络中多地面用户的接入选择方法。

12、本发明提供了一种低轨卫星网络中多地面用户的接入选择方法,地面用户不断与低轨卫星网络环境进行交互,得到预设连续时隙下的状态空间,进而以最大化全局奖励为目标,基于所有地面用户在预设连续时隙下的状态空间对初始多智能体深度强化学习模型进行训练,得到目标多智能体深度强化学习模型;其中,全局奖励与所有地面用户的和速率正相关,且与卫星服务用户数量的方差负相关,初始多智能体深度强化学习模型中的智能体与地面用户一一对应。训练结束后,利用智能体的网络参数更新相应地面用户的接入选择模型的网络参数。以使地面用户的接入选择模型基于更新后的网络参数选择待接入的卫星。该方法是一种基于多智能体深度强化学习的低轨卫星接入选择策略,能以较低的复杂度在保证吞吐量的同时达到更优的卫星间负载均衡,还能避免地面用户与地面站之间频繁的信令交互,大大降低了信令开销。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1