基于多智能体最大熵强化学习的通信覆盖方法及相关设备

文档序号:32124681发布日期:2022-11-09 07:47阅读:299来源:国知局
基于多智能体最大熵强化学习的通信覆盖方法及相关设备

1.本技术涉及无人机应急通信技术领域,尤其涉及一种基于多智能体最大熵强化学习的通信覆盖方法及相关设备。


背景技术:

2.在严重的自然灾害后,地面基站会遭受到毁坏而导致灾区通信中断,大规模地面用户的重要救援信息被阻隔,严重危害到灾后用户的生命财产安全。无人机由于具备快速部署、灵活调控的特点,能够配置应急基站为地面用户提供空对地的高效通信链接,通过实时调控所有无人机基站的飞行轨迹优化通信覆盖性能。然而,动态未知的通信环境、用户的数量规模导致面向大规模受灾用户的空中覆盖优化极具挑战。深度强化学习方法能够利用大量飞行数据进行自我学习,拟合未知环境并应对一定的通信环境的动态性。但是大规模受灾用户导致了较强的网络环境动态性,相关的深度强化学习方法仍面临稳定性差、收敛慢、计算维度爆炸等问题。


技术实现要素:

3.有鉴于此,本技术的目的在于提出一种基于多智能体最大熵强化学习的通信覆盖方法及相关设备用以解决上述问题。
4.基于上述目的,本技术的第一方面提供了一种基于多智能体最大熵的灾后通信方法,多个通过混合式组网的方式建立通信连接的无人机基站构成能够覆盖预设区域的通信网络,所述通信网络为位于所述预设区域内的全部用户提供通信服务,对于所述通信网络中的任意一个所述无人机基站,所述基于多智能体最大熵强化学习的通信覆盖方法包括:
5.获取当前时刻的局部观测信息;
6.基于所述局部观测信息,利用分布式聚类k-sums算法对当前时刻位于所述预设区域内的所述用户进行分簇,得到分簇结果;
7.将所述局部观测信息和所述分簇结果特征化为当前状态;
8.从训练好的神经网络集合中选取一个多智能体最大熵强化学习masac神经网络作为目标masac神经网络;
9.将所述当前状态输入到所述目标masac神经网络中,得到调控动作;
10.基于所述调控动作,控制所述无人机基站的飞行轨迹。
11.本技术的第二方面提供了一种基于多智能体最大熵强化学习的通信覆盖装置,其特征在于,包括:
12.信息获取模块,被配置为:获取当前时刻的局部观测信息;
13.用户分簇模块,被配置为:基于所述局部观测信息,利用分布式聚类k-sums算法对当前时刻位于所述预设区域内的所述用户进行分簇,得到分簇结果;
14.特征转化模块,被配置为:将所述局部观测信息和所述分簇结果特征化为当前状态;
15.模型选取模块,被配置为:从训练好的神经网络集合中选取目标多智能体最大熵强化学习masac神经网络;
16.动作获取模块,被配置为:将所述当前状态输入到所述目标masac神经网络中,得到调控动作;
17.动作执行模块,被配置为:基于所述调控动作,控制所述无人机基站的飞行轨迹。
18.本技术的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本技术第一方面提供的所述的方法。
19.本技术的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行本技术第一方面提供的所述方法。
20.从上面所述可以看出,本技术提供的基于多智能体最大熵强化学习的通信覆盖方法及相关设备。首先会获取当前时刻的局部观测信息;然后,基于局部观测信息,利用分布式聚类k-sums算法对当前时刻位于预设区域内的用户进行分簇,得到分簇结果;将局部观测信息和分簇结果特征化为当前状态;从训练好的神经网络集合中选取一个多智能体最大熵强化学习masac神经网络作为目标masac神经网络;将当前状态输入到目标masac神经网络中,得到调控动作;最后,基于调控动作,控制无人机基站的飞行轨迹。以多无人机基站混合式组网的方式为灾后用户恢复地面通信服务,提出分布式“分簇-轨迹”分层空中覆盖优化结构,底层以分布式k-sums算法实现高负载效率和高均衡性的大规模用户分簇,上层结合分簇结果以“分布式训练-分布式执行”的masac(multi-agent softactor critic)算法优化多无人机基站的飞行轨迹,在集成学习技术的辅助下,masac算法解决了多智能体训练环境非平稳和由确定性策略梯度引起的算法收敛稳定性较差的问题,最终实现降低应急通信网络的通信中断概率的有益效果。以“分布式训练-分布式执行”的架构调控地面用户的分簇和多无人机基站的飞行轨迹,减小网络的通信中断概率,实现对大规模灾后用户的空中覆盖优化。
附图说明
21.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本技术实施例的多无人机基站赋能的大规模应急通信网络应用场景示意图;
23.图2为本技术实施例的基于多智能体最大熵强化学习的通信覆盖方法的流程图;
24.图3为本技术实施例的用户分簇的流程图;
25.图4为本技术实施例的k-sums算法的迭代优化方法的流程图;
26.图5为本技术实施例的样本回放的流程图;
27.图6为本技术实施例的样本构建的流程图;
28.图7为本技术实施例的训练masac神经网络的流程图;
29.图8为本技术实施例的多智能体强化学习masac智能体结构图;
30.图9为本技术实施例的获取新的目标masac神经网络的流程图;
31.图10为本技术实施例的基于集成学习的稳定收敛技术的实现架构的示意图;
32.图11为本技术实施例的基于多智能体最大熵强化学习的通信覆盖装置的结构图;
33.图12为本技术实施例的一种电子设备的结构图。
具体实施方式
34.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
35.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
36.需要说明的是,本技术实施例主要涉及无人机应急通信技术与深度强化学习两种关键技术。
37.无人机应急通信技术被认为是应急通信网络中不可或缺的一项核心技术,通过在无人机上配置可移动基站,并合理调控无人机基站的飞行轨迹,以满足地面受灾用户的通信需求。由于无人机基站提供的独特空对地信道模型,高动态的三维飞行能力,使得无人机应急通信网络相较于传统通信网络更加复杂。每一架无人机基站的飞行轨迹决定了无人机与地面用户的通信速率,以及对其他无人机基站的干扰大小,直接影响了整个网络的覆盖性能。通过对多无人机基站的飞行轨迹进行联合调控,能够有效地减小应急无人机通信网络的通信中断概率。
38.深度强化学习是一种能够用于应对未知、动态环境决策问题的机器学习技术,其特点是“探索-利用”,通过“探索”拟合环境的状态-动作价值函数,并以“利用”选择最大化状态-动作价值函数的动作作为决策输出。在同时存在多个智能体的场景下,每个智能体的策略改进会使其他智能体的训练环境非平稳,同时避免智能体之间可能会发生恶性博弈,多智能体深度强化学习能够通过智能体间的通信集中式训练全局的状态价值函数,以平稳化学习环境,使多智能体的策略改进达到收敛。
39.相关技术中,优化算法需要获取从任务开始到任务结束所有时刻的网络环境信息,结合所有时刻的全局信息,对多无人机飞行轨迹进行优化。例如:建立基于干扰相互作用的平均场型博弈目标,在得到全局确定信息后使用优化方法迭代计算得到多无人机最优的轨迹规划。或者通过分布式预测模块和模糊目标模块以应对其他无人机飞行的实时行动,避免无人机之间产生恶性博弈,使多无人机的轨迹优化结果相互自洽。
40.但是,上述相关技术中的算法进行网络覆盖优化时,存在“网络状态难获取、参数维度难泛化、动态变化难调整”的问题。其一,由于应急通信服务业务类型具有未知差异性、
用户位置和激活状态具有动态性,无人机基站难以获取或精准预测未来一段时间内的全部网络状态信息,无法满足非凸优化方法对网络状态的需求,而仅对静态网络快照进行优化得到的结果会偏离实际最优情况。其二,相关优化算法受限于固定的优化时间长度、无人机和用户的数目,随着时间长度和无人机、数目的增多,求解非凸优化问题的计算量呈爆炸式增长,难以满足快速调控无人机飞行轨迹的需求。其三,当网络状态动态变化后,无人机基站需要重新进行一轮复杂的非凸优化求解计算,对历史数据的利用效率低,在部分通信网络状态相似的情况下计算存在冗余。
41.另一方面,基于强化学习的无人机通信网络覆盖优化方法能够有效的应对通信网络环境未知和动态的特点。例如:相关技术中的基于多智能体深度强化学习maddpg(multi-agent deep deterministic policy gradient)算法的多无人机网络悬停位置优化方法,在提高网络吞吐量的同时保证无人机对地面用户服务的公平性,并减少能耗损失,使无人机集群能够适应动态环境。或者,一种基于多智能体深度强化学习maddpg算法的无人机集群高效通信方法,以“集中式训练-分布式执行”的架构在通信开销较小的条件下解决无人机集群集中式信息交互的问题,给予无人机自主决策权分布式优化无人机集群通信性能。
42.但是,上述相关技术中的算法通过拟合全局的状态-动作价值函数调控多无人机基站的飞行轨迹,存在“扩展能力弱、通信开销大、收敛不稳定”的问题。其一,拟合全局的状态-动作价值函数的输入维度与无人机基站的数目呈正相关,因此会造成神经网络规模庞大,难以扩展;其二,集中式训练过程需要汇总通信网络的所有环境状态信息,在大规模应急通信网络场景需要巨额的通信开销;其三,基于确定性策略输出的maddpg算法存在超参数影响大、收敛性能波动大的问题,在动态环境下收敛不稳定。
43.在本技术实施例中,提出了一种基于多智能体最大熵强化学习的通信覆盖方法。以多无人机基站混合式组网的方式为灾后用户恢复地面通信服务,提出分布式“分簇-轨迹”分层空中覆盖优化结构。在底层,基于获取的局部观测信息,利用分布式聚类k-sums算法对当前时刻位于预设区域内的动态用户进行分簇,得到分簇结果;实现高负载效率和高均衡性的大规模用户分簇。在上层,结合分簇结果以“分布式训练-分布式执行”的masac神经网络算法优化多无人机基站的飞行轨迹,在集成学习技术的辅助下,masac神经网络算法解决了多智能体训练环境非平稳和由确定性策略梯度引起的算法收敛稳定性较差的问题,最终实现降低应急通信网络的通信中断概率的有益效果。以“分布式训练-分布式执行”的架构调控地面用户的分簇和多无人机基站的飞行轨迹,减小网络的通信中断概率,实现对大规模灾后用户的空中覆盖优化。
44.参考图1,为本技术实施例提供的基于多智能体最大熵强化学习的通信覆盖方法的应用场景示意图。该应用场景包括无人机基站101、用户簇102。其中,无人机基站101和用户簇102之间,以及用户簇102内的用户之间可通过有线或无线的通信网络连接,智能体部署在无人机基站101上。在应急无人机通信网络中部署多架无人机基站101,相邻的无人机基站101之间会进行通信开销,多个无人机基站101采用星状和簇状混合式的组网方式对地面用户提供下行服务满足通信覆盖需求。
45.具体而言,无人机基站101通过观测组件(例如摄像头、热成像仪、传感器等)获取预设区域(如受灾区域)内的当前时刻的局部观测信息。无人机基站101中安装有与智能体通信的服务器,该服务器会基于该局部观测信息对地面的用户进行分簇,得到多个用户簇
102,并从每一个用户簇102中选择一个簇中心用户用于转发无人机基站101的信息到用户簇102内其他用户,并将用户簇102和中心用户作为分簇结果。服务器将局部观测信息和分簇结果特征化为当前状态,并从智能体训练好的神经网络集合中选取一个多智能体最大熵强化学习masac神经网络作为目标masac神经网络,并将当前状态输入到目标masac神经网络,以控制无人机基站101的飞行轨迹。使一个无人机基站101可以同时服务于地面多个用户簇102的同时减少相互之间的干扰。
46.下面结合图1的应用场景,来描述根据本技术示例性实施方式的模型的构建方法。需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。,
47.在一些实施例中,如图1所示,多个通过混合式组网的方式建立通信连接的无人机基站构成能够覆盖预设区域的通信网络,通信网络为位于预设区域内的全部用户提供通信服务,对于通信网络中的任意一个无人机基站。如图2所示,需要说明的是,图2中步骤100和步骤200属于底层的用户分簇过程;而步骤300至步骤600属于上层轨迹优化过程。则基于多智能体最大熵强化学习的通信覆盖方法包括:
48.步骤100:获取当前时刻的局部观测信息。
49.在该步骤中,由于受灾区域较广,单个无人机基站难以获取全局信息(全部无人机基站获取的局部观测信息构成全局信息),所以选择分布式的执行方式,每个无人机基站分别基于局部信息进行用户分簇和簇内中心用户选择,所以首先需要获取当前时刻的局部观测信息,其中,各个无人机基站之间可以进行通信连接,以分享各自的当前时刻的局部观测信息。
50.步骤200:基于局部观测信息,利用分布式聚类k-sums算法对当前时刻位于预设区域内的用户进行分簇,得到分簇结果。
51.在该步骤中,在底层用户分簇的过程中,无人机基站基于局部观测信息分布式筛选出自身需要服务的用户,并将被服务的用户分为多个用户簇,分别选取簇中心用户用于转发通信信息,并将用户簇和中心用户作为分簇结果。
52.步骤300:将局部观测信息和分簇结果特征化为当前状态。
53.在该步骤中,面对动态未知的应急通信网络环境,强化学习利用马尔科夫决策过程(mdp)进行建模,从通信网络环境中获取观测值作为当前状态s
t
。其中,每个无人机基站提取部分可观测信息作为输入状态,可以特征化如下:
54.1)无人机基站自身的坐标;
55.2)与自身服务的用户簇的中心用户的二维相对位置和激活状态;
56.3)与个邻近无人机的三维相对位置;
57.4)与个邻近无人机服务的用户簇的中心用户的二维相对位置和激活状态。
58.步骤400:从训练好的神经网络集合中选取一个多智能体最大熵强化学习masac神经网络作为目标masac神经网络。
59.在该步骤中,每个无人机基站装载的智能体会同时训练组神经网络,形成神经网络集合。
60.步骤500:将当前状态输入到目标masac神经网络中,得到调控动作。
61.在该步骤中,考虑无人机基站在三维空间内可以自由移动,无人机基站的的调控
动作包括x轴、y轴、z轴三个方向。
62.步骤600:基于调控动作,控制无人机基站的飞行轨迹。
63.其中,考虑无人机基站在三维空间内可以自由移动,无人机基站的基于调控动作输出的执行动作可以特征化为x轴、y轴、z轴三个方向上的移动速度。上层结合分簇结果以“分布式训练-分布式执行”的masac算法优化多无人机基站的飞行轨迹。选择分布式的训练过程,避免了“集中式训练-分布式执行”的多智能体深度强化学习maddpg算法中存在的扩展能力弱、通信开销大的问题。对于收敛不稳定的问题,在集成学习技术的辅助下,masac算法解决了多智能体训练环境非平稳和由确定性策略梯度引起的算法收敛稳定性较差的问题,最终实现了降低应急通信网络的通信中断概率的效果。
64.在一些实施例中,示例性的,假设预设区域(受灾区域)共有n个用户,部署m架无人机基站,每个无人机基站会服务k个地面用户簇,用户和无人机基站分别用集合n和集合m表示,所有簇中心用户的集合用k表示,无人机基站m服务用户的集合用nm表示,服务的簇中心用户的集合用km表示,簇中心用户k的簇内其他用户的集合用nk表示。大规模的灾后用户会实时改变自身位置,且激活状态随时间改变而随机激活,具有较强的动态性,则用户i的激活状态在当前时刻t∈[0,t]时间内服从beta分布:
[0065][0066][0067]
其中k1和k2是beta分布的参数,t表示当前时刻,t代表总任务时长。fi(t)表示激活系数b在当前时刻等于1的概率。用户如果处于激活状态,则激活系数b=1,在当前时刻有传输任务,需要与最邻近的无人机基站建立通信链接,被分配到频谱资源块a。反之,用户如果未处于激活状态,激活系数b=0,无需建立通信链接。
[0068]
如图3所示,步骤200:基于局部观测信息,利用分布式聚类k-sums算法对当前时刻位于预设区域内的用户进行分簇,得到分簇结果,具体包括:
[0069]
步骤210:将局部观测信息转化为分簇核矩阵。
[0070]
在该步骤中,分布式k-sums算法的分簇核矩阵采用局部观测信息中的可观测用户的不相似性度量表示,其中是无人机基站m可观测的用户数量,邻近系数l表征无人机基站观测信息的量级。用户之间的不相似度量则用当前时刻用户i1传输至用户所需负载资源块数目与用户激活状态的乘积表征,有
[0071][0072][0073]
其中,其中,代表上取整操作,nc是资源块负载阈值,以防用户由于低频谱效率而占用过多的频谱资源块,是地面通信速率,表示两个用户间地面通信的传输速率。
[0074]
[0075][0076][0077]
其中,代表两个用户间地面通信的信道增益大小,代表两个用户间地面通信的信道损耗大小,b
ground
代表地面通信的带宽,代表地面通信的中心频率,代表簇中心用户和簇内其他用户之间的距离,η
nlos
代表nlos链路的附加空间传播损耗,在计算中可以视作常量。
[0078]
步骤220:基于无人机基站与用户的距离,构建初始邻近分簇标识矩阵。
[0079]
在该步骤中,对于每个无人机基站,分布式k-sums用户分簇算法仅需要得到距离最近的om个用户的邻近分簇标识矩阵y
p
。所以,首先基于无人机基站与用户之间的距离确定距离最近的om个用户。然后,用y
n,0
=1表示用户n不在当前无人机基站服务的所有用户簇内,而y
n,k>0
=1表示用户n在当前无人机基站服务的第k个用户簇内,并存在同时,为保证分簇结果均衡性的限制条件,邻近分簇标识矩阵y
p
应满足邻近分簇标识矩阵的元素可以定义如下:
[0080][0081][0082]
针对分布式聚类k-sums算法的每一轮的迭代过程执行以下操作:
[0083]
步骤230:基于分簇核矩阵,对初始标识矩阵进行优化,得到优化邻近分簇标识矩阵;响应于确定初始邻近分簇标识矩阵与优化邻近分簇标识矩阵不相等,将优化邻近分簇标识矩阵的值赋值给初始邻近分簇标识矩阵。
[0084]
步骤240:直至初始邻近分簇标识矩阵与优化邻近分簇标识矩阵相等,结束迭代过程,得到多个用户簇。
[0085]
步骤250:基于预设的选取条件,在每个用户簇中选取一个与无人机基站建立通信连接的中心用户;其中,分簇结果包括全部的用户簇和中心用户。
[0086]
其中,如图4所示,结合k-sums算法的行向量迭代优化方法,能够依次优化每一个用户的局部分簇标识行向量yn=[y
n,0
,y
n,1
,...,y
n,k
],如
[0087][0088]
其中,是优化前的局部分簇标识矩阵,在进行一轮行向量yn优化时保持不变。而gn代表邻近分簇核矩阵g
p
的列向量。在进行多伦的优化迭代后,直至初始邻近分簇标识矩阵与优化邻近分簇标识矩阵相等,结束迭代过程,得到基于行向量迭代优化结果y
p
,筛选所有使y
n,k
=1的用户簇作为当前无人机基站服务的第k个用户簇。预设的选取条件为选择不相似性度量最小的用户作为该用户簇的中心用户,则通过以下公式计算不相似性度量最小的
用户:
[0089][0090]
在一些实施例中,如图5所示,在控制无人机基站的飞行轨迹的同时,还包括:
[0091]
步骤700:构建无人机基站在当前时刻的样本。
[0092]
其中,构建无人机基站当前时刻的样本,如图6所示,具体包括:
[0093]
步骤710:从通信网络中获取无人机基站在当前时刻的通信性能的奖励。
[0094]
在该步骤中,奖励函数以最小化应急通信网络通信中断概率为目标,可以设计为:当无人机基站与邻近无人机基站发生通信中断时给予惩罚值,如:
[0095][0096]
其中,p
outage,-m
(t)是无人机基站m服务用户的通信中断概率,为
[0097][0098]
其中,是空对地通信速率,类似于步骤210中的地面通信速率,可以如下计算得到:
[0099][0100][0101][0102][0103]
步骤720:将奖励和调控动作发送至相邻的多个无人机基站并接收多个相邻的无人机基站发送的多个邻近调控动作和邻近奖励。
[0104]
在该步骤中,相邻无人机基站之间进行自身奖励和调控动作的分享,使信息得到互动通,为后续的模型训练提供完备的训练数据。
[0105]
步骤730:基于调控动作和当前状态,利用状态转移分布函数计算得到下一时刻的后继状态。
[0106]
在该步骤中,依据动作选择策略π(a
t
|s
t
)输出调控动作a
t
,执行调控动作a
t
获取环境交互反馈的奖励r
t
,经过状态转移分布p
π
(s
t+1
|s
t
,a
t
)转换到下一时刻状态s
t+1

[0107]
步骤740:组合当前状态、调控动作、奖励、后继状态和邻近调控动作,得到样本。
[0108]
在该步骤中,将当前状态、调控动作、奖励、后继状态和邻近调控动作组合进一个集合中,得到玩人机基站当前时刻的样本。
[0109]
步骤800:将样本发送至预先构建好的经验回放池;其中,经验回放池用于训练
masac神经网络。
[0110]
在该步骤中,每个无人机基站都将当前时刻的样本发送至构建好的经验回放池中,为模型训练提供数据样本集。
[0111]
在一些实施例中,分布式训练表现为每个无人机基站上部署有一个智能体,智能体用于训练masac神经网络,masac神经网络包括策略函数actor神经网络和双重动作价值函数doubleq神经网络,actor神经网络用于接收当前状态并输出调控动作;
[0112]
任意一个masac神经网络的训练过程,如图7所示,包括:
[0113]
步骤001:从经验回收池中取出一个样本。
[0114]
步骤002:提取样本中的当前状态、调控动作、奖励、后继状态和邻近调控动作。
[0115]
步骤003:将后继状态输入到targetactor神经网络中,得到下一时刻的目标动作;其中,targetactor神经网络为actor神经网络的副本网络。
[0116]
步骤004:将目标动作发送给相邻的多个无人机基站并接收相邻的多个无人机基站发送的多个邻近目标动作。
[0117]
步骤005:基于当前状态、调控动作、奖励、后继状态和邻近调控动作和邻近目标动作,计算时序差分误差。
[0118]
步骤006:基于时序差分误差更新双重动作价值函数doubleq神经网络,得到状态-动作价值函数。
[0119]
步骤007:基于状态-动作价值函数更新actor神经网络和target神经网络,masac神经网络训练完毕;其中,target神经网络为actor神经网络和doubleq神经网络的副本网络,target神经网络包括targetactor神经网络。
[0120]
其中,在“分布式训练”时,分别从经验回放池中随机取出w组独立的样本集d1,d2,...,dw,分别训练w中的所有多智能体最大熵强化学习masac神经网络。如图8所示,每个masac神经网络由6个子神经网络构成。其中,actor神经网络表征动作选择策略masac神经网络由6个子神经网络构成。其中,actor神经网络表征动作选择策略是神经网络参数,输入局部观测状态输出在观测状态下动作输出分布的均值与标准差以表示动作选择策略该网络在训练后将用于在步骤600中对无人机基站的分布式轨迹优化输出三个方向的飞行速度。为了优化actor神经网络,对masac的其他神经网络设置如下。double q神经网络由两个神经网络critic1神经网络和critic2神经网络组成,分别拟合邻近状态-价值函数和神经网络参数分别为和拟合两个状态价值函数的可以解决单个critic网络引起对状态价值函数的过高估计。target网络由三个神经网络targetactor神经网络target critic1神经网络和target critic2神经网络构成,神经网络参数分别为构成,神经网络参数分别为和上述三个target开头的神经网络分别是actor网络、critic1网络和critic网络的副本网络,但参数更新速率更缓慢,能够提升训练过程的稳定性,加快算法的收敛速度。
[0121]
具体而言,动作选择策略以最大化状态-动作价值函数为目标,因此actor网络的优化目标可表示为:
[0122]
[0123]
由于actor网络的输出是分布函数而非具体的动作值,在计算优化目标梯度的过程中需要对输出动作数值化表示,因此采用了重参数技巧(reparameterization trick)输出估计动作:
[0124][0125]
其中,ε
t
是均值为0且与动作输出策略独立的高斯噪声向量。critic网络以拟合状态-动作价值函数为目标,因此优化目标可以用时序差分误差表示:
[0126][0127]
综合上述优化目标,网络参数更新如下
[0128][0129][0130][0131]
其中,η为神经网络更新步长。
[0132]
智能体通过交替迭代进行分布式执行过程与分布式训练过程,即控制无人机基站的飞行轨迹与训练优化masac神经网络是交替迭代进行的。从通信网络的环境中获取新样本存储于经验回放池、从经验回放池中随机获取批量样本训练神经网络参数,使智能体学习到最优的动作输出策略,得到无人机基站的最优飞行轨迹,在保证通信覆盖预设区域的同时避免了无人机基站之间的通信中断。
[0133]
在一些实施例中,如图9所示,在将样本发送至经验回放池之后,还包括:
[0134]
步骤900:更新目标masac神经网络的累计奖励。
[0135]
在该步骤中,在分布式执行控制无人机基站的飞行轨迹的过程中,为了稳定多智能体强化学习算法的收敛性能,本技术实施例融入了集成学习的技术,具体过程如图10所示。每个无人机基站装载的智能体会同时训练w组神经网络,形成集成学习神经网络集合w。在“分布式执行”阶段,智能体从神经网络集合w中随机采样获得一组目标神经网络w,将特征化的网络状态输入w的actor神经网络模块,决策无人机基站的动作。无人机基站执行动作并从网络环境获取奖励rm,在通信开销辅助下与邻近无人机基站共享调控动作和奖励信息,将当前时刻全部样本存入经验回放池,用于分布式的模型训练过程。并更目标新神经网络w的累积奖励
[0136][0137]
其中,τw是神经网络的累积奖励的更新步长。
[0138]
步骤1000:更新神经网络集合中的最大累计奖励。
[0139]
在该步骤中;更新神经网络集w中最大累积奖励
[0140][0141]
步骤1100:响应于确定累计奖励小于最大累计奖励,对目标masac神经网络进行剪枝,并从神经网络集合中选取新的目标masac神经网络。
[0142]
具体包括:在排除目标masac神经网络的神经网络集合中确定累计奖励值最大的masac神经网络;复制该masac神经网络作为新的目标masac神经网络。即如果目标神经网络w的累积奖励大幅度小于神经网络集的最大累计奖励则对神经网络w采取剪枝操作,并复制神经网络集合w中剩余神经网络中累积奖励值最大的神经网络作为新的目标神经网络w。
[0143]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0144]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0145]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种基于多智能体最大熵强化学习的通信覆盖装置。
[0146]
参考图11,所述基于多智能体最大熵强化学习的通信覆盖装置,包括:
[0147]
信息获取模块10,被配置为:获取当前时刻的局部观测信息。
[0148]
用户分簇模块20,被配置为:基于局部观测信息,利用分布式聚类k-sums算法对当前时刻位于预设区域内的用户进行分簇,得到分簇结果。
[0149]
特征转化模块30,被配置为:将局部观测信息和分簇结果特征化为当前状态。
[0150]
模型选取模块40,被配置为:从训练好的神经网络集合中选取目标多智能体最大熵强化学习masac神经网络。
[0151]
动作获取模块50,被配置为:将当前状态输入到目标masac神经网络中,得到调控动作。
[0152]
动作执行模块60,被配置为:基于调控动作,控制无人机基站的飞行轨迹。
[0153]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0154]
上述实施例的装置用于实现前述任一实施例中相应的基于多智能体最大熵强化学习的通信覆盖方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0155]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于多智能体最大熵强化学习的通信覆盖方法。
[0156]
图12示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0157]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处
理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0158]
存储器1020可以采用rom(read only memory,只读存储器)、ram(randomaccess memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0159]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0160]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0161]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0162]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0163]
上述实施例的电子设备用于实现前述任一实施例中相应的基于多智能体最大熵强化学习的通信覆盖方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0164]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于多智能体最大熵强化学习的通信覆盖方法。
[0165]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0166]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于多智能体最大熵强化学习的通信覆盖方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0167]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如
上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0168]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0169]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0170]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1