一种基于强化学习的多智能体的空口频谱效率提升方法与流程

文档序号：33124753发布日期：2023-02-01 04:46阅读：23来源：国知局

1.本发明涉及高通量通信系统技术领域，尤其涉及一种基于强化学习的多智能体的空口频谱效率提升方法。

背景技术：

2.为避免相邻波束的干扰，传统的多波束卫星可利用四色定理来分配各个波束的频率范围，保证相邻波束不使用相同的频率，减小同频干扰。为了实现吉比特高通量卫星系统，最大化可用数据速率和频谱利用率，可采用全频率复用方案，但这种方案会带来严重的同频干扰问题。动态地进行资源分配被认为是干扰管理的有效途径。当前，在多波束卫星通信中主要存在以下资源分配方法：
3.(1)传统的基站级无线资源分配方法。该方法的中心思想是将小区划分为中心区域和边缘区域，并且将特定的无线资源分配给相应的区域。例如，软频率复用和部分频率复用方法通过调整副载波与主载波的功率门限比来更好地适应业务在小区内部和边缘的分布。这种方案虽然提高了小区边缘用户的吞吐量，但是在业务分布变化之后需要重新调整功率门限比值，难以适应动态的无线网络环境。
4.(2)传统的用户级无线资源分配方法，包括轮询算法、最大载干比算法和比例公平算法。轮询算法是一种追求公平最大化的算法，按照一定的顺序周期性地将资源分配给用户，该方法实现简单，但未考虑业务特性和用户优先级等因素；最大载干比算法是一种追求性能最大化的算法，在调度周期内把所有资源分配给信号质量最好的用户，该方法的资源利用率最高，但是完全没有考虑公平性因素；比例公平算法是轮询和最大载干比这两种算法之间的一种折衷，该方法综合考虑了公平性和系统性能，但是需要跟踪信道状态，算法复杂度较高。
5.(3)基于深度强化学习的无线资源分配方法。深度强化学习融合了深度学习的感知能力与强化学习的决策能力，解决了传统资源分配方法中存在的动态性与智能性不足的问题。深度强化学习技术将无线资源分配问题建模为智能体与无线网络环境之间的持续性动态交互，通过环境给予的反馈信息来学习无线环境的动力学知识，从而能够作出最优的资源分配决策。但是，该方法通常存在数据爆炸、数据需求量大等问题，所以在用户数较多、业务复杂的情况下难以发挥理想的效果。
6.虽然现有的无线资源分配方法可以在一定程度上避免干扰的产生进而提高了系统的频谱效率，但是依然存在一些不足之处：
7.(1)传统的资源分配方法优化过程的计算复杂度高，迭代算法所花费的时间长，动态性与智能性不足，无法适应动态的无线网络环境。
8.(2)基于深度强化学习的资源分配方法依赖于大量的交互数据，在大规模网络下可能引发维数诅咒和数据爆炸等问题。
9.本发明的目的是要解决基于深度强化学习的无线资源分配方案中存在的数据维度爆炸、样本效率低的问题。

技术实现要素：

10.本发明的目的在于：为了解决上述问题，而提出的一种基于强化学习的多智能体的空口频谱效率提升方法。
11.为了实现上述目的，本发明采用了如下技术方案：
12.一种基于强化学习的多智能体的空口频谱效率提升方法，将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程，并采用深度强化学习工具结合transformer加以解决，包括：
13.利用transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系，得到单个传输时间间隔内的多用户资源分配决策；
14.还包括：
15.利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习，得到连续多个传输时间间隔上的资源分配方案。
16.优选地，基于transformer结构的深度强化学习的无线资源分配方法包括以下步骤：
17.s1：构建基于transformer结构的深度强化学习的资源分配策略模型；
18.s2：智能体收集多用户蜂窝网络中的观测状态；
19.s3：将用户的多维请求信息映射为一维的用户标签；
20.s4：由用户标签所构成的用户序列被输入到transformer网络中，输出各个资源块的分配决策；
21.s5：执行资源分配决策，并从多用户蜂窝网络中获取反馈的奖励信息；
22.s6：智能体评估当前环境状态与资源分配动作的价值；
23.s7：重复上述步骤s2至步骤s6，收集数据并计算优势；
24.s8：利用所收集的数据离线训练资源分配策略网络模型；
25.s9：对上述步骤s8中训练好的策略网络模型进行微调；
26.s10：基于后续时刻的状态输出最优的资源分配方案。
27.优选地，所述步骤s1中在中央控制器处构建基于transformer结构的深度强化学习的资源分配策略模型，将在单个传输时间间隔内，搭建基于transformer结构的资源分配模型；对于连续多个传输时间间隔来说，搭建基于深度强化学习的资源分配模型。
28.优选地，所述步骤s2中将中央控制器作为智能体，收集多用户蜂窝网络中的观测状态，主要包括各个用户的状态，各个资源块的状态以及各用户的请求信息，这些信息共同作为多用户蜂窝网络的状态，并表示为：
29.优选地，所述步骤s3中，从用户请求中选择部分信息作为影响资源分配效果的关键因素，并从中提取出用户标签，以避免资源分配问题陷入维数诅咒，用户的标签集合构成了用户序列，被输入到transformer网络中。
30.优选地，所述步骤s4中基于transformer网络生成资源分配动作：将用户标签集合输入到transformer结构的编码器中，同时将资源分配的起始位输入到transformer结构的解码器中，利用注意力机制来挖掘用户请求与资源分配之间的相关性，经过采样输出第一个资源的分配结果然后，起始位联合共同作为解码器的输入，得到第二个资
源的分配结果如此往复循环，直至得到所有资源块的分配情况，并将其表示为如此往复循环，直至得到所有资源块的分配情况，并将其表示为
31.优选地，所述步骤s5根据步骤s4给出的资源分配方案，用户在给定的资源块上以一定的功率传输数据，得到关于系统频谱效率与用户公平性的奖励信息为其中，ψ
t
是系统的频谱效率，ψ
max
是系统频谱效率的理论界值，而γ
t
代表用户的公平性，α1和α2分别是给予两者的权重系数。
32.优选地，所述步骤s6中基于critic网络，评估所观测状态的价值为v(s
t
)，步骤s7中，收集多条{s
t
,a
t
,r
t
,v(s
t
)}训练数据，并存到数据缓存中，同时可计算得到优势函数为
33.优选地，所述步骤s8中利用数据缓存中的训练数据，更新网络参数使得资源分配策略逐步收敛至最优，actor网络和critic网络的损失函数分别为：
34.actor网络的损失函数为：
[0035][0036]
其中，θ1代表的是actor网络的参数，ρ
t
(θ1)是新旧策略概率之比，clip(
·
)函数的具体形式为clip(ρ
t
(θ1),1-∈,1+∈)；
[0037]
critic网络的损失函数为：
[0038][0039]
其中θ2代表的是critic网络的参数。
[0040]
优选地，所述步骤s9中将训练好的策略模型与多用户蜂窝网络继续进行交互，每隔一段时间，利用新收集的数据对资源分配策略模型进行在线微调，以保证得到实时最优的资源分配策略；步骤s10中央控制器收集后续时刻的状态信息，并输入到步骤s9中的策略模型中，得到最优的资源分配方案。
[0041]
综上所述，由于采用了上述技术方案，本发明的有益效果是：
[0042]
1、本技术将多小区多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程，不仅考虑分配过程中的时序相关性，还分析了资源之间的分配相关性，在一定程度上避免了同频干扰现象的产生，同时能够加快资源分配策略模型的学习速度与收敛速度。
[0043]
2、考虑分配过程中的时序相关性，本技术采用了深度强化学习技术将资源分配问题建模为马尔可夫过程决策过程，通过智能体与多用户蜂窝网络之间的交互与学习，增强了资源分配策略的智能性与远见性，实现了提升系统频谱效率的目标。
[0044]
3、为了避免同频干扰的产生，本技术采用了一种用户序列到资源序列的transformer结构，并利用其中的注意力机制分析用户位置分布的相关性与资源之间的分配关系，同时transformer这种序列结构能够解决数据爆炸和维度诅咒问题，在一定程度上加强了资源分配策略模型的泛化能力。
附图说明
[0045]
图1示出了根据本发明实施例提供的基于transformer的深度强化学习的无线资源分配流程示意图；
[0046]
图2示出了根据本发明实施例提供的基于transformer的深度强化学习的无线资源分配方法示意图。
具体实施方式
[0047]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0048]
请参阅图1-2，本发明提供一种技术方案：
[0049]
一种基于强化学习的多智能体的空口频谱效率提升方法，将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程，并采用深度强化学习工具结合transformer加以解决，包括：
[0050]
利用transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系，得到单个传输时间间隔内的多用户资源分配决策；
[0051]
还包括：
[0052]
利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习，得到连续多个传输时间间隔上的资源分配方案。
[0053]
具体的，如图1和图2所示，基于transformer结构的深度强化学习的无线资源分配方法包括以下步骤：
[0054]
s1：构建基于transformer结构的深度强化学习的资源分配策略模型；
[0055]
s2：智能体收集多用户蜂窝网络中的观测状态；
[0056]
s3：将用户的多维请求信息映射为一维的用户标签；
[0057]
s4：由用户标签所构成的用户序列被输入到transformer网络中，输出各个资源块的分配决策；
[0058]
s5：执行资源分配决策，并从多用户蜂窝网络中获取反馈的奖励信息；
[0059]
s6：智能体评估当前环境状态与资源分配动作的价值；
[0060]
s7：重复上述步骤s2至步骤s6，收集数据并计算优势；
[0061]
s8：利用所收集的数据离线训练资源分配策略网络模型；
[0062]
s9：对上述步骤s8中训练好的策略网络模型进行微调；
[0063]
s10：基于后续时刻的状态输出最优的资源分配方案。
[0064]
在多小区多用户蜂窝网络中，假设存在一个虚拟的中央控制器负责管理以下信息：
[0065]
(1)多用户蜂窝网络中部署有b个基站，u个用户和c个资源块；
[0066]
(2)用户有活跃/非活跃状态，资源有可用/不可用状态；
[0067]
(3)同一小区中的用户被服务于正交资源块上，且每个用户可以占用多个资源，任何一个小区中的所有资源均可被相邻小区复用。
[0068]
具体的，如图1和图2所示，步骤s1基于上述多用户蜂窝网络环境，在中央控制器处构建基于transformer结构的深度强化学习的资源分配策略模型，将在单个传输时间间隔内，搭建基于transformer结构的资源分配模型：主要由编码器和解码器两部分组成，编码器用来捕捉输入序列中用户之间的位置相关性，解码器用来表征输出序列中资源之间的分配关系，并且结合编码器生成的隐藏表示来预测可用资源的分配情况；对于连续多个传输时间间隔来说，搭建基于深度强化学习的资源分配模型：主要由actor网络和critic网络构成，actor网络主要负责生成动作的概率分布，并依据此分布选择所执行的资源分配动作，critic网络则基于actor网络选择的行为进行评判并估计其价值；
[0069]
步骤s2中将中央控制器作为智能体，收集多用户蜂窝网络中的观测状态，主要包括各个用户的状态，各个资源块的状态以及各用户的请求信息，请求信息包括：请求id、用户标识、用户的所属基站、用户到基站的距离、传输时延、请求的队列长度、新到达的字节数、上个传输时间间隔已传输的字节数、平均吞吐量、资源块的需求量、宽带cqi和子带cqi。这些信息共同作为多用户蜂窝网络的状态，并表示为：
[0070]
步骤s3中，从用户请求中选择部分信息作为影响资源分配效果的关键因素，例如选择用户的所属基站、用户到基站的距离、请求的队列长度、信道质量和传输时延，并从中提取出用户标签，以避免资源分配问题陷入维数诅咒，用户的标签集合构成了用户序列，被输入到transformer网络中；
[0071]
步骤s4中基于transformer网络生成资源分配动作：将用户标签集合输入到transformer结构的编码器中，同时将资源分配的起始位输入到transformer结构的解码器中，利用注意力机制来挖掘用户请求与资源分配之间的相关性，经过采样输出第一个资源的分配结果然后，起始位联合共同作为解码器的输入，得到第二个资源的分配结果如此往复循环，直至得到所有资源块的分配情况，并将其表示为
[0072]
步骤s5根据步骤s4给出的资源分配方案，用户在给定的资源块上以一定的功率传输数据，得到关于系统频谱效率与用户公平性的奖励信息为其中，ψ
t
是系统的频谱效率，ψ
max
是系统频谱效率的理论界值，而γ
t
代表用户的公平性，α1和α2分别是给予两者的权重系数；
[0073]
步骤s6中基于critic网络，评估所观测状态的价值为v(s
t
)，步骤s7中智能体与多用户蜂窝网络之间进行多次交互，收集数据并计算优势，收集多条{s
t
,a
t
,r
t
,v(s
t
)}训练数据，并存到数据缓存中，同时可计算得到优势函数为
[0074]
步骤s8中利用数据缓存中的训练数据，更新网络参数使得资源分配策略逐步收敛至最优，actor网络和critic网络的损失函数分别为：
[0075]
actor网络的损失函数为：
[0076]
[0077]
其中，θ1代表的是actor网络的参数，ρ
t
(θ1)是新旧策略概率之比，clip(
·
)函数的具体形式为clip(ρ
t
(θ1),1-∈,1+∈)；
[0078]
critic网络的损失函数为：
[0079][0080]
其中θ2代表的是critic网络的参数；
[0081]
步骤s9中将训练好的策略模型与多用户蜂窝网络继续进行交互，每隔一段时间，利用新收集的数据对资源分配策略模型进行在线微调，以保证得到实时最优的资源分配策略；步骤s10中央控制器收集后续时刻的状态信息，并输入到步骤s9中的策略模型中，得到最优的资源分配方案。
[0082]
本发明的关键环节是根据多用户资源分配这个双序列决策过程，构建基于transformer结构的深度强化学习的资源分配策略模型，利用与多用户蜂窝网络环境之间的交互数据，通过离线训练与在线微调的方式进行最优资源分配策略的学习。
[0083]
transformer结构可替换为循环神经网络，两者均以序列数据为输入，在序列的演进方向进行递归，以表征输入与输出之间存在的关系；深度强化学习技术可替换为元学习技术，两者均通过收集数据获取经验或者知识，以完成特定的目标或者任务。
[0084]
实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：禹航衣龙腾冯瑄董赞扬秦鹏飞戚凯强张程周业军
技术所有人：中国空间技术研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。