混合接入认知无线网络切片资源分配方法及设备

文档序号:29039025发布日期:2022-02-25 20:02阅读:104来源:国知局
混合接入认知无线网络切片资源分配方法及设备

1.本发明涉及无线通信技术领域,尤其涉及一种混合接入认知无线网络切片资源分配方法及设备。


背景技术:

2.随着信息化技术的发展,工业模式也随之改变,频谱资源愈加宝贵。一方面,随着新兴无线通信业务的不断发展,频谱资源日趋紧张;另一方面,已有的低效遗留系统频谱资源利用效率低下,难以改造。在过去的十年中,无线设备(例如车辆、移动电话、平板电脑和各种无线传感器)的使用迅速增加,这促进了第五代无线通信(5th generation mobile networks,5g)的发展。在5g无线网络中,预计数据速率将是当前数据速率的10倍,并且具有更强大的连接性和百分之百的覆盖范围,有望提供更好的服务质量和用户体验。目前相关lte-g230(无线专网技术)标准业已发布,其中的230mhz频段复杂频谱特性给多行业多业务共享共用带来新的挑战。虽然国家已经给予像国家电网、水利等各部门授权频段以开展各自业务,但仍有部分频段属于各地区各部门按需使用,这样会造成频谱大部分属于空闲状态,频率利用率很低。优化频谱使用规则以提高频谱使用效率成为亟待解决的问题。
3.网络切片技术是5g的关键技术之一,其可以将大量专用的底层物理网络资源进行统一调配,将网络功能虚拟化,为用户提供高效服务,针对性的满足用户的多样化需求。伴随着时代发展和科技进步,涌现出许多新型和高标准业务需求,因此整合现有的物理网络资源,按需分配给不同的通信业务,既降低了建设成本,又能将有限的资源合理分配给多个业务切片。基于此5g提出了典型的应用场景,分别为增强型移动宽带(embb)、超高可靠低时延通信(urllc)和海量物联网通信。
4.另外,认知无线电(cognitive radio,cr)是一种用来游湖频谱使用规则的技术。在cr中,若不影响授权用户正常通信,则可以允许未授权用户接入授权频谱区域内进行通信。现如今无线网络的结构日趋复杂,密集网络覆盖所带来的干扰也不容轻视。在认知无线网络中,复杂的网络环境、无限大的状态空间和高维优化参数,对于传统的优化方法来说是一个挑战。
5.而强化学习作为重要的机器学习分支,在复杂问题的决策和优化上发挥巨大的作用,如在棋类比赛中打败顶级大师,对网络资源进行分配调度,根据用户兴趣进行智能推荐等。随着人工智能技术的发展,在数据和算法驱动下可以解决各类问题。与传统的人工选取特征的算法比较来看,深度学习在无线网络中有着更大的潜力,深度学习可以从数据中自动提取特征,不需要过多人工干预,直接使用端到端的方式进行训练,从而降低了模型复杂度。强化学习可以和环境进行不断交互,采用“试错”的手段,不断积累经验调整策略。将深度学习和强化学习算法相结合,在学习过程中,积累历史经验数据作为神经网络的训练数据,发挥深度学习的优势,从而更好的训练模型,优化决策。图卷积神经网络在复杂拓扑图场景的信息提取能力强于普通的卷积神经网络。将图卷积神经网络与强化学习算法结合,可以有效地提高智能体在复杂拓扑场景下的信息提取能力,并获得更优的资源分配策略。
6.然而,现实应用问题复杂度很高,信息量也很大,可能无法同一时间掌握全局信息,因此单智能体强化学习算法不再适用。


技术实现要素:

7.有鉴于此,本发明提供了一种混合接入认知无线网络切片资源分配方法及设备,以实现适用于混合接入认知无线网络切片资源分配场景的强化学习方法,从而提高频谱使用效率。
8.为了达到上述目的,本发明采用以下方案实现:
9.根据本发明实施例的一个方面,提供了一种混合接入认知无线网络切片资源分配方法,包括:
10.针对混合接入认知无线网络中的每个认知用户构建一个智能体,其中,智能体的状态对应于当前认知用户与混合接入认知无线网络中其他认知用户需要交互的信息和不需要交互的信息,智能体的动作对应于当前认知用户的传输功率和当前认知用户占用的信道;
11.确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头部并在连接所有注意头部后经由神经网络模型中的卷积层输出智能体的动作相关信息;
12.根据智能体的动作相关信息得到智能体的认知用户的传输功率预测结果和占用信道预测结果,并基于认知用户的传输功率预测结果和占用信道预测结果,判断智能体的当前动作是否满足为超高可靠低时延通信切片用户时的通信时延要求和为增强型移动宽带切片用户时的传输速率要求以及根据干扰温度阈值约束函数的值是否满足干扰温度阈值要求;
13.若不满足通信时延要求、传输速率要求及干扰温度阈值要求,则计算奖励函数的值,利用奖励函数的值对智能体的当前动作进行奖惩,以训练神经网络模型和智能体;其中,奖励函数是基于干扰温度阈值约束函数和认知用户能量效率函数确定,干扰温度阈值约束函数是基于干扰功率与信道带宽的比值确定的关于传输功率和信道的函数;
14.利用训练后的神经网络模型和智能体为混合接入认知无线网络中的认知用户分配网络切片资源。
15.在一些实施例中,当前认知用户与混合接入认知无线网络中其他认知用户需要交互的信息包括:认知用户与认知基站的二进制关联系数、认知用户与信道的二进制关联系数、认知用户的传输功率、及认知用户是否满足通信需求的二进制系数;
16.当前认知用户与混合接入认知无线网络中其他认知用户不需要交互的信息包括:认知用户的信干噪比和主用户与信道的二进制关联系数。
17.在一些实施例中,确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头部并在连接所有注意头部后经由神经网络模型中的卷积层输出智能体的动作相关信息,包括:
18.确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头
部并在连接所有注意头部后依次经由神经网络模型中的非线性激活函数和卷积层后输出智能体的动作相关信息。
19.在一些实施例中,针对智能体的状态中每个邻居认知用户计算的注意头部表示为:
[0020][0021]
其中,表示智能体i的邻居认知用户j的注意头部m,wm表示注意头部m的权重矩阵,hi表示智能体i的认知用户对应的神经元的输出,hj表示邻居认知用户j对应的神经元的输出,x
+i
表示智能体i的认知用户及其邻居认知用户构成的集合,k∈x
+i
表示集合x
+i
中的认知用户k,hk表示邻居认知用户k对应的神经元的输出,τ表示缩放因子,(w
mhi
)
t
表示w
mhk
的转置矩阵,(w
mhj
)
t
表示w
mhj
的转置矩阵;
[0022]
神经网络模型中的卷积层的输出表示为:
[0023][0024]
其中,hi′
表示卷积层的输出,σ表示非线性激活函数,concatenate[
·
]表示拼接操作,x
+i
表示智能体i的认知用户及其邻居认知用户构成的集合,j∈x
+i
表示集合x
+i
中的认知用户j,hj表示集合x
+i
中的认知用户对应的神经元的输出,wm表示注意头部m的权重矩阵,m∈m表示所有邻居认知用户的注意头部的集合m中的注意头部m。
[0025]
在一些实施例中,利用奖励函数的值对智能体的当前动作进行奖惩,以训练神经网络模型和智能体,包括:
[0026]
利用奖励函数的值计算损失函数的值,并将损失函数的值返回至神经网络模型,以对智能体的当前动作进行奖惩以及训练神经网络模型和智能体;其中,所述损失函数包含注意权重分布的kl梯度正则化项,其中,kl梯度正则化项用于衡量当前所有注意头部的连接结果对应的注意权重分布与目标注意权重分布的差异。
[0027]
在一些实施例中,损失函数表示为:
[0028][0029]
其中,l(θ)表示损失函数的值,θ表示神经网络的参数,bs表示mini-batch数量(从数据池中抽出的一批数据的数量),rb表示第b次的mini-batch(第b次抽取数据)中奖励函数的值,γ表示信干噪比,q(sb',a';θ)表示在下一个动作a'、下一个状态sb'和神经网络参数为θ时的q值,q(s,a;θ)表示在动作a、状态s和神经网络参数为θ时的q值,λ表示正则化损失的系数,m表示注意头部的个数,表示当前状态的权重分布和下一状态的权重分布的kl散度值,和表示智能体在卷积层k的注意头部m的注意权重分布。
[0030]
在一些实施例中,奖励函数表示为:
[0031]
[0032][0033][0034]
其中,ri表示对智能体i的当前动作的奖励值,表示干扰温度阈值约束函数,表示对智能体i的认知用户与认知基站a相连且选择信道k时的传输功率,表示对智能体i的认知用户与认知基站a的关联系数,ηi表示智能体i的认知用户的能量效率,k∈c表示信道集合c中的信道k,s表示sigmoid函数,it
max
表示干扰温度阈值,n∈cu表示认知用户集合cu中的认知用户n,a∈cbs表示认知基站集合cbs中的认知基站,表示智能体i的认知用户与认知基站a的关联系数,表示智能体i的认知用户与信道k的关联系数,表示智能体i的认知用户与信道k的增益,k
cons
为玻尔兹曼常数,b表示信道带宽,ri表示传输速率;
[0035]
在一些实施例中,信干噪比表示为:
[0036][0037]
其中,γn表示认知用户n的信干噪比,a∈cbs表示认知基站集合cbs中的认知基站a,k∈c表示信道集合c中的信道k,表示认知基站a和认知用户n的关联系数,表示信道k和认知用户n的关联系数,表示认知用户n与认知基站a的信道增益,表示认知用户n与认知基站a且选择信道k时的传输功率,n'∈su表示认知用户集合su中的认知用户n',表示认知基站a和认知用户n’的关联系数,表示信道k和认知用户n’的关联系数,表示认知用户n’与认知基站a且选择信道k时的传输功率,m∈pu表示主用户集合pu中的主用户m,表示信道k和主用户m的关联系数,gn表示认知用户n与主基站的信道增益,表示主用户m选择信道k时的传输功率,σ2表示高斯白噪声;
[0038]
干扰温度阈值约束函数表示为:
[0039][0040]
其中,n∈cu表示认知用户集合cu中的认知用户n,a∈cbs表示认知基站集合cbs中的认知基站a,表示认知基站a和认知用户n的关联系数,表示信道k和认知用户n的关联系数,表示认知用户n与认知基站a的信道增益,表示认知用户n与认知基站a且选择信道k时的传输功率;
[0041]
传输速率要求表示为:
[0042]
[0043]
其中,rn表示认知用户n的传输速率,r
min
表示最小传输速率阈值,n∈cu
embb
表示为增强型移动宽带切片用户的认知用户集合cu
embb
中的认知用户n;
[0044]
通信时延要求表示为:
[0045][0046]
其中,d表示到达速率所遵循的泊松分布的参数,ξ为设定的数值,d
max
为最大传输时延,n∈cu
urllc
表示为超高可靠低时延通信切片用户的认知用户集合cu
urllc
中的认知用户n。
[0047]
根据本发明实施例的另一个方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
[0048]
根据本发明实施例的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
[0049]
本发明实施例的混合接入认知无线网络切片资源分配方法、电子设备及计算机可读存储介质,将每个认知用户都看成一个智能体,建立了强化学习与混合频谱接入认知无线网络切片场景的映射关系,实现了应用多注意机制和损失设计,实现了适用于混合频谱接入认知无线网络切片场景的多智能体强化学习方法。通过基于干扰和效率设计奖励函数,区分是否需要交互,而且能够得到更高的奖励,在稳定性和收敛性上表现更优越,提高了频谱使用效率。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0051]
图1是本发明一实施例的混合接入认知无线网络切片资源分配方法的流程示意图;
[0052]
图2是本发明一实施例的混合接入模式认知无线网络切片资源分配模型的结构示意图;
[0053]
图3是本发明一实施例中的gqn算法神经网络结构示意图。
具体实施方式
[0054]
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
[0055]
现有单智能体强化学习算法不适用于解决复杂网络中的资源分配问题。而多智能体强化学习中,每个智能体只能观测到局部状态下,而不了解全局信息,在这种情况下学习训练模型是贴近实际的,比如,多人在线游戏和机器人协作生产等,智能体之间关系多样,有单纯的合作或单纯的竞争的关系,也有既存在合作又存在竞争的关系。
[0056]
为了在保证主用户和次用户业务需求的前提下,通过控制次用户的信道关联和功率分配,进一步提高认知无线网络能量效率。同时在认知无线电场景中引入次用户混合频谱接入机制,次用户可以根据接入信道的状态选择采用overlay或underlay接入模式。本发明提供了一种混合接入认知无线网络切片资源分配方法,以实现适用于混合接入模式下认知网络切片资源分配场景的多智能体强化学习,结合图卷积神经网络和传统dqn算法解决复杂优化问题,提高频谱使用效率。
[0057]
图1是本发明一实施例的混合接入认知无线网络切片资源分配方法的流程示意图,参见图1,该实施例的网络切片资源分配方法可包括以下步骤:
[0058]
步骤s110:针对混合接入认知无线网络中的每个认知用户构建一个智能体,其中,智能体的状态对应于当前认知用户与混合接入认知无线网络中其他认知用户需要交互的信息和不需要交互的信息,智能体的动作对应于当前认知用户的传输功率和当前认知用户占用的信道;
[0059]
步骤s120:确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头部并在连接所有注意头部后经由神经网络模型中的卷积层输出智能体的动作相关信息;
[0060]
步骤s130:根据智能体的动作相关信息得到智能体的认知用户的传输功率预测结果和占用信道预测结果,并基于认知用户的传输功率预测结果和占用信道预测结果,判断智能体的当前动作是否满足为超高可靠低时延通信切片用户时的通信时延要求和为增强型移动宽带切片用户时的传输速率要求,以及根据干扰温度阈值约束函数的值是否满足干扰温度阈值要求;
[0061]
步骤s140:若不满足通信时延要求、传输速率要求及干扰温度阈值要求,则计算奖励函数的值,利用奖励函数的值对智能体的当前动作进行奖惩,以训练神经网络模型和智能体;其中,奖励函数是基于干扰温度阈值约束函数和认知用户能量效率函数确定,干扰温度阈值约束函数是基于干扰功率与信道带宽的比值确定的关于传输功率和信道的函数;
[0062]
步骤s150:利用训练后的神经网络模型和智能体为混合接入认知无线网络中的认知用户分配网络切片资源。
[0063]
上述步骤s110中,当前认知用户与混合接入认知无线网络中其他认知用户需要交互的信息可包括:认知用户与认知基站的二进制关联系数、认知用户与信道的二进制关联系数、认知用户的传输功率、及认知用户是否满足通信需求的二进制系数;当前认知用户与混合接入认知无线网络中其他认知用户不需要交互的信息可包括:认知用户的信干噪比和主用户与信道的二进制关联系数。其中,二进制关联系数可以是用0和1中的一个数值表示关联,另一个数值表示不关联。认知用户的传输功率可以依据该认知用户选择的不同信道、所相连的不同认知基站而不同或相同。
[0064]
例如,智能体i的在t时刻的状态表示为其中,表示智能体需要进行交互的状态信息,具体可表示为中各符号依次表示认知用户的传输功率、认知用户与认知基站的二进制关联系数、认知用户与信道的二进制关联系数、及认知用户是否满足通信需求的二进制系数;该些参数中功率、关联系数及是否满足服务要求
就是需要交互的状态信息。表示智能体不需要进行交互的状态信息,具体可表示为其中,{γm}
1*m
表示尺寸为1*m的认知用户的信干噪比矩阵,表示尺寸为k*m的主用户与信道的二进制关联系数矩阵。主用户sinr和信道占用情况可以是不需要交互的状态信息。
[0065]
上述步骤s120中,在神经网络模型中可以利用离散化的传输功率进行计算。如此一来可以输出离散化的功率预测结果。例如,若将功率分成多个等级,则预测输出的传输功率可以用相应的功率等级表示。根据功率等级可以得到相应的传输功率的值。
[0066]
上述步骤s120中,确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头部并在连接所有注意头部后经由神经网络模型中的卷积层输出智能体的动作相关信息,具体可包括步骤:s121,确定智能体的状态,并将确定的智能体的状态输入至混合接入认知无线网络场景下的基于图卷积的神经网络模型中,以针对智能体的状态中每个邻居认知用户计算注意头部并在连接所有注意头部后依次经由神经网络模型中的非线性激活函数和卷积层后输出智能体的动作相关信息。
[0067]
该实施例中,非线性激活函数例如可以为mlp层或relu层。神经网络模型可包括输入层(用于输入特征值,即智能体的状态)、多层感知机层(mlp层)/relu非线性激活函数(relu层)、卷积层、输出层等。输出的智能体的动作相关信息可以包括功率级别、信道等。根据功率级别可以得到相应功率。根据功率和信道可以计算得到混合接入认知无线网络场景下的多种参数,以用于进行合理约束。
[0068]
上述步骤s120中,对于每个智能体而言,只有能够与其认知用户交互的认知用户(邻居认知用户)才会对其资源分配产生影响,所以只针对智能体的认知用户的邻居计算注意头部。具体实施时,针对智能体的状态中每个邻居认知用户计算的注意头部可以表示为:
[0069][0070]
其中,表示智能体i的邻居认知用户j的注意头部m,wm表示注意头部m的权重矩阵,hi表示智能体i的认知用户对应的神经元的输出,hj表示邻居认知用户j对应的神经元的输出,x
+i
表示智能体i的认知用户及其邻居认知用户构成的集合,k∈x
+i
表示集合x
+i
中的认知用户k,hk表示邻居认知用户k对应的神经元的输出,τ表示缩放因子,(w
mhk
)
t
表示w
mhk
的转置矩阵,(w
mhj
)
t
表示w
mhj
的转置矩阵;
[0071]
神经网络模型中的卷积层的输出可以表示为:
[0072][0073]
其中,hi′
表示卷积层的输出,σ表示非线性激活函数,concatenate[
·
]表示拼接操作,x
+i
表示认知用户i及其邻居的集合,wm表示权重矩阵,m∈m表示所有邻居认知用户的注意头部中的注意头部m。
[0074]
该些实施例中,通过图卷积层可以实现多头注意力机制。
[0075]
上述步骤s140中,利用奖励函数的值对智能体的当前动作进行奖惩,以训练神经
网络模型和智能体,具体可包括步骤:利用奖励函数的值计算损失函数的值,并将损失函数的值返回至神经网络模型,以对智能体的当前动作进行奖惩以及训练神经网络模型和智能体;其中,所述损失函数可以包含注意权重分布的kl梯度正则化项,其中,kl梯度正则化项可以用于衡量当前所有注意头部的连接结果对应的注意权重分布(注意头部连接时所用的权重的分布)与目标注意权重分布的差异。通过损失函数中的kl梯度正则化项可以优化注意头部的权重分布。另外,损失函数还可以包含常规项以优化神经网络。此外,若满足通信时延要求、传输速率要求及干扰温度阈值要求也可以计算建立函数并对神经网络进行更新。可以在常规损失函数的基础上增加正则化项得到本实施例的损失函数,通过加入时间正则化可以稳定智能体之间的合作竞争关系。
[0076]
具体实施时,损失函数可以表示为:
[0077][0078]
其中,l(θ)表示损失函数的值,θ表示神经网络的参数,bs表示mini-batch数量,rb表示第b次的mini-batch(mini-batchb)中奖励函数的值,γ表示信干噪比,q(sb',a';θ)表示在下一个动作a'、下一个状态sb'和神经网络参数为θ时的q值,q(s,a;θ)表示在动作a、状态s和神经网络参数为θ时的q值,λ表示正则化损失的系数,m表示注意头部的个数,表示当前状态的权重分布和下一状态的权重分布的kl散度值,和表示智能体在卷积层k的注意头部m的注意权重分布。
[0079]
该实施例中,通过在损失函数中加入时间正则化项,能够稳定智能体之间的合作竞争关系。
[0080]
上述步骤s130中,认知用户需要在主用户可以接受的干扰范围内使用信道通信,所以本发明实施例设计了干扰温度阈值函数来衡量认知用户对主用户的干扰情况,以及限制干扰程度。另外,对智能体的训练过程也是优化动作输出的过程,以使在输出的传输功率和信道下能够满足一些约束条件,包括干扰温度阈值函数的约束。那么可以根据设置的约束条件对智能体的动作进行奖励或惩罚。例如,若干扰温度超过一定阈值可以给出该动作惩罚,反之给与奖励。另外,认知用户可以追求能量效率最大化,所以可以向能量效率最大化的目标对动作进行奖励或惩罚。
[0081]
具体实施时,上述步骤s130中,奖励函数可以表示为:
[0082][0083][0084][0085]
其中,ri表示对智能体i的当前动作的奖励值,表示干扰温度阈值约束函数,表示对智能体i的认知用户与认知基站a相连且选择信道k时的传输功率,表示对智能体i的认知用户与认知基站a的关联系数,ηi表示智能体i的认知用户的能量效率,
k∈c
表示信道集合c中的信道k,s表示sigmoid函数,it
max
表示干扰温度阈值,
n∈cu
表示认知用户集合cu中的认知用户n,
a∈cbs
表示认知基站集合cbs中的认知基站,表示智能体i的认知用户与认知基站a的关联系数,表示智能体i的认知用户与信道k的关联系数,表示智能体i的认知用户与信道k的增益,k
cons
为玻尔兹曼常数,b表示信道带宽,ri表示传输速率。
[0086]
具体实施方式中,信干噪比可以表示为:
[0087][0088]
其中,γn表示认知用户n的信干噪比,a∈cbs表示认知基站集合cbs中的认知基站a,k∈c表示信道集合c中的信道k,表示认知基站a和认知用户n的关联系数,表示信道k和认知用户n的关联系数,表示认知用户n与认知基站a的信道增益,表示认知用户n与认知基站a且选择信道k时的传输功率,n'∈su表示认知用户集合su中的认知用户n',表示认知基站a和认知用户n’的关联系数,表示信道k和认知用户n’的关联系数,表示认知用户n’与认知基站a且选择信道k时的传输功率,m∈pu表示主用户集合pu中的主用户m,表示信道k和主用户m的关联系数,gn表示认知用户n与主基站的信道增益,表示主用户m选择信道k时的传输功率,σ表示高斯白噪声;
[0089]
干扰温度阈值约束函数可以表示为:
[0090][0091]
其中,
n∈cu
表示认知用户集合cu中的认知用户n,
a∈cbs
表示认知基站集合cbs中的认知基站a,表示认知基站a和认知用户n的关联系数,表示信道k和认知用户n的关联系数,表示认知用户n与认知基站a的信道增益,表示认知用户n与认知基站a且选择信道k时的传输功率;
[0092]
传输速率要求可以表示为:
[0093][0094]
其中,rn表示认知用户n的传输速率,r
min
表示最小传输速率阈值,n∈cu
embb
表示为增强型移动宽带切片用户的认知用户集合cu
embb
中的认知用户n;
[0095]
通信时延要求表示为:。
[0096][0097]
其中,d表示到达速率所遵循的泊松分布的参数,ξ为设定的数值,d
max
为最大传输时延,n∈cu
urllc
表示为超高可靠低时延通信切片用户的认知用户集合cu
urllc
中的认知用户n。
[0098]
上述实施例中,使用m/m/1排队模型(使用排队理论计算用户计算时延)加入用户
的传输时延约束。通过概率公式对通信时延进行约束,由此可以得到,上述通信时延要求的公式。
[0099]
进一步,上述步骤s150中,训练好智能体和神经网络后,在应用于网络切片资源分配是,可以根据实际的场景设置神经网络中的参数,如认知用户数量等,以利用智能体给出最优的网络资源分配结果。
[0100]
本发明实施例中,认知无线电网络场景包括一个主基站和多个次基站;主用户与主基站相连,次用户与次基站相连。根据用户通信业务不同,主用户、次用户划分为增强型移动宽带embb切片用户(有最低通信速率需求)和超高可靠低时延通信urllc切片用户(有最大通信时延需求)。在保证主用户正常通信的情况下,次用户根据接入信道的状态选择叠加网络overlay或底层网络underlay接入模式与主用户进行频谱共享。频谱资源被分为设定条数信道。可以设置,当认知用户接入的信道不存在主用户时,认知用户采用overlay模式接入频谱;采用underlay模式接入频谱时,认知用户需要在满足干扰温度约束的条件下使用信道进行通信,以使认知用户在主用户可以接受的干扰范围内使用信道通信。在混合接入认知无线网络中,认知用户涉及参数包括:传输功率、与认知基站的信道增益、与主基站的信道增益、与认知基站的关联系数、与信道的关联系数。认知用户可只占用一条信道。主用户涉及参数包括:传输功率、与认知基站的信道增益、与主基站的信道增益、与信道的关联系数。主用户可以占用两条信道(随机、持续占用一定时间)。认知用户的信干噪比可根据上述参数计算。可根据香农信道公式,基于认知用户的传输功率,计算认知用户的传输速率。对于embb切片用户可以设定最小传输速率阈值,对于urllc切片用户,可以设定最大传输时延阈值。对于计算用户的传输时延,可以使用m/m/1排队模型。可以使用概率表示urllc切片用户的通信需求。定义了干扰温度,可以基于干扰功率与信道带宽的比值得到。underlay接入模式的认知用户对应设置最大干扰温度阈值。各种关联可以用二进制关联约束表示。可以设置认知用户的最大传输功率限制。网络切片资源分配的优化可以归结于在各种约束下的优化,例如,embb切片用户、urllc切片用户的服务需求约束,干扰温度约束。最后可以基于图卷积强化学习算法进行智能体等的训练,其中在神经网络中考虑了多头注意机制和时间关系正则化。模型训练及应用时,可以将输入特征加权求和,然后将智能体的多个注意头部连接起来,在经过多层感知器或非线性激活函数,得到卷积层输出;其中,卷积层中,将智能体分为其状态信息需要交互和不需要交互。输出可包括认知用户的功率和选择的信道;根据功率和信道可以判断功率、信道是否满足约束,以及干扰温度阈值等是否满足约束;若不满足可以惩罚该动作,若满足可以奖励该动作。其他关于主用户的参数可以预先设置。
[0101]
另外,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的方法的步骤。
[0102]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
[0103]
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本技术,并不构成对本技术的不当限定。
[0104]
考虑将整个过程分为两个部分:(一)建立混和接入模式下的认知无线网络切片资
源分配模型;(二)将认知网络切片资源分配问题映射到强化学习建立模型,实现基于多智能体图卷积强化学习的认知网络切片资源分配算法。下面将对两部分分别说明。
[0105]
(一)建立混和接入模式下的认知无线网络切片资源分配模型
[0106]
为了进一步提升认知网络能量效率,本实施例引入混合频谱接入机制,次用户可以根据接入信道的状态选择采用overlay或underlay接入模式。图2是本发明一实施例的混合接入模式认知无线网络切片资源分配模型的结构示意图,如图2所示,认知无线电网络场景中有一个主基站和多个次基站。主用户与主基站相连,次用户与次基站相连。根据用户的通信业务不同,主用户和次用户可以划分为embb(增强型移动宽带)切片用户和urllc(超高可靠低时延通信)切片用户。embb切片用户有最低通信速率需求,urllc切片用户有最大通信时延需求。在保证主用户的正常通信的基础上,次用户根据接入信道的状态选择采用overlay(叠加网络/覆盖网络)或underlay(底层网络)接入模式和主用户进行频谱共享,从而使得频谱资源更加高效的利用。
[0107]
再参见图2认知无线电网络场景中有1个主基站pbs和a个(例如三个)认知基站cbs。主基站pbs和认知基站cbs共享相同的频谱资源。m个(例如三个)主用户pu和主基站pbs相连,n个认知用户cu和认知基站cbs相连,例如每个认知基站cbs与三个认知用户cu相连。频谱资源被分为k条信道,k={1,2,...k}。认知用户cu采用混合接入模式与主用户pu共享频谱资源。当认知用户cu接入的信道存在主用户pu时,认知用户cu采用underlay模式接入频谱。当认知用户cu接入的信道不存在主用户pu时,认知用户cu采用overlay模式接入频谱。采用underlay模式接入频谱时,认知用户cu需要在主用户pu可以接受的干扰范围内使用信道通信。本实施例引入干扰温度的概念,用来量化认知用户cu对主用户pu产生的干扰,认知用户cu需要在满足干扰温度约束的前提下,使用信道进行通信。
[0108]
认知基站集合记为cbs={1,2,...,a},与embb切片关联的认知用户记为cu
embb
={1,2,...,n1},与urllc切片关联的认知用户记为cu
urllc
={1,2,...,n2},n=n1+n2,认知用户集合记为cu={1,2,...,n}。与embb切片关联的主用户记为pu
embb
={1,2,...,m1},与urllc切片关联的主用户记为pu
urllc
={1,2,...,m2},m=m1+m2,主用户集合记为pu={1,2,...,m}。信道集合记为c={1,2,...,k},每条信道的带宽为b,总带宽为w=k*b。
[0109]
认知用户n的传输功率记为与认知基站a的信道增益为与主基站的信道增益为gn。为认知基站和认知用户的关联系数,表示认知用户n和认知基站a关联,否则表示不关联。为信道和认知用户关联系数,表示认知用户n和信道关联k,否则表示不关联。主用户m的传输功率记为与认知基站a的信道增益为与主基站的信道增益为gm。为信道和主用户关联系数,表示主用户m和信道关联k,否则另外,假设主用户可以占用两条信道,认知用户仅能占用一条信道。主用户的通信行为被简化为主用户会随机的、持续一定时间的占用某两条信道。
[0110]
可以根据信干噪比sinr的定义计算出认知用户n的信干噪比sinr,如式(1)所示:
[0111]
[0112]
其中,γn表示信干噪比,a∈cbs表示认知基站cbs中的认知基站a,k∈c表示信道集合c中的信道k,表示认知基站和认知用户的关联系数,表示信道和认知用户关联系数,表示认知用户与认知基站的信道增益,表示认知用户的传输功率,n'∈su表示次用户集合su中的次用户n',表示认知基站a和认知用户n’的关联系数,表示信道k和认知用户n’的关联系数,表示认知用户n’与认知基站a且选择信道k时的传输功率,m∈pu表示主用户集合中的主用户m,表示信道和主用户关联系数,gn表示认知用户n与主基站的信道增益,表示主用户的传输功率,σ表示高斯白噪声。
[0113]
根据香农信道公式r=b
·
log2(1+γ),可以得到认知用户n的传输速率rn,进而得到认知用户的能量效率,如式(2)所示:
[0114][0115]
其中,ηn表示认知用户n的能量效率,rn表示认知用户n的传输速率rn,rn=b
·
log2(1+γ),其中,b表示,γ表示。
[0116]
对于速率敏感的用户(embb切片用户),设定最小传输速率阈值r
min
。对于时延敏感用户(urllc切片用户),设定最大传输时延阈值d
max

[0117]
为了计算用户的传输时延,使用m/m/1排队模型。假设到达速率遵循参数为d的泊松分布,用户的传输时延遵循参数为r
n-d的指数分布。使用概率表示urllc切片用户的通信需求,其中,ξ为一个很小的数字。因此,urllc切片用户的通信需求为dn表示认知用户n的传输时延,p表示概率。
[0118]
干扰温度定义为干扰功率与信道带宽的比值,记为其中,k
cons
为玻尔兹曼常数,pi为干扰功率,bw为信道带宽。对于采用underlay接入模式的认知用户,设置最大干扰温度阈值it
max

[0119]
该混合接入认知网络切片资源分配优化问题可以表示如式(3)所示:
[0120][0121][0122][0123][0124][0125]
[0126][0127][0128]
其中,ηn表示认知用户的能量效率,rn认知用户的传输速率,表示认知用户的传输功率;r
min
表示最小传输速率,n∈cu
embb
表示认知用户n属于embb切片用户(对速率敏感;)d表示到达速率所遵循的泊松分布的参数,认知用户的传输时延遵循参数为r
n-d的指数分布,表示认知用户n属于urllc切片用户(对时延敏感),d
max
表示最大传输时延,ξ表示一个参数。表示每条信道的干扰功率,b表示每条信道的带宽,k
cons
为玻尔兹曼常数,it
max
最大干扰温度,表示信道集合c中的信道k。表示认知用户n的最大传输功率,表示认知基站a对应的认知用户n在信道k上的传输功率。表示信道k和主用户m的关联系数,表示主用户集合pu中的主用户m。a∈cbs表示认知基站集合cbs中的认知基站a,表示认知基站a和认知用户n之间的关联系数
[0129]
公式(c1)~(c3)是二进制关联系数约束。公式(c4)表示认知用户的最大传输功率限制。公式(c5)和(c6)是对应于embb切片用户和urllc切片用户的服务需求约束。公式(c7)是干扰温度约束,即为主用户对认知用户所产生干扰的容忍度。
[0130]
(二)将认知网络切片资源分配问题映射到强化学习并建立模型
[0131]
图卷积强化学习算法有两个关键的技术,为多头注意机制和时间关系正则化。卷积核采用多头注意机制,用来捕捉到高阶有效信息,从而较好的学习到智能体之间的相互作用,使得训练更加稳定。对于智能体i,其邻居表示为xi。对于注意头部m,可以表示如式(4)所示:
[0132][0133]
其中,表示智能体i的邻居认知用户j的注意头部m,wm表示权重矩阵,hi表示神经元的输出,x
+i
表示认知用户i及其邻居的集合,τ表示缩放因子,(w
mhi
)
t
表示w
mhi
的转置矩阵。将输入特征值做加权和,然后将智能体i的m个注意头部连接起来,再经过一层mlp(多层感知器)或者是非线性relu(线性整流函数/激活函数)层,从而得到最终卷积层的输出,如式(5)所示;
[0134][0135]
其中,h
′i表示卷积层的输出,σ表示非线性激活函数,concatenate[
·
]表示拼接操作,x
+i
表示认知用户i及其邻居的集合,wm表示权重矩阵,m∈m表示所有邻居认知用户的注意头部中的注意头部m。
[0136]
另外,由于不同智能体之间需要进行信息交互,为了减少不必要信息的传递以及
增大有效信息交互占比,将智能体的状态分为两类(需要交互的状态信息和不需要交互的状态信息)。图卷积强化学习算法gqn的神经网络结构如图3所示,不同智能体agent1、agent2、

、agentn之间,有的需要交互,有的不需要交互。
[0137]
第二个主要技术是提出了时间关系正则化,促进智能体在一定时间内稳定合作,在实际应用场景中,智能体之间稳定的合作往往能获得长期最大收益。因此,采用kl散度来衡量当前的注意权重分布与目标注意权重分布的差异,加强智能体稳定合作。将kl散度作为正则化项加入损失函数中,如式(6)所示:
[0138][0139]
其中,l(θ)表示损失函数的值,θ表示神经网络的参数,bs表示强化学习算法中mini-batch数量,rb表示mini-batchb(第b次的mini-batch)中奖励函数值,q(s,a;θ)表示在动作a、状态s和神经网络参数为θ时的q值,s表示状态,s'表示下一状态,a表示动作,λ表示正则化损失的系数,m表示注意头部的个数,表示当前状态的权重分布和下一状态的权重分布的kl散度值,表示智能体i在卷积层k注意头部m的注意权重分布。
[0140]
kl散度(kullback-leibler divergence)越小,越能使智能体达成长久一致的合作,从而对捕捉智能体之间的合作关系特征有很大帮助。
[0141]
在混合接入认知网络切片场景下,所有认知用户的资源分配问题在理论上是一个复杂的非凸优化问题。为了解决这个问题,本实施例提出一种用于混合接入认知无线电网络切片场景的多智能体强化学习方法(crngqn算法)。多智能体强化学习算法以gqn算法为基础,采用图结构来表示智能体之间的合作关系。在crngqn算法中,强化学习基本要素设置如下。
[0142]
假设在时间t时刻时,所有的智能体状态不发生改变。首先设计智能体i的状态为为智能体需要进行交互的状态信息,包括为认知用户是否满足通信需求的二进制系数,表示认知用户满足通信需求,否则为智能体不需要进行交互的状态信息,包括
[0143]
其中,表示智能体(认知用户)i的传输功率,表示智能体(认知用户)i与认知基站的关联系数,表示智能体(主用户)i与信道的关联系数。{γm}
1*m
表示主用户的sinr矩阵(信干噪比矩阵),表示主用户的信道占用矩阵。
[0144]
其次,设计智能体i的动作为该场景的优化变量表示信道关联,是一个离散的变量,然而功率变量是连续变量。与传统的dqn算法处理方法相同,需要将crngqn算法中的功率离散化,功率的取值范围如式(7)所示:
[0145]
[0146]
其中,表示占用信道a的最大功率。
[0147]
最后,设计奖励函数。考虑到系统的目标是最大化ηi,并且需要符合干扰温度约束要求。因此在奖励函数的设计中,要对不符合约束条件的动作进行惩罚,对增大目标值的动作进行奖励。综合以上因素,奖励函数设计如式(8)所示:
[0148][0149]
其中,ri表示智能体i的奖励值,表示干扰温度阈值约束函数,表示智能体(认知用户)i的传输功率,表示表示智能体(主用户)i与信道的关联系数,ηi表示表示智能体(主用户)i的能量效率。
[0150]
其中为干扰温度阈值约束函数,表达式如式(9)所示:
[0151][0152]
其中为sigmoid函数,k∈c表示信道集合c中的信道k,s表示sigmoid函数,it
max
表示干扰温度阈值,n∈cu表示认知用户集合cu中的认知用户n,a∈cbs表示认知基站集合cbs中的认知基站,表示智能体i的认知用户与认知基站a的关联系数,表示智能体i的认知用户与信道k的关联系数,表示智能体i的认知用户与信道k的增益,k
cons
为玻尔兹曼常数,b表示信道带宽,ri表示传输速率。
[0153]
本实施例的用于混合接入认知无线网络中的切片资源分配技术,在复杂的认知网络中,结合深度强化学习技术,高效选择最优策略。主要创新点如下:(1)在5g网络切片场景下,提出了一种基于混合underlay-overlay频谱接入模式的多切片认知无线电网络模型。该模型将网络切片技术引入到多业务认知无线电网络场景中,认知用户可以采用overlay频谱接入模式接入到不存在主用户的信道,采用underlay频谱接入模式接入到存在主用户的信道。(2)针对认知无线电网络中的资源分配问题,提出了一种多目标自适应的深度强化学习框架。该框架可应用于多种目标函数,如网络吞吐量、频谱效率和能量效率。(3)提出了一种结合图卷积神经网络的深度强化学习算法。该算法使用gat帮助dqn智能体提取环境信息,并引入时间关系正则化机制来提高代理关系的稳定性。该算法根据agent(智能体)是否需要通信对agent的状态进行分类,减少了不必要的状态信息交互,提高了信息交互的效率和算法收敛速度。
[0154]
本实施例,实现了一种混合接入模式认知网络切片资源分配场景的多智能体强化学习方法。在认知无线电技术基础上,引入混合频谱接入机制,从而能够进一步提高频谱的利用率。针对此场景,提出了一种基于图卷积强化学习的crngqn(cognitive relay networks,认知中继网络,crn)算法,针对性的设计状态、动作和奖励函数,建立图结构,模型设置为三个模块编码层、图卷积层和dqn(深度强化学习)层,从而加强多智能体之间的合作交流,提高模型的收敛速度。通过实验仿真探究了学习率、图卷积层数和智能体的邻居个数对实验结果的影响,证明了算法的可行性。与不对状态按照是否需要交互进行分类的dgn算法和dqn算法进行对比,所提出的算法能够得到更高的奖励、收敛速度和稳定性。将混合
频谱接入模式与overlay和underlay接入模式对比,所提出的频谱混合接入模式下的能量效率优于单一的overlay和underlay频谱接入模式。
[0155]
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
[0156]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0157]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0158]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0159]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0160]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1