一种面向切片的低时延无线资源调度方法及系统与流程

文档序号：31335002发布日期：2022-08-31 08:30阅读：121来源：国知局

1.本发明涉及5g无线资源分配技术领域，更具体的，涉及一种面向切片的低时延无线资源调度方法及系统。

背景技术：

2.在传统的无线资源分配场景中，用户将资源请求信息发送给蜂窝网络端，基站针对用户的数量公平的切割可用的资源块，并将其对应的资源块下发给用户。然而，用户自身的特性往往被忽略。因此，在这种情况下，一些优先级高的用户往往被分到的资源块不足以支撑用户的需求。另一方面，用户的待发数据量在基站侧的队列中停留的时间直接影响用户的时延。当停留时间较长时，用户自身的需求大概率是无法得到满足的。另一方面，现有的研究为了考虑用户的时延，构建多目标优化模型，但是该模型不能准确的判断用户精确的资源需求。
3.针对上述讨论，现有的解决方案不能很好的对用户的资源请求信息精确的分配需要的资源。

技术实现要素：

4.本发明为了解决以上现有技术存在的不足与缺点的问题，提供了一种面向切片的低时延无线资源调度方法及系统，其基于深度确定性策略梯度算法，完成对资源的精确分配，以此满足用户的低时延需求。
5.为实现上述本发明目的，采用的技术方案如下：
6.一种面向切片的低时延无线资源调度方法，所述的方法包括步骤如下：
7.接收物理世界用户发送的资源调度请求信息；
8.基于当前接收到的资源调度请求信息，获取用户的瞬时传输速率；
9.通过现有可用的计算资源构建用户资源分配的数字孪生模拟环境；
10.在数字孪生模拟环境中，结合用户的瞬时传输速率、现有可用的计算资源、用户的调度请求信息计算每个用户在每个资源块上的优先级，初步评估资源块的分配决策；
11.基于用户的历史分配数据，通过深度确定性策略迭代模型对初步评估资源块的分配决策进行优化；
12.根据优化后的分配决策完成对用户的资源块分配，并将分配决策映射到物理世界。
13.进一步地，计算每个用户i，在每个资源块上的优先级ri，表示为：
[0014][0015]
其中，ω1,ω2,ω3,ω4表示权重系数，满足ω1+ω2+ω3+ω4＝1；γi(t)表示用户i在时刻t时的信噪比；ri(t)表示用户i在时刻t时的瞬时传输速率；rai(t)表示用户i在时刻t之前一段时间的平均传输速率；ci(t)表示用户i在时刻t时的队列缓冲时间；di(t)表示用户
i在时刻t时需要发送的数据量。
[0016]
再进一步地，所述的深度确定性策略迭代模型包括actor神经网络、critic神经网络；
[0017]
将当前的资源调度请求信息作为观测信息并定义为si，将历史分配数据放入构建的replaymemory中；将当前的数据si输入actor神经网络中获取对应的资源分配决策ai，并且通过给定的优先级公式计算对应的reward值。
[0018]
再进一步地，将当前的资源调度请求信息si输入actor神经网络进行迭代训练，在迭代多次后，其reward考虑记忆的折扣能够重写为：
[0019][0020]
其中，ri(s,a)表示用户i获得的奖赏，γ
i-t
表示折扣因子，是一个固定数值(比如设置为0.999)；t表示时间尺度。
[0021]
再进一步地，基于获取对应的资源块分配策略ai，建立行为值函数去表述在采取该资源块分配策略ai后所期望得到的回报，该行为值函数表示为：
[0022][0023]
式中，
[0024]
再进一步地，针对建立行为值函数去表述在采取资源块分配策略ai后所期望得到的回报，通过构建loss函数来获取最大的期望回报，所述的loss函数表示为：
[0025][0026]
其中，θq表示函数q
π
的参数近似，y表示用户i的真实需求回报、为期望函数。
[0027]
优选地，在完成对用户的资源块分配后，从资源块列表中删除已经分配出去的资源块。
[0028]
进一步地，在将已经分配出去的资源块从资源块列表中删除后，
[0029]
判断资源块列表是否为空，确认资源块列表为空，则结束分配流程；
[0030]
确认资源块列表不为空，则继续执行分配策略，并将分配策略发送给物理世界中的用户，满足用户低时延的需求。
[0031]
优选地，对接收到的资源调度请求信息进行解析，并判断在基站侧的缓存中是否存在该用户的以往资源需求信息，如果存在，则添加到用户的资源调度请求信息中；
[0032]
所述的资源调度请求信息包括用户的位置、用户传输的信道质量信息、用户的数据在基站侧队列中的等待时间。
[0033]
一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现所述的面向切片的低时延无线资源调度方法。本发明的有益效果如下：
[0034]
1、本发明给出了一种面向切片的低时延无线资源调度方法，有效的保证用户的低时延需求，可以精确的满足不同用户的时延需求。
[0035]
2、克服了资源分配不合理的情况：基站侧构建一个物理实体和虚拟实体之间的对
应关系的数字孪生系统，通过对历史分配数据进行学习，精确的模拟用户当前资源请求。
[0036]
3、使用深度确定性策略迭代模型在获取用户当前资源请求的情况下，将优先级作为reward精准的指导基站侧获取精确的资源分配方案。
[0037]
4、本发明的方法普遍适用于5g网络应用下的无线资源分配应用。
附图说明
[0038]
图1是实施例1所述的面向切片的低时延无线资源调度方法的步骤框图。
[0039]
图2是实施例1所述的面向切片的低时延无线资源调度方法的步骤流程图。
具体实施方式
[0040]
下面结合附图和具体实施方式对本发明做详细描述。
[0041]
本实施例可能涉及到本领域专有名词解释如下：
[0042]
1.用户：连接同一个蜂窝网络的终端用户。
[0043]
2.切片：将一个蜂窝网络切割成多个虚拟的端到端的网络，每个网络之间是逻辑独立的，任何一个网络发生故障都不会影响到其它的虚拟网络。
[0044]
3.映射：数字孪生的物理实体和虚拟实体之间的对应关系。
[0045]
4.数字孪生：一个或多个彼此依赖的数字映射系统。
[0046]
实施例1
[0047]
本实施例提供的一种面向切片的低时延无线资源调度方法，主要应用于第五代移动通信(the fifth generation mobile communication technology,5g)场景中，基于不同的用户优先级，现有的切片技术可以基于用户的数量将对应的资源分配给蜂窝网络下的用户。最为流行的pf算法通过建立优先级公式，优先给需求高的用户提供对应的资源块，来满足高优先级用户的资源需求。然而，除了每个用户的优先级指标，用户的时延需求是不能忽视的，用户的时延主要包括停留在缓冲区内的等待时延和用户的请求发送时延。现有的pf算法没有针对用户的时延需求来执行更为合理的资源分配，当有些用户所需要的资源更多时，反而对时延要求更为苛刻，但是基于现有的pf算法的公平性，将资源平等的发给对应的用户。基于所面临的问题，本实施例设计了一种基于数字孪生(digitaltwin,dt)的智能切片技术来实现低时延的无线资源调度。基于本实施例所述的方法，蜂窝网络能够利用历史的分配数据，结合用户的时延需求特征，训练深度确定性策略迭代模型。区别于传统的资源分配算法，该深度确定性策略迭代模型可以帮助不同时延需求的用户提供不同数量的资源块。本实施例所述的方法可以明显地降低无线资源分配的时延，提升了第五代移动通信技术的低时延表现。
[0048]
如图1、图2所示，本实施例提供一种面向切片的低时延无线资源调度方法，所述的方法包括步骤如下：
[0049]
s1：接收物理世界用户发送的资源调度请求信息；
[0050]
s2：基于当前接收到的资源调度请求信息，获取用户的瞬时传输速率；
[0051]
s3：通过现有可用的计算资源构建用户资源分配的数字孪生模拟环境，其中数字孪生位于基站侧，即在基站侧构建数字孪生模拟环境
[0052]
s4：在数字孪生模拟环境中，结合用户的瞬时传输速率、现有可用的计算资源、用
户的调度请求信息计算每个用户在每个资源块上的优先级，根据优先级的高低初步评估得到资源块的分配决策；本实施例根据优先级高的用户优先满足用户的资源请求为原则，根据计算得到每个资源块上的优先级的高低排列，形成资源块的分配决策。
[0053]
s5：基于用户的历史分配数据，通过深度确定性策略迭代模型对初步评估资源块的分配决策进行优化；
[0054]
s6：根据优化后的分配决策完成对用户的资源块分配，并将分配决策映射到物理世界。
[0055]
本实施例基于当前的资源调度请求信息，获取用户的瞬时传输速率，即当前用户数据流入基站侧的传输速率，传输速率过高，基站侧可能无法有效的获取到完整的用户信息，导致基站侧缓存数据溢出。
[0056]
在一个具体的实施例中，计算每个用户i，在每个资源块上的优先级ri，表示为：
[0057][0058]
其中，ω1,ω2,ω3,ω4表示权重系数，满足ω1+ω2+ω3+ω4＝1；γi(t)表示用户i在时刻t时的信噪比；ri(t)表示用户i在时刻t时的瞬时传输速率；rai(t)表示用户i在时刻t之前一段时间的平均传输速率；ci(t)表示用户i在时刻t时的队列缓冲时间；di(t)表示用户i在时刻t时需要发送的数据量。
[0059]
在一个具体的实施例中，所述的深度确定性策略迭代模型(deep determined policy gradient,ddpg)包括actor神经网络、critic神经网络；所述的critic网络用来评估当前时刻的用户资源分配决策。将当前的资源调度请求信息作为观测信息并定义为si，将历史分配数据放入构建的replaymemory中；将当前的资源调度请求信息si输入actor神经网络中获取对应的资源分配决策ai，并且通过给定的优先级公式计算对应的reward值。
[0060]
本实施例中，所述的replay memory表示经验回放，它是ddpg强化学习中的一部分，将历史数据放入其中，可以降低训练采样时的数据强相关性，因为强相关性不能保证很好的训练结果。
[0061]
具体来说，通过深度确定性策略迭代模型对初步评估资源块的分配决策进行优化，历史分配数据作为训练信息，使用actor-critic网络框架进行评估，actor是初步获取到的资源分配决策(s4)，其评估过程表示如下：
[0062][0063]
其中，θq表示网络训练参数，q表示ddpg的评估函数，μ为q的参数，e表示期望函数x＝ri+γq
μ
′
(si,ai)|a
′
＝μ
′i(si)，ai表示用户i的动作空间，si表示用户i的状态空间。γ是强化学习中的折扣因子，a表示ai的集合s表示si的集合，μ表示μi的集合。本实施例中采用上标
′
表示下一个输出的表示，用于与当前的输出进行区分；比如a
′
表示a的下一个输出。
[0064]
在一个具体的实施例中，将当前的资源调度请求信息si输入actor神经网络进行迭代训练，在迭代多次后，其reward考虑记忆的折扣能够重写为：
[0065]
[0066]
其中，ri(si,ai)表示用户i获得的奖赏；γ
i-t
表示折扣因子，是个固定数值(比如设置为0.999)；t表示时间尺度。
[0067]
在一个具体的实施例中，基于获取对应的资源块分配策略ai，建立行为值函数去表述在采取该资源块分配策略ai后所期望得到的回报，该行为值函数表示为：
[0068][0069]
式中，为期望函数。
[0070]
在一个具体的实施例中，针对建立行为值函数去表述在采取资源块分配策略ai后所期望得到的回报，通过构建loss函数来获取最大的期望回报，所述的loss函数表示为：
[0071][0072]
其中，θq表示函数q
π
的参数近似，y表示用户i的真实需求回报、为期望函数。
[0073]
在一个具体的实施例中，在完成对用户的资源块分配后，从资源块列表中删除已经分配出去的资源块。
[0074]
在一个具体的实施例中，在将已经分配出去的资源块从资源块列表中删除后，
[0075]
判断资源块列表是否为空，确认资源块列表为空，则结束分配流程；
[0076]
确认资源块列表不为空，则继续执行分配策略，并将分配策略发送给物理世界中的用户，满足用户低时延的需求。
[0077]
在一个具体的实施例中，对接收到的资源调度请求信息进行解析，并判断在基站侧的缓存中是否存在该用户的以往资源需求信息，如果存在，则添加到用户的资源调度请求信息中；
[0078]
所述的资源调度请求信息包括用户的位置、用户传输的信道质量信息、用户的数据在基站侧队列中的等待时间。
[0079]
以上本实施例中所述的方法主要用于5g蜂窝网络的基站侧，在5g蜂窝无线网络中，通过以上的方法获取到用户的请求需求，合理的调度切割资源块，满足用户低时延的需求。
[0080]
实施例2
[0081]
本实施例还提供了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现的方法步骤如下：
[0082]
s1：接收物理世界用户发送的资源调度请求信息；
[0083]
s2：基于当前接收到的资源调度请求信息，获取用户的瞬时传输速率；
[0084]
s3：通过现有可用的计算资源构建用户资源分配的数字孪生模拟环境；
[0085]
s4：在数字孪生模拟环境中，结合用户的瞬时传输速率、现有可用的计算资源、用户的调度请求信息计算每个用户在每个资源块上的优先级，根据优先级的高低初步评估得到资源块的分配决策；本实施例根据优先级高的用户优先满足用户的资源请求为原则，根据计算得到每个资源块上的优先级的高低排列，形成资源块的分配决策。
[0086]
s5：基于用户的历史分配数据，通过深度确定性策略迭代模型对初步评估资源块的分配决策进行优化；
[0087]
s6：根据优化后的分配决策完成对用户的资源块分配，并将分配决策映射到物理世界。
[0088]
其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。
[0089]
实施例3
[0090]
一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：
[0091]
s1：接收物理世界用户发送的资源调度请求信息；
[0092]
s2：基于当前接收到的资源调度请求信息，获取用户的瞬时传输速率；
[0093]
s3：通过现有可用的计算资源构建用户资源分配的数字孪生模拟环境；现有可用的计算资源是指基站的中央处理单元(center processing unit，cpu)的可用资源；
[0094]
s4：在数字孪生模拟环境中，结合用户的瞬时传输速率、现有可用的计算资源、用户的调度请求信息计算每个用户在每个资源块上的优先级，根据优先级的高低初步评估得到资源块的分配决策；本实施例根据优先级高的用户优先满足用户的资源请求为原则，根据计算得到每个资源块上的优先级的高低排列，形成资源块的分配决策。
[0095]
s5：基于用户的历史分配数据，通过深度确定性策略迭代模型对初步评估资源块的分配决策进行优化；
[0096]
s6：根据优化后的分配决策完成对用户的资源块分配，并将分配决策映射到物理世界。
[0097]
本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0098]
显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘铭桂振文谢伟坤
技术所有人：中国电子科技集团公司第七研究所
我是此专利的发明人

上一篇：一种金环胡蜂活性多糖的提取方法与流程
上一篇：热收缩管扩管工艺的次品识别方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。