一种网络负载均衡方法、装置及电子设备与流程

文档序号:33203500发布日期:2023-02-07 20:11阅读:69来源:国知局
一种网络负载均衡方法、装置及电子设备与流程

1.本文件涉及人工智能技术领域,尤其涉及一种网络负载均衡方法、装置及电子设备。


背景技术:

2.目前,移动运营商主要通过扩容或负载均衡调整的方式解决移动通信网络能力不足的问题。在号召“提速降费”的大环境下,负载均衡调整的方式相比于扩容的方式受到移动运营商更多的重视。
3.目前,对于移动通信网络进行负载均衡调整还存在较大难度,主要原因是移动通信网络层级复杂且覆盖面大,仅站在某一层级粒度对移动通信网络进行负载均衡调整并不能保证上层网络或下层网络也会随之改善,甚至可能还会加重上层或下层的网络负担。
4.为此,如何关联并权衡不同层级粒度,以对网络进行负载均衡调整是本技术所解决的技术问题。


技术实现要素:

5.本发明实施例目的是提供一种网络负载均衡方法、装置及电子设备,能够关联并权衡不同层级粒度,以对网络进行负载均衡调整。
6.为了实现上述目的,本发明实施例是这样实现的:
7.第一方面,提供一种网络负载均衡方法,包括:
8.将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级;
9.为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
10.对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略;
11.基于所述全局策略,对所述目标网络进行负载调整。
12.第二方面,提供一种网络负载均衡装置,包括:
13.任务创建模块,用于将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级;
14.参数配置模块,用于为每个子任务配置分层强化学习的参数,包括:状态集、策略
集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
15.分层强化学习模块,用于对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略;
16.负载调整模块,用于基于所述全局策略,对所述目标网络进行负载调整。
17.第三方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
18.将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级;
19.为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
20.对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略;
21.基于所述全局策略,对所述目标网络进行负载调整。
22.第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
23.将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级;
24.为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
25.对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略;
26.基于所述全局策略,对所述目标网络进行负载调整。
27.本发明实施例的方案将对目标网络进行负载均衡的任务按照目标网络的层级,分解为分层强化学习的子任务,以通过分层强化学习,使不同层级的子任务在规模较小的子问题空间进行负载调整策略的相对最优求解,并将获得至少两个层级的相对最优策略组合成全局策略,从而基于全局策略对目标网络进行负载调整,避免了只解决目标网络局部区域的负载问题而导致其他区域负荷过高的现象发生。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例提供的网络负载均衡方法的流程示意图。
30.图2为本发明实施例提供的网络负载均衡方法对移动通信网络执行负载均衡的任务进行分解的示意图。
31.图3为本发明实施例提供的分层强化学习的流程示意图。
32.图4为本发明实施例提供的网络负载均衡装置的结构示意图。
33.图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
34.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
35.如前所述,在号召“提速降费”的大环境下,移动运营商越来越多地会采用负载均衡调整的方式解决移动通信网络能力不足的问题。对于通信领域来讲,移动通信网络层级复杂且覆盖面大,仅站在某一层级粒度对移动通信网络进行负载均衡调整并不能保证上层网络或下层网络也会随之改善,甚至可能还会加重上层或下层的网络负担。为此,本文件旨在提供一种能够关联并权衡不同层级粒度,以对网络进行负载均衡调整的技术方案。这里所述的网络并不限于移动通信网络。
36.图1是本发明实施例网络负载均衡方法的流程图,包括如下步骤:
37.s102,将针对目标网络执行负载均衡的任务,按照目标网络的层级,分解为分层强化学习的子任务,其中,目标网络预先划分有多个层级。
38.其中,分层强化学习是将整体任务分解为不同层级上的子任务,使每个子任务在规模较小的子问题空间求解策略,并最后组合成全局策略。
39.本发明实施例可以将目标网络已划分的层级直接沿用为分层强化学习的层级,也就是利用分层强化学习,将对目标网络执行负载均衡的任务细分成对应不同层级的子任务,以针对不同层级的子任务请求负载调整策略,并最后组合成全局策略。
40.这里,本文不对目标网络的层级划分方式作具体限定。作为示例性介绍,如果目标网络为移动通信网络,则层级由上层到下层可以依次划分有:全网层级(相对于目标网络)、池层级、网元层级和链路/虚拟机层级。其中,每个层级不限于只包含有一个子任务。以网元层级为例,网元层级可以包括有多个网元,每一个网元都可以对应有一个子任务,这个子任务即为针对其对应网元执行负载均衡的任务。
41.s104,为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,状态集中的状态为子任务对应层级的负载均衡指标值,终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,策略集中的策略为子任务对应层级的负载调整策略,动作集中的动作为执行策略集中的策略所产生的动作,状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值。
42.s106,对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的该至少两个层级的子任务的相对最优策略组合成针对目标网络执行负载均衡的全局策略。
43.其中,分层强化学习会对子任务进行相对最优策略求解,从而将不同层级的负载调整策略相关联。需要说明的是,本发明实施例并不要求基于分层强化学习,确定出目标网络中每个层级的相对最优策略。
44.s108,基于全局策略,对目标网络进行负载调整。
45.本发明实施例的方法将对目标网络进行负载均衡的任务按照目标网络的层级,分解为分层强化学习的子任务,以通过分层强化学习,使不同层级的子任务在规模较小的子问题空间进行负载调整策略的相对最优求解,并将获得至少两个层级的相对最优策略组合成全局策略,从而基于全局策略对目标网络进行负载调整,避免了只解决目标网络局部区域的负载问题而导致其他区域负荷过高的现象发生。
46.下面结合实际的应用场景,对本发明实施例方法中的分层强化学习流程进行详细介绍。
47.本应用场景对5g移动通信网络执行负载均衡。如图2所示,可以对移动通信网络的执行负载均衡的任务全网层级、池层级、网元层级和链路/虚拟机层级,分解为分层强化学习的子任务。
48.移动通信网络的全网层级的子任务作为所述分层强化学习的根任务,这里可以将分层强化学习的结束条件为全网层级的子任务达到终止状态,也就是分层强化学习后可以保证全网层级的负载达到均衡标准。
49.在执行负载均衡前,可以分层级采集负荷数据,并进行预处理。具体步骤包括:采集网元级的用户容量利用率和n3/n6接口流量带宽利用率,各虚拟机(vm,virtual machine)的cpu和内存利用率,虚拟网络功能(vnf,virtual network feature)网元内各链路的信令负荷等数据,然后针对所述采集的负荷数据进行预处理,具体包含:进行数据清洗以剔除不符合现网实际情况的负荷数据,比如用户容量利用率日环比波动幅度超过20%的数据,n3/n6接口流量带宽利用率日环比波动幅度超过40%的数据等,以及进行空值插值(可通过中位数、均值或众数等进行插值)等预处理,以及基于5g核心网各vnf网元的池(pool)组网关系,计算pool级的用户容量利用率和n3/n6接口流量带宽利用率,为后续基于
分层强化学习获取负荷均衡的最优策略提供数据来源。
50.为了保证5g核心网的安全、平稳运行,定义进行负荷均衡调优的目标为保障5g核心网内pool级和网元级的用户容量利用率均低于预警门限(如设置为80%),n3/n6接口流量带宽利用率均低于预警门限(如容灾方式采用负荷分担方式时,门限可设置为45%,而容灾方式采用主备方式时,门限可设置为80%),vm级的cpu和内存利用率均低于预警门限(如80%),交换机等网元设备的端口/链路级的流量带宽利用率均低于预警门限(如设置为60%)以及保证pool和网元等层级上的均衡度均低于某阈值(如设置为10%),其中,5g网络某层级(如pool和网元等)的负荷均衡度β
l
的定义如式(1)所示:
[0051][0052]
式(1)中,表示层级的平均资源利用率,y
l,m
表示层级中第m个实体的资源利用率,n表示层级的实体总数量。
[0053]
这里以池层级为例,表示池层级的平均资源利用率(资源如带宽、cpu、内存等这里并不限定),y
l,m
表示池层级中第m个网元的资源利用率,表示池层级中所有网元的平均资源利用率,n表示池层级的网元总数量。例如,y
l,m
=pool内第m台网元的n3接口流速/n3接口带宽速率*100%。n3接口带宽速率*100%。
[0054]
为了获得5g网络各层级的负荷均衡最优策略并提高学习速度,可以根据5g核心网的生产运维经验,提出一种maxq(一种典型的分层强化学习)方法的5g网络负荷均衡方法,对应流程包括:
[0055]
s202:将负荷均衡策略的整个任务w分解为n个子任务集(w1,w2,
……
,wn),例如依据先验知识,将全网的负荷均衡作为根任务,第2层为pool级的负荷均衡子任务,第3层为pool内各网元间的负荷均衡子任务,整个分层任务具体如图3所示。且将策略π分解为策略的集合(π1,π2,
……
,πn),其中,πi是子任务wi的策略。针对每个子任务wi,用一个六元组《si,ai,pi,ri,fi,πi》表示,其中,i表示子任务序号,a表示动作,a

表示当前选取动作,s表示当前的状态,s

表示在当前状态执行动作所进入的另一状态。si为子任务wi的状态集(如某网元的用户容量利用率、带宽利用率情况)、ai为子任务wi的动作集(可以是基本动作或复合动作,基本动作如针对某网元/vm/链路进行负荷迁入或迁出操作,复合动作如根任务w0选择执行pool级的负荷均衡动作等)、pi为子任务wi的状态转移概率(如pi(s

,τ|s,a)表示在状态s耗时τ执行动作a导致转移到状态s

的概率,π(s

)表示状态s

的策略,具体如某网元的容量利用率为60%是当前状态s,执行负荷迁入该网元的动作a后转移到该网元的容量利用率为61%的状态s

,τ为在状态s时执行子任务的持续时间),ri为子任务wi的奖赏函数,其中对于每个子任务wi,wi中执行动作a获得的立即奖赏r为ri(s,a)=v(a,s)。因进行学习的目标是为了获取一个最优策略π
*
,使执行的动作a从环境获得的奖赏值最大,如公式(2)和(3)所示;fi为子任务wi的终止状态集(例如,本发明中将pool和网元级的负荷均衡度低于10%的阈值以及pool级、网元级的容量利用率等负荷低于预警值作为对应层的终止状态,即当状态s∈fi时,结束子任务wi),且其中,s为整个任务的状态集(如5g网络设备的pool级、网元级、vm级、链路级等的负荷状态),a为整个任务可执行的动作集
(包含复合动作和基本动作)。
[0056]
π
*
=arg
π
max v
π
(s),s∈s
ꢀꢀꢀ
(2)
[0057][0058]
式(2)和式(3)中,γ为折扣因子,范围为[0,1],u表示随机突跳系数,r
t
表示执行动作a使得第t个状态s
t
转移到第t+1个状态s
t+1
后所获得的瞬时奖赏值,v
π
(s
t
)表示累积的瞬时奖赏值之和,例如,本发明中设定每执行一次负荷迁入或迁出操作(注:执行一次迁入或迁出操作,本发明中统一设置为迁出调整网元/vm/链路原有业务量的1%)的立即奖赏值为-1;当状态满足端口/链路级的流量带宽利用率均低于60%以及同网元内各链路的流量均衡度低于10%时,立即奖赏值设为+10;当各网元所有vm的cpu利用率和内存利用率均低于80%时,立即奖赏值设为+20;当pool内各负荷分担网元的流量带宽利用率均低于45%以及po0l内各网元的流量均衡度低于10%时,立即奖赏值设为+30;当各负荷分担pool的流量带宽利用率均低于45%以及各pool间的流量均衡度低于10%时,立即奖赏值设为+40。而值函数v
π
(s
t
)则表示累积的立即奖赏值之和,故搜索最优策略的实质即为使执行的环境a从状态获得的奖赏值最大。
[0059]
对于每个子任务wi,wi中执行动作a获得的立即奖赏为ri(s,a)=v(a,s),与子任务wi对应的状态的值函数方程为:
[0060]
v(i,s)=v(a,s)+∑s′

pi(s

,τ|s,a)γ
τ
v(i,s

)
ꢀꢀꢀ
(4)
[0061]
其中,v(i,s

)是由状态s

(子任务在a结束时对应的状态)开始完成子任务wi的期望回报值。
[0062]
子任务wi中,状态-动作对的值函数定义为:
[0063]
q(i,s,a)=v(a,s)+∑s′

pi(s

,τ|s,a)γ
τ
maxq[i,s

,π(s

)]
ꢀꢀꢀ
(5)
[0064]
其中,式(5)的第二项称为完成函数c(i,s,a),即:
[0065]
c(i,s,a)=∑s′

pi(s

,τ|s,a)γ
τ
maxq[i,s

,π(s

)]
ꢀꢀꢀ
(6)
[0066]
通过maxq值函数分解,状态-动作对的值函数可以划分为立即奖赏v(a,s)和完成函数c(i,s,a)两部分,如式(7)所示。
[0067]
q(i,s,a)=v(a,s)+c(i,s,a)
ꢀꢀꢀ
(7)
[0068]
进行分层强化学习的任务就是确定每个子任务wi的最优策略π
*
(i,s),即根据式(8)所示选择相应动作a,而所有子任务形成了以w0为根节点的任务分层结构,即图2所示。
[0069][0070]
由于解决了根任务w0也就解决整个学习任务w,因此为了解决w0,需要依次选择调用基本动作或者其它子任务。
[0071]
在已知任务的分层策略π时,假定根任务w0的策略选择a1执行子任务,a1的策略选择执行子任务a2,这样依次进行选择,直到a
n-1
的策略选择了基本动作an,则根任务w0中状态s的值函数v
π
(0,s)可以分解为:
[0072]vπ
(0,s)=v
π
(an,s)+c
π
(a
n-1
,s,an)+l+c
π
(a1,s,a2)+c
π
(0,s,a1)
ꢀꢀꢀ
(9)
[0073]
其中,
[0074]vπ
(an,s)=∑s′
p(s

|s,an)r(s

|s,an)
ꢀꢀꢀ
(10)
[0075]
式(9)是本发明利用maxq算法进行分层强化学习的基础。
[0076]
具体地,本应用场景,基于分层强化学习的子任务的最优策略选取算法,选取子任务进行相对最优策略的求解,直至当前子任务的相对最优策略能够使顶层子任务达到终止状态,其中,相对最优策略的求解的结束条件包括当前子任务达到终止状态和当前子任务的相对最优策略涉及有与下一层级相关的动作。对应流程如图3所示包括:
[0077]
s304:开始进行负荷均衡最优策略学习,设置子任务wi的初始值为:i=0,j=0,j为当前处理的子任务的层级序数,最初选择全网的负荷均衡根任务w0,转入步骤s306。
[0078]
s306:判断目前状态是否达到当前子任务的终止状态?若目前状态为当前子任务的终止状态,则转入步骤s316;若目前状态不属于当前子任务的终止状态,则转入步骤s308。
[0079]
s308:根据式(8)选择最优策略对应的动作a(可以是基本动作或复合动作,基本动作如针对某网元/vm/链路进行负荷迁入或迁出操作,复合动作如根任务w0选择执行pool级的负荷均衡子任务等),然后转入步骤s310。
[0080]
s310:判断选择的动作a是否为复合动作?若动作a为复合动作,则转入步骤s312;若动作a为基本动作,则转入步骤s314。
[0081]
s312:基于动作a更新i,并记录《i,s,a》的值函数等信息,令j=i,然后转入步骤s306。
[0082]
s314:执行基本动作a,记录获得的立即奖赏r(s,a)和后继状态s

;并保存《i,s,a》的值函数q(i,s,a)等信息,然后转入步骤s316。
[0083]
s316:判断目前状态是否为全网根任务w0的终止状态?若目前状态属于根任务的终止状态,则转入步骤s318;若目前状态不属于根任务的终止状态,则转入步骤306。
[0084]
s318:结束负荷均衡调整任务。
[0085]
由此可见,本应用场景基于maxq分层强化学习方法,通过建立多个可以并行学习的分层(如pool层、网元层、vm层和链路层等)子任务,且利用分层结构约束优化策略的搜索范围,使得能够快速获得5g核心网pool、网元、vm和链路等各层级负荷均衡的最优策略。
[0086]
以上应用场景是对本发明实施例方法的示例性介绍。应理解,在不脱离本文上述原理基础之上,还可以进行适当的变化,这些变化也应视为本发明实施例的保护范围。
[0087]
此外,对应于图1所示的方法,本发明实施例还提供一种网络负载均衡装置。图4是本发明实施例网络负载均衡装置400的结构示意图,包括:
[0088]
任务创建模块410,用于将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级。
[0089]
参数配置模块420,用于为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
[0090]
分层强化学习模块430,用于对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级
的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略.
[0091]
负载调整模块440,用于基于所述全局策略,对所述目标网络进行负载调整。
[0092]
本发明实施例的装置能够将对目标网络进行负载均衡的任务按照目标网络的层级,分解为分层强化学习的子任务,以通过分层强化学习,使不同层级的子任务在规模较小的子问题空间进行负载调整策略的相对最优求解,并将获得至少两个层级的相对最优策略组合成全局策略,从而基于全局策略对目标网络进行负载调整,避免了只解决目标网络局部区域的负载问题而导致其他区域负荷过高的现象发生。
[0093]
可选地,所述目标网络的层级包括全网层级,所述全网层级的子任务作为所述分层强化学习的根任务,所述分层强化学习的结束条件为所述全网层级的子任务达到终止状态。
[0094]
可选地,分层强化学习模块430具体用于:基于分层强化学习的子任务的最优策略选取算法,选取子任务进行相对最优策略的求解,直至当前子任务的相对最优策略能够使顶层子任务达到终止状态,其中,相对最优策略的求解的结束条件包括当前子任务达到终止状态和当前子任务的相对最优策略涉及有与下一层级相关的动作。
[0095]
可选地,所述最优策略选取算法的公式为:其中:
[0096]
q(i,s,a)=v(a,s)+c(i,s,a);
[0097]
q(i,s,a)=v(a,s)+∑s′

pi(s

,τ|s,a)γ
τ
maxq[i,s

,π(s

)];
[0098]
c(i,s,a)=∑s′
,τ
pi(s

,τ|s,a)γ
τ
maxq[i,s

,π(s

)];
[0099]
v(i,s)=v(a,s)+∑s′

pi(s

,τ|s,a)γ
τ
v(i,s

);
[0100]
i表示子任务序号,a表示动作,a

表示当前选取动作,ai表示子任务i的动作集,s表示当前的状态,s

表示在当前状态执行动作所进入的另一状态,τ表示在状态s时执行子任务的持续时间,γ表示折扣因子,q(i,s,a)表示子任务i在状态s执行动作a所对应的值函数,c(i,s,a)表示子任务i在状态s执行动作a所对应的完成函数,v(i,s

)是由状态s

开始完成子任务i的期望回报值,v(a,s)表示在s状态下执行动作a的瞬时奖赏值,pi(s

,τ|s,a)表示在状态s耗时τ执行动作a导致转移到状态s

的概率,π(s

)表示状态s

的策略。
[0101]
可选地,所述分层强化学习确定全局策略的函数为π
*
=arg
π
maxv
π
(s),其中,r
t
表示执行动作a使得第t个状态s
t
转移到第t+1个状态s
t+1
后所获得的瞬时奖赏值,v
π
(s
t
)表示累积的瞬时奖赏值之和,u表示随机突跳系数,0《u≤1。
[0102]
可选地,所述目标网络为移动通信网络,所述移动通信网络的层级按照顶层到底层的顺序依次包括:全网层级、池层级、网元层级和链路/虚拟机层级。
[0103]
其中,所述移动通信网络中任一层级的负载均衡指标值其中,表示层级的平均资源利用率,y
l,m
表示层级中第m个实体的资源利用率,n表示层级的实体总数量。
[0104]
显然,本发明实施例图4所示的网络负载均衡装置可以实现上述图1至图3所示方法的步骤和功能。由于原理相同,本文不再赘述。
[0105]
图5是本说明书的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该
电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0106]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0107]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成网络负载均衡装置。该网络负载均衡装置可以独立于服务器,也可以是服务器中的部件。对应地,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0108]
将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级;
[0109]
为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值;
[0110]
对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略;
[0111]
基于所述全局策略,对所述目标网络进行负载调整。
[0112]
本发明实施例的电子设备能够将对目标网络进行负载均衡的任务按照目标网络的层级,分解为分层强化学习的子任务,以通过分层强化学习,使不同层级的子任务在规模较小的子问题空间进行负载调整策略的相对最优求解,并将获得至少两个层级的相对最优策略组合成全局策略,从而基于全局策略对目标网络进行负载调整,避免了只解决目标网络局部区域的负载问题而导致其他区域负荷过高的现象发生。
[0113]
上述如本说明书图1所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门
阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0114]
应理解,本发明实施例的电子设备可以使网络负载均衡装置实现对应于图1至图3所示方法中的步骤和功能。由于原理相同,本文不再赘述。
[0115]
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0116]
此外,本发明实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令。
[0117]
将针对目标网络执行负载均衡的任务,按照所述目标网络的层级,分解为分层强化学习的子任务,其中,所述目标网络预先划分有多个层级。
[0118]
为每个子任务配置分层强化学习的参数,包括:状态集、策略集、动作集、终止状态集、状态转移函数和奖赏函数,其中,所述状态集中的状态为子任务对应层级的负载均衡指标值,所述终止状态集中的终止状态为子任务对应层级满足负载均衡标准的负载均衡指标值,所述策略集中的策略为子任务对应层级的负载调整策略,所述动作集中的动作为执行策略集中的策略所产生的动作,所述状态转移函数表示在一种状态下执行一种动作以进入另一种状态的概率,所述奖赏函数表示在一种状态下执行一种动作以进入另一种状态所获得的瞬时奖赏值。
[0119]
对目标网络中的层级所对应的子任务进行分层强化学习,得到其中至少两个层级的子任务的相对最优策略,并将确定到的所述至少两个层级的子任务的相对最优策略组合成针对所述目标网络执行负载均衡的全局策略。
[0120]
基于所述全局策略,对所述目标网络进行负载调整。
[0121]
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0122]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0123]
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、
等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1