本发明涉及网络通信,具体涉及一种适用于要求更高的动态复杂网络场景的并行传输负载均衡装置及方法。
背景技术:
1、近年来,ar/vr、触觉互联网和工业控制等时间敏感应用的相关研究已成为未来网络发展的趋势,其发展的同时也对网络通信提出了高吞吐量的要求。然而,由于时变网络和链路的动态性,低延迟和高吞吐量的需求是相互作用的。在资源有限的网络中,高吞吐量容易导致重传、拥塞和长时间排队等问题,从而影响低延迟要求。
2、因此,针对时间敏感应用,研究学者们提出了各种解决方案来降低重传、拥塞、长时间排队等问题出现的概率。例如,在网络标准方面,tsn组提出了ieee 802.1qbv时间感知整形器(time-aware shaper,tas)用于解决确定性的ull要求;在ar/vr中,dejene等设计了l4s架构来实现可扩展的主动队列管理(active queue management,aqm),以减少排队延迟。在触觉互联网中,richard等提出了一种数据包清洗方案,当遇到受限或较差的网络条件时,将数据包拆分成小的有效载荷进行转发。除了低延迟要求外,触觉互联网、工业控制和其他时间敏感的应用程序也需要高吞吐传输。例如,kim等提出了多址复用和全双工通信技术,以提高频谱效率并减少传输延迟。sun等提出了一种多路径多轮胎传输方法,针对不同的视频质量进行自适应传输管理,实现了高质量低延迟传输。还有学者提出了等价路由(equal-cost multi-path,ecmp)以根据网络状态的变化动态调整传输路径,用于并发多路径传输。但是,由于网络资源有限,并发传输方法容易引起拥塞、排队等问题。因此,并发传输应注意可用网络资源的变化,并考虑特定的传输要求,如负载平衡、平均网络效用最大化等。
3、现有的研究主要集中在三个方面,以降低重传、拥塞和长期排队的概率为主。为了更好地获取网络资源信息,可利用细粒度感知方法来实现精确的网络感知,例如动态时间扭曲、网络遥测(in-network telemetry,int)等。许多工作使用int,通过其流检测能力收集信息,如节点可用资源、链路利用率、队列长度等。其次,提出了许多分组粒度控制协议来灵活调整转发优先级和分组大小,如大分组协议、低延迟低损耗可扩展吞吐量架构、准入先出等。动态路由方法可以基于网络状态预先分散流量,这可以有效降低拥塞和长排队时间的概率,例如分段路由(segment routing,sr)和开放最短路径优先等成本多路径(ospf-ecmp)。
4、由于网络的复杂性和动态性,策略更新的精度和实时性是相互影响的,许多传输方法难以在实时响应延迟约束下获得最优策略,所有算法都有不同的侧重点。研究学者提出了几种优化方法来加速训练过程或提高策略精度。例如,double dqn采用双重奖励计算来缓解过拟合问题,可以根据先验经验得到最优动作。a3c算法采用单步优化的方法代替长时间的迭代优化,加速了策略梯度的优化过程。此外,一些渐进优化算法被设计为根据网络状态进行敏感的拟合优化,例如近端策略优化(proximal policy optimization,ppo)。ppo采用动态学习率来稳定梯度优化的过程,避免了梯度的来回波动。
5、长沙理工大学提出了一种数据中心网络中的流量负载均衡方法,应用于数据中心网络中的交换机。该方法包括:接收数据中心网络中发送机发送的数据流;判断所述数据流为长流或短流,得到第一判断结果,其中,所述长流为数据大小大于或等于预设数值的数据流,所述短流为数据大小小于所述预设数值的数据流;根据所述第一判断结果,确定所述数据流对应的路由路径;通过所述路由路径,向数据中心网络中的接收机转发所述数据流。该发明涉及的技术方案,能够解决现有技术方案中短流的低时延、乱序以及长流的高吞吐之间无法平衡的问题,实时感知网络中链路负载情况、快速地实现网络流量的均衡。该技术在对数据流进行负载均衡时的核心思想是设置判断数值,通过大小区间来界定路径走向。在实际操作中,判断数值设置可能存在困难和较大偏差,不够灵活。该方法选取路径根据排队队列长度作为依据,选取路径方法单一,并且在实际传输数据时,存在过多不可预测因素,易发生拥堵产生重传情况。
6、南京邮电大学公开了一种sdn环境下数据中心网络负载均衡方法,该方法包括:利用sdn控制器检测数据中心网络中通过每个交换机端口的流量,判断该流量是否为大象流,若是,则将大象流与负载均衡阈值进行比较;若超过负载均衡阈值,则将所有属于同一个交换机集群内的大象流进行聚合;使用混合算法计算最佳路由,利用最佳路由对聚合后的大象流进行转发。该技术在对流量进行转发处理时,采取两种方式,分别为ecmp算法和混合算法寻找最佳撸友。在实施过程中进行的并行多路径传输方法较为复杂,并且对于更多样情况下的应用例如实时性要求高、网络情况更复杂时,所考虑的方法可能缺少可靠性的保证。
技术实现思路
1、本发明的目的在于提供一种适用于要求更高的动态复杂网络场景并行传输负载均衡装置及方法,以解决上述背景技术中存在的至少一项技术问题。本发明采取的负载均衡方案适用于要求更高的动态复杂网络场景,弥补了传统端到端路径规划的不足,可以有效的减少重传、拥塞和长时间排队的概率。为保证网络状态的动态性,在方案中引入了机器学习来平衡策略更新的精度和实时性。利用优化算法设计了基于ppo的并发多路径传输机制,通过动态路由方法对每一条链路的流量进行传输控制,以实现更为灵活的全网负载均衡控制效果。在方案中,还采用网络带内遥测技术进行网络状态感知,为流量调度提供可靠保障。该发明实现了高吞吐、高资源利用率的负载均衡目标,从而满足新行业发展下时间敏感的应用对通信提出的低延迟和高吞吐量的要求。
2、为了实现上述目的,本发明采取了如下技术方案:
3、本发明提供一种并行传输负载均衡装置,包括:
4、感知观测器,用于根据规划的路径进行周期性接收int感知数据包,将收集到的int感知数据包发送给跨层解析器;
5、跨层解析器,用于对int感知数据包进行解析以及感知数据提取,将解析得到的int感知数据发送给数据分析器;并根据策略动作生成策略包发送给策略分发器;
6、数据分析器,用于对解析得到的int感知数据进行数据的格式化处理,并将格式化数据发送给策略控制器;
7、策略生成器,用于调用int框架并依据格式化数据作为算法输出进行策略更新;当策略控制器更新策略之后会根据最新的网络状态数据进行策略动作下发给跨层解析器;
8、策略分发器,用于接收跨层解析器生成的策略包进行对应节点传输速率的控制。
9、优选的,int数据包结构包括int包头和int数据;所述int包头包括设备id、执行标识和控制动作;所述int数据包括设备id、端口、链路时延、链路带宽、排队长度以及丢包。
10、优选的,int包头中的设备id用于标记交换机的全局标识,当int框架要对某个交换机做一些针对性的动作时,设备编号就是唯一确定的标识;执行标识用于判断当前数据包类型:“0”和“1”分别表示感知和策略控制;控制动作用于当执行标识为“1”时,记录对应id设备编号的设备进行传输率控制。
11、优选的,int数据中的所述设备id用于记录当前进行数据感知的设备;端口用于记录当前数据感知的端口位置;链路时延用于记录数据包在当前节点端口所连接上一跳节点的排队时延以及当前链路的传输时延之和;链路带宽用于记录两个相邻交换机的可用带宽;排队长度用于表示出端口的队列长度;丢包用于记录链接的丢失字节。
12、优选的,基于actor-critic框架的策略优化训练模型,根据先前的调度经验获得调度策略将经过训练的参数发送给智能策略控制器进行策略更新。
13、优选的,评估网络qc(θc)是一个评估函数,用于评估来自行为网络的动作a(t);当行为网络在槽t选择一个动作a(t)时,评估网络将使用价值函数通过计算所有可能的动作来获得平均预期奖励值以及他们对应的概率;评估网络使用动作价值函数执行a(t)并计算预期奖励值rd(t);对rd(t)进行比较,评估网络得到损失值,并将损失值发送给行为网络进行策略更新。
14、优选的,行动价值函数为:
15、
16、其中,τ∈{0,1,...,t,...,st};π为插槽τ的控制策略;
17、
18、其中,τ∈{0,1,...,t,...,st},γ为折扣因子;
19、优势函数为
20、
21、优选的,行为网络qa(θa)旨在通过基于评估网络参数的策略更新来模拟数据调度规则;行为网络在来自评估网络的评估压力下使用损失函数生成控制策略;损失函数为
22、
23、其中,πθ(τ)是槽τ的控制策略,是更新前策略参数的向量,为一个超参数。
24、优选的,并行多路传输负载均衡方法具体步骤流程为:
25、感知观测器根据传输路径规划感知包路径,并发送感知包进行网络状态探测;各个感知观测器收集管辖区域中的所有网络状态感知包并发送给跨层解析器;跨层解析器对所有感知包进行感知信息的解析与提取,将网络状态数据发送给数据分析器;复制一份发送给路径规划器进行路径规划分析;数据分析器将感知信息进行格式化处理与组合,发送给策略控制器。策略控制器根据更新时间设置生成策略动作,并发送给跨层解析器;策略控制器根据格式化网络状态数据,调用训练模型进行策略生成与优化;跨层解析器根据策略动作生成一个个策略包发送给策略分发器;策略分发器将所有策略动作发送给对应的节点进行策略执行更新,调整各路径节点传输速率,实现多路传输负载均衡。
26、优选的,当并行传输服务到来,根据需要进行负载均衡管理的路径进行感知路径规划,并发送感知包进行数据感知;感知数据会复制为两份,一份发送给离线策略优化模块进行策略训练优化;离线策略优化模块根据最新数据进行策略训练优化,将更新的策略参数发送给在线策略执行模块进行策略更新;一份发送在线策略执行模块,根据已有策略输出策略执行动作,并将执行策略动作下发到对应的节点进行链路的传输速率控制,最后实现负载均衡目标。
27、术语解释:
28、①ppo近端策略优化算法:proximal policy optimization,是一种用于强化学习的新的策略梯度方法,该方法在通过与环境交互来采样数据和使用随机梯度上升来优化“替代”目标函数之间交替。该方法具有信任区域方法的稳定性和可靠性,实现简单,只需要对普通策略梯度进行少量更改,即可适用于更普适的规律,实现长时间平均性能最大化。
29、②带内网络遥测:in-bandnetwork telemetry是一种网络信息采集技术,目的是为了采集网络中的信息。当网络规模增大时,故障问题排查困难亦会增大,因此需要一些技术对网络进行实时的流量分析监控或是可以自动化排查网络中的“断路”。网络遥感就是对网络进行实时监控的技术,它可以实现远程精细化的管理,能够及时准确的定位出网络问题。
30、③p4可编程数据平面:programming protocol-independent packetprocessors(p4)是一种用于网络设备的域特定语言,指定数据平面设备(交换机、nic、路由器、过滤器等)如何处理数据包。
31、本发明有益效果:以多路径流调度灵活地将流调度到空闲节点或链路,利用动态路由方法对每一条链路进行流量的传输速率控制,可以有效降低传输和排队的延迟,从而缓解拥塞、长时间排队、掉线等问题,空闲的网络资源也将被有效地用于负载平衡和高吞吐量,实现低延迟和高吞吐量数据传输;提出基于int的网络感知传输控制算法来检测网络状态并基于控制策略执行并发多路径传输,有利于实现精确的网络感知,制定优化策略;使用p4语言对交换节点进行配置,具有重复配置性、平台无关性、协议无关性这三点特性。
32、本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。