专利名称:一种基于强化学习的网络流量负载均衡控制方法
技术领域:
本发明涉及一种网络流量负载均衡技术领域,具体是指提供ー种基于强化学习的智能网络流量负载均衡控制方法。
背景技术:
随着网络的快速发展,各种网络应用层出不穷,与此对应的网络上的流量也日益增多。根据权威调查,网络服务质量Oios =Quality of Service)特別是网络的反应时间是影响用户体验的主要因素,因此对网络进行合理的设计、保证网络的服务质量是每位网络工程师需要考虑的问题。保证网络的服务质量有多种解决途径,本发明提出一种基于強化学习的网络流量负载均衡算法,数据包通过强化学习算法,能根据链路的网络流量状况选择合适的转发路径,避开业务繁忙的链路,实现网络的负载均衡。传统的路由算法有RIP、0SPF和EIGRP等算法。RIP算法为距离矢量路由协议,它使用路由跳数来衡量网络距离,是最常用的内部网关协议之一。RIP算法过于简单、安全性差且带宽消耗大,所以不适合大型网络;OSPF算法为链路状态路由协议,相对于RIP算法, 具有收敛快、协议开销小、安全性高和适应广等优点,但其配置复杂,路由负载均衡能力较弱;EIGRP算法为增强网关内部路由协议,拥有众多的优点,但其属于Cisco公司的私有协议。Cisco公司是该协议的发明者和唯一具备该协议解释和修改权的厂商,如果设备要支持 EIGRP协议则需向Cisco公司购买相应版权。
发明内容
本发明的目的在于提供ー种基于强化学习的网络流量负载均衡控制方法,该方法通过数据包(Agent)与网络环境不断的交互学习,实现网络流量负载均衡的最优或近似最优控制。数据包动态地根据链路的流量状況,避免将数据包发往负荷重的链路,尽量选择负载轻的链路,实现数据包的智能转发,最终达到网络流量负载均衡的目的。本发明的目的可通过以下的技术措施来实现ー种基于强化学习的网络流量负载均衡控制方法,包括以下步骤1)、数据包处在路由器节点ピ吋,根据当前数据包的状态量s和策略η从下ー跳的动作集合选择回报值最大的动作ち,并将数据包发送到动作ち对应的路由器;2)、当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s; 并更新当前数据包的下一跳的动作集合;所述状态量s包括路由距离Xi和流量均衡量yi ; 所述路由距离Xi是指选择链路i后,下一跳地址距离目的地址的最短矢量距离;流量均衡量Yi是指链路i上的当前流量占链路饱和流量的比例;3)、根据数据包的路由距离、流量均衡量给与数据包的奖惩值r ;4)、数据包根据奖惩值r更新自身的策略π ;5)、回到步骤1),重复步骤1)到步骤4),直到当前数据包达到最终目的地址。所述步骤1)中的策略π为近贪婪(印silon greedy)策略或百分比(softmax)策略。所述近贪婪策略是指以1- ε的概率选择最大回报值的链路arg maxaQn (s, a), 以ε的概率随机选择链路,公式为
权利要求
1.ー种基于强化学习的网络流量负载均衡控制方法,其特征在于包括以下步骤1)、数据包处在路由器节点ピ吋,根据当前数据包的状态量S和策略π从下ー跳的动作集合选择回报值最大的动作ち,并将数据包发送到动作ち对应的路由器;2)、当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;所述状态量s包括路由距离Xi和流量均衡量yi ;所述路由距离Xi是指选择链路i后,下一跳地址距离目的地址的最短矢量距离;流量均衡量Yi 是指链路i上的当前流量占链路饱和流量的比例;3)、根据数据包的路由距离、流量均衡量给与数据包的奖惩值r;4)、数据包根据奖惩值r更新自身的策略π;5)、回到步骤1),重复步骤1)到步骤4),直到当前数据包达到最终目的地址。
2.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于 所述步骤1)中的策略η为近贪婪策略或百分比策略。
3.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于 所述近贪婪策略是指以1-ε的概率选择最大回报值的链路arg maXa(T (s,a),以ε的概率随机选择链路,公式为
4.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法,其特征在于 百分比策略是指将各链路的好坏映射成相应的跳转动作选择概率,公式为
5.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法,其特征在于 所述步骤3)中奖惩值r计算公式为
6.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法,其特征在于 所述步骤4)中更新策略π的公式为
全文摘要
本发明公开了一种基于强化学习的网络流量负载均衡控制方法,包括以下步骤1)数据包处在路由器节点R*时,根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作ai;2)当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;3)根据当前网络流量均衡状态修改当前数据包的奖惩值r;4)根据奖惩值更新策略π;重复步骤1)到步骤4),直到当前数据包达到最终目的地址。该方法通过智能体与网络环境不断的交互学习,实现网络流量负载均衡的最优或近似最优控制。
文档编号H04L12/56GK102571570SQ20111044751
公开日2012年7月11日 申请日期2011年12月27日 优先权日2011年12月27日
发明者周强峰, 梁志宏, 梁智强, 梁毅成, 江泽鑫, 石炜君, 胡朝辉 申请人:广东电网公司电力科学研究院