一种基于强化学习的SDN视频QoE路由优化实现方法

文档序号:36399443发布日期:2023-12-16 01:32阅读:29来源:国知局
一种基于强化学习的

本发明涉及计算机网络的,具体涉及一种基于强化学习的sdn视频qoe路由优化实现方法。


背景技术:

1、现有sdn环境下智能路由优化实现方案主要是基于机器学习预测qoe,随后采用启发式方法选择路径。采用机器学习方法预测qoe:收集视频在不同网络条件下的播放性能数据作为训练集,使用回归决策树建立从网络qos指标(比如时延和带宽)到视频播放性能的映射模型,再基于视频播放性能进一步建立到qoe的映射模型。采用启发式算法来决策路径:比如使用改进的dijkstra算法计算源节点和目的节点之间时延最短的k条路径,然后预测这k条路径的qoe,选择qoe最大的作为最佳路径,最后计算最佳路径的剩余带宽,若剩余带宽大于预设的阈值,则使用最佳路径传输整个视频流。

2、然而,启发式方法对于动态环境的适应性较差。例如,某段链路的时延突然增大时,启发式算法需重新搜索全网寻找最短路径,而使用强化学习进行决策时,新的奖励信号会被强化学习算法用来更新策略,迅速适应网络的变化;且对用户主观感受的考虑不足,仅考虑一两种网络qos参数比如时延和带宽等,在视频清晰度和流畅性指标上仍存在进一步的扩展空间;另外容易陷入局部最优解,采用启发式方法基于设定规则进行路由决策,由于缺乏随机性,容易错过一些不符合设定规则的最优解。


技术实现思路

1、本发明技术重点关注视频会议实时性和稳定性的问题,在网络拓扑决策上引入了面向用户qoe(quality of experience)的智能体ntda(network topology decisionagent),提出了基于强化学习的sdn视频qoe路由优化算法,通过优化路由策略提高视频会议的实时性和稳定性,保障用户体验,提出了一种基于强化学习的sdn视频qoe路由优化实现方法。该方法通过以下的技术方案实现:

2、一种基于强化学习的sdn视频qoe路由优化实现方法,包括:

3、s1:在openflow网络中实现视频业务的视频传输;

4、s2:执行基于sdn环境的ntda智能体与控制器opendaylight交互进行路由决策;

5、s3:ntda智能体根据决策a构造xml代码,发送请求至opendaylight控制器;

6、s4:opendaylight控制器与网络设备进行通信,根据xml请求实现对网络流量的控制和管理。

7、优选的,所述s2中,控制器opendaylight在与ntda智能体交互过程中会产生用于训练的数据(s,a,r),将其存放于经验池中,其中s表示当前网络状态,a表示ntda智能体基于当前网络状态s决策出的路由路径,r表示决策应用后,网络反馈出来的奖励。

8、优选的,所述s2中,通过引入指标帧率framerate,码率coderate和抖动delayjitter,定义智能体ntda的评估指标qoe:

9、

10、其中,w1~w5为权重,用户通过调整权重的值,来决定各项指标的占比,从而满足自身的个性化需求;packetlossrate表示丢包率,delay表示传统网络性能参数时延。

11、更优的,s2中,ntda智能体的训练部分包括两个决策网络actor和一个评判网络critic;决策网络actor用于学习和生成策略,根据所述当前网络状态s生成行动的概率分布,不断优化策略以最大化累积奖励;评判网络critic用于评估状态的价值,即状态的预期回报,根据所述当前网络状态s生成值函数估计,并且不断优化参数,以最小化值函数估计与真实汇报之间的误差。

12、更优的,所述决策网络actor包括两个相同的深度神经网络,分别为new_actor和old_actor,每一次迭代更新的是new_actor,而old_actor更新复制new_actor的参数,其步骤如下:

13、①随机初始化评判网络critic,new_actor,old_actor;

14、②new_actor从经验池中取出数据,计算该数据的奖励差ft:

15、ft=[rt+∑t'>tγt'rt']-critic(st), (2)

16、其中,rt为经验池中t时刻数据中的奖励值,rt‘为经验池中t’时刻数据的奖励值,γt'为一个[0,1]区间内的权重因子,随着t'的增加而不断减小,用于削弱未来奖励的比重,critic(st)是评判网络的输出,该网络输入一个状态st,输出该状态的预估价值;

17、③计算new_actor神经网络的损失函数:

18、

19、其中,θ为决策网络参数,t表示经验池buffer中收集到的轨迹的条数。

20、④使用adam优化器最大化actor_loss,更新网络参数newθ'←newθ,一定轮次后将oldθ更新为newθ。

21、更优的,评判网络critic的任务是学习从状态到状态价值的映射,其运作流程如下:

22、①随机初始化critic神经网络;

23、②计算critic网络的损失函数:

24、

25、其中,φ为批判网络critic的参数。

26、③使用adam优化器最小化critic_loss,更新网络参数newφ'←newφ。

27、优选的,所述s2中,通过随机初始化ntda智能体的决策网络actor和评判网络critic,,以及通过经验池buffer,预设运行次数k;每次经验池buffer收集到新数据后,就会开始多轮地迭代更新actor和critic神经网络,而不是只更新一次;a_update_steps为决策网络actor更新轮数,c_update_steps为评判网络critic更新轮数;

28、获取当前的网络状态s,将s输入策略网络actor,得到对应的决策动作a,将决策动作a应用到网络中,进行流表下发和路径引导,使用iperf和wireshark计算qoe内各个指标,权重加和后得到当前的奖励值r,最后将[s,a,r]放入经验池buffer;其中iperf用于测试网络性能参数比如带宽、时延、丢包率及抖动,wireshark用于捕获和分析网络包,根据捕获到的网络数据包计算帧率和码率;

29、执行(1)和(2),分别进行a_update_steps次和c_update_steps次;

30、重复执行上述两个步骤直至达到策略网络决策出的动作达到理想状态。

31、优选的,所述s3中,根据决策动作a构造xml代码,ntda智能体发送请求至opendaylight控制器构造用于配置流表规则的xml代码,随后使用curl命令通过发送restconf请求与指定的opendaylight控制器进行通信,opendaylight控制器收到请求后,向网络设备发送流表配置信息。

32、优选的,所述s4中,opendayligh控制器解析收到的xml代码,提取流表规则信息,随后与目标网络设备建立连接,使用设备的南向接口进行通信,网络设备接收到来自opendayligh控制器的流表规则信息后,会根据接收到的消息解析和处理流表规则;设备会根据规则中的匹配条件和操作指令,进行相应的配置操作,;设备成功配置流表规则后,会向opendayligh控制器发送确认消息;opendayligh控制器可以根据设备的确认消息来更新内部的流表状态信息。

33、本发明与现有技术相比,还存在以下优点:

34、1.着重考虑用户主观感受:重点引入视频传输的帧率,码率和抖动,针对用户视频体验提供定制化的qoe路由优化,提高用户的满意度和观看体验。

35、2.对动态变化的环境适应性强:采用强化学习算法,直接与网络环境交互,从网络环境的反馈中获取奖励值,即时更新策略,快速对环境作出响应。

36、3.更具全局性,避免陷入局部最优解。强化学习算法在与环境交互时,由于参数初始化的随机性,策略在刚开始会进行随机探索,并且训练数据使用折扣累积奖励作为优化目标,这将融合从当前到未来若干步的折扣奖励,不容易陷入局部最优解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1