本发明属于数据处理技术,具体涉及强化学习提高视频流用户体验qoe,尤其涉及一种无人机辅助noma网络中提高用户视频流质量体验的方法。
背景技术:
1、近年来,随着移动设备上视频内容的消费量不断增加,目前据不完全估计移动数据中将有近79%用于视频播放,尤其是高清如4k的视频。但随着更多的人观看视频,特别是在偏远地区,由于用户过多,视频质量可能会下降。因此,寻找保持所有用户高视频质量的方法是在快速发展的信息时代下一种迫切的需求。
2、为了提高通信传输技术,无人机(uav)也应用到该领域中来。无人机可以移动,快速适应,并提高信号质量。但是,将5g与无人机技术结合起来也面临着一些挑战,如确保持续的信号强度和快速响应。
3、诸多的现有技术正在研究如何利用无人机来帮助通信。例如,现有的技术包括研究如何有效地放置无人机以减少用于通信任务的无人机数量,也包括采取减少无人机与地面通信站的视频流量。与此同时,noma技术正成为下一代网络,如5g的重要技术。它有助于更好地使用可用的频谱并支持大型网络。一些研究人员研究了noma如何改善用户体验,而其他人则关注在无人机网络中节省能源。但是,目前还不太清楚noma和无人机通信如何结合工作,尤其是考虑到无人机的移动。强化学习(rl)为优化流媒体框架中的体验质量(qoe)提供了一个有前景的途径。通过将自适应比特率选择建模为马尔可夫决策过程,引入了一个以rl为驱动的方法,考虑了视频质量和缓冲状态,优先考虑用户的qoe,该结果显示,在网络瓶颈情况下,特别是在性能和公平性方面都有所提高。但是,目前的研究还没有充分解决在uav支持mbs的noma框架内的用户qoe问题。这个差距突显了需要全面研究uav增强的noma情境中的qoe的研究的必要性。
技术实现思路
1、发明目的:针对上述现有技术的不足,本发明提供一种无人机辅助noma网络中提高用户视频流质量体验的方法。
2、技术方案:一种无人机辅助noma网络中提高用户视频流质量体验的方法,所述方法基于scappo算法,且通过联合优化无人机和mbs的功率分配、无人机的飞行轨迹和信道分配来实现最大化所有用户的qoe,包括如下步骤:
3、s1、构建无人机通信网络,至少包括一个宏基站和一个无人机在内的noma网络模型,n个用户随机地位于单元中,无人机位于半径为r的单元内,无人机在mbs服务区域内悬停,飞行高度为h,实现为n个用户提供视频流服务;
4、s2、建立无人机辅助的noma网络模型及且构建优化任务,该优化任务的目标是考虑uav和mbs的功率分配、uav的飞行路径以及频道分配,以在最大化数据传输速率的同时,优化所有用户的平均qoe;
5、s3、设计双网络交互框架,用于解决无人机在物联网环境中的轨迹规划问题,所述的轨迹规划问题包括连续控制和长时序决策;
6、该框架由策略网络actor和评估网络critic组成,其中actor负责动作选择的维护和更新,而critic则估计由actor产生的策略,通过与环境的“试错”交互,框架能够学习并优化策略;
7、包括采用策略梯度方法和梯度下降算法对策略π的参数θ进行调整优化,包括构建两个策略网络:一个使用θold参数与环境进行交互,另一个使用θ参数进行参数更新;
8、s4、无人机在执行任务时,会将每个时刻的局部观测作为输入,模型则输出该时刻的最优行为;经过多次迭代,得到无人机辅助的noma网络中,能够确保用户高质量视频流的质量体验模型。
9、进一步的,所述方法考虑到mbs和uav共享相同的频谱,将频道的带宽w可以被划分为k个子通道,子通道由k标识,k是从1到k的任何数字。
10、进一步的,步骤s2包括:
11、定义一个时间线,对应有t个时隙,每个时隙δ代表一个短暂的间隔,将无人机与用户之间的距离在一个时隙内视为保持不变,总服务时间限制为tmaxδ,在任何时间槽t,无人机的3d位置表示为(q[t],h),其中表示其水平位置,h表示其高度,无人机的最大水平速度为vmax,导致以下速度约束:
12、
13、设有nu个用户,该用户被分配到标记为k(sck)的通道中,用户总数n是每个通道中用户的总和,即n1,n2,...nk;限制每个通道最多只能容纳2个用户,每个用户在其通道上消耗的功率表示为pn,k;无人机具有最大功率容量puav,每个通道k都有其自己的功率限制pk,无人机使用的总功率不应超过puav,对主基站功率上限设置为pbs,其使用的功率是所有通道上分配给每个用户的功率的总和。
14、进一步的,所述无人机辅助的noma网络模型对应的通信框架中,无人机和用户之间的视线概率的影响因素包括环境、无人机和用户之间的仰角,以及用户和无人机的空间分布;因此建立直接、无遮挡的链接的可能性的数学方式如下:
15、
16、其中,c1和c2表示环境的影响因子,θ[t]表示在时间段t时无人机和用户之间的仰角,无人机到用户的总路径损失为:
17、pl(d[t])=plos[t]×(d[t])-α+pnlos[t]×η(d[t])-α
18、式中,pl(d[t])是视距传输的概率。路径损失因子由符号α表示,该因子描述了用户与无人机(uav)之间的信号传播损失。基于上述公式,可以计算无人机到用户的总路径损失。
19、对于索引为j的用户,给定|hn,k|≤|hj,k|,第n个uav用户可以解码信号,考虑到用户j的干扰,在接收机中使用sic技术,用户n的sinr表示为:
20、
21、根据香农原理,用户n在uav网络中的sck通道上的峰值容量定义为:
22、rn,k=bsclog2(1+γn,k)
23、式中,bsc表示在给定的sc信道下的传输带宽,γn,k表示信噪比。
24、更进一步的,步骤s2中包括基于mos算法建立无人机辅助的noma网络的qoe模型,用于评估用户在实时交互中体验的质量,所述的qoe模型基于mos方法是将技术指标转化为用户感知;
25、所述的mos算法表达如下所示:
26、
27、式中,f、g、q是影响因子,rn是传输速率。
28、对无人机辅助的noma网络的通信框架进行优化,整合无人机的功率p、其飞行路径以及子信道分布,将其转化为最优化的问题数学表达式如下:
29、
30、
31、
32、
33、
34、
35、式中,p1是最优化的目标,即最优化所有用户的mos。c1约束是对mos个体的最低约束,c2约束是对传输功率的约束,c3是对传输功率大于等于0的约束,c4是对飞行速率的约束,c5是对信道的约束。
36、进一步的,步骤s3对于训练并求解无人机辅助的noma网络模型的qoe模型的过程包括:
37、强化学习的状态定义如下:
38、
39、该状态主要包括用户的体验质量qoe,标记为mosn,无人机当前的位置q(t)以及其速度v(t);
40、强化学习的动作定义如下:
41、at={pn,k(t),dir(t),vm(t)}
42、式中,pn,k(t)表示分配的功率水平,dir(t)代表飞行方向,vm(t)是飞行速度;
43、强化学习奖励定义如下:
44、
45、该方法采用来确保所有用户的qoe尽可能大,mospool用于防止某一用户的qoe过低,outb的作用是调节无人机,使其不飞出设定的边界,而flutuate的目的是确保用户的视频不会过度波动。
46、更进一步的,所述方法采用sca-ppo方法解决挑战问题,具体是将sigmoid函数纳入目标函数中,用于保留clip机制可能忽略的关键梯度;clip函数适当地管理预定义范围内的变量,用约束替换kl散度,其目标函数表达式如下:
47、
48、其中σ表示sigmoid函数δ表示动态变化率,该变化率根据轮数进行调整。
49、有益效果:本发明所述的方法提供了一种在动态环境中,尤其是在无人机辅助的noma网络中,确保用户视频流的质量体验的方法,通过利用目前学术界中相对比较先进的scappo算法。与传统的ppo相比,无论在奖励还是qoe评估上,都有显著的优势,充分证明了scappo在提高视频流qoe方面的高效性。属于强化学习提高视频流用户体验qoe领域。