一种基于强化学习的音视频柔性传输装置及传输方法与流程

文档序号：26919400发布日期：2021-10-09 16:28阅读：来源：国知局

技术特征：
1.一种基于强化学习的音视频柔性传输装置，其特征在于，包括有：链路侧及端侧网络探测装置，用于探测链路、发送端、接收端网络情况参数，包括链路探测装置、交换机探针、发送端探测装置及接收端探测装置；链路探测装置及交换机探针探测的网络参数包括网络时延rtt、延迟梯度、交换机排队深度、带宽延迟积bdp；发送端探测装置探测的参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况；接收端探测装置探测的参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、rtp丢包率；音视频浏览端qoe评价模块，用于对视频浏览质量进行评价以产生正、负反馈训练强化学习网络模型，评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况；音视频编码与发送控制器，用于对音视频编码数据进行调整和控制，控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器；强化学习智能体，将链路侧与端侧网络探测装置探测的参数、音视频浏览端qoe评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型，以形成基本的强化学习智能体；而后，将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数，将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数，将音视频浏览端qoe评价模块评价的参数作为正、负反馈打分评价标准和奖励值，并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制，以持续优化强化学习智能体。2.如权利要求1所述的一种基于强化学习的音视频柔性传输装置，其特征在于，所述音视频编码与发送控制器控制rtp分包打包处理器，并将rtp分包打包处理器的发送策略参数作为输入参数训练强化学习智能体。3.一种基于强化学习的音视频柔性传输方法，其特征在于，包括以下步骤：步骤1，利用以往经验值训练强化学习网络智能体，具体训练方法包括以下步骤：步骤1.1，在发送端及链路侧分别设置发送端探测装置、链路探测装置，获取发送端以及链路侧的如下参数：音视频包发送时序情况、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延rtt、延迟梯度及交换机排队深度，并将上述参数进行量化；步骤1.2，在接收端设置接收端探测装置，获取接收端的如下参数：音视频包接收时序情况、接收缓冲区排队深度、接收缓冲区溢出情况及rtp丢包率，并将上述参数进行量化；步骤1.3，设置音视频编码与发送控制器，控制音视频编码与发送的如下参数：视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器；步骤1.4，设置视频质量qoe评价模块，对视频进行解码和渲染，并对图像质量进行识别及评价，评价的参数包括：图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况，并为每个评价参数设置对应的权值，将上述指标按照一定的权值加权后进行量化打分，作为正负激励机制的正、负反馈；步骤1.5，开始训练强化学习智能体，改变步骤1.3中的音视频编码与发送参数，并基于不同的音视频编码与发送参数情况在固定链路进行发送，分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数，其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入，以步
骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，根据不同情况下的状态和动作输入，训练强化学习网络模型，实现该强化学习决策过程中整体回报函数期望最优；步骤2，利用步骤1训练的强化学习智能体，以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入，以步骤1.3中输入的音视频编码与发送参数为动作输入，以步骤1.4中输入的视频质量评价参数为回报函数，获得正、负反馈打分评价标准和奖励值，并输出针对音视频编码与发送控制器的编码与发送参数进行反馈控制，进行链路侧和发送端调优以及柔性传输，并可基于现实环境下的参数持续优化强化学习智能体。4.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，对步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数进行量化的方法为：设定对应标准，并按照匹配百分比进行打分，完全匹配为满分，完全不匹配为0分。5.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，步骤1.4中，评价参数的对应权值可通过人工设定。6.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述视频质量qoe评价模块的评价参数还包括雪花或马赛克情况。7.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括i帧间隔及发送去抖动。8.如权利要求3或7所述的一种基于强化学习的音视频柔性传输方法，其特征在于，所述音视频编码与发送控制器控制的音视频编码与发送参数还包括采用前向纠错机制和采用自动反馈重发机制。9.如权利要求3所述的一种基于强化学习的音视频柔性传输方法，其特征在于，可基于步骤1.1中发送端以及链路侧的各网络参数根据公式(1)对网络状况进行评价，评价方法为：f(x)＝k1*x1+k2*x
22
+k3*x
32
+k4*x
42
+k5*x
53
+k6*x
63
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)；其中，f(x)表示网络状况评分，评分越高网络状况越差；x1:音视频包发送时序情况的量化值，k1：音视频包发送时序情况对应的权值；x2:发送缓冲区的排队深度的量化值，k2:发送缓冲区的排队深度对应的权值；x3:发送缓冲区丢包溢出情况的量化值，k3:发送缓冲区丢包益处情况对应的权值；x4:网络时延rtt的量化值，k4：网络时延rtt对应的权值；x5:延迟梯度的量化值，k5：延迟梯度对应的权值；x6:交换机排队深度的量化值，k6：交换机排队深度对应的权值；权值k1、k2、k3、k4、k5、k6可根据网络实际情况动态设定。10.如权利要求3或5所述的一种基于强化学习的音视频柔性传输方法，其特征在于，步骤1.4中，视频质量qoe评价模块支持人工或自动对图像质量进行识别并评价。

技术总结
本发明涉及一种基于强化学习的音视频柔性传输装置及传输方法，基于强化学习的音视频柔性传输装置包括用于探测链路、发送端、接收端网络情况参数的链路侧及端侧网络探测装置、用于对视频浏览质量进行评价以产生正、负反馈的音视频浏览端QOE评价模块、用于对音视频编码数据进行调整和控制的音视频编码与发送控制器、以及用于实现链路侧和发送端调优以及柔性传输的强化学习智能体。本发明通过强化学习网络模型对链路侧与端侧网络情况以及音视频编码及发送参数进行训练，形成强化学习智能体，针对各种网络状况和参数可动态调整音视频编码与发送机制，可以有效应对各种异构弱网的偶发性和复杂性，实现音视频的柔性传输和QOE提升。提升。提升。

技术研发人员：谭喆
受保护的技术使用者：佳源科技股份有限公司
技术研发日：2021.08.05
技术公布日：2021/10/8

完整全部详细技术资料下载

当前第2页1 2