流控模型训练方法、装置、计算机设备和存储介质与流程

文档序号：33932183发布日期：2023-04-22 12:18阅读：25来源：国知局

本技术涉及人工智能，特别是涉及一种流控模型训练方法、装置、计算机设备和存储介质。

背景技术：

1、随着网络技术的发展，越来越多的多媒体数据传输场景需要实时获取网络状态，从而依据获取的网络状态实现多媒体数据传输的流控。以多媒体数据传输场景为语音或者视频实时通话场景为例，语音或视频实时通话通常是利用网络rtc(real-timecommunication，实时通话)所实现的。在rtc通话中，通常需要实时监测网络状态，然后依据实时网络状态，修改整体通话的配置。例如，若网络状态好，则可以提高编码码率。因此，如何在多媒体数据传输中及时反馈复杂多变的网络状态是一个热门课题。

2、在传统方案中，目前自适应码率控制算法使用较多的是webrtc中的gcc算法，也就是用于实时媒体通讯的网络拥塞控制算法，但在实际使用gcc算法时会产生一定延时，且过度依赖经验配置，使得实际控制中存在流控不准确的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提升流控准确度的流控模型训练方法、装置、计算机设备和存储介质。

2、一种流控模型训练方法，方法包括：

3、获取经过多个预训练样本组进行预训练所得到的基础流控模型；

4、对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；离线样本数据包括离线编码数据和离线通信状态数据；

5、根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；

6、基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；

7、对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；

8、基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。

9、一种流控模型训练装置，该装置包括：

10、获取模块，用于获取经过多个预训练样本组进行预训练所得到的基础流控模型；

11、生成模块，用于对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；离线样本数据包括离线编码数据和离线通信状态数据；

12、第一确定模块，用于根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；

13、离线训练模块，用于基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；

14、第二确定模块，用于对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；

15、在线训练模块，用于基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。

16、一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

17、获取经过多个预训练样本组进行预训练所得到的基础流控模型；

18、对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；离线样本数据包括离线编码数据和离线通信状态数据；

19、根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；

20、基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；

21、对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；

22、基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。

23、一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

24、获取经过多个预训练样本组进行预训练所得到的基础流控模型；

25、对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；离线样本数据包括离线编码数据和离线通信状态数据；

26、根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；

27、基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；

28、对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；

29、基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。

30、一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上以下步骤：获取经过多个预训练样本组进行预训练所得到的基础流控模型；对于离线训练中的每个离线周期，均基于当前离线周期的离线样本数据、以及基础流控模型输出的离线流控预测数据，生成下一离线周期的离线样本数据；离线样本数据包括离线编码数据和离线通信状态数据；根据每一离线周期的离线样本数据，确定每一离线周期的离线累计奖励参考值；基于多个离线周期各自对应的离线样本数据和离线累计奖励参考值，对基础流控模型进行离线周期滚动训练，直至达到离线训练停止条件时停止，得到中间流控模型；对于在线训练中的每个在线周期，均通过当前在线周期的在线样本数据，确定当前在线周期的在线累计奖励参考值；基于多个在线周期各自对应的在线样本数据和在线累计奖励参考值，对中间流控模型进行在线周期滚动训练，直至达到在线训练停止条件时停止，得到适用于在多媒体通信过程中进行流控数据预测的目标流控模型。

31、上述流控模型训练方法、装置、计算机设备、存储介质和计算机程序，通过先采用预训练，可以使得基础流控模型能够贴近于前一版本流控模型的决策方式，从而可以避免将不经过预训练的流控模型投入使用，可能会造成用户的不适感，进而将降低用户的产品体验。通过在预训练结束后，离线模拟编码数据和通信状态数据的变化，基于离线样本数据和离线累计奖励参考值来进行离线训练，由于通过离线训练可以使得流控模型在正式上线应用之前，尽可能地多进行训练，从而提高流控决策的精准度。在完成离线训练后，最后再执行在线训练，通过感知实时状态并实时预测并自适应改善相应的流控决策。由于在线训练可以不断更新流控模型，从而可以不断改善流控模型的预测效果，大大提高了流控准确性，进而改善多媒体通信质量及用户体验。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨梁黄飞
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：指令生成方法、装置、计算设备、存储介质及车载系统与流程
上一篇：牛奶及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。