音频处理方法、装置、设备及存储介质与流程

文档序号：36178273发布日期：2023-11-29 08:05阅读：35来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及音频处理，具体而言，涉及一种音频处理方法、装置、设备及存储介质。

背景技术：

1、随着车联网行业的飞速发展，安全驾驶的日益重视，车队管理者对司机驾驶过程遇到危险驾驶时能提供通过免按键接听的语音对讲进行实时干预的需求越来越多，通话录音作为干预记录的重要凭证要求内容齐全、同步性高。

2、当前，终端设备记录通话录音时，通常将通话各方的音频缓存至通话应用程序，再对缓存后的通话多方音频直接进行混音，得到通话录音再进行存储。

3、但是，真实应用环境中由于发起语音通话后通话各方开始推送音频存在时间差、通话各方缓存的音频在网络传输过程中存在不同程度的延迟或丢包情况，导致对通话各方缓存的音频直接进行混音得到的通话录音存在严重的时序不同步问题。

技术实现思路

1、本申请的目的在于，针对上述现有技术中的不足，提供一种音频处理方法、装置、设备及存储介质，以实现音频混音后时序同步，保证了混音后音频的完整性。

2、为实现上述目的，本申请实施例采用的技术方案如下：

3、第一方面，本申请一实施例提供了一种音频处理方法，所述方法包括：

4、对多个语音通话方对应的音频流进行分帧，得到各所述音频流对应的至少一个音频帧；

5、依次将各所述音频流对应的至少一个音频帧缓存至对应的所述缓存队列中，并确定各所述缓存队列之间的总音频帧时间差是否大于预设时间阈值；其中，所述缓存队列为以音频帧时间戳为顺序对各音频帧进行排序的有序队列；

6、若是，则对总音频帧时间最小的目标缓存队列的时间帧进行补充，直至各所述缓存队列之间的总音频帧时间差小于预设时间阈值；

7、对基于补充后的各所述缓存队列对所述多个音频流进行混音。

8、在一种可能的实现方式中，确定接收到的音频流是否为来自一个语音通话方的音频流；

9、若是，则丢弃所述接收到的音频流。

10、在一种可能的实现方式中，根据预设起始时间，对各所述音频流中的起始音频帧进行标记。

11、在一种可能的实现方式中，分别从补充后的各所述缓存队列中逐帧获取多个待混音音频帧，对多个所述待混音音频帧进行混音。

12、在一种可能的实现方式中，基于预设补充帧数，将所述预设补充帧数的补充音频帧补充至所述目标缓存队列中。

13、在一种可能的实现方式中，基于所述预设补充帧数，将所述补充音频帧补充至所述目标缓存队列的最后一个音频帧中。

14、在一种可能的实现方式中，基于预设单帧时间，对获取的多个语音通话方对应的音频流进行分帧，得到各所述音频流对应的至少一个音频帧。

15、第二方面，本申请另一实施例提供了一种音频处理装置，所述装置包括：

16、分帧模块，用于对多个语音通话方对应的音频流进行分帧，得到各所述音频流对应的至少一个音频帧；

17、确定模块，用于依次将各所述音频流对应的至少一个音频帧缓存至对应的所述缓存队列中，并确定各所述缓存队列之间的总音频帧时间差是否大于预设时间阈值；其中，所述缓存队列为以音频帧时间戳为顺序对各音频帧进行排序的有序队列；

18、补充模块，用以若是，则对总音频帧时间最小的目标缓存队列的时间帧进行补充，直至各所述缓存队列之间的总音频帧时间差小于预设时间阈值；

19、处理模块，用于对基于补充后的各所述缓存队列对所述多个音频流进行混音。

20、第三方面，本申请另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述音频处理方法的步骤。

21、第四方面，本申请另一实施例提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述音频处理方法的步骤。

22、本申请的有益效果是：

23、本申请提供一种音频处理方法、装置、设备及存储介质，首先对获取到的多个语音通话方对应的音频流进行分帧，得到各音频流对应的至少一个音频帧；然后依次将各所述音频流对应的至少一个音频帧缓存至对应的缓存队列中，并确定各缓存队列之间的总音频帧时间差是否大于预设时间阈值；其中，缓存队列为以音频帧时间戳为顺序对各音频帧进行排序的有序队列；若总音频帧时间差是否大于预设时间阈值则对总音频帧时间最小的目标缓存队列的时间帧进行补充，直至各缓存队列之间的总音频帧时间差小于预设时间阈值；最后对基于补充后的各缓存队列对多个音频流进行混音。本申请通过将获取的多个语音通话方对应的音频流进行分帧存储对应的缓存队列，通过监控各缓存队列的总音频帧时间差，并在音频帧时间差大于预设时间阈值则对总音频帧时间最小的目标缓存队列的时间帧进行补充，并对补充后的各缓存队列进行混音处理，使得各缓存队列的总音频帧时间差保持在小于预设时间阈值的状态，也即通过上述处理后的各缓存队列进行经过混音处理后的多个语音通话方的通话音频文件时序同步，保证了混音后音频的完整性。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对多个语音通话方对应的音频流进行分帧之前，所述方法包括：

3.如权利要求1所述的方法，其特征在于，依次将各所述音频流对应的至少一个音频帧缓存至对应的所述缓存队列中之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，对基于补充后的各所述缓存队列对所述多个音频流进行混音，包括：

5.如权利要求1所述的方法，其特征在于，所述对总音频帧时间最小的目标缓存队列的时间帧进行补充，包括：

6.如权利要求5所述的方法，其特征在于，所述基于预设补充帧数，将所述预设补充帧数的补充音频帧补充至所述目标缓存队列中，包括：

7.如权利要求1所述的方法，其特征在于，所述对多个语音通话方对应的音频流进行分帧，得到各所述音频流对应的至少一个音频帧，包括：

8.一种音频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述的音频处理的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的音频处理的方法的步骤。

技术总结
本申请提供了一种音频处理方法、装置、设备及存储介质，涉及音频处理领域，其中，该方法包括：对多个语音通话方对应的音频流进行分帧，得到各音频流对应的至少一个音频帧；依次将各所述音频流对应的至少一个音频帧缓存至对应的缓存队列中，并确定各缓存队列之间的总音频帧时间差是否大于预设时间阈值；其中，缓存队列为以音频帧时间戳排序的有序队列；若是，则对总音频帧时间最小的目标缓存队列的时间帧进行补充，直至各缓存队列之间的总音频帧时间差小于预设时间阈值；对基于补充后的各缓存队列对多个音频流进行混音。本申请可以实现音频混音后时序同步，保证了混音后音频的完整性。

技术研发人员：袁建平
受保护的技术使用者：北京汇通天下物联科技有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁建平
技术所有人：北京汇通天下物联科技有限公司
我是此专利的发明人

上一篇：一种板材自动封边装置及封边方法与流程
上一篇：基于深度非负矩阵分解的

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。