音频处理方法、装置、计算机设备及存储介质与流程

文档序号：36167859发布日期：2023-11-23 21:02阅读：61来源：国知局

本申请涉及音频处理，更具体地，涉及一种音频处理方法、装置、计算机设备及存储介质。

背景技术：

1、随着人工智能(artificial intelligence，ai)技术的快速发展，近年来出现的大语言模型(large language model，llm)可以更智能化地理解并回复用户提出的问题而受到广泛的关注。并且，通常会用到大语言模型对音频进行理解，但是相关技术中对时长较长的音频进行理解时的准确性不佳。

技术实现思路

1、本申请提出了一种音频处理方法、装置、计算机设备及存储介质，可以提升长时音频的理解的准确性。

2、第一方面，本申请实施例提供了一种音频处理方法，所述方法包括：将待处理音频划分为多个音频片段；对所述待处理音频进行关键帧识别，得到所述待处理音频中的关键帧；基于所述关键帧以及所述多个音频片段，对所述待处理音频进行压缩处理；基于第一提示信息以及进行所述压缩处理后的所述待处理音频，生成用于输入大语言模型的第一输入信息，所述第一提示信息用于提示所述大语言模型进行音频理解；将所述第一输入信息输入至所述大语言模型，得到所述待处理音频对应的音频理解结果。

3、第二方面，本申请实施例提供了一种音频处理装置，所述装置包括：音频分段模块、关键帧识别模块、音频压缩模块、信息生成模块以及音频理解模块，其中，所述音频分段模块用于将待处理音频划分为多个音频片段；所述关键帧识别模块用于对所述待处理音频进行关键帧识别，得到所述待处理音频中的关键帧；所述音频压缩模块用于基于所述关键帧以及所述多个音频片段，对所述待处理音频进行压缩处理；所述信息生成模块用于基于第一提示信息以及进行所述压缩处理后的所述待处理音频，生成用于输入大语言模型的第一输入信息，所述第一提示信息用于提示所述大语言模型进行音频理解；所述音频理解模块用于将所述第一输入信息输入至所述大语言模型，得到所述待处理音频对应的音频理解结果。

4、第三方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述第一方面提供的音频处理方法。

5、第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的音频处理方法。

6、本申请提供的方案，通过将待处理音频划分为多个音频片段，对待处理音频进行关键帧识别，得到待处理音频中的关键帧，基于关键帧以及多个音频片段，对待处理音频进行压缩处理，基于用于提示大语言模型进行音频理解的第一提示信息以及进行压缩处理后的待处理音频，生成用于输入大语言模型的第一输入信息，然后将第一输入信息输入至大语言模型，得到待处理音频对应的音频理解结果。由此，由于在通过大语言模型对待处理音频进行音频理解时，是根据识别的关键帧以及划分的音频片段对待处理音频进行压缩处理之后，再根据压缩处理后的待处理音频确定用于输入大语言模型的输入信息，因此在对长时音频进行理解时，无需对待处理音频分段后多次输入大语言模型，从而能够使大语言模型更好地对长时音频进行音频理解，提升对长时音频的理解的准确性。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述关键帧以及所述多个音频片段，对所述待处理音频进行压缩处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述关键帧，对所述多个音频片段进行音频片段滤除以及下采样中的至少一个，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述关键帧，对所述多个音频片段进行音频片段滤除以及下采样中的至少一个，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第二音频片段进行下采样，包括：

6.根据权利要求1所述的方法，其特征在于，所述将待处理音频划分为多个音频片段，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述检测结果，将所述待处理音频划分为多个音频片段，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述基于第一提示信息以及进行所述压缩处理后的所述待处理音频，生成用于输入大语言模型的第一输入信息第一提示信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述对进行所述压缩处理后的所述待处理音频进行特征提取，得到待输入特征，包括：

10.根据权利要求1-7任一项所述的方法，其特征在于，在所述将所述第一输入信息输入至所述大语言模型，得到所述待处理音频对应的音频理解结果之后，所述方法还包括：

11.根据权利要求1-7任一项所述的方法，其特征在于，在所述将待处理音频划分为多个音频片段之前，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，在所述获取所述待处理音频对应的音频时长之后，所述方法还包括：

13.一种音频处理装置，其特征在于，所述装置包括：音频分段模块、关键帧识别模块、音频压缩模块、信息生成模块以及音频理解模块，其中，

14.一种计算机设备，其特征在于，包括：

15.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12任一项所述的方法。

技术总结
本申请公开了一种音频处理方法、装置、计算机设备及存储介质，该音频处理方法包括：将待处理音频划分为多个音频片段；对所述待处理音频进行关键帧识别，得到所述待处理音频中的关键帧；基于所述关键帧以及所述多个音频片段，对所述待处理音频进行压缩处理；基于第一提示信息以及进行所述压缩处理后的所述待处理音频，生成用于输入大语言模型的第一输入信息，所述第一提示信息用于提示所述大语言模型进行音频理解；将所述第一输入信息输入至所述大语言模型，得到所述待处理音频对应的音频理解结果。本方法可以提升长时音频的理解的准确性。

技术研发人员：陈昌儒,胡博,王申剑,李标
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昌儒胡博王申剑李标
技术所有人：OPPO
我是此专利的发明人