音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质与流程

文档序号：28591401发布日期：2022-01-22 08:32阅读：来源：国知局

技术特征：
1.一种音频模型训练方法，包括：使用预定的算法针对预定采样音频生成混响训练音频；根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频；使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对预定模型进行训练。2.根据权利要求1所述的音频模型训练方法，其中，所述使用预定的算法针对预定采样音频生成混响训练音频包括：使用所述预定采样音频和预定的房间冲击响应数据进行卷积计算获得混响训练音频。3.根据权利要求1所述的音频模型训练方法，其中，其中，所述混响训练音频中的至少一部分是所述预定采样音频在预定时间内的早期反射音频，并且所述根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频包括：使用所述预定采样音频和所述早期反射音频进行卷积计算获得所述训练目标音频。4.根据权利要求1所述的音频模型训练方法，其中，所述使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对所述预定模型进行训练进一步包括：根据所述预定模型的输出数据和所述验证数据计算损失函数；根据所述损失函数调整所述预定模型的参数；根据所述损失函数值与上一轮训练获得的损失函数值之间的差值确定所述模型训练已经收敛。5.根据权利要求4所述的音频模型训练方法，其中，所述根据所述预定模型的输出数据和所述验证数据计算损失函数包括：计算输出掩蔽与理想掩蔽之间的均方差，以及所述根据所述损失函数调整所述预定模型的参数包括：根据所述均方差通过梯度回传算法调整所述参数。6.一种音频处理方法，包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。7.根据权利要求6所述的音频处理方法，其中，所述使用预定模型对所述特征向量进行计算以获得处理后音频包括：使用所述预定模型对所述特征向量进行前向计算以获得掩蔽数据；将所述掩蔽数据与所述待处理音频的时频谱进行相乘并进行逆傅里叶变换获得处理后音频。8.根据权利要求6所述的音频处理方法，其中，所述混响训练音频中的至少一部分是所述预定采样音频在预定时间内的早期反射音频。9.一种会议音频处理方法，包括：通过音频采集装置获取参加会议的与会终端发送的发言音频；提取所述发言音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进
行计算以获得处理后音频；将所述处理后音频发送给参加会议的其他与会终端。10.一种教室音频处理方法，包括：通过布置在教室中的音频采集装置获取教师在授课时发送的教学音频；提取所述教学音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频；将所述处理后音频通过网络发送给通过网络收听教室授课的终端。11.一种电子设备，包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行如权利要求1至3中任一所述的音频模型训练方法或权利要求4-8中任一项所述的音频处理方法。12.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，所述程序被处理器执行时实现如权利要求1至3中任一所述的音频模型训练方法或权利要求4-8中任一项所述的音频处理方法。13.一种计算机程序产品，其中，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-10任一项所述方法中的步骤。

技术总结
本申请公开了一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。该方法包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。本申请实施例通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练，并且在实际使用中使用经过这样训练的模型来对混合音频进行处理，因此，由于通过选用早期反射声，而不是直达声作为模型训练和恢复目标，可以有效地保护原始目标音频，保证处理后音频听感的自然度和清晰度。保证处理后音频听感的自然度和清晰度。保证处理后音频听感的自然度和清晰度。

技术研发人员：王子腾纳跃跃刘章田彪付强
受保护的技术使用者：阿里巴巴达摩院（杭州）科技有限公司
技术研发日：2021.08.13
技术公布日：2022/1/21

完整全部详细技术资料下载

当前第2页1 2