一种语音合成方法、装置、计算机设备和存储介质与流程

文档序号：34662124发布日期：2023-07-05 10:12阅读：56来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及信号处理，特别是涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术：

1、随着智能语音的迅速发展和相应语音产品的落地，用户对产品性能指标的体验感受是最直观的反馈，保证产品的性能指标能够极大地提高用户体验。因此，对产品进行语音性能测试尤为重要。

2、为了保证测试结果的准确性，需要大量的语音性能测试，由于人力资源有限，无法完全人工模拟测试环境，大部分依赖自动化语音测试。而在自动化语音测试中，用于测试的音频数据难以还原真实的使用场景，导致测试结果不准确。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音合成方法、装置、计算机设备和存储介质,根据不同的测试场景合成具有针对性的测试音频，还原真实的使用场景，使得测试结果更准确。

2、第一方面，提供一种语音合成方法，该方法包括：

3、获取语音测试场景的噪声音频、人声语料集和人声幅度标定值，人声语料集包括至少一段人声音频；

4、根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔；

5、根据交互时间间隔，在人声音频的每个预设时段内插入空白音频得到人声测试音频；

6、根据噪声音频、人声测试音频和人声幅度标定值合成测试音频。

7、在一种可能的实现方式中，根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔，包括：

8、计算噪声音频每个预设时段内的底噪幅度；

9、根据底噪幅度确定噪声音频每个预设时段对应的交互时间间隔。

10、在一种可能的实现方式中，根据交互时间间隔，在人声音频的每个预设时段内插入空白音频得到人声测试音频，包括：

11、根据交互时间间隔确定每个预设时段中空白音频的第一时长；

12、在人声音频的每个预设时段内插入第一时长的空白音频，得到每个预设时段内的人声音频片段；

13、拼接每个预设时段内的人声音频片段得到人声测试音频。

14、在一种可能的实现方式中，根据噪声音频、人声测试音频和人声幅度标定值合成测试音频，包括：

15、计算人声测试音频的幅度得到人声音频幅度；

16、计算人声幅度标定值和人声音频幅度的幅度比值；

17、根据噪声音频、人声测试音频和幅度比值合成测试音频。

18、在一种可能的实现方式中，该方法还包括：

19、在得到人声测试音频之后，生成人声测试音频的时间戳。

20、在一种可能的实现方式中，该方法还包括：

21、根据人声测试音频的时间戳分割测试音频得到至少一条测试音频片段；

22、基于至少一条测试音频片段进行语音测试。

23、在一种可能的实现方式中，获取人声幅度标定值，包括：

24、根据测试人员距离麦克风不同位置的录制音频，获取人声幅度标定值。

25、第二方面，提供了一种语音合成装置，该装置包括：

26、获取模块，用于获取语音测试场景的噪声音频、人声语料集和人声幅度标定值，人声语料集包括至少一段人声音频；

27、确定模块，用于根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔；

28、插入模块，用于根据交互时间间隔，在人声音频的每个预设时段内插入第一时长的空白音频得到人声测试音频；

29、合成模块，用于根据噪声音频、人声测试音频和人声幅度标定值合成测试音频。

30、第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面或者第一方面任意一种实现方式中的语音合成方法

31、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面或者第一方面任意一种实现方式中的语音合成方法。

32、上述语音合成方法、装置、计算机设备和存储介质，通过获取语音测试场景的噪声音频、人声语料集和人声幅度标定值，人声语料集包括至少一段人声音频，根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔，根据交互时间间隔，在人声音频的每个预设时段内插入第一时长的空白音频得到人声测试音频，能够根据不同的语音测试场景得到不同的人声测试音频，根据噪声音频、人声测试音频和人声幅度标定值合成测试音频，得到多样化的语音测试场景，更加真实地还原用户使用环境，使得测试结果更加准确客观。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述噪声音频确定所述噪声音频每个预设时段对应的交互时间间隔，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述交互时间间隔，在所述人声音频的每个预设时段内插入空白音频得到人声测试音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述噪声音频、所述人声测试音频和所述人声幅度标定值合成测试音频，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取人声幅度标定值，包括：

8.一种语音测试装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种语音合成方法、装置、计算机设备和存储介质，通过获取语音测试场景的噪声音频、人声语料集和人声幅度标定值，人声语料集包括至少一段人声音频，根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔，根据交互时间间隔，在人声音频的每个预设时段内插入第一时长的空白音频得到人声测试音频，能够根据不同的语音测试场景得到不同的人声测试音频，根据噪声音频、人声测试音频和人声幅度标定值合成测试音频，得到多样化的语音测试场景，更加真实地还原用户使用环境，使得测试结果更加准确客观。

技术研发人员：姜虹旭
受保护的技术使用者：大众问问（北京）信息科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜虹旭
技术所有人：大众问问（北京）信息科技有限公司
我是此专利的发明人

上一篇：一种三维模型生成方法、装置及设备与流程
上一篇：一种网络地址分配方法、装置、电子设备和存储介质与流程