音频数据处理方法、装置、设备以及存储介质与流程

文档序号：27553148发布日期：2021-11-24 23:17阅读：来源：国知局

技术特征：
1.一种音频数据处理方法，包括：分解原始音频数据，得到人声音频数据和背景音频数据；对所述人声音频数据进行电音化处理，得到电音人声数据；以及将所述电音人声数据和所述背景音频数据合成，得到目标音频数据。2.根据权利要求1所述的方法，其中，所述分解原始音频数据，得到背景音频数据和人声音频数据，包括：确定与所述原始音频数据对应的原始梅尔频谱数据；使用神经网络确定与所述原始梅尔频谱数据对应的背景梅尔频谱数据和人声梅尔频谱数据；以及根据所述背景梅尔频谱数据，生成所述背景音频数据，并根据所述人声梅尔频谱数据，生成所述人声音频数据。3.根据权利要求1所述的方法，其中，所述对所述人声音频数据进行电音化处理，得到电音人声数据，包括：提取所述人声音频数据的原始基频；对所述原始基频进行修正，得到第一基频；根据预定电音参数，调整所述第一基频，得到第二基频；针对所述第二基频进行量化处理，得到第三基频；以及根据所述第三基频，确定所述电音人声数据。4.根据权利要求3所述的方法，其中，所述对所述原始基频进行修正，得到第一基频，包括：将所述人声音频数据分为多个音频片段；针对所述多个音频片段中的每个音频片段，确定所述音频片段的能量和过零率；根据所述能量和过零率，确定所述音频片段是否为浊音音频片段；以及利用线性插值算法，对所述浊音音频片段的基频进行修正。5.根据权利要求4所述的方法，其中，所述音频片段设置有多个采样点；所述确定所述音频片段的能量包括：根据所述音频片段中每个采样点的数值，确定所述音频片段的能量。6.根据权利要求4所述的方法，其中，所述音频片段包括多个采样点；所述确定所述音频片段的过零率包括：确定所述音频片段中每两个相邻采样点的数值是否彼此符号相反；以及确定所述音频片段中相邻采样点为异号的次数占所有采样点个数的比值，作为所述过零率。7.根据权利要求4所述的方法，其中，所述预定电音参数包括电音程度参数和/或电音音调参数；所述根据预定电音参数，调整所述第一基频，得到第二基频，包括：根据所述浊音音频片段的基频，确定基频方差和/或基频平均值；根据所述电音程度参数和所述基频方差，确定修正基频方差，以及/或者，根据所述电音音调参数和所述基频平均值，确定修正基频平均值；以及根据所述修正基频方差和/或修正基频平均值，调整所述第一基频，得到所述第二基频。
8.根据权利要求3
‑
7中任一项所述的方法，其中，所述针对所述第二基频进行量化处理，得到第三基频，包括：根据以下公式确定频率范围：其中，所述scale为所述频率范围，所述f0
′
为所述第二基频；基于所述频率范围，根据以下公式确定所述第三基频：其中，所述f0
″
为所述第三基频。9.根据权利要求3
‑
7中任一项所述的方法，还包括：根据所述人声音频数据和所述第一基频，确定频谱包络和非周期参数；其中，所述根据所述第三基频，确定所述电音人声数据，包括：根据所述第三基频、所述频谱包络和所述非周期参数，确定所述电音人声数据。10.一种音频数据处理装置，包括：分解模块，用于分解原始音频数据，得到人声音频数据和背景音频数据；电音处理模块，用于对所述人声音频数据进行电音化处理，得到电音人声数据；以及合成模块，用于将所述电音人声数据和所述背景音频数据合成，得到目标音频数据。11.根据权利要求10所述的装置，其中，所述分解模块包括：梅尔频谱确定子模块，用于确定与所述原始音频数据对应的原始梅尔频谱数据；分解子模块，用于使用神经网络确定与所述原始梅尔频谱数据对应的背景梅尔频谱数据和人声梅尔频谱数据；以及生成子模块，用于根据所述背景梅尔频谱数据，生成所述背景音频数据，并根据所述人声梅尔频谱数据，生成所述人声音频数据。12.根据权利要求10所述的装置，其中，所述电音处理模块包括：提取子模块，用于提取所述人声音频数据的原始基频；修正子模块，用于对所述原始基频进行修正，得到第一基频；调整子模块，用于根据预定电音参数，调整所述第一基频，得到第二基频；量化子模块，用于针对所述第二基频进行量化处理，得到第三基频；以及电音确定子模块，用于根据所述第三基频，确定所述电音人声数据。13.根据权利要求12所述的装置，其中，所述修正子模块包括：分段单元，用于将所述人声音频数据分为多个音频片段；能量确定单元，用于针对所述多个音频片段中的每个音频片段，确定所述音频片段的能量；过零率确定单元，用于针对所述多个音频片段中的每个音频片段，确定所述音频片段的过零率；浊音判断单元，用于根据所述能量和过零率，确定所述音频片段的类型是否为浊音音频片段；以及修正单元，用于利用线性插值算法，对所述浊音音频片段的基频进行修正。
14.根据权利要求13所述的装置，其中，所述音频片段设置有多个采样点；所述能量确定单元还用于：根据所述音频片段中每个采样点的数值，确定所述音频片段的能量。15.根据权利要求13所述的装置，其中，所述音频片段包括多个采样点；所述过零率确定单元还用于：确定所述音频片段中每两个相邻采样点的数值是否彼此符号相反；以及确定所述音频片段中相邻采样点为异号的次数占所有采样点个数的比值，作为所述过零率。16.根据权利要求13所述的装置，其中，所述预定电音参数包括电音程度参数和/或电音音调参数；所述调整子模块包括：第一确定单元，用于根据所述浊音音频片段的基频，确定基频方差和/或基频平均值；第二确定单元，用于根据所述电音程度参数和所述基频方差，确定修正基频方差，以及/或者，根据所述电音程度参数和所述基频平均值，确定修正基频平均值；以及调整单元，用于根据所述修正基频方差和/或修正基频平均值，调整所述第一基频，得到所述第二基频。17.根据权利要求12
‑
16中任一项所述的装置，其中，所述量化子模块包括：频率范围确定单元，用于根据以下公式确定频率范围：其中，所述scale为所述频率范围，所述f0
′
为所述第二基频；第三基频确定单元，用于基于所述频率范围，根据以下公式确定所述第三基频：其中，所述f0
″
为所述第三基频。18.根据权利要求12
‑
16中任一项所述的装置，还包括：确定模块，用于根据所述人声音频数据和所述第一基频，确定频谱包络和非周期参数；其中，所述电音确定子模块还用于：根据所述第三基频、所述频谱包络和所述非周期参数，确定所述电音人声数据。19.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
9中任一项所述的方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1
‑
9中任一项所述的方法。21.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1
‑
9中任一项所述方法的步骤。

技术总结
本公开提供了一种音频数据处理方法、装置、设备以及存储介质，涉及音频处理技术领域，尤其涉及语音合成技术领域。具体实现方案为：分解原始音频数据，得到人声音频数据和背景音频数据；对人声音频数据进行电音化处理，得到电音人声数据；以及将电音人声数据和背景音频数据合成，得到目标音频数据。得到目标音频数据。得到目标音频数据。

技术研发人员：王艺鹏刘云峰
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.08.24
技术公布日：2021/11/23

完整全部详细技术资料下载

当前第2页1 2