本申请涉及人工智能,更具体地说,涉及一种音频生成方法、装置及电子设备和存储介质。
背景技术:
1、音频生成的一个重要研究方向是音效音频生成。音效音频是指根据文本指定的音效类型(比如,狗叫声),生成该音效类型的音效音频。目前的音效音频生成方法生成的音效音频的可控性较差,比如,对应一个音效类型只能生成固定的n种音效音频,生成哪种音效音频是不确定的。
技术实现思路
1、本申请的目的是提供一种音频生成方法、装置及电子设备和存储介质,包括如下技术方案:
2、一种音频生成方法,所述方法包括:
3、获得与第一文本对应的辅助信息;所述第一文本表征目标音效类别,所述辅助信息表征所述目标音效类别的目标子类;
4、基于所述第一文本和所述辅助信息生成目标音频;所述目标音频的音效类别属于所述目标子类。
5、上述方法,可选的,所述基于所述第一文本和所述辅助信息生成目标音频,包括:
6、基于所述第一文本和所述辅助信息获得隐层特征表示;
7、对所述隐层特征表示进行解码,得到目标音频频谱;
8、将所述目标音频频谱转换为所述目标音频。
9、上述方法,可选的,所述基于所述第一文本和所述辅助信息获得隐层特征表示,包括:
10、获得所述第一文本的第一向量表示和所述辅助信息的第二向量表示;
11、将所述第一向量表示和第二向量表示融合,得到融合向量表示;
12、基于所述融合向量表示获得所述隐层特征表示。
13、上述方法,可选的,其中,
14、通过变分自动编码器的解码模块对所述隐层特征表示进行解码;
15、通过生成器对所述融合向量表示进行处理,生成所述隐层特征表示;
16、所述生成器是通过目标训练集训练得到,所述目标训练集中的每个样本中均包括文本、辅助信息和音频;所述生成器是以样本中的文本和辅助信息为输入,以生成的隐层特征表示趋近于所述变分自动编码器的编码模块对所述样本中的音频的频谱编码得到的隐层特征表示为目标训练得到的。
17、上述方法,可选的,其中,
18、通过变分自动编码器的解码模块对所述隐层特征表示进行解码;
19、通过编码器对所述融合向量表示进行编码,得到所述隐层特征表示;
20、所述编码器是通过目标训练集训练得到,所述目标训练集中的每个样本中均包括文本、辅助信息和音频;所述编码器是以样本中的文本和辅助信息为输入,以编码得到的隐层特征表示趋近于所述变分自动编码器的编码模块对所述样本中的音频的频谱编码得到的隐层特征表示为目标训练得到的。
21、上述方法,可选的,样本中的辅助信息通过如下方式获得:
22、对所述目标训练集中所有样本中的音频进行聚类,得到多个聚类簇;
23、对于任一聚类簇,获得与所述任一聚类簇的聚类中心匹配的辅助信息;
24、将匹配到的辅助信息与该任一聚类簇中的各个音频分别关联。
25、上述方法,可选的,还包括:
26、获得音频切换指令;所述音频切换指令中携带有新的辅助信息;所述新的辅助信息表征所述目标音效类别的新的目标子类;
27、响应于所述音频切换指令,基于所述第一文本和所述新的辅助信息生成新的目标音频;所述新的目标音频的音效类别属于所述新的目标子类。
28、上述方法,可选的,还包括:
29、获得音频切换指令;所述音频切换指令中携带有所述目标音效类别的新的目标子类;
30、响应于所述音频切换指令,获得所述新的目标子类对应的新的辅助信息;
31、基于所述第一文本和所述新的辅助信息生成新的目标音频;所述新的目标音频的音效类别属于所述新的目标子类。
32、上述方法,可选的,所述第一文本对应的辅助信息包括以下至少之一:描述所述目标子类的文本,与所述目标子类匹配的图像。
33、一种音频生成装置,包括:
34、获得模块,用于获得与第一文本对应的辅助信息;所述第一文本表征目标音效类别,所述辅助信息表征所述目标音效类别的目标子类;
35、生成模块,用于基于所述第一文本和所述辅助信息生成目标音频;所述目标音频的音效类别属于所述目标子类。
36、一种电子设备,包括:
37、存储器,用于存储程序;
38、处理器,用于调用并执行所述存储器中的所述程序,通过执行所述程序实现如上任一项所述的音频生成方法的各个步骤。
39、一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的音频生成方法的各个步骤。
40、通过以上方案可知,本申请提供的一种音频生成方法、装置及电子设备和存储介质,在需要生成音频时,基于表征目标音效类别的文本,以及表征目标音效类别的子类的辅助信息生成音频,生成的音频的音效类别属于辅助信息表征的目标音效类别的子类,达到了生成的音频的音效可控的目的。
1.一种音频生成方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述第一文本和所述辅助信息生成目标音频,包括:
3.根据权利要求2所述的方法,所述基于所述第一文本和所述辅助信息获得隐层特征表示,包括:
4.根据权利要求3所述的方法,其中,
5.根据权利要求3所述的方法,其中,
6.根据权利要求4或5所述的方法,样本中的辅助信息通过如下方式获得:
7.根据权利要求1所述的方法,还包括:
8.根据权利要求1所述的方法,还包括:
9.根据权利要求1-5、7-8中任一项所述的方法,所述第一文本对应的辅助信息包括以下至少之一:描述所述目标子类的文本,与所述目标子类匹配的图像。
10.一种音频生成装置,包括: