一种生成网络的训练方法、音频数据增强方法及相关装置与流程

文档序号:23055875发布日期:2020-11-25 17:34阅读:159来源:国知局
一种生成网络的训练方法、音频数据增强方法及相关装置与流程

本申请涉及音频数据处理技术领域,特别涉及一种生成网络的训练方法、音频数据增强方法及相关装置。



背景技术:

人工智能技术的发展,离不开数据的支持。如,机器学习的可靠性,一方面会依赖于参与机器学习的数据量的大小。一般而言,数据量越大,机器学习的越充分,可靠性更高。因此,有必要保证较大的数据量。

目前,经常会用到通过数据增强方法(如旋转、缩放、平移、对比度变换、噪声扰动等)获取具有相同或者相似分布的数据的方式,来扩充数据量。

但是,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:在音频领域,却缺乏数据增强方法,来扩充音频数据量。



技术实现要素:

为解决上述技术问题,本申请实施例提供一种生成网络的训练方法、音频数据增强方法及相关装置,以达到对生成网络进行有针对性的训练,保证训练好的生成网络能够有针对性的生成音频数据,实现有针对性的扩充音频数据量的目的,技术方案如下:

本申请一方面提供一种生成网络的训练方法,包括:

从数据源中选择待处理音频数据和基准音频数据;

将所述待处理音频数据及所述基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据;

当所述生成网络中的所述目标音频数据与所述基准音频数据之间的差异在差异阈值范围内,确定鉴别网络输入数据,所述鉴别网络输入数据包括:从所述目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从所述基准音频数据中获得的,符合所述变换域设定条件的子基准音频数据;

将所述鉴别网络输入数据,输入到所述待训练生成式对抗网络中的鉴别网络,并获取鉴别结果;

当所述鉴别结果中所述子目标音频数据的鉴别结果为假时,则更新所述生成网络的内部参数。

所述符合变换域设定条件的子目标音频数据的获得过程,包括:

基于预先设定的傅里叶变换函数,对所述目标音频数据进行变换,得到第一频域数据;

将所述第一频域数据中,处于设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据;

所述符合所述变换域设定条件的子基准音频数据的获得过程,包括:

基于所述预先设定的傅里叶变换函数,对所述基准音频数据进行变换,得到第二频域数据;

将所述第二频域数据中,处于设定带宽范围内的频域数据,作为符合所述变换域设定条件的子基准音频数据。

所述将所述第一频域数据中,在设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据,包括:

从所述第一频域数据中,在设定带宽范围内的频域数据中,提取设定类型的音频特征,将提取到的音频特征作为符合变换域设定条件的子目标音频数据;

所述将所述第二频域数据中,在所述设定带宽范围内的频域数据,作为符合所述变换域设定条件的子基准音频数据,包括:

从所述第二频域数据中,在所述设定带宽范围内的频域数据中,提取所述设定类型的音频特征,将提取到的音频特征作为符合所述变换域设定条件的子基准音频数据。

所述符合变换域设定条件的子目标音频数据的获得过程,包括:

基于预先设定的常数q变化函数,对所述目标音频数据进行变化,得到第三频域数据;

从所述第三频域数据中,选取设定类型的数据,将选取出的数据作为符合变换域设定条件的子目标音频数据;

所述符合所述变换域设定条件的子基准音频数据的获得过程,包括:

基于所述预先设定的常数q变化函数,对所述基准音频数据进行变化,得到第四频域数据;

从所述第四频域数据中,选取所述设定类型的数据,将选取出的数据作为符合所述变换域设定条件的子基准音频数据。

还包括:

当所述生成网络中的所述目标音频数据与所述基准音频数据之间的差异不在差异阈值范围内,则更新所述生成网络的内部参数,并返回执行所述从数据源中选择待处理音频数据和基准音频数据的步骤。

当将多组所述待处理音频数据及所述基准音频数据输入到待训练生成式对抗网络中的生成网络时,若多个所述鉴别结果中存在所述子目标音频数据的鉴别结果为假的鉴别结果,且所述子目标音频数据的鉴别结果为假的鉴别结果的比例未达到预设比例阈值,则对所述鉴别网络进行训练。

所述对所述鉴别网络进行训练,包括:

更新所述鉴别网络的内部参数;

所述鉴别网络,鉴别训练子目标音频数据与训练子基准音频数据,得到鉴别结果;

所述训练子目标音频数据的确定过程为:将训练所述鉴别网络所需的待处理音频数据输入到所述生成网络,获得训练目标音频数据,并从所述训练目标音频数据中,获得符合所述变换域设定条件的数据,将获得的数据作为训练子目标音频数据;所述训练子基准音频数据的确定过程为:从训练所述鉴别网络所需的基准音频数据中,获得符合所述变换域设定条件的数据,将获得的数据作为训练子基准音频数据;

判断鉴别网络损失函数值是否在预设阈值范围内,所述鉴别网络损失函数值表征所述鉴别结果与预先设定的鉴别结果之间的差异;

若否,则返回执行所述更新所述鉴别网络的内部参数的步骤,直至所述鉴别网络损失函数值在所述预设阈值范围内。

所述方法还包括:

所述对所述鉴别网络进行训练之后,或,在所述鉴别结果中所述子目标音频数据的鉴别结果为假,更新所述生成网络的内部参数之前,还包括:

判断所述鉴别结果中,所述子目标音频数据的鉴别结果为假是否收敛;

若收敛,则判断生成网络损失函数值是否收敛;

若所述生成网络损失函数值收敛,则结束训练;

若所述生成网络损失函数值未收敛,则更新所述生成网络的内部参数;

或,判断将所述子目标音频数据输出到所述鉴别网络的次数是否达到设定次数;

若未达到设定次数,则更新所述生成网络的内部参数;

若达到设定次数,则结束训练;

或,判断将所述子目标音频数据输出到所述鉴别网络的次数是否达到设定次数;

若未达到设定次数,则判断所述鉴别结果中,所述子目标音频数据的鉴别结果为假是否收敛;

若收敛,则判断生成网络损失函数值是否收敛;

若所述生成网络损失函数值收敛,则结束训练;

若所述生成网络损失函数值未收敛,则更新所述生成网络的参数。

所述从数据源中选择待处理音频数据和基准音频数据,包括:

从数据源中选择符合设定数据格式的音频数据,将选择到的音频数据作为基准音频数据;

从所述数据源中随机选择与所述基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据。

所述从数据源中选择符合设定数据格式的音频数据,将选择到的音频数据作为基准音频数据,包括:

从数据源中选择符合设定数据格式的音频数据;

基于信号处理方法对符合所述设定数据格式的音频数据进行音频增强,获得第一音频增强数据,所述第一音频增强数据与所述符合所述设定数据格式的音频数据的音频属性相同;

将符合所述设定数据格式的音频数据,及所述第一音频增强数据作为基准音频数据;

所述从所述数据源中随机选择音频数据,将选择到的音频数据作为待处理音频数据,包括:

从所述数据源中随机选择音频数据,将选择到的音频数据作为随机音频数据;

基于信号处理方法对所述随机音频数据进行音频增强,获得第二音频增强数据;

将所述随机音频数据及所述第二音频增强数据,作为待处理音频数据。

所述基于信号处理方法对符合所述设定数据格式的音频数据或所述随机音频数据进行音频增强,包括:

检测所述符合所述设定数据格式的音频数据或所述随机音频数据中每个音频帧的能量;

基于每个音频帧的能量,从所述符合所述设定数据格式的音频数据或所述随机音频数据中筛选出低能量音频帧集合,所述低能量音频帧集合由设定个数的所述能量低于设定能量阈值的音频帧组成,且设定个数的所述能量低于设定能量阈值的音频帧为连续排布的音频帧;

将所述符合所述设定数据格式的音频数据或所述随机音频数据中除各个所述低能量音频帧集合中的音频帧之外的音频帧,作为有效音频帧;

对多个有效音频帧进行合并,得到有效音频数据,并基于信号处理方法对所述有效音频数据进行音频增强。

对多个有效音频帧进行合并,得到有效音频数据,并基于信号处理方法对所述有效音频数据进行音频增强,包括:

基于各个所述有效音频帧的功率,确定多个所述有效音频帧的平均功率;

对所述平均功率进行归一化处理,并将归一化处理得到的功率作为目标功率;

分别将各个所述有效音频帧与所述目标功率相乘,得到目标有效音频帧;

对多个目标有效音频帧进行合并,得到有效音频数据;

对所述有效音频数据进行反相处理,和/或,翻转处理;

对进行反相处理,和/或,翻转处理后得到的音频数据进行随机裁剪。

一种音频数据增强方法,包括:

获取待处理音频数据;

调用生成网络,对所述待处理音频数据进行处理,以获得目标音频数据,所述生成网络为基于权利要求1-14任意一项所述的生成网络的训练方法训练得到的;

将所述目标音频数据作为音频数据增强数据。

本申请的另一方面提供一种生成网络的训练装置,包括:

选择模块,用于从数据源中选择待处理音频数据和基准音频数据;

第一获取模块,用于将所述待处理音频数据及所述基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据;

确定模块,用于当所述生成网络中的所述目标音频数据与所述基准音频数据之间的差异在差异阈值范围内,确定鉴别网络输入数据,所述鉴别网络输入数据包括:从所述目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从所述基准音频数据中获得的,符合所述变换域设定条件的子基准音频数据;

第二获取模块,用于将所述鉴别网络输入数据,输入到所述待训练生成式对抗网络中的鉴别网络,并获取鉴别结果;

更新模块,用于当所述鉴别结果中所述子目标音频数据的鉴别结果为假时,则更新所述生成网络的内部参数,并返回执行所述选择模块从所述数据源中选择待处理音频数据和基准音频数据。

本申请的第三方面提供一种电子设备,包括:

存储器,用于至少存储一组指令集;

处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集执行如上述任意一项所述的生成网络的训练方法的各步骤。

一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,实现如上述任意一项所述的生成网络的训练方法的各步骤。

与现有技术相比,本申请的有益效果为:

在本申请中,通过确定鉴别网络输入数据,实现对目标音频数据和基准音频数据进行信息过滤,得到符合变换域设定条件的子目标音频数据及符合变换域设定条件的子基准音频数据,在此基础上,将符合变换域设定条件的子目标音频数据及符合变换域设定条件的子基准音频数据输入到鉴别网络,使鉴别网络的鉴别更具有针对性,基于更具有针对性的鉴别结果,对生成网络的内部参数的更新也更具有针对性,保证训练好的生成网络能够有针对性的生成音频数据,实现有针对性的扩充音频数据量。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请提供的一种生成网络的训练方法实施例1的流程图;

图2是本申请提供的一种生成式对抗网络的训练示意图;

图3是本申请提供的一种生成网络的训练方法实施例2的流程图;

图4是本申请提供的一种生成网络的训练方法实施例3的流程图;

图5是本申请提供的一种生成网络的训练方法实施例4的流程图;

图6是本申请提供的一种生成网络的训练方法实施例5的流程图;

图7是本申请提供的一种音频数据增强方法实施例1的流程图;

图8是本申请提供一种生成网络的训练装置的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,为本申请实施例1提供的一种生成网络的训练方法的流程示意图,该方法可以应用于电子设备,本申请对电子设备的产品类型不做限定,如图1所示,该方法可以包括但并不局限于以下步骤:

步骤s11、从数据源中选择待处理音频数据和基准音频数据。

本实施例中,从数据源中选择待处理音频数据和基准音频数据,可以包括:

从数据源中选择一组待处理音频数据和基准音频数据;

或,从数据源中选择多组待处理音频数据和基准音频数据。

从数据源中选择一组待处理音频数据和基准音频数据,可以包括:

s111、从数据源中选择符合设定数据格式的音频数据,将选择到的音频数据作为基准音频数据;

设定数据格式可以根据需要进行设置,在本申请中不做限制。

s112、从数据源中选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据。

从数据源中选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据,可以包括:

从数据源中,选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为之后每一次训练所使用的待处理音频数据。

从数据源中,选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为之后每一次训练所使用的待处理音频数据,可以减少选择待处理音频数据的次数,进而提高生成网络训练的效率。

当然,从数据源中选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据,也可以包括:

从数据源中随机选择与基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据。

从数据源中随机选择与基准音频数据的个数相同的音频数据,可以保证选择到的音频数据可能包含基准音频数据和非基准音频数据,或,仅包含基准音频数据,或,仅包含非基准音频数据,实现利用多样性的待处理音频数据对生成网络进行训练,提高生成网络训练的精度。

其中,从数据源中选择多组待处理音频数据和基准音频数据时,每一组待处理音频数据和基准音频数据的选择过程,可以参见上述介绍的从数据源中选择一组待处理音频数据和基准音频数据的相关过程,在此不再赘述。

步骤s12、将待处理音频数据及基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据。

将待处理音频数据及基准音频数据,输入到待训练生成式对抗网络中的生成网络之后,生成网络对待处理音频数据进行处理,得到目标音频数据。

步骤s13、当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,确定鉴别网络输入数据,鉴别网络输入数据包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据。

生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,可以理解为:生成网络损失函数值在生成网络预设阈值范围内。

其中,生成网络损失函数值表征目标音频数据与基准音频数据之间的差异。

当从数据源中选择一组待处理音频数据和基准音频数据时,当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,表明生成网络生成的目标音频数据达到输出要求,则可以在目标音频数据达到输出要求时,确定鉴别网络输入数据。鉴别网络输入数据可以理解为:输入到鉴别网络的数据。

当从数据源中选择多组待处理音频数据和基准音频数据时,生成网络会对每组中的待处理音频数据进行处理,分别生成目标音频数据,当生成网络中各个目标音频数据与其对应的基准音频数据之间的差异均在差异阈值范围内,当生成网络中表明生成网络生成的各个目标音频数据均达到输出要求,则可以在各个目标音频数据均达到输出要求时,确定鉴别网络输入数据。需要说明的是,这种情况下,确定鉴别网络输入数据,可以理解为:针对每组待处理音频数据和基准音频数据,分别确定鉴别网络输入数据。因此,需要确定多个鉴别网络输入数据。

本实施例中,针对一组待处理音频数据和基准音频数据,确定鉴别网络输入数据,可以包括:

从目标音频数据中获得符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得符合变换域设定条件的子基准音频数据,将获得的子目标音频数据及子基准音频数据,作为鉴别网络输入数据。

从目标音频数据中获得符合变换域设定条件的子目标音频数据的过程,可以包括:

s131、基于预先设定的傅里叶变换函数,对目标音频数据进行变换,得到第一频域数据。

s132、将第一频域数据中,处于设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据。

设定带宽范围可以根据需要进行设置,在此不做限制。如,设定带宽范围可以设置为但不局限于:小于3000hz。

本实施例中,将第一频域数据中,处于设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据,可以包括:

从第一频域数据中,在设定带宽范围内的频域数据中,提取设定类型的音频特征,将提取到的音频特征作为符合变换域设定条件的子目标音频数据。

从第一频域数据中,在设定带宽范围内的频域数据中,提取设定类型的音频特征,将提取到的音频特征作为符合变换域设定条件的子目标音频数据,实现对音频数据的进一步过滤。

设定类型可以根据需要进行设置,在本申请中不做限制。

与步骤s131-s132相对应地,从基准音频数据中获得符合变换域设定条件的子基准音频数据,可以包括:

s133、基于预先设定的傅里叶变换函数,对基准音频数据进行变换,得到第二频域数据。

本步骤中预先设定的傅里叶变换函数与步骤s132中的预先设定的傅里叶变换函数相同。

s134、将第二频域数据中处于设定带宽范围内的频域数据,作为符合变换域设定条件的子基准音频数据。

本步骤中的设定带宽范围与步骤s132中的设定带宽范围相同。

本实施例中,将第二频域数据中处于设定带宽范围内的频域数据,作为符合变换域设定条件的子基准音频数据,可以包括:

从第二频域数据中,在设定带宽范围内的频域数据中,提取设定类型的音频特征,将提取到的音频特征作为符合变换域设定条件的子基准音频数据。

本步骤中的设定类型与步骤s132中的设定类型相同。

本实施例中,从目标音频数据中获得符合变换域设定条件的子目标音频数据的过程,也可以包括:

s135、基于预先设定的常数q变化函数,对所述目标音频数据进行变化,得到第三频域数据;

s136、从所述第三频域数据中,选取设定类型的数据,将选取出的数据作为符合变换域设定条件的子目标音频数据。

本实施例中,设定类型可以根据需要进行设置,在此不做限制。例如,设定类型可以设置为频谱峰值。

与步骤s135-s136相对应地,从基准音频数据中获得符合变换域设定条件的子基准音频数据,可以包括:

s137、基于预先设定的常数q变化函数,对基准音频数据进行变化,得到第四频域数据。

本步骤中预先设定的常数q变化函数与步骤s135中的预先设定的常数q变化函数相同。

s138、从第四频域数据中,选取设定类型的数据,将选取出的数据作为符合变换域设定条件的子基准音频数据。

本步骤中的设定类型与步骤s136中的设定类型相同。

本实施例中,以相同的数据处理方式(如,步骤s131-s132与步骤s133-s134为相同的数据处理方式,步骤s135-s136与步骤s137-s138为相同的数据处理方式),对目标音频数据和基准音频数据进行处理,保证处理的一致性,进而保证得到的子目标音频数据和子基准音频数据能够进行可靠的对比。

当从数据源中获取多组待处理音频数据和基准音频数据时,针对每组待处理音频数据和基准音频数据,分别确定鉴别网络输入数据的详细过程,可以参见上述针对一组待处理音频数据和基准音频数据,确定鉴别网络输入数据的相关介绍,在此不再赘述。

步骤s14、将鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取鉴别结果。

如图2所示,当生成网络的目标音频数据与基准音频数据之间的差异在差异阈值范围内,从目标音频数据中获得符合变换域设定条件的子目标音频数据,从基准音频数据中获得符合变换域设定条件的子基准音频数据,将子目标音频数据及子基准音频数据输入到鉴别网络。

鉴别网络在接收到鉴别网络输入数据之后,对鉴别网络输入数据中的子目标音频数据进行鉴别,得到鉴别结果。

对鉴别网络输入数据中的子目标音频数据进行鉴别的过程,可以包括:

比较鉴别网络输入数据中的子目标音频数据与子基准音频数据是否一致;

若不一致,则确定子目标音频数据为假;

若一致,则确定子目标音频数据为真。

当从数据源中获取一组待处理音频数据和基准音频数据时,对应的是,将一个鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取一个鉴别结果。

当从数据源中获取多组待处理音频数据和基准音频数据时,对应的是,将多个鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,鉴别网络会针对每个鉴别网络输入数据,分别获取一个鉴别结果。

步骤s15、当鉴别结果中子目标音频数据的鉴别结果为假时,则更新生成网络的内部参数。

与当从数据源中获取一组待处理音频数据和基准音频数据时,获取一个鉴别结果相对应,当该鉴别结果中子目标音频数据的鉴别结果为假时,则可以更新生成网络的内部参数。

与当从数据源中获取多组待处理音频数据和基准音频数据时,获取多个鉴别结果相对应,当鉴别结果中子目标音频数据的鉴别结果为假时,可以理解为:当多个鉴别结果中子目标音频数据的鉴别结果均为假时。

与当从数据源中获取一组待处理音频数据和基准音频数据时,获取一个鉴别结果相对应,当该鉴别结果中子目标音频数据的鉴别结果为真时,可以认为子目标音频数据和子基准音频数据一致,当子目标音频数据与子基准音频数据一致时,则可以不再更新生成网络的内部参数。

与当从数据源中获取多组待处理音频数据和基准音频数据时,获取多个鉴别结果相对应,当多个鉴别结果中子目标音频数据的鉴别结果均为真时,则可以认为各个子目标音频数据和其对应的子基准音频数据均一致,当各个子目标音频数据与其对应的子基准音频数据均一致时,可以不再更新生成网络的内部参数。

本实施例中,通过确定鉴别网络输入数据,实现对目标音频数据和基准音频数据进行信息过滤,得到符合变换域设定条件的子目标音频数据及符合变换域设定条件的子基准音频数据,在此基础上,将符合变换域设定条件的子目标音频数据及符合变换域设定条件的子基准音频数据输入到鉴别网络,使鉴别网络的鉴别更具有针对性,基于更具有针对性的鉴别结果,对生成网络的内部参数的更新也更具有针对性,保证训练好的生成网络能够有针对性的生成音频数据,实现有针对性的扩充音频数据量。

作为本申请另一可选实施例,如图3所示,为本申请提供的一种生成网络的训练方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的生成网络的训练方法的扩展方案,该方法可以包括但并不局限于以下步骤:

步骤s21、从数据源中选择待处理音频数据和基准音频数据;

步骤s22、将待处理音频数据及所述基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据。

步骤s21-s22的详细过程可以参见实施例1中步骤s11-s12的相关介绍,在此不再赘述。

步骤s23、确定生成网络中目标音频数据与基准音频数据之间的差异是否在差异阈值范围内。

本实施例中,可以通过判断生成网络损失函数值是否在生成网络预设阈值范围内,来确定生成网络中的目标音频数据与基准音频数据之间的差异是否在差异阈值范围内。

其中,生成网络损失函数值表征目标音频数据与基准音频数据之间的差异。

当生成网络中的目标音频数据与基准音频数据之间的差异不在差异阈值范围内,则可以执行步骤s24;当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,则可以执行步骤s25。

步骤s24、更新生成网络的内部参数,并返回执行步骤s21。

步骤s25、确定鉴别网络输入数据,鉴别网络输入数据包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据。

步骤s26、将鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取鉴别结果。

步骤s27、判断鉴别结果中子目标音频数据的鉴别结果是否为假。

若为假,则执行步骤s24。

步骤s25-s27的详细过程可以参见实施例1中步骤s13-s15的相关介绍,在此不再赘述。

本实施例中,生成网络自身先确定目标音频数据与基准音频数据之间的差异是否在差异阈值范围内,可以为生成网络的训练提供目标,保证生成网络训练的性能。

作为本申请另一可选实施例,如图4所示,为本申请提供的一种生成网络的训练方法实施例3的流程示意图,本实施例主要是对上述实施例1描述的生成网络的训练方法的细化方案,该方法可以包括但并不局限于以下步骤:

步骤s31、从数据源中选择多组待处理音频数据和基准音频数据。

步骤s32、将多组待处理音频数据及所述基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得多个目标音频数据。

步骤s33、当生成网络中的各个目标音频数据与其对应的基准音频数据之间的差异均在差异阈值范围内,确定多个鉴别网络输入数据,每个鉴别网络输入数据,分别包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据;

步骤s34、将多个鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取多个鉴别结果。

将多个鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,鉴别网络会分别对每个鉴别网络输入数据进行鉴别,得到鉴别结果。例如,当将128组待处理音频数据和基准音频数据输入到生成网络时,生成网络会得到128个目标音频数据,并确定128个鉴别网络输入数据,相应地,鉴别网络会得到128个鉴别结果。

步骤s35、判断多个鉴别结果中是否存在子目标音频数据的鉴别结果为假的鉴别结果。

若存在,则执行步骤s36。

步骤s36、判断子目标音频数据的鉴别结果为假的鉴别结果的比例是否达到预设比例阈值。

子目标音频数据的鉴别结果为假的鉴别结果的比例,可以理解为:子目标音频数据的鉴别结果为假的鉴别结果的个数,与多个鉴别结果的总个数的比值。

若达到预设比例阈值,则执行步骤s37;若未达到预设比例阈值,则执行步骤s38。

预设比例阈值可以根据需要进行设置,在申请中不做限制。例如,预设比例阈值可以设置为:95%、98%或100%。

步骤s37、更新生成网络的内部参数。

步骤s38、对鉴别网络进行训练。

本实施例中,对鉴别网络进行训练的过程可以包括:

s381、更新鉴别网络的内部参数。

s382、鉴别网络,鉴别训练子目标音频数据与训练子基准音频数据,得到鉴别结果。

训练子目标音频数据的确定过程可以为:

将训练鉴别网络所需的待处理音频数据输入到生成网络,获得训练目标音频数据,并从训练目标音频数据中,获得符合变换域设定条件的数据,将获得的数据作为训练子目标音频数据。

训练子基准音频数据的确定过程可以为:

从训练鉴别网络所需的基准音频数据中,获得符合变换域设定条件的数据,将获得的数据作为训练子基准音频数据。

s383、判断鉴别网络损失函数值是否在预设阈值范围内,鉴别网络损失函数值表征鉴别结果与预先设定的鉴别结果之间的差异。

若否,则返回执行步骤s381,直至鉴别网络损失函数值在预设阈值范围内。

本实施例中,预设阈值范围可以根据需要进行设置,在本申请中不做限制。

本实施例中,当子目标音频数据的鉴别结果为假的鉴别结果的比例未达到预设比例阈值时,对鉴别网络进行训练,提高鉴别网络的鉴别性能,在保证鉴别网络鉴别结果的准确性的基础上,对生成网络进行训练,能够提高生成网络的训练性能。

作为本申请另一可选实施例,如图5所示,为本申请提供的一种生成网络的训练方法实施例4的流程示意图,本实施例主要是对上述实施例2描述的生成网络的训练方法的扩展方案,该方法可以包括但并不局限于以下步骤:

步骤s41、从数据源中选择待处理音频数据和基准音频数据;

步骤s42、将待处理音频数据及基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据。

步骤s43、确定生成网络中目标音频数据与基准音频数据之间的差异是否在差异阈值范围内。

当生成网络中的目标音频数据与基准音频数据之间的差异不在差异阈值范围内,则可以执行步骤s44;当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,则可以执行步骤s45。

步骤s44、更新生成网络的内部参数,并返回执行步骤s41。

步骤s45、确定鉴别网络输入数据,鉴别网络输入数据包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据。

步骤s46、将鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取鉴别结果。

步骤s47、判断鉴别结果中子目标音频数据的鉴别结果是否为假。

当鉴别结果中子目标音频数据的鉴别结果为假时,则执行步骤s44;当鉴别结果中子目标音频数据的鉴别结果为真时,可以认为子目标音频数据与子基准音频数据一致,并说明鉴别网络无法鉴别子目标音频数据的真假,需要提高鉴别网络鉴别的准确性,因此可以执行步骤s48。

步骤s48、对鉴别网络进行训练。

步骤s41-s48的详细过程可以参见实施例2中步骤s21-s28的相关介绍,在此不再赘述。

步骤s49、判断待训练生成式对抗网络是否满足训练结束条件。

本实施例中,判断待训练生成式对抗网络是否满足训练结束条件,可以包括:

s491、判断鉴别结果中,子目标音频数据的鉴别结果为假是否收敛。

本实施例中,需要依据多次鉴别结果来判断所述鉴别结果中,所述子目标音频数据的鉴别结果为假是否收敛。

判断鉴别结果中,子目标音频数据的鉴别结果为假是否收敛,可以理解为:在连续多次鉴别结果中,子目标音频数据的鉴别结果均为假。

若收敛,说明鉴别网络鉴别的准确率达到设定要求,则可以执行步骤s492;若未收敛,则说明鉴别网络鉴别的准确率未达到设定要求,至少需要对鉴别网络进行训练,则可以确定不满足训练结束条件。

s492、判断生成网络损失函数值是否收敛。

本实施例中,可以依据本次计算得到的生成网络损失函数值与本次之前计算得到的生成网络损失函数值,判断生成网络损失函数值是否收敛。

若生成网络损失函数值收敛,则可以确定满足训练结束条件;若生成网络损失函数值不收敛,则可以确定不满足训练结束条件。

本实施例中,在鉴别结果中,子目标音频数据的鉴别结果为假收敛,且生成网络损失函数值收敛时,确定满足训练结束条件,保证在生成式对抗网络的性能达到要求的前提下,结束训练。

当然,判断待训练生成式对抗网络是否满足训练结束条件,也可以包括:

s493、判断将子目标音频数据输出到鉴别网络的次数是否达到设定次数。

若未达到设定次数,则可以确定不满足训练结束条件;若达到次数,则可以确定满足训练结束条件。

设定次数可以根据需要进行设置,在本申请中不做限制。

或者,判断待训练生成式对抗网络是否满足训练结束条件,也可以包括:

s3494、判断将子目标音频数据输出到鉴别网络的次数是否达到设定次数;

若未达到设定次数,则执行步骤s495。

设定次数可以根据需要进行设置,在本申请中不做限制。

s495、判断鉴别结果中,子目标音频数据的鉴别结果为假是否收敛。

若收敛,则执行步骤s496;若未收敛,则可以确定不满足训练结束条件。

s496、判断生成网络损失函数值是否收敛。

若生成网络损失函数值收敛,则可以确定满足训练结束条件;若生成网络损失函数值未收敛,则可以确定不满足训练结束条件。

本实施例中,在未达到设定次数时,若所述鉴别结果中,所述子目标音频数据的鉴别结果为假收敛,且生成网络损失函数值收敛,则可以确定满足训练结束条件,实现在未达到设定次数时,提前结束训练,在保证训练效率的前提下,仍能满足生成式对抗网络的性能。

本实施例中,若满足训练结束条件,则执行步骤s410;若不满足训练结束条件,则返回执行步骤s41。

步骤s410、结束训练。

本实施例中,当鉴别结果中子目标音频数据的鉴别结果为真时,对鉴别网络进行训练后,判断待训练生成式对抗网络是否满足训练结束条件,来结束训练或继续训练,保证生成网络和鉴别网络均能得到训练,提高待训练生成式对抗网络的训练精度。

作为本申请另一可选实施例,如图6所示,为本申请提供的一种生成网络的训练方法实施例5的流程示意图,本实施例主要是对上述实施例1描述的生成网络的训练方法的细化方案,该方法可以包括但并不局限于以下步骤:

步骤s51、从数据源中选择符合设定数据格式的音频数据。

步骤s52、基于信号处理方法对符合设定数据格式的音频数据进行音频增强,获得第一音频增强数据。

本实施例中,基于信号处理方法对符合设定数据格式的音频数据进行音频增强的过程中并未改变音频数据的音频属性,保证第一音频增强数据与符合设定数据格式的音频数据的音频属性相同。

音频属性可以包括但不局限于:格式(如,mp3、wav、flac或ogg)、通道数(如,单通道、立体声或5.1声道)或采样率(如,44.1khz、48khz或32khz)。

本实施例中,基于信号处理方法对符合设定数据格式的音频数据进行音频增强的过程,可以包括:

s521、检测符合设定数据格式的音频数据中每个音频帧的能量。

检测符合设定数据格式的音频数据中每个音频帧的能量的过程,可以包括:

s5211、在读取符合设定数据格式的音频数据时,通过音频读取算法,获取多个波形采样点的数值。

获取的多个波形采样点组成的数据即符合设定数据格式的音频数据。

s5212、将多个波形采样点进行分组,得到多组波形采样点,并每组波形采样点组成音频帧。其中,每组波形采样点的个数可以包括但不局限于1024,每个音频帧的重叠率可以为但不限于50%。

若将每个音频帧的数值(即每组波形采样点的数值)表示为frame,则可以将第一音频数据的数值表示为frames。其中,frames=[frame1,frame2,…]。

s5213、计算每个音频帧的能量:

可以分别计算每个音频帧中各波形采样点的数值的平方和,并将平方和作为每个音频帧的能量。

本实施例中,每个音频帧的能量可以表示为ei。则每帧的能量可表示为e=[e1,e2,…]。

s522、基于每个音频帧的能量,从符合设定数据格式的音频数据中筛选出低能量音频帧集合。

低能量音频帧集合由设定个数的能量低于设定能量阈值的音频帧组成,且设定个数的能量低于设定能量阈值的音频帧为连续排布的音频帧。

低能量音频集合中的音频帧可以理解为:静音帧。

设定个数可以根据需要进行设置,在此不做限制。

现举例对基于每个音频帧的能量,从符合设定数据格式的音频数据中筛选出低能量音频帧集合进行说明,例如,若第21帧至第30帧中各个音频帧的能量均低于设定能量阈值,第31帧至第40帧中各个音频帧的能量均低于设定能量阈值,第101帧至第110帧中各个音频帧的能量均低于设定能量阈值,则第21帧至第30帧组成的集合为低能量音频帧集合,第31帧至第40帧组成的集合为低能量音频帧集合,第101帧至第110帧组成的集合为低能量音频帧集合。

s523、将符合设定数据格式的音频数据中除各个低能量音频帧集合中的音频帧之外的音频帧,作为有效音频帧。

本实施例中,将符合设定数据格式的音频数据中除各个低能量音频帧集合中的音频帧之外的音频帧,作为有效音频帧,可以提高有效音频帧的准确性。

s524、对多个有效音频帧进行合并,得到有效音频数据,并基于信号处理方法对有效音频数据进行音频增强。

对多个有效音频帧进行合并,得到有效音频数据的过程,可以包括:

s5241、基于各个有效音频帧的功率,确定多个有效音频帧的平均功率。

本实施例中,可以基于如下关系式,确定多个有效音频帧的平均功率:

其中,表示多个有效音频帧的平均功率,frai表示有效音频帧,|frai|表示有效音频帧的功率的绝对值的平方和,表示求和函数,n表示有效音频帧的个数。

s5242、对平均功率进行归一化处理,并将归一化处理得到的功率作为目标功率。

本实施例中,可以利用如下关系式,对平均功率进行归一化处理,并将归一化处理得到的功率作为目标功率:

其中,const表示目标功率,p表示多个有效音频帧的平均功率,alpha表示预先设定的平均功率阈值。

s5243、分别将各个有效音频帧与所述目标功率相乘,得到目标有效音频帧。

本实施例中,可以利用如下关系式,分别将各个有效音频帧与目标功率相乘,得到目标有效音频帧:

frae=const×frai

frae表示目标有效音频帧,const表示目标功率,frai表示有效音频帧。

s5244、对多个目标有效音频帧进行合并,得到有效音频数据。

对多个目标有效音频帧进行合并,得到有效音频数据,可以包括:

基于各个目标有效音频帧之间的重叠率,去除各个目标有效音频帧之间重叠的部分,并按照时间顺序对去除重叠部分后的有效音频帧进行合并,得到有效音频数据。

与步骤s5241-s5244相对应地,基于信号处理方法对所述有效音频数据进行音频增强的过程,可以包括:

s5245、对有效音频数据进行反相处理。

本实施例中,可以利用如下关系式,对有效音频数据进行反相处理:

z1=-z;

z表示有效音频数据,z1表示对有效音频数据进行反相处理后得到的音频数据,-z表示对有效音频数据进行反相处理。

s5246、对进行反相处理后得到的音频数据进行随机裁剪。

其中,对进行反相处理后得到的音频数据进行随机裁剪的过程,可以包括:

s52461、获得反相处理后得到的音频数据的总时长;

s52462、基于随机数算法,在0至总时长内随机选择r个不同的时刻,并对选择出的各个时刻进行大小排序,获得排序后的r个时刻,从反相处理后得到的音频数据中分别以各个时刻为起始点,选取设定时间长度的音频片段。

例如,若反相处理后得到的音频数据的总时长为4分钟,r为3,在0至4分钟内随机选择3个时刻,分别为第0.5分钟、第1分钟和第2分钟,设定时间长度为10秒,从反相处理后得到的音频数据中以第0.5分钟为起始点,选取10秒的音频片段,及以第1分钟为起始点,选取10秒的音频片段,及以第2分钟为起始点,选取10秒的音频片段。

对反相处理后得到的音频数据进行随机裁剪,得到多个较短的音频片段,可以方便后续处理,提高处理效率。

本实施例中,基于信号处理方法对有效音频数据进行音频增强的过程,也可以包括:

s5247、对有效音频数据进行翻转处理。

本实施例中,对有效音频数据进行翻转处理,可以理解为:

按照时间顺序,对有效音频数据进行逆序输出。例如,若有效音频数据为音频序列[1,2,3,4,5],按照时间顺序,对音频序列[1,2,3,4,5]进行逆序输出,得到音频序列[5,4,3,2,1]。

其中,可以利用如下关系式,对有效音频数据进行翻转处理:

z2=flip(z);

z表示有效音频数据,z2表示按照时间顺序,对有效音频数据进行逆序输出得到的音频数据,flip(z)表示按照时间顺序,对有效音频数据进行逆序输出。

s5248、对进行翻转处理后得到的音频数据进行随机裁剪。

对翻转处理得到的音频数据进行随机裁剪,得到多个音频片段,可以包括:

s52481、获得翻转处理后得到的音频数据的总时长;

s52482、基于随机数算法,在0至总时长内随机选择r个不同的时刻,并对选择出的各个时刻进行大小排序,获得排序后的r个时刻,从翻转处理后得到的音频数据中分别以各个时刻为起始点,选取设定时间长度的音频片段。

例如,若翻转处理后得到的音频数据的总时长为4分钟,r为3,在0至4分钟内随机选择3个时刻,分别为第0.5分钟、第1分钟和第2分钟,设定时间长度为10秒,从翻转处理后得到的音频数据中以第0.5分钟为起始点,选取10秒的音频片段,及以第1分钟为起始点,选取10秒的音频片段,及以第2分钟为起始点,选取10秒的音频片段。

对翻转处理后得到的音频数据进行随机裁剪,得到多个较短的音频片段,可以方便后续处理,提高处理效率。

基于信号处理方法对有效音频数据进行音频增强的过程,也可以包括:

s5249、对有效音频数据进行反相处理,并对反相处理后得到的音频数据进行翻转处理,得到待处理有效音频数据。

对有效音频数据进行反相处理的过程,可以参见步骤s5245的相关介绍,在此不再赘述。

对反相处理后得到的音频数据进行翻转处理的过程,可以参见步骤s5247的相关介绍,在此不再赘述。

s52410、对待处理有效音频数据进行随机裁剪。

对待处理有效音频数据进行随机裁剪的过程可以参见步骤s5248的相关介绍,在此不再赘述。

步骤s53、将符合设定数据格式的音频数据,及第一音频增强数据作为基准音频数据。

将符合设定数据格式的音频数据,及第一音频增强数据作为基准音频数据,使用于训练生成网络的基准音频数据的数据量得到扩充。

步骤s54、从数据源中随机选择音频数据,将选择到的音频数据作为随机音频数据。

步骤s55、基于信号处理方法对随机音频数据进行音频增强,获得第二音频增强数据。

本实施例中,基于信号处理方法对随机音频数据进行音频增强的过程中并未改变音频数据的音频属性,保证第二音频增强数据与随机音频数据的音频属性相同。

本实施例中,基于信号处理方法对随机音频数据进行音频增强的过程,可以参见基于信号处理方法对符合设定数据格式的音频数据进行音频增强的相关介绍,在此不再赘述。

步骤s56、将随机音频数据及第二音频增强数据,作为待处理音频数据。

将随机音频数据及第二音频增强数据,作为待处理音频数据,使用于训练生成网络的待处理音频数据的数据量得到扩充。

步骤s51-s56为实施例1中步骤s11的一种具体实施方式。

步骤s57、将待处理音频数据及基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据。

步骤s58、当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,确定鉴别网络输入数据,鉴别网络输入数据包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据;

步骤s59、将鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取鉴别结果;

步骤s510、当鉴别结果中子目标音频数据的鉴别结果为假时,则更新所述生成网络的内部参数。

步骤s57-s510的详细过程可以参见实施例1中步骤s12-s15的相关介绍,在此不再赘述。

本实施例中,基于信号处理方法对符合设定数据格式的音频数据及随机音频数据进行音频增强,获得与符合设定数据格式的音频属性相同的第一音频增强数据,及与随机音频数据的音频属性相同的第二音频增强数据,实现用于训练生成网络的音频数据的扩充,提高生成网络的训练性能。

作为本申请另一可选实施例,如图7所示,为本申请提供的一种音频数据增强方法实施例1的流程图,该方法可以包括但并不局限于以下步骤:

步骤s61、获取待处理音频数据。

待处理音频数据,可以理解为:任意一个音频数据。

步骤s62、调用生成网络,对待处理音频数据进行处理,以获得目标音频数据。

本实施例中,生成网络为基于方法实施例1-5中任意一个实施例所介绍的生成网络的训练方法训练得到的。

步骤s63、将目标音频数据作为音频数据增强数据。

本实施例中,能够调用训练完成的生成网络,对待处理音频数据进行处理,获得目标音频数据,将目标音频数据作为音频数据增强数据,实现对音频数据量的扩充。扩充得到的音频数据可以应用在不同的场景,比如,用于对神经网络模型进行训练,提高神经网络模型训练的性能。

接下来对本申请实施例提供的生成网络的训练装置进行介绍,下文介绍的生成网络的训练装置与上文介绍的生成网络的训练方法可相互对应参照。

请参见图8,生成网络的训练装置包括:选择模块100、第一获取模块200、确定模块300、第二获取模块400和更新模块500。

选择模块100,用于从数据源中选择待处理音频数据和基准音频数据;

第一获取模块200,用于将待处理音频数据及基准音频数据,输入到待训练生成式对抗网络中的生成网络,获得目标音频数据;

确定模块300,用于当生成网络中的目标音频数据与基准音频数据之间的差异在差异阈值范围内,确定鉴别网络输入数据,鉴别网络输入数据包括:从目标音频数据中获得的,符合变换域设定条件的子目标音频数据,以及,从基准音频数据中获得的,符合变换域设定条件的子基准音频数据;

第二获取模块400,用于将鉴别网络输入数据,输入到待训练生成式对抗网络中的鉴别网络,并获取鉴别结果;

第一更新模块500,用于当鉴别结果中子目标音频数据的鉴别结果为假时,则更新生成网络的内部参数。

本实施例中,确定模块300,具体可以用于:

基于预先设定的傅里叶变换函数,对所述目标音频数据进行变换,得到第一频域数据;

将所述第一频域数据中,处于设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据;

或,基于所述预先设定的傅里叶变换函数,对所述基准音频数据进行变换,得到第二频域数据;

将所述第二频域数据中,处于设定带宽范围内的频域数据,作为符合所述变换域设定条件的子基准音频数据。

本实施例中,确定模块300将所述第一频域数据中,在设定带宽范围内的频域数据,作为符合变换域设定条件的子目标音频数据,可以包括:

从所述第一频域数据中,在设定带宽范围内的频域数据中,提取设定类型的音频特征,将提取到的音频特征作为符合变换域设定条件的子目标音频数据;

所述将所述第二频域数据中,在所述设定带宽范围内的频域数据,作为符合所述变换域设定条件的子基准音频数据,包括:

从所述第二频域数据中,在所述设定带宽范围内的频域数据中,提取所述设定类型的音频特征,将提取到的音频特征作为符合所述变换域设定条件的子基准音频数据。

本实施例中,确定模块300,具体可以用于:

基于预先设定的常数q变化函数,对所述目标音频数据进行变化,得到第三频域数据;

从所述第三频域数据中,选取设定类型的数据,将选取出的数据作为符合变换域设定条件的子目标音频数据;

或,基于所述预先设定的常数q变化函数,对所述基准音频数据进行变化,得到第四频域数据;

从所述第四频域数据中,选取所述设定类型的数据,将选取出的数据作为符合所述变换域设定条件的子基准音频数据。

本实施例中,生成网络的训练装置,还可以包括:

第二更新模块,用于当所述生成网络中的所述目标音频数据与所述基准音频数据之间的差异不在差异阈值范围内,则更新所述生成网络的内部参数,并返回执行选择模块100所述从数据源中选择待处理音频数据和基准音频数据。

本实施例中,生成网络的训练装置,还可以包括:

训练模块,用于当将多组所述待处理音频数据及所述基准音频数据输入到待训练生成式对抗网络中的生成网络时,若多个所述鉴别结果中存在所述子目标音频数据的鉴别结果为假的鉴别结果,且所述子目标音频数据的鉴别结果为假的鉴别结果的比例未达到预设比例阈值,则对所述鉴别网络进行训练。

本实施例中,训练模块,具体可以用于:

更新所述鉴别网络的内部参数;

所述鉴别网络,鉴别训练子目标音频数据与训练子基准音频数据,得到鉴别结果;

所述训练子目标音频数据的确定过程为:将训练所述鉴别网络所需的待处理音频数据输入到所述生成网络,获得训练目标音频数据,并从所述训练目标音频数据中,获得符合所述变换域设定条件的数据,将获得的数据作为训练子目标音频数据;所述训练子基准音频数据的确定过程为:从训练所述鉴别网络所需的基准音频数据中,获得符合所述变换域设定条件的数据,将获得的数据作为训练子基准音频数据;

判断鉴别网络损失函数值是否在预设阈值范围内,所述鉴别网络损失函数值表征所述鉴别结果与预先设定的鉴别结果之间的差异;

若否,则返回执行所述更新所述鉴别网络的内部参数的步骤,直至所述鉴别网络损失函数值在所述预设阈值范围内。

本实施例中,生成网络的训练装置还可以包括:

判断模块,用于在对鉴别网络进行训练之后,或,在鉴别结果中子目标音频数据的鉴别结果为假,更新生成网络的内部参数之前,判断待训练生成式对抗网络是否满足训练结束条件;

若满足训练结束条件,则结束训练;

若不满足训练结束条件,则更新生成网络的内部参数。

判断待训练生成式对抗网络是否满足训练结束条件,可以包括:

判断鉴别结果中,子目标音频数据的鉴别结果为假是否收敛;

若收敛,则判断生成网络损失函数值是否收敛;

或,判断将子目标音频数据输出到鉴别网络的次数是否达到设定次数;

或,判断将子目标音频数据输出到鉴别网络的次数是否达到设定次数;

若未达到设定次数,则判断鉴别结果中,子目标音频数据的鉴别结果为假是否收敛;

若收敛,则判断生成网络损失函数值是否收敛。

本实施例中,选择模块100,具体可以用于:

从数据源中选择符合设定数据格式的音频数据,将选择到的音频数据作为基准音频数据;

从所述数据源中随机选择与所述基准音频数据的个数相同的音频数据,将选择到的音频数据作为待处理音频数据。

本实施例中,选择模块100,具体可以用于:

从数据源中选择符合设定数据格式的音频数据;

基于信号处理方法对符合所述设定数据格式的音频数据进行音频增强,获得第一音频增强数据,所述第一音频增强数据与所述符合所述设定数据格式的音频数据的音频属性相同;

将符合所述设定数据格式的音频数据,及所述第一音频增强数据作为基准音频数据;

或,从所述数据源中随机选择音频数据,将选择到的音频数据作为随机音频数据;

基于信号处理方法对所述随机音频数据进行音频增强,获得第二音频增强数据;

将所述随机音频数据及所述第二音频增强数据,作为待处理音频数据。

本实施例中,选择模块100基于信号处理方法对符合所述设定数据格式的音频数据或所述随机音频数据进行音频增强,可以包括:

检测所述符合所述设定数据格式的音频数据或所述随机音频数据中每个音频帧的能量;

基于每个音频帧的能量,从所述符合所述设定数据格式的音频数据或所述随机音频数据中筛选出低能量音频帧集合,所述低能量音频帧集合由设定个数的所述能量低于设定能量阈值的音频帧组成,且设定个数的所述能量低于设定能量阈值的音频帧为连续排布的音频帧;

将所述符合所述设定数据格式的音频数据或所述随机音频数据中除各个所述低能量音频帧集合中的音频帧之外的音频帧,作为有效音频帧;

对多个有效音频帧进行合并,得到有效音频数据,并基于信号处理方法对所述有效音频数据进行音频增强。

本实施例中,选择模块100对多个有效音频帧进行合并,得到有效音频数据,并基于信号处理方法对所述有效音频数据进行音频增强,可以包括:

基于各个所述有效音频帧的功率,确定多个所述有效音频帧的平均功率;

对所述平均功率进行归一化处理,并将归一化处理得到的功率作为目标功率;

分别将各个所述有效音频帧与所述目标功率相乘,得到目标有效音频帧;

对多个目标有效音频帧进行合并,得到有效音频数据;

对所述有效音频数据进行反相处理,和/或,翻转处理;

对进行反相处理,和/或,翻转处理后得到的音频数据进行随机裁剪。

在本申请的另一个实施例中,提供一种音频数据增强装置,包括:

获取模块,用于获取待处理音频数据;

处理模块,用于调用生成网络,对所述待处理音频数据进行处理,以获得目标音频数据,所述生成网络为基于方法实施例1-3中任意一个方法实施例所介绍的生成网络的训练方法训练得到的;

增强模块,用于将所述目标音频数据作为音频数据增强数据。

在本申请的另一个实施例中,提供一种电子设备,可以包括:

存储器,用于至少存储一组指令集;

处理器,用于调用并执行存储器中的指令集,通过执行指令集执行如方法实施例1-4中任意一个方法实施例所介绍的生成网络的训练方法的各步骤。

在本申请的另一个实施例中,提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行,实现如方法实施例1-4中任意一个方法实施例的生成网络的训练方法的各步骤。

需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过软件加相关的硬件来完成。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种生成网络的训练方法、音频数据增强方法及相关装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1