1.一种基于混合式多任务学习的环境声音识别方法,其特征在于,包括:
获取声音场景音频数据集和声音事件音频数据集,其中,所述声音场景音频数据集中包括多个声音场景音频数据,所述声音事件音频数据集中包括多个声音事件音频数据;
根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集,根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集;
将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集;
利用所述混合声谱图集对构建的多任务学习网络模型进行训练,得到预训练的模型参数;
对所述多任务学习网络模型的网络结构进行调整,以得到单任务学习网络模型;
使用所述预训练的模型参数对所述单任务学习网络模型进行初始化,并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练,以得到环境声音识别的最终模型。
2.根据权利要求1所述的方法,其特征在于,将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集,包括:
分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图;
将所述第一声谱图和所述第二声谱图按照加权相加的方式组合,得到一张混合声谱图,并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。
3.根据权利要求1所述的方法,其特征在于,
所述多任务学习网络模型的网络输入层上设置有多个共享的隐藏层,所述共享层之上连接声音场景识别分支和声音事件识别分支,所述声音场景识别分支用于输出场景识别结果,所述声音事件识别分支用于输出事件识别结果,所述声音场景识别分支和所述声音事件识别分支分别包括多个隐藏层和一个输出层,其中,所述声音场景识别分支和所述声音事件识别分支的预设隐藏层之间采用互连连接。
4.根据权利要求3所述的方法,其特征在于,对所述多任务学习网络模型的网络结构进行调整,以得到单任务学习网络模型,包括:
分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层,并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层;
在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层,将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加,输入所述新的输出层。
5.根据权利要求4所述的方法,其特征在于,使用所述预训练的模型参数对所述单任务学习网络模型进行初始化,并利用所述第一声谱图对所述单任务学习网络模型进行调优训练,包括:
采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层;
使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层;
使用所述第一声谱图集对所述单任务学习网络模型进行调优训练,调优训练过程中仅调整所述新的输出层和两个全连接层的连接权重,其他各层保持固化。
6.一种基于混合式多任务学习的环境声音识别装置,其特征在于,包括:
获取模块,用于获取声音场景音频数据集和声音事件音频数据集,其中,所述声音场景音频数据集中包括多个声音场景音频数据,所述声音事件音频数据集中包括多个声音事件音频数据;
生成模块,用于根据所述声音场景音频数据集中的音频数据生成对应的第一声谱图集,根据所述声音事件音频数据集中的音频数据生成对应的第二声谱图集;
混合模块,用于将所述第一声谱图集和所述第二声谱图集组合以得到混合声谱图集;
第一阶段训练模块,用于利用所述混合声谱图集对构建的多任务学习网络模型进行训练,得到预训练的模型参数;
模型调整模块,用于对所述多任务学习网络模型的网络结构进行调整,以得到单任务学习网络模型;
第二阶段训练模块,用于使用所述预训练的模型参数对所述单任务学习网络模型进行初始化,并利用所述第一声谱图集对所述单任务学习网络模型进行调优训练,以得到环境声音识别的最终模型。
7.根据权利要求6所述的装置,其特征在于,所述混合模块包括:
选取单元,用于分别从所述第一声谱图集和所述第二声谱图集中随机选取一张第一声谱图和一张第二声谱图;
组合单元,用于将所述第一声谱图和所述第二声谱图按照加权相加的方式组合,得到一张混合声谱图,并将所述第一声谱图和所述第二声谱图的独热标签作为附着在该张混合声谱图上的多标签。
8.根据权利要求6所述的装置,其特征在于,
所述多任务学习网络模型的网络输入层上设置有多个共享的隐藏层,所述共享层之上连接声音场景识别分支和声音事件识别分支,所述声音场景识别分支用于输出场景识别结果,所述声音事件识别分支用于输出事件识别结果,所述声音场景识别分支和所述声音事件识别分支分别包括多个隐藏层和一个输出层,其中,所述声音场景识别分支和所述声音事件识别分支的预设隐藏层之间采用互连连接。
9.根据权利要求8所述的装置,其特征在于,所述模型调整模块包括:
去除单元,用于分别去除所述声音场景识别分支上的输出层和所述声音事件识别分支上的输出层,并在所述声音场景识别分支和声音事件识别分支上分别添加一个全连接层;
添加单元,用于在所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层后添加一个新的输出层,将所述声音场景识别分支的全连接层和所述声音事件识别分支的全连接层输出相加,输入所述新的输出层。
10.根据权利要求9所述的装置,其特征在于,所述第二阶段训练模块包括:
第一初始化单元,用于采用随机数方式初始化所述单任务学习网络模型的新的输出层和两个全连接层;
第二初始化单元,用于使用所述预训练的模型参数初始化所述单任务学习网络模型的其他各层;
调优训练单元,用于使用所述第一声谱图集对所述单任务学习网络模型进行调优训练,调优训练过程中仅调整所述新的输出层和两个全连接层的连接权重,其他各层保持固化。