基于位置编码卷积神经网络的声音定位识别方法及装置

文档序号:29865218发布日期:2022-04-30 12:39阅读:137来源:国知局
基于位置编码卷积神经网络的声音定位识别方法及装置

1.本发明涉及音频处理技术领域,尤其涉及一种基于位置编码卷积神经网络的声音定位识别方法及装置。


背景技术:

2.声音事件定位和识别任务是对连续音频信号中连续或间断随机发生的各类声音事件进行有效的音源定位和音源的类别识别。近年来,以深度学习为代表的人工智能技术在各个领域都得到广泛应用,在音频信号处理领域依然不例外。
3.目前,传统卷积神经网络作为一种表征能力极强的深度神经网络,其被集成于各类音频信号处理算法。基于卷积神经网络的声音事件定位和识别算法中,传统卷积神经网络被广泛运用于音频信号处理的特征提取阶段。由于传统卷积神经网络具备一定的位移不变性,各类声音事件的特征可以被较为有效的提取。
4.虽然,现有技术中采用了传统卷积神经网络对声音事件进行定位和识别,表现出了优良的性能。但是,由于传统卷积神经网络对相对位置信息的保留能力较差,导致传统卷积神经网络提取的特征中无法有效剔除声音事件发生的时间位置信息干扰,导致传统卷积神经网络提取的特征存在时间位置信息干扰,从而难以保证声音事件定位结果和识别结果的准确性。


技术实现要素:

5.本发明提供一种基于位置编码卷积神经网络的声音定位识别方法及装置,用以解决现有技术中传统卷积神经网络提取的特征存在时间位置信息干扰,导致声音事件定位结果和识别结果不准确的缺陷,实现对声音事件进行准确定位和识别。
6.本发明提供一种基于位置编码卷积神经网络的声音定位识别方法,包括:
7.将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;
8.将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;
9.将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;
10.将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;
11.其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
12.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述特征提取模型包括第一子特征提取模型和第二子特征提取模型,所述特征向量包括第一子特征向量和第二子特征向量;
13.相应地,所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量,包括:
14.将所述目标声源信号和所述编码结果输入所述第一子特征提取模型,得到所述目标声源信号的第一子特征向量,将所述目标声源信号和所述编码结果输入所述第二子特征提取模型,得到所述目标声源信号的第二子特征向量;
15.其中,所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特征,所述第二子特征提取模型用于提取与所述目标声源信号的识别结果相关的特征。
16.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述特征提取模型包含至少一组位置信息保持模块和池化模块;
17.所述位置信息保持模块包含多个不同尺度的第一卷积模块,以及第二卷积模块;
18.多个不同尺度的第一卷积模块,用于对所述目标声源信号和所述编码结果进行多尺度特征提取,得到所述目标声源信号的多个不同尺度的特征向量;
19.第二卷积模块,用于对多个不同尺度的特征向量进行融合;
20.所述池化模块,用于对融合结果进行池化操作。
21.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述定位识别模型包括至少一组并行的第一transformer模型和第二transformer模型;
22.每组所述第一transformer模型用于对所述目标声源信号的每一声音事件进行定位;
23.每组所述第二transformer模型用于对所述目标声源信号的每一声音事件进行识别。
24.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,在所述将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果之前,还包括:
25.对所述样本声源信号进行初步数据增强后,进行初步特征提取,得到所述样本声源信号的初步特征向量;
26.和/或,对所述样本声源信号的初步特征向量中的部分特征向量,进行再次数据增强;
27.根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量,以及所述样本声源信号对应的参考定位结果和参考识别结果对所述多任务模型进行训练。
28.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述初步特征向量包括对数梅尔声谱特征向量和强度特征向量;
29.相应地,对所述样本声源信号的初步特征向量中的部分特征向量,进行再次数据增强,包括:
30.对所述初步特征向量中的对数梅尔声谱特征向量,进行梅尔声谱数据增强。
31.根据本发明提供的一种基于位置编码卷积神经网络的声音定位识别方法,所述初步数据增强包括按照一种或多种方向对所述样本声源信号进行旋转,和/或对不同类别的样本声源信号进行随机叠加数据增强。
32.本发明还提供一种基于位置编码卷积神经网络的声音定位识别装置,包括:
33.编码模块,用于将目标声源信号输入多任务模型中的编码模型,得到所述目标声
源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;
34.特征提取模块,用于将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;
35.解码模块,用于将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;
36.定位识别模块,用于将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;
37.其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
38.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于位置编码卷积神经网络的声音定位识别方法的步骤。
39.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于位置编码卷积神经网络的声音定位识别方法的步骤。
40.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于位置编码卷积神经网络的声音定位识别方法的步骤。
41.本发明提供的基于位置编码卷积神经网络的声音定位识别方法及装置,该方法一方面通过对目标声源信号进行位置信息编码后进行特征提取,以消除特征向量中的时间位置信息干扰,并从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,从而有效提高目标声源信号的定位精度和识别精度;另一方面,使用多任务模型同时对定位任务和识别任务进行共同学习,充分考虑定位任务和识别任务之间的相关性和差异性,进一步提高目标声源信号的定位精度和识别精度。
附图说明
42.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1是本发明提供的基于位置编码卷积神经网络的声音定位识别方法的流程示意图之一;
44.图2是本发明提供的基于位置编码卷积神经网络的声音定位识别方法中特征提取模型的结构示意图;
45.图3是本发明提供的基于位置编码卷积神经网络的声音定位识别方法中位置信息保持模块的结构示意图;
46.图4本发明提供的基于位置编码卷积神经网络的声音定位识别方法的流程示意图之二;
47.图5是本发明提供的基于位置编码卷积神经网络的声音定位识别装置的结构示意图;
48.图6是本发明提供的电子设备的结构示意图。
具体实施方式
49.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.在本技术的描述中,“第一”和“第二”等相关描述,仅用于区分描述,而不能理解为指示或暗示相对重要性。
51.下面结合图1描述本实施例的基于位置编码卷积神经网络的声音定位识别方法,该方法包括:
52.步骤101,将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;
53.其中,本实施例中的基于位置编码卷积神经网络的声音定位识别方法可应用于水下监测、安防监控、医疗监护、智能家居,城市智能化管理等领域;
54.本实施例中的基于位置编码卷积神经网络的声音定位识别方法可应用于不同的系统或设备,如执行器;执行器可以是智能终端,如手机终端、平板电脑、笔记本电脑和车载终端等,还可以是服务器或云端等,本实施例对此不作具体地限定。
55.目标声源信号为待进行定位和识别的声音事件,可以是水声、车辆运行声音、脚步声音等其他声音,可以是单一类别的声音事件,也可以是两种混叠的声音事件等,本实施例对此不作具体地限定。
56.需要说明的是,目标声源信号可以是基于声音采集设备实时采集获取,也可以是声音采集设备的本地存储中获取。本实施例不对目标声源信号的来源作具体限定。
57.其中,多任务模型用于处理目标声源信号的定位任务和目标声源信号的识别任务;编码模型用于对所述目标声源信号进行位置信息编码。
58.可选地,在对目标声源信号进行定位和识别之前,需要对多任务模型进行训练。在多任务模型训练阶段,通常输入一定时长的连续音频作为样本声源信号,该时长内各类声音事件随机发生,通过多任务模型提取各类声音事件的特征信息,最后将输出结果与标签比对完成训练,形成最优的多任务模型。
59.可选地,在获取到目标声源信号后,可以直接将目标声源信号输入多任务模型中的编码模型中;也可以对目标声源信号进行一种或多种处理,如对目标声源信号进行初步特征提取,获取对数梅尔声谱特征向量和强度特征向量;然后,再输入多任务模型中的编码模型中,本实施例对此不作具体地限定。
60.可选地,将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果的公式为:
[0061][0062]
其中,t
ij
为编码结果中第i个时间序列第j维特征的编码结果;a为编码系数;n为目标声源信号的时间序列总长度。编码结果的时间序列总长度、特征维度与目标声源信号保
持一致,以组合成易于输入多任务模型中的特征提取模型的编码特征。
[0063]
其中,编码系数可以根据实际需求进行设置,如a=0.75;也可以通过优化算法优化获取,本实施例对此不做具体地限定。
[0064]
通过对目标声源信号进行位置信息编码,可以消除编码结果中时间位置信息的干扰。
[0065]
步骤102,将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;
[0066]
其中,特征提取模型可以是卷积神经网络模型等,本实施例对此不作具体地限定。
[0067]
特征提取模型可以是多任务特征提取模型,即包含与定位任务相关的特征提取模型和与识别任务相关的特征提取模型;也可以是单任务特征提取模型,即用于提取即可用于分类任务,也可用于识别任务的综合特征。本实施例不对特征提取模型的结构做具体地限定。
[0068]
可选地,对目标声源信号进行位置信息编码后,可以将目标声源信号和编码结果进行组合形成输入信息,然后将输入信息输入多任务模型中的特征提取模型,得到目标声源信号的特征向量。
[0069]
本实施例中通过在多任务模型中加入编码模型,用于对声音事件发生的时间位置信息进行编码,并将目标声源信号和编码结果输入多任务模型中的特征提取模型,使得提取特征时可以消除位置偏差,以更好地提取同一时间段内各个时间点发生的声音事件的特征,从而解决现有技术中由传统的卷积神经网络的不完全位移不变性引起的特征提取偏差导致的鲁棒性差等问题;实现更准确地提取声音事件的有效特征,并易于在实际应用场景中进行推广,进一步提高声音定位和识别的精度。
[0070]
步骤103,将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;
[0071]
可选地,在获取到目标声源信号的特征向量后,可以将特征向量输入多任务模型中的解码模型中,对特征向量进行反向解码,以得到解码结果。
[0072]
其中,将目标声源信号的特征向量输入多任务模型中的解码模型,得到所述目标声源信号的解码结果的公式为:
[0073][0074]
其中,f
ij
为解码结果中第i个时间序列第j维特征的解码结果;f
ij
为所述特征向量中的第i个时间序列第j维特征;a为编码系数;m为所述特征向量的时间序列总长度。
[0075]
步骤104,将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;
[0076]
其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
[0077]
其中,定位识别模型包括定位模型和识别模型;
[0078]
定位结果中包括目标声源信号的水平角和俯仰角;识别结果中包含目标声源信号的类别,如车辆运行声音、狗叫声音或猫叫声音等。
[0079]
可选地,在获取到目标声源信号的解码结果后,可以将编码结果分别输入定位模
型和识别模型进行再次特征提取;然后,通过定位模型和识别模型的全连接层输出定位结果和识别结果。
[0080]
需要说明的定位模型的输出结果中可以包含目标声源信号不重叠发生的单一声音事件发生或重叠发生的两个声音事件的音源定位信息;识别模型的输出结果也包含不重叠发生的单一声音事件发生或重叠发生的两个声音事件的音源识别信息。
[0081]
例如,若目标声源信号中仅包含单一的狗叫声音事件,则识别模型输出的是目标声源信号的类别为狗叫声音;定位模型输出的是狗叫声音事件发生的水平角和俯仰角;
[0082]
若目标声源信号中包含重叠发生的狗叫声音事件和猫叫声音事件,则识别模型输出的是目标声源信号中狗叫声音事件的类别为狗叫声音,猫叫声音事件的类别为猫叫声音;定位模型输出的是狗叫声音事件发生的水平角和俯仰角,以及猫叫声音事件发生的水平角和俯仰角。
[0083]
现有的声音定位和识别方法并未考虑传统卷积神经网络对相对位置信息保留能力较差,不全面的位移不变性,而是直接将其作为特征提取工具,导致对不同时段发生的声音事件提取到的特征中携带位置偏见信息,导致传统卷积神经网络无法有效剔除声音事件发生的时间位置信息干扰,进而不能加深卷积神经网络达到更优异的特征提取效果,最终导致训练模型精度提升壁垒,降低卷积神经网络的鲁棒性,在应对短暂、相似事件的定位与识别时面临精度欠缺等问题。
[0084]
而本实施例通过编码模型和特征提取模型的组合共同进行特征提取,有效消除特征向量中的时间位置信息干扰,并从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,可以更好地完成声音事件的特征提取,可以达到更强的定位和识别性能,更利于实际应用。并且利用多任务模型学习目标声源信号的定位任务和识别任务之间的隐含关系,可以有效提升目标声源信号的定位结果和识别结果的精度。
[0085]
本实施例一方面通过对目标声源信号进行位置信息编码后进行特征提取,以消除特征向量中的时间位置信息干扰,并从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,从而有效提高目标声源信号的定位精度和识别精度;另一方面,使用多任务模型同时对定位任务和识别任务进行共同学习,充分考虑定位任务和识别任务之间的相关性和差异性,进一步提高目标声源信号的定位精度和识别精度。
[0086]
在上述实施例的基础上,本实施例中所述特征提取模型包括第一子特征提取模型和第二子特征提取模型,所述特征向量包括第一子特征向量和第二子特征向量;相应地,所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量,包括:将所述目标声源信号和所述编码结果输入所述第一子特征提取模型,得到所述目标声源信号的第一子特征向量,将所述目标声源信号和所述编码结果输入所述第二子特征提取模型,得到所述目标声源信号的第二子特征向量;其中,所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特征,所述第二子特征提取模型用于提取与所述目标声源信号的识别结果相关的特征。
[0087]
其中,特征提取模型为双路并行的卷积神经网络模型;其中一路为第一子特征提取模型,用于提取与所述目标声源信号的定位结果相关的特征;另一路为第二子特征提取模型,用于提取与所述目标声源信号的识别结果相关的特征。每一路负责定位或识别单个任务的特征提取。
[0088]
其中,第一子特征提取模型的结构与第二子特征提取模型的结构相同,但其内部的参数不同。
[0089]
由于,定位任务和识别任务在一定程度存在一定的关联性,因此为相关的任务;第一子特征提取模型和第二子特征提取模型之间加入多任务学习的交互模块,便于第一子特征提取模型和第二子特征提取模型互相利用定位任务和识别任务的知识来提高特征提取模型的性能。
[0090]
可选地,将目标声源信号和编码结果合并形成的输入信息,分别输入第一子特征提取模型和第二子特征提取模型,分别得到第一子特征提取模型输出的第一子特征向量和第二子特征提取模型输出的第二子特征向量;
[0091]
然后,分别对第一子特征向量和第二子特征向量进行解码,将第一子特征向量的解码结果输入定位模型中,输出目标声源信号的定位结果;将第二子特征向量的解码结果输入识别模型中,输出目标声源信号的识别结果。
[0092]
本实施例通过第一子特征提取模型和第二子特征提取模型,并行对目标声源信号和编码结果形成的输入信息进行特征提取,以提取与所述目标声源信号的定位结果相关的第一子特征向量,和与所述目标声源信号的识别结果相关的第二子特征向量;进而使得第一子特征向量包含更加有效的,用于影响定位任务本质特征;使得第二子特征向量包含更加有效的,用于影响识别任务本质特征,进而使得定位结果和识别结果更加准确。
[0093]
在上述实施例的基础上,本实施例中所述特征提取模型包含至少一组位置信息保持模块和池化模块;所述位置信息保持模块包含多个不同尺度的第一卷积模块,以及第二卷积模块;多个不同尺度的第一卷积模块,用于对所述目标声源信号和所述编码结果进行多尺度特征提取,得到所述目标声源信号的多个不同尺度的特征向量;第二卷积模块,用于对多个不同尺度的特征向量进行融合;所述池化模块,用于对融合结果进行池化操作。
[0094]
其中,特征提取模型中包含一组或多组位置信息保持模块和池化模块,具体组数可以根据实际需求进行设置。
[0095]
如图2所示,特征提取模型包含多组位置信息保持模块和池化模块;在每一组中,将位置信息保持模块blook的输出作为池化模块输入;在多组中,将上一组池化模块的输出作为下一组位置信息保持模块blook的输入。
[0096]
其中,池化模块可以是最大池化,也可以是平均池化avgpool,本实施例对此不作具体地限定。
[0097]
每一位置信息保持模块包含多个不同尺度的第一卷积模块以及第二卷积模块;
[0098]
其中,每一位置信息保持模块中包含的第一卷积模块的数量、布设位置,以及卷积核的大小和步长等均可以根据实际需求进行设置,本实施例对此不作具体地限定。
[0099]
如图3所示为信息保持模块的一种示例性的结构,信息保持模块包括多个卷积模块分别为a1、a2、b1、b2、b3;其中,a1、a2、b1和b2模块的卷积核大小均为3x3,步长均为1;b3模块的卷积核大小为3x3,步长为2;
[0100]
其中,通过对a1、a2、b1、b2、b3进行布设可构成多个不同尺度的第一卷积模块。
[0101]
可选地,将a1和b1进行顺序连接构成一个不同尺度的第一卷积模块f1;将a1和a2并行连接后与b2顺序连接构成一个不同尺度的第一卷积模块f2;将b3作为一个不同尺度的第一卷积模块f3;
[0102]
将c1作为第二卷积模块,c1模块的卷积核大小均为1x1。
[0103]
可选地,对目标声源信号和编码结果合并形成的输入信息进行特征提取的步骤包括,
[0104]
首先,将目标声源信号和编码结果合并形成的输入信息分别输入第一卷积模块f1、f2和f3中;
[0105]
然后,将第一卷积模块f1、f2、f3输出的不同尺度特征向量以及输入信息输入到第二卷积模块c1中,进行特征融合;
[0106]
然后,再通过池化模块对融合结果进行池化操作;
[0107]
然后,重复上述特征提取过程,再将池化操作结果作为输入信息,并输入下一组的第一卷积模块中,提取不同尺度的特征向量,直到所有组均完成特征提取;
[0108]
最后,将最后一组的池化模块输出的特征向量作为目标声源信号的特征向量。
[0109]
综上,目标声源信号经过编码模型和特征提取模型后将输出高层次的特征向量,有效提高目标声源信号的定位精度和识别精度。
[0110]
需要说明的是,第一子特征提取模型和第二子特征提取模型的均与上述描述的特征提取模型的结构相同,特征提取过程相同。
[0111]
本实施例中采用位置信息保持模块,一方面可以挖掘多个不同尺度的特征向量,以完整表征目标声源信号的各尺度的特征向量,并融合多个不同尺度的特征向量表征与目标声源信号的定位任务相关或识别任务相关的特征向量,以提高目标声源信号的定位精度和识别精度;另一方面,整个位置信息保持模块在实现了多样化特征融合的同时没有打破各层卷积结构的特征相对位置关系。
[0112]
在上述各实施例的基础上,本实施例中所述定位识别模型包括至少一组并行的第一transformer模型和第二transformer模型;每组所述第一transformer模型用于对所述目标声源信号的每一声音事件进行定位;每组所述第二transformer模型用于对所述目标声源信号的每一声音事件进行识别。
[0113]
其中,每组第一transformer模型用于对目标声源信号的一种声音事件进行定位;
[0114]
每组第二transformer模型用于对目标声源信号的一种声音事件进行识别。
[0115]
可选地,定位识别模型可以包含一组或多组并行的第一transformer模型和第二transformer模型,本实施例对此不作具体地限定。
[0116]
例如,在对单一声音事件进行定位和识别时,可采用包含一组第一transformer模型和第二transformer模型的定位识别模型对目标声源信号中的单一声音事件进行定位和识别。
[0117]
在对两种重叠声音事件进行定位和识别时,可采用包含两组第一transformer模型和第二transformer模型的定位识别模型对目标声源信号中的两种声音事件进行定位和识别。
[0118]
此时,定位识别模型共包含4个并行的transformer模型,分别用于进一提取目标声源信号中声音事件1的定位特征和识别特征,以及声音事件2的定位特征和识别特征;然后,将声音事件1的定位特征和识别特征及声音事件2的定位特征和识别特征输入4个全连接神经网络进行结果输出,输出结果为声音事件1的定位结果和识别结果及声音事件2的定位结果和识别结果。其中,transformer模型采用8头2层的结构,全连接采用单层结构。
[0119]
本实施例中定位识别模型包括至少一组并行的第一transformer模型和第二transformer模型,使得定位识别模型既可以对单一声音事件进行定位和识别,也可以对叠加的声音事件进行定位和识别,可以更好地应对重叠发生的声音事件的定位与识别,适用范围广。
[0120]
在上述各实施例的基础上,本实施例中在所述将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果之前,还包括:对所述样本声源信号进行初步数据增强后,进行初步特征提取,得到所述样本声源信号的初步特征向量;和/或,对所述样本声源信号的初步特征向量中的部分特征向量,进行再次数据增强;根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量,以及所述样本声源信号对应的参考定位结果和参考识别结果对所述多任务模型进行训练。
[0121]
其中,样本声源信号可以是从声音采集设备的本地存储中选择的预设时长的音频信号;预设时长可以根据实际进行设置。
[0122]
声音采集设备可以是foa(first-order ambisonics,一阶高保真度立体声响)录音设备等,本实施例对此不作具体地限定;相应地,样本声源信号的格式可以是foa格式的音频信号;
[0123]
其中,foa录音设备可采集x方向、y方向、z方向和全向音频通道四个通道的音频信号。
[0124]
可选地,在将目标声源信号输入多任务模型,对其进行定位和识别之前,需要对多任务模型进行训练;
[0125]
为了扩充训练集,提升样本在不同环境中的鲁棒性,使得训练后的多任务模型可自适应背景干扰,鲁棒性、泛化性和兼容性更强,本实施例在对多任务模型进行训练时,首先,对样本声源信号进行初步数据增强;
[0126]
其中,初步数据增强包括几何变换、噪声增强、时移增强、相同类别增强等,本实施例对此不作具体地限定。
[0127]
然后,再对初步数据增强后的样本声源信号进行初步特征提取,得到样本声源信号的初步特征向量。
[0128]
和/或,对初步特征向量中的部分特征进行再次数据增强;
[0129]
然后,根据样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量确定样本输入信息;
[0130]
将样本输入信息依次输入多任务模型的编码模型、特征提取模型、解码模型和定位识别模型后,获取样本声源信号的预测定位结果和预测识别结果;
[0131]
将样本声源信号的预测定位结果与参考定位结果进行比较,获取定位模型对应的损失函数,以及将预测识别结果与参考识别结果进行比较,获取识别模型对应的损失函数;联合识别模型和定位模型对应的损失函数,共同对多任务模型进行训练,直到满足多任务模型训练的停止条件。
[0132]
其中,联合识别模型和定位模型对应的损失函数的方式,可以是直接将识别模型和定位模型对应的损失函数相加作为整体损失函数;也可以是将识别模型和定位模型对应的损失函数进行加权相加,以平衡整个多任务模型的损失函数,本实施例对此不作具体地限定。
[0133]
需要说明的是,对于可用于对叠加声音事件进行定位和识别的多任务模型,多任务模型的叠加训练可采用置换性不变方式完成。
[0134]
训练后的多任务模型可以用于声音事件的定位和识别,由于样本声源信号在经过数据增强后包含不同方向和不同环境下的样本声源信号,且对数据增强后的样本声源信号进行特征提取,可提取用于表征样本声源信号的识别任务和分类任务相关的有效特征,进而使得训练后的多任务模型可自适应背景干扰,鲁棒性、泛化性和兼容性更强,有效提高多任务模型定位精度和识别精度,可以更好地应对重叠发生的声音事件的定位与识别。
[0135]
在上述实施例的基础上,本实施例中所述初步特征向量包括对数梅尔声谱特征向量和强度特征向量;相应地,对所述样本声源信号的初步特征向量中的部分特征向量,进行再次数据增强,包括:对所述初步特征向量中的对数梅尔声谱特征向量,进行梅尔声谱数据增强。
[0136]
其中,本实施例中的初步特征向量不局限于对数梅尔声谱特征向量和强度特征向量,也可以采用其他可表征目标声源信号的特征向量。
[0137]
可选地,对样本声源信号的初步特征向量,获取样本声源信号的初步特征向量;
[0138]
然后,对初步特征向量中的数梅尔声谱特征向量,进行梅尔声谱数据增强specaugment;
[0139]
其中,specaugment是一种对数梅尔声谱层面上的数据增强方法,可以将模型训练的过拟合问题转化为欠拟合问题,以便通过大网络和长时训练策略来缓解欠拟合问题,提升模型的识别效果和定位效果。
[0140]
最后,将样本声源信号的初步特征向量和/或增强后的数梅尔声谱特征向量作为样本输入信息,对多任务模型进行训练。
[0141]
在上述实施例的基础上,本实施例中所述初步数据增强包括按照一种或多种方向对所述样本声源信号进行旋转,和/或对不同类别的样本声源信号进行随机叠加数据增强。
[0142]
其中,按照一种或多种方向对所述样本声源信号进行旋转的方式为,获取到的foa格式的样本声源信号包含x方向、y方向、z方向和全向音频通道w四个通道的音频信号。各通道的音频信号初始状态为(α,β),其中α为方位角,β为俯仰角;
[0143]
将一个或多个通道的音频信号进行一种或多种方向的旋转,得到增强的样本声源信号;
[0144]
其中,旋转的方位包括(α-π/2,β),(α-π/2,-β),(α,-β),(α+π/2,β),(α+π/2,-β),(-α-π/2,β),(-α-π/2,-β),(-α,β),(-α,-β),(-α+π/2,β),(-α+π/2,-β),(-α+π,β),(-α+π,-β),(α+π,β),(α+π,-β)等15个方向的旋转;
[0145]
其中,对不同类别的样本声源信号进行随机叠加数据增强的方式为,以一定的概率对训练集中的样本声源信号进行随机叠加数据增强。其中,概率可以根据实际需求进行设置,如概率p=0.6。
[0146]
可选地,在每一批次中筛选出整个时长只发生单一事件的所有样本声源信号,数量为m;筛选后剩余的样本声源信号x0的数量为q。令x1为筛选出样本m中的k个样本,x2为筛选出m个样本中的除外x1的k个样本,x3为除筛选出样本x1和x2外的v个样本,x为数据增强后的整个批次中的所有样本,样本总量为b。数据增强和样本量关系如下:
[0147][0148]
其中,rand(α1,α2)为随机生成α1a1到α2之间的浮点数。
[0149]
例如,每一批次样本总数为60个,每一批次只发生单一事件的所有样本声源信号的数量为32个,则k=15;x1中包含15个样本,x2中包含15个样本,x3中包含2个样本,将x1中的15个样本与x2中15个样本进行随机叠加,得到叠加后的样本,更新x1;然后,将更新后的x1,以及x0、x2和x3作为本批次增强后的样本声源信号。
[0150]
不同于现有的声音事件定位和检测方法,本实施例采用方位增强和随机组合叠加的方式进行重叠事件的增强训练,可以更好地定位和识别重叠发生的声音事件。
[0151]
如图4所示,为本实施例中基于位置编码卷积神经网络的声音定位识别方法的完整流程示意图,训练阶段的具体步骤包括,
[0152]
步骤1,将样本声源信号按照多个方位进行旋转数据增强;
[0153]
步骤2,将旋转数据增强后的样本声源信号进行随机叠加数据增强;
[0154]
步骤3,对随机叠加数据增强后的样本声源信号进行特征提取,获取数梅尔声谱特征向量和强度特征向量,并对数梅尔声谱特征向量进行对数梅尔声谱数据增强;
[0155]
步骤4,将强度特征向量和增强后的对数梅尔声谱特征向量进行组合形成输入信息,并将输入信息输入编码模型后,输入特征提取模型,得到样本声源信号的特征向量;
[0156]
步骤5,将样本声源信号的特征向量输入解码模型进行位置信息解码,得到样本声源信号的解码结果;然后,将解码结果输入定位模型和识别模型中再次进行特征提取后,通过定位模型和识别模型的全连接层输出预测结果;预测结果包括定位结果和识别结果;
[0157]
步骤6,将预测结果与样本声源信号的标签进行对比,并对多任务模型进行训练。
[0158]
本实施例通过将部分非重叠事件随机组合成重叠事件作为增强音频信号,对增强音频信号进行初级特征提取,再采用编码模型和特征提取模型,提取消除位置偏见的特征向量。并将消除位置偏见后的特征向量送入定位模型和识别模型,并将多任务模型的输出结果与标签比对完成多任务模型的训练。训练后的多任务模型可有效完成声音事件定位和识别任务。
[0159]
下面对本发明提供的基于位置编码卷积神经网络的声音定位识别装置进行描述,下文描述的基于位置编码卷积神经网络的声音定位识别装置与上文描述的基于位置编码卷积神经网络的声音定位识别方法可相互对应参照。
[0160]
如图5,本实施例提供一种基于位置编码卷积神经网络的声音定位识别装置,该装置包括编码模块501、特征提取模块502、解码模块503和定位识别模块504,其中:
[0161]
编码模块501,用于将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;
[0162]
可选地,在对目标声源信号进行定位和识别之前,需要对多任务模型进行训练。在
多任务模型训练阶段,通常输入一定时长的连续音频作为样本声源信号,该时长内各类声音事件随机发生,通过多任务模型提取各类声音事件的特征信息,最后将输出结果与标签比对完成训练,形成最优的多任务模型。
[0163]
可选地,在获取到目标声源信号后,可以直接将目标声源信号输入多任务模型中的编码模型中;也可以对目标声源信号进行一种或多种处理,如对目标声源信号进行初步特征提取,获取对数梅尔声谱特征向量和强度特征向量;然后,再输入多任务模型中的编码模型中,本实施例对此不作具体地限定。
[0164]
可选地,将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果的公式为:
[0165][0166]
其中,t
ij
为编码结果中第i个时间序列第j维特征的编码结果;a为编码系数;n为目标声源信号的时间序列总长度。编码结果的时间序列总长度、特征维度与目标声源信号保持一致,以组合成易于输入多任务模型中的特征提取模型的编码特征。
[0167]
其中,编码系数可以根据实际需求进行设置,如a=0.75;也可以通过优化算法优化获取,本实施例对此不做具体地限定。
[0168]
通过对目标声源信号进行位置信息编码,可以消除编码结果中时间位置信息的干扰。
[0169]
特征提取模块502,用于将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;
[0170]
其中,特征提取模型可以是卷积神经网络模型等,本实施例对此不作具体地限定。
[0171]
特征提取模型可以是多任务特征提取模型,即包含与分类任务相关的特征提取模型和与识别任务相关的特征提取模型;也可以是单任务特征提取模型,即用于提取即可用于分类任务,也可用于识别任务的综合特征。本实施例不对特征提取模型的结构做具体地限定。
[0172]
可选地,对目标声源信号进行位置信息编码后,可以将目标声源信号和编码结果进行组合形成输入信息,然后将输入信息输入多任务模型中的特征提取模型,得到目标声源信号的特征向量。
[0173]
解码模块503,用于将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;
[0174]
可选地,在获取到目标声源信号的特征向量后,可以将特征向量输入多任务模型中的解码模型中,以对特征向量进行反向解码,已得到解码结果。
[0175]
其中,将目标声源信号的特征向量输入多任务模型中的解码模型,得到所述目标声源信号的解码结果的公式为:
[0176][0177]
其中,f
ij
为解码结果中第i个时间序列第j维特征的解码结果;f
ij
为所述特征向量中的第i个时间序列第j维特征;a为编码系数;m为所述特征向量的时间序列总长度。
[0178]
定位识别模块504,用于将所述目标声源信号的解码结果输入所述多任务模型中
的定位识别模型,得到所述目标声源信号的定位结果和识别结果;
[0179]
其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
[0180]
定位结果中包括目标声源信号的水平角和俯仰角;识别结果中包含目标声源信号的类别,如车辆运行声音、狗叫声音或猫叫声音等。
[0181]
可选地,在获取到目标声源信号的解码结果后,可以将编码结果分别输入定位模型和识别模型进行再次特征提取;然后,通过定位模型和识别模型的全连接层输出定位结果和识别结果。
[0182]
需要说明的定位模型的输出结果中可以包含目标声源信号不重叠发生的单一声音事件发生或重叠发生的两个声音事件的音源定位信息;识别模型的输出结果也包含不重叠发生的单一声音事件发生或重叠发生的两个声音事件的音源识别信息。
[0183]
本实施例一方面通过对目标声源信号进行位置信息编码后进行特征提取,以消除特征向量中的时间位置信息干扰,并从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征,从而有效提高目标声源信号的定位精度和识别精度;另一方面,使用多任务模型同时对定位任务和识别任务进行共同学习,充分考虑定位任务和识别任务之间的相关性和差异性,进一步提高目标声源信号的定位精度和识别精度。
[0184]
在上述实施例的基础上,本实施例中所述特征提取模型包括第一子特征提取模型和第二子特征提取模型,所述特征向量包括第一子特征向量和第二子特征向量;相应地,特征提取模块,具体用于:将所述目标声源信号和所述编码结果输入所述第一子特征提取模型,得到所述目标声源信号的第一子特征向量,将所述目标声源信号和所述编码结果输入所述第二子特征提取模型,得到所述目标声源信号的第二子特征向量;其中,所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特征,所述第二子特征提取模型用于提取与所述目标声源信号的识别结果相关的特征。
[0185]
在上述实施例的基础上,本实施例中所述特征提取模型包含至少一组位置信息保持模块和池化模块;所述位置信息保持模块包含多个不同尺度的第一卷积模块,以及第二卷积模块;多个不同尺度的第一卷积模块,用于对所述目标声源信号和所述编码结果进行多尺度特征提取,得到所述目标声源信号的多个不同尺度的特征向量;第二卷积模块,用于对多个不同尺度的特征向量进行融合;所述池化模块,用于对融合结果进行池化操作。
[0186]
在上述各实施例的基础上,本实施例中所述定位识别模型包括至少一组并行的第一transformer模型和第二transformer模型;每组所述第一transformer模型用于对所述目标声源信号的每一声音事件进行定位;每组所述第二transformer模型用于对所述目标声源信号的每一声音事件进行识别。
[0187]
在上述各实施例的基础上,本实施例中还包括训练模块,用于:对所述样本声源信号进行初步数据增强后,进行初步特征提取,得到所述样本声源信号的初步特征向量;和/或,对所述样本声源信号的初步特征向量中的部分特征向量,进行再次数据增强;根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量,以及所述样本声源信号对应的参考定位结果和参考识别结果对所述多任务模型进行训练。
[0188]
在上述实施例的基础上,本实施例中所述初步特征向量包括对数梅尔声谱特征向量和强度特征向量;相应地,训练模块中的数据增强模块,用于:对所述初步特征向量中的
对数梅尔声谱特征向量,进行梅尔声谱数据增强。
[0189]
在上述实施例的基础上,本实施例中所述初步数据增强包括按照一种或多种方向对所述样本声源信号进行旋转,和/或对不同类别的样本声源信号进行随机叠加数据增强。
[0190]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(communications interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行基于位置编码卷积神经网络的声音定位识别方法,该方法包括:将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
[0191]
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0192]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于位置编码卷积神经网络的声音定位识别方法,该方法包括:将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;将所述目标声源信号的特征向量输入所述多任务模型中的解码模型,得到所述目标声源信号的解码结果;将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
[0193]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于位置编码卷积神经网络的声音定位识别方法,该方法包括:将目标声源信号输入多任务模型中的编码模型,得到所述目标声源信号的编码结果;其中,所述编码模型用于对所述目标声源信号进行位置信息编码;将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型,得到所述目标声源信号的特征向量;将所述目标声源信号的特征向量输入所述多任务模型中
的解码模型,得到所述目标声源信号的解码结果;将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型,得到所述目标声源信号的定位结果和识别结果;其中,所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。
[0194]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0195]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0196]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1