无人机拾音方法、装置、无人机及计算机可读存储介质与流程

文档序号:32165960发布日期:2022-11-12 04:35阅读:481来源:国知局
无人机拾音方法、装置、无人机及计算机可读存储介质与流程

1.本发明涉及无人机拾音技术领域,尤其是涉及一种无人机拾音方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.在无人机飞行的过程中存在明显的自噪声,包括稳态的无人机机械噪声,以及非稳态的螺旋桨旋转时产生的桨噪和螺旋桨引起空气流动产生的风噪。无人机的自噪声普遍大于90分贝,远远大于所接收到的人声等有效声音,而且有效声音从地面声源到无人机麦克风的传播距离较长,有效声音在空气中的传播存在衰减。在此低信噪比的环境下,挂载在无人机上的麦克风所接收到的有效声音信号被淹没在无人机的自噪声中,无人机麦克风难以有效采集到的有效声音信号。


技术实现要素:

3.本发明的目的在于克服现有技术的缺点与不足,提供一种无人机拾音方法,能够削弱人机的自噪声,提高声音信号的信噪比,从而无人机麦克风能够有效采集到有效声音信号。
4.本发明是通过以下技术方案实现的:一种无人机拾音方法,包括如下步骤:获取待处理的原始声音信号;对所述原始声音信号进行初步降噪处理,得到增强声音信号;将所述增强声音信号输入降噪神经网络进行处理,得到有效声音信号;其中,所述降噪神经网络包括编码器和解码器,所述编码器包括多个依次连接的下采样模块和一第一卷积模块,每一所述下采样模块包括一维卷积层和下采样层,所述一维卷积层用于对所述增强声音信号或上一所述采样模块输出的声音信号进行卷积操作;所述下采样层用于对同层所述一维卷积层输出的特征进行下采样操作;所述第一卷积模块用于对最后一层所述下采样模块输出的声音信号进行一维卷积操作;所述解码器包括多个依次连接的上采样模块和一第二卷积模块,所述下采样模块与所述上采样模块层层对应,每一所述上采样模块包括上采样层、拼接层和一维反卷积层,第一层所述上采样模块的所述上采样层用于对所述第一卷积模块输出的声音信号进行上采样操作;第二层至最后一层所述上采样模块的所述上采样层用于对上一层所述上采样模块输出的声音信号进行上采样操作;第一层上采样模块的所述拼接层用于将同层所述上采样层输出的声音信号与同层上采样模块的一维卷积层提取的特征进行拼接,并进行线性插值操作;第二层上采样模块至最后一层上采样模块的拼接层用于将同层所述上采样层输出的声音信号与同层下采样模块的一维卷积层提取的特征、以及同层下采样模块的上一层下采样模块的一维卷积层提取的特征进行拼接;所述一维反卷积层用于对拼接层输出的声音信号进行反卷积操作;所述第二卷积模块用于对最后一层所述上采样模块输出的声音信号进行一维卷积操作。
5.相对于现有技术,本发明提供一种无人机拾音方法通过降噪神经网络将编码器和解码器中不同层的特征进行融合,充分利用了不同感受野所提取的不同尺寸的特征,多尺度特征的融合能够提高有效声音信号的提取准确度,针对无人机平台的高分贝自噪声和风噪降噪,达到无人机极低信噪比环境下人声增强的效果。
6.进一步地,所述一维卷积层的激励函数为带泄露线性整流函数;第一层上采样模块至倒数第二层上采样模块的所述一维反卷积层的激励函数为线性整流函数,最后一层上采样模块的所述一维反卷积层的激励函数为sigmod函数。
7.进一步地,所述原始声音信号通过麦克风线性阵列采集;对所述原始声音信号进行初步降噪处理,得到增强声音信号,包括步骤:对所述原始声音信号进行分帧加窗处理;在一预设角度范围内,针对每一角度,计算每一帧所述原始声音信号的p值,确定其中最大p值对应的角度为该帧的声源方向,其中,p值表达式为:其中,m为所述麦克风线性阵列中的麦克风数量;k=w/c,w=2*pi*f,f是所述原始声音信号经过傅里叶变换的频率,c是声音在空气中传播的速度;为第n路所述原始声音信号的第l帧声音信号的短时傅里叶变换;为第n路所述原始声音信号的第l帧声音信号的延迟相位,是有效声音频率,,d为所述麦克风线性阵列的麦克风间距,为计算角度;针对每一帧所述原始声音信号,根据所述声源方向得到增强声音信号x,其中增强声音信号x的表达式为:其中,为第n个麦克风线路的原始声音信号。
8.进一步地,将所述增强声音信号输入降噪神经网络进行处理,得到有效声音信号前,还包括步骤:将所述增强声音信号输入带通滤波器进行滤波后,通过vad算法检测增强声音信号中的有效声音,当检测到连续的有效声音,进入后续步骤。
9.基于同一发明构思,本技术还提供一种无人机拾音装置,包括:信号获取模块,用于获取待处理的原始声音信号;信号增强模块,用于对所述原始声音信号进行初步降噪处理,得到增强声音信号;降噪处理模块,用于将所述增强声音信号输入降噪神经网络进行处理,得到有效声音信号;其中,所述降噪神经网络包括编码器和解码器,所述编码器包括多个依次连接的下采样模块和一第一卷积模块,每一所述下采样模块包括一维卷积层和下采样层,所述一维卷积层用于对所述增强声音信号或上一所述采样模块输出的声音信号进行卷积操作;所
述下采样层用于对所述一维卷积层输出的特征进行下采样操作;所述解码器包括多个依次连接的上采样模块和一第二卷积模块,所述下采样模块与所述上采样模块层层对应,每一所述上采样模块包括上采样层、拼接层和一维反卷积层,所述上采样层用于对所述第一卷积模块输出的声音信号或上一所述上采样模块输出的声音信号进行上采样操作;第一层上采样模块的所述拼接层用于将所述上采样层输出的声音信号与同层上采样模块的一维卷积层提取的特征进行拼接,并进行线性插值操作;第二层上采样模块至最后一层上采样模块的拼接层用于将所述上采样层输出的声音信号与同层上采样模块的一维卷积层提取的特征,以及同层上采样模块的上一层上采样模块的一维卷积层提取的特征进行拼接;所述一维反卷积层用于对拼接层输出的声音信号进行反卷积操作。
10.进一步地,所述一维卷积层的激励函数为带泄露线性整流函数;第一层上采样模块至倒数第二层上采样模块的所述一维反卷积层的激励函数为线性整流函数,最后一层上采样模块的所述一维反卷积层的激励函数为sigmod函数。
11.进一步地,所述原始声音信号通过麦克风线性阵列采集;所述信号增强模块包括:分帧加窗子模块,用于对所述原始声音信号进行分帧加窗处理;声源方向子模块,用于在一预设角度范围内,针对每一角度,计算每一帧所述原始声音信号的p值,确定其中最大p值对应的角度为该帧的声源方向,其中,p值表达式为:其中,m为所述麦克风线性阵列中的麦克风数量;k=w/c,w=2*pi*f,f是所述原始声音信号经过傅里叶变换的频率,c是声音在空气中传播的速度;为第n路所述原始声音信号的第l帧声音信号的短时傅里叶变换;为第n路所述原始声音信号的第l帧声音信号的延迟相位,是有效声音频率,,d为所述麦克风线性阵列的麦克风间距,为计算角度;信号累加子模块,用于针对每一帧所述原始声音信号,根据所述声源方向得到增强声音信号x,其中增强声音信号x的表达式为:其中,为第n个麦克风线路的原始声音信号。
12.进一步地,还包括:连续有效声音检测模块,用于将所述增强声音信号输入带通滤波器进行滤波后,通过vad算法检测增强声音信号中的有效声音,当检测到连续的有效声音,进入所述降噪处理模块。
13.基于同一发明构思,本技术还提供一种无人机,包括机身,包括:麦克风阵列,设置在所述机身上,用于采集原始声音信号并传输至控制器;
控制器,包括:处理器;存储器,用于存储由所述处理器执行的计算机程序;其中,所述处理器执行所述计算机程序时实现上述方法的步骤。
14.基于同一发明构思,本技术还提供一种计算机可读存储介质,其上存储由计算机程序,所述计算机程序被执行时实现上述方法的步骤。
15.为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
16.图1为一个实施例的无人机拾音方法的一个示例性应用环境示意图;图2为一个实施例的无人机拾音方法的流程示意图;图3为一个实施例的空间滤波处理的流程示意图;图4为一个实施例中的降噪神经网络的结构示意图;图5为距离声源所采集的原始声音信号的时域图;图6为有效声音信号的时域图;图7为一个实施例中的无人机拾音装置的结构示意图;图8为一个实施例中的无人机的结构示意图。
具体实施方式
17.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施例方式作进一步地详细描述。
18.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
19.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
20.在本技术的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。此外,在本技术的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
21.本发明通过改进自u-net++和lstm基础网络框架的降噪声音网络,对无人机采集的声音信号进行降噪,尤其适用于低信噪比的拾音环境。具体通过以下实施例进行说明。
22.请参阅图1,其为一个实施例的无人机拾音方法的一个示例性应用环境示意图,包括无人机麦克风11和远程控制器12,无人机麦克风11是搭载于无人机上的收音装置,可以是麦克风阵列等;远程控制器12包括存储有计算机程序的存储器和可运行存储器中的计算
机程序的处理器。无人机麦克风11采集声音信号后远程传输至远程控制器12,远程传输可通过蓝牙模块、无线wifi模块等实现,远程控制器12对接收的声音信号通过本实施例的无人机拾音方法进行处理,得到清晰的有效声音信号。
23.请参阅图2,其为一个实施例的无人机拾音方法的流程示意图。该方法包括如下步骤:s1:获取待处理的原始声音信号;s2:对原始声音信号进行初步降噪处理,得到增强声音信号;s3:对增强声音信号输入降噪神经网络进行处理,得到有效声音信号。
24.在步骤s1中,原始声音信号为无人机搭载的麦克风所直接采集的声音信号,通过与麦克风通过有线或无线传输,可获得原始声音信号。
25.在步骤s2中,对原始声音信号进行初步降噪处理,以使原始声音信号中的有效声音得到增强,初步降噪处理步骤与采集原始声音信号的麦克风的结构相关,本实施例提供一种针对麦克风线性阵列的空间滤波方法,来对原始声音信号进行初步降噪处理。请参阅图3,其为一个实施例的空间滤波处理的流程示意图,包括如下步骤:s21:对原始声音信号进行分帧加窗处理;其中,对原始声音信号进行分帧加窗处理,以对原始声音信号进行短时分析,利于对非平稳信号的处理。
26.s22:在一预设角度范围内,针对每一角度,计算每一帧原始声音信号的p值,确定其中最大p值对应的角度为该帧的声源方向;其中,预设角度范围可以根据麦克风与无人机的相对位置进行设定,例如,当麦克风位于无人机的正前方时,有效声音的方向大概率位于无人机的前侧,无人机桨噪位于麦克风正后方,则预设角度范围可以设置为无人机正前方的度,以减少计算量。
27.原始声音信号的p值为空间滤波函数,其表达式为:其中,m为麦克风线性阵列中的麦克风数量;n为第n个麦克风的原始声音信号线路;k=w/c,w=2*pi*f,f是原始声音信号的时域信号做傅里叶变换得到的频率,c是声音在空气中传播的速度;l为第l帧原始声音信号;为第n路原始声音信号的第l帧声音信号的短时傅里叶变换;为第n路原始声音信号的第l帧声音信号的延迟相位,是有效声音频率,,d为麦克风线性阵列的麦克风间距,为计算角度。
28.s23:针对同一帧的每一路原始声音信号,获取该帧声源方向的延迟相位,并进行所有线路的原始声音信号累加,得到增强声音信号。
29.其中,增强声音信号x的表达式为:其中,为第n个麦克风线路的原始声音信号。
30.在步骤s3中,降噪神经网络对增强声音信号进行进一步的人声增强和噪声降低处理。请参阅图4,其为一个实施例中的降噪神经网络的结构示意图,该降噪神经网络包括编码器和解码器。其中,编码器用于对输入的增强声音信号进行下采样及特征提取,解码器用于对编码器输出的特征进行上采样后输出有效声音信号。
31.具体的,编码器包括多个依次连接的下采样模块(downsampling block)和一第一卷积模块(1d convolution),每一下采样模块包括一一维卷积层(1d convolution)和一下采样层(downsampling),其中一维卷积层用于对增强声音信号或上一采样模块输出的声音信号进行卷积操作,以提取特征,在一具体实施中,一维卷积层的步长设置为2,卷积核大小设置为15,激励函数为带泄露线性整流函数(leaky relu);下采样层用于对一维卷积层输出的特征进行下采样操作,下采样层输出的信号即为该层下采样模块输出的声音信号。第一卷积模块用于对最后一层下采样模块输出的声音信号进行一维卷积操作,以提取特征,在一具体实施中,第一卷积模块的卷积核大小设为15。
32.解码器包括多个依次连接的上采样模块(uownsampling block)和一第二卷积模块(1d convolution),下采样模块与上采样模块层层对应,即第一层下采样模块对应最后一层上采样模块,第二层下采样模块对应倒数第二层上采样模块,以此类推。每一上采样模块包括一上采样层(uownsampling)、一拼接层和一一维反卷积层(1d convolution),其中上采样层用于对第一卷积模块输出的声音信号或上一层上采样模块输出的声音信号进行上采样操作;第一层上采样模块的拼接层用于将上采样层输出的声音信号与同层上采样模块的一维卷积层提取的特征进行拼接,即特征跳跃连接(feature skip connect),并进行线性插值操作;第二层上采样模块至最后一层上采样模块的拼接层用于将上采样层输出的声音信号与同层下采样模块的一维卷积层提取的特征进行特征跳跃连接,以及与同层下采样模块的上一层下采样模块的一维卷积层提取的特征进行进行拼接,即采样跳跃连接(sampling skip connect);一维反卷积层用于对拼接层输出的声音信号进行反卷积操作,在一具体实施例中,解码器中的一维卷积层的步长设为2,卷积核大小设为15,第一层上采样模块至倒数第二层上采样模块的一维反卷积层的激励函数为线性整流函数,最后一层上采样模块的激励函数为sigmod函数。第二卷积模块用于对最后一层上采样模块输出的声音信号进行一维卷积操作,输出有效声音信号,优选的,第二卷积模块的卷积核大小为1,由此不改变声音数据的长度,可充分利用原始声音信号,抑制其中的噪声,还原纯净的有效声音。
33.有效声音信号是实际需要采集的声音信号,可以预设为人声信号等。
34.在一可选实施例中,编码器包括12个下采样模块,解码器包括12个上采样模块。
35.对上述降噪神经网络训练时,损失函数采用均方误差损失函数。在一个具体实施中,训练基于quadro p1000 4g显存gpu以及采样率为16k的音频进行,批处理大小为30,采用adam优化器,优化器参数为:初始学习率为0.001,一阶矩估计指数衰减率为0.9,二阶矩估计指数衰减率为0.99。自制数据集包括基于st-cmds-20170001_1-os数据集里的纯净人声样本以及按不同信噪比(5,0,-5,-10,-15)混合风声和桨噪的噪音样本。数据集包含40万个数据样本,其中纯净人声样本和混合噪声样本各20万个,15万个噪声样本作为训练集,3万作为验证集,2万作为测试集。
36.在一个优选实施例中,对增强声音信号输入降噪神经网络进行处理,得到有效声
音信号前,还包括步骤:将增强声音信号输入带通滤波器进行滤波后,通过vad算法检测增强声音信号中的有效声音,并通过滑动窗口进行连续检测,当检测到连续的有效声音,则进入后续步骤。其中,带通滤波器的滤波频段设置为有效声音的频率范围,如有效声音为人声时,带通滤波器的滤波频段可设置为300-3500hz。vad算法即voice activity detection(语音端点检测技术),能够在噪声背景中检测出有效声音的起点和终点。由于降噪神经网络的降噪处理涉及大量计算,对芯片的算力要求高,在检测出增强声音信号中存在连续的有效声音后,再将增强声音信号输入降噪神经网络处理,可以降低芯片的计算压力,减少发热,从而延长芯片寿命。
37.相对于现有技术,本发明的降噪神经网络将编码器和解码器中不同层的特征进行融合,充分利用了不同感受野所提取的不同尺寸的特征,多尺度特征的融合能够提高有效声音信号的提取准确度,针对无人机平台的高分贝自噪声和风噪降噪,达到无人机极低信噪比环境下人声增强的效果。
38.此外,本发明通过麦克风线性阵列进行声音采集,并针对麦克风线性阵列提出一种空间滤波处理算法,能够有方向性地增强有效声音,达到进一步去噪的效果。
39.请参阅图5,其为距离声源所采集的原始声音信号的时域图;请同时参阅图6,其为距离声源所采集的原始声音信号经过上述无人机拾音方法处理后,得到的有效声音信号的时域图。对比可见,经过上述无人机拾音方法处理后,原始声音信号中的噪声得到了抑制,人声得到保留。
40.基于同一发明构思,本发明还提供一种无人机拾音装置。请参阅图7,其为一个实施例中的无人机拾音装置的结构示意图,该装置包括信号获取模块21、信号增强模块22和降噪处理模块23,其中,信号获取模块21用于获取待处理的原始声音信号;信号增强模块22用于对原始声音信号进行空间滤波处理,得到增强声音信号;降噪处理模块23用于对增强声音信号输入降噪神经网络进行处理,得到有效声音信号。
41.在一可选实施例中,信号增强模块22包括分帧加窗子模块221、声源方向子模块222和信号累加子模块223,其中分帧加窗子模块221用于对原始声音信号进行分帧加窗处理;声源方向子模块222用于在一预设角度范围内,针对每一角度,计算每一帧原始声音信号的p值,确定其中最大p值对应的角度为该帧的声源方向;信号累加子模块223用于针对同一帧的每一路原始声音信号,获取该帧声源方向的延迟相位,并进行所有线路的原始声音信号累加,得到增强声音信号。
42.在一优选实施例中,无人机拾音装置还包括连续有效声音检测模块24,该连续有效声音检测模块24用于将增强声音信号输入带通滤波器进行滤波后,通过vad算法检测增强声音信号中的有效声音,并通过滑动窗口进行连续检测,当检测到连续的有效声音,则进入后续步骤。
43.对于装置实施例而言,由于其基本对应于方法实施例,所以相关细节之处请参见方法实施例的说明。
44.基于上述无人机拾音方法,本技术还提供一种无人机。请参阅图8,其为一个实施例中的无人机的结构示意图,该无人机包括机身31、麦克风阵列32、支撑杆33、无人机控制器(图未示)和远程控制器(图未示)。其中,机身31为飞行载体;麦克风阵列32通过支撑杆33设置在机身31上,麦克风阵列32可设置在机身31的正前方或正前上方45度方向,麦克风阵
列32可选用为2-4颗麦克风组成的线性阵列。针对麦克风阵列32设置在机身31的正前方的情况,麦克风可选用为心型指向性麦克风;针对麦克风阵列32设置在机身31正前上方45度方向的情况,麦克风可选用为8字型麦克风;由此可提高声音收集的指向性。支撑杆33可选用为伸长型轻型碳管。无人机控制器包括拾音模块、数传模块和喊话模块,其中拾音模块用于接收麦克风阵列32采集的原始声音信号;数传模块用于将拾音模块中的原始声音信号远程传输至远程控制器,以及从远程控制器接收喊话语音信号;喊话模块用于接收并播放数传模块中的喊话语音信号。远程控制器包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的无人机拾音方法;存储器用于存储可由所述处理器执行的计算机程序。
45.基于同一发明构思,本发明还提供一种计算机可读存储介质,与前述无人机拾音方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的所述无人机拾音方法的步骤。
46.本技术可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
47.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
48.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
49.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
50.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1