本公开涉及声音事件检测,更具体地涉及一种用于检测与故障相关的声音的方法、系统、设备和介质。
背景技术:
1、目前,对于诸如汽车制造商的产品生产厂家而言,一般使用传统的方式来审核用于申请保修索赔,例如审核汽车的局部的照片。以汽车的保修索赔作为例子,这种照片由经销商的售后部门拍摄并传送给汽车制造商,以由汽车制造商审核照片中包括的缺陷细节是否符合保修政策或标准,从而决定是否予以免费维修或更换。
2、但是,对于与异响相关的一些缺陷,审核者无法从汽车经销商处获得与缺陷相关的音频或视频。在仅提供照片的情况下,审核者难以仅依据照片来判断汽车哪里存在异响以及该异响与何种故障相关。
3、即使审核者能够从汽车经销商的售后部门获得与缺陷相关的音频或视频,也需要审核者人工播放该音频或视频。通常音频或视频文件都有一定的长度,在这种情况下,审核者只能审核全部的保修索赔音频或视频中的一小部分,并且对于单个音频或视频文件,也只能审核该文件的一部分而没有足够的时间播放完毕。
4、由于采用需要人工地并且随机地审核保修索赔音频或视频的传统审核方式,从而导致了人力资源的浪费。此外,由于使用人工审核而无法审核全部的保修索赔音频或视频,存在的故障就可能没有被发现,从而审核者可能做出错误的决定,这导致了保修索赔的审核质量受到限制。
5、近来,出现了声音检测/音频事件检测(aed)(也称为声音事件检测、或环境声音检测)技术,其主要目的是检测连续的音频流之中有无出现目标声音事件,比如检测由于设备故障发出的异响、事故现场发出的声音、野生动物的声音等等。与人类相似,机器可以通过聆听周边环境的声音判断发生了什么。如果说语音识别是将我们人类的语音翻译为机器能理解的语言,那么环境声音检测技术就是将环境声音翻译为机器可以理解的声音。但是,在实际实现的过程中,各种背景噪声和干扰同时存在,这导致针对环境声的检测相比语音识别会更加复杂与困难。
技术实现思路
1、本公开旨在提供用于实现一种用于检测与故障相关的声音的方法、系统、设备和介质。
2、根据本公开的一些实施例,提供了一种用于检测与故障相关的声音的方法,包括:将输入的音频数据分割成大小相同的多个音频段;利用梅尔频率倒谱系数(mfcc)算法提取所述多个音频段的音频特征,以生成特征矩阵;将所述特征矩阵组装成输入张量,所述输入张量具有用于描述图像信息的结构;以及利用卷积神经网络(cnn)对所述输入张量进行特征提取并分类。
3、根据本公开的一些实施例,所述特征矩阵针对每个所述音频段包括n个mfcc系数、n个一阶差分参数、n个二阶差分参数。
4、根据本公开的一些实施例,将所述特征矩阵组装成输入张量包括将所述特征矩阵组装成m×n×3的张量,其中m是所述多个音频段的数量。
5、根据本公开的一些实施例,所述m×n×3的张量由在z轴方向延伸的三个x-y平面上的矩阵组成,三个x-y平面上的矩阵包括:包括与m个音频段对应的m×n个mfcc系数的矩阵、包括与所述m×n个mfcc系数对应的m×n个一阶差分参数的矩阵、以及包括与所述m×n个mfcc系数对应的m×n个二阶差分参数的矩阵。
6、根据本公开的一些实施例,所述cnn为以下的一者:efficientnet b3、resnet18、resnet50。
7、根据本公开的一些实施例,所述方法还包括:对所述特征矩阵进行裁剪;以及将经裁剪的特征矩阵组装成所述输入张量。
8、根据本公开的一些实施例,所述特征矩阵还包括每个所述音频段的能量。
9、根据本公开的一些实施例,对所述特征矩阵进行裁剪包括保留所述特征矩阵中能量较高的连续音频段的特征数据。
10、根据本公开的一些实施例,对所述特征矩阵进行裁剪包括随机地裁剪掉所述特征矩阵中的部分音频段的特征数据。
11、根据本公开的一些实施例,所述方法还包括根据所述分类的结果确定所述输入的音频数据是否包含与故障相关的声音以及故障的类型。
12、根据本公开的一些实施例,所述方法还包括在将所述输入的音频数据分割成大小相同的多个音频段之前,对所述输入的音频数据进行预加重。
13、根据本公开的一些实施例,利用mfcc算法提取所述多个音频段的音频特征包括对所述多个音频段依次执行以下操作:加窗、傅里叶变换、梅尔滤波、以及离散余弦变换。
14、根据本公开一些实施例,提供了一种计算机系统,包括:一个或多个处理器,和与所述一个或多个处理器耦接的存储器,所述存储器存储计算机可读程序指令,所述指令在被所述一个或多个处理器执行时执行如上所述的方法。
15、根据本公开一些实施例,提供了一种计算机可读存储介质,其上存储计算机可读程序指令,所述指令在被所述处理器执行时执行如上所述的方法。
16、根据本公开一些实施例,提供了一种用于检测与故障相关的声音的设备,包括用于实现如上所述的方法的步骤的装置。
1.一种用于检测与故障相关的声音的方法,包括:
2.根据权利要求1所述的方法,其中所述特征矩阵针对每个所述音频段包括n个mfcc系数、n个一阶差分参数、n个二阶差分参数。
3.根据权利要求2所述的方法,其中将所述特征矩阵组装成输入张量包括将所述特征矩阵组装成m×n×3的张量,其中m是所述多个音频段的数量。
4.根据权利要求3所述的方法,其中所述m×n×3的张量由在z轴方向延伸的三个x-y平面上的矩阵组成,三个x-y平面上的矩阵包括:包括与m个音频段对应的m×n个mfcc系数的矩阵、包括与所述m×n个mfcc系数对应的m×n个一阶差分参数的矩阵、以及包括与所述m×n个mfcc系数对应的m×n个二阶差分参数的矩阵。
5.根据权利要求1所述的方法,其中所述cnn为以下的一者:efficientnet b3、resnet18、resnet50。
6.根据权利要求1所述的方法,还包括:
7.根据权利要求6所述的方法,其中所述特征矩阵还包括每个所述音频段的能量。
8.根据权利要求7所述的方法,其中对所述特征矩阵进行裁剪包括保留所述特征矩阵中能量较高的连续音频段的特征数据。
9.根据权利要求6所述的方法,其中对所述特征矩阵进行裁剪包括随机地裁剪掉所述特征矩阵中的部分音频段的特征数据。
10.根据权利要求1所述的方法,还包括根据所述分类的结果确定所述输入的音频数据是否包含与故障相关的声音以及故障的类型。
11.根据权利要求1所述的方法,还包括在将所述输入的音频数据分割成大小相同的多个音频段之前,对所述输入的音频数据进行预加重。
12.根据权利要求1所述的方法,其中利用mfcc算法提取所述多个音频段的音频特征包括对所述多个音频段依次执行以下操作:加窗、傅里叶变换、梅尔滤波、以及离散余弦变换。
13.一种计算机系统,包括:
14.一种计算机可读存储介质,其上存储计算机可读程序指令,所述指令在被处理器执行时执行如权利要求1-12中任一项所述的方法。
15.一种基于目标检测算法的故障细节检测设备,包括用于实现如权利要求1-12中任一项所述的方法的步骤的装置。