一种基于层次元数据信息约束的异常声音检测方法

文档序号：35458489发布日期：2023-09-15 16:30阅读：57来源：国知局

本发明属于异音检测方法，涉及一种基于层次元数据信息约束的异常声音检测方法。

背景技术：

1、异常声音检测(anomalous sounddetection，asd)，目的是自动检测目标机器处于异常状况时发出的异常声音。

2、随着深度学习技术在音频领域的不断发展，无监督异常声音检测中广泛采用自编码器架构。现有的方法通常会利用机械设备正常运转时的声音的对数梅尔频谱图(log-melspectrogram)作为特征输入来训练自编码器模型，并通过输出与输入相同数量帧的对数梅尔频谱图作为重构特征来进行异常声音的检测。然而，在训练过程中自编码器只包含正常声音的约束条件，没有包含异常声音的信息，如果训练得到的特征不能很好地适用于异常声音，那么自编码器重构方法的有效性就会受到限制。

3、在神经网络的训练过程中，需要足够的标签数据来进行约束，但是获得异常数据本身在工业异常声音检测领域就是一个挑战。为解决这个问题，现有的自监督方法将无监督模型转化成有监督模型来更好地学习正常数据的紧凑表示。其中一个自监督分类的辅助任务通过训练一个分类器来预测每台机器的机器id，并通过辨别伴随音频数据的机器id作为标签来学习精细的正常声音特征，从而将它们与异常声音区分开来。如果分类器错误地分类了声音数据的机器id，则将其视为异常。然而，由于现实世界存在域偏移问题，训练和测试数据的主要特征有时并不具有相似的分布，在实践中，异常声音检测的性能往往会受到限制。例如，机器操作条件或噪声类型的改变可能会导致源域(训练)和目标域(检测)之间的声学特性不同，因此使用来自源域声音训练的模型可能会错误地识别目标域中的异常声音。

4、自监督分类方案采用机器id作为音频文件的辅助标签，以进行特征学习，因为每个机器id代表特定类型的域偏移。然而，除了机器类型和机器id之外，声音还与各种属性相关联，例如机器的运行速度。因此，属性值的改变也是导致域偏移的原因之一，对于影响域偏移至关重要。仅使用机器id可能不足以获得有助于表征域偏移的特征。而自监督机器属性分类考虑了工业机器属性对声学特性的影响，并将其作为自监督特征学习的辅助标签。然而，该系统并没有充分利用与音频文件本身相关联的元数据信息，因此提取的特征表示不足够精细。

技术实现思路

1、针对上述现有技术，本发明要解决的技术问题是提供一种基于层次元数据信息约束的异常声音检测方法，解决机器的音频文件附带的元数据信息没有被充分利用，域偏移下自监督方法提取的特征表示不够精细的问题。

2、为解决上述技术问题，本发明的一种基于层次元数据信息约束的异常声音检测方法，包括：

3、将待检测声音的音频波形转换为log-mel谱频特征，然后输入至预先训练的特征提取器中，得到高级音频特征计算高级音频特征与待检测声音对应机器id的每个属性组中心cm的马氏距离，选取其中最小值作为异常分数a，m为对应机器id下的属性组个数，当a大于给定阈值时，判定待检测声音为异常声音；

4、所述属性组中心cm为训练集音频片段经过预先训练的特征提取器得到的高级音频特征的平均值；

5、所述特征提取器的训练过程包括：

6、选取机器的一组正常声音片段作为训练集；

7、将每个机器id对应的训练集音频片段中属性及属性的值均相同的音频片段划分为一个属性组，每个机器id及对应的属性组构成层次元数据信息；

8、将训练集音频波形转换为log-mel谱频特征并送入特征提取器中，得到音频的低级特征fl和高级特征fh；

9、将低级特征fl和高级特征fh分别送入机器id分类器cid和机器ag分类器cag中，分别得到机器id分类器cid对机器id辅助标签的预测值和机器ag分类器cag对机器ag辅助标签的预测值cid(·)表示机器id分类器，cag(·)表示机器属性分类器；

10、利用总交叉熵损失函数ltotal训练特征提取器，得到训练后的特征提取器，ltotal＝λlid+(1-λ)lag，λ是设定的权重参数，lid表示预测值和层次元数据信息中机器id标签lid之间的差异值的损失函数，lag表示预测值和层次元数据信息中机器属性组标签lag的差异值的损失函数。

11、进一步的，所述特征提取器包括带有注意力机制的深度网络和二维卷积层，通过带有注意力机制的深度网络提取低级特征fl，然后经过二维卷积层提取得到高级特征fh。

12、进一步的，所述带有注意力机制的深度网络为mobilefacenet。

13、本发明的有益效果：

14、1)针对现有的自监督方法对元数据信息利用不充分的问题，本发明设计了元数据信息树结构，充分利用元数据信息提取更精细的特征；

15、2)本发明设计的层次元数据信息约束方法能够有效地提升异音检测系统的性能，解决现有工业异音检测方法在域偏移下性能不足，检测结果可信度低的问题。

技术特征：

1.一种基于层次元数据信息约束的异常声音检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于层次元数据信息约束的异常声音检测方法，其特征在于：所述特征提取器包括带有注意力机制的深度网络和二维卷积层，通过带有注意力机制的深度网络提取低级特征fl，然后经过二维卷积层提取得到高级特征fh。

3.根据权利要求1所述的一种基于层次元数据信息约束的异常声音检测方法，其特征在于：所述带有注意力机制的深度网络为mobilefacenet。

技术总结
本发明公开了一种基于层次元数据信息约束的异常声音检测方法，将待检测声音的音频波形转换为Log‑Mel谱频特征，然后输入至预先训练的特征提取器中，得到高级音频特征计算高级音频特征与待检测声音对应机器ID的每个属性组中心c<subgt;m</subgt;的马氏距离，选取其中最小值作为异常分数A，M为对应机器ID下的属性组个数，当A大于给定阈值时，判定待检测声音为异常声音；所述属性组中心c<subgt;m</subgt;为训练集音频片段经过预先训练的特征提取器得到的高级音频特征的平均值；本发明设计了元数据信息树结构，充分利用元数据信息提取更精细的特征，有效地提升异音检测系统的性能，解决现有工业异音检测方法在域偏移下性能不足，检测结果可信度低的问题。

技术研发人员：兰海燕,关键,魏玉明,杨凯,康金敏,单俊
受保护的技术使用者：哈尔滨工程大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：兰海燕关键魏玉明杨凯康金敏单俊
技术所有人：哈尔滨工程大学
我是此专利的发明人

上一篇：一种提高水尺水位检测准确度的方法、设备及存储介质与流程
上一篇：一种制备硫酸钯（II）的方法与流程