基于音频数据预测异常状态的卷积神经网络模型TBSP-Net

文档序号：35695008发布日期：2023-10-11 17:52阅读：41来源：国知局

本发明属于异常状态诊断预测领域，尤其涉及一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net。

背景技术：

1、异常状态是指物体处于非正常条件下的一种工作状态，其表现可多种多样，如各种异常状态的表现裸露于外部，自然可方便得知，但对于一些内部状态异常，由于视觉上的封闭则不易获知，比如各种运转的机器，就不易探测内部可能发生的异常状态，需要拆卸物体或以侵入性的方式探测异常的产生的原因，且检测结果并不完全准确。但一些异常状态产生后，如机器继续运转，则会伴随着不同特性的音频，因此可针对音频数据进行建模，从而获取机器内部相应的异常状态，无需拆卸物体或以侵入性的方式探测物体的异常。目前已有基于音频数据的诊断模型对物体异常状态进行诊断预测，但对于一些故障不同，但由于故障而出现的音频数据相近，其诊断预测的结果并不足够准确，因此如何基于音频数据预测诊断物体的异常状态进行建模，从而更好地预测物体的异常状态仍值得探究。

技术实现思路

1、鉴于上述现有技术中存在的问题，本发明的主要目的在于提供一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，以缓解过拟合现象，提高以个体为单位的异常状态的诊断预测准确率，弥补以音频数据预测个体为单位的异常状态的诊断预测的不足。

2、本发明的目的通过如下技术方案得以实现：

3、本发明提供了一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，包括输入模块，特征提取模块以及分类模块，所述输入模块以预设采样频率获取音频数据，并对获取的所述音频数据进行预处理，对所述音频数据进行预处理包括以下步骤：

4、利用控制单元对获取的所述音频数据进行修整，从而生成向量v；

5、使所述向量v在时域上随机向左/向右时移滚动，从而获取时移向量vroll，计算公式为：

6、vroll[i]＝v[(i+r*fs)mod n],for i＝0,1,…,n-1；

7、其中，vroll[i]代表向量v第i个采样点滚动后的位置；i代表向量v采样点的索引；r代表向量v在时域上的滚动时间长度；fs代表音频采样频率；mod代表求模运算，用于实现向量v的循环滚动；n为向量v的长度；

8、对获取的所述时移向量vroll进行短时傅里叶变换，从而获取其时频邻域特征v[w,m]，计算公式为：

9、

10、其中，w代表频率；m代表第m个时间段之间的起始采样点；len代表向量v的长度；win_len代表滑动窗口的大小；k代表频率索引；win[k]代表窗函数；input代表输入帧；hop_len代表两个滑动窗帧之间的距离；j代表虚数单位；

11、对获取的所述时频邻域特征v[w,m]在频域上进行随机掩蔽，从而获取频域向量s(m,k)，计算公式为：

12、

13、其中，mk代表第m个时间段上随机选择的频率分量索引，f_mask代表遮蔽的频率或时域数目；

14、将获取的所述频域向量s(m,k)输入到所述特征提取模块，从而获取特征向量；

15、将获取的所述特征向量输入到所述分类模块，从而对获取的所述特征向量进行分类。

16、作为上述技术方案的进一步描述，在步骤“所述输入模块以预设采样率获取音频数据”中，所述的预设采样率为44100hz。

17、作为上述技术方案的进一步描述，在步骤“利用控制单元对获取的所述音频数据进行修整，从而生成向量v”中，所述的控制单元为时间常数τ为0.5s的1个控制通道。

18、作为上述技术方案的进一步描述，所述特征提取模块包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块；

19、每一卷积块均包括卷积层、批量归一化层和最大池化层。

20、作为上述技术方案的进一步描述，所述第一卷积块的卷积层由尺寸为5×5的第一卷积核组成，无激活函数，其中所述第一卷积核的步长为2；

21、所述第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的卷积层均由尺寸为3×3的第二卷积核组成，无激活函数，其中所述第二卷积核的步长为2。

22、作为上述技术方案的进一步描述，所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的批量归一化层均载有relu函数；

23、所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的最大池化层均由尺寸为2×2的池化核组成，无激活函数。

24、作为上述技术方案的进一步描述，所述分类模块包括第一全连接层、第二全连接层及分类层；其中，

25、所述第一全连接层的输入端通过信息传递通道与所述第六卷积块的最大池化层的输出端连接；

26、所述第二全连接层的输入端通过信息传递通道与所述第一全连接层的输出端连接；

27、所述分类层的输入端通过信息传递通道与所述第二全连接层的输出端连接。

28、作为上述技术方案的进一步描述，所述第一全连接层和第二全连接层后均加有dropout层，所述第一全连接层后加有的dropout层的丢弃概率值为0.5；

29、所述第二全连接层后加有的dropout层的丢弃概率值为0.3。

30、作为上述技术方案的进一步描述，所述第一全连接层和第二全连接层均载有sigmod函数。

31、作为上述技术方案的进一步描述，所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net用于对个体的异常状态的诊断预测。

32、综上所述，本发明的突出效果为：

33、本发明所提供的基于音频数据预测异常状态的卷积神经网络模型tbsp-net可在其输入模块中将获取的只体现时域信息的音频数据转换为时频皆有的复合数据，可防止过拟合现象，继而利用其特征提取模块对转换后的复合数据进行特征提取，再利用分类模块对其分类，提高了以个体为单位的异常状态的诊断预测准确率。

技术特征：

1.一种基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，包括输入模块，特征提取模块以及分类模块，所述输入模块以预设采样频率获取音频数据，并对获取的所述音频数据进行预处理，对所述音频数据进行预处理包括以下步骤：

2.根据权利要求1所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，在步骤“所述输入模块以预设采样率获取音频数据”中，所述的预设采样率为44100hz。

3.根据权利要求1所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，在步骤“利用控制单元对获取的所述音频数据进行修整，从而生成向量v”中，所述的控制单元为时间常数τ为0.5s的1个控制通道。

4.根据权利要求1所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述特征提取模块包括依次连接的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块；

5.根据权利要求4所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述第一卷积块的卷积层由尺寸为5×5的第一卷积核组成，无激活函数，其中所述第一卷积核的步长为2；

6.根据权利要求5所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块及第六卷积块的批量归一化层均载有relu函数；

7.根据权利要求4所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述分类模块包括第一全连接层、第二全连接层及分类层；其中，

8.根据权利要求7所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述第一全连接层和第二全连接层后均加有dropout层，所述第一全连接层后加有的dropout层的丢弃概率值为0.5；

9.根据权利要求7所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述第一全连接层和第二全连接层均载有sigmod函数。

10.根据权利要求1所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net，其特征在于，所述的基于音频数据预测异常状态的卷积神经网络模型tbsp-net用于对个体的异常状态的诊断预测。

技术总结
本发明提供了一种基于音频数据预测异常状态的卷积神经网络模型TBSP‑Net，该基于音频数据预测异常状态的卷积神经网络模型TBSP‑Net包括输入模块，特征提取模块以及分类模块，输入模块以预设采样频率获取音频数据，并对获取的音频数据进行预处理，将获取的只体现时域信息的音频数据转换为时频皆有的复合数据，防止过拟合现象，继而利用特征提取模块对转换后的复合数据进行特征提取，再利用分类模块对其分类，提高了以个体为单位的异常状态的诊断预测准确率。

技术研发人员：彭佳杰,韦驭瀚
受保护的技术使用者：西北工业大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭佳杰韦驭瀚
技术所有人：西北工业大学
我是此专利的发明人