本发明属于智能交通检测,具体为一种基于声学信号多特征融合的道路超载货车轴型识别方法。
背景技术:
1、近年来,道路交通超载货车轴型分类与识别最成熟的方法是基于深度神经网络的视频图像处理方法,在搭建cspnet、stmm、yolo系列或transformer等主流视频图像检测框架的基础上,输入各类轴型的2维像素级或3维时空特征以实现多尺度多模态检测识别。然而,当前基于视频图像处理的货车轴型分类识别方法易受外界环境干扰,还会占据大量的云存储资源,且存在重复无效数据,大大降低数据分析的有效性和稳定性。
2、目前,研究人员已逐步形成了面向车辆声音信号基于模式识别、机器学习及人工神经网络的车辆分类识别研究方向。声学特征包含短时过零率、梅尔倒频谱系数mfcc、线性预测倒谱系数lpcc等,通过单一特征改进或者多特征融合的方式建立声学信号特征库,采用gmm、cnn、knn等传统分类器进行分类识别。现阶段,基于声学信号检测超载货车轴型的研究应用相对较少。
3、声学特征识别超载货车轴型的优势在于:(1)声学传感器布设灵活高效,拾音成本远低于视频图像检测;(2)音频流存储空间较小,且自身提取的时频特征具有多样性。虽然多特征提供了更丰富的信息,但它们也可能增加计算的复杂性,这可能对实时处理构成挑战。在混叠、间断、多源和噪声干扰等复杂环境下,以声音传统特征检测超载货车轴型仍是一个难题。
技术实现思路
1、本发明提出了一种基于声学信号多特征融合的道路超载货车轴型识别方法。
2、实现本发明目的的技术方案为:一种基于声学信号多特征融合的超载货车轴型识别方法,具体步骤为:
3、步骤1:采集不同轴型超载货车不同工况下的音频数据,对音频数据进行预处理,包括预加重、分帧以及加窗处理;
4、步骤2:提取不同轴型超载货车行驶声音时频域特征,提取的时域特征包括短时能量和线性预测倒谱系数lpcc,提取的频域特征包括梅尔倒谱系数mfcc及其一阶差分、伽玛通滤波器系数gfcc;
5、步骤3:对提取的lpcc系数、mfcc系数以及mfcc一阶差分和gfcc系数四类时频特征统一维数进行并联式融合,再将一维短时能量拼接到融合特征中;
6、步骤4:通过t分布随机近邻嵌入算法tsne对步骤3的一阶段融合特征进一步降维融合;
7、步骤5:选取改进的pso-bp分类器训练步骤4的融合特征,训练迭代完成后的全局最优粒子位置即为pso-bp最优参数;将实时获取的音频信号重复步骤1至4得到两阶段融合特征,输入训练好的pso-bp分类器识别超载货车轴型。
8、优选地,采集不同轴型超载货车不同工况下的音频数据,对音频数据进行预处理的具体过程为:
9、对音频数据进行预加重,具体公式为:
10、yi(t)=xi(t)-αxi(t-1)
11、其中,yi(t)为第i类轴型超载货车声信号预加重后的语音信号,t为采样点,α为经验值,xi(t)为t采样点采集的音频数据,xi(t-1)为t-1采样点采集的音频数据;
12、对预加重后的音频数据进行分帧,其中,分帧数为:
13、
14、其中,为帧长,为帧移,fi为第i类轴型超载货车声信号的分帧数,即yi(t)经过分帧后得到fi个帧信号zi,j;
15、对分帧后的帧信号进行加窗的具体公式为:
16、hi,j(t)=zi,j(t)ω(t)
17、其中,hi,j(t)为第i类轴型超载货车声信号第j帧第t个采样点加窗后的帧信号,zi,j(t)为第i类轴型超载货车声信号第j帧第t个采样点,ω(t)为窗函数。
18、优选地,短时能量为:
19、
20、其中,ei,j为第i类轴型超载货车声信号第j帧开始加窗时的短时能量,hi,j(t)为第i类轴型超载货车声信号第j帧第t个采样点加窗后的帧信号,为帧长。
21、优选地,计算lpcc系数的具体过程为:
22、利用前面p个样本的线性组合表示轴型超载货车行驶声音信号xi(t)经分帧加窗后的信号hi,j(t):
23、
24、其中,ai,j,k为第i类轴型超载货车声信号第j帧第k个线性预测系数lpc,p为lpc阶数;
25、根据lpc系数获得lpcc系数:
26、
27、其中,ci,j,g为第i类轴型超载货车声信号第j帧第g个线性预测倒谱系数lpcc,ai,j,g为第i类轴型超载货车声信号第j帧第g个线性预测系数lpc,g为lpcc阶数,p为lpc阶数。
28、优选地,梅尔倒谱系数mfcc及其一阶差分的提取方法为:
29、计算第i类轴型超载货车声信号第j帧第k个功率谱;
30、
31、其中,xi,j(k)为第i类轴型超载货车声信号第j帧第k个功率谱,hi,j(t)为输入第i类轴型超载货车声信号第j帧第t个采样点加窗后的帧信号,n表示傅里叶变换的点数;
32、根据第i类轴型超载货车声信号第j帧第k个功率谱,计算第i类轴型超载货车声信号第j帧第m个滤波器组输出的对数能量以及功率谱通过第m个三角滤波器得到的频率响应:
33、
34、其中,si,j(m)为第i类轴型超载货车声信号第j帧第m个滤波器组输出的对数能量,xi,j(k)为第i类轴型超载货车声信号第j帧信号第k个功率谱,am(k)为功率谱通过第m个三角滤波器得到的频率响应,m为梅尔滤波器个数,f(m)为第m个滤波器的中心频率;
35、计算梅尔倒谱系数mfcc:
36、
37、其中,ci,j(n)为第i类轴型超载货车声信号第j帧第n个mfcc系数,si,j(m)为第i类轴型超载货车声信号第j帧第m个滤波器组输出的对数能量,m为梅尔滤波器个数,l1为mfcc系数阶数;
38、计算梅尔倒谱系数mfcc的一阶差分:
39、
40、其中,di,j,t为第i类轴型超载货车声信号第j帧第t个mfcc一阶差分系数,ci,j,t为第i类轴型超载货车声信号第j帧第t个倒谱系数,q为倒谱系数的阶数,k为一阶导数的时间差,k取1或2。
41、优选地,提取伽玛通滤波器系数gfcc的具体方法为:
42、计算第i类轴型超载货车声信号第j帧第x个滤波器组输出的对数能量:
43、
44、其中,gfcci,j(x)为第i类轴型超载货车声信号第j帧第x个滤波器组输出的对数能量,xi,j(k)为第i类轴型超载货车声信号第j帧信号第k个功率谱,gx(k)为功率谱通过第x个伽玛通滤波器得到的频率响应,α为滤波器增益,δ为滤波器阶数,ψ为初始相位,i为伽玛通滤波器个数,bx为第x个滤波器的衰减因子,fx为第x个滤波器的中心频率;
45、根据第i类轴型超载货车声信号第j帧第x个滤波器组输出的对数能量计算第i类轴型超载货车声信号第j帧第n个gfcc系数:
46、
47、其中,ji,j(n)为第i类轴型超载货车声信号第j帧第n个gfcc系数,gfi,j(x)为第i类轴型超载货车声信号第j帧第x个滤波器组输出的对数能量,i为伽玛通滤波器个数,l2为gfcc系数阶数。
48、优选地,对提取的lpcc系数、mfcc系数以及mfcc一阶差分和gfcc系数四类时频特征统一维数进行并联式融合的具体方法为:
49、设第i类轴型超载货车声信号的分帧数都为f,得f×1阶短时能量特征向量h,f×q1阶lpcc系数矩阵lp,f×q2阶mfcc系数矩阵mf,f×q2阶mfcc一阶差分系数矩阵δmf,f×q3阶gfcc系数矩阵gf;
50、选取上述特征向量中的最小维数qmin作为降维维数,将特征维数大于qmin的特征矩阵利用pca降维法得到新的qmin维特征;
51、对降维后的各系数矩阵中相应位置的元素进行并联式加权融合,得到f×qmin维加权特征矩阵:
52、
53、其中,yi,m,n为第i类轴型超载货车声信号f×qmin维加权特征矩阵中第m行第n列的元素,分别为降维后第i类轴型超载货车声信号lpcc系数矩阵,mfcc系数矩阵及其一阶差分、gfcc系数的第m行第n列的元素,m=1,2,…,f;n=1,2,…,qmin,α、β、γ、为各特征的加权向量,
54、确定第i类轴型超载货车声信号的f×(qmin+1)维一阶段融合向量:
55、zi=[yi,hi]
56、其中,zi为第i类轴型超载货车声信号的f×(qmin+1)维一阶段融合向量,yi为第i类轴型超载货车声信号的f×qmin维加权特征矩阵,hi为第i类轴型超载货车声信号的f×1维短时能量。
57、优选地,通过t分布随机近邻嵌入算法tsne对步骤3的一阶段融合特征进一步降维融合的具体方法为:
58、step1:对一阶段拼接向量z归一化得z'计算各个元素z'i之间的相似度,根据高斯分布得:
59、
60、其中,pj|i为z'i与z'j的条件概率,σi为高斯分布的方差;
61、计算相似度矩阵:
62、
63、其中,ri,j为高维特征空间z'的相似度矩阵,f为分帧数;
64、step2:初始化二阶段融合特征s,维数为n,若将融合特征s可视化,定义n=2或3;
65、step3:计算s中各个元素的相似度,根据t分布得:
66、
67、其中,p'j|i为si与sj的条件概率,计算相似度矩阵:
68、
69、其中,r'i,j为低维特征空间s的相似度矩阵,f为分帧数;
70、step4:设置损失函数优化初始低维空间s:
71、
72、其中,kl为损失函数,ri,j为高维特征空间z'的相似度矩阵,r'i,j为低维特征空间s的相似度矩阵;
73、step5:利用梯度下降法迭代更新s,使得kl损失函数最小,迭代公式:
74、
75、其中,s(t)为第t次迭代的二阶段融合特征,α(t)为第t次迭代的动量参数,t为最大迭代次数。t次迭代后得到二阶段融合特征空间sf。
76、优选地,选取改进的pso-bp分类器训练步骤4的融合特征,训练迭代完成后的全局最优粒子位置即为pso-bp最优参数的具体方法为:
77、step1:将不同轴型融合后的特征空间sf打上标签并采用one-hot编码,随机混合后划分70%作为训练集,30%作为测试集;
78、定义bp神经网络输入层层数为in,单隐藏层层数为hid,输出层层数为out,对于给定的神经元,其输出通过激活函数f应用于加权输入和偏置计算,前向传播过程:
79、
80、其中,xi是输入层的第i个节点的值,wi,j是从第i个输入节点到第j个隐藏节点的权重,bj是第j个隐藏层节点的偏置,aj是隐藏层第j个节点的输出,wj,k是从第j个隐藏节点到第k个输出节点的权重,bk是第k个输出层节点的偏置,pk是输出层第k个节点的输出,f(x)激活函数自定义为softmax;
81、step2:改进pso粒子群算法优化bp神经网络权重和偏置:
82、(1)定义单个粒子为bp神经网络的每个权重和偏置的拼接向量,维度l=hid*in+hid+hid*out+out;种群规模m,初始化m×l阶粒子位置矩阵g,个体学习因子c1=2,社会学习因子c2=2,最大惯性权重wmax,最小惯性权重wmin,迭代次数tmax,初始化m×l速度矩阵v,最大速度vmax;
83、(2)全局最优粒子位置初始化,遍历所有种群位置及融合后的特征向量,依次计算适应度,选取最小适应度所对应的位置为全局最优粒子初始位置gb(0);个体历史最优位置初始化,令初始化粒子位置g作为粒子个体历史最优位置pb(0);
84、(3)确定适应度函数为前向传播的焦点损失函数:
85、
86、其中,fl为焦点损失函数,m为测试集样本总数,αi为第i个样本真实标签所对应的平衡因子,γ为调制因子,pi为第i个样本真实标签所对应的前向传播预测概率;
87、step3:pso-bp分类器算法循环迭代:
88、(1)令迭代次数t=1,计算非线性下降惯性权重:
89、
90、其中,w(t)为第t次迭代的惯性权重,wmax为最大惯性权重,wmin为最小惯性权重,tmax为迭代次数;
91、(2)更新粒子速度和位置:
92、
93、其中,为第t次迭代第i个粒子的速度向量,w(t)为第t次迭代的惯性权重,c1为个体学习因子取2,c2为社会学习因子取2,r1和r2为0到1之间的随机参数,为第t次迭代第i个粒子的个体最优位置,gb(t)为第t次迭代的全局最优粒子位置,为第t次迭代第i个粒子所处的位置,为第t+1次迭代第i个粒子第j个速度分量,vmax为最大速度;
94、(3)更新粒子个体最优位置pb和全局最优粒子位置gb:
95、将两阶段融合特征训练集作为bp神经网络的输入,分别计算得到gb(t-1)以及更新后的对应的适应度fl(gb(t-1))、迭代过程如下:
96、
97、(4)当更新完pb和gb后,重复(1)进行t+1次迭代,直到全局最优适应度函数fl(gb(t))收敛到预设值或者满足第tmax次迭代以停止训练;将迭代完成后的全局最优粒子位置gb作为pso-bp分类器最优参数,输入测试集得到超载货车不同轴型的分类精度。
98、本发明与现有技术相比,其显著优点为:本发明考虑到单一声信号特征对超载货车轴型识别的局限性,在原先轴型识别技术的基础上,分阶段多层次融合不同类型的声学特征,进而增强特征间的协同效应和区分度,可以在多个层面增强音频处理系统的性能,如实时性、内存消耗和特征提取准确性,从而提升超载货车轴型识别的鲁棒性和准确率。
99、由于不同特征信号对于不同轴型的识别精度不同,综合考虑时域以及频域因素,本发明选用2类时域特征(短时能量、线性预测倒谱系数lpcc)和3类频域特征(梅尔倒谱系数mfcc及其一阶差分、伽玛通滤波器系数gfcc),将提取的时频域特征进行一阶段并联式加权特征融合和二阶段t分布随机近邻嵌入特征融合,最后采用改进的pso-bp分类器对融合后的特征进行训练、测试得到分类模型。
100、下面结合附图对本发明做进一步详细的描述。