本发明涉及计算机,特别涉及一种基于盲源分离的家畜音频智能识别方法。
背景技术:
1、家畜音频包含丰富的可利用信息。然而,如何在嘈杂的群养环境中分离出各类家畜音频信号,并识别的方法是智慧养殖的难点问题,也是智慧饲养的趋势。国内外在盲源分离算法主要集中在军事、通信、雷达等领域,主要研究对象为函数信号,非音频信号。
2、现有技术中,彭硕等人发表论文《基于稀疏分量分析的生猪音频欠定盲源分离研究》,将长白母猪不同状态下的叫声按照不同系数混合得到的音频信号作为观测信号,运用短时傅里叶变换(short-time fouriertransform,stft)对音频信号做时频域转换,通过分组筛选出信号中的单源点,使用自适应阻尼系数的ap算法结合奇异值分解,将单源点聚类以估计混合矩阵,采用优化最小lp范数的方法完成音频信号的重构。
3、但是上述方法中,采用了两大步骤对单源点进行聚类处理,从而使得算法的运行速度降低,运行时长缓慢且复杂度较高。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于盲源分离的家畜音频智能识别方法。
2、本说明书采用下述技术方案:
3、本说明书提供了一种基于盲源分离的家畜音频智能识别方法,包括:
4、采集封闭环境内的家畜音频信号,基于封闭环境内的家畜音频信号构建声谱图数据集,使用声谱图数据集训练用于识别不同家畜状态音频的改进eca-efficientnetv2网络,所述改进eca-efficientnetv2网络包括:
5、将原始efficientnetv2网络中mbconv的se模块替换为eca模块;
6、采集群养环境内的家畜音频信号,使用欠定盲源分离方法将群养环境内的家畜音频信号中不同状态的家畜音频信号进行分离;
7、将分离后不同状态的家畜音频信号输入到训练好的改进eca-efficientnet v2网络中进行状态识别。
8、进一步的,还包括:
9、使用多窗谱估计谱减法对采集的封闭环境内的家畜音频信号、群养环境内的家畜音频信号进行去噪;
10、基于能熵比的端点检测方法确定去噪后的封闭环境内的家畜音频信号、群养环境内的家畜音频信号的起始位置和终止位置。
11、进一步的,所述使用多窗谱估计谱减法对采集的群养环境内的家畜音频信号进行去噪,包括:
12、对含噪语音进行加窗分帧,获得每帧加窗后的含噪语音xi(m);
13、将xi(m)进行快速傅里叶变换fft,获得xi(m)的幅度谱和相位谱,并根据幅度谱和相位谱计算平均幅度谱:
14、
15、其中,|xi(k)|为xi(m)的的幅度谱,为xi(m)的平均幅度谱,平均幅度谱的计算是以第i帧为中心,左右各取m帧进行计算平均幅度谱;
16、计算平均功率谱密度值:
17、
18、其中,pn(k)为平均功率谱密,py(k,i)是由xi(m)进行多窗谱估计后获得的平滑功率谱密度,nis是只含噪声的语段帧数;
19、求出功率谱密度后,利用谱减关系计算增益因子:
20、
21、其中,α为过减因子,β为增益补偿因子;
22、计算出谱减后的幅度谱,再通过逆快速傅里叶变换得到降噪音频:
23、
24、其中,θi(k)为相位谱,为谱减后的幅度谱,为降噪音频。其中,θi(k)为相位谱,为谱减后的幅度谱,为降噪音频,idft(*)是逆离散傅里叶变换,j为傅里叶变换中的虚数单位。
25、进一步的,所述基于能熵比的端点检测方法确定去噪后的群养环境内的家畜音频信号的起始位置和终止位置,包括:
26、计算每帧加窗后的含噪语音xi(m)的能量:
27、
28、其中,ampi是每帧加窗后的含噪语音xi(m)的能量值,n为音频信号的帧长度;
29、将能量ampi对数化,计算改进能量:
30、lei=log10(1+ampi/a)
31、其中,lei是ampi对应的改进能量,a是引入的常量;
32、将改进能量lei和谱熵hi构成能熵比:
33、
34、根据有声段内信号熵比高、非有声段内信号熵比低,确定有声段的起始位置和终止位置。
35、进一步的,所述基于封闭环境内的家畜音频信号构建声谱图数据集,包括:
36、人工将采集的封闭环境内的家畜音频信号分为进食声、哼叫声、咆哮声、发情声、噪声和无声段;
37、将进食声、哼叫声、咆哮声、发情声转化为具有时频特征的声谱图,构建声谱图数据集;
38、构建声谱图数据集的流程为:
39、采集音频信号,对音频信号进行预处理,将预处理后的音频信号进行傅里叶变换,获得傅里叶变换后音频信号的能量密度谱,取能量密度谱的对数,获得伪彩色映射,将伪彩色映射后的图像进行标准化处理,获得声谱图。
40、进一步的,所述改进eca-efficientnetv2网络,包括:
41、设定conv3×3的层数为1,步长为2;
42、与conv3×3输出端连接的fused-mbconv1,卷积核k为3×3,其层数为1,步长为1;
43、与fused-mbconv1输出端连接的2个fused-mbconv2,卷积核k为3×3,其层数为4,步长为2;
44、与第2个fused-mbconv2输出端连接的mbconv4,卷积核k为3×3,eca,其层数为5,步长为2;
45、与mbconv4输出端连接mbconv6,卷积核k为3×3,eca,其层数为7,步长为1;
46、与mbconv6输出端连接mbconv6,卷积核k为3×3,eca,其层数为12,步长为2;
47、与mbconv6输出端连接conv1×1&pooling&fc,其层数为1。
48、进一步的,所述欠定盲源分离方法,包括:
49、对群养环境内的家畜音频信号进行稀疏表示;
50、比较稀疏表示后群养环境内的家畜音频信号实部与虚部,对群养环境内的家畜音频信号进行单源点检测,剔除低能点;
51、将剔除低能点的单源点使用聚类算法进行聚类,得到混合矩阵的估计值;
52、基于混合矩阵的估计值对群养环境内的家畜音频信号进行信号分离;
53、使用分离后的音频信号重构原始源信号。
54、进一步的,所述比较稀疏表示后群养环境内的家畜音频信号实部与虚部,对群养环境内的家畜音频信号进行单源点检测,剔除低能点,包括:
55、获得观测信号的实部与虚部:
56、
57、其中,re(xi(t,f))是观测信号x(t,f)的实部;im(xi(t,f))是观测信号x(t,f)的虚部;xi(t,f)是第i个时频点(t,f)的观测信号,aik为混合矩阵,n为源信号数量,sk(t,f)是第k个源信号矢量;
58、将满足下式的特征点作为单源点:
59、
60、其中,ε1为阈值。
61、进一步的,所述将剔除低能点的单源点使用聚类算法进行聚类,得到混合矩阵的估计值,包括:
62、对将剔除低能点的单源点使用聚类算法进行聚类,包括:
63、s1.将每个单源点视为一个簇,并计算每个单源点之间的距离;
64、s2.合并两个簇之间距离最小的两个簇,形成一个新的簇;
65、s3.计算新的簇和当前其他簇之间的距离;
66、s4.重复s2和s3,直到所有单源点合并完成;
67、使用平均距离计算簇之间的距离:
68、
69、其中,davg表示两个簇ci、cj之间的距离,davg的含义是两个簇中任意的两个点距离相加取和的平均值作为两个簇ci、cj之间的距离;
70、经过聚类算法聚类后,每个类的聚类中心的方向向量组成的矩阵为最终的混合矩阵估计值。
71、进一步的,所述使用分离后的音频信号重构原始源信号,包括:
72、使用lp范数类算法中的求解非凸函数最小化算法,获得t时刻lp范数最小化的可能解:
73、min||s||p s.t.x=as
74、
75、其中,m是源信号数,n是观测信号数,为混合矩阵a的个n×n维子矩阵是每个特征点的可能解个数;是t时刻第k次取得局部最小值时观测信号分解的源信号估计向量。
76、获得对应lp范数jk:
77、
78、其中,0<p<1。
79、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
80、本研究提出一种基于欠定盲源分离及改进eca-efficientnetv2的家畜状态音频识别方法。利用欠定盲源分离技术,从混杂音频中分离出家畜各状态音频信号,再采用eca-efficientnetv2模型识别音频,实现对家畜的生活健康状态的监测和识别。
81、家畜音频识别方面,eca-efficientnetv2相较于经典网络模型resnet50、vgg16和原efficientnetv2模型,具有更轻量化的模型参数,且准确率也相较resnet50和vgg16提高了2.88%和1.81%。
82、欠定盲源分离方面,研究使用的改进谱减法降噪算法比原谱减法降噪算法的降噪效果更优。聚类得到的混合矩阵估计与原混合矩阵的归一化均方误差nmse最低可达3.266×10-4。lp范数重构时,在p取不同值时,重构出的信号与源信号有不同的差异,当p取值为0.8时,此时重构信号与源信号的差异性最小,利用信噪比作为评价指标,p为0.8时信噪比为4.267db,重构信号质量最佳。