1.基于音频分析与深度学习的争吵识别方法,其特征在于,包括以下步骤:
s1:采集与应用场景相匹配的语音样本,包括争吵与非争吵两类数据;
s2:根据语音样本制作用于情感识别的争吵语音数据集,并构建深度神经网络进行训练,得到情感识别模型;
s3:根据语音样本制作用于相关性分析的对话语音数据集,得到相关性系数数据表,并构建支持向量机分类器进行训练,得到对话相关性分类模型;
s4:采集待检测音频,针对情感识别模型、对话相关性分类模型对待检测音频进行预处理,提取语音特征和相关性系数;
s5:将语音特征输入情感识别模型,判断语音情感是否符合争吵的特点;若是,执行步骤s6;否则判断为非争吵语音;
s6:将相关性系数输入对话相关性分类模型,判断语音是否处于对话的状态;若是,则判断为争吵语音,否则判断为非争吵语音。
2.根据权利要求1所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s2具体包括以下步骤:
s21:根据语音样本制作用于情感识别的争吵语音数据集;
s22:对争吵语音数据集进行语音特征的提取,并对每一帧分别进行z-score标准化,得到语音特征序列组;
s23:根据语音特征序列组最大的序列长度对其他序列进行补零,将不定长序列转化为定长序列,得到定长特征序列组;
s24:根据定长特征序列组构建基于长短时记忆网络lstm和注意力机制的深度神经网络;
s25:对深度神经网络进行训练,得到情感识别模型。
3.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法,其特征在于,在所述步骤s24中,所述定长特征序列组的数据标签进行进行独热编码one-hotencoding转换。
4.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法,其特征在于,在所述步骤s24中,所述的深度神经网络具体包括:
输入层:输入步骤s23中得到的定长特征序列组,并对“0”值进行过滤;
单向lstm层:含有与特征序列维度一一对应的神经元,对时序信息进行初步提取,返回全部输出的特征序列;
双向lstm层:连接新的单向lstm层,与上一层单向lstm层输出一一对应,用于进一步时间信息建模,经过双向传播,返回全部输出的特征序列;
注意力机制层:从双向lstm层输出的每一时间步中发现序列的依赖关系;
第一全连接层:含有多个神经元,执行全连接运行,输出为:
f=f(w·t+b)
其中,w为全连接层的权重值;所述t为全连接层的输入;b为全连接层的偏置层;所述f(·)为relu激活函数,公式为f(x)=max(0,x),所述x为该函数的自变量;
第一dropout层:连接在第一全连接层后,重叠率为0.3,为了避免过拟合;
第二全连接层:含有多个神经元;
第二dropout层:连接在第二全连接层后,重叠率为0.2;
输出层:该层神经元个数为2,通过sigmoid回归算法将特征映射到目标的两个分类,即愤怒/不愤怒;其中,sigmoid函数值在0~1之间,其函数形式为:
f(x)=1/(1+e-x)
其中,x为该函数的自变量。
5.根据权利要求4所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述lstm模型包括单向lstm层和双向lstm层,包含多个lstm单元,每个单元包含3中门结构,包括遗忘门、输入门和输出门,以此保持状态信息的更新与双向传播;
在双向lstm层中,其双向传播过程包括前向传播过程和后向传播过程,其中,前向传播过程具体为:
ft=σ(wf·[ht-1,et]+bf)
it=σ(wi·[ht-1,et]+bi)
其中,
后向传播过程与前向传播过程相同,不同之处在于序列信息为从句子后部向前传播,这样得到后向传播信息
接着将lstm模型输出引入所述注意力机制中,权重计算公式具体为:
etj=utanh(whj+b)
其中,hj表示注意力机制encoder中的隐藏状态信息,u,w是权重参数,b表示偏置参数;利用hj通过dot点积得到相似度etj,表示每个encoder过程的隐藏状态对当前的输出st的一个贡献度,st为注意力机制层中每个encoder过程的输出参数;然后,利用softmax函数将相似度etj转化为概率分布atj;最后,通过encoder中的隐藏状态hj与条件概率atj的加权和得到注意力向量ct。
6.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s25具体过程为:
随机抽取80%语音样本数据形成训练集,剩下20%作为测试集对深度神经网络进行训练;训练使用交叉熵损失函数计算损失,并采用自适应矩估计adam算法对深度神经网络进行参数的动态更新,最后得到情感识别模型。
7.根据根据权利要求4所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s3具体包括以下步骤:
s31:根据语音样本制作用于相关性分析的对话语音数据集;
s32:提取对话语音数据集的mel频率倒谱系数mfcc,为了使两个说话人的时间序列能一一对应,对于一个对话场景下音频的每一帧,当a说话时,a的序列alist对应于这帧的值用这帧的mfcc表示;当a的对方b说话时,alist序列此时的值用0表示;b说话时b的序列blist同理,得到alist和blist两个一一对应维数相同的序列;
s33:提取pearson相关性系数,具体为:
提取两个序列alist和blist之间的pearson相关性系数,具体计算公式为:
其中,x,y表示变量,cov(x,y)表示协方差,σx,σy表示标准差,μx表示x的期望,μy表示y的期望;
s34:提取spearman相关性系数,具体为:
提取两个序列alist和blist之间的spearman相关性系数,具体计算公式为:
其中,n为元素个数,若以xi,yi分别表示两个随机变量的第i个值,1≤i≤n,对x,y进行排序,得到x,y的排序集合x,y,其中元素xi,yi为xi,yi在x,y中的排序序号,则di=xi-yi(1≤i≤n);
s35:提取kendell相关性系数,具体为:
提取两个序列alist和blist之间的kendell相关性系数,具体计算公式为:
其中,c表示变量x,y中拥有一致性的元素对数;d表示x,y中拥有不一致性的元素对数;n1表示x含有的元素个数s表示x中拥有的小集合数;ui表示第i个小集合所包含的元素数;t表示y中拥有的小集合数;vi表示第i个小集合所包含的元素数;
s36:将得到的一个场景下的两个序列alist和blist之间的pearson相关性系数、spearman相关性系数、kendell相关性系数作为特征值,表征此场景下的对话相关性或非对话相关性,汇总上述三个相关性系数得到相关性系数数据表;
s37:将相关性系数数据表导入支持向量机分类器中,得到对话相关性分类模型。
8.根据根据权利要求7所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s4具体包括以下步骤:
s41:采集待检测音频;
s42:对待检测的音频序列进行降噪处理,减少录音设备和环境噪音对语音造成的噪声影响;
s43:将降噪处理后的音频序列分成固定长度的语音段、提取mfcc系数并进行归一化处理,作为情感识别模型的输入;
s44:将降噪处理后的音频序列利用端点检测及说话人识别技术,在说话人发生改变处进行切割,依次得到单说话人的若干音频段,然后以同样方式提取mfcc系数,降维求均值,补零得到不同说话人的序列,并求得序列间pearson系数、spearman系数、kendell系数三种相关性系数,作为对话相关性分类模型的输入。
9.根据权利要求8所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s5具体为:将步骤s43得到的语音特征输入情感识别模型中,从输出层sigmoid输出对语音情感的判断,即愤怒/不愤怒,并对数据进行标记,若为愤怒,则执行步骤s6;否则判断为非争吵语音。
10.根据权利要求9所述的基于音频分析与深度学习的争吵识别方法,其特征在于,所述步骤s6具体为:将步骤s44得到的三种相关性系数输入对话相关性分类模型,按次序输入支持向量机模型进行预测,对对话相关性给出判断,输出1代表预测为对话相关,输出0代表预测为对话不相关。