基于音频分析与深度学习的争吵识别方法与流程

文档序号：20268229发布日期：2020-04-03 18:40阅读：来源：国知局

技术特征：

1.基于音频分析与深度学习的争吵识别方法，其特征在于，包括以下步骤：

s1：采集与应用场景相匹配的语音样本，包括争吵与非争吵两类数据；

s2：根据语音样本制作用于情感识别的争吵语音数据集，并构建深度神经网络进行训练，得到情感识别模型；

s3：根据语音样本制作用于相关性分析的对话语音数据集，得到相关性系数数据表，并构建支持向量机分类器进行训练，得到对话相关性分类模型；

s4：采集待检测音频，针对情感识别模型、对话相关性分类模型对待检测音频进行预处理，提取语音特征和相关性系数；

s5：将语音特征输入情感识别模型，判断语音情感是否符合争吵的特点；若是，执行步骤s6；否则判断为非争吵语音；

s6：将相关性系数输入对话相关性分类模型，判断语音是否处于对话的状态；若是，则判断为争吵语音，否则判断为非争吵语音。

2.根据权利要求1所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s2具体包括以下步骤：

s21：根据语音样本制作用于情感识别的争吵语音数据集；

s22：对争吵语音数据集进行语音特征的提取，并对每一帧分别进行z-score标准化，得到语音特征序列组；

s23：根据语音特征序列组最大的序列长度对其他序列进行补零，将不定长序列转化为定长序列，得到定长特征序列组；

s24：根据定长特征序列组构建基于长短时记忆网络lstm和注意力机制的深度神经网络；

s25：对深度神经网络进行训练，得到情感识别模型。

3.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法，其特征在于，在所述步骤s24中，所述定长特征序列组的数据标签进行进行独热编码one-hotencoding转换。

4.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法，其特征在于，在所述步骤s24中，所述的深度神经网络具体包括：

输入层：输入步骤s23中得到的定长特征序列组，并对“0”值进行过滤；

单向lstm层：含有与特征序列维度一一对应的神经元，对时序信息进行初步提取，返回全部输出的特征序列；

双向lstm层：连接新的单向lstm层，与上一层单向lstm层输出一一对应，用于进一步时间信息建模，经过双向传播，返回全部输出的特征序列；

注意力机制层：从双向lstm层输出的每一时间步中发现序列的依赖关系；

第一全连接层：含有多个神经元，执行全连接运行，输出为：

f＝f(w·t+b)

其中，w为全连接层的权重值；所述t为全连接层的输入；b为全连接层的偏置层；所述f(·)为relu激活函数，公式为f(x)＝max(0,x)，所述x为该函数的自变量；

第一dropout层：连接在第一全连接层后，重叠率为0.3，为了避免过拟合；

第二全连接层：含有多个神经元；

第二dropout层：连接在第二全连接层后，重叠率为0.2；

输出层：该层神经元个数为2，通过sigmoid回归算法将特征映射到目标的两个分类，即愤怒/不愤怒；其中，sigmoid函数值在0～1之间，其函数形式为：

f(x)＝1/(1+e^-x)

其中，x为该函数的自变量。

5.根据权利要求4所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述lstm模型包括单向lstm层和双向lstm层，包含多个lstm单元，每个单元包含3中门结构，包括遗忘门、输入门和输出门，以此保持状态信息的更新与双向传播；

在双向lstm层中，其双向传播过程包括前向传播过程和后向传播过程，其中，前向传播过程具体为：

ft＝σ(wf·[ht-1,et]+bf)

it＝σ(wi·[ht-1,et]+bi)

其中，是上一个前向lstm单元输出状态信息；σ为sigmoid函数；wf、wi、wc、wo为连接权重；bf、bi、bc、bo为偏置；首先，通过遗忘门计算上一个前向单元传递的记忆信息与丢弃的信息概率值ft，然后输入门中σ决定需要更新的信息值it，并通过tanh层得到需要添加的记忆信息最终更新得到新的记忆信息最后，输出门中确定应输出的部分状态信息ot与得到第t帧e^t的前向传播特征信息

后向传播过程与前向传播过程相同，不同之处在于序列信息为从句子后部向前传播，这样得到后向传播信息融合前向传播特征信息与后向传播特征信息获得第t帧e^t完整特征信息ht，计算式如下：

接着将lstm模型输出引入所述注意力机制中，权重计算公式具体为：

etj＝utanh(whj+b)

其中，hj表示注意力机制encoder中的隐藏状态信息，u，w是权重参数，b表示偏置参数；利用hj通过dot点积得到相似度etj，表示每个encoder过程的隐藏状态对当前的输出st的一个贡献度，st为注意力机制层中每个encoder过程的输出参数；然后，利用softmax函数将相似度etj转化为概率分布atj；最后，通过encoder中的隐藏状态hj与条件概率atj的加权和得到注意力向量ct。

6.根据权利要求2所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s25具体过程为：

随机抽取80％语音样本数据形成训练集，剩下20％作为测试集对深度神经网络进行训练；训练使用交叉熵损失函数计算损失，并采用自适应矩估计adam算法对深度神经网络进行参数的动态更新，最后得到情感识别模型。

7.根据根据权利要求4所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s3具体包括以下步骤：

s31：根据语音样本制作用于相关性分析的对话语音数据集；

s32：提取对话语音数据集的mel频率倒谱系数mfcc，为了使两个说话人的时间序列能一一对应，对于一个对话场景下音频的每一帧，当a说话时，a的序列alist对应于这帧的值用这帧的mfcc表示；当a的对方b说话时，alist序列此时的值用0表示；b说话时b的序列blist同理，得到alist和blist两个一一对应维数相同的序列；

s33：提取pearson相关性系数，具体为：

提取两个序列alist和blist之间的pearson相关性系数，具体计算公式为:

其中，x,y表示变量，cov(x,y)表示协方差，σx，σy表示标准差，μx表示x的期望，μy表示y的期望；

s34：提取spearman相关性系数，具体为：

提取两个序列alist和blist之间的spearman相关性系数，具体计算公式为：

其中，n为元素个数，若以xi,yi分别表示两个随机变量的第i个值，1≤i≤n，对x,y进行排序，得到x,y的排序集合x,y，其中元素xi,yi为xi,yi在x,y中的排序序号，则di＝xi-yi(1≤i≤n)；

s35：提取kendell相关性系数，具体为：

提取两个序列alist和blist之间的kendell相关性系数，具体计算公式为：

其中，c表示变量x,y中拥有一致性的元素对数；d表示x,y中拥有不一致性的元素对数；n1表示x含有的元素个数s表示x中拥有的小集合数；ui表示第i个小集合所包含的元素数；t表示y中拥有的小集合数；vi表示第i个小集合所包含的元素数；

s36：将得到的一个场景下的两个序列alist和blist之间的pearson相关性系数、spearman相关性系数、kendell相关性系数作为特征值，表征此场景下的对话相关性或非对话相关性，汇总上述三个相关性系数得到相关性系数数据表；

s37：将相关性系数数据表导入支持向量机分类器中，得到对话相关性分类模型。

8.根据根据权利要求7所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s4具体包括以下步骤：

s41：采集待检测音频；

s42：对待检测的音频序列进行降噪处理，减少录音设备和环境噪音对语音造成的噪声影响；

s43：将降噪处理后的音频序列分成固定长度的语音段、提取mfcc系数并进行归一化处理，作为情感识别模型的输入；

s44：将降噪处理后的音频序列利用端点检测及说话人识别技术，在说话人发生改变处进行切割，依次得到单说话人的若干音频段，然后以同样方式提取mfcc系数，降维求均值，补零得到不同说话人的序列，并求得序列间pearson系数、spearman系数、kendell系数三种相关性系数，作为对话相关性分类模型的输入。

9.根据权利要求8所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s5具体为：将步骤s43得到的语音特征输入情感识别模型中，从输出层sigmoid输出对语音情感的判断，即愤怒/不愤怒，并对数据进行标记，若为愤怒，则执行步骤s6；否则判断为非争吵语音。

10.根据权利要求9所述的基于音频分析与深度学习的争吵识别方法，其特征在于，所述步骤s6具体为：将步骤s44得到的三种相关性系数输入对话相关性分类模型，按次序输入支持向量机模型进行预测，对对话相关性给出判断，输出1代表预测为对话相关，输出0代表预测为对话不相关。

完整全部详细技术资料下载

当前第2页1 2 3