1.一种基于长短时记忆神经网络的说话人分段标注方法,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:
步骤s1,对所述待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2,所述音频帧级特征f1为说话人转换检测所需数据,所述音频帧级特征f2为说话人声纹特征建模所需数据;
步骤s2,搭建基于长短时记忆深度神经网络的说话人识别样本标注模型,该说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型;
步骤s3,将包含多组说话人转换训练音频的训练集输入搭建好的所述说话人转换检测子模型进行训练,并将包含多组说话人特征建模训练音频的训练即输入所述说话人特征建模子模型进行模型训练;
步骤s4,将所述音频帧级特征f1以及所述音频帧级特征f2输入所述基于长短时记忆深度神经网络的说话人识别样本标注模型从而完成所述待测音频中各个所述说话人的说话时间段的分类记录,
其中,所述步骤s4包括如下子步骤:
步骤s4-1,将所述音频帧级特征f1输入所述说话人转换检测子模型从而识别出所述待测音频中的说话人转换点的时间点;
步骤s4-2,根据所述时间点从所述音频帧级特征f2中裁剪出单个说话人的特征片段;
步骤s4-3,将所述特征片段输入所述说话人特征建模子模型从而生成每个所述特征片段的特征向量;
步骤s4-4,根据所述特征向量间的余弦相似度将每个所述特征片段对应分配给某个已存储或新建的说话人信息,从而根据所述特征片段与所述时间点记录每个所述说话时间段以及对应的所述说话人。
2.根据权利要求1所述的基于长短时记忆神经网络的说话人分段标注方法,其特征在于:
其中,所述步骤s1包括如下子步骤:
步骤s1-1,对所述待测音频进行对数梅尔滤波器组的运算,并将运算结果作为各帧的所述音频帧级特征f2;
步骤s1-2,对所述待测音频进行梅尔频率倒谱系数运算、mfcc一阶导数以及mfcc二阶导数的运算,进一步将每一帧的三个运算结果合并形成融合特征并作为各帧的所述音频帧级特征f1。
3.根据权利要求1所述的基于长短时记忆神经网络的说话人分段标注方法,其特征在于:
其中,所述步骤s3包括如下子步骤:
步骤s3-1,初始化所述说话人识别样本标注模型,该说话人识别样本标注模型所包含的模型参数为随机设置;
步骤s3-2,将相应的所述训练集分别输入所述说话人转换检测子模型以及所述说话人特征建模子模型从而进行一次迭代;
步骤s3-3,分别根据所述说话人转换检测子模型以及所述说话人特征建模子模型的模型参数计算出各自的损失误差,所述说话人转换检测子模型使用的是对数交叉熵损失函数,所述所述说话人特征建模子模型使用自定义的生成式端到端损失函数;
步骤s3-4,将所述说话人转换检测子模型以及所述说话人特征建模子模型各自的所述损失误差分别反向传播从而更新所述模型参数;
步骤s3-5,重复所述步骤s3-2至s3-4直至达到训练完成条件,从而得到训练好的所述说话人识别样本标注模型。
4.一种基于长短时记忆神经网络的说话人分段标注装置,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:
预处理部,用于对所述待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2,所述音频帧级特征f1为说话人转换检测所需数据,所述音频帧级特征f2为说话人声纹特征建模所需数据;以及
说话人识别部,用于根据所述音频帧级特征f1以及所述音频帧级特征f2完成所述待测音频中各个所述说话人的说话时间段的分类,该说话人识别部含有一个预先训练好的基于长短时记忆深度神经网络的说话人识别样本标注模型,
其中,所述说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型,
所述说话人识别部包括:
时间点识别单元,将所述音频帧级特征f1输入所述说话人转换检测子模型从而识别出所述待测音频中的说话人转换点的时间点;
特征片段裁剪单元,根据所述时间点从所述音频帧级特征f2中裁剪出单个说话人的特征片段;
特征向量生成单元,将所述特征片段输入所述说话人特征建模子模型从而生成每个所述特征片段的特征向量;以及
说话人匹配记录单元,根据所述特征向量间的余弦相似度将每个所述特征片段对应分配给某个已存储或新建的说话人信息,从而记录每个所述说话人的说话时间段。