对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
【专利摘要】本发明涉及数字娱乐点播系统领域,尤其涉及一种对比声纹相似度的方法及其在数字娱乐点播系统的应用。所述对比声纹相似度的方法,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度;显示经过声纹对比后系统评估的评分结果。本发明的目的在于克服以上缺点,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果;同时,本发明还提供了上述对比声纹相似度的方法在数字娱乐点播系统的应用。
【专利说明】
对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
技术领域
[0001]本发明涉及数字娱乐点播系统领域,尤其涉及一种对比声纹相似度的方法及其在数字娱乐点播系统的应用。
【背景技术】
[0002]现有的数字娱乐系统中的实时演唱评分方法,一般由音频采集模块实时采集演唱录音,通过音频分析技术计算用户演唱的音高、旋律、音长等演唱信息、并与歌曲标准演唱信息对比,确定演唱正确与否,并依此评分,给出演唱得分,显示在显示模块上。如中国专利公开号CN103077701A公布的一种音准评定方法,包括:在屏幕上展示歌曲的基准音高值与演唱游标;录制用户演唱该歌曲的实时音频,并计算该实时音频的实时音高值;判断该实时音频的实时音高值与基准音高值是否保持匹配,如果不是,则调整演唱游标与基准音高值的相对位置展示关系以向用户发出实时提醒。因此上述发明可提高演唱者音高与基准音高匹配的准确度。因此,在现有的演唱评分系统中,不论音高、旋律、音长等评分因素,都是针对用户演唱正确与否进行评分,而不能针对用户模仿歌曲标准的相似程度进行评分。
【发明内容】
[0003]本发明的目的之一在于克服以上缺点,提供一种对比声纹相似度的方法以及装置,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。
[0004]为了实现上述发明目的,根据本发明的一方面,提供了一种对比声纹相似度的方法,包括以下步骤:
[0005]从标准干声中提取标准声纹;
[0006]从采集的演唱干声中提取用户声纹;
[0007]将用户声纹与标准声纹进行对比并计算模仿相似度。
[0008]其中,所述标准干声可以包括:某一歌曲的原唱干声或者由测试者所指定的特定人员的演唱干声。
[0009]优选地,该方法进一步包括:
[0010]显示经过声纹对比后系统评估的模仿相似程度结果。
[0011]优选地,所述的提取标准声纹或提取用户声纹,可进一步具体为:
[0012]从标准干声或用户演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。
[0013]优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的一种计算方法如下:
[0014]提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值;
[0015]设计一组权重值Bmxi,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;
[0016]计算标准声纹或用户声纹特征矩阵Vmxn,其中Vlj= BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0017]优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的另一种计算方法如下:
[0018]预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0019]分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0020]加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0021]快速傅立叶变换(FFT):将时域信号变换成为信号的功率谱;
[0022]三角窗滤波:用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0023]求对数:对三角窗滤波器组的输出求取对数;
[0024]离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧(该时刻)的声纹特征。
[0025]最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧(每一个时刻),每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。
[0026]优选地,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:
[0027]用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;
[0028]用归一化法将距离值归一化为相似度值。
[0029]优选的,所述模式识别方法可为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等。
[0030]优选地,所述的归一化方法为线性映射、分段线性映射以及单调函数的方法。
[0031]为了实现上述发明目的,根据本发明的另一方面,提供了一种对比声纹相似度的装置,包括:
[0032]标准声纹提取模块,用于从标准干声中提取标准声纹;
[0033]用户声纹提取模块,用于从采集的演唱干声中提取用户声纹;
[0034]声纹对比模块,用于将用户声纹与标准声纹进行对比并计算模仿相似度。
[0035]优选地,所述的对比声纹相似度的装置,还包括:
[0036]显示模块,用于显示经过声纹对比后系统评估的模仿相似程度结果。
[0037]优选地,所述的标准声纹提取模块或用户声纹提取模块,可以采用以下结构,包括:
[0038]音频共振峰提取单元,用于提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值;
[0039]权重值设计单元,用于设计一组权重值BMX1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;
[0040]声纹特征矩阵计算单元,用于计算标准声纹或用户声纹特征矩阵Vmxn,其中Vu =BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0041]优选地,所述的标准声纹提取模块或用户声纹提取模块,还可以采用以下结构,包括:
[0042]预加重单元,用于通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0043]分帧单元,用于根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0044]加窗单元,用于采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0045]快速傅立叶变换单元,用于将时域信号变换成为信号的功率谱;
[0046]三角窗滤波单元,用于用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0047]求对数单元,用于对三角窗滤波器组的输出求取对数;
[0048]离散余弦变换单元,用于去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧的声纹特征。
[0049]声纹特征矩阵计算单元,用于最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧,每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。
[0050]本发明的另一发明目的在于克服以上缺点,提供一种基于声纹对比的演唱评分方法和装置,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。
[0051]为了实现上述发明目的,根据本发明的一方面,提供了一种基于声纹对比的演唱评分方法,其特征在于,包括以下步骤:
[0052]从标准干声中提取标准声纹;
[0053]从采集的演唱干声中提取用户声纹;
[0054]将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果O
[0055]优选地,该方法进一步包括:
[0056]显示经过声纹对比后系统评估的评分结果。
[0057]优选地,所述的提取标准声纹或提取用户声纹,可进一步具体为:
[0058]从标准音频或用户演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。
[0059]优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的一种计算方法如下:
[0060]提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值;
[0061]设计一组权重值Bmxi,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;
[0062]计算标准声纹或用户声纹特征矩阵Vmxn,其中Vlj= BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0063]优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的另一种计算方法如下:
[0064]预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0065]分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0066]加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0067]快速傅立叶变换(FFT):将时域信号变换成为信号的功率谱;
[0068]三角窗滤波:用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0069]求对数:对三角窗滤波器组的输出求取对数;
[0070]离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧(该时刻)的声纹特征。
[0071]最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧(每一个时刻),每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。
[0072]优选地,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:
[0073]用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;
[0074]用归一化法将距离值归一化为相似度值。
[0075]优选的,所述模式识别方法可为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等。
[0076]优选地,所述的归一化方法为线性映射、分段线性映射以及单调函数的方法。
[0077]优选地,所述的显示经过声纹对比后系统评估的评分结果,具体为:显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图。
[0078]所述的显示经过声纹对比后系统评估的评分结果,还可以进一步包括:
[0079]显示当前演唱内容的标准声纹的示意图;
[0080]显不当如用户演唱声纹的不意图;
[0081]将当前用户演唱声纹的示意图叠加在当前演唱内容的标准声纹的示意图之上进行显示。
[0082]优选地,所述的显示当前演唱内容的标准声纹或当前用户演唱的声纹示意图,其绘制步骤如下:
[0083]首先计算出声纹示意图数据Vp1XN,其中Vpli= V Η+ν2?+ν3?+......VMi;
[0084]然后将Vp数值当作曲线数据进行绘制。
[0085]为了实现上述发明目的,根据本发明的另一方面,提供了一种基于声纹对比的演唱评分装置,其特征在于,包括:
[0086]标准声纹提取模块,用于从标准干声中提取标准声纹;
[0087]用户声纹提取模块,用于从采集的音频中提取用户声纹;
[0088]声纹对比模块,用于将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。
[0089]优选地,所述的基于声纹对比的演唱评分装置,还包括:
[0090]显示模块,用于显示经过声纹对比后系统评估的评分结果。
[0091]优选地,所述的标准声纹提取模块或用户声纹提取模块,可以采用以下结构,包括:
[0092]音频共振峰提取单元,用于提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值;
[0093]权重值设计单元,用于设计一组权重值BMX1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;
[0094]声纹特征矩阵计算单元,用于计算标准声纹或用户声纹特征矩阵Vmxn,其中Vu =BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0095]优选地,所述的标准声纹提取模块或用户声纹提取模块,还可以采用另一种结构,包括:
[0096]预加重单元,用于通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0097]分帧单元,用于根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0098]加窗单元,用于采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0099]快速傅立叶变换单元,用于将时域信号变换成为信号的功率谱;
[0100]三角窗滤波单元,用于用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0101]求对数单元,用于对三角窗滤波器组的输出求取对数;
[0102]离散余弦变换单元,用于去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧的声纹特征。
[0103]声纹特征矩阵计算单元,用于最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧,每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。
[0104]优选地,所述显示模块,包括:
[0105]相似度示意单元,用于显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图;
[0106]标准声纹示意单元,用于显示当前演唱内容的标准声纹的示意图;
[0107]用户声纹示意单元,用于显示当前用户演唱声纹的示意图。
[0108]优选地,所述基于声纹对比的演唱评分装置,还可以进一步包括音频采集模块,用于实时采集用户的演唱音频。
[0109]本发明的另一目的在于克服以上缺点,提供一种数字娱乐点播系统,该系统具有基于声纹对比进行演唱评分的功能,该系统可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。
[0110]为了实现上述发明目的,本发明提供了一种数字娱乐点播系统,包含上述的基于声纹对比的演唱评分装置。
[0111]与现有的演唱评分系统中,不论音高、旋律、音长等评分因素,都是针对用户演唱正确与否进行评分的做法不同,通过本发明所述的基于声纹对比的演唱评分的方法或装置,可以直接在现有KTV系统中实现基于声纹对比的模仿相似度演唱评分,当用户模仿一首歌曲时,在演唱过程就可以实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,在演唱结束后,给出整体的模仿相似度的演唱评分效果。
[0112]另外,在本发明中,为确保所提取的标准或标准的音频特征能准确反映标准的声纹特质,特别需要使用标准的干声或纯净的用户演唱干声作为提取源,避免伴奏、混响等效果减弱声纹特征矩阵中的标准声纹特质或用户声纹特征。
[0113]同时,为了使提取获得的声纹特征矩阵能准确反映使用者每时刻的声纹特征,及其各时刻间的变化关系,因此,所求得的声纹特征矩阵的其中一维(行或列)可以对应于分帧时的一帧(一个时刻点)。并且,由于面对采用不同声纹对比方法(模式匹配方法)计算得到的对比值,使用者无法将其直接理解为相似度的概念,而本发明采用归一化方法,可以将对比值转为使用者能理解的相似度的概念,常用方法是归一化到0-100,以百分比的方式表示其相似度。另外,在本发明中同时显示用户与标准的声纹是可以实时比较用户模仿的相差情况,使用户可以更加直观地进行声纹的对比。
[0114]本发明中所采用的声纹示意图数据的计算方法,可以将多维度的声纹特征转为一维向量,便于图形绘制。
【附图说明】
[0115]下面参照附图结合实施例对本发明作进一步说明:
[0116]图1是基于声纹对比的演唱评分方法的整体工作流程图。
[0117]图2是从标准干声中提取标准声纹的一种方法的详细工作流程图。
[0118]图3是从标准干声中提取标准声纹的另一种方法的详细工作流程图。
[0119]图4是归一化方法为分段线性映射法时的操作流程图。
[0120]图5是采用分段线性映射中的DTW测算距离与相似度值之间的对应关系曲线图。
[0121]图6是用GMM模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值的详细流程图。
[0122]图7是步骤104所述显示经过声纹对比后系统评估的模仿相似程度结果的详细流程图。
[0123]图8是当前演唱内容的标准声纹和当前用户演唱的声纹示意图的绘制步骤流程图。
[0124]图9是根据图8所述绘制流程所作出的当前演唱内容的标准声纹示意图。
[0125]图10是本发明基于声纹对比的评分装置或对比声纹相似度的装置的结构框图。
[0126]图11是本发明基于声纹对比的评分装置或对比声纹相似度的装置的声纹提取模块的结构示意框图。
[0127]图12是本发明基于声纹对比的评分装置或对比声纹相似度的装置的声纹提取模块的另一种结构示意图。
[0128]图13是本发明基于声纹对比的评分装置或对比声纹相似度的装置的显示模块的结构示意框图。
[0129]图14是一种具有基于声纹对比进行演唱评分功能的数字娱乐点播系统的结构示意框图。
[0130]图15是一种对比声纹相似度的方法的整体工作流程图。
【具体实施方式】
[0131]下面结合说明书附图和具体实施例对本
【发明内容】
进行详细说明:
[0132]如图1所示,是本发明的基于声纹对比的演唱评分方法的流程图,该方法包括:
[0133]步骤101:从标准干声中提取标准声纹;
[0134]步骤102:实时采集用户演唱干声并提取用户声纹;该步骤也可以与步骤101同时完成;
[0135]步骤103:将用户声纹与标准声纹输入进行对比并计算模仿相似度;所述模仿相似度做为评分结果;
[0136]步骤104:显示经过声纹对比后系统评估的评分结果。
[0137]如图2,是上述步骤101的详细流程图。优选地,所述的提取标准声纹的一种方法的步骤如下:
[0138]步骤201:提取4条音频共振峰,从低频到高频依次标记为f 1,f2, f3, f4。所述4条共振峰组成一个共振峰特征矩阵,矩阵记为A4XN,即特征矩阵A共有4行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值。
[0139]步骤202:设-H组权重值,B4xi= {wl ;w2 ;w3 ;w4},每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大。
[0140]步骤203:计算标准声纹或用户声纹特征矩阵VMXN,Vlj= B u XAljS卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0141]如图3,优选地,所述的提取标准声纹的另一种计算方法如下:
[0142]步骤301,预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0143]步骤302,分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0144]步骤303,加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0145]步骤304,快速傅立叶变换(FFT):将时域信号变换成为信号的功率谱;
[0146]步骤305,三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0147]步骤306,求对数:对三角窗滤波器组的输出求取对数;
[0148]步骤307,离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出24个数的DCT参数,为该帧(该时刻)的声纹特征。
[0149]步骤308,最终求得一个声纹特征矩阵,声纹特征矩阵的每列对应于按时间顺序的每一帧(每一个时刻),每列中的每行分别对应24个DCT参数,即每个时刻的声纹特征。
[0150]同时,所述步骤102中提取用户声纹的步骤可采用与图2或图3中所述的提取标准声纹相同的方法实现。
[0151]优选地,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:
[0152]用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;
[0153]用归一化法将距离值归一化为相似度值。
[0154]优选的,所述模式识别方法可为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等。
[0155]优选地,所述的归一化方法为线性映射、分段线性映射以及其他单调函数的方法。
[0156]如图4,是上述的归一化方法为分段线性映射法时的操作流程图,具体为:
[0157]步骤401:先设定若干参考点;
[0158]步骤402:计算各参考点间的映射公式;由于各点间为线性映射,假设如图5中点A(dl,sl),B(d2,s2) (d表示DTW测算距离值,s表示相似度值)间映射公式为:相似度s =sl+(s2-sl)/(d2-dl) X (d-dl);
[0159]步骤403:根据DTW测算距离值所在区间,代入所在区间的映射公式,计算得到相似度值。
[0160]如图6,是用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值的方法,图中采用的模式识别方法是高斯混合模型GMM,该方法中所采用的声纹特征是MFCC,具体过程为:
[0161]步骤601,先对标准声纹建立高斯混合模型(GMM),高斯混合模型的估计一般采用最大似然法,所述标准特征的高斯混合模型既可以用标准干声的单句MFCC,按每句建立GMM,也可以用整首MFCC建立GMM ;
[0162]步骤602,接着,将用户声纹特征(MFCC)输入标准的GMM(如果按单句建立,则输入对应单句的GMM中),求出最大后验概率,即用户声纹特征矩阵和标准声纹特征矩阵的距离值。
[0163]步骤603,对后验概率进行归一化,表示为相似度值。
[0164]本发明所述归一化方法可以采用:线性映射、分段线性映射、以及其他的单调函数。在本发明实施例中仅列举数种,各种归一化方法的特点分别如下:
[0165](I)由DTW计算出的声纹对比值,值越小相似度越高,因此选用单调递减函数来进行映射。如果采用线性映射,通过经验数据或训练等方式,只需确定出两个映射点(声纹对比值到相似度的映射),即可确定出归一化公式;
[0166](2)由MFCC经GMM求得的后验概率越大,相似度越高,因此选用单调递增函数来进行映射,如可以使用指数函数、对数函数等。
[0167]其中,分段线性映射是对线性映射的改进,在无法求出准确映射关系时可以起到较为准确的映射作用。本发明中也可以使用拟合的方式求出声纹对比值到相似度的归一化公式。具体做法是采集多组映射点,每个映射点表示声纹对比值到相似度的映射,然后将这些点用拟合工具拟合出一个最接近的曲线,该曲线的公式即可作为归一化的公式。
[0168]如图7,是上述步骤104的详细流程图。所述的显示经过声纹对比后系统评估的评分结果,还可以进一步细化为包括以下三个部分:
[0169](I)显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图;
[0170](2)显示当前演唱内容的标准声纹的示意图;
[0171](3)显示当前用户演唱声纹的示意图。
[0172]其中上述显示的结果可以只包含单独(I)部分的示意图;也可以同时显示包含上述3个部分的示意图。为了更方便比较,还可以将当前用户演唱声纹的示意图叠加在当前演唱内容的标准声纹的示意图之上进行显示,通过两条曲线偏离远近即可更加直观看出声纹相似差距。
[0173]如图8,是上述的当前演唱内容的标准声纹和当前用户演唱的声纹示意图的绘制步骤流程图,其采用的绘制步骤如下:首先计算出声纹示意图数据Vp1XN,其中Vpll =Vn+V2l+V3l+……Vmi;然后将Vp数值当作曲线数据绘制。如图9所示,标准声纹示意单元中每个拐点在竖直方向上的值即对应Vp中一个数。
[0174]如图10,为本发明的基于声纹对比的评分装置的结构框图;主要由以下模块组成:
[0175]声纹提取模块1:包括标准声纹提取模块11和用户声纹提取模块12 ;用于从标准干声、实时采集的用户演唱干声中提取声纹。常见的表征声纹的系数有:语谱统计参数、梅尔倒谱系数等,也可以是多种表征系数组合得到的混合系数。
[0176]声纹对比模块2:用于将用户声纹与标准声纹进行对比,对比同类声纹系数表征的两个声纹的相似程度,计算并得出相似度值,所述模仿相识度做为评分结果。常见的模式识别方法有:高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等,本实施例中将采用动态时间规整方法(DTW)和高斯混合模型法(GMM)为例进行详细说明。
[0177]显示模块3,用于显示经过声纹对比后系统评估的评分结果。
[0178]所述基于声纹对比的演唱评分装置还可以进一步包括音频采集模块4,用于实时采集演唱音频。
[0179]如图11,是本发明所述的基于声纹对比的评分装置的声纹提取模块的一种结构示意图。其中,标准声纹提取模块11与用户声纹提取模块12的结构相同,本实施例中以标准声纹提取模块11为例,具体包括以下:
[0180](I)音频共振峰提取单元111,用于提取音频共振峰,本实施例中共选取4条,从低频到高频依次标记为Π,f2, f3, f4。4条共振峰组成一个共振峰特征矩阵,矩阵记为A4XN,即特征矩阵A共有4行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值。
[0181](2)权重值设计单元112,用于设计出一组权重值,B4xi= {wl ;w2 ;w3 ;w4},每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大。声纹特征矩阵记作V4-Vlj= B11XA1^,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值。
[0182](3)声纹特征矩阵计算单元113,用于计算标准声纹或用户声纹特征矩阵Vmxn,其中Vlj= BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0183]如图12,是本发明所述的基于声纹对比的评分装置的声纹提取模块的另一种结构示意图。包括:
[0184]预加重单元121,用于通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0185]分帧单元122,用于根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0186]加窗单元123,用于采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0187]快速傅立叶变换单元124,用于将时域信号变换成为信号的功率谱;
[0188]三角窗滤波单元125,用于用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0189]求对数单元126,用于对三角窗滤波器组的输出求取对数;
[0190]离散余弦变换单元127,用于去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧的声纹特征。
[0191]声纹特征矩阵计算单元128,用于最终求得一个声纹特征矩阵,声纹特征矩阵的每列对应于按时间顺序的每一帧(每一个时刻),每列中的每行分别对应24个DCT参数,即每个时刻的声纹特征。
[0192]如图13是本发明的基于声纹对比的演唱评分系统的显示模块的结构示意图,所述显示模块3,包括:
[0193]相似度示意单元31,用于显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图。
[0194]标准声纹示意单元32,用于显示当前演唱内容的标准声纹的示意图;该单元的图形数据来自声纹特征矩阵,绘图方式较为多样,本实施例采用方式如下:首先计声纹示意图数据Vp1XN,其中Vp11= V n+V2l+V3l+V4l;然后,将Vp数值当作曲线数据绘制,如图12所示,标准声纹示意单元中每个拐点在竖直方向上的值即对应Vp中一个数。
[0195]用户声纹示意单元33,用于显示当前用户演唱声纹的示意图,其绘制方式与标准声纹示意单元相同。为方便比较,还可将该单元叠加在标准声纹示意单元之上,通过两条曲线偏离远近即可直观看出声纹相似差距。
[0196]如图14,是一种具有基于声纹对比进行演唱评分功能的一种数字娱乐点播系统,所述数字娱乐点播系统200包含上述的基于声纹对比的评分的装置。该数字娱乐点播系统可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。进而满足了多名用户模仿同一歌曲进行PK相似度高低的应用场景。通过模仿评分,或将相似度评分与音准评分结合给出更全面的演唱评分提升评分的娱乐性与准确度。
[0197]本发明还提供了一种对比声纹相似度的方法,如图15所示,是本发明的对比声纹相似度的方法的流程图,该方法包括:
[0198]步骤1501:从标准干声中提取标准声纹;
[0199]步骤1502:实时采集用户演唱干声并提取用户声纹;该步骤也可以与步骤101同时完成;
[0200]步骤1503:将用户声纹与标准声纹输入进行对比并计算模仿相似度;
[0201]步骤1504:显示经过声纹对比后系统评估的模仿相似程度结果。
[0202]如图2,是上述步骤1501的详细流程图。优选地,所述的提取标准声纹的一种方法的步骤如下:
[0203]步骤201:提取4条音频共振峰,从低频到高频依次标记为f 1,f2, f3, f4。所述4条共振峰组成一个共振峰特征矩阵,矩阵记为A4XN,即特征矩阵A共有4行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值。
[0204]步骤202:设-H组权重值,B4xi= {wl ;w2 ;w3 ;w4},每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大。
[0205]步骤203:计算标准声纹或用户声纹特征矩阵VMXN,Vlj= B u XAljS卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0206]如图3,优选地,所述的提取标准声纹的另一种计算方法如下:
[0207]步骤301,预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0208]步骤302,分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0209]步骤303,加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0210]步骤304,快速傅立叶变换(FFT):将时域信号变换成为信号的功率谱;
[0211]步骤305,三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0212]步骤306,求对数:对三角窗滤波器组的输出求取对数;
[0213]步骤307,离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出24个数的DCT参数,为该帧(该时刻)的声纹特征。
[0214]步骤308,最终求得一个声纹特征矩阵,声纹特征矩阵的每列对应于按时间顺序的每一帧(每一个时刻),每列中的每行分别对应24个DCT参数,即每个时刻的声纹特征。
[0215]同时,所述步骤1502中提取用户声纹的步骤可采用与图2或图3中所述的提取标准声纹相同的方法实现。
[0216]优选地,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:
[0217]用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;
[0218]用归一化法将距离值归一化为相似度值。
[0219]优选的,所述模式识别方法为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等。
[0220]优选地,所述的归一化方法为线性映射、分段线性映射以及其他单调函数的方法。
[0221]如图4,是上述的归一化方法为分段线性映射法时的操作流程图,具体为:
[0222]步骤401:先设定若干参考点;
[0223]步骤402:计算各参考点间的映射公式;由于各点间为线性映射,假设如图5中点A(dl,sl),B(d2,s2) (d表示DTW测算距离值,s表示相似度值)间映射公式为:相似度s =sl+(s2-sl)/(d2-dl) X (d-dl);
[0224]步骤403:根据DTW测算距离值所在区间,代入所在区间的映射公式,计算得到相似度值。
[0225]如图6,是用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值的方法,图中采用的模式识别方法是高斯混合模型GMM,该方法中所采用的声纹特征是MFCC,具体过程为:
[0226]步骤601,先对标准声纹建立高斯混合模型(GMM),高斯混合模型的估计一般采用最大似然法,所述标准特征的高斯混合模型既可以用标准干声的单句MFCC,按每句建立GMM,也可以用整首MFCC建立GMM ;
[0227]步骤602,接着,将用户声纹特征(MFCC)输入标准的GMM(如果按单句建立,则输入对应单句的GMM中),求出最大后验概率,即用户声纹特征矩阵和标准声纹特征矩阵的距离值。
[0228]步骤603,对后验概率进行归一化,表示为相似度值。
[0229]本发明所述归一化方法可以采用:线性映射、分段线性映射、以及其他的单调函数。
[0230]如图7,是上述步骤1504的详细流程图。所述的显示经过声纹对比后系统评估的模仿相似程度结果,还可以进一步细化为包括以下三个部分:
[0231](I)显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图;
[0232](2)显示当前演唱内容的标准声纹的示意图;
[0233](3)显示当前用户演唱声纹的示意图。
[0234]其中上述显示的结果可以只包含单独(I)部分的示意图;也可以同时显示包含上述3个部分的示意图。为了更方便比较,还可以将当前用户演唱声纹的示意图叠加在当前演唱内容的标准声纹的示意图之上进行显示,通过两条曲线偏离远近即可更加直观看出声纹相似差距。
[0235]如图8,是上述的当前演唱内容的标准声纹和当前用户演唱的声纹示意图的绘制步骤流程图,其采用的绘制步骤如下:首先计算出声纹示意图数据Vp1XN,其中Vpll =Vn+V2l+V3l+……Vmi;然后将Vp数值当作曲线数据绘制。如图9所示,标准声纹示意单元中每个拐点在竖直方向上的值即对应Vp中一个数。
[0236]本发明还提供一种对比声纹相似度的装置,如图10,为本发明所述的对比声纹相似度的装置的结构框图;主要由以下模块组成:
[0237]声纹提取模块1:包括标准声纹提取模块11和用户声纹提取模块12 ;用于从标准干声、实时采集的用户演唱干声中提取声纹。常见的表征声纹的系数有:语谱统计参数、梅尔倒谱系数等,也可以是多种表征系数组合得到的混合系数。
[0238]声纹对比模块2:用于将用户声纹与标准声纹进行对比,对比同类声纹系数表征的两个声纹的相似程度,计算并得出相似度值。常见的声纹对比算法有:高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等,本实施例中将采用动态时间规整方法(DTW)和高斯混合模型法(GMM)为例进行详细说明。
[0239]显示模块3,用于显示经过声纹对比后系统评估的模仿相似程度结果。
[0240]所述对比声纹相似度的装置还可以进一步包括音频采集模块4,用于实时采集演唱首频。
[0241]如图11,是本发明所述的对比声纹相似度的装置的声纹提取模块的一种结构示意图。其中,标准声纹提取模块11与用户声纹提取模块12的结构相同,本实施例中以标准声纹提取模块11为例,具体包括以下:
[0242](I)音频共振峰提取单元111,用于提取音频共振峰,本实施例中共选取4条,从低频到高频依次标记为Π,f2, f3, f4。4条共振峰组成一个共振峰特征矩阵,矩阵记为A4XN,即特征矩阵A共有4行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值。
[0243](2)权重值设计单元112,用于设计出一组权重值,B4xi= {wl ;w2 ;w3 ;w4},每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大。声纹特征矩阵记作V4-Vlj= B11XA1^,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值。
[0244](3)声纹特征矩阵计算单元113,用于计算标准声纹或用户声纹特征矩阵Vmxn,其中Vlj= BllXAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。
[0245]如图12,是本发明所述的对比声纹相似度的装置的声纹提取模块的另一种结构示意图。包括:
[0246]预加重单元121,用于通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;
[0247]分帧单元122,用于根据语音的短时平稳特性,语音可以以帧为单位进行处理;
[0248]加窗单元123,用于采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;
[0249]快速傅立叶变换单元124,用于将时域信号变换成为信号的功率谱;
[0250]三角窗滤波单元125,用于用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
[0251]求对数单元126,用于对三角窗滤波器组的输出求取对数;
[0252]离散余弦变换单元127,用于去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧的声纹特征。
[0253]声纹特征矩阵计算单元128,用于最终求得一个声纹特征矩阵,声纹特征矩阵的每列对应于按时间顺序的每一帧(每一个时刻),每列中的每行分别对应24个DCT参数,即每个时刻的声纹特征。
[0254]如图13是本发明的对比声纹相似度的装置的显示模块的结构示意图,所述显示丰旲块3,包括:
[0255]相似度示意单元31,用于显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图。
[0256]标准声纹示意单元32,用于显示当前演唱内容的标准声纹的示意图;该单元的图形数据来自声纹特征矩阵,绘图方式较为多样,本实施例采用方式如下:首先计声纹示意图数据Vp1XN,其中Vpll= V n+V2l+V3l+V4l;然后,将Vp数值当作曲线数据绘制,如图12所示,标准声纹示意单元中每个拐点在竖直方向上的值即对应Vp中一个数。
[0257]用户声纹示意单元33,用于显示当前用户演唱声纹的示意图,其绘制方式与标准声纹示意单元相同。为方便比较,还可将该单元叠加在标准声纹示意单元之上,通过两条曲线偏离远近即可直观看出声纹相似差距。
[0258]本发明上述的实施例是基于权重共振峰或使用梅尔倒谱系数(MFCC)设计的声纹提取模块,基于动态时间规整方法(DTW)或高斯混合模型(GMM)设计声纹对比模块,通过将实时采集并提取的用户声纹与从标准中提取的声纹进行对比并计算出其模仿相似度,并通过在显示模块上实时显示出模仿相似度、用户声纹、标准声纹等结果,让演唱者可以在演唱过程实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,并可以在演唱结束时,给出整体的模仿相似度;因此将其应用在数字娱乐点播系统中,可以更快地提高用户对于模仿歌曲标准的相似程度,并提高演唱水平。同时可以满足多名用户模仿同一歌曲进行PK相似度高低的应用场景。通过模仿评分,或将相似度评分与音准评分结合给出更全面的演唱评分提升评分的娱乐性与准确度。
[0259]上述【具体实施方式】只是对本发明的技术方案进行详细解释,本发明并不只仅仅局限于上述实施例,凡是依据本发明原理的任何改进或替换,均应在本发明的保护范围之内。
【主权项】
1.一种基于声纹对比的演唱评分方法,其特征在于,包括以下步骤: 从标准干声中提取标准声纹; 从采集的演唱干声中提取用户声纹; 将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。2.根据权利要求1所述的基于声纹对比的演唱评分方法,其特征在于,该方法进一步包括: 显示经过声纹对比后系统评估的评分结果。3.根据权利要求1所述的基于声纹对比的演唱评分方法,其特征在于,所述的提取标准声纹或提取用户声纹具体为: 从标准干声或演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。4.根据权利要求3所述的基于声纹对比的演唱评分方法,其特征在于,所述的标准声纹特征矩阵或用户声纹特征矩阵的计算方法如下: 提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值; 设计一组权重值Bmxi,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于O,小于无穷大; 计算标准声纹或用户声纹特征矩阵Vmxn,其中Vlj= B11XAlj;即,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。5.根据权利要求3所述的对比声纹相似度的方法基于声纹对比的演唱评分方法,其特征在于,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下: 用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值; 用归一化法将距离值归一化为相似度值。6.根据权利要求5所述的基于声纹对比的演唱评分方法,其特征在于,所述模式识别方法为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法。7.根据权利要求5所述的基于声纹对比的演唱评分方法,其特征在于,所述的归一化方法为线性映射、分段线性映射以及单调函数的方法。8.根据权利要求2所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示经过声纹对比后系统评估的评分结果,具体为:显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图。9.根据权利要求8所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示经过声纹对比后系统评估的评分结果,还进一步包括: 显示当前演唱内容的标准声纹的示意图; 显示当前用户演唱声纹的示意图; 将当前用户演唱声纹的示意图叠加在当前演唱内容的标准声纹的示意图之上进行显不O10.根据权利要求9所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示当前演唱内容的标准声纹或当前用户演唱的声纹示意图,其绘制步骤如下: 首先计算出声纹示意图数据Vp1XN,其中Vpli= V H+Vzi+Vsi+......vMi; 然后将Vp数值当作曲线数据进行绘制。11.一种基于声纹对比的演唱评分装置,其特征在于,包括: 标准声纹提取模块,用于从标准干声中提取标准声纹; 用户声纹提取模块,用于从采集的演唱干声中提取用户声纹; 声纹对比模块,用于将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。12.根据权利要求11所述的基于声纹对比的演唱评分装置,其特征在于,还包括: 显示模块,用于显示经过声纹对比后系统评估的评分结果。13.根据权利要求11所述的基于声纹对比的演唱评分装置,其特征在于,所述的标准声纹提取模块或用户声纹提取模块,包括: 音频共振峰提取单元,用于提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵Amxn,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值; 权重值设计单元,用于设计一组权重值Bmxi,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于O,小于无穷大; 声纹特征矩阵计算单元,用于计算标准声纹或用户声纹特征矩阵VMXN,其中Vg =B11XAlj5S卩,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。14.根据权利要求11所述的基于声纹对比的演唱评分装置,其特征在于,所述显示模块,包括: 相似度示意单元,用于显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的不意图; 标准声纹示意单元,用于显示当前演唱内容的标准声纹的示意图; 用户声纹示意单元,用于显示当前用户演唱声纹的示意图。15.一种数字娱乐点播系统,其特征在于包含权利要求11-14任一所述的基于声纹对比的演唱评分装置。16.一种对比声纹相似度的方法,其特征在于,包括以下步骤: 从标准干声中提取标准声纹; 从采集的演唱干声中提取用户声纹; 将用户声纹与标准声纹进行对比并计算模仿相似度。17.根据权利要求16所述的对比声纹相似度的方法,其特征在于,该方法进一步包括:显示经过声纹对比后系统评估的模仿相似程度结果。18.—种对比声纹相似度的装置,其特征在于,包括: 标准声纹提取模块,用于从标准干声中提取标准声纹; 用户声纹提取模块,用于从采集的演唱干声中提取用户声纹; 声纹对比模块,用于将用户声纹与标准声纹进行对比并计算模仿相似度。19.根据权利要求18所述的对比声纹相似度的装置,其特征在于,还包括: 显示模块,用于显示经过声纹对比后系统评估的模仿相似程度结果。
【文档编号】G10L17/00GK105989842SQ201510050095
【公开日】2016年10月5日
【申请日】2015年1月30日
【发明人】陈勇, 刘旺, 王子亮, 蔡智力, 林鎏娟
【申请人】福建星网视易信息系统有限公司