于根据频域能量相关性系数对原始语音信号进行分段之 后,还用于:
[0273] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均 值;
[0274] 若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定 值,则将对应的分段点所涉及的两个分段合并。
[0275] 本实施例中,根据频域能量对语音信号进行处理的装置中的接收器先接收包括相 邻的第一语音帧和第二语音帧的原始语音信号,处理器再分别对第一语音帧和第二语音帧 进行傅里叶变换得到第一频域信号和第二频域信号;然后由此得到第一语音帧和第二语音 帧的用于表示语音帧在频域上的能量分布特性的频域能量分布,根据第一语音帧和第二语 音中贞的频域能量分布,得到第一语音帧和第二语音帧的用于表不第一语音帧到第二语音中贞 的频谱变化的频域能量相关性系数,最后根据频域能量相关性系数对原始语音信号进行分 段。这样实现了利用语音信号的频域能量分布进行分段,从而提高对语音信号分段的准确 性。
[0276] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过 程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序 在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者 光盘等各种可以存储程序代码的介质。
[0277] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范 围。
【主权项】
1. 一种根据频域能量对语音信号进行处理的方法,其特征在于,所述方法包括: 接收原始语音信号,所述原始语音信号包括相邻的第一语音峽和第二语音峽; 对所述第一语音峽进行傅里叶变换得到第一频域信号,对所述第二语音峽进行傅里叶 变换得到第二频域信号; 根据所述第一频域信号得到所述第一语音峽的频域能量分布,根据所述第二频域信号 得到所述第二语音峽的频域能量分布,其中,所述频域能量分布表示语音峽在频域上的能 量分布特性; 根据所述第一语音峽的频域能量分布和所述第二语音峽的频域能量分布,得到所述第 一语音峽和所述第二语音峽的频域能量相关性系数,其中,所述频域能量相关性系数用于 表示所述第一语音峽到所述第二语音峽的频谱变化; 根据所述频域能量相关性系数对所述原始语音信号进行分段。2. 根据权利要求1所述的方法,所述第一语音峽的频率范围内包括至少两个频段,其 特征在于,所述根据所述第一频域信号得到所述第一语音峽的频域能量分布,具体包括;根 据所述第一频域信号的实部和所述第一频域信号的虚部,得到所述第一语音峽的任一所述 频段范围内的能量总和与所述第一语音峽的总能量的第一比值; 对所述第一比值进行求导,得到第一导数表示所述第一语音峽的频域能量分布。3. 根据权利要求2所述的方法,其特征在于,所述根据所述第一语音峽的频域能量分 布和所述第二语音峽的频域能量分布,得到所述第一语音峽和所述第二语音峽的频域能量 相关性系数,具体包括: 根据所述第一语音峽频率范围内的所述第一导数,第二导数,W及所述第一导数和所 述第二导数乘积,确定所述第一语音峽和所述第二语音峽的频域能量相关性系数,其中, 所述第二导数表示所述第二语音峽的频域能量分布。4. 根据权利要求1-3任一项所述的方法,其特征在于,所述根据第一语音峽的频域能 量分布和所述第二语音峽的频域能量分布,得到所述第一语音峽和所述第二语音峽的频域 能量相关性系数之后,所述方法还包括: 确定所述频域能量相关性系数的局部极大值点; W所述局部极大值点作为分组点对所述原始语音信号进行分组; 对分组后的每一组进行归一化处理,根据所述频域能量相关性系数和所述归一化处理 结果计算频域能量修正相关性系数; 对应的,所述根据所述频域能量相关性系数对所述原始语音信号进行分段包括: 根据所述频域能量修正相关系数对所述原始语音信号进行分段。5. 根据权利要求4所述的方法,其特征在于,所述根据所述频域能量相关性系数和所 述归一化处理结果计算所述频域能量修正相关性系数,具体包括: 根据公式rk=rk+ (1-max(rj)计算所述频域能量修正相关性系数,其中r'k为计算得 到的频域能量修正相关性系数,rk为所述频域能量相关性系数,Tki为所述分组后每一组的 局部极大值点的频域能量相关性系数,max(rj为取值最大的所述分组后每一组的局部极 大值点的频域能量相关性系数。6. 根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述频域能量相关性 系数对所述原始语音信号进行分段,具体包括: 确定所述频域能量相关性系数的局部极小值点; 若所述局部极小值点小于或等于设定阔值,则W所述局部极小值点作为分段点对所述 语音信号进行分段。7. 根据权利要求6所述的方法,其特征在于,所述根据所述频域能量相关性系数对所 述原始语音信号进行分段之后,还包括: 计算W所述原始语音信号中每个所述分段点为中也的设定时域范围内时域能量的平 均值; 若计算W每个所述分段点为中也的设定时域范围内所对应的平均值小于或等于设定 值,则将对应的分段点所涉及的两个分段合并。8. 根据权利要求2所述的方法,其特征在于,所述根据所述第一频域信号的实部和所 述第一频域信号的虚部,得到所述第一语音峽的任一所述频段范围内的能量总和与所述第 一语音峽的总能量的第一比值,具体包括: 根据fG[0,化im-1)]得到 所述第一比值; 其中,ratio_energyk(f)表示第一语音峽的任一所述频段范围内的能量总和与所述第 一语音峽的总能量的第一比值,i的取值在0~f之间,f表示谱线数,fG[0,(Fiim-1)], (Fiim-1)表示所述第一语音峽的谱线数所能取到的最大值,Re_fft(i)表示所述第一频域信 号实部,表示所述第一频域信号的虚部,表示所 述第一语音峽的总能量:表示所述第一语音峽在0~f频率范围 内的能量总和。9. 根据权利要求8所述的方法,其特征在于,所述对所述第一比值进行求导,具体为: 根据对所述第一比值进 行求导; N表示上述数值微分为N点;M表示上述数值微分是利用fG[M,(M+N-1)]区间内的第 一比值来获得的。10. 根据权利要求9所述的方法,其特征在于,所述根据第一语音峽的频域能量分布和 所述第二语音峽的频域能量分布,得到所述第一语音峽和所述第二语音峽的频域能量相关 性系数,具体为: 根据计算所述相关 性系数rk; 其中,I其中,k-1表7]^所述第一语音帧,k表 示所述第二语音峽,k大于等于1。11. 一种根据频域能量对语音信号进行处理的装置,其特征在于,包括: 接收模块,用于接收原始语音信号,所述原始语音信号包括相邻的第一语音峽和第二 语音峽; 变换模块,用于对所述第一语音峽进行傅里叶变换得到第一频域信号,对所述第二语 音峽进行傅里叶变换得到第二频域信号; 能量分布模块,用于根据所述第一频域信号得到所述第一语音峽的频域能量分布,根 据所述第二频域信号得到所述第二语音峽的频域能量分布,其中,所述频域能量分布表示 语音峽在频域上的能量分布特性; 相关性模块,用于根据所述第一语音峽的频域能量分布和所述第二语音峽的频域能量 分布,得到所述第一语音峽和所述第二语音峽的频域能量相关性系数,其中,所述频域能量 相关性系数用于表示所述第一语音峽到所述第二语音峽的频谱变化; 分段模块,用于根据所述频域能量相关性系数对所述原始语音信号进行分段。12. 根据权利要求11所述的装置,所述第一语音峽的频率范围内包括至少两个频段, 其特征在于,所述能量分布模块具体用于: 根据所述第一频域信号的实部和所述第一频域信号的虚部,得到所述第一语音峽的任 一所述频段范围内的能量总和与所述第一语音峽的总能量的第一比值; 对所述第一比值进行求导,得到第一导数表示所述第一语音峽的频域能量分布。13. 根据权利要求11或12所述的装置,其特征在于,所述相关性模块具体用于: 根据所述第一语音峽频率范围内的所述第一导数,所述第二导数,W及所述第一导数 和所述第二导数乘积,确定所述第一语音峽和所述第二语音峽的频域能量相关性系数,其 中,所述第二导数表示第二语音峽的频域能量分布。14. 根据权利要求11-13任一项所述的装置,其特征在于,所述相关性模块还用于: 确定所述频域能量相关性系数的局部极大值点; W所述局部极大值点作为分组点对所述原始语音信号进行分组; 对分组后的每一组进行归一化处理,根据所述频域能量相关性系数和所述归一化处理 结果计算所述频域能量修正相关性系数; 对应的,所述分段模块用于: 根据所述频域能量修正相关系数对所述原始语音信号进行分段。15. 根据权利要求14所述的装置,其特征在于,所述相关性模块具体用于: 根据公式rk=rk+ (1-max(町1))计算所述频域能量修正相关性系数,其中r'k为计算得 到的频域能量修正相关性系数,rk为所述频域能量相关性系数,Tki为所述分组后每一组的 局部极大值点的频域能量相关性系数,max(rj为取值最大的所述分组后每一组的局部极 大值点的频域能量相关性系数。16. 根据权利要求11-15任一项所述的装置,其特征在于,所述分段模块具体用于: 确定所述频域能量相关性系数的局部极小值点; 若所述局部极小值点小于或等于设定阔值,则W所述局部极小值点作为分段点对所述 语音信号进行分段。17. 根据权利要求16所述的装置,其特征在于,所述分段模块用于根据所述频域能量 相关性系数对所述原始语音信号进行分段之后,还用于: 计算W所述原始语音信号中每个所述分段点为中也的设定时域范围内时域能量的平 均值; 若计算W每个所述分段点为中也的设定时域范围内所对应的平均值小于或等于设定 值,则将对应的分段点所涉及的两个分段合并。18. 根据权利要求12所述的装置,其特征在于,所述能量分布模块具体用于: 根据fG[0,(Fiim-1)]得到 所述第一比值; 其中,ratio_energyk(f)表示第一语音峽的任一所述频段范围内的能量总和与所述第 一语音峽的总能量的第一比值,i的取值在0~f之间,f表示谱线数,fG[0,(Fiim-1)], (Fiim-1)表示所述第一语音峽的谱线数所能取到的最大值,Re_fft(i)表示所述第一频域信 号实部,表示所述第一频域信号的虚部,表示所 述第一语音帧的总能量:表示所述第一语音帧在0~f频率范围 内的能量总和。19. 根据权利要求13-18任一项所述的装置,其特征在于,所述能量分布模块具体用 于: 根据对所述第一比值进行 求导; N表示上述数值微分为N点;M表示上述数值微分是利用fG[M,(M+N-1)]区间内的第 一比值来获得的。20. 根据权利要求19所述的装置,其特征在于,所述相关性模块具体用于: 根据.k>1计算所 述相关性系数rk; A为所述第二语音顺,A大于等于1。
【专利摘要】本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置。本发明的根据频域能量对语音信号进行处理的方法和装置包括:接收包括相邻的第一语音帧和第二语音帧的原始语音信号;分别对所述第一语音帧和所述第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号,并得到所述第一语音帧和所述第二语音帧的频域能量分布;然后得到所述第一语音帧和所述第二语音帧的频域能量相关性系数;根据所述频域能量相关性系数对所述原始语音信号进行分段。本发明实施例可以解决在进行语音信号精细分段时,由于语音信号音素本身的特征或是较强噪声的影响,导致语音信号分段结果准确性不高的问题。
【IPC分类】G10L15/04, G10L25/93, G10L21/0208
【公开号】CN104934032
【申请号】CN201410098869
【发明人】许丽净
【申请人】华为技术有限公司
【公开日】2015年9月23日
【申请日】2014年3月17日
【公告号】WO2015139452A1