根据频域能量对语音信号进行处理的方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及语音信号处理技术,尤其涉及一种根据频域能量对语音信号进 行处理的方法和装置。
【背景技术】
[0002] 在对语音信号进行质量评估或者进行语音识别时,常常需要对语音信号进行精细 分段。
[0003] 现有技术中,对语音信号的分段主要是分析语音信号中时域能量的突变状况,根 据能量产生突变的时间变化点处,对语音信号进行分段;没有变化的情况下,不对语音信号 进行分段。
[0004] 然而,当语音信号发生变化时,由于音素本身的特征或是较强噪声的影响,时域能 量并不一定会发生突变。因此,现有技术的语音信号分段结果准确性不高。
【发明内容】
[0005] 本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置,以解决 在对语音信号进行精细分段时,由于语音信号音素本身的特征或是较强噪声的影响,导致 语音信号分段结果准确性不高的问题。
[0006] 第一方面,本发明提供一种根据频域能量对语音信号进行处理的方法,包括:
[0007] 接收原始语音信号,原始语音信号包括相邻的第一语音帧和第二语音帧;
[0008] 对第一语音帧进行傅里叶变换得到第一频域信号,对第二语音帧进行傅里叶变换 得到第二频域信号;
[0009] 根据第一频域信号得到第一语音帧的频域能量分布,根据第二频域信号得到第二 语音帧的频域能量分布,其中,频域能量分布表示语音帧在频域上的能量分布特性;
[0010] 根据第一语音帧的频域能量分布和第二语音帧的频域能量分布,得到第一语音帧 和第二语音帧的频域能量相关性系数,其中,频域能量相关性系数用于表示第一语音帧到 第二语音帧的频谱变化;
[0011] 根据频域能量相关性系数对原始语音信号进行分段。
[0012] 结合第一方面,在第一种实施方式中,第一语音帧的频率范围内包括至少两个频 段,根据第一频域信号得到第一语音帧的频域能量分布,具体包括:
[0013] 根据第一频域信号的实部和第一频域信号的虚部,得到第一语音帧的任一所述频 段范围内的能量总和与第一语音帧的总能量的第一比值;
[0014] 对第一比值进行求导,得到第一导数表示第一语音帧的频域能量分布。
[0015] 结合第一方面和第一种实施方式,在第二种实施方式中,根据第一语音帧的频域 能量分布和第二语音帧的频域能量分布,得到第一语音帧和第二语音帧的频域能量相关性 系数,具体包括:
[0016] 根据第一语音帧频率范围内的第一导数,第二导数,以及第一导数和第二导数乘 积,确定第一语音帧和第二语音帧的频域能量相关性系数,其中,所述第二导数表示第二 语音帧的频域能量分布。
[0017] 结合第一方面和前两种实施方式,在第三种实施方式中,根据第一语音帧的频域 能量分布和第二语音帧的频域能量分布,得到第一语音帧和第二语音帧的频域能量相关性 系数之后,该方法还包括:确定频域能量相关性系数的局部极大值点;以局部极大值点作 为分组点对原始语音信号进行分组;对分组后的每一组进行归一化处理,根据频域能量相 关性系数和归一化处理结果计算频域能量修正相关性系数;对应的,根据频域能量相关性 系数对原始语音信号进行分段包括:根据频域能量修正相关系数对原始语音信号进行分 段。
[0018] 结合第一方面和前三种实施方式,在第四种实施方式中,根据频域能量相关性系 数和归一化处理结果计算频域能量修正相关性系数,具体包括:
[0019] 根据公式r' k=rk+(l-max(rkl))计算频域能量修正相关性系数,其中r' k为重新计 算得到的频域能量相关性系数,rk为频域能量相关性系数,rkl为分组后每一组的局部极大 值点的频域能量相关性系数,max(r kl)为取值最大的分组后每一组的局部极大值点的频域 能量相关性系数。
[0020] 结合第一方面和前四种实施方式,在第五种实施方式中,根据频域能量相关性系 数对原始语音信号进行分段,具体包括:确定频域能量相关性系数的局部极小值点;
[0021] 若局部极小值点小于或等于设定阈值,则以局部极小值点作为分段点对语音信号 进行分段。
[0022] 结合第一方面和前五种实施方式,在第六种实施方式中,根据频域能量相关性系 数对原始语音信号进行分段之后,还包括:
[0023] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均 值;
[0024] 若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定 值,则将对应的分段点所涉及的两个分段合并。
[0025] 结合第一方面和前六种实施方式,在第七种实施方式中,根据第一频域信号的实 部和第一频域信号的虚部,得到第一语音帧的任一频段范围内的能量总和与第一语音帧的 总能量的第一比值,具体包括:
[0026]根据
,f e [0,(Flini-1)] 得到第一比值;
[0027] 其中,ratio_energyk(f)表示第一语音帧任一所述频段范围内的能量总和与所述 第一语音帧的总能量的第一比值,i的取值在〇~f之间,f表示谱线数,f e [0,(Flim-1)], (Flim-1)表示所述第一语音帧的谱线数所能取到的最大值,Re_fTt(i)表示第一频域信号实 部,Im_fft(i)表示第一频域信号的虚部
表示第一语音中贞 的总能量:
表示第一语音帧在0~f频率范围内的能量总和;
[0028] 结合第一方面和前七种实施方式,在第八种实施方式中,对第一比值进行求导,具 体为:
[0029] 根据
[0030]
对第一比值进行 求导;
[0031] N表示上述数值微分为N点;M表示上述数值微分是利用f G [M,(M+N-1)]区间内 的第一比值来获得的。
[0032] 结合第一方面和前八种实施方式,在第九种实施方式中,根据第一语音帧的频域 能量分布和第二语音帧的频域能量分布,得到第一语音帧和第二语音帧的频域能量相关性 系数,具体为:
[0033] 根据
:,k彡1计算 相关性系数rk ;
[0034]其中,
,其中,k-1为第一语音帧,k为第二语 音帧,k大于等于1。
[0035] 第二方面,本发明提供一种根据频域能量对语音信号进行处理的装置,包括:
[0036] 接收模块,用于接收原始语音信号,原始语音信号包括相邻的第一语音帧和第二 语音帧;
[0037] 变换模块,用于对第一语音帧进行傅里叶变换得到第一频域信号,对第二语音帧 进行傅里叶变换得到第二频域信号;
[0038] 能量分布模块,用于根据第一频域信号得到第一语音帧的频域能量分布,根据第 二频域信号得到第二语音帧的频域能量分布,其中,频域能量分布表示语音帧在频域上的 能量分布特性;
[0039] 相关性模块,用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分 布,得到第一语音帧和第二语音帧的频域能量相关性系数,其中,频域能量相关性系数用于 表示第一语音帧到第二语音帧的频谱变化;
[0040] 分段模块,用于根据频域能量相关性系数对原始语音信号进行分段。
[0041] 结合第二方面,在第一种实施方式中,第一语音帧的频率范围内包括至少两个频 段,能量分布模块具体用于:
[0042] 根据第一频域信号的实部和第一频域信号的虚部,得到第一语音帧的任一所述频 段范围内的能量总和与第一语音帧的总能量的第一比值;
[0043] 对第一比值进行求导,得到第一导数表示第一语音帧的频域能量分布以及第二语 音帧的频域能量分布。
[0044] 结合第二方面和第一种实施方式,在第二种实施方式中,相关性模块具体用于:
[0045] 根据第一语音帧频率范围内的第一导数,第二导数,以及第一导数和第二导数乘 积,确定第一语音帧和第二语音帧的频域能量相关性系数,其中,第二导数表示第二语音 帧的频域能量分布。
[0046] 结合第二方面和前两种实施方式,在第三种实施方式中,相关性模块还用于:
[0047] 确定频域能量相关性系数的局部极大值点;
[0048] 以局部极大值点作为分组点对原始语音信号进行分组;
[0049] 对分组后的每一组进行归一化处理,根据频域能量相关性系数和归一化处理结果 计算频域能量修正相关性系数;
[0050] 对应的,分段模块用于:
[0051] 根据频域能量修正相关系数对原始语音信号进行分段。
[0052] 结合第二方面和前三种实施方式,在第四种实施方式中,相关性模块具体用于:
[0053] 根据公式r'k=rk+(l-maX(rkl))计算调整后的频域能量修正相关性系数,其中r'k 为计算得到的频域能量修正相关性系数,rk为频域能量相关性系数,rkl为分组后每一组的 局部极大值点的频域能量相关性系数,max(rkl)为取值最大的分组后每一组的局部极大值 点的频域能量相关性系数。
[0054] 结合第二方面和前四种实施方式,在第五种实施方式中,分段模块具体用于:
[0055] 确定频域能量相关性系数的局部极小值点;
[0056] 若局部极小值点小于或等于设定阈值,则以局部极小值点作为分段点对语音信号 进行分段。
[0057] 结合第二方面和前五种实施方式,在第六种实施方式中,分段模块用于根据频域 能量相关性系数对原始语音信号进行分段之后,还用于:
[0058] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均 值;
[0059] 若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定 值,则将对应的分段点所涉及的两个分段合并。
[0060] 结合第二方面和前六种实施方式,在第七种实施方式中,能量分布模块具体用 于:
[0061]根据
,f e[0,(Flim-1)] 得到第一比值;
[0062] 其中,ratio_energyk(f)表示第一语音帧的任一频段范围内的能量总和与所述第 一语音帧的总能量的第一比值,i的取值在〇~f之间,f表示谱线数,fe[0,(Flim-1)], (Flim-1)表示第一语音帧的谱线数所能取到的最大值,Re_fTt(i)表示第一频域信号实部, Im_fft(i)表示第一频域信号的虚部
表示第一语音帧的 总能量
表示第一语音帧在〇~f频率范围内的能量总和。
[0063] 结合第二方面和前七种实施方式,在第八种实施方式中,能量分布模块具体用 于:
[0064] 根据
[0065]
对第一比值进行求 导;
[0066] N表示上述数值微分为N点;M表示上述数值微分是利用f G [M,(M+N-1)]区间内 的第一比值来获得的。
[0067] 结合第二方面和前八种实施方式,在第九种实施方式中,相关性模块具体用于:
[0068] 根据
.,k彡1计 算相关性系数rk ;
[0069]
[0070] 本发明实施例提供的语音信号的分段方法和装置,接收包括相邻的第一语音帧和 第二语音帧的原始语音信号,再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一 频域信号和第二频域信号;然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频 域上的能量分布特性的频域能量分布,根据第一语音帧和第二语音帧的频域能量分布,得 到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量 相关性系数,最后根据频域能量相关性系数对原始语音信号进行分段。这样利用语音信号 在频域上的能量分布进行分段,从而提高对语音信号分段的准确性。
【附图说明】
[0071] 为