根据频域能量对语音信号进行处理的方法和装置的制造方法

文档序号：9218168阅读：577来源：国知局

根据频域能量对语音信号进行处理的方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及语音信号处理技术，尤其涉及一种根据频域能量对语音信号进行处理的方法和装置。
【背景技术】
[0002] 在对语音信号进行质量评估或者进行语音识别时，常常需要对语音信号进行精细分段。
[0003] 现有技术中，对语音信号的分段主要是分析语音信号中时域能量的突变状况，根据能量产生突变的时间变化点处，对语音信号进行分段；没有变化的情况下，不对语音信号进行分段。
[0004] 然而，当语音信号发生变化时，由于音素本身的特征或是较强噪声的影响，时域能量并不一定会发生突变。因此，现有技术的语音信号分段结果准确性不高。

【发明内容】

[0005] 本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置，以解决在对语音信号进行精细分段时，由于语音信号音素本身的特征或是较强噪声的影响，导致语音信号分段结果准确性不高的问题。
[0006] 第一方面，本发明提供一种根据频域能量对语音信号进行处理的方法，包括：
[0007] 接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；
[0008] 对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；
[0009] 根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；
[0010] 根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；
[0011] 根据频域能量相关性系数对原始语音信号进行分段。
[0012] 结合第一方面，在第一种实施方式中，第一语音帧的频率范围内包括至少两个频段，根据第一频域信号得到第一语音帧的频域能量分布，具体包括：
[0013] 根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一所述频段范围内的能量总和与第一语音帧的总能量的第一比值；
[0014] 对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布。
[0015] 结合第一方面和第一种实施方式，在第二种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，具体包括：
[0016] 根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数，其中，所述第二导数表示第二语音帧的频域能量分布。
[0017] 结合第一方面和前两种实施方式，在第三种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，该方法还包括：确定频域能量相关性系数的局部极大值点；以局部极大值点作为分组点对原始语音信号进行分组；对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；对应的，根据频域能量相关性系数对原始语音信号进行分段包括：根据频域能量修正相关系数对原始语音信号进行分段。
[0018] 结合第一方面和前三种实施方式，在第四种实施方式中，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数，具体包括：
[0019] 根据公式r' k=rk+(l-max(rkl))计算频域能量修正相关性系数，其中r' k为重新计算得到的频域能量相关性系数，rk为频域能量相关性系数，rkl为分组后每一组的局部极大值点的频域能量相关性系数，max(r kl)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。
[0020] 结合第一方面和前四种实施方式，在第五种实施方式中，根据频域能量相关性系数对原始语音信号进行分段，具体包括：确定频域能量相关性系数的局部极小值点；
[0021] 若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。
[0022] 结合第一方面和前五种实施方式，在第六种实施方式中，根据频域能量相关性系数对原始语音信号进行分段之后，还包括：
[0023] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均值；
[0024] 若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定值，则将对应的分段点所涉及的两个分段合并。
[0025] 结合第一方面和前六种实施方式，在第七种实施方式中，根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值，具体包括：
[0026]根据
，f e [0,（Flini-1)] 得到第一比值；
[0027] 其中，ratio_energyk(f)表示第一语音帧任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在〇~f之间，f表示谱线数，f e [0,（Flim-1)]， (Flim-1)表示所述第一语音帧的谱线数所能取到的最大值，Re_fTt(i)表示第一频域信号实部，Im_fft(i)表示第一频域信号的虚部
表示第一语音中贞的总能量：
表示第一语音帧在0~f频率范围内的能量总和；
[0028] 结合第一方面和前七种实施方式，在第八种实施方式中，对第一比值进行求导，具体为：
[0029] 根据
[0030]
对第一比值进行求导；
[0031] N表示上述数值微分为N点；M表示上述数值微分是利用f G [M，（M+N-1)]区间内的第一比值来获得的。
[0032] 结合第一方面和前八种实施方式，在第九种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，具体为：
[0033] 根据
：，k彡1计算相关性系数rk ;
[0034]其中，

,其中，k-1为第一语音帧，k为第二语音帧，k大于等于1。
[0035] 第二方面，本发明提供一种根据频域能量对语音信号进行处理的装置，包括：
[0036] 接收模块，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；
[0037] 变换模块，用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；
[0038] 能量分布模块，用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；
[0039] 相关性模块，用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；
[0040] 分段模块，用于根据频域能量相关性系数对原始语音信号进行分段。
[0041] 结合第二方面，在第一种实施方式中，第一语音帧的频率范围内包括至少两个频段，能量分布模块具体用于：
[0042] 根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一所述频段范围内的能量总和与第一语音帧的总能量的第一比值；
[0043] 对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布以及第二语音帧的频域能量分布。
[0044] 结合第二方面和第一种实施方式，在第二种实施方式中，相关性模块具体用于：
[0045] 根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数，其中，第二导数表示第二语音帧的频域能量分布。
[0046] 结合第二方面和前两种实施方式，在第三种实施方式中，相关性模块还用于：
[0047] 确定频域能量相关性系数的局部极大值点；
[0048] 以局部极大值点作为分组点对原始语音信号进行分组；
[0049] 对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；
[0050] 对应的，分段模块用于：
[0051] 根据频域能量修正相关系数对原始语音信号进行分段。
[0052] 结合第二方面和前三种实施方式，在第四种实施方式中，相关性模块具体用于：
[0053] 根据公式r'k=rk+(l-maX(rkl))计算调整后的频域能量修正相关性系数，其中r'k 为计算得到的频域能量修正相关性系数，rk为频域能量相关性系数，rkl为分组后每一组的局部极大值点的频域能量相关性系数，max(rkl)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。
[0054] 结合第二方面和前四种实施方式，在第五种实施方式中，分段模块具体用于：
[0055] 确定频域能量相关性系数的局部极小值点；
[0056] 若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。
[0057] 结合第二方面和前五种实施方式，在第六种实施方式中，分段模块用于根据频域能量相关性系数对原始语音信号进行分段之后，还用于：
[0058] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均值；
[0059] 若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定值，则将对应的分段点所涉及的两个分段合并。
[0060] 结合第二方面和前六种实施方式，在第七种实施方式中，能量分布模块具体用于：
[0061]根据
，f e[0,（Flim-1)] 得到第一比值；
[0062] 其中，ratio_energyk(f)表示第一语音帧的任一频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在〇~f之间，f表示谱线数，fe[0,（Flim-1)]， (Flim-1)表示第一语音帧的谱线数所能取到的最大值，Re_fTt(i)表示第一频域信号实部， Im_fft(i)表示第一频域信号的虚部
表示第一语音帧的总能量
表示第一语音帧在〇~f频率范围内的能量总和。
[0063] 结合第二方面和前七种实施方式，在第八种实施方式中，能量分布模块具体用于：
[0064] 根据
[0065]
对第一比值进行求导；
[0066] N表示上述数值微分为N点；M表示上述数值微分是利用f G [M，（M+N-1)]区间内的第一比值来获得的。
[0067] 结合第二方面和前八种实施方式，在第九种实施方式中，相关性模块具体用于：
[0068] 根据
.，k彡1计算相关性系数rk ;
[0069]
[0070] 本发明实施例提供的语音信号的分段方法和装置，接收包括相邻的第一语音帧和第二语音帧的原始语音信号，再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样利用语音信号在频域上的能量分布进行分段，从而提高对语音信号分段的准确性。
【附图说明】
[0071] 为

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许丽净;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：机器人的声源定位、唤醒识别的控制方法及其控制系统的制作方法
上一篇：新增口说语汇的语音识别系统与方法