一种基于语音重建的网络音频高效传输方法与流程

文档序号:33800380发布日期:2023-04-19 11:09阅读:29来源:国知局
一种基于语音重建的网络音频高效传输方法与流程

本发明涉及计算机,具体为一种基于语音重建的网络音频高效传输方法。


背景技术:

1、在网络音频传输过程中,为了保持传输效率,会采用一定的网络音频采样率甚至基于语音智能识别,将人声识别为文字再传输,但两种方法,前者会因采样率和压缩比的限制导致传输效率和质量都受影响,比如在产生丢包时,接收端会对丢包数据做插值恢复或重传导致失真或者增加音频传输系统的延迟;后者会因为基于文字信号转化成的语音数据产生音色音调的失真,而且只能针对人的说话场景,大大降低了网络音频传输的质量。


技术实现思路

1、本发明的目的在于提供一种基于语音重建的网络音频高效传输方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;

3、其中在上述步骤一中,当在语音发送端收到语音信息之后,首先对语音信息进行预处理;

4、其中在上述步骤二中,当步骤一中的信息预处理完成后,进行快速傅里叶变换计算,将长度为n的信号分解成两个长度为frac{n}{2}信号进行处理;

5、其中在上述步骤三中,当步骤二中的信息处理完成后,进行fbank处理,即mel滤波器组,将能量谱通过一组mel尺度的三角形滤波器组,采用25个滤波器的滤波器组,经过梅尔滤波器组后得到fbank特征;

6、其中在上述步骤四中,当步骤三中的fbank处理完成后,做离散余弦变换dct将基音信息与声道信息进行分离,得到12维的mfcc倒谱域特征,该特征可反映了语音参数的静态特性;

7、其中在上述步骤五中,当步骤四中的离散余弦处理完成后,进行语音的动态特征抽取,用mfcc倒谱域特征的差分谱来描述,最终得到39维mfcc参数加上一帧的音量,最终得39维mfcc特征

8、其中在上述步骤六中,步骤五中的语音动态特征提取完成后,语音信息从发送端到传递到接收端,此时传输到语音接收端后,语音的采样率高,时域上对感知范围要求大,从而采用特殊模型和函数进行处理,此处使用升采样,最终可获取重建后的语音。

9、优选的,所述步骤一中,预处理包括预加重、分帧和加窗。

10、优选的,所述步骤二中,快速傅里叶变换的计算方法为时间抽取算法或者频率抽取算法。

11、优选的,所述步骤四中,离散余弦变换的公式为:

12、

13、其中0≤p≤m-1,0≤q≤n-1;

14、

15、其中bpq为矩阵a的dct系数。

16、优选的,所述步骤五中,39维mfcc参数为13mfcc系数加13、一阶差分参数加13和二阶差分参数。

17、优选的,所述步骤六中,采用了dilated convolutions模型,并在激活函数处增加条件特征local condition。

18、与现有技术相比,本发明的有益效果是:本发明相较于现有的网络音频传输方法,在发送语音时采用mfcc技术提取语音特征,在接受语音时采用wavenet重建语音,从而获得高压缩比的语音信号,获取实时的传输效率,降低了网络带宽要求,增加无线传输距离,最重要的是在语音发送端对语音进行mfcc特征提取,达到了约10倍的压缩效率,语音接收后,使用wavenet对语音进行重组,获取了pesq不低于3的语音质量,极大的提升了网络音频传输的效率和质量。



技术特征:

1.一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;其特征在于:

2.根据权利要求1所述的一种基于语音重建的网络音频高效传输方法,其特征在于:所述步骤一中,预处理包括预加重、分帧和加窗。

3.根据权利要求1所述的一种基于语音重建的网络音频高效传输方法,其特征在于:所述步骤二中,快速傅里叶变换的计算方法为时间抽取算法或者频率抽取算法。

4.根据权利要求1所述的一种基于语音重建的网络音频高效传输方法,其特征在于:所述步骤四中,离散余弦变换的公式为:

5.根据权利要求1所述的一种基于语音重建的网络音频高效传输方法,其特征在于:所述步骤五中,39维mfcc参数为13mfcc系数加13、一阶差分参数加13和二阶差分参数。

6.根据权利要求1所述的一种基于语音重建的网络音频高效传输方法,其特征在于:所述步骤六中,采用了dilated convolutions模型,并在激活函数处增加条件特征localcondition。


技术总结
本发明公开了一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;本发明相较于现有的网络音频传输方法,在发送语音时采用MFCC技术提取语音特征,在接受语音时采用wavenet重建语音,从而获得高压缩比的语音信号,获取实时的传输效率,降低了网络带宽要求,增加无线传输距离,最重要的是在语音发送端对语音进行MFCC特征提取,有效的去除了相位信息,减少了数据传输量,达到了约10倍的压缩效率,语音接收后,使用wavenet对语音进行重组,获取了PESQ不低于3的语音质量,极大地提升了语音传输的效率和质量。

技术研发人员:李庆宇
受保护的技术使用者:深圳市声菲特科技技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1