基于压缩感知和稀疏表示的语音编码方法
【专利摘要】本发明公开了一种压缩感知框架下的语音编码方法,利用压缩感知框架下行阶梯矩阵投影后观测序列可保留部分语音特性的特点,采用稀疏表示对观测序列进行数学模型建立;在训练阶段,先利用K奇异值分解方法对大量语音行阶梯投影后的观测序列进行训练,得到一个可用于实时观测序列稀疏表示的码本字典;在编码阶段,利用字典内的原子,采用正交匹配追踪算法对实时观测序列数学建模,仅对少量选择原子的位置和幅度进行编码并传输;解码端只需有相同字典就可恢复观测序列,并利用基追踪算法重构语音信号,后置低通滤波器提高重构语音的人耳听觉特性。该发明可以在压缩感知框架下有效地对语音信号进行编码传输,降低编码传输码率,并且保证良好的重构语音性能。
【专利说明】基于压缩感知和稀疏表示的语音编码方法
[0001]
【技术领域】
[0002]本发明属于语音信号处理【技术领域】,涉及一种压缩感知框架下的语音编码方法。
[0003]
【背景技术】
[0004]压缩感知(Compressed sensing)是近几年来出现的一种新颖的理论,它与传统奈奎斯特采样定理完全不同,不需要信号带宽两倍以上的采样速率,只要信号在某个变换域是稀疏的或可压缩的,那么就可以远低于奈奎斯特采样速率的采样率对信号进行采样,并从少量的观测投影中以高概率重构出原信号。在该理论框架下,采样速率不取决于信号带宽,而决定于信息在信号中的结构和内容。压缩感知理论主要包含三部分:信号的稀疏分解、观测矩阵的设计和信号重构算法。压缩感知一经提出,立刻引起了国内外学者的广泛重视,应用研究已涉及到众多领域:如传感器网络、医学图像处理、雷达扫描、生物传感、语音信号处理等。
[0005]近年来,稀疏表示(Sparse representation)已经成为信号处理及其应用领域中处于第一位的概念之一。稀疏表示的核心思想,即对于一类别的信号,在一个足够大的样本训练空间或变换域内,可以大致的由训练样本中同类的样本子空间或变换域原子线性表示,原子即为样本子空间或变换域矩阵里的列向量。因此当该信号由整个样本空间表示时,其表示的系数是稀疏的,这是稀疏表示思想最重要的一个假设,当然也是之后进一步分析的基础。稀疏表 不充分利用了某一类信号之间的相关性,对于信号处理中的压缩、消噪、建模和编码等都带来了巨大研究价值。对于由一类信号训练得到的字典来说,训练的成功与否直接决定了下一步稀疏表示的性能,因此国内外学者提出了一系列的字典训练方法,包括优化方向方法算法(M0D),K奇异值分解算法(K-SVD),在线字典学习算法(OnlineDictionary Learning)等。
[0006]语音编码是语音传输和通信的前提和基础,良好的语音编码方法可在较低的数码率情况下得到较好的恢复语音听觉质量。近二十年来,随着计算机、通信、信号处理等相关技术的发展,语音编码技术得到了迅速发展和应用。语音编码按照传统的分类方法通常分为三类:波形编码、参数编码和混合编码。波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重构语音波形保持原始语音信号的波形形状,主要有脉冲调制编码(PCM)和自适应差分脉冲调制编码(ADPCM)。参数编码又称声源编码或声码器,它使将信源信号在频域或其他变换域提取特征参数,然后对这些特征参数进行编码和传输,在解码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。线性预测系数(Linear prediction coefficient)是目前应用最为广泛的参数编码技术。混合编码将波形编码和参数编码结合起来,克服了波形编码和参数编码的缺点,吸收了他们的长处,在4~16kbpS速率上能够得到高质量的合成语音。[0007]
【发明内容】
[0008]技术问题:本发明的目的是提供一种可以有效的压缩语音编码所需的数码率,并且保证良好合成语音人耳听觉性能的基于压缩感知和稀疏表示的语音编码方法。
技术方案:本发明基于压缩感知和稀疏表示的语音编码方法,包括以下步骤:
a)通过K奇异值分解算法训练得到一个适合语音信号观测序列的字典D;
b)获得观测序列:在编码端对进入编码器的语音首先进行帧长为2(T40ms的分帧处理,然后利用行阶梯矩阵作为投影矩阵,按照1:2或1:4的压缩比对每帧语音进行投影,得到每帧语音的观测序列_7 ;
c)利用稀疏表示对观测序列_7进行数学建模,即利用正交匹配追踪算法,得到观测序列_7在字典^中的稀疏表示,具体步骤如下:
1)初始化:候选集合/初始化为空集,即/=()空集,残差稀疏系数r<,设置迭代初始次数i=l,迭代终止次数为K ;
2)根据下式求残差与字典D中的原子相关度最高的索引左:
【权利要求】
1.一种基于压缩感知和稀疏表示的语音编码方法,其特征在于,该方法包括以下步骤: a)通过K奇异值分解算法训练得到一个适合语音信号观测序列的字典D; b)获得观测序列:在编码端对进入编码器的语音首先进行帧长为2(T40ms的分帧处理,然后利用行阶梯矩阵作为投影矩阵,按照1:2或1:4的压缩比对每帧语音进行投影,得到每帧语音的观测序列_7 ; c)利用稀疏表示对观测序列_7进行数学建模,即利用正交匹配追踪算法,得到观测序列_7在字典^中的稀疏表示,具体步骤如下: 1)初始化:候选集合/初始化为空集,即/=()空集,残差稀疏系数r<,设置迭代初始次数i=l,迭代终止次数为K ; 2)根据下式求残差与字典D中的原子相关度最高的索引左: 免=气mmM ,其中dk为字典汐内第左个原子,Armi^表示使目标函数取最小值时的变量值; 然后将所选原子索引A放入候选集合/内,7 = (/4); 3)根据下式更新稀疏系数: Y1=Djy,其中巧为仅利用候选集合/内索引原子的字典,句为巧的伪逆矩阵,Y!为仅利用候选集合/内原子的`稀疏表不向量; 然后根据下式更新残差: r = y-DIyI ; 4)令i=i+l,如果i〈K,则表明字典原子选取未完成,返回步骤2),否则观测序列稀疏表示循环结束,将最后更新得到的h作为观测序列在字典^中的稀疏表示厂进入步骤(1),其中K为迭代终止次数,其取值为根据目标码率选择的原子个数; d)按照如下方法,分别对稀疏表示r所需K个原子的位置和幅度进行编码: 将字典D内的原子个数规定为2的指数幂,即£ = 2〃,根据P比特找到所需原子的位置,采用标准8比特脉冲调制编码作为原子幅度; e)语音信号观测序列的恢复:根据所述步骤d)中获得了稀疏表示r所需K个原子的位置和幅度,在字典D中找到稀疏表示r所需要的原子,然后将每个原子的向量与其幅度相乘,然后将得到的K个与幅度相乘后的原子向量相加,得到恢复出的语音信号观测序列; f)语音信号的重构:根据恢复的观测序列重构出语音信号; 选择离散余弦基为语音信号稀疏基,采用基追踪算法作为重构算法,利用所述步骤e)恢复的语音信号观测序列重构出语音信号;
1-0 9 g)对重构语音信号进行低通滤波:根据滤波器传递函数H㈦=H97-1,采用后置低通滤波器的方法对所述步骤f )重构的语音信号进行滤波后处理。
2.根据权利要求1所述的基于压缩感知和稀疏表示的语音编码方法,其特征在于,所述步骤b)中,在编码端对进入编码器的语音进行分帧处理的帧长为40 ms。
【文档编号】G10L19/04GK103778919SQ201410026207
【公开日】2014年5月7日 申请日期:2014年1月21日 优先权日:2014年1月21日
【发明者】杨震, 李尚靖 申请人:南京邮电大学