专利名称:语音感知哈希认证的感知哈希值提取方法及认证方法
技术领域:
本发明属于多媒体信息安全领域,具体涉及一种基于线性预测分析(Linear Prediction Coefficients , LPC)的语音感知哈希特征提取与认证方法,可用于语音通信通话过程中语音信号的内容认证、说话人认证。
背景技术:
语音是人类最重要的交流工具,它自然方便,准确高效。随着现代网络技术和多媒体技术的快速发展,人们从网络上获得的多媒体信息的数量越来越多。语音信息作为人类交流信息最自然、最有效、最方便的手段,使地球上任意地区的人都可以随时随地通电话,人们的相互联系越来越紧密。语音的存在形式也由声波扩展到了模拟信号和数字信号,使得可以无线传播和保存。但是在方便人类生活的同时,随之而来的是海量的语音信 息处理、信息安全、社会安全问题。由于语音通信的开放性、便利性和准确性,语音每天都会产生海量的语音信息,因此怎样保证语音信息的安全成为近年来的热点问题。语音内容认证技术就是一个实现对语音数据完整性、真实性进行保护的有效技术手段,它可以检测出接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改。由于语音的特殊性,传统的签名认证算法无法满足语音的认证要求,一是因为鲁棒性的要求,语音在传输过程中经常会受到各种干扰,而语音信息并不会因为内容保持操作而影响整体的听觉理解,因此认证过程中,就应该将内容保持操作归纳到认证的范围内,这就对语音认证算法的鲁棒性提出了很高的要求。另一方面,语音传输的实时性和语音移动终端的资源问题,使得语音认证算法对运算效率又有着很高的要求。而传统的摘要认证算法是将所有的数据都看成比特流,因此原始数据的微小改动,都会使产生的摘要发生变化,鲁棒性太差,不适用于语音认证,并且对资源要求很高,计算量较大,不适用于语音移动终端。感知哈希函数可以应用于验证信息来源的真实性和信息的完整性。它可以将任意长度的信息,通过单向映射的方式,压缩成一定长度的数据摘要,在设计哈希函数时,需要根据应用中的实际需求,选择压缩率、安全性和运算效率的折中,见文献“M. Schmucker, H.Zhang. D. WVL. 11 Benchmarking Metrics and Concepts for Perceptual Hashing[R].ECRYPT European Network of Excellence in Cryptology, 19 October 2006 ”。哈希函数的原理非常简单,在设计哈希函数时,自由度是比较大的。到目前为止,哈希函数的算法设计可以分为三个大类标准型、基于分组加密型、基于模运算型,见文献“Yuhua Jiao,Liping Ji, Xiamu Niu. Perceptual Speech Hashing and Performance Evaluation[J],International Journal of Innovative Computing, Information and Control, 2010,6 (3 (B)) : 1447-1458”。随机的哈希函数区分性和压缩性要比它的安全性要好,因此安全性还可以依靠密钥的设置来保障,这些性质使得哈希函数非常适合应用于信息安全领域,尤其是语音认证领域。构造语音感知哈希重要的一项内容就是对语音信号特征值提取,特征值是原始语音信号的表达形式,提取出的是能代表原始信号的数据。因此,提取出的特征值水平怎么样,严重影响语音感知哈希构造的水平。通常语音特征值提取可以分为时域分析和变换域分析,其中时域分析方法最简单、最直观,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音短时能量、语音短时平均幅度、短时平均过零率和短时自相关函数等。语音特征的提取有两种方法一种是提取听觉感知特征如音调、响度 ’另一种是计算非感知特征,也就是物理特征,如对数倒谱系数、线性预测系数、线性谱频率(见文献“ Yuhua Jiao, Liping Ji, Xiamu Niu. Robust Speech Hashing for ContentAuthentication [J], IEEE Signal Processing Letters, 2009, 16 (9) : 818-821 ”)、梅尔倒频系数(见文献 “Gaikwad. S·,Gawal i, B. , Yannawar, P. , Mehrotra, S. . Featureextraction using fusion MFCC for continuous marathi speech recognition[C],India Conference (INDICON), 2011 Annual IEEE,16-18 Dec. 2011: I - 5”等)。文献“Xugang Lu, Shigeki Matsuda, Masashi Unoki. Temporal modulation normalizationfor robust speech feature extraction and recognition[J], Multimedia Tools andApplications, 2011, I (52) : 187-199” 和“Hui Yin, Volker Hofmann, Climent Nedeu.Acoustic Features for Speech Recognition Based on Gammatione Filterbank andInstantaneous Frequency [J], Speech Communication, 2011,5 (53) : 707-715” 分别使用了时空调制归一化(Temporal modulation normalization)方法和 Gammatone 滤波器对语音信息调制进行降噪,该算法可以降低噪声对语音信号的干扰,结合传统降噪方法,可以进一步降低噪声的效果,提高特征提取的鲁棒性和准确性。但上述方法构成感知哈希值的效率不是很高,不能够满足目前移动终端对语音认证实时性的需求。作为在估计基本的语音参数,以及用低速率传输或储存语音等方面的核心技术,线性预测(Linear Prediction)可用很少的参数,有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,在应用上灵活方便。但是单纯的LPC方法虽然计算效率高,但鲁棒性较差,对语音信号在传输过程中受到的内容保持操作攻击不具有鲁棒性。
发明内容
本发明的目的是提供一种基于线性预测分析的语音感知哈希认证的感知哈希值提取方法及认证方法。本发明是语音感知哈希认证的感知哈希值提取方法及认证方法,语音感知哈希认证的感知哈希值提取方法,其步骤为
(1)对语音信号A进行分帧,使用汉明窗进行加窗,帧长为20ms,帧移为IOms;
(2)计算语音信号每帧的线性预测系数R和每帧的短时平均能量E;
(3)用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数;
(4)对短时平均能量与线性预测系数构成的矩阵进行分块处理;
(5)对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵;
(6)使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵;
权利要求
1.语音感知哈希认证的感知哈希值提取方法,其步骤为 (1)对语音信号A进行分帧,使用汉明窗进行加窗,帧长为20ms,帧移为IOms; (2)计算语音信号每帧的线性预测系数R和每帧的短时平均能量E; (3)用每帧的短时平均能量E替换每帧线性预测系数的第一个线性预测系数; (4)对短时平均能量与线性预测系数构成的矩阵进行分块处理; (5)对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵; (6)使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵;
2.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中步骤(2)所述的计算原始语音信号每帧的线性预测系数R和每帧的短时平均能量E,按如下步骤进行 (1)语音信号经过加窗分帧处理后,得到的第N帧的语音信号为八,(111),则4,(111)满足
3.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(3)所述的用每帧的短时平均能量E替换每帧线性预测系数的第一个预测函数R,按如下步骤进行 (1)求出的线性预测函数,得到的线性预测系数首位为I; (2)首位的I在进行后续奇异值分解时,会对分解后的矩阵产生影响,使得分解后的特征值区分性变差,将第一行去掉,产生新的预测系数矩阵;
4.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(4)所述的对短时平均能量与线性预测系数构成的矩阵进行分块处理,按如下步骤进行 (I)矩阵分为m个p*p小矩阵
5.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(5)所述的对分块处理后的Am分别进行奇异值分解,形成U、S和V三个矩阵
6.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(6)所述的使用奇异值分解后的U、V系数重构矩阵,构成W=UV矩阵
7.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(7)所述的计算重构矩阵的列的和s (i);按如下步骤进行 (1)对重构矩阵的每一列进行求和运算,得到每一列特征值的总和; (2)重复(I),直到求出所有分块矩阵的每一列的特征值总和。
8.根据权利要求I所述的语音感知哈希认证的感知哈希值提取方法,其特征在于根据权利要求I中的步骤(8)所述的对矩阵进行量化处理,形成感知哈希序列,按如下步骤进行 (1)将所有的特征值拼接起来,根据语音帧的顺序进行拼接,得到一个特征值序列; (2)对集合起来的序列求特征值的中值S; (3)用每一个特征值与中值进行对比,大于中值的特征值量化为1,小于或者等于中值的特征值量化为O ; (4)重复(3),直到求出所有的量化值; (5)形成的0、1序列即为所要求的语音感知哈希值。
9.语音感知哈希认证的认证方法,其步骤为 (1)对认证的两个语音的感知哈希值进行异或运算,XhashXor Yhash (2)对步骤(I)得到异或值进行求和运算,XorYii3sb (3)用步骤(2)得到的和除以感知哈希值总长度,得到归一化的哈希距离,使用归一化的哈希距离来判断两段语音内容的匹配程度。
全文摘要
语音感知哈希认证的感知哈希值提取方法及认证方法,根据LPC的特点,对LPC方法进行优化,并对LPC系数优化、分块、分块后进行参数的矩阵分解三个步骤,来提高LPC方法的鲁棒性,通过优化后的LPC系数具有较强的鲁棒性和计算效率,构成的感知哈希序列也提高了鲁棒性。本发明使用优化后的LPC系数计算出的感知哈希值不但保持了单纯LPC方法实时性好的优点,还对语音在传输过程中的攻击,具有很好的鲁棒性。
文档编号G10L19/087GK102881291SQ20121040938
公开日2013年1月16日 申请日期2012年10月24日 优先权日2012年10月24日
发明者张秋余, 黄羿博, 邸燕君, 刘扬威, 杨仲平, 省鹏飞 申请人:兰州理工大学