一种降低voip通信资源开销的系统和方法
【技术领域】
[0001] 本发明属于通信计算机领域,设及一种降低VOIP通信资源开销的系统和方法。
【背景技术】
[0002] VoIP(VoiceoverInternetProtocol),又名VoiceoverIP,IP承载语音;具体 是将语音的模拟信号(Voice)数字化,转化为IP数据包,W数据封包值ataPacket)的形 式在IP网络(IP化twork)上做实时传递。
[0003] 随着IP网络技术的快速发展和不断完善,IP化网络正在逐步替代传统的语音交 换网络。利用IP网络传输语音数据,在网络带宽固定不变的条件下,提高信道利用率能在 很大程度上提高语音的质量。 W04] 现有技术中,提高信道利用率通常采用语音激活检测(VoiceActivity Detection,VAD)技术;VAD技术根据人们日常谈话的话音和静默特性,检测到静音 (Silence)时加W抑制,使其不占用或极少占用信道带宽,检测到突发的激活话音时才将其 进行压缩编码与传输。实际上,人们在打电话时,仅有27%-40%的时间在讲话,使用VAD 技术把不说话的时间去除,只保留含有信息的部分,能使信道带宽的有效利用率提高50% W上,所WVAD技术成为语音通信传输中降低带宽、提高信道利用率的强有力工具。
[0005] 在IP电话应用中对传输语音数据采用VAD技术,在音频会话期间去除非语音片 段,避免对静音数据包的编码和传输,节省计算时间和带宽。
[0006] 目前的VAD技术采用的方法是:首先接收当前待检测的音频帖,然后从音频帖中 获取时域参数和频域参数,接着获取时域参数与时域参数在历史背景噪声帖中的长时滑动 平均值之间的第一距离,并获取频域参数与频域参数在历史背景噪声帖中的长时滑动平均 值之间的第二距离。"历史背景噪声帖"指的是当前帖之前的背景噪声帖,比如当前帖之前 的连续的多个背景噪声帖;若当前帖为初始第一帖,则可W将预先设定的帖作为历史背景 噪声帖,或将该第一帖作为历史背景噪声帖。最后,根据第一距离和第二距离W及基于第一 距离和第二距离的判决多项式组判决当前待检测的音频帖为前景语音帖还是为背景噪声 帖,判决多项式组中的至少一个系数为变量,该变量是根据语音激活检测工作方式和/或 输入信号特征确定的。
[0007] 上述技术主要是通过计算声音信号的基音信息、能量信息、音调信息等数值并将 其与标准的阔值相比较,如果数值大于阔值判为语音,小于阔值则判为噪声,运类算法的优 点是比较简单,但只适用于处理较为简单的噪声源,对于复杂的噪声源,首先上述语音信息 比较容易与噪声混合,其次阔值也难W适应环境的变化。
【发明内容】
[0008] 本发明针对现有VAD检测技术,对环境变化的适应性不高,W及在复杂环境下判 决准确率低的缺点,提出了一种降低VOIP通信资源开销的系统和方法。
[0009] 一种降低VOIP通信资源开销的系统,又名卷积神经网络系统,具体包括4层,依次 为输入层,卷积层,子采样层和输出层,每一层均由特征图谱构成,每一维特征图谱含有神 经元。
[0010] 输入层输入的是待测语音每一帖的语音特征参数MFCC及其一阶差分特征参数, 所述参数构成一维特征图谱;
[0011] 卷积层的特征图谱有多维,每一维的特征图谱均由输入层的特征图谱和一个卷积 核卷积得到,根据卷积核的大小,输入层的多个神经元映射卷积层的1个神经元,而且每维 特征图谱中相同位置的神经元均连接输入层中相对应的神经元。
[0012] 子采样层通过对卷积层的每一维特征图谱进行降维操作,将卷积层每一维特征图 谱上的神经元平均分组,然后选取每组中的最大神经元作为子采样层的神经元;子采样层 特征图谱的维数与卷积层特征图谱的维数相同,子采样层上神经元的个数降低为卷积层上 神经元个数的1/3到2/3。
[0013] 输出层是一维特征图谱,特征图谱上的每个神经元均全部连接子采样层的所有神 经元,并输出待测语音的实际结果。
[0014] 一种降低VOIP通信资源开销的方法,具体步骤为:
[0015] 步骤一、训练卷积神经网络系统,获取并保存权重矩阵W和权重矩阵m;
[0016] 具体步骤如下:
[0017] 步骤101、选取语音样本并对语音样本的每一帖分别标记为语音帖和非语音帖。
[0018] 对语音样本按序手动标记,语音帖标记为[1,0],非语音帖标记为[0,1],分别作 为卷积神经网络系统输出层判决语音帖和非语音帖的理想输出。
[0019] 步骤102、针对标记后的每一帖语音,分别按序提取语音特征参数MFCC及其一阶 差分特征参数;
[0020] MFCC(Mel-scaleRrequen巧CepstralCoefficients,梅尔倒谱系数),提取特征 参数时按20ms划为一帖。
[0021] 语音特征参数MFCC的计算公式为:
[0023] 其中,M(n)为语音特征参数MFCC的第n阶参数,Hik为离散余弦变换DCT的输入, k= 1,....,N;N为Mel滤波器的个数;L为语音特征参数MFCC系数的最大阶数。
[0024] 记一阶差分MFCC参数为AMFCC,其计算公式为:
W26] 式中,D(t)为一阶差分MFCC参数的第t阶参数;L'为AMFCC系数的最大阶数。
[0027] M(t+n)为语音特征参数MFCC的第t+n阶参数;M(t-n)为语音特征参数MFCC的第 t-n阶参数;n= 1,. . . .,R,R表示一阶倒谱系数的时间差。
[0028] 步骤103、按序将每一帖的语音特征参数MFCC及其一阶差分特征参数组成一维特 征图谱;
[0029] 一维特征图谱V的计算公式如下:
[0030] V= [MFCCl A MFCC] = [Md), 1(2),... M(n),...,!化),D(I), D (2),...0 (t),..., DO;)]
[0031] 步骤104、将步骤103的一维特征图谱带入卷积神经网络系统,得到判决结果;
[0032] 具体步骤为:
[0033] 步骤1041、将样本语音每一帖的一维特征图谱输入到卷积神经网络系统的输入 层;
[0034] 步骤1042、通过输入层的一维特征图谱和卷积核卷积得到卷积层每一维的特征图 谱。
[0035] 卷积层每一维的特征图谱Q,的计算如下: 阳036] Qj=0(0*w j), j = I, . . . , J
[0037] 其中,Q,为卷积层的第j维特征图谱,j= 1,. . .,J,J为卷积层特征图谱的维数; 0为输入层的一维特征图谱,*代表卷积操作,W,表示输入层和卷积层第j维特征图谱相连 神经元的权重矩阵,所有的权重矩阵Wj构成矩阵W; 0 (X)是激活函数,选用sigmoid函数, 定义为:
[0039] 经过卷积后,卷积层每一维特征图谱上的神经元提取的是输入层特征图谱中相对 应的局部特征。
[0040] 步骤1043、子采样层对卷积层的每一维特征图谱Q,进行降维操作;
[0041] 将卷积层每一维特征图谱上的神经元平均分组,然后选取每组中的最大神经元作 为子采样层的神经元,计算公式如下:
[0043] 其中,Ptm代表子采样层第J维特征图谱P,的第m个神经元,q代表卷积层第J 维特征图谱Q,的第m个神经元,S为窗口移动大小;G为卷积层到子采样层进行的降维操作 的窗口大小。窗口移动大小S的值与窗口G的值相同。
[0044] 步骤1044、输出层每一个神经元均与子采样层的所有神经元全部连接;
[0045] 计算公式为:
[0046] y = O-(P-IIi)
[0047] 式中,y是输出矢量;P表示将子采样层各维特征图谱展成一维矢量的特征图谱, P=货閒…[巧Ha] ;P,代表子采样层第j维特征图谱,J为子采样层特征图谱的维数;m 为一维矢量的特征图谱和输出层相连神经元的权重矩阵,0 (X)是激活函数,选用sigmoid 函数,定义为:
[0049]步骤1045、经过全连接后,输出层输出并记录结果。
[0050] 步骤105、针对每一帖语音,按序将步骤104的实际判决结果与步骤101标记的理 想输出进行对比,计算出判决误差项;
[0051] 针对输入语音的第n帖,卷积神经网络系统的实际输出结果为y(n),理想输出记 为;i(?),判决误差项d(n)的计算公式如下:
[0052] d(n) =e(n) ? {y(n) ? [l-y(n)]} 阳化引式中c(n)=衣(")-y(w);n为样本语音的帖数。
[0054] 步骤106、针对每一帖语音的判决误差项,卷积神经网络系统