网络电话中的静音检测方法

文档序号:7577769阅读:658来源:国知局
专利名称:网络电话中的静音检测方法
技术领域
本发明涉及一种网络电话中的静音检测方法。
所说静音检测方法是指在网络电话中通过静音检测模组内的各检测部分,正确的分离语音和背景噪声,以滤除冗余音频数据,从而能在有限的网络频宽内得到最佳的通话效果,此外,当检测到未传送语音数据时,即会传送静音框架(frame)数据,该静音框架(frame)数据能较语音数据节省传输频宽,同时,接收方一接收到静音框架(frame)数据时,也会回放背景噪声,而能保持说话的同步,其次,在半双工的说听模式中设有一转换模组,当接收到网络上的语音数据时,会自动转换成接听模式,而当本地检测到语音时则自动转换成说话模式,并设有按键,方便用户随时都能说话。
一般网络电话属于即时通讯系统,但是受到网络带宽的限制,必须在不破坏语音音质的前提下尽量减少数据传输,另外,如果用户使用了半双工的声霸卡,就不能同时说话和接听,而只能通过转换说/听模式间接实现交谈,鉴于以上两大问题,人们开始借鉴语音辩识领域中的静音技术,以此来滤除冗余语音数据,并且实现半双工说/听模式的自动转换。
但是,静音技术只是作为一种辅助手段,仍有以下缺点1.简单采用短时平均能量检测有无静音,对环境的适应能力差;2.单纯滤除静音数据而不作任何处理,可能造成交谈的不同步性;3.半双工自动转换说/听模式,忽视了交谈者的主动性。
因此,为改进上述惯用技术中的缺点,本发明提供一种网络电话中的静音检测方法。
本发明的目的,在于提供一种网络电话中的静音检测方法,主要是在网络电话上通过静音检测模组内的各检测部分,正确分离语音和背景噪声,以滤除冗余音频数据。
为实现所述目的,本发明提供一种网络电话中的静音检测方法,该方法通过静音检测模组进行,该静音检测模组内的各检测部分包括有语音检测、静音检测及噪声检测等,所述静音检测方法的步骤如下,首先,当收集到当前一框架(frame)的音频数据时,通过求其振幅值和而得到短时平均能量,一旦短时平均能量超过语音能量的临界值时,即代表检测到语音,其次,再将当前一框架(frame)的短时平均能量通过低通滤波器,得到这一框架(frame)的长时平均能量并进行检测,当连续数框架(frame)的长时平均能量均低于静音能量的临界值时,即检测到静音,嗣后,再收集当前一框架(frame)的音频数据,计算相邻数据其正、负符号的变换次数,(即过零率),一旦过零率超过临界值时,即判定检测到噪音,因此通过该三种检测分离出语音和背景噪声,从而能在有限的网络频宽内得到最佳通话效果。
本发明所提供的网络电话中的静音检测方法,其中,当传送方的静音检测系统检测到传送方未传送语音数据时,会同时传送一静音框架(frame)数据,该静音框架(frame)数据能较语音数据节省传输频宽,同时,当接收方接收到静音框架(frame)数据时,接收方也会传送当地的背景噪声至传送方,因此,双方不会因网络传送的延迟性,而有谈话不同步的感觉。
本发明所提供的网络电话中的静音检测方法,其中,在半双工的说听模式中有一转换模组,当接收到网络上的语音数据时,会自动转换成接听模式,而当本地检测到语音时则自动转换成说话模式,并设有功能键,方便用户随时都能说话。
为能更进一步的认识与了解本发明的目的、形状构造装置特征及其功效,再举实施例结合附图,详细说明如下

图1是本发明的硬件结构示意图。
图2是本发明的全双工静音技术的硬件结构方块图。
图3是本发明的半双工静音技术的硬件结构方块图。
图4是本发明的全双工录音端静音模组的硬件结构图。
图5是本发明的全双工录音数据处理流程图。
图6是本发明的半双工录音端静音模组的硬件结构图。
图7是本发明的半双工录音数据处理流程图。
图8是本发明的语音检测流程图。
图9是本发明的静音检测流程图。
图10是本发明的噪音检测流程图。
图11是本发明全双工放音端静音模组的硬件结构图。
图12是本发明全双工放音数据处理流程图。
图13是本发明半双工放音端静音模组的硬件结构图。
图14是本发明半双工放音数据处理流程图。
图15A-15B是本发明录音端总流程图。
图16是本发明放音端总流程图。
参照图1所示,本发明是一种“网络电话中的静音检测方法”,其包括有一个人电脑11、声霸卡12、麦克风13、扬声器14、数据机或网络卡15等,其中,麦克风13是将所录制的声音信号转化成电信号并输入至声霸卡12中,扬声器14再将声霸卡12所输出的电信号转换成声音信号放送出去,参照图2、图3所示,一般电话通话模式包括有全双工模式(如图2所示)及半双工模式(如图3所示),所谓全双工模式是指通话双方可同时进行说听,至于半双工模式是指在网络电话系统中,声霸卡处于半双工的工作方式,在当前时刻,只能进行其中一录音或放音状态,而不能同时进行录音或放音,而本发明的静音检测技术适用于全双工模式与半双工模式。
参照图2、图3所示,其是网络电话在全双工模式或半双工模式进行传送及接收语音的工作方块图,该全双工模式与半双工模式在传送语音时,都是先经由麦克风13将所录制到的语音分别传输至混音器21、模/数转换22、录音应用程序介面(录音API)23、录音端静音模组24、数据机或网络卡15再通过网络将语音传输至接收方;而全双工模式与半双工模式在接收语音时,都是先通过网络接收语音数据,再将该语音数据经由数据机或网络卡15、放音端静音模组25、接收应用程序介面(接收API)26、数/模转换27、混音器21,再由扬声器14播送出去;其中,本发明的静音检测技术是应用在录音端静音模组24及放音端静音模组25中,至于,在半双工模式中,其静音检测技术中尚包括有一转换模组28,以实现说/听模式的自动和强制转换。
参照图4、图5所示,是全双工录音端静音模组24的硬件结构图及流程图,首先,先检测录音应用程序介面23所抽样的音频数据,若检测为语音数据,则启动编码器31,将语音数据编码,并按压数据选择开关32将编码数据传送给数据机或网络卡15,反之,若检测不是语音数据时,即关闭编码器31,并按压数据选择开关32将静音框架(frame)33数据传送至数据机或网络卡15。
参照图6、图7所示,是半双工录音端静音模组24的硬件结构图及流程图,首先,先检测录音应用程序介面23所抽样的音频数据,若检测为语音数据,则启动编码器31,将语音数据编码,并传送给数据机或网络卡15,反之,若检测不是语音数据时,即关闭编码器31,并将检测结果输入至转换模组28以启动说/听模式的转换。
在上述的全双工与半双工的录音端静音模组24中,其具有一静音检测模组34,而本发明即藉由该静音检测模组34从背景噪声中找出语音的开始和终止,而静音检测模组包含有语音检测、静音检测及噪音检测等;参照图8所示,该语音检测是作为检测语音的起始部分(句子或段落的开头),它是采用短时平均能量检测,首先收集当前一框架(frame)的音频数据N,将该音频数据N求其振幅值和并通过短时滤波,而得到这一框架(frame)的短时平均能量Se′,一旦短时平均能量Se′超过语音能量Se的临界值时,即表示检测到语音,而从这一框架(frame)开始的音频数据N皆被视为语音数据,直至检测到静音为止。
该语音检测按如下公式进行首先,计算当前框架(frame)的语音能量SeN-1Se=∑|Xin(i)| N为每框架(frame)语音数i=0其次,计算当前框架(frame)的过零率SzN-1Sz=∑|sgn[Xin(i)]-sgn[Xin(i-1)]|/2NI=0其中sgn[Xin(i)]=1,Xin(i)>=0sgn[Xin(I)]=-1,Xin(I)<0然后,上述语音能量经过短时滤波器后,得到短时平均能量Se,Se=0.5Se′+0.5Se因此,当(Se′>Et)且(Szmin<Sz<Szmax)时,表示当前有语音信号,并将当前状态设置为说话状态,且程序进入静音检测;其中,Et为语音能量临界值,而Szmin与Szmax分别为过零率下限和上限。
参照图9所示,本发明中,该静音检测是作为检测交谈间隙的静音(句子或段落之间的间隔),由于静音的能量小且持续时间长,因此采用长时平均能量检测,它是将当前一框架(frame)的短时平均能量Se′通过低通滤波器,而得到这一框架(frame)的长时平均能量Se′并进行检测,只有当连续数框架(frame)的长时平均能量Ss′均低于静音能量临界Est时,才表示检测到静音,因此,从这一框架(frame)起的音频数据N均被视为背景噪声,直至检测到语音为止,至于连续检测框架(frame)数则由正常通话的停顿时间计算得到。
该静音检测按如下公式进行首先,计算当前框架(frame)的语音能量SeN-1Se=∑|Xin(i)| N为每框架(frame)语音数i=0其次,上述语音能量经过长时滤波器后,得到长时平均能量Ss′Ss′=0.9Ss′+0.1Ss然后,当(Ss<Est)则CONUT++(表示技术器累进加1);当(Ss>Est)则CONUT=0即表示检测静音,其中Est为静音能量临界值,因此,当CONUT=M时,即将目前状态设置为接听状态,而M是静音需达到的框架(frame)数。
至于,上述的语音能量临界值及静音能量临界值是由下述的公式求出,首先,当用户不说话及静音时,先测得麦克风输入能量的平均值Ens,当用户说话朗读一段句子时,测得麦克风输入能量的平均值Ent,故语音能量临界值Et=Ens+0.5(Ent-Ens)静音能量临界值Est=Ens+0.2(Ent-Ens)现举一实施例,若每一音频数据N=320时,则经过理论分析和实验结果,即可求出语音能量临界值Et=250000,静音能量临界值Est=100000,而过零率的临界值,其下限Szmin=6,上限Szmax=36。
请参照图10所示,本发明中,在噪音检测中引入了过零率检测,它是先收集当前一框架(frame)的音频数据,计算相邻数据其正、负符号的变换次数(即过零率),当过零率高于临界值时,即判定检测到噪音,这一框架(frame)音频数据同样被现视为背景噪声,现举一例子说明如何计算相邻数据其正、负符号变换次数,例如该语音数据为20,50,100,40,10,-30,-50,-10,10,60,90,50由于,其整个数据的正、负符号的变换只有二次,所以其过零率为“2”,而过零率临界值是由统计特性得到。
因此,经过上述该三种检测分离出语音和背景噪声,就能在有限的网络频宽内得到最佳的通话效果。
参照图15A-15B所示,是录音端总流程图,它综合了录音端全双工静音模组、半双工静音模组和静音检测模组。首先使用语音检测方法确定语音的起始部分,然后使用静音检测方法确定语音的终止部分,最后使用噪音检测方法滤除语音中夹杂的噪音,这样就得到了“纯”语音数据。在全双工模式下,将语音数据进行编码通过网络传送,另外传送静音框架数据协调交谈的同步性。在半双工模式下,将语音数据进行编码通过网络传送,同时以有无语音数据为标志进行说/听模式的转换。
本发明中,在上述的全双工录音端静音模组24中,当检测到传送方未传送语音数据时,则同时传送一静音框架(frame)33数据,该静音框架(frame)33数据能较语音数据节省传输频宽,因此当接收方收到静音框架(frame)33数据时,即代表传送方未传送语音数据,接收方即可传送当地的背景噪声至传送方,令双方不会因网络传送的延迟性,而有谈话不同步的感觉;因此,参照图11、12所示,是全双工放音端静音模组25的硬件结构图及流程图,首先,该网络临测模组35是负责监测数据机或网络卡15接收的数据,当监测到是为编码数据,亦即语音数据时,即起动解码器36,并按压数据选择开关32,将解码后的语音数据传送至接收应用程序介面26;反之,若未监测到编码数据,即传送方未传送语音数据,则关闭解码器36,并按压数据选择开关32,将背景噪声37传送至接收应用程序介面26中。
参照图13、14所示,是半双工放音端静音模组25的硬件结构图及流程图,首先,该网络监测模组35是负责监测数据机或网络卡15接收的数据,当监测到编码数据时,即语音数据时,则启动解码器36,并将解码后的语音数据传送至接收应用程序介面26;反之,若未监测到编码数据,即未传送语音数据,则关闭解码器36,将检测结果输入至转换模组28,以触发听/说模式的转换。
参照图16所示,是放音端总流程图,它综合了放音端全双工静音模组、和半双工静音模组。静音模组时刻监测是否接收到语音编码数据,在全双工模式下,将语音编码数据解码后通过声霸卡回放,另外回放背景噪声协调交谈的同步性;在半双工模式下,将语音编码数据解码后通过声霸卡回放,同时以有无语音编码数据为标志进行听/说模式的转换。
本发明中,上述转换模组28工作在半双工模式下,主要是自动或强制转换说/听模式,当转换模组28启动时,若在录音端静音模组24时,静音检测模组34检测到语音数据时,即刻保持说话模式,反之,则自动转换成接听模式;而若在放音端静音模组25时,当网络监测模组35监测到语音数据时,即刻保持接听模式,反之,则自动转换成说话模式,此外,在接听模式下,若用户按压一功能键29时,转换模组28立即强制转换成说话模式。
综上所述,综合多种检测可正确分离语音和背景噪声,以减少数据传输,同时,对静音数据作特殊处理,以协调交谈的同步性,此外,令半双工说/听模式能转换自如,以方便用户随时都能说话,所以,本发明实为一理想的静音检测技术。
以上所述,仅为本发明的一些可行实施例,但并非用以限定本发明的保护范围,凡依据权利要求书所述的内容、特征以及其精神而进行其他变化的等效实施,都应包含在本发明的保护范围内。
权利要求
1.一种网络电话中的静音检测方法,用于在网络电话的全双工与半双工通话模式中通过各静音检测,正确分离语音和背景噪声,以滤除冗余音频数据,所述检测方法按如下步骤执行(1)检测语音的起始部分,当收集到当前一框架(frame)的音频数据时,通过求其振幅值和而得到短时平均能量,一旦短时平均能量超过语音能量临界值时,即代表检测到语音;(2)检测交谈间隙的静音,将当前一框架(frame)所计算出的短时平均能量通过低通滤波器,得到这一框架(frame)的长时平均能量并进行检测,当连续数框架(frame)的长时平均能量均低于静音能量临界值时,即检测到静音;(3)检测交谈间隙的噪音,收集当前一框架(frame)的音频数据,计算相邻数据其正、负符号的变换次数(即过零率),一旦过零率超过临界值时,即判定检测到噪音。
2.如权利要求1所述的网络电话中的静音检测方法,其中,该网络电话在传送语音时,先经由麦克风将所录制到的语音分别传输至混音器、模/数转换、录音应用程序介面(录音API)、录音端静音模组、数据机或网络卡再通过网络将语音传输至接收方。
3.如权利要求1所述的网络电话中的静音检测方法,其中,该网络电话在接收语音时,先通过网络接收语音数据,再将该语音数据经由数据机或网络卡、放音端静音模组、接收应用程序介面(接收API)、数/模转换、混音器,再由扬声器播送出去。
4.如权利要求1所述的网络电话中的静音检测方法,其中,该语音检测是采用短时平均能量检测,首先收集当前一框架(frame)的音频数据N,将该音频数据N求其振幅值和并通过短时滤波,而得到这一框架(frame)的短时平均能量Se′,一旦短时平均能量Se′超过语音能量临界值Et时,即表示检测到语音,而从这一框架(frame)开始的音频数据N都被视为语音数据,直至检测到静音为止。
5.如权利要求4所述的网络电话中的静音检测方法,其中,该语音能量临界值是由下述的公式求出,首先,当用户不说话及静音时,先测得麦克风输入能量的平均值Ens,当用户说话朗读一段句子时,测得麦克风输入能量的平均值Ent,从而得到语音能量临界值为Et=Ens+0.5(Ent=Ens)。
6.如权利要求1所述的网络电话中的静音检测方法,其中,该静音检测是采用长时平均能量检测,首先,收集当前一框架(frame)的音频数据N,将该音频数据N求其振幅值和而得到这一框架(frame)的短时平均能量Se′,此时,将短时平均能量Se′通过低通滤波器,而得到这一框架(frame)的长时平均能量Ss′并进行检测,只有当连续数框架(frame)的长时平均能量Ss′均低于静音能量临界值Est时,才表示检测到静音,因此,从这一框架(frame)起的音频数据N均被视为背景噪声,直至检测到语音为止。
7.如权利要求6所述的网络电话中的静音检测方法,其中,该静音能量临界值是由下述的公式求出,首先,当用户不说话及静音时,先测得麦克风输入能量的平均值Ens,当用户说话朗读一段句子时,测得麦克风输入能量的平均值Ent,从而获得静音能量临界值Est=Ens+0.2(Ent-Ens)。
8.如权利要求2所述的网络电话中的静音检测方法,其中,在该全双工录音端静音模组中,当检测到传送方未传送语音数据时,同时传送一静音框架(frame)数据,该静音框架(frame)数据能较语音数据节省传输频宽,所以当接收方接收到静音框架(frame)数据时,即代表传送方未传送语音数据,接收方即可传送当地的背景噪声至传送方,令双方不会因网络传送的延迟性,而有谈话不同步的感觉。
9.如权利要求1所述的网络电话中的静音检测方法,其中,该网络电话在半双工模式中,它具有一转换模组,令半双工说/听模式能转换自如,以方便用户随时都能说话。
10.如权利要求9所述的网络电话中的静音检测方法,其中,当转换模组启动时,若在录音端静音模组时,静音检测模组一检测到语音数据时,即保持说话模式,反之,则自动转换成接听模式,而若在放音端静音模组时,当网络监测模组监测到语音数据时,即保持接听模式,反之,则自动转换成说话模式。
11.如权利要求10所述的网络电话中的静音检测方法,其中,该转换模组并设有一功能键,当在接听模式下,若用户按压功能键时,转换模组即强制转换成说话模式。
全文摘要
一种网络电话中的静音检测方法,其步骤如下:当收集到当前框架的音频数据时,求其振幅值和得到短时平均能量,短时平均能量超过语音能量临界值时,代表检测到语音,再将当前框架的短时平均能量通过低通滤波器,得到这一框架的长时平均能量并进行检测,当连续数框架的长时平均能量均低于静音能量的临界值时,即检测到静音,然后,再收集当前一框架的音频数据,计算相邻数据正、负符号的变换次数,一旦过零率超过临界值时,即判定检测噪音。
文档编号H04M1/19GK1245376SQ9811836
公开日2000年2月23日 申请日期1998年8月17日 优先权日1998年8月17日
发明者张景嵩, 谢纲, 薛克忠, 温周斌 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1