一种语音激活方法及系统的制作方法
【技术领域】
[0001] 本发明属于语音识别技术领域,具体地说,本发明涉及一种语音激活方法及系统。
【背景技术】
[0002] 目前的语音识别技术在受到噪声以及自然口语等因素的影响时,识别正确率会严 重降低。因此在日常生活中,基于连续语音识别技术的人机交互模式难以实现。目前通常 的解决方案是采用手指按键的方式开启语音识别设备,这样用户就可以在相对安静的环境 状态下进行语音录入,从而保证较好的语音识别效果,继而完成人机交互工作。
[0003] 手指按键的开启方式会给用户带来各种不便。首先,手指按键要求用户和语音识 别设备之间的距离不能超过手臂,这样会给距离设备较远或者行动不便的用户群带来操作 上的困难;其次,在黑暗的环境中,用户不容易找到按键的位置;再次,手指按键不适合双 手被占用的用户,以用户驾驶车辆为例,此时用户不方便使用手指按键方式。综上所述,对 手指按键这种开启方式的依赖限制了语音识别技术的推广和应用。
[0004] 语音激活技术提供了一种克服上述缺陷的方案,有助于推进人机交互的应用和 发展。文献[1]( "Wake-Up-WordSpeechRecognition,',VetonKepuska(2011),Speech Technologies,Prof.Lvolpsic(Ed.),ISBN: 978-953-307-996-7.)中介绍了基于语音识别 框架的语音激活算法,此算法没有考虑实际应用环境中存在各种环境噪声,在环境相对安 静的实验室中具有较好的的语音激活性能,但是应用到背景噪声较大的环境中语音激活性 能可能严重恶化;而且文献[1]中仅采用分类器进行置信度判决,其判决准确性完全依赖 于分类器的训练样本,如果训练样本选择不合适会直接影响语音激活性能。
【发明内容】
[0005] 本发明的目的在于克服手指按键开启语音识别设备存在的各种缺陷,提供一种语 音激活这种全新的设备启动模式,从而为人们使用语音识别设备提供方便。
[0006] 为了实现上述目的,本发明提供一种语音激活方法,包括:
[0007] 建立声学模型,在声学模型基础上建立解码网络空间;
[0008] 按照噪声环境等级选择对应的静音抑制配置参数,将输入语音流切分成语音片 段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识别,获取识别语 音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的 若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若干个置信度进行 二次判决,包括预判决和第二次判决,输出最终识别结果。
[0009] 上述技术方案中,所述建立解码网络空间包括:将音素集中的垃圾音素并联为循 环的垃圾音素子网络,对指定的激活词所包含的音素进行顺序连接成激活词音素串,然后 在激活词音素串首尾加入所述的垃圾音素子网络,首尾的垃圾音素子网络跨过激活词音素 串直接相连。
[0010] 上述技术方案中,所述噪声环境等级为:强噪声环境、中等噪声环境、安静环境; 噪声环境等级按照环境噪声的声压级进行分类。
[0011] 上述技术方案中,所述识别语音音素的若干个置信度包括:音素规整时长、时间规 整的音素对数似然值、音素对数后验概率、时长为一帧的状态个数、最小音节时长、识别语 音总时长。
[0012] 上述技术方案中,所述预判决包括:
[0013] 如果所有识别语音音素的音素对数后验概率次小值〈第一阈值,则直接判决为非 激活词;如果所有识别语音音素的音素对数后验概率值小于-1的音素个数〉第二阈值,则 直接判决为非激活词;如果时长为一帧的状态个数〉第三阈值,则直接判决为非激活词;如 果最小音节时长〈=第四阈值,则直接判决为非激活词;如果识别语音总时长小于识别语 音音素个数*6帧或大于识别语音音素个数*15帧,则直接判决为非激活词;所述第一阈值、 第二阈值、第三阈值和第四阈值通过经验和统计规律优选获得。
[0014] 上述技术方案中,所述第二次判决采用分类器实现,所述分类器为线性分类器或 混合高斯模型分类器或支持向量机分类器。
[0015] 此外,本发明还提供了一种语音激活系统,所述的系统包含:
[0016] 静音抑制模块,用于按照噪声环境等级选择对应的静音抑制配置参数,将采集的 连续语音流切分成语音片段;
[0017] 特征提取模块,用于提取语音片段的语音特征;
[0018] 声学模型,用于描述声学空间中各个发音单兀的语音特征分布规律;
[0019] 解码模块,用于在声学模型的基础上建立解码网络空间,对语音片段的语音特征 进行维特比解码,在解码网络空间中寻找最优音素路径作为识别语音路径,最优音素路径 上的所有非垃圾音素即为识别语音音素;
[0020] 置信度计算模块,用于从能够表征发音单元可信程度的所有度量中选取若干个度 量作为识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;
[0021] 二次判决模块,用于对识别语音音素的若干个置信度进行二次判决,包括预判决 和第二次判决,输出最终识别结果。
[0022] 本发明的优点在于:
[0023] 1、通过对噪声环境的分级处理,本发明提供的语音激活系统在噪声环境中有很好 的稳健性;
[0024] 2、通过建立特定的解码网络空间,可以消除实际应用环境中存在的背景噪声对语 音识别性能的不良影响;
[0025] 3、通过对语音识别结果的二次判决,将语音的识别错误率降到最低,达到了优异 的语音激活效果;
[0026] 4、本发明提供的语音激活系统,在交互式的智能家用电器、穿戴式设备等方面具 有广阔的应用前景。
【附图说明】
[0027] 图1是本发明的解码网络空间的构建方式示意图;
[0028] 图2是本发明的语音激活系统的模块组成图。
【具体实施方式】
[0029] 下面结合附图及对本发明的具体实施做进一步地描述。
[0030] 本发明提供的语音激活方法包括以下步骤:
[0031] 步骤1)建立声学模型;
[0032] 音素集包含65个中文无调音素、15个垃圾音素(filler)、表示静音的sil音素和 表示短暂停顿的sp音素;每个音素利用上下文扩展成为三音子,每个三音子由三个状态顺 序连接。所述15个垃圾音素是通过统计方法获得的,根据各个音素间的混淆及相关程度, 将所有音素聚集成多个相似类,每一相似类作为一个垃圾音素。
[0033] 通过决策树的方式,将相同中心音素、相同位置、不同上下文的状态群进行聚类, 得到3970个状态,即3970个单元,每个单元由包含8个高斯分量的混合高斯模型(GMM)进 行描述;基于音素集和3970个单元构建声学模型。
[0034] 步骤2)在声学模型基础上建立解码网络空间;
[0035] 参考图1,解码网络空间的建立方式为:将步骤1)中所述的15个垃圾音素并联为 循环的垃圾音素子网络,对指定的激活词所包含的音素进行顺序连接成激活词音素串,然 后在激活词音素串首尾加入所述的垃圾音素子网络,首尾的垃圾音素子网络跨过激活词音 素串直接相连。
[0036] 上述建立的解码网络空间可以对五类语音片段完成准确的强制对齐,所述五类语 音片段为:激活词、前部带垃圾语音的激活词、后部带垃圾语音的激活词、前后均有垃圾语 音的激活词、全垃圾语音,这五类语音片段覆盖了所有可能的待识别语音。
[0037] 以指定的激活词为:"你好空调"为例,串连的激活词音素串为 "n-i-h-a〇-k-〇ng-t_iao,'。
[0038] 步骤3)按照噪声环境等级选择对应的VAD(静音抑制)配置参数,将输入语音 流切分成语音片段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识 另IJ,获取识别语音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为 识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若 干个置信度进行二次判决,包括预判决和第二次判决,输出最终识别结果。
[0039] 上述技术方案中,所述步骤3)进一步包括:
[0040] 步骤301)按照噪声环境等级选择对应的VAD(静音抑制)配置参数,将输入语音 流切分成语音片段;
[0041] 将噪声环境分为三个等级:强噪声环境、中等噪声环境、安静环境,等级按照环境 噪声的声压级进行分类,声压级的计算方法如下:
[0042] Lp= 20*lg(p/p0)
[0043] 其中,Lp是声压级,单位为分贝;p是声压;p0是基准声压,在空气中p0 = 2X10 5。
[0044] 噪声环境等级分类标准如下:
[0045]
[0046] 按照噪声环境等级选择对应的VAD配置参数,将输入的连续语音流切分成小的语 音片段,切分的目标是在人说话的间歇位置断开,即尽量保证一段连续说话声放在一个语 音片段中。不同的VAD配置参数可以保证语音流切分不随环境噪声的起伏变化而有明显差 异,以此得到准确的语音片段,减少完整语音被切断的现象发生。
[0047] 步骤302)提取语音片段的语音特征;
[0048] 采用8K采样率采集语音,语音分帧处理采用25毫秒窗长、10毫秒窗移,提取12维 PLP(感知线性预测系数)和1维能量作为语音的静态特征,采用了两阶差分参数提取39维 特征作为语音的动态特征。采用了HLDA(异方差线性区分性分析)技术对静态特征和