用于语音识别的方法及装置与流程

文档序号：11867362阅读：777来源：国知局

本公开一般涉及语音识别领域，尤其涉及一种用于语音识别的方法及装置。

背景技术：

目前，语音识别技术在近场、高噪音情况下已经达到了很高的识别精度，但是在复杂场景，如有混响、噪声等因素时，识别精度有待提高。

为了减小房屋对语音产生的混响效果，目前在实现方式上会使用语音信号处理技术来估计环境混响时间T60，或者采用自适应滤波器的技术得到一组去除混响的滤波器系数，这两种方法都存在精度不高的问题，另外对噪声比较敏感，适用性受限。

现有这些去除混响、去除噪声对声音信号影响的技术都存在精度不高，容易误伤目标语音的问题；另外这些技术都只是利用了声音信号这一单一信息，没有利用图像信息，使得在强噪声情况下，比如信噪比小于零的情况，现有基于信号处理技术的降噪算法没有很好的处理性能。

技术实现要素：

鉴于现有技术中的上述缺陷或不足，期望提供一种去混响精度高，高信噪的语音识别方法。为了实现上述的一个或多个目的，本申请提供了一种用于语音识别的方法及装置。

第一方面，提供一种用于语音识别的方法，所述方法包括：

采集语音信息和空间图像信息；

根据所述空间图像信息获取空间信息；

根据所述语音信息获取声学特征信息；

根据所述空间信息消除声学特征信息中的混响信息；以及

根据消除混响后的声学特征信息进行语音识别。

第二方面，提供一种用于语音识别的装置，所述装置包括：

采集信息单元，用于采集语音信息和空间图像信息；

获取空间信息单元，用于根据所述空间图像信息获取空间信息；

获取声学特征信息单元，用于根据所述语音信息获取声学特征信息；

消除混响单元，用于根据所述空间信息消除声学特征信息中的混响信息；以及

语音识别单元,根据消除混响后的声学特征信息进行语音识别。

根据本申请实施例提供的技术方案，通过环境的空间信息的引入，能够获取环境的三维几何信息和表面材质信息来确定混响时间，获得更好的去混响，去除噪声效果，提高信噪比。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施例的用于语音识别方法的流程图。

图2示出根据本申请另一实施例的用于语音识别方法的流程图。

图3示出根据本申请实施例的用于语音识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图像信息包含了人物和环境的各种信息。如环境的空间信息、人物面部信息。在进行语音识别时，可以充分利用上述信息，达到提高信噪比的目的。

一方面，声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内经过多次反射和吸收，最后才消失，人们就感觉到声源停止发声后声音还继续一段时间。在语音识别环境下，各个界面的反射声是一种干扰噪声，去除混响是提高语音识别准确率的有效方案。通过提取空间信息，比如空间三维尺寸、材质信息等可以计算出环境的混响时间，根据混响时间，系统可以选择更适合的语音识别模型指导信号处理算法进行去除混响，达到提高语音识别精度的目的。

另一方面，根据当前说话人的面部表情，提取说话人的年龄、性别等属性、可用于加载特定的语音识别模型。而且在高噪音情况下，通过摄像头可以确定说话人的方位，辅助信号处理方法进行降噪处理，可以有效提升识别的准确率。

下面将参考附图并结合实施例来详细说明本申请。

请参考图1，示出了根据本申请实施例的用于语音识别方法的流程图。

如图1所示，在步骤101中，采集语音信息和空间图像信息。

在一些实施例中，语音信息可通过麦克风阵列采集。

优选地，采集空间图像信息包括：利用摄像头采集空间三维信息以及空间内物体。该摄像头为深度摄像头或者双目摄像头。具体地，摄像头采集房间的空间信息，同时摄像头采集房间内家具摆放的位置信息、墙壁、窗户和大件家电的表面材质信息。

接着，在步骤102中，根据所述空间图像信息获取空间信息。

根据步骤101中采集的图像信息获取空间信息包括：从空间三维信息以及空间内物体中提取所述空间的三维几何信息和所述物体的表面材质信息。也就通过采集所在房间的空间三维信息来获取空间三维几何信息，通过采集空间内物体图像获取物体表面材质信息。物体表面材质信息用于确定空间材质的声音折射率。

在步骤103中，根据所述语音信息获取声学特征信息。

在一些实施例中，声学特征信息包括至少以下一种声学特征信息：基频、梅尔频率倒谱系数(MFCC)、共振峰、短时能量特征、基音抖动和闪烁、谐波噪声比。这些声学特征信息的特点如下：

基频：基音是指发浊音时声带振动所引起的周期性，基频就是声带振动的频率。基音是语音信号最重要的参数之一，能体现包含在语音中的情绪、年龄、性别等信息。由于语音信号的非平稳性和非周期性，以及基音周期的变化范围很宽，使基频的精确检测变得很困难。本实施例使用倒谱法检测基频。

MFCC(梅尔频率倒谱系数)：频谱特征是短时特征。在提取频谱特征的时候，为了利用人类的听觉系统特点，一般将语音信号的频谱通过一个中心频率基于人类感知尺度的带通滤波器，然后从这些通过滤波的信号中提取谱特征，本实施例采用Mel频率倒谱系数(MFCC)特征。

共振峰：说话的时候，声道会不断改变适应使话语清晰，同时声道长度也受到说话者情绪状态的影响。发音时声道所起的作用是共鸣作用，当元音激励进入声道时会引起共振特性，产生一组共振频率，就是所谓的共振峰频率，简称共振峰，它们依赖于声道的形状和物理特征。

短时能量特征：语音信号的能量反映了语音的强度，与情绪信息有较强的直接相关性。短时能量是从信号时域出发计算得到的，它计算了一帧语音的信号幅度平方和。

基音抖动和闪烁：抖动是指前后周期间的基频抖动，即前后两帧语音信号的基音频率变化幅度。闪烁是指前后两个周期间的能量闪烁，即前后相邻两帧语音信号的短时能量变化幅度。

谐波噪声比：顾名思义是指语音信号中谐波与噪声成分的比值，能在一定程度上反映情绪的变化。

接着，在步骤104中，根据所述空间信息消除声学特征信息中的混响信息。

在一些实施例中，通过所述三维几何信息和表面材质信息计算混响时间。

本实施例中，在步骤102中获得了房间的三维信息和表面材质信息后，利用双目立体视觉算法，即经立体匹配、对极几何等算法可得到房间的三维几何信息。其中，立体匹配通过双目对齐图像之间颜色一致性得到，包括多种相似性度量方法，例如归一化互相关、差异的平方和等，对所有可能的匹配位置进行最优相似搜索得到视差，然后根据双目摄像头的对极几何关系计算三维几何信息。

之后，材质信息利用图像的视觉分析得到。即对图像进行分割得到材质一致区域，然后对各材质进行分类识别，并加入材质先验知识的约束，得到表面材质信息。对材质的判断可通过查表的方式得到材料的音波吸收系数，比如砖墙的吸收系数在1KHz的音波上为0.02，玻璃为0.03。

最后，根据混响计算公式伊林(Eyring)公式、库特鲁夫(Kuttruff)公式以及赛宾(Sabine)公式来计算房间的混响时间。比如Sabine公式为：

$<mrow> <msub> <mi>RT</mi> <mn>60</mn> </msub> <mo>=</mo> <mn>0.161</mn> <mo>*</mo> <mfrac> <mi>V</mi> <mi>A</mi> </mfrac> </mrow>$

A＝α*S

其中，V为房间的空间大小，S为房间的表面积，α为材质的音波吸收系数。为了更为精确的测量房间的混响时间，可根据多个计算公式同时估计。

获得混响时间后，基于该混响时间消除声学特征信息中的混响信息。

本实施例中，通过动态加载特定混响时间模型的方式来降低混响的影响。首先采集或者模拟出特定混响时间例如T60为600ms的训练数据，然后经过学习获得特定混响时间的声学模型，学习一组特定混响时间的声学模型可匹配当前使用环境的混响时间。

再学习不同混响时间的声学模型，比如T60为300ms、900ms、1500ms等多组模型，根据房间信息估计的混响时间T60，进行模型之间的插值得到适合当前混响的模型。比如测量得到当前房间T60为800ms时，一种方式是，通过一种线性或者非线性插值算法将600ms的模型和900ms的模型的参数逐一进行插值，得到一个切合800ms混响时间的模型。例如插值算法可以为根据欧氏距离的线性插值，

$<mrow> <mi>α</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>o</mi> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mi>o</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mi>o</mi> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>$

其中α为插值系数，o为检测到的混响时间T60,x_i x_i+1为候选模型对应的混响时间T60。此时800ms模型＝0.2*(600ms模型)+0.8*(900ms)模型。另一种方式是，将插值系数作为模型参数的一部分，在学习过程中通过优化算法得到一组和模型更匹配的插值系数。

接着，在步骤105中，根据消除混响后的声学特征信息进行语音识别。

在实际应用中，确定了房间混响信息之后，结合上述中获得语音信息，加载适合当前环境的语音识别模型。

优选地，本申请的语音识别方法还包括：采集人物图像信息，包括人物的面部图像信息；根据人物面部图像信息提取人物属性，包括年龄属性和/或性别属性；所述进行语音识别还包括：所述消除混响后的声学特征信息与所述人物属性结合进行语音识别。

请参考图2，示出根据本申请另一实施例的用于语音识别方法的流程图。

如图2所示，当检测到语音信息时(步骤201)，启动摄像头获取空间信息(步骤202)，该空间信息包括从空间三维信息以及空间内物体中提取所述空间的三维几何信息和所述物体的表面材质信息。如果该空间信息与之前保存到系统中的某个空间信息相近或相同(步骤203)，就读取该环境的混响时间(步骤205)；否则就进入混响时间的学习模式(步骤204a)。

接着，获取人物属性信息(步骤206)，通过提取的人物属性信息和系统已有的人物属性特征比较，如果系统保存有相同的信息(步骤207)，则加载该人物属性信息(步骤208)，否则进入人物属性学习模式(步骤204b)。

系统结合空间信息、语音信息和步骤208获得人物属性信息综合处理，并加载适合当前环境的语音识别模型进行语音识别(步骤209)，输出最终的识别结果。

上述中提到两种工作模式，一种是识别模式，另一种是学习模式。识别模式是系统处于空间信息和人物属性信息已知的模式，学习模式是系统处于空间信息和人物特征信息未知模式；如果系统处于学习模式，则根据步骤202或步骤206提取的数据进行当前的学习，并将学习结果保存到数据库中；如果系统处于识别模式，则通过数据库找到与获取数据最相似的数据，作为空间信息和人物属性信息的特征参数。

在语音识别过程中，由于房屋内存在各种影响识别性能的因素，如环境大小、家具布置、电器噪声、多人说话导致语音识别性能的降低。本发明通过在语音识别中加入环境的空间信息因素，可以取得更好的去除混响和噪声的效果，从而提高在高噪声环境下的语音识别的精准度。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，图1中可先执行步骤103，再执行步骤102，也能够实现本发明的目的。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。例如，图1中步骤102和步骤103可合并为一个步骤进行。

请参考图3，其给出一种示出根据本申请实施例的用于语音识别装置的结构示意图，

该用于语音识别的装置300包括采集信息单元301、获取空间信息单元302、获取声学特征信息单元303、消除混响单元304和语音识别单元305。其中，采集信息单元301，用于采集语音信息和空间图像信息；获取空间信息单元302，用于根据所述空间图像信息获取空间信息；获取声学特征信息单元303，用于根据所述语音信息获取声学特征信息；消除混响单元304，用于根据所述空间信息消除声学特征信息中的混响信息；以及语音识别单元305,根据消除混响后的声学特征信息进行语音识别。

在一些实施例中，所述采集信息单元301,用于利用摄像头采集空间三维信息以及空间内物体；以及所述获取空间信息单元302,从所述空间三维信息以及空间内物体中提取所述空间的三维几何信息和所述物体的表面材质信息。该摄像头为深度摄像头或者双目摄像头。

优选地，消除混响单元304包括计算混响时间单元，用于通过所述三维几何信息和表面材质信息计算混响时间；以及消除混响单元304，用于基于所述混响时间消除声学特征信息中的混响信息。

在一些实施例中，计算混响时间单元用于从三维几何信息和表面材质信息进一步提取空间大小信息、空间表面积和材质的音波吸收信息；以及根据所述空间大小信息、空间表面积和材质的音波吸收信息估计混响时间。

优选地，本申请的装置还包括：采集人物信息单元，用于采集人物图像信息，包括人物的面部图像信息；提取人物属性单元，用于根据人物面部图像信息提取人物属性，包括年龄属性和/或性别属性；所述语音识别单元还用于将所述消除混响后的声学特征信息与所述人物属性结合进行语音识别。

该声学特征信息包括至少以下一种声学特征信息：基频、梅尔频率倒谱系数(MFCC)、共振峰、短时能量特征、基音抖动和闪烁、谐波噪声比。

采集信息采用包括：用于利用麦克阵列采集语音信息。

相对现有技术本发明的有益效果在于：

首先，本发明解决语音识别在环境中由于各种影响因素，如所处环境的房间大小、家具布置、电器噪声、多说话人等情况导致的语音识别性能低下的问题。其次，通过人物面部图像信息和语音信息提高在高噪声情况下的语音识别正确率。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：牛建伟;潘复平;陈本东;杨德刚;都大龙;
技术所有人：北京地平线机器人技术研发有限公司;
我是此专利的发明人