语音唤醒的优化方法及系统与流程

文档序号：19478256发布日期：2019-12-21 03:02阅读：672来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及智能语音对话领域，尤其涉及一种语音唤醒的优化方法及系统。

背景技术：

语音唤醒通常利用深度神经网络，对基础声学单元进行声学建模，声学单元一般选择音素。

以上描述的语音唤醒技术，建模单元为音素，首先对音素进行预测、分类、处理；然后计算处理后序列与唤醒词序列之间的相似度，如果相似度大于某个阈值，则唤醒；否则不唤醒。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

这种技术严重依赖声学模型对语音信号在建模单元上分类的准确性。在低信噪比的情况下，声学模型对音素的分类准确性不高，以至于影响了信噪比低场景的唤醒率。

技术实现要素：

为了至少解决现有技术中低信噪比场景下的唤醒率低的问题。

第一方面，本发明实施例提供一种语音唤醒的优化方法，包括：

构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型；

对接收到的语音音频进行特征提取，将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取所述音素声学模型的输出特征；

基于所述音素声学模型的输出特征，作为所述二级唤醒声学模型中的词级别声学模型的输入，确定唤醒词的置信度；

当所述置信度超过预设唤醒阈值时，将所述语音音频确定为唤醒词，进行语音唤醒。

第二方面，本发明实施例提供一种语音唤醒的优化系统，包括：

模型构建程序模块，用于构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型；

特征提取程序模块，用于对接收到的语音音频进行特征提取，将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取所述音素声学模型的输出特征；

置信度确定程序模块，用于基于所述音素声学模型的输出特征，作为所述二级唤醒声学模型中的词级别声学模型的输入，确定唤醒词的置信度；

唤醒程序模块，用于当所述置信度超过预设唤醒阈值时，将所述语音音频确定为唤醒词，进行语音唤醒。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒的优化方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语音唤醒的优化方法的步骤。

本发明实施例的有益效果在于：在一个声学模型的基础上，采用一定长度的语音信号提取的深度声学特征，输入到另一个分类模型，直接进行分类，直接的减小了最终分类效果对音素建模单元准确性的依赖，在音素分类不准确的情况下，依然可以对唤醒词进行正确的判别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音唤醒的优化方法的流程图；

图2是本发明一实施例提供的一种语音唤醒的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音唤醒的优化方法的流程图，包括如下步骤：

s11：构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型；

s12：对接收到的语音音频进行特征提取，将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取所述音素声学模型的输出特征；

s13：基于所述音素声学模型的输出特征，作为所述二级唤醒声学模型中的词级别声学模型的输入，确定唤醒词的置信度；

s14：当所述置信度超过预设唤醒阈值时，将所述语音音频确定为唤醒词，进行语音唤醒。

在本实施方式中，与一个建模的声学模型不同，并且与一般的两个声学模型的结果比对也不同，并不是用两个模型的输出结果进行对比，因为在信噪比低的情况下，选用多个声学模型不会明显提高音素的分类准确率。

对于步骤s11，与一个建模音素声学模型不同，在此基础上，构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型，其中，声学模型的任务是计算p(o|w)，即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分，它占据着语音识别大部分的计算开销，决定着语音识别系统的性能。传统的语音识别系统普遍采用的是基于gmm-hmm的声学模型，其中gmm用于对语音声学特征的分布进行建模，hmm则用于对语音信号的时序性进行建模。2006年深度学习兴起以后，深度神经网络(deepneuralnetworks，dnn)被应用于语音声学模型。音素声学模型确定语音波形中每个音素的概率，词级别的声学模型确定语音波形中每个词的概率。

对于步骤s12，为了能接收到实时语音唤醒，就需要智能设备实时采集环境内的语音音频，对采集后接收到的语音音频进行特征提取，将提取到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取出所述其中音素声学模型的输出特征，例如语音音频的音素序列。

对于步骤s13，基于所述其中音素声学模型的输出特征，例如在步骤s12中输出的音频序列，作为所述二级唤醒声学模型中的词级声学模型的输入，通过另一个声学模型来分类，有了明确的分类，进而更加精确的确定出用户音频为唤醒词的置信度。

对于步骤s14，当所述置信度超过预设的唤醒阈值时，将语音音频确定为唤醒词，进行语音唤醒。。

通过该实施方式可以看出，在一个声学模型的基础上，采用一定长度的语音信号提取的深度声学特征，输入到另一个分类模型，直接进行分类，直接的减小了最终分类效果对音素建模单元准确性的依赖，在音素分类不准确的情况下，依然可以对唤醒词进行正确的判别。

作为一种实施方式，在本实施例中，所述二级唤醒声学模型中一个声学模型为音素声学模型，所述另一个声学模型为词级别的声学模型。

在本实施方式中，其中一个声学模型为音素声学模型，另一个声学模型为词级别声学模型。发明人经过反复实验发现，利用音素声学模型进行唤醒词识别，在低信噪比情况下，唤醒性能较低，识别性能严重依赖音素声学模型对音素分类的准确率。在音素声学模型的基础上，再连接一个词级别声学模型，直接对唤醒词进行直接分类，即使在音素分类不准确的情况下，也能通过直接分类，提升唤醒词的识别效果，弥补单一音素声学模型的不足。

作为一种实施方式，在本实施例中，在所述提取所述音素声学模型的输出特征之后，所述方法还包括：

将每一帧的输出特征发送至特征累计器；

当所述特征累计器中语音音频的帧数累计达到预设阈值时，将所述特征累计器中的输出特征拼接成一维特征；

将所述一维特征输入至所述词级声学模型，以完成两个模型的耦合。

在本实施方式中，在提取出其中音素声学模型输出的特征之后，将每一帧的输出特征发送至特征累计器进行累计。当累积到一定帧数时，将这些特征拼接成一维完整的特征，将所述一维特征输入至词级声学模型，这样可以将两个声学模型进行耦合，确保两个模型的使用。

作为一种实施方式，在本实施例中，在所述对接收到的语音音频进行特征提取之前，所述方法还包括：

根据声学传感器实时接收音频信号，通过语音端点检测模型确定所述音频信号是否为语音音频；

当所述音频信号为语音音频时，对接收到的对话语音进行声学特征提取。

由于语音唤醒需要实时的对接收到的音频进行检测，如果收到音频就去检测，那么是十分浪费资源的。在对接收到的语音音频特征提取之前，根据智能设备中声学传感器实时接收音频信号，检测所述音频信号中是否为用户说话的语音音频，确保有用户说话，再去检测，避免了收到音频信号就去语音唤醒检测，提高音频唤醒检测效率。

如图2所示为本发明一实施例提供的一种语音唤醒的优化系统的结构示意图，该系统可执行上述任意实施例所述的语音唤醒的优化方法，并配置在终端中。

本实施例提供的一种语音唤醒的优化系统包括：模型构建程序模块11，特征提取程序模块12，置信度确定程序模块13和唤醒程序模块14。

其中，模型构建程序模块11用于构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型；特征提取程序模块12用于对接收到的语音音频进行特征提取，将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取所述音素声学模型的输出特征；置信度确定程序模块13用于基于所述音素声学模型的输出特征，作为所述二级唤醒声学模型中的词级别声学模型的输入，确定唤醒词的置信度；唤醒程序模块14用于当所述置信度超过预设唤醒阈值时，将所述语音音频确定为唤醒词，进行语音唤醒。

进一步地，所述其中一个声学模型为音素声学模型，所述其中一个声学模型为词级别的声学模型。

进一步地，在特征提取程序模块之后，所述系统还包括：特征累计程序模块，用于：

将每一帧的输出特征发送至特征累计器；

当所述特征累计器中语音音频的帧数累计达到预设阈值时，将所述特征累计器中的输出特征拼接成一维特征；

将所述一维特征输入至所述另一个声学模型，以完成两个模型的耦合。

进一步地，所述特征提取程序模块还用于：

根据声学传感器实时接收音频信号，通过语音端点检测模型确定所述音频信号是否为语音音频；

当所述音频信号为语音音频时，对接收到的对话语音进行声学特征提取。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音唤醒的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

构建二级唤醒声学模型，所述二级唤醒声学模型包括音素声学模型和词级别的声学模型；

对接收到的语音音频进行特征提取，将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型，提取所述音素声学模型的输出特征；

基于所述音素声学模型的输出特征，作为所述二级唤醒声学模型中的词级别声学模型的输入，确定唤醒词的置信度；

当所述置信度超过预设唤醒阈值时，将所述语音音频确定为唤醒词，进行语音唤醒。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音唤醒的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒的优化方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐俊峰
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人