一种语音识别方法、装置和存储介质与流程

文档序号：21839809发布日期：2020-08-14 16:24阅读：188来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明属于人声语音识别技术领域，特别涉及同时采用“个性”声音样本识别和“标准”样本识别两种技术的语音识别方法、装置和存储介质。

背景技术：

当前的语音识别引擎技术，分为“特定人识别”和“非特定人识别”两种。

“特定人语音识别技术”是通过采集该被识别人员的声音信息作为样本，在识别该人员语音时进行对比判定，达到识别语音的目的。

“非特定人语音识别技术”是以词语普通话标准发音声音信息特征作为声音样本，以达到最大限度的识别不同人所说相同语音信息的目的。

这两种识别引擎目前都有广泛应用，各有优缺点。

“特定人语音识别引擎”的优点是可以识别方言、识别不标准的普通话、对环境噪音抗干扰强、对其他人语音抗干扰强、识别准确、效率高；缺点是需要录音采集特定人样本，受采集样本数量限制，识别的词语数量比较有限。例如，仓库作业中，采用特定人识别引擎，需要对每个作业人员进行录音采样，有的仓库有几百名员工，录音工作量就比较大，录音的质量也受到影响，自然影响到语音识别的效率。目前该技术广泛应用于工业环境的语音作业系统。

“非特定人语音识别引擎”的优点是不用采集使用人的声音样本，任何人随时都可以和语音系统对话、可以识别的词语很多；缺点是不能有效识别方言、不能有效识别不标准的普通话、对环境噪音抗干扰弱、对其他人语音抗干扰无、识别出错率高、效率低。例如，不联网的车载语音系统，驾驶员和副驾驶座上的人聊天，语音系统就会以为和他说话，然后胡乱和你对话。目前该技术广泛应用于民用手机、车载电脑、各种搜索引擎等。

技术实现要素：

本发明是为了解决上述问题而进行的，提供了一种语音识别方法、装置和存储介质，解决目前人声语音识别，有效识别方言、不标准的普通话、对环境噪音抗干扰、对其他人语音抗干扰不能与便捷使用和广泛识别词汇兼顾的问题。

为实现上述目的，本发明提出一种语音识别方法，具有这样的特征，包括以下步骤：

用户登录：用户登录并发出语音指令；

特定模版识别：特定人语音识别引擎在已有特定样本集合中对所述语音指令进行匹配，得到特定识别结果，当所述特定识别结果符合第一预设规则时，返回所述特定识别结果；

非特定模版识别：当所述特定识别结果符合第二预设规则或第三预设规则时，非特定人语音识别引擎在已有非特定样本集合中对所述语音指令进行匹配，得到非特定识别结果并返回。

另外，本发明提供的语音识别方法，还具有这样的特征，所述用户登录步骤前，还包括以下步骤：

用户注册：所述用户进行身份注册，得到个人样本库，其中，所述个人样本库包含所述已有特定样本集合和所述已有非特定样本集合。

另外，本发明提供的语音识别方法，还具有这样的特征，所述特定模版识别步骤中，还包括以下步骤：

加强特定人模板：将所述特定识别结果和所述语音指令保存为个人特定样本，加入所述已有特定样本集合。

另外，本发明提供的语音识别方法，还具有这样的特征，所述第一预设规则为：所述已有特定样本集合中存在正确样本与所述语音指令相匹配。

另外，本发明提供的语音识别方法，还具有这样的特征，所述第二预设规则为所述已有特定样本集合中不存在与所述语音指令匹配的正确样本，所述第三预设规则为所述已有特定样本集合中存在使所述语音指令发生识别错误的错误样本。

另外，本发明提供的语音识别方法，还具有这样的特征，所述非特定模版识别步骤中，还包括以下步骤：

更新特定人模板：将所述非特定识别结果和所述语音指令保存为个人特定样本，加入所述已有特定样本集合，当符合所述第三预设规则时，去除所述错误样本。

另外，本发明提供的语音识别方法，还具有这样的特征，所述加强特定人模板步骤和所述更新特定人模板步骤中，还包括以下步骤：将所述特定识别结果或所述非特定识别结果，和所述语音指令按照各个词汇划分，并分别保存为各个人特定样本，加入所述已有特定样本集合。

此外，为实现上述目的，本发明还提供了一种电子装置，具有这样的特征，该电子装置包括：存储器、处理器，所述存储器上存储有语音识别程序，所述语音识别程序被所述处理器执行时实现以下步骤：

用户登录模块：用户登录并发出语音指令；

特定模版识别模块：特定人语音识别引擎在已有特定样本集合中对所述语音指令进行匹配，得到特定识别结果，当所述特定识别结果符合第一预设规则时，返回所述特定识别结果；

非特定模版识别模块：当所述特定识别结果符合第二预设规则或第三预设规则时，非特定人语音识别引擎在已有非特定样本集合中对所述语音指令进行匹配，得到非特定识别结果并返回。

另外，本发明提供的电子装置中，还具有这样的特征，所述用户登录模块前，还包括以下模块：

用户注册模块：所述用户进行身份注册，得到个人样本库，

其中，所述个人样本库包含所述已有特定样本集合和所述已有非特定样本集合。

另外，本发明提供的电子装置中，还具有这样的特征，所述特定模版识别模块中，还包括以下步骤：

加强特定人模板：将所述特定识别结果和所述语音指令保存为个人特定样本，加入所述已有特定样本集合。

另外，本发明提供的电子装置中，还具有这样的特征，所述第一预设规则为：所述已有特定样本集合中存在正确样本与所述语音指令相匹配。

另外，本发明提供的电子装置中，还具有这样的特征，所述第二预设规则为所述已有特定样本集合中不存在与所述语音指令匹配的正确样本，所述第三预设规则为所述已有特定样本集合中存在使所述语音指令发生识别错误的错误样本。

另外，本发明提供的电子装置中，还具有这样的特征，所述非特定模版识别模块中，还包括以下步骤：

另外，本发明提供的电子装置中，还具有这样的特征，所述加强特定人模板步骤和所述更新特定人模板步骤中，还包括以下步骤：将所述特定识别结果或所述非特定识别结果，和所述语音指令按照各个词汇划分，并分别保存为各个人特定样本，加入所述已有特定样本集合。

此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，具有这样的特征，所述计算机可读存储介质上存储有所述语音识别程序，所述语音识别程序被处理器执行时实现如上述任意一项所述的语音识别方法的步骤。

发明作用和效果

本发明所涉及的语音识别方法、装置和存储介质，针对“特定人语音识别”和“非特定人语音识别”两种引擎的优缺点，采用联合的架构，在语音识别的过程中按照流程自动调度使用两种识别引擎，同时自动记录用户的声音信息作为样本并不断丰富用户的语音样本，以达到在一个语音识别活动中应用到两种识别引擎的优势，避免了其缺陷和不足，从而在各种应用场景都能高效便捷识别语音命令。本发明所设计的语音识别防范、装置和存储介质提高了对于用户发出的语音命令的准确识别效率，以便于提高通过语音识别进行信息搜索、智能化生活、生产劳动的体验和效率。由于本发明的语音识别方法、装置和存储介质所针对的对象是人声识别，因而对于个人智能机器人、智能汽车系统、智能家居管理系统、智能手机、智能工业作业终端等提供高效便捷的语音人机界面具有广泛的使用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明电子装置一实施例的示意图。

图2是本发明的语音识别程序一实施例的程序模块图。

图3是本发明的语音识别程序一实施例的流程图。

图4是是本发明的语音识别程序架构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下参照附图及实施例对本发明所涉及的一种语音识别方法、装置和存储设备作详细的描述。以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1是本发明电子装置一实施例的示意图；

本发明提供一种电子装置1。参照图1所示，为本发明电子装置1较佳实施例的示意图。

在本实施例中，该电子装置1包括存储器11、处理器12，网络接口13及通信总线。其中，通信总线用于实现这些组件之间的连接通信。

网络接口13可以包括标准的有线接口、无线接口(如wi-fi接口)。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的语音识别程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行语音识别程序10等。

图1仅示出了具有组件11-13以及语音识别程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选的，该电子装置1还可以包括用户接口，用户接口可以包括显示器(display)、输入单元比如键盘(keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode，oled)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

图2示本发明的语音识别程序一实施例的程序模块图。

在图2所示的装置实施例中，作为一种计算机存储介质的存储器11中包括语音识别程序10，处理器12执行存储器11中存储的语音识别程序10时包括以下模块：用户登录模块110、特定模版识别模块120、非特定模版识别模块130。

图3是本发明的语音识别程序一实施例的流程图。

如图2、3所示，在本实施例中，语音识别程序10可以包括并执行：用户登录模块110：用户登录并发出语音指令。

另外，本发明提供的电子装置中，每个用户都以相对应的用户账户进行登录，因此，在所述用户登录步骤前，还包括以下模块：

用户注册模块：所述用户进行身份注册，得到个人样本库，其中，所述个人样本库包含所述已有特定样本集合和所述已有非特定样本集合。即每个所述用户需通过身份注册来获得所述个人样本库。其中，所述已有特定样本集合和所述已有非特定样本集合中的样本为所述样本库中原始自带，分别作为进行不同类型语音识别类型的样本集合。

图4是是本发明的语音识别程序架构图。

进一步，如图4所示，所述语音识别程序分别关联了“特定人语音识别引擎”和“非特定人语音识别引擎”，三个部分共同组成本发明中的双引擎语音识别架构，并按照所述语音识别程序依次进行调动。当所述关联件接受到所述语音指令后，首先调动非特定人语音识别引擎进行识别。

在本发明中，所述“特定人语音识别引擎”和“非特定人语音识别引擎”可以是自行开发或直接购买，并需要将所述“特定人语音识别引擎”和“非特定人语音识别引擎”通过所述语音识别程序进行联结。

特定模版识别模块120：特定人语音识别引擎在已有特定样本集合中对所述语音指令进行匹配，得到特定识别结果，当所述特定识别结果符合第一预设规则时，返回所述特定识别结果。

所述第一预设规则为：所述已有特定样本集合中存在正确样本与所述语音指令相匹配。

具体的匹配步骤为：从采集到的所述语音指令的音频中提取音频特征数据，将此特征数据与所述已有特定样本模板中样本的特征数据进行匹配，当所述已有特定样本集合中存在正确样本与所述语音指令相匹配时，则匹配成功。匹配时所采用的算法是神经网络方法。

具体而言，判断过程中，语音识别结果必须符合特定长度范围，比如系统提示：“工作id”，则此时操作人员回复的结果必定是规定长度的数字组合，若字符长度不符合，或者夹带了字母或者其它命令词，则不符合匹配规则。

在本发明中，所述特定人语音识别引擎可以是自行开发或采用已有的市售版本，可对所述语音指令进行自动识别。在一些实施例中，所采用的特定人语音识别引擎为语识-eof核心嵌入式软件v2.0。

另外，本发明提供的电子装置中，为了进一步提高所述特定人语音识别引擎针对当前用户的识别效率和正确率，所述特定模版识别模块中，还包括以下步骤：

加强特定人模板：将所述特定识别结果和所述语音指令保存为个人特定样本，加入所述已有特定样本集合。

具体而言，所述特定人语音识别引擎工作时，可以将所述当前用户的所述语音指令和特定识别结果作为个人特定样本进行保存，保存的方式可以为将所述特定识别结果和所述语音指令按照各个词汇划分，并分别保存为各个人特定样本，加入所述已有特定样本集合。当所述特定人语音识别引擎在下一次进行识别时，可同时调用原始的所述已有特定样本集合和具有当前用户本人特征的所述个人特定样本作为一个加强的集合进行识别匹配，随着使用越多，保存的个人特定样本越丰富，针对当前用户的语音识别效率会越来越高。

进一步，每个所述词汇的特定样本保存数量可以根据需要进行设置。在一些实施例中，对“我们”一词的样本设置最多保存10个，保存满10个以后将不再增加该词语样本。

进一步，本发明提供的电子装置中，当所述特定人语音识别没有识别成功时，所述关联件将切换调用非特定人语音识别引擎进行语音识别：

另外，所述第二预设规则为所述已有特定样本集合中不存在与所述语音指令匹配的正确样本，所述第三预设规则为所述已有特定样本集合中存在使所述语音指令发生识别错误的错误样本。

具体而言，在所述特定识别结果存在识别错误时，将识别错误的信息调用特定人语音识别引擎通过接口返回。

另外，在本发明中，所述非特定人语音识别引擎可以是采用已有的市售版本，可对所述语音指令进行自动识别。在一些实施例中，所采用的非特定人语音识别引擎为科大讯飞-离线听写。

另外，本发明提供的电子装置中，还具有这样的特征，所述非特定模版识别步骤中，还包括以下步骤：

更新特定人模板：将所述非特定识别结果和所述语音指令保存为个人特定样本，加入所述已有特定样本，当符合所述第三预设规则时，去除所述已有特定样本中引起所述识别错误的样本。

同样的，当所述特定人语音识别引擎在下一次进行识别时，可同时调用原始的所述已有特定样本和具有当前用户本人特征的所述个人特定样本作为一个集合进行识别匹配。当之前进行特定模版时的结果符合第三预设规则时，需去除所述已有特定样本集合中存在使所述语音指令发生识别错误的错误样本。而每个所述词汇的特定样本保存数量也可以根据需要进行设置。当所述特定人语音识别引擎在下一次进行识别时，可同时调用原始的所述已有特定样本集合(或去除了所述错误样本的已有特定样本集合)和具有当前用户本人特征的所述个人特定样本作为一个更新的集合进行识别匹配，随着使用越多，保存的个人特定样本越丰富，去除的错误样本越多，针对当前用户的语音识别效率和正确率会越来越高。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如下操作：

用户登录：用户登录并发出语音指令；

本发明之计算机可读存储介质的具体实施方式与上述语音识别方法的具体实施方式大致相同，在此不再赘述。

实施例的作用与效果

根据本实施例所涉及的所涉及的语音识别方法、装置和存储介质，针对“特定人语音识别”和“非特定人语音识别”两种引擎的优缺点，采用联合的架构，在语音识别的过程中按照流程自动调度使用两种识别引擎，同时自动记录用户的声音信息作为样本并不断丰富用户的语音样本，以达到在一个语音识别活动中应用到两种识别引擎的优势，避免了其缺陷和不足，从而在各种应用场景都能高效便捷识别语音命令。本发明所设计的语音识别防范、装置和存储介质提高了对于用户发出的语音命令的准确识别效率，以便于提高通过语音识别进行信息搜索、智能化生活、生产劳动的体验和效率。由于本发明的语音识别方法、装置和存储介质所针对的对象是人声识别，因而对于个人智能机器人、智能汽车系统、智能家居管理系统、智能手机、智能工业作业终端等提供高效便捷的语音人机界面具有广泛的使用价值。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐志展
技术所有人：上海语识信息技术有限公司
我是此专利的发明人