语音识别方法、装置、电子设备及计算机可读存储介质与流程

文档序号：16308937发布日期：2018-12-19 05:11阅读：176来源：国知局

本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术

语音识别技术是使得机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

发明人在具体实施过程中，发现现有技术中存在语音识别准确性低的问题，极大的影响用户使用体验，亟需一种能够提高语音识别准确性的方法。

技术实现要素：

有鉴于此，本发明实施例提供了一种语音识别方法、装置、电子设备和计算机可读存储介质，能够有效提高语音识别的准确性。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取用户的第一语音信息；

确定与用户对应的语料库；

基于与用户对应的语料库，对第一语音信息进行识别，得到第一语音识别结果。

第二方面，本发明实施例还提供一种语音识别装置，该装置包括：

语音信息获取模块，用于获取用户的第一语音信息；

语料库确定模块，用于确定与用户对应的语料库；

语音识别模块，用于基于与用户对应的语料库，对第一语音信息进行识别，得到第一语音识别结果。

第三方面，本发明实施例还提供一种电子设备，该电子设备包括：

至少一个处理器；

以及与处理器连接的至少一个存储器、总线；其中，

处理器、存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行如本发明的第一方面实施例中所示的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，计算机指令使计算机执行本发明第一方面实施例中所示的方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的语音识别方法、装置、电子设备及计算机可读存储介质，可基于与用户的第一语音信息，确定与用户对应的语料库，由于该语料库是与用户对应的，因此，通过该语料库中的语料可对第一语音信息进行有针对的识别，提高了语音识别的准确性。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种语音识别方法的流程示意图；

图2示出了本发明实施例提供的一种语音识别装置的结构示意图；

图3示出了本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种语音识别方法，如图1所示，本发明实施例提供的方法可以包括：

步骤s110，获取用户的第一语音信息。

其中，第一语音信息可以是用户通过任何具有语音输入功能的设备提供的语音信息，比如，用户终端设备上的麦克风，用户终端设备中应用程序的语音输入功能按键等。在实际应用中，用户的第一语音信息可以是用户说的一个词或一段话，本发明实施例中不限定第一语音信息的具体形式。

步骤s120，确定与用户对应的语料库。

其中，语料库可以是基于实际应用需求进行预先配置的与用户对应的数据库，数据库中可以存储基于用户提供的信息所形成的语料，也可以是基于统计信息，统计得到的与用户对应的语料，语料库中的语料可以是拼音、文字(字和/或词语等)、数字或其他形式的内容，用户可以根据实际需求配置不同的语料库。本发明实施例中不限定语料库中语料的具体形式。

步骤s130，基于与用户对应的语料库，对第一语音信息进行识别，得到第一语音识别结果。

本发明的可选实施例中，可基于与用户的第一语音信息，确定与用户对应的语料库，由于该语料库是与用户对应的，因此，通过该语料库中的语料可对第一语音信息进行有针对的识别，提高了语音识别的准确性。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的方法还可以包括：

根据第一语音识别结果，进行相应的处理。

在实际应用中，对用户的第一语音信息识别后，需要对识别出的结果做出相应的响应。可以理解的是，根据语音识别结果进行相应的处理，可以是基于语音识别结果与用户进行语音交互，也可以是基于语音识别结果控制用户终端设备进行相应操作。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的方法还可以包括：

获取用户的语料配置请求，语料配置请求中包括语料添加请求、语料更改请求和语料删除请求中的至少一项；

若语料配置请求包括语料添加请求时，语料添加请求中包括待添加语料，根据语料添加请求，将待添加语料添加到用户对应的语料库中；

若语料配置请求包括语料更改请求或语料删除请求时，根据语料更改请求或语料删除请求，对用户对应的语料库中的语料进行更改或删除。

可以理解的是，在接收到用户的语料添加请求时，如果已经存在与该用户对应的语料库，则将语料添加请求中的待添加语料添加到该用户对应的语料库即可，如果不存在与该用户对应的语料库，则可以先创建与该用户对应的语料库，再将待添加语料添加到该用户对应的语料库中即可。在实际应用中，可以预先为不同的用户预配置各用户对应的语料库，也可以在首次接收到该用户的语料添加请求时再为用户创建对应的语料库。

为了满足用户的实际需求，还可以根据用户的语料配置需求对已构建的语料库进行更新，更新可以包括但不限于增加、删除或更改等。在本发明的可选实施例中，对语料库进行配置可以包括以下至少一种实现方式：

第一种：获取用户的语料添加请求，语料添加请求中包括待添加语料，根据语料添加请求，将待添加语料添加到用户对应的语料库中。

其中，待添加语料可以根据用户的实际需求进行不同的配置，比如，待添加语料中可以包括但不限于用户常用的一些专业词汇，一些方言词汇，或者一些自定义词等。

在实际应用中，可以基于获取到的语料添加请求中的待添加语料构建与用户对应的语料库，该语料库中存储该用户专用的一些语料，基于与该用户对应的语料库，可有针对性地对该用户的语音信息进行识别，以提高识别的准确性；同时，由于该语料库是与该用户对应的，可大大缩小所应用到的语料库中的数据量，进而可以提高语音识别的效率。

第二种：获取用户的语料更改请求，根据语料更改请求，对用户对应的语料库中的语料进行更改。

其中，语料更改请求中可以包括待更改语料和更改后的语料，待更改语料为与用户对应的语料库中的一个或多个语料，则对用户对应的语料库中的语料进行更改，可以包括：

将待更改语料替换为更改后的语料。

在一示例中，如果待更改语料为a，更改后的语料为b，则将a替换为b，以实现对待更改语料a的更改。

第三种：获取用户的语料删除请求，根据语料删除请求，对用户对应的语料库中的语料进行删除。

其中，语料删除请求中包括待删除语料，待删除语料为与用户对应的语料库中的一个或多个语料；则对用户对应的语料库中的语料进行删除，可以包括：

将待删除语料从用户对应的语料库中删除。

本发明的可选实施例中，在上述实施例的基础上，与用户对应的语料库可以为至少两个，为了便于对用户构建的语料库进行管理，可以将用户的身份标识信息与语料库进行关联，在对用户的语音信息进行识别时，可以基于用户的身份标识信息，在至少两个与用户对应的语料库中准确匹配到与用户对应的语料库。其中，用户的身份标识信息可以为用户的注册账号、自定义名称等可代表用户身份的标识信息，本发明实施例中不限定用户的身份标识信息的具体形式。

本发明的可选实施例中，在上述实施例的基础上，语料添加请求中还包括待添加语料所属领域，将待添加语料添加到用户对应的语料库中，可以包括：

根据待添加语料所属领域，将待添加语料添加到用户的与待添加语料所属领域相对应的语料库中。

在实际应用中，在基于获取到的语料配置请求中的信息建立与用户对应的语料库时，可以基于配置请求中的待添加语料的所述领域，为用户构建不同领域对应的语料库，在接收到用户的语料配置请求时，如果已构建与用户对应的语料库中有与待添加语料所属领域对应的语料库，则可以将待添加语料添加到该用户的、与待添加语料所属领域相对应的语料库中即可；如果与该用户对应的已构建的语料库中没有与待添加语料所属领域对应的语料库，则可依据用户的语料配置请求，构建一个与待添加语料所属领域对应的语料库，将待添加语料添加新构建的语料库中。

将待添加语料按照所属领域添加到对应的语料库中，可在基于用户的语料库对用户的语音信息进行识别时，可以基于与用户的语音信息所属领域对应的语料库对用户的语音信息进行识别，进一步提高语音识别的准确性。

在一示例中，待添加语料所属领域可根据实际需求进行配置，具体地，可以将领域划分为医学领域，农业领域，法律领域，计算机领域等，在本发明实施例中不限定领域的具体划分方式。

本发明的可选实施例中，在上述实施例的基础上，可以依据不同的领域构建不同的语料库，在需要对语音信息进行识别时，可以基于至少两个不同领域所对应的语料库对第一语音信息进行识别，得到第一语音识别结果，即无论第一语音信息所属领域是什么，都可以基于已构建完成的与用户对应的所有语料库对第一语音信息进行识别。

本发明的可选实施例中，在上述实施例的基础上，若与用户对应的语料库中包括至少两个不同领域所对应的语料库时，步骤s120，确定与用户对应的语料库，可以包括：

基于至少两个不同领域所对应的语料库，对第一语音信息进行识别，当识别出与至少两个不同领域所对应的语料库中的任一语料库相匹配的目标关键词时，将任一语料库确定为与用户对应的语料库。

其中，目标关键词可以为表示各个语料库所属领域所对应的关键词，目标关键词可以基于实际需求进行预先配置，在至少两个不同领域所对应的语料库中，识别出第一语音信息中有与至少两个不同领域所对应的语料库中的任一语料库相匹配的目标关键词，表示在至少两个不同领域所对应的语料库中，有某个语料库所对应的领域与第一语音信息所属领域相同，则基于该语料库对第一语音信息进行识别，可提高语音识别的效率。

可以理解的是，对于每一个领域的语料库，目标关键词可以为多个。目标关键词的配置可以根据实际应用需求或经验或统计数据等进行配置。

在一示例中，以两个不同领域所对应的语料库为例，一个为计算机领域的语料库，一个为法律领域的语料库，基于这两个语料库对第一语音信息进行识别，当在第一语音信息中的识别出“法律”或“民法”或“法条”或“司法”等预配置的目标关键词时，则表示该第一语音识别信息所属领域为计算机领域，两个不同领域所对应的语料库中，对应的计算机领域的语料库为用户对应的语料库。

需要说明的是，在实际应用中，对第一语音信息进行识别以识别出目标关键词时，可以是基于预配置的用于识别目标关键词的识别模型对目标关键词进行识别，也就是说，该目标关键词识别模型可以是基于预配置的至少两个不同领域所对应的语料库所对应的各目标关键词训练得到的，专门用于目标关键词识别的模型。

本发明的可选实施例中，在上述实施例的基础上，步骤s130，基于与用户对应的语料库，对第一语音信息进行识别，得到第一语音识别结果，可以包括：

基于任一语料库，对第一语音信息中除已识别语音信息之外的信息进行识别，得到第二语音识别结果；

根据第二语音识别结果和已识别语音信息，得到第一语音识别结果。

其中，对第一语音信息进行识别以识别出目标关键词的过程中，由于已经识别出了包括目标关键词在内的一些信息，因此，在根据任一语料库对第一语音信息进行识别时，可以不需要再识别第一语音信息中的已识别过的语音信息，可以对除已识别语音信息之外的信息进行识别，基于已识别语音信息和识别除已识别语音信息之外的信息得到的第二语音识别结果，可以得到第一语音识别结果，对除已识别语音信息之外的信息进行识别，不再重复对第一语音信息中的已识别语音信息进行识别，可进一步提高语音识别的效率。

本发明的可选实施例中，在上述实施例的基础上，在基于与用户对应的语料库，对第一语音信息进行识别时，若识别失败，本发明实施例提供的方法还可以包括：

根据预配置的通用语料库对第一语音信息进行识别，得到第三语音识别结果。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的方法还可以包括：

根据第三语音识别结果，进行相应的处理。

其中，基于与用户对应的语料库，对第一语音信息进行识别时，若识别失败，在该情况下，可能是由于用户的第一语音信息与用户对应的语料库中的信息不对应，用户对应的语料库无法正确的识别出用户的第一语音信息，此时，则可以依据预配置的通用语料库对第一语音信息进行识别，得到第三语音识别结果，并基于第三语音识别结果，可以进行与第三语音识别结果相对应的处理。其中，通用语料库是预先已经构建好的语料库，可以理解的是，通用识别模型的识别应用范围大于与目标关键词对应的语料库，该通用语料库可以是现有技术中的通用的语料库。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的方法还可以包括：

获取用户的语料分享请求；

根据语料分享请求，将用户对应的语料库进行分享。

在一示例中，例如，构建一个以用户a所在公司中各个产品的名称为语料的语料库，可以根据用户的语料分享请求可以将该语料库在该用户a所在公司内部进行分享，则该公司的相关工作人员可以将该语料库下载至各自的终端设备中，在进行语音识别时，可通过该语料库直接进行识别，提高语音识别准确性和识别效率。

基于与图1所示的语音识别方法相同的原理，本发明的可选实施例中还提供了一种语音识别装置20，如图2所示，本发明实施例提供的装置可以包括：

语音信息获取模块210，用于获取用户的第一语音信息；

语料库确定模块220，用于确定与用户对应的语料库；

语音识别模块230，用于基于与用户对应的语料库，对第一语音信息进行识别，得到第一语音识别结果。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的装置还可以包括：

第一语音处理模块，用于根据第一语音识别结果，进行相应的处理。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的装置还可以包括：

语料配置请求获取模块，用于获取用户的语料配置请求，语料配置请求中包括语料添加请求和语料更改请求和语料删除请求中的至少一项；

语料更新模块，用于在语料配置请求包括语料添加请求时，根据语料添加请求，将待添加语料添加到用户对应的语料库中，语料添加请求中包括待添加语料，在语料配置请求包括语料更改请求或语料删除请求时，根据语料更改请求或语料删除请求，对用户对应的语料库中的语料进行更改或删除。

本发明的可选实施例中，在上述实施例的基础上，语料添加请求中还包括待添加语料所属领域，语料更新模块在将待添加语料添加到用户对应的语料库中时，具体用于：

根据待添加语料所属领域，将待添加语料添加到用户的与待添加语料所属领域相对应的语料库中。

本发明的可选实施例中，在上述实施例的基础上，语料库确定模块220具体用于：

在与用户对应的语料库中包括至少两个不同领域所对应的语料库时，基于至少两个不同领域所对应的语料库，对第一语音信息进行识别，当识别出与至少两个不同领域所对应的语料库中的任一语料库相匹配的目标关键词时，将任一语料库确定为与用户对应的语料库。

本发明的可选实施例中，在上述实施例的基础上，语音识别模块230具体用于：

基于任一语料库，对第一语音信息中除已识别语音信息之外的信息进行识别，得到第二语音识别结果，已识别语音信息包括目标关键词；

根据第二语音识别结果和已识别语音信息，得到第一语音识别结果。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的装置还可以包括：

通用语音识别模块，用于在基于与所述用户对应的语料库，对第一语音信息进行识别时，若识别失败，根据预配置的通用语料库对第一语音信息进行识别，得到第三语音识别结果。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的装置还可以包括：

第二语音处理模块，用于根据第三语音识别结果，进行相应的处理。

本发明的可选实施例中，在上述实施例的基础上，本发明实施例提供的装置还可以包括：

语料共享模块，用于获取用户的语料分享请求，根据语料分享请求，将用户对应的语料库进行分享。

可以理解的是，由于本实施例所介绍的语音识别装置为可以执行本发明的可选实施例中的语音识别方法的装置，故而基于本发明的可选实施例中所介绍的语音识别方法，本领域所属技术人员能够了解本实施例的语音识别装置的具体实施方式以及其各种变化形式，所以在此对于该语音识别装置如何实现本发明的可选实施例中的语音识别方法不再详细介绍。只要本领域所属技术人员实施本发明的可选实施例中语音识别方法所采用的装置，都属于本发明所欲保护的范围。

本发明实施例提供了一种电子设备，如图3所示，该电子设备可以包括：至少一个处理器(processor)31；以及与处理器31连接的至少一个存储器(memory)32、总线33；其中，

处理器31、存储器32通过总线33完成相互间的通信；

处理器31用于调用存储器32中的程序指令，以执行上述任一方法实施例中的步骤。

本实施例提供一种计算机可读存储介质，计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述任一方法实施例所提供的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶顺平;邹明;王向鸣
技术所有人：出门问问信息科技有限公司
我是此专利的发明人

上一篇：基于稀疏自编码器的m序列识别方法与流程
上一篇：一种多层式智能化生物育苗系统的制作方法