一种语音识别的方法和装置与流程

文档序号：25528004发布日期：2021-06-18 20:18阅读：85来源：国知局

本申请涉及语音识别
技术领域：
，特别涉及一种语音识别的方法和装置。
背景技术：
：语音识别技术在人们的日常生活中被广泛应用，例如，通过语音识别将音频数据转换为文字数据。相关技术中，一般终端可以向服务器发送语音识别请求，服务器调用通用领域语音识别模型，对语音识别请求中携带的语音数据进行识别，并将识别结果返回给终端。此处的通用领域语音识别模型通常为机器学习模型，那么，在使用该通用领域语音识别模型之前，是需要对其进行训练的。例如，对于用来将音频数据转换为文字数据的通用领域语音识别模型来说，在使用该通用领域语音识别模型之前，技术人员会使用大量常用的语音数据、文字数据作为样本，进行训练。经过训练的通用领域语音识别模型，可以较为准确的识别出一些常用语音数据，例如，“你好”、“你是谁”等等。在实现本申请的过程中，发明人发现相关技术至少存在以下问题：上述相关技术中，由于通用领域语音识别模型在训练时，样本都是一些常用语音数据和文字数据，那么，对于一些专业性较强的语音数据，例如，医学用语、通信术语等等，使用通用领域语音识别模型来进行识别，识别准确率较低。技术实现要素：本申请实施例提供了一种语音识别的方法,能够解决语音识别准确率低的问题。所述技术方案如下：第一方面，提供了一种语音识别的方法，所述方法包括：接收终端发送的语音识别请求，其中，所述语音识别请求中携带有待识别语音数据和对应的第一领域标识；基于所述第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型；基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；向所述终端发送所述结果文本数据。可选的，所述基于所述第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型，包括：如果在预先存储的领域标识和领域语音识别模型的对应关系中，存在所述第一领域标识对应的第一领域语音识别模型，则将所述第一领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型。可选的，所述语音识别请求中携带有所述终端的设备标识，所述方法还包括：确定所述语音识别请求的第一接收时间；所述将所述第一领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型之后，还包括：如果存储有所述终端的设备标识、第二领域标识和第二接收时间的对应关系，则将所述第二领域标识更新为所述第一领域标识，将所述第二接收时间更新为所述第一接收时间；如果没有存储所述终端的设备标识、所述第二领域标识和所述第二接收时间的对应关系，则将所述设备标识、所述第一领域标识和所述第一接收时间对应存储。可选的，所述语音识别请求中携带有所述终端的设备标识，所述方法还包括：确定所述语音识别请求的第一接收时间；所述基于所述第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型，包括：如果在预先存储的领域标识和领域语音识别模型的对应关系中，不存在所述第一领域标识对应的领域语音识别模型，则确定是否存储有所述第一接收时间之前预设时长内所述终端的设备标识对应的第二接收时间；如果存在所述第二接收时间，则确定所述第二接收时间对应的第二领域标识，基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第二领域标识对应的第二领域语音识别模型，将所述第二领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型，将存储的所述终端的设备标识对应的第二接收时间，更新为所述第一接收时间。可选的，所述方法还包括：如果不存在所述第二接收时间，则将所述待识别语音数据输入通用领域语音识别模型，得到候选文本数据；将所述候选文本数据输入领域识别模型，得到所述候选文本数据对应的第三领域标识和所述候选文本数据属于所述第三领域标识对应领域的置信度；如果所述置信度大于预设阈值，则将基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第三领域标识对应的第三领域语音识别模型，将所述第三领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述方法还包括：如果所述置信度小于预设阈值，则将所述通用领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述方法还包括：将所述结果文本数据和所述结果文本数据对应的待识别语音数据，作为一组训练样本；将所述训练样本和所述第三领域标识对应存储；当所述第三领域标识对应的训练样本达到预设组数，根据存储的所述第三领域标识对应的训练样本，对所述第三领域标识对应的第三领域语音模型进行训练。第二方面，提供了一种语音识别的方法，所述方法包括:获取待识别语音数据；确定所述待识别语音数据所属的目标领域标识；向服务器发送语音识别请求，其中，所述语音识别请求中携带有所述待识别语音数据和所述目标领域标识，所述语音识别请求用于指示所述服务器基于所述目标领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型，将基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；接收所述服务器发送的所述结果文本数据。可选的，所述确定所述待识别语音数据对应的目标领域标识，包括：接收用户输入的领域选择指令；将所述领域选择指令对应的领域标识，确定为所述待识别语音数据所属的第一领域标识。可选的，所述确定所述待识别语音数据对应的目标领域标识，包括：将预设领域识别标识，确定为所述待识别语音数据所属的第一领域标识。第三方面，提供了一种语音识别的装置，所述装置包括：接收模块，用于接收终端发送的语音识别请求，其中，所述语音识别请求中携带有待识别语音数据和对应的第一领域标识；确定模块，用于基于所述第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型；识别模块，用于基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；发送模块，用于向所述终端发送所述结果文本数据。可选的，所述确定模块，用于：如果在预先存储的领域标识和领域语音识别模型的对应关系中，存在所述第一领域标识对应的第一领域语音识别模型，则将所述第一领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型。可选的，所述语音识别请求中携带有所述终端的设备标识，所述接收模块，还用于：确定所述语音识别请求的第一接收时间；所述装置还包括：存储模块，用于如果存储有所述终端的设备标识、第二领域标识和第二接收时间的对应关系，则将所述第二领域标识更新为所述第一领域标识，将所述第二接收时间更新为所述第一接收时间；如果没有存储所述终端的设备标识、所述第二领域标识和所述第二接收时间的对应关系，则将所述设备标识、所述第一领域标识和所述第一接收时间对应存储。可选的，所述语音识别请求中携带有所述终端的设备标识，所述接收模块，还用于：确定所述语音识别请求的第一接收时间；所述确定模块，用于：如果在预先存储的领域标识和领域语音识别模型的对应关系中，不存在所述第一领域标识对应的领域语音识别模型，则确定是否存储有所述第一接收时间之前预设时长内所述终端的设备标识对应的第二接收时间；如果存在所述第二接收时间，则确定所述第二接收时间对应的第二领域标识，基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第二领域标识对应的第二领域语音识别模型，将所述第二领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型，将存储的所述终端的设备标识对应的第二接收时间，更新为所述第一接收时间。可选的，所述确定模块还用于：如果不存在所述第二接收时间，则将所述待识别语音数据输入通用领域语音识别模型，得到候选文本数据；将所述候选文本数据输入领域识别模型，得到所述候选文本数据对应的第三领域标识和所述候选文本数据属于所述第三领域标识对应领域的置信度；如果所述置信度大于预设阈值，则将基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第三领域标识对应的第三领域语音识别模型，将所述第三领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述确定模块还用于：如果所述置信度小于预设阈值，则将所述通用领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述装置还包括：训练模块，用于将所述结果文本数据和所述结果文本数据对应的待识别语音数据，作为一组训练样本；将所述训练样本和所述第三领域标识对应存储；当所述第三领域标识对应的训练样本达到预设组数，根据存储的所述第三领域标识对应的训练样本，对所述第三领域标识对应的第三领域语音模型进行训练。第四方面，提供了一种语音识别的装置，所述装置包括：获取模块，用于获取待识别语音数据；确定模块，用于确定所述待识别语音数据所属的目标领域标识；发送模块，用于向服务器发送语音识别请求，其中，所述语音识别请求中携带有所述待识别语音数据和所述目标领域标识，所述语音识别请求用于指示所述服务器基于所述目标领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型，基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；接收模块，用于接收所述服务器发送的所述结果文本数据。可选的，所述确定模块，用于：接收用户输入的领域选择指令；将所述领域选择指令对应的领域标识，确定为所述待识别语音数据所属的第一领域标识。可选的，所述确定模块，用于：将预设领域识别标识，确定为所述待识别语音数据所属的第一领域标识。第五方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的语音识别的方法。第六方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第二方面所述的语音识别的方法。第七方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述第一方面以及第二方面所述的语音识别的方法。本申请实施例提供的技术方案带来的有益效果是：在服务器侧存储有领域标识和领域语音识别模型的对应关系，可根据语音识别请求中的待识别语音对应的领域标识，来确定出用于识别待识别语音的领域语音识别模型。这样，语音识别可以更有针对性，对于属于不同领域的语音采用相应的领域语音识别模型来进行识别，识别结果可以更加准确。附图说明为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种语音识别的方法流程图；图2是本申请实施例提供的一种语音识别的方法流程图；图3是本申请实施例提供的一种语音识别的方法流程图；图4是本申请实施例提供的一种语音识别的装置结构示意图；图5是本申请实施例提供的一种语音识别的装置结构示意图；图6是本申请实施例提供的终端的结构示意图；图7是本申请实施例提供的服务器的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。本申请实施例提供了一种语音识别的方法，该方法可以由服务器和终端共同实现。其中，终端可以手机、笔记本电脑、平板电脑等设备。在本申请实施例的一种示例性实施环境中，终端可以具有语音采集功能，用户可以通过说话的方式，向终端输入待识别的语音数据，终端将该识别的语音数据发送给服务器，由服务器通过语音识别模型对待识别的语音数据进行识别，得到识别结果并返回给终端。图1是本申请实施例提供的一种语音识别的方法的流程图，该方法可以由服务器实现。参见图1，该实施例的步骤包括：步骤101、接收终端发送的语音识别请求。其中，语音识别请求中携带有待识别语音数据和对应的第一领域标识。步骤102、基于第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别待识别语音数据的领域语音识别模型。步骤103、基于所述用于识别待识别语音数据的领域语音识别模型，确定待识别语音数据对应的结果文本数据。步骤104、向终端发送结果文本数据。图2是本申请实施例提供的一种语音识别的方法的流程图，该方法可以由终端实现。参见图2，该实施例的步骤包括：步骤201、获取待识别语音数据；步骤202、确定所述待识别语音数据所属的目标领域标识；步骤203、向服务器发送所述语音识别请求。其中，语音识别请求中携带有待识别语音数据和所述目标领域标识，语音识别请求用于指示服务器基于目标领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别待识别语音数据的领域语音识别模型，将待识别语音数据，基于所述用于识别待识别语音数据的领域语音识别模型，确定待识别语音数据对应的结果文本数据。步骤204、接收服务器发送的结果文本数据。图3是本申请实施例提供的一种语音识别的方法的流程图，该方法可以由服务器和终端共同实现。参见图3，该实施例的步骤包括：步骤301、终端获取待识别语音数据。在实施中，终端可以获取待识别的语音数据，具体获取方式可以有多种。例如，该终端中可以具有语音采集功能，该语音采集功能可以由语音采集装置实现，用户通过说话的方式向终端输入语音数据。又例如，用户还可以通过一些外接语音采集设备，采集语音数据，通过数据传输的方式将语音数据传输到该终端中。再例如，用户可以在终端中通过互联网等途径下载到语音数据。以下对用户通过说话的方式向终端输入语音数据进行说明。终端可以给用户提供可操作界面，用户可以通过在该可操作界面中包括有语音获取选项。用户可以长按该语音获取选项，终端可以以语音或者文字的形式提示用户输入语音，用户即可说出想要进行语音识别的话，即为待识别语音数据，用户停止长按操作后，终端即停止获取待识别语音数据。例如，用户长按语音获取选项并说出“你好”，那么，终端则将“你好”作为待识别语音数据进行获取。步骤302、终端确定待识别语音数据所属的第一领域标识。其中，领域标识用于表示语音数据所属的领域，如医学领域、饮食领域、通信
技术领域：
等，领域标识以二进制数表示，如0001表示医学领域、0002表示饮食领域。在实施中，用户还可以为待识别语音数据选择所属的领域，终端则可以根据待识别语音数据选择所属的领域，确定出相应的领域标识。在一种可能的实现方式中，用户可以指定待识别语音数据的领域，相应的，在步骤302中的的处理可以如下：终端接收用户输入的领域选择指令，将领域选择指令对应的领域标识，确定为待识别语音数据所属的目标领域标识。在实施中，终端在给用户提供的可操作界面中可以包括有领域选择选项，用户选择领域选择选项后，可以弹出医学领域、饮食领域、通信
技术领域：
、通用等子选项。用户选择其中一个子选项，即用户向终端输入领域选择指令，则表示此次的待识别语音数据属于相应子选项表示的领域。终端还可以存储有领域和领域标识的对应关系，例如表1所示。表1领域领域标识医学0001饮食0002通信技术0003通用0004……终端接收到用户的输入的领域选择指令后，即可以根据上述对应关系表确定出对应的领域标识，该领域选择指令即为待识别语音数据所属的第一领域标识。在另一种可能的实现方式中，用户并未给待识别语音数据选择所属的领域，在步骤302中的处理可以如下：将预设领域识别标识，确定为待识别语音数据所属的第一领域标识。在实施中，如果用户并未给待识别语音数据选择所属的领域，那么，终端可以给该待识别领域分配预设领域标识。例如，预设领域标识可以为0000。步骤303、终端向服务器发送语音识别请求。其中，语音识别请求中携带有待识别语音数据和第一领域标识。在实施中，终端向服务器发送语音识别请求，该语音识别请求可以为根据预设的通信协议封装的报文，在该报文中包括有携带领域标识的字段。终端将上述确定出的第一领域标识写入该字段。服务器接收终端发送的该报文，并根据上述预设的通信协议封装对其解封装。获取其中的第一领域标识以及语音数据。步骤304、服务器基于第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别待识别语音数据的领域语音识别模型。其中，领域语音识别模型为用来识别特定领域的语音数据的模型，可以为机器学习模型，并通过特定领域的语音数据和对应的文字数据训练得到。在实施中，服务器可以存储有领域标识和领域语音识别模型的对应关系，例如表2所示。表2根据第一领域标识，在领域标识和领域语音识别模型的对应关系表中，可以查找出相应的领域语音识别模型，用来识别待识别语音数据。当然，也可能会出现语音识别请求中携带的领域标识，在上述对应关系表中并不存在。下面对于领域标识和语音识别模型的对应关系中是存在第一领域标识及对应的语音识别模型的情况，和不存在第一领域标识及对应的语音识别模型的情况，分别进行说明。情况一、领域标识和语音识别模型的对应关系中存在第一领域标识及对应的第一语音识别模型。此种情况出现的原因是，用户向输入了领域选择指令，即给待识别语音数据选择了所属的领域，那么，在语音识别请求中携带的第一领域标识，为根据用户选择所确定出的。而对于用户可选择的领域标识，在服务器都会存储有该领域标识和领域语音识别模型的对应关系。相应的处理可以如下：如果在预先存储的领域标识和领域语音识别模型的对应关系中，存在第一领域标识对应的第一领域语音识别模型，则可以直接将第一领域语音识别模型确定为用于识别待识别语音数据的领域语音识别模型。在一种可能的实现方式中，语音识别请求中还可以携带有发送该语音识别请求的终端的设备标识，并且服务器可以记录语音识别请求的接收时间。服务器还可以对该语音识别请求的相关信息进行记录，主要记录的相关信息可以包括有：发送该语音识别请求的终端的设备标识、该语音识别请求中携带的第一领域标识和该语音识别请求的接收时间技术人员可以在服务器的存储空间中建立一个缓冲池用于存放接收到的语音识别请求的相关信息。如下表3所示，为一种示例性的语音识别请求的相关信息存储形式。表3服务器可以在确定出用于识别待识别语音数据的领域语音识别模型后，记录本次的语音识别请求的相关信息，记录方法可以如下：服务器记录语音识别请求的第一接收时间，如果存储有该终端的设备标识、第二领域标识和第二接收时间的对应关系，则将第二领域标识更新为第一领域标识，将第二接收时间更新为第一接收时间；如果没有存储该终端的设备标识、第二领域标识和第二接收时间的对应关系，则将设备标识、第一领域标识和第一接收时间对应存储。其中，设备标识可以为终端的ip(internetprotocol，互联网协议)地址。在实施中，在设备标识、领域标识和接收时间的对应关系中，如果查询到与本次接收到的语音识别请求的相关信息中的设备标识和领域标识均相同的对应关系，则查询到的该条对应关系中的接收时间更新为本次接收到的语音识别请求的第一接收时间。如果未查询到，则将本次接收到的语音识别请求的相关信息直接写入设备标识、领域标识和接收时间的对应关系中。例如，服务器中已经记录的语音识别请求的相关信息如上表3所示，本次语音识别请求中携带的设备标识为设备标识1，领域标识为0001，接收时间为接收时间6。通过查询表3，可以查询到已经记录有一条设备标识1、领域标识0001和接收时间1的对应关系，那么，可以将该条对应关系中的接收时间由接收时间1更新为接收时间6。又例如，服务器中已经记录的语音识别请求的相关信息如上表3所示，本次语音识别请求中携带的设备标识为设备标识1，领域标识为0006，接收时间为接收时间8。通过查询表3，并未查询到设备标识1，领域标识为0006和接收时间的对应关系，那么，可以将设备标识1，领域标识0006和接收时间8对应存储在上述表3中。情况二、领域标识和语音识别模型的对应关系中不存在第一领域标识及对应的第一语音识别模型。此种情况出现的原因是，用户并未向终端输入领域选择指令，即并未给待识别语音数据选择所属的领域，那么，在语音识别请求中携带的第一领域标识，为终端分配的预设领域标识，而该预设领域标识在服务器并不会存储有对应的领域语音识别模型。则需要结合之前存储的语音识别请求相关的信息，确定该预设领域标识对应的领域语音识别模型。相应的处理可以如下：确定语音识别请求的第一接收时间，如果在预先存储的领域标识和领域语音识别模型的对应关系中，不存在第一领域标识对应的领域语音识别模型，则确定是否存储有第一接收时间之前预设时长内该终端的设备标识对应的第二接收时间；如果存在第二接收时间，则确定第二接收时间对应的第二领域标识，基于预先存储的领域标识和领域语音识别模型的对应关系，确定第二领域标识对应的第二领域语音识别模型，将第二领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型，将存储的终端的设备标识对应的第二接收时间，更新为第一接收时间。在实施中，如果没有查询到第一领域标识对应的领域语音识别模型，那么，可以通过查询存储的语音识别请求相关的信息中是否有该终端的设备标识，以此判断是否接收到过该终端发送的语音识别请求。如果没有查询到该终端的设备标识，则认为此前没有接收过该终端发送的语音直播请求。那么，可以先将待识别语音数据输入到通用领域识别模型，得到该待识别语音数对应的候选文本数据。然后，可以将后续文本数据输入到领域识别模型，领域识别模型可以输出第三领域标识，以及该候选文本数据属于该第三领域标识对应领域的置信度。如果该置信度大于预设阈值，则可以认为候选文本数据属于该第三领域。那么，可以将第三领域标识对应的第三领域语音识别模型作为用于识别待识别语音数据的领域语音识别模型。如果查询到该终端的设备标识，则判断存储的该设备标识、领域标识和接收时间的对应关系中，该终端标识对应的第二接收时间是否在第一接收时间之前的预设时长内。如果是，则根据该设备标识和第二接收时间对应的第二领域标识，以及领域标识和领域语音识别模型的对应关系，查询出第二领域标识对应的第二领域语音识别模型，该第二领域语音识别模型，确定为用于识别待识别语音数据的领域语音识别模型。在此情况下，服务器同样也可以对本次语音识别请求的相关信息进行记录。由于本次对待识别语音数据进行语音识别所使用的同样是第二领域标识对应的第二领域语音识别模型，则只需要将查询到的该设备标识、第二领域标识和接收时间的对应关系中的接收时间，更新为第一接收时间即可。在上述情况二下，如果没有查询到该终端的设备标识对应的第二接收时间，则可以进行如下处理：将待识别语音数据输入通用领域语音识别模型，得到候选文本数据。将候选文本数据输入领域识别模型，得到候选文本数据对应的第三领域标识和候选文本数据属于第三领域标识对应领域的置信度。如果置信度大于预设阈值，则将基于预先存储的领域标识和领域语音识别模型的对应关系，确定第三领域标识对应的第三领域语音识别模型，将第三领域语音识别模型确定为用于识别待识别语音数据的领域语音识别模型。其中，领域识别模型为用来识别文本数据所属领域的模型，该模型可以为通过大量文字数据和文字数据对应的领域标识作为样本进行训练得到的机器学习模型。步骤305、服务器基于用于识别待识别语音数据的领域语音识别模型，确定待识别语音数据对应的结果文本数据。其中，根据待识别语音数据的领域语音识别模型的功能不同，输出的文本数据也不同，可以为中文字符、英文字符、日文字符等等。在实施中，对于上述步骤304中将候选文本数据输入领域识别模型后，得到的置信度小于预设阈值的情况，可以将通用领域语音识别模型作为本次用于识别待识别语音数据的领域语音识别模型，那么，相应的，可以直接将候选文本数据确定为结果文本数据。而对于将第三领域语音识别模型确定为用于识别待识别语音数据的领域语音识别模型的情况，则在本步骤中可以将待识别语音数据，输入到该第三领域识别语音识别模型中，得到结果文本数据。在一种可能的实现方式中，对于上述在候选文本数据输入领域识别模型后，得到的置信度大于预设阈值的情况下，可以将步骤305中得到的结果文本数据和结果文本数据对应的待识别语音数据，作为一组训练样本。并且可以将训练样本和得到该训练样本中结果文本数据的领域语音识别模型对应的领域标识，对应存储。当任一领域标识对应的训练样本数目达到预设数目时，可以获取该领域标识对应的训练样本，对该领域标识对应的领域语音识别模型进行训练更新。那么，后续再次使用该领域标识对应的领域语音识别模型进行语音识别时，便可以使用该训练更新后的领域语音识别模型。步骤306、服务器向终端发送结果文本数据。在实施中，服务器将识别出的结果文本数据返回给终端，同时，还可以将识别待识别语音数据时，所使用的领域语音识别模型对应的领域标识也返回给终端，终端可以根据该领域标识显示给用户本次语音识别所属的领域。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。基于相同的技术构思，本申请实施例还提供了一种语音识别的装置，该装置应用于服务器，该装置包括：接收模块410，确定模块420、识别模块430和发送模块440。接收模块410，用于接收终端发送的语音识别请求，其中，所述语音识别请求中携带有待识别语音数据和对应的第一领域标识；确定模块420，用于基于所述第一领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型；识别模块430，用于基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；发送模块440，向所述终端发送所述结果文本数据。可选的，所述确定模块420，用于：如果在预先存储的领域标识和领域语音识别模型的对应关系中，存在所述第一领域标识对应的第一领域语音识别模型，则将所述第一领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型。可选的，所述语音识别请求中携带有所述终端的设备标识，所述接收模块410，还用于：确定所述语音识别请求的第一接收时间；所述装置还包括：存储模块，用于如果存储有所述终端的设备标识、第二领域标识和第二接收时间的对应关系，则将所述第二领域标识更新为所述第一领域标识，将所述第二接收时间更新为所述第一接收时间；如果没有存储所述终端的设备标识、所述第二领域标识和所述第二接收时间的对应关系，则将所述设备标识、所述第一领域标识和所述第一接收时间对应存储。可选的，所述语音识别请求中携带有所述终端的设备标识，所述接收模块410，还用于：确定所述语音识别请求的第一接收时间；所述确定模块420，用于：如果在预先存储的领域标识和领域语音识别模型的对应关系中，不存在所述第一领域标识对应的领域语音识别模型，则确定是否存储有所述第一接收时间之前预设时长内所述终端的设备标识对应的第二接收时间；如果存在所述第二接收时间，则确定所述第二接收时间对应的第二领域标识，基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第二领域标识对应的第二领域语音识别模型，将所述第二领域语音识别模型确定为用于识别所述待识别语音数据的领域语音识别模型，将存储的所述终端的设备标识对应的第二接收时间，更新为所述第一接收时间。可选的，所述确定模块420，还用于：如果不存在所述第二接收时间，则将所述待识别语音数据输入通用领域语音识别模型，得到候选文本数据；将所述候选文本数据输入领域识别模型，得到所述候选文本数据对应的第三领域标识和所述候选文本数据属于所述第三领域标识对应领域的置信度；如果所述置信度大于预设阈值，则将基于预先存储的领域标识和领域语音识别模型的对应关系，确定所述第三领域标识对应的第三领域语音识别模型，将所述第三领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述确定模块420，还用于：如果所述置信度小于预设阈值，则将所述通用领域语音识别模型确定为所述用于识别所述待识别语音数据的领域语音识别模型。可选的，所述装置还包括：训练模块，用于将所述结果文本数据和所述结果文本数据对应的待识别语音数据，作为一组训练样本；将所述训练样本和所述第三领域标识对应存储；当所述第三领域标识对应的训练样本达到预设组数，根据存储的所述第三领域标识对应的训练样本，对所述第三领域标识对应的第三领域语音模型进行训练。基于相同的技术构思，本申请实施例还提供了一种语音识别的装置，该装置应用于终端，该装置包括：获取模块510，确定模块520、发送模块530和接收模块540。获取模块510，用于获取待识别语音数据；确定模块520，用于确定所述待识别语音数据所属的目标领域标识；发送模块530，用于向服务器发送所述语音识别请求，其中，所述语音识别请求中携带有所述待识别语音数据和所述目标领域标识，所述语音识别请求用于指示所述服务器基于所述目标领域标识，以及预先存储的领域标识和领域语音识别模型的对应关系，确定用于识别所述待识别语音数据的领域语音识别模型，基于所述用于识别所述待识别语音数据的领域语音识别模型，确定所述待识别语音数据对应的结果文本数据；接收模块540，用于接收所述服务器发送的所述结果文本数据。可选的，所述确定模块520，用于：接收用户输入的领域选择指令；将所述领域选择指令对应的领域标识，确定为所述待识别语音数据所属的第一领域标识。可选的，所述确定模块520，用于：将预设领域识别标识，确定为所述待识别语音数据所属的第一领域标识。需要说明的是：上述实施例提供的语音识别的装置在语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别的装置与语音识别的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。通常，终端600包括有：处理器601和存储器602。处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的语音识别的方法。在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。外围设备接口603可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。射频电路604用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请对此不加以限定。显示屏605用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。定位组件608用于定位终端600的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件608可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3d动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商logo时，指纹传感器614可以与物理按键或厂商logo集成在一起。光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的语音识别的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中语音识别的方法。例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董勤波;陈展;周洪伟
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：地下室人防结构及施工方法与流程
上一篇：一种基于改性蒙脱石粉的复合粉体抑爆剂及其制备方法与流程