语音会话方法、语音识别系统及计算机存储介质与流程

文档序号：20450810发布日期：2020-04-17 23:04阅读：176来源：国知局

本申请实施例涉及语音交互技术领域，具体涉及一种语音会话方法、语音识别系统及计算机存储介质。

背景技术：

随着语音识别技术的快速发展，各种支持语音识别功能的智能设备已经逐渐深入到用户工作生活的各个角落，例如智能车载设备、智能音箱等等，智能音箱通过语音识别功能可以为用户提供音乐播放、问题解答、天气或航班信息查询和外拨电话等智能服务。智能音箱可以使用自身的麦克风阵列来采集环境中的人的语音数据。

语音识别系统是一种可以对智能音箱采集到的语音数据进行识别的语音信息处理系统。智能音箱可以接入无线网络，并与语音识别系统建立连接，将采集到的会话发起方的语音数据发送至语音识别系统。语音识别系统识别语音数据，并在识别出会话发起方所要进行语音会话的会话接收方后，创建双方的语音会话。

但是，语音识别系统只能允许一个会话发起方通过智能音箱与一个会话接收方进行语音会话，也就是“一对一”的语音会话场景。当语音会话需要多个会话接收方参与时，例如企业的会议需要多个会话接收方参与，此时，语音识别系统显然无法满足需求。

技术实现要素：

本申请实施例提供了一种语音会话方法、语音识别系统及计算机存储介质，用于建立“一对多”的语音会话场景。

本申请实施例第一方面提供了一种语音会话方法，包括：

接收会话发起方发出的语音数据，所述语音数据的词槽信息包括语音会话的会话接收方的身份信息；

识别所述语音数据，以确定所述会话接收方的身份信息；

在注册信息库中查找所述身份信息对应的目标注册信息，则所述目标注册信息对应所述会话接收方；

创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。

优选的，所述接收会话发起方发出的语音数据，包括：

接收智能设备发送的语音数据，所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。

优选的，所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话，包括：

创建所述会话发起方与所述会话接收方的语音会话的信道；

获取所述语音会话的信道的标识信息；

向所述智能设备以及所述会话接收方的终端发送所述标识信息，以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。

优选的，所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后，所述方法还包括：

生成提示语音，所述提示语音用于向所述会话发起方提示语音会话成功创建；

向所述智能设备发送所述提示语音，以使所述智能设备播放所述提示语音。

优选的，所述创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话之后，所述方法还包括：

接收所述会话发起方或者所述会话接收方发送的音频数据；

向所述会话接收方或者所述会话发起方转发所述音频数据。

本申请实施例第二方面提供了一种语音识别系统，包括：

设备交互单元，用于接收会话发起方发出的语音数据，所述语音数据的词槽信息包括语音会话的会话接收方的身份信息；

识别单元，用于识别所述语音数据，以确定所述会话接收方的身份信息；

人员管理单元，用于在注册信息库中查找所述身份信息对应的目标注册信息，则所述目标注册信息对应所述会话接收方；

创建单元，用于创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。

优选的，所述设备交互单元具体用于接收智能设备发送的语音数据，所述语音数据为所述会话发起方发出并由所述智能设备采集的语音数据。

优选的，所述创建单元具体用于创建所述会话发起方与所述会话接收方的语音会话的信道，获取所述语音会话的信道的标识信息，向所述智能设备以及所述会话接收方的终端发送所述标识信息，以使所述智能设备以及所述会话接收方的终端根据所述标识信息连接所述语音会话的信道。

优选的，所述语音识别系统还包括：

生成单元，用于生成提示语音，所述提示语音用于向所述会话发起方提示语音会话成功创建；

发送单元，用于向所述智能设备发送所述提示语音，以使所述智能设备播放所述提示语音。

优选的，所述设备交互单元还用于接收所述会话发起方或者所述会话接收方发送的音频数据；

所述语音识别系统还包括：

转发单元，用于向所述会话接收方或者所述会话发起方转发所述音频数据。

本申请实施例第三方面提供了一种语音识别系统，包括：

处理器、存储器、总线、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

所述总线分别连接所述处理器、存储器以及输入输出设备；

所述输入输出设备用于接收会话发起方发出的语音数据，所述语音数据的词槽信息包括语音会话的会话接收方的身份信息；

所述处理器用于识别所述语音数据，以确定所述会话接收方的身份信息，在注册信息库中查找所述身份信息对应的目标注册信息，则所述目标注册信息对应所述会话接收方，创建与所述目标注册信息对应的所述会话接收方和所述会话发起方的语音会话。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

语音识别系统接收会话发起方发出的语音数据，语音数据中的词槽信息包括语音会话的会话接收方的身份信息，语音识别系统识别语音数据以确定会话接收方的身份信息，并在注册信息库中查找身份信息对应的目标注册信息，进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中，会话发起方可以发起与多个会话接收方的语音会话，也就是“一对多”的语音会话场景，满足企业的多方会议的要求。

附图说明

图1为本申请实施例中网络架构示意图；

图2为本申请实施例中语音会话方法一个流程示意图；

图3为本申请实施例中语音会话方法另一流程示意图；

图4为本申请实施例中语音识别系统一个结构示意图；

图5为本申请实施例中语音识别系统另一结构示意图；

图6为本申请实施例中语音识别系统另一结构示意图。

具体实施方式

本申请实施例提供了一种语音会话方法、语音识别系统及计算机存储介质，用于建立“一对多”的语音会话场景。

请参阅图1，本申请实施例中网络架构包括：

语音采集智能终端101，语音识别系统102，终端103，网络104。

本申请实施例可应用于如图1所示的网络架构，该网络架构中，语音采集智能终端101具备无线连接模块、麦克风阵列、扬声器，其中，无线连接模块包括但不限于蓝牙模块、wifi模块，无线连接模块可用于连接语音识别系统102以实现数据的传输。麦克风阵列用于时刻监听周围环境并采集环境中人的语音数据。

本申请实施例的网络架构中，语音采集智能终端101通过无线连接模块与语音识别系统102建立连接，在语音会话的过程中，语音采集智能终端101可以使用加密的超文本传输协议2.0(http2.0)与语音识别系统102进行音频数据或者指令等数据的传输。语音采集智能终端101与语音识别系统102之间的语音交互可以基于亚马逊公司的alexa语音服务(alexavoiceservice)，具体的语音交互程序不作限定，例如还可以是百度公司的对话式人工智能系统dueros或者是苹果公司的语音识别接口siri等。

语音采集智能终端101还可以包括噪音消除(ns，noisesuppression)模块，由于音箱的麦克风阵列一直处于监听状态，因此麦克风阵列采集到的语音数据难免会掺杂有周围环境的噪声，噪音消除模块能有效消除采样后音频流里的环境噪音，提升后续关键字识别和语音识别的精确度。

此外，语音采集智能终端101还可以包括关键词识别(kw，keywordspotting)模块，关键词识别模块用于唤醒并激活音箱，使其从普通音频监听状态进入语音指令识别状态。在本申请实施例中，可以采用离线的关键词识别，并可以采用中文文本对语音采集智能终端101进行训练，从而可以中文关键词唤醒语音采集智能终端101，例如可以采用关键词“你好小云”来唤醒语音采集智能终端101。

语音采集智能终端101还可用于采集用户进行语音会话时发出的语音数据，因此，语音采集智能终端101还可以包括静音检测器(vad，voiceactivitydetector)，可用于检测语音会话是否结束。当语音会话结束之后，vad检测到静音，此时vad可以终止向语音识别系统102上传语音会话的音频数据。

本申请实施例中，用户可以基于上述的网络架构发起语音会话，发起语音会话的用户可以被称为会话发起方，响应语音会话发起的用户可以被称为会话接收方。本申请实施例的网络架构中，语音采集智能终端101和终端103可以采集语音会话双方的会话语音数据，语音识别系统102可以通过网络104向语音会话双方转发会话语音数据。

其中，网络104一般为无线网络，也可以是有线网络，如果是无线网络，其类型可以为蜂窝状无线网络，或者是wifi网络，或者是其他类型的无线网络。如果是有线网络，一般的网络形式为光纤网络。终端103具体可以是计算机、个人数字助理(personaldigitalassitant，pda)、平板电脑、智能手机等。

本申请实施例中，只要是具有可以采集语音数据的麦克风阵列、无线连接模块以及扬声器的智能终端即可作为本申请实施例的网络架构的语音采集智能终端101，语音采集智能终端101的具体形式不作限定，例如可以是智能音箱。当语音采集智能终端101是智能音箱时，智能音箱上的蓝牙模块可用于绑定用户的终端以实现用户对智能音箱的控制。

需要说明的是，语音采集智能终端101在图示中以智能音箱的图案指代，但是语音采集智能终端101并不仅仅可以是智能音箱，还可以是智能手机，由于智能手机集成了智能音箱的功能和人机交互功能，因此，智能手机也可以用于本申请实施例的语音会话发起以及会话语音的交互，同时，用户也可以直接通过智能手机进行语音会话，而不需要智能音箱的参与，省去了用户终端绑定智能音箱的操作。

下面结合图1的网络架构，对本申请实施例中的语音会话方法进行描述：

请参阅图2，本申请实施例中语音会话方法一个实施例包括：

201、接收会话发起方发出的语音数据；

会话发起方需要与一个或多个会话接收方进行语音会话时，会话发起方向语音采集智能终端发出语音指令，语音指令中包含语音数据，该语音数据的意图是进行语音会话。语音采集智能终端可以采集该语音数据，并向语音识别系统发送该语音数据。语音识别系统接收该语音数据。

其中，语音数据包括词槽信息，词槽信息包括会话接收方的身份信息。例如，会话发起方向语音采集智能终端发出“邀请一个或多个会话接收方参与会话”的指令，此时，会话发起方发出的语音数据中的词槽信息即为会话发起方所要进行语音会话的所有对象的信息，词槽信息可以包括会话接收方的身份信息。其中，身份信息可以是会话接收方的真实姓名、昵称或者企业工号，只要是能够识别会话接收方身份的信息即可，具体此处不做限定。

本实施例中，语音采集智能终端可以是智能设备，具体的智能设备可以是智能音箱或者智能手机，只要是具有可以采集语音数据的麦克风阵列、无线连接模块以及扬声器的智能设备即可，具体此处不作限定。

202、识别语音数据，以确定会话接收方的身份信息；

语音识别系统接收到语音数据之后，对语音数据进行识别以确定会话接收方的身份信息。本实施例中，语音识别系统基于自然语言处理(naturallanguageprocessing，nlp)等人工智能技术来识别以及理解会话发起方发出的语音数据，例如可以通过深度学习算法如bp神经网络算法、深度卷积神经网络算法对语音识别系统训练多个中文文本数据，从而使语音识别系统可以识别会话发起方发出的中文语音数据。

203、在注册信息库中查找身份信息对应的目标注册信息；

本实施例中，用户可以在语音识别系统上注册成为系统用户，语音识别系统形成用户的注册信息，多个用户的注册信息形成注册信息库。其中注册信息为用户在系统上的识别信息，例如可以是注册账号、注册账号所绑定的邮箱或个人社交网络账号、注册账号的网络昵称等识别信息。

此外，语音识别系统可以将用户的注册信息与用户的身份信息建立关联关系。例如，语音识别系统可以将用户的注册账号与用户的真实姓名关联起来，或者将用户的注册账号的网络昵称与用户在现实生活中的昵称关联起来。这样一来，语音识别系统便可以根据接收到的语音数据中包括的身份信息来获取与身份信息对应的注册信息。

语音识别系统在确定会话接收方的身份信息之后，可以在注册信息库中的大量注册信息中查找与会话接收方的身份信息对应的目标注册信息，如果获取到目标注册信息，说明会话接收方已注册成为系统用户，因此可以创建会话接收方与会话发起方的语音会话。

204、创建与目标注册信息对应的会话接收方和会话发起方的语音会话；

在确定了目标注册信息对应的会话接收方之后，语音识别系统创建会话接收方与会话发起方的语音会话。

本实施例中，语音识别系统接收会话发起方发出的语音数据，语音数据中的词槽信息包括语音会话的会话接收方的身份信息，语音识别系统识别语音数据以确定会话接收方的身份信息，并在注册信息库中查找身份信息对应的目标注册信息，进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中，会话发起方可以发起与多个会话接收方的语音会话，也就是“一对多”的语音会话场景，满足企业的多方会议的要求。

语音识别系统在创建了语音会话之后，语音会话双方即可进行语音会话。在创建了语音会话之后，语音识别系统还将执行一系列操作。接下来将对语音识别系统创建语音会话之后所执行的操作进行详细地描述。具体请参阅图3，本申请实施例中语音会话方法另一实施例包括：

301、接收会话发起方发出的语音数据；

302、识别语音数据，以确定会话接收方的身份信息；

303、在注册信息库中查找身份信息对应的目标注册信息；

步骤301至303所执行的操作与前述图2所示实施例中的步骤201至203所执行的操作类似，此处不再赘述。

304、创建与目标注册信息对应的会话接收方和会话发起方的语音会话；

在确定了目标注册信息对应的会话接收方之后，语音识别系统创建会话发起方与会话接收方的语音会话的信道，并获取语音会话的信道的标识信息。语音识别系统向会话发起方的智能设备发送加入语音会话的信道的指令，指令中携带有信道的标识信息，智能设备响应该指令并连接语音会话的信道。

此外，语音识别系统还可以向会话接收方的终端发送加入语音会话的提示，提示中携带了信道的标识信息，会话接收方可以通过终端确认是否加入语音会话。例如，会话接收方已在系统上注册并成为系统用户，当会话接收方在智能手机上登陆注册账号时，语音识别系统可以向会话接收方的智能手机发送加入语音会话的信道的提示，提示中携带了信道的标识信息，则会话接收方可以通过智能手机确认是否加入语音会话，并在加入语音会话之后使用智能手机进行语音交流。

305、生成提示语音；

在会话发起方的智能设备连接到语音会话的信道以及会话接收方确认加入语音会话之后，语音识别系统生成提示文字语句，提示文字语句的内容可以表示为语音会话已成功创建。语音识别系统将该提示文字语句合成为提示语音，则提示语音可以用于提示语音会话已成功创建。

306、向智能设备发送提示语音；

在合成提示语音之后，语音识别系统向会话发起方的智能设备发送该提示语音。会话发起方的智能设备接收到提示语音之后，播放提示语音，提示会话发起方语音会话已成功创建，会话发起方可以和会话接收方进行语音会话。

307、接收会话发起方或者会话接收方发送的音频数据；

在语音识别系统创建语音会话之后，会话发起方和会话接收方即可以进行语音会话。在语音会话过程中，会话双方发出的语音分别被各自的终端采集并生成音频数据。本实施例中，会话发起方的智能设备采集会话发起方发出的语音并生成音频数据，会话接收方的终端采集会话接收方的语音并生成音频数据，会话发起方的智能设备和会话接收方的终端将各自生成的音频数据发送至语音识别系统，语音识别系统分别接收会话发起方或者会话接收方发送的音频数据。

308、向会话接收方或者会话发起方转发音频数据；

语音识别系统接收到会话发起方发送的音频数据之后，若会话接收方有多个，则语音识别系统将音频数据进行复制并将每一份音频数据的拷贝转发至每一个会话接收方的终端上，会话接收方的终端对音频数据进行解析后播放语音。同理，语音识别系统在接收到会话接收方发送的音频数据之后，将音频数据进行复制并将音频数据的拷贝转发至其他会话接收方的终端以及会话发起方的智能设备上，音频数据进行解析之后播放音频数据中的语音。

本实施例中，语音识别系统在成功创建语音会话之后，向会话发起方发送成功创建语音会话的提示语音，便于会话发起方获知语音会话的创建进度。

上面对本申请实施例中的语音会话方法进行了描述，下面对本申请实施例中的语音识别系统进行描述，请参阅图4，本申请实施例中语音识别系统一个实施例包括：

设备交互单元401，用于接收会话发起方发出的语音数据，语音数据的词槽信息包括语音会话的会话接收方的身份信息；

识别单元402，用于识别语音数据，以确定会话接收方的身份信息；

人员管理单元403，用于在注册信息库中查找身份信息对应的目标注册信息，则目标注册信息对应会话接收方；

创建单元404，用于创建与目标注册信息对应的会话接收方和会话发起方的语音会话。

本实施例中，语音识别系统中各单元所执行的操作与前述图2所示实施例中描述的类似，此处不再赘述。

本实施例中，设备交互单元401接收会话发起方发出的语音数据，语音数据中的词槽信息包括语音会话的会话接收方的身份信息，识别单元402识别语音数据以确定会话接收方的身份信息，人员管理单元403在注册信息库中查找身份信息对应的目标注册信息，创建单元404进而创建与目标注册信息对应的会话接收方和会话发起方的语音会话。本申请实施例中，会话发起方可以发起与多个会话接收方的语音会话，也就是“一对多”的语音会话场景，满足企业的多方会议的要求。。

请参阅图5，本申请实施例中语音识别系统一个实施例包括：

设备交互单元501，用于接收会话发起方发出的语音数据，语音数据的词槽信息包括语音会话的会话接收方的身份信息；

识别单元502，用于识别语音数据，以确定会话接收方的身份信息；

人员管理单元503，用于在注册信息库中查找身份信息对应的目标注册信息，则目标注册信息对应会话接收方；

创建单元504，用于创建与目标注册信息对应的会话接收方和会话发起方的语音会话。

本实施例中，设备交互单元501具体用于接收智能设备发送的语音数据，语音数据为会话发起方发出的并由智能设备采集的语音数据。

创建单元504具体用于创建会话发起方与会话接收方的语音会话的信道，获取语音会话的信道的标识信息，向智能设备以及会话接收方的终端发送标识信息，以使智能设备以及会话接收方的终端根据标识信息连接语音会话的信道。

本实施例中，语音识别系统还包括：

生成单元505，用于生成提示语音，提示语音用于向会话发起方提示语音会话成功创建；

发送单元506，用于向智能设备发送提示语音，以使智能设备播放提示语音。

本实施例中，设备交互单元501还用于接收会话发起方或者会话接收方发送的音频数据；

语音识别系统还包括：

转发单元507，用于向会话接收方或者会话发起方转发音频数据。

本实施例中，创建单元504在创建了语音会话之后，语音会话双方即可进行语音会话。在创建了语音会话之后，语音识别系统中各单元还将执行一系列操作。创建单元504创建语音会话之后各单元所执行的操作与前述图3所示实施例中描述的类似，此处不再赘述。

下面对本申请实施例中的语音识别系统进行描述，请参阅图6，本申请实施例中语音识别系统一个实施例包括：

该语音识别系统600可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)601和存储器605，该存储器605中存储有一个或一个以上的应用程序或数据。

其中，存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块，每个模块可以包括对语音识别系统中的一系列指令操作。更进一步地，中央处理器601可以设置为与存储器605通信，在语音识别系统600上执行存储器605中的一系列指令操作。

语音识别系统600还可以包括一个或一个以上电源602，一个或一个以上有线或无线网络接口603，一个或一个以上输入输出接口604，和/或，一个或一个以上操作系统，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等。

该中央处理器601可以执行前述图2至图3所示实施例中语音识别系统所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图2至图3所示实施例中语音识别系统所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李永耀
技术所有人：深圳云之家网络有限公司
我是此专利的发明人

上一篇：非易失性存储器上的直接映射的缓冲区高速缓存的制作方法
上一篇：一种用于深孔加工的末端执行器的制作方法