语音交互方法、装置和存储介质与流程

文档序号：17943225发布日期：2019-06-18 23:19阅读：253来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音交互技术领域，尤其涉及一种语音交互方法、装置和存储介质。

背景技术：

蓝牙(bluetooth)是一种无线技术标准，可实现固定设备、移动设备和楼宇个人域网之间的短距离数据交换；终端与蓝牙设备进行连接后，根据蓝牙设备的品类，可对蓝牙设备进行对应的操作；如蓝牙设备为蓝牙音箱时，终端可以通过蓝牙设备播放音乐。

现有技术中，终端与蓝牙设备之间的交互功能单一，不符合目前设备智能化的方向，用户体验差。

技术实现要素：

本发明提供一种语音交互方法、装置和存储介质，通过外设端进行收音，进而使得终端与服务器之间进行交互获取响应音频，丰富了外设端与终端的交互功能，提高了用户体验。

本发明的第一方面提供一种语音交互方法，应用于终端，包括：

接收外设端发送的开始收音消息，所述开始收音消息用于指示所述外设端处于唤醒状态，且开始收音；

接收所述外设端发送的第一音频，并将所述第一音频发送至服务器，以使所述服务器根据所述第一音频向所述终端返回响应音频；

接收所述服务器发送的所述响应音频，并播放所述响应音频；或者，

向所述外设端发送所述响应音频，以使所述外设端播放所述响应音频。

可选的，所述将所述第一音频发送至服务器之后，还包括：

接收所述服务器发送的停止发送消息，所述停止发送消息用于指示所述终端停止向所述服务器发送音频，所述停止发送消息是所述服务器在接收到所述第一音频之后的第一预设时长内，未接收到所述终端发送的第二音频时发送的；

向所述外设端发送所述停止收音消息，所述停止收音消息用于指示所述外设端停止收音。

可选的，所述接收所述服务器发送的所述响应音频之后，还包括：

若在第二预设时长内未接收到所述外设端发送的第二音频，则进入空闲状态，并向所述外设端发送空闲消息。

本发明的第二方面提供一种语音交互方法，应用于外设端，包括：

向终端发送开始收音消息，所述开始收音消息用于通知所述终端，所述外设端处于唤醒状态，且开始收音；

向所述终端发送第一音频，以使所述终端将所述第一音频发送至服务器，使得所述服务器根据所述第一音频向所述终端返回响应音频；

接收所述终端发送的所述响应音频，并播放所述响应音频。

可选的，所述外设端上设置有唤醒控件，所述唤醒控件用于触发唤醒所述外设端；所述向终端发送开始收音消息之前，还包括：

接收用户对所述唤醒控件的操作指令，并进入唤醒状态。

可选的，所述向终端发送开始收音消息之前，还包括：

收取用户的第一唤醒音频，并进入唤醒状态，所述第一唤醒音频中包含有所述外设端对应的唤醒词。

可选的，所述向所述终端发送第一音频之后，还包括：

接收所述终端发送的停止收音消息；

停止收音。

可选的，所述停止收音之后，还包括：

接收所述终端发送的空闲消息；

若在时间阈值范围内未接收到包含有所述唤醒词的第二唤醒音频，则进入休眠状态。

本发明的第三方面提供一种语音交互装置，包括：

开始收音消息接收模块，用于接收外设端发送的开始收音消息，所述开始收音消息用于指示所述外设端处于唤醒状态，且开始收音；

第一音频接收模块，用于接收所述外设端发送的第一音频，并将所述第一音频发送至服务器，以使所述服务器根据所述第一音频向所述语音交互装置返回响应音频；

响应音频处理模块，用于接收所述服务器发送的所述响应音频，并播放所述响应音频；或者，向所述外设端发送所述响应音频，以使所述外设端播放所述响应音频。

可选的，所述语音交互装置还包括：停止收音消息发送模块；

所述停止收音消息发送模块，用于接收所述服务器发送的停止发送消息，所述停止发送消息用于指示所述语音交互装置停止向所述服务器发送音频，所述停止发送消息是所述服务器在接收到所述第一音频之后的第一预设时长内，未接收到所述语音交互装置发送的第二音频时发送的；向所述外设端发送所述停止收音消息，所述停止收音消息用于指示所述外设端停止收音。

可选的，所述语音交互装置还包括：空闲消息发送模块；

所述空闲消息发送模块，用于若在第二预设时长内未接收到所述外设端发送的第二音频，则进入空闲状态，并向所述外设端发送空闲消息。

本发明的第四方面提供一种语音交互装置，包括：

开始收音消息发送模块，用于向终端发送开始收音消息，所述开始收音消息用于通知所述终端，所述语音交互装置处于唤醒状态，且开始收音；

第一音频发送模块，用于向所述终端发送第一音频，以使所述终端将所述第一音频发送至服务器，使得所述服务器根据所述第一音频向所述终端返回响应音频；

播放模块，用于接收所述终端发送的所述响应音频，并播放所述响应音频。

可选的，所述语音交互装置上设置有唤醒控件，所述唤醒控件用于触发唤醒所述语音交互装置。

可选的，所述语音交互装置还包括：唤醒模块；

所述唤醒模块，用于接收用户对所述唤醒控件的操作指令，并进入唤醒状态。

可选的，所述唤醒模块，用于收取用户的第一唤醒音频，并进入唤醒状态，所述第一唤醒音频中包含有所述语音交互装置对应的唤醒词。

可选的，所述语音交互装置还包括：停止收音模块；

所述停止收音模块，用于接收所述终端发送的停止收音消息；停止收音。

可选的，所述语音交互装置还包括：休眠模块；

所述休眠模块，用于接收所述终端发送的空闲消息；若在时间阈值范围内未接收到包含有所述唤醒词的第二唤醒音频，则进入休眠状态。

本发明的第五方面提供一种终端，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述终端执行上述第一方面的语音交互方法。

本发明的第六方面提供一种外设端，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述外设端执行上述第二方面的语音交互方法。

本发明的第七方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第一方面的语音交互方法。

本发明的第八方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第二方面的语音交互方法。

本发明提供一种语音交互方法、装置和存储介质，该方法包括：接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音；接收外设端发送的第一收音，并将第一收音发送至服务器，以使服务器根据第一收音向终端返回响应音频；接收服务器发送的响应音频，并播放响应音频；或者，向外设端发送响应音频，以使外设端播放响应音频。本发明通过外设端进行收音，进而使得终端与服务器之间进行交互获取响应音频，丰富了外设端与终端的交互功能，提高了用户体验。

附图说明

图1为本发明提供的语音交互方法适用的场景示意图；

图2为本发明提供的语音交互方法的流程示意图一；

图3为本发明提供的语音交互方法的流程示意图二；

图4为本发明提供的语音交互方法的流程示意图三；

图5为本发明提供的一语音交互装置的结构示意图一；

图6为本发明提供的一语音交互装置的结构示意图二；

图7为本发明提供的一语音交互装置的结构示意图三；

图8为本发明提供的又一语音交互装置的结构示意图一；

图9为本发明提供的又一语音交互装置的结构示意图二；

图10为本发明提供的又一语音交互装置的结构示意图三。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的技术中的蓝牙外设端多种多样，如蓝牙耳机、蓝牙音箱、蓝牙键盘、运动手环等，这些蓝牙外设端在使用前，需要与终端建立蓝牙连接；示例性的，蓝牙音箱与终端建立的蓝牙连接的过程为：长按蓝牙音箱的电源键，使得蓝牙音箱打开，在终端上搜索蓝牙音箱的名称，输入配对密码，则可建立蓝牙连接。

在建立连接后，终端可以通过蓝牙音箱播放终端上的歌曲或者其他音频，该音频可以是存储在终端的本地文件夹中的，也可以是终端与服务器交互获取的即时音频；终端将需要播放的文件发送给蓝牙音箱，蓝牙音箱即能播放文件对应的音频。

但现有技术中终端与蓝牙外设端之间的交互功能过于单一，只能够实现在终端的控制下被动播放，不能与用户进行交互，用户体验差；且现有技术中能够与用户进行交互的设备为智能设备，其前提是可以与服务器建立连接，外设端的配置成本高。

正是为了解决上述终端与蓝牙外设端之间的交互功能过于单一的问题，且在丰富二者之间的交互功能的同时，降低蓝牙外设端的配置成本；本发明提供了一种语音交互方式。图1为本发明提供的语音交互方法适用的场景示意图，如图1所示，本发明提供的语音交互方法的适用的场景中包括：外设端、终端和服务器。

其中，外设端可以与终端建立蓝牙连接，具体的该蓝牙连接可以是现有技术中的基于经典蓝牙的数据通信，在终端的系统设置界面引导用户选择指定设备并完成配对；或者，终端可以与外设端建立智能蓝牙(duerosmobileaccessories，dma)连接，示例性的，终端在想要与外设端建立dma连接时，可以直接在终端的应用程序的界面完成外设端的扫描、配对和连接，不需要返回到终端的系统设置界面进行设置，再到应用程序的界面完成连接。对应的，本实施例中建立普通蓝牙连接时，外设端为普通的蓝牙设备；在终端与之建立dma连接时，外设端为dma设备，即支持dma蓝牙协议的设备。具体的，当终端与外设端建立的是普通蓝牙连接时，具体的方式可以参照现有技术中的蓝牙连接方式；终端与外设端建立的是dma连接的过程，具体在下述实施例中进行说明。

本发明中的终端和服务器之间可以为无线连接或者有线连接，本发明中的终端可以为手机、个人数字助理(personaldigitalassistant，pda)、平板电脑、便携设备(例如，便携式计算机、袖珍式计算机或手持式计算机)等移动设备；也可以是台式计算机等固定设备。

下面从外设端、终端和服务器之间交互的角度，对本发明提供的语音交互方法进行说明，图2为本发明提供的语音交互方法的流程示意图一，如图2所示，本实施例提供的语音交互方法可以包括：

s201，外设端向终端发送开始收音消息。

本实施例中的外设端具有收音功能，具体的，外设端可以为具有麦克mic的车载支架，具有收音功能的蓝牙音箱、蓝牙耳机、发光二极管(light-emittingdiode，led)灯、闹钟等设备。

终端与外设端建立蓝牙连接或者dma连接后，在用户有语音交互需求时，如用户想要询问天气、播放歌曲时，可以唤醒外设端，当外设端唤醒后可以向终端发送开始收音消息，以提醒终端开始进行语音交互。

其中，用户唤醒外设端的一种方式为：在外设端上设置有唤醒按钮，用户通过点击或者其他操作对唤醒按钮进行选择，该唤醒按钮用于唤醒外设端，且在外设端唤醒后，向终端发送开始收音消息。

用户唤醒外设端的再一种方式为：外设端具有预设的唤醒词，当外设端收取到用户说出唤醒词或者包含有唤醒词的语句时，终端进入唤醒状态，且向终端发送开始收音消息。

用户唤醒外设端的再一种方式为：外设端上设置有开关按钮，在用户通过点击或者其他操作对唤醒按钮进行选择后，外设端打开，此时当外设端收取到用户说出外设端唤醒词或者包含有外设端唤醒词的语句时，终端进入唤醒状态，且向终端发送开始收音消息。

用户唤醒外设端的再一种方式为：终端向外设端发送收音消息，以唤醒外设端，当外设端向终端发送响应消息，即该开始收音消息时，即指示外设端处于唤醒状态。具体的，终端在向外设端发送收音消息之前，也需要进入唤醒状态；其中，终端进入唤醒状态的具体方式可以是用户点击终端界面上设置的唤醒控件，触发唤醒终端，或者，终端收取到用户说出终端的唤醒词或者包含有终端的唤醒词的语句，触发唤醒终端。

本实施例中以唤醒外设端作为实例对唤醒的动作进行示例说明，如外设端的唤醒词为“小度”，则用户说出“小度”或者“小度醒来”的语句时，在外设端收取到该音频后，对该音频进行解析，确定该音频中包含有外设端的唤醒词，则外设端进入唤醒状态。

s202，终端接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

终端接收到外设端发送的开始收音消息，终端即可知晓外设端进入唤醒状态，且终端可以接收唤醒后的外设端发送的音频，并与服务器进行交互，以满足用户的语音交互需求。

s203，外设端向终端发送第一音频。

在外设端处于唤醒状态，且向终端发送开始收音消息之后，可以收取音频，该音频可以包括用户的声音，和/或外设端周围环境中的声音。并将收取的音频发送给终端。

本实施例中的第一音频可以是外设端向终端发送开始收音消息之后收取的第一段音频；具体的，外设端进入唤醒状态后，用户可以说出语音，外设端在检测到第一段音频之后的预设时间段内，若未检测到有效音频，则将该第一音频发送给终端。本实施例中外设端可以将收取的音频的音量大小超过阈值音量的音频作为有效音频。可以想到的是，当外设端进入唤醒状态后，若只检测到用户说出的一句话，则外设端将收取到的该一句话对应的音频作为第一音频。

本实施例中，在外设端处于唤醒状态后，外设端将收取到的音频发送给终端，本实施例中在外设端唤醒后接收到的音频均为有效音频，以使终端和服务器进行交互，获取该音频对应的响应音频；可以解决外设端未被唤醒或者终端未指示外设端收音时，外设端将收取到的音频发送给终端，占用终端的内存的问题。

s204，终端接收外设端发送的第一音频，并将第一音频发送至服务器。

本实施例中，终端在接收到外设端发送的第一音频后，将第一音频发送至服务器，以获取该第一音频对应的响应音频。

示例性的，用户在说完“小度”后，外设端进入唤醒状态，接着用户继续说“今天北京的天气如何”，外设端将该第一音频发送给终端，终端进一步的将该第一音频“今天北京的天气如何”发送给服务器，以得到该第一音频的响应数据。

s205，服务器根据第一音频向终端返回响应音频。

本实施例中，服务器在接收到第一音频后，可以对第一音频进行解析，获取第一音频对应的响应音频。具体的，服务器对第一音频进行解析的过程可以为：将第一音频转化为文字，将文字进行切分处理，获取该文字对应的多个词语；再根据每个词语的词性获取目标词语，再根据目标词语的语义，获取该第一音频对应的响应音频。

本实施例中可以采用切词工具如神经语言程序学(neuro-linguisticprogramming，nlp)工具对第一音频对应的文字进行分词处理，获取文字对应的多个词语，如第一音频对应的文字为“今天北京的天气如何”，采用切词工具将该文字切分成多个词语，具体的切分后的词语可以是“今天”、“北京”、“的”、“天气”和“如何”。

本实施例中，可选的，可根据获取的多个词语的词性，获取有效信息对应的目标词语，如将切分后的会话消息中的量词、副词、形容词等去掉，获取有效信息对应的目标词语，如名词和动词等，如将上述切分结果中的“如何”和“的”去掉，获取有效信息对应的目标词语，“今天”、“北京”和“天气”。服务器根据获取的目标词语确定用户问的是今天北京的天气，于是服务器可以向用户返回关于今天北京天气的响应音频，如“今天北京晴天，气温20度”。

值得注意的是，当第一音频对应的文字为多句文字时，服务器可以先将文字进行分句处理，再对每个子句进行分词处理，再根据每个子句的中目标词语的语义获取每个子句对应的响应音频，将第一音频音对应的多个响应音频按照子句在文字中的先后顺序发送给终端。

示例性的，用户的第一音频对应的文字为“去北京有什么好玩的吗？哪里住宿性价比高？”，服务器将文字分隔为两个子句“北京有什么好玩的地方”和“哪里住宿性价比高”。再分别获取每个子句对应的目标词语，如“北京”、“好玩的”、“地方”和“住宿”、“性价比高”，则分别获取每个子句对应的响应音频，如分别为“北京好玩的地方有故宫、长城……”以及“在北京住宿你可以选择xx酒店”。

s206，终端接收服务器发送的响应音频，并播放响应音频。

本实施例中，终端获取第一音频对应的响应音频后，自动播放该响应音频。可以想到的是，当响应音频对应的为多个子句的音频时，按照接收响应音频的时间先后顺序逐个对响应音频进行播放。

s207，终端向外设端发送响应音频。

本实施例中为了节省终端的电量或者用户正在使用终端导致终端不方便播放响应音频时，可以在接收到该第一音频的响应音频后，将该响应音频发送给外设端，由外设端对响应音频进行播放。具体的，该种实施方式下，外设端可以为具有音频播放功能的外设端，如蓝牙音箱、运动手环等。

s208，外设端接收终端发送的响应音频，并播放响应音频。

本实施例中采用外设端进行收音，相对于现有技术中的终端直接与服务器进行交互获取响应音频的方式；一方面，由于终端的收音效果有限，距离其一定距离可能不能准确收音，或者收音效果差，本实施例中采用外设端如带有mic的车载支架，其收音效果更好；另一方面，还使得终端与蓝牙设备的交互更为多样化，提高用户体验。

值得注意的是，本实施例中的s206和s207-s208是两种并列可实施的方案，二者没有先后顺序的区别。

本实施例提供的语音交互方法包括：接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音；接收外设端发送的第一音频，并将第一音频发送至服务器，以使服务器根据第一音频向终端返回响应音频；接收服务器发送的响应音频，并播放响应音频；或者，向外设端发送响应音频，以使外设端播放响应音频。本实施例通过外设端进行收音，进而使得终端与服务器之间进行交互获取响应音频，丰富了外设端与终端的交互功能，提高了用户体验。

下面结合图3对本发明提供的语音交互方法进行进一步说明，图3为本发明提供的语音交互方法的流程示意图二，如图3所示，本实施例提供的语音交互方法可以包括：

s301，终端与外设端建立dma连接。

现有技术中，终端与外设蓝牙设备之间建立蓝牙连接为：终端通过现有的蓝牙扫描方式，即蓝牙低功耗(bluetoothlowenergy，ble)扫描获取可以连接的蓝牙设备，与蓝牙设备间先建立ble连接；该连接建立后，蓝牙设备向终端返回响应消息，该响应消息指示终端可以通过rfcomm链路进行与蓝牙设备的连接，终端在收到该响应消息后断开与蓝牙设备的ble连接，重新通过rfcomm链路与蓝牙设备进行连接。现有技术中的连接方式会导致ble链路正常状态下，影响进行rfcomm连接的成功率和速度。

本实施例中的外设端为支持dma协议的外设端，具体的，本实施例中对终端与外设端建立dma连接方式做简要说明：终端在扫描的过程中，支持dma协议的dma外设端向终端发送广播包，该广播包中包含有指示该外设端支持dma连接的标识信息，则终端直接通过通过支持rfcomm协议的rfcomm链路与外设端进行连接，解决了现有技术中的ble链路正常状态下，影响进行rfcomm连接的成功率和速度的问题。

s302，外设端接收用户对唤醒控件的操作指令，并进入唤醒状态。

本实施例中，外设端上设置有唤醒控件，唤醒控件用于触发唤醒外设端；当用户有语音交互的需求时，通过终端与外设端建立dma连接，在建立dma连接之后，用户通过点击或者其他操作对唤醒控件进行选择，该唤醒控件用于唤醒外设端，且在外设端唤醒后。

值得注意的是，外设端上设置的唤醒控件可以是机械按钮，也可以是外设端显示界面上显示的唤醒控件。

s303，外设端向终端发送开始收音消息。

s304，终端接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

s305，外设端向终端发送第一音频。

s306，终端接收外设端发送的第一音频，并将第一音频发送至服务器。

s307，终端接收服务器发送的停止发送消息，停止发送消息用于指示终端停止向服务器发送音频。

本实施例中，服务器中设置有第一预设时长，服务器在接收到终端发送的第一音频后，第一预设时间内若未再接收到终端发送的第二音频，则确定用户说话完毕，则根据第一音频获取对应的响应音频，且向终端发送停止发送消息，其中，停止发送消息用于指示终端停止向服务器发送音频。具体的，终端在接收到服务器发送的停止发送消息后，不再向服务器发送新的音频。

s308，终端向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音。

本实施例中的外设端为可控收音的外设端，终端在接收到服务器发送的停止收音消息后，可以向外设端发送停止收音消息，以便外设端停止收音，以减少外设端的功耗。

值得注意的是，在外设端停止收音后，若用户还想要继续进行语音交互，则用户可以对外设端上设置的唤醒控件进行操作，以再次唤醒外设端，在外设端进入唤醒状态后，可以按照本实施例中的语音交互方法对用户的语音进行处理。

s309，外设端停止收音。

s310，服务器根据第一音频向终端返回响应音频。

s311，终端接收服务器发送的响应音频，并播放响应音频。

s312，终端向外设端发送响应音频。

s313，外设端接收终端发送的响应音频，并播放响应音频。

s314，终端若在第二预设时长内未接收到外设端发送的第二音频，则进入空闲状态，并向外设端发送空闲消息。

本实施例中，终端中存储有第二预设时长，在终端在接收服务器发送的响应音频后的第二预设时长内，若未接收到外设端发送的第二音频，即新的音频，则确定用户没有新的语音交互的需求，则终端进入休眠状态，具体的还向外设端发送空闲消息。

具体的，终端进入的空闲状态可以是进入节电模式，以便在没有语音交互的情况下，减少终端功耗。

s315，外设端接收终端发送的空闲消息，且在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

本实施例中，外设端在接收到终端发送的空闲消息后，确定终端的语音交互已经完成；具体的，在接收到该空闲消息后的时间阈值范围内，若外设端未收取到包含有唤醒词的第二唤醒音频，则确定用户没有语音交互的需求，则进入休眠状态。

具体的，本实施例中的s303-s306、s310-s313中的实施方式具体可参照上述实施例中的s201-s204、s205-s208中的相关描述，在此不作限制。

本实施例中的终端与外设端建立dma连接，解决了现有技术中的ble链路正常状态下，影响进行rfcomm连接的成功率和速度的问题；外设端上设置有唤醒控件，唤醒控件用于触发唤醒外设端，根据用户对唤醒控件的操作指令，外设端进入唤醒状态，收取第一音频发送给终端，以获取响应音频，丰富了外设端与终端的交互功能，提高了用户体验；进一步的，终端若在第二预设时长内未接收到外设端发送的第二音频，则进入空闲状态，且外设端在时间阈值范围内未接收到包含有唤醒词的第二唤醒收音，则进入休眠状态，以便在没有语音交互的情况下，减少终端和外设端的功耗。且进一步的，本实施例实现了快速语音交互，即按下外设端上的唤醒控件即可开始输入语音需求，进一步提高了用户体验。

下面结合图4对本发明提供的语音交互方法进行进一步说明，图4为本发明提供的语音交互方法的流程示意图三，如图4所示，本实施例提供的语音交互方法可以包括：

s401，终端与外设端建立dma连接。

s402，外设端收取用户的第一唤醒音频，并进入唤醒状态，第一唤醒音频中包含有外设端对应的唤醒词。

本实施例中，在终端和外设端建立dma连接后，用户想要进行语音交互，则用户说出外设端的唤醒词，或者说出包含有唤醒词的语句，以唤醒外设端。其中，第一唤醒音频为包含有外设端对应的唤醒词的音频，在外设端收取到第一唤醒音频后，进入唤醒状态。

示例性的，如外设端的唤醒词为“小度”，则用户说出“小度”或者“小度醒来”的语句时，在外设端收取到该第一唤醒音频后，确定该音频中包含有外设端的唤醒词，外设端进入唤醒状态。

s403，外设端向终端发送开始收音消息。

s404，终端接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

s405，外设端向终端发送第一音频。

s406，终端接收外设端发送的第一音频，并将第一音频发送至服务器。

s407，终端接收服务器发送的停止发送消息，停止发送消息用于指示终端停止向服务器发送音频。

s408，终端向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音。

s409，外设端停止收音。

s410，服务器根据第一音频向终端返回响应音频。

s411，终端接收服务器发送的响应音频，并播放响应音频。

s412，终端向外设端发送响应音频。

s413，外设端接收终端发送的响应音频，并播放响应音频。

s414，终端若在第二预设时长内未接收到外设端发送的第二音频，则进入空闲状态，并向外设端发送空闲消息。

s415，外设端接收终端发送的空闲消息，且在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

具体的，本实施例中的s401、s403-s415中的实施方式具体可参照上述实施例中的s301、s303-s315中的相关描述，在此不作限制。

本实施例中，由外设端检测到收取的第一唤醒音频中包含有外设端的唤醒词时，外设端进入唤醒状态，将收取的第一音频发送给终端，以获取响应音频，丰富了外设端与终端的交互功能，提高了用户体验。

图5为本发明提供的一语音交互装置的结构示意图一，如图5所示，该语音交互装置可以为终端，该语音交互装置500包括：开始收音消息接收模块501、第一音频接收模块502和响应音频处理模块503。

开始收音消息接收模块501，用于接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

第一音频接收模块502，用于接收外设端发送的第一音频，并将第一音频发送至服务器，以使服务器根据第一音频向语音交互装置返回响应音频。

响应音频处理模块503，用于接收服务器发送的响应音频，并播放响应音频；或者，向外设端发送响应音频，以使外设端播放响应音频。

本实施例提供的语音交互装置与上述语音交互方法实现的原理和技术效果类似，在此不作赘述。

可选的，图6为本发明提供的一语音交互装置的结构示意图二，如图6所示，该语音交互装置500还包括：停止收音消息发送模块504和空闲消息发送模块505。

停止收音消息发送模块504，用于接收服务器发送的停止发送消息，停止发送消息用于指示语音交互装置停止向服务器发送音频，停止发送消息是服务器在接收到第一音频之后的第一预设时长内，未接收到语音交互装置发送的第二音频时发送的；向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音。

空闲消息发送模块505，用于若在第二预设时长内未接收到外设端发送的第二音频，则进入空闲状态，并向外设端发送空闲消息。

图7为本发明提供的一语音交互装置的结构示意图三，如图7所示，该语音交互装置700包括：存储器701和至少一个处理器702。

存储器701，用于存储程序指令。

处理器702，用于在程序指令被执行时实现本实施例中的语音交互方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该语音交互装置700还可以包括及输入/输出接口703。

输入/输出接口703可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当语音交互装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的语音交互方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。语音交互装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得语音交互装置实施上述的各种实施方式提供的语音交互方法。

图8为本发明提供的又一语音交互装置的结构示意图一，如图8所示，该语音交互装置800包括：开始收音消息发送模块801、第一音频发送模块802和播放模块803。

开始收音消息发送模块801，用于向终端发送开始收音消息，开始收音消息用于通知终端，语音交互装置处于唤醒状态，且开始收音。

第一音频发送模块802，用于向终端发送第一音频，以使终端将第一音频发送至服务器，使得服务器根据第一音频向终端返回响应音频。

播放模块803，用于接收终端发送的响应音频，并播放响应音频。

本实施例提供的语音交互装置与上述语音交互方法实现的原理和技术效果类似，在此不作赘述。

可选的，图9为本发明提供的又一语音交互装置的结构示意图二，如图9所示，该语音交互装置800包括：唤醒模块804、停止收音模块805和休眠模块806。

可选的，语音交互装置上设置有唤醒控件，唤醒控件用于触发唤醒语音交互装置。

唤醒模块804，用于接收用户对唤醒控件的操作指令，并进入唤醒状态。

可选的，唤醒模块804，用于收取用户的第一唤醒音频，并进入唤醒状态，第一唤醒音频中包含有语音交互装置对应的唤醒词。

停止收音模块805，用于接收终端发送的停止收音消息；停止收音。

休眠模块806，用于接收终端发送的空闲消息；若在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

图10为本发明提供的又一语音交互装置的结构示意图三，如图10所示，该语音交互装置1000包括：存储器1001和至少一个处理器1002。

存储器1001，用于存储程序指令。

处理器1002，用于在程序指令被执行时实现本实施例中的语音交互方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该语音交互装置1000还可以包括及输入/输出接口1003。

输入/输出接口1003可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文：read-onlymemory，简称：rom)、随机存取存储器(英文：randomaccessmemory，简称：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：centralprocessingunit，简称：cpu)，还可以是其他通用处理器、数字信号处理器(英文：digitalsignalprocessor，简称：dsp)、专用集成电路(英文：applicationspecificintegratedcircuit，简称：asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈果果;牛飞;王芃;蒋习旺;张加杰
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人