人机语音交互方法和装置的制造方法

文档序号：8361171阅读：365来源：国知局

人机语音交互方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域，尤其涉及一种人机语音交互方法和装置。
【背景技术】
[0002]语音识别和人机语音交互有了很长的历史，现有的各种语音助手类应用(Applicat1n ;以下简称:APP)，在操作方式上，录音的触发通过按键，录音完毕后，机器播报答案，播报答案时，不能录音。也就是说，现有的语音助手类APP只能进行半双工通信，即机器播报时，用户不能说话，用户说话时，机器不能播报。
[0003]这样就需要机器在录音和播报两种状态之间不停地切换，往往需要用户的操作来干预，使用起来很不方便。现在，有的语音助手类APP设置了自动应答模式，即机器播报完毕后自动进入录音状态，但是在这种自动应答模式下，机器有时自动切换，有时不自动切换，反而让用户不知所措。
[0004]综上所述，现有的人机语音交互模式使用起来非常不便，每次一问一答，都需要用户干预，操作繁琐，人机交互方式也很不自然，用户体验度较差。

【发明内容】

[0005]本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此，本发明的第一个目的在于提出一种人机语音交互方法。通过该方法，在人机语音交互的过程中，语音播报和用户的语音输入可以同时进行，从而可以实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0007]本发明的第二个目的在于提出一种人机语音交互装置。
[0008]为了实现上述目的，本发明第一方面实施例的人机语音交互方法，包括:在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果；根据保存的上下文理解的结果确定所述用户输入的语音的意图，根据所述意图生成播报结果；将所述播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。
[0009]本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，可以接收语音识别服务器发送的语音识别结果，根据上述语音识别结果确定用户输入的语音的意图，并根据该意图生成播报结果，然后将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0010]为了实现上述目的，本发明第二方面实施例的人机语音交互方法，包括:在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；对所述语音进行识别，将语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；接收所述多轮对话服务器发送的播报结果，将所述播报结果发送给所述终端进行语音播报。
[0011]本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收终端发送的语音之后，对上述语音进行识别，然后将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后语音识别服务器接收多轮对话服务器发送的播报结果，并将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0012]为了实现上述目的，本发明第三方面实施例的人机语音交互方法，包括:在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；将所述用户输入的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；接收并播报所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的。
[0013]本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音，然后将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，终端接收并播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0014]为了实现上述目的，本发明第四方面实施例的人机语音交互装置，包括:接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；以及在发送模块将所述语音识别结果发送给关键词理解服务器进行上下文理解之后，接收所述关键词理解服务器发送的上下文理解的结果；所述发送模块，用于将所述接收模块接收的语音识别结果发送给关键词理解服务器进行上下文理解；保存模块，用于保存所述接收模块接收的上下文理解的结果；确定模块，用于根据所述保存模块保存的上下文理解的结果确定所述用户输入的语音的意图；生成模块，用于根据所述确定模块确定的意图生成播报结果；所述发送模块，还用于将所述生成模块生成的播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。
[0015]本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块可以接收语音识别服务器发送的语音识别结果，确定模块根据上述语音识别结果确定用户输入的语音的意图，生成模块根据确定模块确定的意图生成播报结果，然后发送模块将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0016]为了实现上述目的，本发明第五方面实施例的人机语音交互装置，包括:接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；以及在发送模块将语音识别结果发送给多轮对话服务器之后，接收所述多轮对话服务器发送的播报结果；识别模块，用于对所述接收模块接收的语音进行识别；所述发送模块，用于将所述识别模块识别的语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；以及在所述接收模块接收所述多轮对话服务器发送的播报结果之后，将所述播报结果发送给所述终端进行语音播报。
[0017]本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块接收终端发送的语音之后，识别模块对上述语音进行识别，然后发送模块将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后接收模块接收多轮对话服务器发送的播报结果，并由发送模块将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。
[0018]为了实现上述目的，本发明第六方面实施例的人机语音交互装置，包括:接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；以及在发送模块将所述语音发送给所述语音识别服务器之后，接收所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的；所述发送模块，用于将所述接收模块接收的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；播报模块，用于播报所述接收模块接收的播报结果。
[0019]本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块接收使用上述终端的用户输入的语音，然后发送模块将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，接收模块接收并由播报模块播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈本东;谢文;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。