对话方法、装置、设备及存储介质与流程

文档序号：34229240发布日期：2023-05-24 11:48阅读：52来源：国知局

本公开涉及人工智能，具体涉及人机交互、以及人机对话等，可应用于智能对话、智能客服、以及聊天机器人等场景下，尤其涉及一种对话方法、装置、设备及存储介质。

背景技术：

1、随着计算机技术的不断发展，聊天机器人被广泛应用于各行各业。

2、目前聊天机器人可以获取用户的语音信息，并将该语音信息利用自动语音识别技术(automatic speech recognition，asr)转换为文本，然后基于对文本的识别，理解用户的查询(query)，从而生成回复内容，并将回复内容通过从文本到语言(text to speech，tts)技术将回复内容复述给用户。

3、但是，目前的聊天机器人可能无法充分理解用户的意图，无法精准回复用户的查询。

技术实现思路

1、本公开提供了一种对话方法、装置、设备及存储介质，能够对文本、语音、图片、以及视频等多模态的输入信息进行融合识别理解，充分理解用户意图，精准回复。

2、根据本公开的第一方面，提供了一种对话方法，该方法包括：接收用户的会话信息；会话信息包括以下至少两种类型的会话内容：文本、语音、图片、以及视频；根据会话内容的类型和识别模型之间的对应关系，确定每种类型的会话内容对应的目标识别模型；利用目标识别模型分别识别对应类型的会话内容，得到每种类型的会话内容的识别结果；根据至少两种类型的会话内容的识别结果，确定目标话术；展示目标话术。

3、根据本公开的第二方面，提供了一种对话装置，该装置包括：获取模块，用于接收用户的会话信息；会话信息包括以下至少两种类型的会话内容：文本、语音、图片、以及视频；处理模块，用于根据会话内容的类型和识别模型之间的对应关系，确定每种类型的会话内容对应的目标识别模型；利用目标识别模型分别识别对应类型的会话内容，得到每种类型的会话内容的识别结果；根据至少两种类型的会话内容的识别结果，确定目标话术；展示目标话术。

4、根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面的方法。

5、根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行根据第一方面所述的方法。

6、根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

7、本公开可以针对包括多种类型(例如文本、语音、图片、以及视频)会话内容的用户会话信息分别采用对应的目标识别模型进行识别和理解，得到对应于不同类型会话内容的识别结果，并结合不同类型会话内容的识别结果，确定出目标话术，向用户回复。与目前的文本识别或语音识别的方案相比，可以对多模态的输入信息(即包括多种类型会话内容的会话信息)分别采用对应的识别模型进行识别和理解，提高对不同类型的会话内容进行识别的准确性。并能够对不同类型会话内容对应的识别结果进行结合以得到目标话术，从而基于多种类型的会话内容充分理解用户意图，提高回复的话术的准确性，提升与用户交互的效率和用户体验。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少两种类型的所述会话内容的识别结果，确定目标话术，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述至少两种类型的所述会话内容的识别结果中的字段进行融合，得到目标字段，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少两种类型的所述会话内容的识别结果，确定目标话术，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所有的所述待选话术进行融合，得到所述目标话术，包括：

6.根据权利要求1所述的方法，其特征在于，所述目标话术包括至少两个，所述展示所述目标话术包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种对话装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于对所述至少两种类型的所述会话内容的识别结果中的字段进行融合，得到目标字段；根据预设字段和预设话术的对应关系，从所述预设话术中确定与所述目标字段匹配的目标话术。

10.根据权利要求9所述的装置，其特征在于，所述处理模块，具体用于获取每种类型的所述会话内容的识别结果中的字段；对所述至少两种类型的所述会话内容的识别结果中的字段取交集，得到所述目标字段。

11.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于获取每种类型的所述会话内容的识别结果中的字段；根据预设字段和预设话术的对应关系，从所述预设话术中确定与所述至少两种类型的所述会话内容的识别结果中的每个字段分别匹配的待选话术；对所有的所述待选话术进行融合，得到所述目标话术。

12.根据权利要求11所述的装置，其特征在于，所述处理模块，具体用于对所有的所述待选话术取交集，得到所述目标话术。

13.根据权利要求8所述的装置，其特征在于，所述目标话术包括至少两个，所述处理模块，具体用于根据所述用户的历史会话记录中的上下文内容，从至少两个所述目标话术中确定与所述上下文内容相关的一个进行展示。

14.根据权利要求8所述的装置，其特征在于，所述处理模块，还用于向服务器发送所述会话信息的每种类型的所述会话内容的识别结果；

15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行根据权利要求1-7任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7任一项所述的方法。

技术总结
本公开提供一种对话方法、装置、设备及存储介质，涉及人工智能技术领域，具体涉及人机交互、以及人机对话等技术领域，可应用于智能对话、智能客服、以及聊天机器人等场景下。具体实现方案包括：接收用户的会话信息；会话信息包括以下至少两种类型的会话内容：文本、语音、图片、以及视频；根据会话内容的类型和识别模型之间的对应关系，确定每种类型的会话内容对应的目标识别模型；利用目标识别模型分别识别对应类型的会话内容，得到每种类型的会话内容的识别结果；根据至少两种类型的会话内容的识别结果，确定目标话术；展示目标话术。本公开可以提高对用户的询问的识别精准度。

技术研发人员：李梦倩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李梦倩
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：肽聚糖识别蛋白-3及其制备方法和应用
上一篇：一种熟化米粉吹风冷却装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。