一种智能互动方法、装置、计算机设备和存储介质与流程

文档序号：20347007发布日期：2020-04-10 22:42阅读：185来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及互联网技术领域，具体涉及一种智能互动方法、装置、计算机设备和存储介质。

背景技术：

目前，随着计算机技术的发展，越来越多的智能设备向用户提供了智能交互功能，基于该智能交互功能，智能设备可以针对用户输入的信息进行回复，以展开与用户的对话。

但是这种对话过程中，智能设备和用户一般是通过文本或语音方式进行对话，对话形式比较单一，不利于用户的留存。

技术实现要素：

本发明实施例提供一种智能互动方法、装置、计算机设备和存储介质，可以丰富与用户的对话形式。

本发明实施例提供一种智能互动方法，该方法包括：

显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；

在所述聊天页面显示虚拟用户针对所述对话消息的回复消息；其中，所述回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；

当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容。

可选的，

所述当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容，包括：

当检测到用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容对应的虚拟资源转移页面；

基于用户针对所述虚拟资源转移页面的虚拟资源转移操作，触发针对所述目标多模态内容的虚拟资源转移；

当所述虚拟资源转移成功时，播放所述目标多模态内容。

可选的，

所述在所述聊天页面显示虚拟用户针对所述对话消息的回复消息，包括：

在所述聊天页面显示所述回复消息中的对话回复文本，以及目标多模态内容列表，其中，所述目标多模态内容列表中包含至少两个目标多模态内容。

可选的，在所述聊天页面还显示有所述目标多模态内容的候选类型列表，所述候选类型列表中包括所述目标多模态内容的候选类型；

所述智能互动方法，还包括：

当检测到用户针对所述候选类型列表中的候选类型的选定操作时，在所述目标多模态内容列表中切换显示被选择候选类型的目标多模态内容。

可选的，所述当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容，包括：

当检测到所述用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容的播放页面，其中，所述播放页面上还包括与所述目标多模态内容相似的相似多模态内容。

可选的，所述当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容，包括：

当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容中的目标内容片段，其中，所述目标内容片段为所述目标多模态内容中与所述对话回复文本的语义关联的内容片段。

可选的，所述在所述聊天页面显示虚拟用户针对所述对话消息的回复消息前，智能互动方法还包括：

当接收到用户针对所述虚拟用户发送的对话消息时，获取所述虚拟用户与所述用户的历史对话信息；

基于所述对话消息和历史对话信息，生成所述对话消息的对话回复文本；

获取所述对话回复文本与候选多模态内容之间的相关性信息；

基于所述相关性信息，从所述候选多模态内容中确定回复所述对话消息的目标多模态内容；

对所述对话回复文本与目标多模态内容进行组合，得到所述对话消息对应的回复消息。

可选的，所述获取所述对话回复文本与候选多模态内容之间的相关性信息，包括：

获取预测模型，其中，所述预测模型用于预测对话场景下，各预设类型的候选多模态内容对应的用户偏好程度；

通过所述预测模型分析所述对话消息和历史对话信息，预测在当前对话场景下所述用户对于各预设类型的候选多模态内容的用户偏好程度；

基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型；

获取所述对话回复文本与所述目标类型的候选多模态内容之间的相关性信息。

可选的，所述预测模型包括与候选多模态内容的各预设类型对应的预测子模型，所述预测子模型用于预测对话场景下，在对应的预设类型的候选多模态内容上的用户可能停留时长；

所述通过所述预测模型分析所述对话消息和历史对话信息，预测在当前对话场景下所述用户对于各预设类型的候选多模态内容的用户偏好程度，包括：

通过各所述预测子模型分析所述对话消息和历史对话信息，以预测在当前的对话场景下，所述用户在各预设类型的候选多模态内容上的用户可能停留时长；

所述基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型，包括：

从所述候选多模态内容的预设类型中，选择预测出的用户可能停留时长最长的预设类型作为目标类型。

可选的，所述基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型前，还包括：

基于预测出的用户偏好程度，确定所述候选多模态内容的预设类型中是否存在用户偏好程度不低于预设最低用户偏好程度的预设类型；

若是，则继续所述基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤。

可选的，所述获取所述对话回复文本与所述目标类型的候选多模态内容之间的相关性信息，包括：

获取所述目标类型的候选多模态内容的标签集合；

计算所述对话回复文本和所述候选多模态内容的标签集合中的标签的相关性信息。

可选的，智能互动方法还包括：

获取回归模型；

获取所述虚拟用户与所述用户的样本历史对话信息，以及在样本历史对话信息对应的历史对话过程中，所述用户在各预设类型的候选多模态内容的历史停留时长；

基于所述样本历史对话信息以及与样本历史对话信息对应的，所述用户在各预设类型的候选多模态内容上的历史停留时长，确定各预设类型的候选多模态内容对应的训练样本；

以各预设类型的候选多模态内容对应的训练样本，分别训练一个所述回归模型，得到各预设类型的候选多模态内容对应的预测子模型。

可选的，所述获取所述目标类型的候选多模态内容的标签集合前，还包括：

获取候选多模态内容的承载信息和/或用户互动信息；

基于候选多模态内容的承载信息和/或用户互动信息，分析候选多模态内容在至少一个描述维度上的特征，为候选多模态内容生成至少一个描述维度上的标签，得到候选多模态内容的标签集合。

可选的，所述计算所述对话回复文本和所述候选多模态内容的标签集合中的标签的相关性信息，包括：

对所述对话回复文本进行分析，获取所述对话回复文本中的关键词；

确定候选多模态内容的标签集合中与关键词相似的相似标签；

基于标签集合中的相似标签，确定标签集合对应的候选多模态内容与所述对话回复文本的相关性信息。

可选的，获取所述虚拟用户与所述用户的历史对话信息，包括：

获取所述虚拟用户与所述用户在当前对话场景下产生的历史对话信息；

或者，获取距离当前时刻预设时长的历史时间段内，所述虚拟用户与所述用户的历史对话信息；

或者，获取所述虚拟用户与所述用户的，且属于目标话题的历史对话信息，其中，所述目标话题为所述对话消息所属的话题。

可选的，所述基于所述对话消息和历史对话信息，生成所述对话消息的对话回复文本，包括：

确定所述历史对话信息所属话题的话题信息；

获取所述历史对话信息的含义描述信息，以及所述对话消息的含义描述信息；

基于所述话题信息、历史对话信息的含义描述信息以及对话消息的含义描述信息，确定所述对话消息的对话回复文本。

本发明实施例还提供一种智能互动装置，该装置包括：

页面显示单元，用于显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；

回复显示单元，用于在所述聊天页面显示虚拟用户针对所述对话消息的回复消息；其中，所述回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；

播放单元，用于当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容。

可选的，播放单元，包括：

虚拟转移页面显示子单元，用于当检测到用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容对应的虚拟资源转移页面；

虚拟资源转移子单元，用于基于用户针对所述虚拟资源转移页面的虚拟资源转移操作，触发针对所述目标多模态内容的虚拟资源转移；

播放子单元，用于当所述虚拟资源转移成功时，播放所述目标多模态内容。

可选的，回复显示单元，用于在所述聊天页面显示所述回复消息中的对话回复文本，以及目标多模态内容列表，其中，所述目标多模态内容列表中包含至少两个目标多模态内容。

可选的，在所述聊天页面还显示有所述目标多模态内容的候选类型列表，所述候选类型列表中包括所述目标多模态内容的候选类型；

所述装置还包括：

切换显示单元，用于当检测到用户针对所述候选类型列表中的候选类型的选定操作时，在所述目标多模态内容列表中切换显示被选择候选类型的目标多模态内容。

可选的，播放单元，用于当检测到所述用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容的播放页面，其中，所述播放页面上还显示有与所述目标多模态内容相似的相似多模态内容。

可选的，播放单元，用于当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容中的目标内容片段，其中，所述目标内容片段为所述目标多模态内容中与所述对话回复文本的语义关联的内容片段。

可选的，本实施例的智能互动装置，还包括：

对话获取单元，用于当接收到用户针对所述虚拟用户发送的对话消息时，获取所述虚拟用户与所述用户的历史对话信息；

生成单元，用于基于所述对话消息和历史对话信息，生成所述对话消息的对话回复文本；

相关性获取单元，用于获取所述对话回复文本与候选多模态内容之间的相关性信息；

确定单元，用于基于所述相关性信息，从所述候选多模态内容中确定回复所述对话消息的目标多模态内容；

组合单元，用于对所述对话回复文本与目标多模态内容进行组合，得到所述对话消息对应的回复消息。

可选的，相关性获取单元，包括：

第一获取子单元，用于获取预测模型，其中，所述预测模型用于预测对话场景下，各预设类型的候选多模态内容对应的用户偏好程度；

预测子单元，用于通过所述预测模型分析所述对话消息和历史对话信息，预测在当前对话场景下所述用户对于各预设类型的候选多模态内容的用户偏好程度；

选择子单元，用于基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型；

第二获取子单元，用于获取所述对话回复文本与所述目标类型的候选多模态内容之间的相关性信息。

所述预测子单元，用于通过各所述预测子模型分析所述对话消息和历史对话信息，以预测在当前的对话场景下，所述用户在各预设类型的候选多模态内容上的用户可能停留时长；

所述选择子单元，用于从所述候选多模态内容的预设类型中，选择预测出的用户可能停留时长最长的预设类型作为目标类型。

可选的，所述装置还包括控制单元，用于在选择子单元基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型前，基于预测出的用户偏好程度，确定所述候选多模态内容的预设类型中是否存在用户偏好程度不低于预设最低用户偏好程度的预设类型；若是，则控制选择子单元继续所述基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤。

可选的，第二获取子单元，用于：

获取所述目标类型的候选多模态内容的标签集合；

计算所述对话回复文本和所述候选多模态内容的标签集合中的标签的相关性信息。

可选的，智能互动装置还包括模型处理单元，用于：

获取回归模型；

以各预设类型的候选多模态内容对应的训练样本，分别训练一个所述回归模型，得到各预设类型的候选多模态内容对应的预测子模型。

可选的，智能互动装置还包括标签设置单元，用于在第二获取子单元获取所述目标类型的候选多模态内容的标签集合前，获取候选多模态内容的承载信息和/或用户互动信息；基于候选多模态内容的承载信息和/或用户互动信息，分析候选多模态内容在至少一个描述维度上的特征，为候选多模态内容生成至少一个描述维度上的标签，得到候选多模态内容的标签集合。

可选的，第二获取子单元，用于：

对所述对话回复文本进行分析，获取所述对话回复文本中的关键词；

确定候选多模态内容的标签集合中与关键词相似的相似标签；

基于标签集合中的相似标签，确定标签集合对应的候选多模态内容与所述对话回复文本的相关性信息。

可选的，所述第二获取子单元，用于：

获取所述虚拟用户与所述用户在当前对话场景下产生的历史对话信息；

或者，获取距离当前时刻预设时长的历史时间段内，所述虚拟用户与所述用户的历史对话信息；

或者，获取所述虚拟用户与所述用户的，且属于目标话题的历史对话信息，其中，所述目标话题为所述对话消息所属的话题。

可选的，生成单元，包括：

话题确定子单元，用于确定所述历史对话信息所属话题的话题信息；

描述信息获取子单元，用于获取所述历史对话信息的含义描述信息，以及所述对话消息的含义描述信息；

文本确定子单元，用于基于所述话题信息、历史对话信息的含义描述信息以及对话消息的含义描述信息，确定所述对话消息的对话回复文本。

本实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述的智能互动方法的步骤。

本实施例还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上所述的智能互动方法的步骤。

本实施例公开了一种智能互动方法、装置、计算机设备和存储介质，可以显示用户与虚拟用户之间的聊天页面，其中，聊天页面中包括用户当前向虚拟用户发送的对话消息；在聊天页面显示虚拟用户针对对话消息的回复消息；其中，回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容，由此，可以在对话过程中，用文本搭配多模态内容等来回复用户，丰富了与用户的对话形式，极大地增加了聊天的趣味性和对用户的吸引力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的智能互动方法的场景示意图；

图1b是本发明实施例提供的智能互动方法的流程图；

图2a是基于本发明实施例提供的智能互动方法实现的一种聊天页面的显示示意图；

图2b是本发明实施例中，聊天页面中的目标多模态内容列表显示的示意图；

图2c是本发明实施例中，聊天页面中的目标多模态内容列表以及目标多模态内容的候选类型列表的显示示意图；

图2d是本发明实施例中，目标多模态内容的播放页面的显示示意图；

图2e是本发明实施例提供的，在智能互动过程中的回复消息生成方法的流程示意图；

图2f是基于本发明实施例提供的智能互动方法实现的另一种聊天页面的示意图；

图3是本发明实施例提供的智能互动装置的结构示意图；

图4是本发明实施例提供的计算机设备的结构示意图；

图5是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图；

图6是本发明实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种智能互动方法、装置、计算机设备和存储介质。具体地，本发明实施例提供适用于第一计算机设备的智能互动方法(为了区分可以称为第一智能互动装置)，以及适用于第二计算机设备的智能互动装置(为了区分可以称为第二智能互动装置)。其中，第一计算机设备可以为终端等设备，该终端可以为手机、平板电脑、笔记本电脑、智能机器人和智能手环等设备；其中，第二计算机设备可以为服务器等设备，该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

比如，第一智能互动装置可以集成在终端中，第二智能互动装置可以集成在服务器。

本发明实施例将以第一计算机设备为终端，第二计算机设备为服务器为例，来介绍智能互动方法。

参考图1a，本发明实施例提供了智能互动系统包括终端10和服务器20等；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等，其中，智能互动装置集成在终端中，比如，以客户端的形式集成在终端中，更具体的，比如以对话系统的形式集成在终端中。

其中，终端10，可以显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；在所述聊天页面显示虚拟用户针对所述对话消息的回复消息；其中，所述回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容。

其中，当接收到用户向虚拟用户发送的对话消息后，可以触发对对话消息的回复消息的获取，该获取过程可以由终端10或服务器20完成，或者由终端10和服务器20共同完成。

例如，终端10可以在接收到用户发送的对话消息时，获取与所述用户的历史对话信息；基于所述对话消息和历史对话信息，生成所述对话消息的对话回复文本；将对话回复文本发送给服务器20，以触发服务器20对目标多模态内容的获取。

可选的，服务器20可以在接收到对话回复文本后，获取所述对话回复文本与候选多模态内容之间的相关性信息；基于所述相关性信息，从所述候选多模态内容中确定回复所述对话消息的目标多模态内容；将目标多模态内容发送给终端10，以便终端10对所述对话回复文本与目标多模态内容进行组合，得到所述对话消息对应的回复消息。

在一个实施例中，终端10可以是智能机器人，可以通过用户输入模块如音频采集模块或触控输入模块采集用户的对话消息。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从智能互动装置的角度进行描述，该智能互动装置具体可以集成在终端，也可以集成在服务器中。

本发明实施例提供的一种智能互动方法，该方法可以由终端的处理器执行，该智能互动方法，可以应用于智能交互场景下，(例如用户与智能音箱、智能聊天机器人等的交互场景)。基于该智能互动方法，可以提升在智能交互场景下，用户的闲聊体验。对于智能交互场景而言，闲聊是很重要的模块，相比任务型模块，闲聊没有明确的目的，是智能设备以拟人的方式与用户进行漫无目的的聊天，但闲聊背后的技术并不简单，因为需要让系统更好地拟人，以引起用户的交流欲望，好的闲聊模块能极大地提高用户留存度、提高市场口碑。

本实施例的智能互动方法，可以在闲聊场景下以文本搭配多模态内容与用户进行交互，提升闲聊的趣味性和对用户的吸引力，如图1b所示，该智能互动方法的具体流程可以如下：

101、显示用户与虚拟用户之间的聊天页面，其中，聊天页面中包括用户当前向虚拟用户发送的对话消息；

其中，步骤101可以由移动终端如手机、智能机器人等实现。虚拟用户可以由终端中的应用程序模拟，该应用程序可以是即时通讯客户端、具有对话功能的应用程序如搜索引擎等，或者是终端系统本身的服务程序。对应的，上述的聊天页面可以为即时通讯客户端的聊天页面，为终端系统自带的智能对话功能提供的聊天页面。

在该聊天页面中，可以包括输入控件，如输入框等，便于用户通过触控方式输入对话消息。本实施例的一个示例中，在步骤101中，终端的音频采集模块可以处于开启状态，终端可以通过音频采集模块采集外部的音频数据，基于对音频采集模块采集的音频数据分析得到用户的语音内容，将该语音内容翻译成文本信息，并将该文本信息作为对话消息显示于聊天页面中。

102、在聊天页面显示虚拟用户针对对话消息的回复消息；其中，回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；

本实施例中，对于多模态内容，由于其形态不统一，本实施例的多模态内容包括但不限于：音乐包括音频信息，和歌词等文本信息；有声读物包括朗读、配乐等音频信息，和书籍等文本信息；相声包括人声等音频信息，相声内容等文本信息；视频包括图像、文本、音频等多维度信息。

可选的，参考图2a所示的示意图，在用户与机器人(即虚拟用户)的聊天页面201中，用户(图中简称“用”)和机器人(图2a中简称“系”)正在进行对话，在该对话过程中，机器人针对用户的对话消息，可以只以对话回复文本作为回复消息进行显示，也可以以对话回复文本和多模态内容作为回复消息进行显示，本实施例对此没有限制。

103、当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容。

本实施例中，用户针对目标多模态内容的播放操作可以是点击、双击、长按等触控操作，也可以是语音方式实现的操作。

可选的，步骤“当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容”，可以包括：

采集用户的语音信息，基于该语音信息分析用户输入的对话消息；

当分析出该对话消息中包含对目标多模态内容的播放指令时，播放该目标多模态内容。

可选的，步骤“当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容”，可以包括：

当接收到用户针对目标多模态内容的播放触控操作时，播放目标多模态内容。

其中，该播放触控操作可以是任意设置的触控操作，如点击操作等等。

可选的，在一个示例中，对于虚拟用户推荐的目标多模态内容，可能需要用户购买才能够播放。

可选的，步骤“当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容”，可以包括：

当检测到用户针对目标多模态内容的播放操作时，显示目标多模态内容对应的虚拟资源转移页面；

基于用户针对虚拟资源转移页面的虚拟资源转移操作，触发针对目标多模态内容的虚拟资源转移；

当虚拟资源转移成功时，播放目标多模态内容。

其中，为了便于用户了解目标多模态内容的具体信息，再确定是否购买，本实施例的方案还为用户提供购买前的试看服务。可选的，步骤“当检测到用户针对目标多模态内容的播放操作时，显示目标多模态内容对应的虚拟资源转移页面”，可以包括：

当检测到用户针对目标多模态内容的播放操作时，显示目标多模态内容对应的虚拟资源转移选择控件，该虚拟资源转移选择控件中包括：虚拟资源转移页面显示子控件，虚拟资源转移结束子控件，以及试阅内容播放子控件；

当检测到用户针对虚拟资源转移页面显示子控件的触发操作时，显示目标多模态内容对应的虚拟资源转移页面。

可选的，当检测到用户针对虚拟资源转移结束子控件的触发操作时，隐藏虚拟资源转移选择控件；当检测到用户针对试阅内容播放子控件的触发操作时，播放目标多模态内容的试阅内容。

本实施例中，该虚拟资源转移页面中可以包括待转移的虚拟资源的具体数额，以及用于触发虚拟资源转移的虚拟资源转移确认控件等等。

可选的，步骤“基于用户针对虚拟资源转移页面的虚拟资源转移操作，触发针对目标多模态内容的虚拟资源转移”，可以包括：

当检测到用户针对虚拟资源转移页面中的虚拟资源转移确认控件的确认操作，触发针对目标多模态内容的虚拟资源转移。

例如，还是参考图2a，当在页面201，检测到用户针对目标多模态内容，如有声读物“赋能”的播放操作时，显示虚拟资源转移选择控件(如页面202所示)，该虚拟资源转移选择控件中包括：虚拟资源转移页面显示子控件如“是”，虚拟资源转移结束子控件如“否”，试阅内容播放子控件“试听3分钟”；当检测到用户针对虚拟资源转移页面显示子控件的确认操作时，显示203所示的虚拟资源转移页面。其中，该确认操作可以是针对202所示的虚拟资源转移页面中名为“是”控件的点击操作，在另一个实施例中，用户可以通过语音指令代替对“是”控件的触控操作，例如当终端检测到用户输入“这本书不错，买下来吧”的语音信息时，从中分析出用户输入了对有声读物“赋能”的购买指令，显示203所示的虚拟资源转移页面。

图2a中，203所示的虚拟资源转移页面中显示有待转移的虚拟资源数额、收款方信息以及虚拟资源转移确认控件如“支付”控件。当检测到用户针对“支付”控件的触发操作如点击操作等，触发针对目标多模态内容的虚拟资源转移。当虚拟资源转移成功时，播放目标多模态内容。针对用户输入语音指令触发显示虚拟资源转移页面的方案，可以将用户输入的语音指令也翻译成文本信息显示于聊天页面中，如图2a，在203显示的页面中，当检测到用户针对“支付”的点击操作时，进行虚拟资源转移，在虚拟资源转移成功后，显示204所示的聊天页面。该聊天页面中新增了用户输入的语音指令。

通过上述方案可知，本实施例有利于还能将无目的的闲聊转化到有目的地听音乐、听有声读物等场景，并增加潜在的商业化可能，如音乐付费、有声读物付费等等。

在一个实施例中，目标多模态内容的数量可以不止一个，本实施例中，可以以列表的形式显示目标多模态内容。可选的，本实施例中，步骤“在聊天页面显示虚拟用户针对对话消息的回复消息”，可以包括：

在聊天页面显示回复消息中的对话回复文本，以及目标多模态内容列表，其中，目标多模态内容列表中包含至少两个目标多模态内容。

例如，参考图2b，对于用户的对话消息“听了之后心情好多了，有没有更好玩的”，虚拟用户获取到了4个相声视频，在聊天页面的回复消息中以列表的形式显示该4个相声视频。可选的，本实施例中，目标多模态内容列表中，目标多模态内容的顺序是基于目标多模态内容与对应的对话回复文本的相关性排列的，相关性越高，则目标多模态内容在列表中的位置越靠前。

可选的，本实施例中，在聊天页面还显示有目标多模态内容的候选类型列表，候选类型列表中包括目标多模态内容的候选类型。对应的，本实施例的智能互动方法，还包括：

当检测到用户针对候选类型列表中的候选类型的选定操作时，在聊天页面切换显示被选择候选类型的目标多模态内容。

可选的，步骤“当检测到用户针对候选类型列表中的候选类型的选定操作时，在聊天页面切换显示被选择候选类型的目标多模态内容”，可以包括：

当检测到用户针对候选类型列表中的候选类型的选定操作时，在目标多模态内容列表中切换显示被选择候选类型的目标多模态内容。

例如，参考图2c所示的聊天页面，针对用户的对话消息“听了之后心情好多了，有没有更好玩的”，检索到了三个类型的多模态内容是用户比较愿意接受的，该三个类型分别为“相声”“有声读物”以及“音乐”，显示的候选类型列表中包含三个类型选项，“相声”“有声读物”以及“音乐”。图2c所示的聊天页面中，在针对对话消息“听了之后心情好多了，有没有更好玩的”的回复消息中，显示有目标多模态内容列表和候选类型列表，当检测到用户针对候选类型列表中的候选类型的选定操作时，在聊天页面切换显示被选择候选类型的下目标多模态内容。例如，图2c的聊天页面中，显示的是“相声”类型的目标多模态内容，当检测到用户针对“有声读物”类型的选定操作时，则在目标多模态内容列表中显示“有声读物”类型下的目标多模态内容。

可选的，本实施例中，步骤“当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容”，可以包括：

当检测到用户针对目标多模态内容的播放操作时，显示目标多模态内容的播放页面，在目标多模态内容的播放页面中播放目标多模态内容。

可选的，播放页面上还可以显示有与目标多模态内容相似的相似多模态内容。

例如，参考图2d，当在与机器人的聊天页面中，检测到用户针对目标多模态内容如电影“风雨xx路”的播放操作时，显示目标多模态内容如“风雨xx路”的播放页面。

本实施例中，针对视频等需要一定显示面积的多模态内容，可以通过播放页面播放，为了更好地服务用户，该播放页面中可以展示有与目标多模态内容相似的相似内容。

考虑到一些目标多模态内容如食品的总时长较长，需要占用用户较多的时间，为了降低用户观看或收听时间，提升用户对话体验，本实施例中，可以在检测到用户的播放操作时，直接播放目标多模态内容的精华片段给用户。

可选的，步骤“当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容”，可以包括：

当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容中的目标内容片段，其中，目标内容片段为目标多模态内容中与对话回复文本的语义关联的内容片段。

例如，还是参考图2d，当在与机器人的聊天页面中，检测到用户针对目标多模态内容如电影“风雨xx路”的播放操作时，显示目标多模态内容如“风雨xx路”的播放页面，并且在播放页面中，电影“风雨xx路”从目标内容片段的播放起点a开始播放，可选的，目标内容片段的播放终点可以是整个电影的播放终点，或者播放起点a和电影的播放终点之间的时间点。

进一步的，该目标内容片段可以是内容生产方或工作人员针对不同的语义预先标记好的片段，该目标内容片段也可以是虚拟用户(如对话系统)，针对对话回复文本的语义，实时确定的，本实施例对此没有限制。

本实施例中，对于每一次虚拟用户接收到用户发送的对话消息，都需要确定对于对话消息的回复消息，本实施例中，提供了一种可以用于生成包含多模态内容的回复消息的方法，参考图2e，本实施例的回复消息生成方法包括：

205、当接收到用户针对所述虚拟用户发送的对话消息时，获取所述虚拟用户与所述用户的历史对话信息；

本实施例中，对于用户的对话消息，可以通过任意可行的接收方式进行获取。其中，对话消息的类型不限，可以是文字、语音、图像以及视频等等类型的信息。

本实施例中，接收到用户针对所述虚拟用户发送的对话消息的步骤，可以包括：通过音频采集模块采集外部的音频信号，从音频信号中分析出用户当前的语音信息作为用户的对话消息。

其中，对于语音类型的对话消息，本实施例中，可以将其转换为文本形式的对话消息，以文本形式的对话消息参与205之后的步骤。

例如，本实施例中，接收用户针对所述虚拟用户发送的对话消息的步骤，可以包括：显示聊天页面如图2a所示的201等聊天页面，当检测到用户针对聊天页面的对话信息输入操作时，获取用户在聊天页面输入的对话消息。可以理解的是，本实施例中，用户在聊天页面输入的对话消息可以是文本、图像、视频以及音频等信息中的任意一种，或由这些信息中的至少两种组成的混合信息。

本实施例中的聊天页面可以是任意即时通讯客户端提供的聊天会话页面，或者终端的系统自带的智能系统会话页面，或者搜索引擎等客户端提供的带有对话功能的用户操作页面，本实施例对此没有限制，

其中，对于通过聊天页面输入的非文本信息类型的对话消息，可以将非文本信息通过对应的转换方式转换为文本信息。

例如，在获取用户在聊天页面输入的对话消息后，若该对话消息中存在非文本信息，则确定该非文本信息的信息类型，获取该信息类型对应的文本转换模型，以该文本转换模型将该非文本信息转换为文本信息。

例如，若该对话消息中存在图像信息，则获取图像信息对应的文本转换模型，将图像信息转换为文本信息。其中，图像信息对应的文本转换模型包括但不限于ocr(opticalcharacterrecognition，光学字符识别)识别模型，和图像理解(imagecaption)模型等等。

其中，对于其他类型的非文本信息，可以采用现有的文本转换模型实现该非文本信息向文本信息的转换，本实施例对于文本转换模型的具体类型没有限制。

本实施例中，步骤205中获取的历史对话信息是具有一定特性的，该历史对话信息与接收到的对话消息相对应，即该历史对话信息与接收的对话消息存在一定的关联(例如在内容上关联)。该历史对话信息中可以包括用户的历史对话消息和终端的历史回复消息。

本实施例中，历史对话信息的获取方式有多种，可以从服务器获取或者从本地获取。

可选的，步骤“获取所述虚拟用户与所述用户的历史对话信息”，可以包括：

向服务器发送历史对话信息获取请求，其中，该历史对话信息获取请求中携带有用户和虚拟用户的识别信息，以及用户当前的对话消息的属性信息；

接收服务器响应于该历史对话信息获取请求反馈的，虚拟用户与用户的历史对话信息。

其中，对话消息的属性信息包括但不限于对话消息承载的内容，对话消息所属的话题以及对话消息的输入时间等等信息。

可选的，步骤“获取所述虚拟用户与所述用户的历史对话信息”，可以包括：

从本地存储的历史对话信息中，获取虚拟用户与用户的，且属于目标话题的历史对话信息，其中，目标话题为对话消息所属的话题。

可选的，在一个实施例中，获取的历史对话消息可以仅仅是在当前的对话场景下产生的历史对话消息，步骤“获取所述虚拟用户与所述用户的历史对话信息”，可以包括：

获取虚拟用户与用户在当前对话场景下的历史对话信息。

其中，对话场景可以根据对话中断时间来划分，例如，当虚拟用户与用户的对话中断时长超过预设中断时长阈值，则认为当前对话场景结束，用户在超过预设中断时长阈值之后进行的对话，则认为是新的对话场景。

在一个实施例中，步骤“获取虚拟用户与用户的历史对话信息”，可以包括：

获取距离当前时刻预设时长的历史时间段内，虚拟用户与用户的历史对话信息。

考虑到距离对话消息越近的历史对话信息，与对话消息的关联性越大，所以本实施例的一个示例中，以预设时长的历史时间段确定获取的历史对话信息。其中，预设时长可以根据实际需要设置，例如设置为5min、8min等等时长。

在一个实施例中，步骤“获取虚拟用户与用户的历史对话信息”，可以包括：

获取虚拟用户与用户的，且属于目标话题的历史对话信息，其中，目标话题为对话消息所属的话题。

本实施例中，可以在虚拟用户与用户的对话过程中，基于虚拟用户与用户的对话信息，确定各对话信息所属的话题。在接收到用户针对虚拟用户发送的对话消息时，可以分析该对话消息是否与时间上最接近的历史对话信息属于相同话题，若是，则将最接近的历史对话信息对应的话题作为该对话消息的话题，否则，基于对话消息确定当前的话题。

206、基于对话消息和历史对话信息，生成对话消息的对话回复文本。

本实施例中，可以基于历史对话信息和对话消息，生成对话消息对应的对话回复文本。基于历史对话信息和对话消息，生成对话回复文本，可以很好地保持上下文的一致性，提升后续目标多模态内容被用户点击的可能性。

本实施例中，可选的，步骤“基于对话消息和历史对话信息，生成对话消息的对话回复文本”，可以包括：

确定历史对话信息所属话题的话题信息；

获取历史对话信息的含义描述信息，以及对话消息的含义描述信息；

基于话题信息、历史对话信息的含义描述信息以及对话消息的含义描述信息，确定对话消息的对话回复文本。

本实施例中，可以预先设置多个话题，基于已经训练好的话题识别模型，对本实施例的历史对话信息进行分析，获取历史对话信息的第一编码，该第一编码即为上述的话题信息，用于表示历史对话信息属于多个预设话题的概率。

本实施例中，还可以对历史对话信息进行编码，得到历史对话信息的第二编码，第二编码用于对历史对话信息的含义进行描述。可选的，本实施例还可以对用户输入的对话消息进行编码，得到对话消息的第三编码，第三编码用于对对话消息的含义进行描述。

本实施例可以通过对第一编码、第二编码和第三编码进行解码，得到对话消息的对话回复文本。

本实施例中，可以采用编码器对历史对话信息和对话消息进行编码。

本实施例的历史对话信息中具体的信息数量可以是多个，其中，得到第二编码的过程可以包括：对于多条历史对话信息中的第一条历史对话信息，根据历史对话信息获取历史对话信息的隐向量；对于第一条历史对话信息之后的每条历史对话信息，根据历史对话信息和历史对话信息的前一条历史对话信息的隐向量，获取历史对话信息的隐向量；根据多条历史对话信息的隐向量，获取第二编码。

本实施例中的对话消息可以根据分析分成多个词汇，前述得到第三编码的过程可以包括：对于对话消息中的多个词汇中的第一个词汇，根据词汇获取词汇的隐向量；对于第一个词汇之后的每个词汇，根据词汇和词汇的前一个词汇的隐向量，获取词汇的隐向量；根据多个词汇的隐向量，获取对话消息的第三编码。

本实施例中，得到对话回复文本的过程可以包括：对于对话消息的多个词汇中的第一个词汇，基于编码单元，对第一编码和第三编码进行处理，得到隐向量；基于注意力单元，对隐向量和第二编码进行处理，得到词汇对应的回复词汇标识，根据回复词汇标识确定词汇对应的回复词汇；对于第一个词汇之后的每个词汇，基于编码单元，对第一编码、第三编码、词汇的前一个词汇对应的回复词汇标识和前一个词汇对应的回复词汇进行处理，得到隐向量；基于注意力单元，对隐向量和第二编码进行处理，得到词汇对应的回复词汇标识，根据回复词汇标识确定词汇对应的回复词汇；根据多个词汇对应的回复词汇，生成对话回复文本。

207、获取对话回复文本与候选多模态内容之间的相关性信息。

本实施例中，可以使用对话回复文本中包含的字词，获取与候选多模态内容之间的相关性信息。

其中，获取相关性信息时，可以基于候选多模态内容相关的任意信息，来确定其与对话回复文本之间的相关性。

例如，步骤“获取对话回复文本与候选多模态内容之间的相关性信息”，可以包括：分析候选多模态内容的关联信息，确定候选多模态内容在至少一个描述维度上的描述信息，基于候选多模态内容的描述信息与对话回复文本，确定候选多模态内容与回复文本的相关性信息。

其中，候选多模态内容的描述维度包括但不限于情绪描述维度、作者描述维度、多模态内容类型描述维度以及话题描述维度等等描述维度。其中，候选多模态内容的关联信息包括但不限于候选多模态内容的承载信息和/或用户互动信息。

本实施例中，可选的，步骤“获取对话回复文本与候选多模态内容之间的相关性信息”，可以包括：

获取预测模型，其中，预测模型用于预测对话场景下，各预设类型的候选多模态内容对应的用户偏好程度；

通过预测模型分析对话消息和历史对话信息，预测在当前对话场景下用户对于各预设类型的候选多模态内容的用户偏好程度；

基于预测出的用户偏好程度，从候选多模态内容的预设类型中选择目标类型；

获取对话回复文本与目标类型的候选多模态内容之间的相关性信息。

其中，目标类型可以是候选多模态内容的预设类型中用户偏好程度满足一定条件的类型，如用户偏好程度最高的类型。

本实施例中，预测模型可以是针对于用户的用户偏好程度进行预测的模型。候选多模态内容的预设类型不限，可以是音乐、有声读物、相声以及电视剧等等类型的多模态内容。

本实施例中的用户偏好程度，为是用户对某一类型的候选多模态内容的偏好程度。其中，该用户偏好程度可以是任意表示用户偏好的信息，例如，用户观看预设类型的候选多模态内容的概率，用户在预设类型的候选多模态内容上的停留时长等等信息。

本实施例中，对于候选多模态内容上的停留时长中的“停留时长”，可以理解为对候选多模态内容的浏览、收听、播放、点击、分享以及评论等一些列接触或非接触操作花费的时长。

在一个实施例中，预测模型包括与候选多模态内容的各预设类型对应的预测子模型，预测子模型用于预测对话场景下，在对应的预设类型的候选多模态内容上的用户可能停留时长。

其中，步骤“通过预测模型分析对话消息和历史对话信息，预测在当前对话场景下用户对于各预设类型的候选多模态内容的用户偏好程度”，可以包括：

通过各预测子模型分析对话消息和历史对话信息，以预测在当前的对话场景下，用户在各预设类型的候选多模态内容上的用户可能停留时长。

对应的，步骤“基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型”，可以包括：

从候选多模态内容的预设类型中，选择预测出的用户可能停留时长最长的预设类型作为目标类型。

本实施例中，预测子模型可以基于回归模型实现，可选的，本实施例的智能互动方法还可以包括：

获取回归模型；

获取虚拟用户与用户的样本历史对话信息，以及在样本历史对话信息对应的历史对话过程中，用户在各预设类型的候选多模态内容的历史停留时长；

基于样本历史对话信息以及与样本历史对话信息对应的，用户在各预设类型的候选多模态内容上的历史停留时长，确定各预设类型的候选多模态内容对应的训练样本；

以各预设类型的候选多模态内容对应的训练样本，分别训练一个回归模型，得到各预设类型的候选多模态内容对应的预测子模型。

本实施例中，可以收集用户与虚拟用户已有的对话信息作为样本对话信息，以及收集用户在历史对话过程中，对终端推荐的候选多模态内容的操作情况进行建模，来判断在什么样的对话语境下，给用户推荐什么类型的候选多模态内容，用户的接受度最高。

可选的，本实施例中，将用户与虚拟用户的样本历史对话信息记为x，这里x为文本形式的表达，然后将在历史对话信息对应的对话过程中，用户在多模态内容上花费的时长记为t(即历史停留时长，比如听歌时长、听相声时长、看视频时长等)，其中，不同类型的候选多模态内容对应的时长t视为不同的因变量。

可选的，本实施例中以收集到的用户的语料训练f(x)＝t的回归模型。本实施例中，可以理解的是，候选多模态内容的类型，决定了被训练的回归模型的数量，每一个被训练完成的回归模型可以基于对话消息和历史对话信息预测用户在一种类型的候选多模态内容上的用户可能停留时长。

例如，在真实场景下，对于用户的每一次回复，本实施例可以结合当前的对话消息其对话历史信息，一起输入到训练好的f()中，预测出用户在不同类型的候选多模态内容上的用户可能停留时长。

考虑到用户在当前的对话场景下可能不想接收任何多模态内容，为了避免在用户不想接受多模态内容时，对多模态内容的强行推荐给用户带来的不良体验，本实施例中，可选的，步骤“基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型”前，还可以包括：

基于预测出的用户偏好程度，确定候选多模态内容的预设类型中是否存在用户偏好程度不低于预设最低用户偏好程度的预设类型；

若是，则继续基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤；

若否，则不继续基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤，以对话回复文本作为对话消息对应的回复消息。

可选的，在上述确定结果为是时，步骤“基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型”，可以包括：基于预测出的用户偏好程度，从用户偏好程度不低于预设最低用户偏好程度的预设类型中，选择目标类型。

其中，当选择出的目标类型有多个时，在图2c显示的聊天页面中，显示的回复消息中包含目标多模态内容的候选类型列表，该列表中的候选类型为上述步骤中确定出的目标类型。

对于用户偏好程度为用户可能停留时长的实施例，步骤“基于预测出的用户偏好程度，确定候选多模态内容的预设类型中是否存在用户偏好程度不低于预设最低用户偏好程度的预设类型”，可以包括：

基于预测出的用户可能停留时长，确定候选多模态内容的预设类型中是否存在用户可能停留时长不低于预设最低用户可能停留时长的预设类型。

对应的，在确定出的结果为是时，可以从候选多模态内容的预设类型中选择用户可能停留时长最长的预设类型作为目标类型，继续执行后续的步骤；在确定出的结果为否时，可以不执行基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤，以对话回复文本作为对话消息对应的回复消息。

208、基于相关性信息，从候选多模态内容中确定回复对话消息的目标多模态内容。

可选的，本实施例中，基于相关性信息，可以从候选多模态内容中确定与对话回复文本相关性满足一定预设条件的作为目标多模态内容，例如确定与对话回复文本相关性最高的候选多模态内容，作为回复对话消息的目标多模态内容。

对于目标类型的候选多模态内容，步骤“基于相关性信息，从候选多模态内容中确定回复对话消息的目标多模态内容”，可以包括：

基于相关性信息，从目标类型的候选多模态内容中确定回复对话消息的目标多模态内容。

209、对对话回复文本与目标多模态内容进行组合，得到对话消息对应的回复消息。

可选的，本实施例中，可以基于目标多模态内容生成目标多模态内容的播放询问信息，该播放询问信息中可以包含目标多模态内容的类型、名称以及作者等中的一个或多个信息。其中，可以将目标多模态内容的链接地址作为播放询问信息的链接。

在聊天页面显示回复消息后，当检测到用户对目标多模态内容的播放操作时，根据目标多模态内容的链接地址，播放该目标多模态内容。

本实施例中，在所述聊天页面显示虚拟用户针对所述对话消息的回复消息，时，还可以同步以语音的方式播放回复消息中的文字信息，具体的，播放回复消息中的对话回复文本和目标多模态内容的播放询问信息。

本实施例中，对应每种多模态内容都分开处理是可行的，但势必会增加系统成本和复杂度，为了降低系统成本和复杂度，本实施例提出了一种标签化方法，即将每种多模态内容映射到统一的标签系统上。

比如：

1.[音乐]『陪你度过漫长岁月』，对应标签集合：{治愈系，陪伴，国语，陈xx，励志，温暖}

2.[有声读物]『赋能』，对应标签：{工作，能力，商业，社会科学，社科，成长，心理学}

3.[相声]『我要奋斗』，对应标签：{郭xx，搞笑，开心，奋斗，于x，理想主义，钢丝}

可选的，本实施例中，步骤“获取对话回复文本与目标类型的候选多模态内容之间的相关性信息”，可以包括：

获取目标类型的候选多模态内容的标签集合；

计算对话回复文本和候选多模态内容的标签集合中的标签的相关性信息。

本实施例中，对于多模态内容标签化的方法有很多，本实施例不做限制。可选的，可以通过人工的方式对候选多模态内容进行标签集合的设置；也可以采用自动化打标签的方式得到候选多模态内容的标签集合，比如对于音乐类型的多模态内容，可以通过歌词/歌手/音乐评论等，统计词频信息，使用词频较高的词汇作为音乐的标签。

可选的，本实施例中，在步骤“获取目标类型的候选多模态内容的标签集合”前，还包括：

获取候选多模态内容的承载信息和/或用户互动信息；

其中，多模态内容的承载信息可以包括多模态内容生产出来之后具有的基本信息，例如生产方信息、生产时间信息以及具体的内容信息等等。以视频为例，视频的承载信息可以包括视频中的背景音乐、台词、角色声音、以及视频中的图像帧等等信息。多模态内容的用户互动信息可以理解为用户与多模态内容互动产生的一切信息，包括但不限于用户对多模态内容的评论、以及用户针对多模态内容发送的弹幕等等信息。

可选的，本实施例中，步骤“计算对话回复文本和候选多模态内容的标签集合中的标签的相关性信息”，可以包括：

对对话回复文本进行分析，获取对话回复文本中的关键词；

确定候选多模态内容的标签集合中与关键词相似的相似标签；

基于标签集合中的相似标签，确定标签集合对应的候选多模态内容与所述对话回复文本的相关性信息。

可选的，可以基于标签集合中相似标签的数量，确定标签集合与对话回复文本的相关性信息。标签集合中相似标签的数量越多，则确定标签集合对应的候选多模态内容与所述对话回复文本的相关性越高。

本实施例中，对于相关性信息的计算，还可以采用其他可行的任意方案，本实施例再次不做限定，例如，可以将对话回复文本和标签集合中的标签映射至向量空间，基于映射得到的向量计算对话回复文本和标签集合中的标签的相似度，以该相似度作为相关性信息。

下面以智能系统作为本实施例方法的执行主体，结合图2f所示的聊天页面，对本实施例的智能互动方法进行示例说明。本实施例中，候选多模态内容以及对应的标签集合可以存储于服务器，或者是服务器和终端所属的区块链中，本实施例对此没有限定。

参考图2f，用户和智能系统的对话如下：

用户输入(以下简称用)：你好，小助手

系统输出(以下简称系)：你好

用：想跟你说个事

系：嗯，小助手洗耳恭听

用：我最近有点低落

系：希望小主人开心起来哦，小助手一直陪伴你。[播放陈xx『陪你度过漫长岁月』]

用：我工作不顺利，最近感觉能力提升慢，有什么建议不

系：明白了呢，给小主人分享一本书。[播放有声读物『赋能』]

用：这本书不错，买下来吧

系：略

用：听了之后心情好多了，有没有更好玩的

系：说起好玩的段子，那非郭xx的相声莫属[播放郭xx『我要奋斗』]。

在上述所示的示例中，当系统接收到用户的对话消息“我最近有点低落”时，可以获取历史对话信息，即“用：你好，小助手“，“系：你好“，”用：想跟你说个事”，”系：嗯，小助手洗耳恭听”，基于该历史对话信息和当前的对话消息，得到对话回复文本“希望小主人开心起来哦，小助手一直陪伴你”。还将该历史对话信息和当前的对话消息输入已经训练好的回归模型中，预测在该对话场景下，用户在各类型的候选多模态内容上的用户可能停留时长，假设预测出的用户可能停留时长最长的类型为音乐，则计算音乐类型下的候选多模态内容的标签和对话回复文本“希望小主人开心起来哦，小助手一直陪伴你”的关联性，从而关联上陈xx『陪你度过漫长岁月』这首歌，因为对应了{温暖，陪伴}这些标签。

而当系统接收到用户的对话消息“我工作不顺利，最近感觉能力提升慢，有什么建议不”时，可以获取历史对话信息，即“用：你好，小助手“，“系：你好“，”用：想跟你说个事”，”系：嗯，小助手洗耳恭听”，“用：我最近有点低落”，“系：希望小主人开心起来哦”。基于该历史对话信息和当前的对话消息，得到对话回复文本“明白了呢，给小主人分享一本书”。还将该历史对话信息和当前的对话消息输入已经训练好的回归模型中，预测在该对话场景下，用户在各类型的候选多模态内容上的用户可能停留时长，确定预测出的用户可能停留时长最长的类型为有声读物，则计算有声读物类型下的候选多模态内容的标签和对话回复文本“明白了呢，给小主人分享一本书”的关联性，从而关联上有声读物“赋能”，因为对应了{{工作，能力}这些标签。

采用本申请实施例，可以显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；在所述聊天页面显示虚拟用户针对所述对话消息的回复消息；其中，所述回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容，该智能互动方法不仅能回复用户文本消息，还能根据用户与虚拟用户的对话历史和用户的当前输入，给用户推荐适合的多模态内容，极大地增加了聊天的趣味性和对用户的吸引力，同时还能将无目的的闲聊转化到有目的地听音乐以及听有声读物等场景，并增加潜在的商业化可能，如音乐付费、和有声读物付费等等。

为了更好地实施以上方法，相应的，本发明实施例还提供一种智能互动装置，该智能互动装置可以集成在终端中，参考图3该智能互动装置包括：

页面显示单元301，用于显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；

回复显示单元302，用于在所述聊天页面显示虚拟用户针对所述对话消息的回复消息；其中，所述回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；

播放单元303，用于当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容。

在一个实施例中，播放单元303，包括：

虚拟转移页面显示子单元，用于当检测到用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容对应的虚拟资源转移页面；

虚拟资源转移子单元，用于基于用户针对所述虚拟资源转移页面的虚拟资源转移操作，触发针对所述目标多模态内容的虚拟资源转移；

播放子单元，用于当所述虚拟资源转移成功时，播放所述目标多模态内容。

在一个实施例中，回复显示单元，用于在所述聊天页面显示所述回复消息中的对话回复文本，以及目标多模态内容列表，其中，所述目标多模态内容列表中包含至少两个目标多模态内容。

在一个实施例中，在所述聊天页面还显示有所述目标多模态内容的候选类型列表，所述候选类型列表中包括所述目标多模态内容的候选类型；

所述装置还包括：切换显示单元，用于当检测到用户针对所述候选类型列表中的候选类型的选定操作时，在所述目标多模态内容列表中切换显示被选择候选类型的目标多模态内容。

在一个实施例中，播放单元，用于当检测到所述用户针对所述目标多模态内容的播放操作时，显示所述目标多模态内容的播放页面，其中，所述播放页面上还显示有与所述目标多模态内容相似的相似多模态内容。

在一个实施例中，播放单元，用于当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容中的目标内容片段，其中，所述目标内容片段为所述目标多模态内容中与所述对话回复文本的语义关联的内容片段。

在一个实施例中，本实施例的智能互动装置，还包括：

对话获取单元，用于当接收到用户针对所述虚拟用户发送的对话消息时，获取所述虚拟用户与所述用户的历史对话信息；

生成单元，用于基于所述对话消息和历史对话信息，生成所述对话消息的对话回复文本；

相关性获取单元，用于获取所述对话回复文本与候选多模态内容之间的相关性信息；

确定单元，用于基于所述相关性信息，从所述候选多模态内容中确定回复所述对话消息的目标多模态内容；

组合单元，用于对所述对话回复文本与目标多模态内容进行组合，得到所述对话消息对应的回复消息。

在一个实施例中，相关性获取单元，包括：

第一获取子单元，用于获取预测模型，其中，所述预测模型用于预测对话场景下，各预设类型的候选多模态内容对应的用户偏好程度；

选择子单元，用于基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型；

第二获取子单元，用于获取所述对话回复文本与所述目标类型的候选多模态内容之间的相关性信息。

在一个实施例中，所述预测模型包括与候选多模态内容的各预设类型对应的预测子模型，所述预测子模型用于预测对话场景下，在对应的预设类型的候选多模态内容上的用户可能停留时长；

所述选择子单元，用于从所述候选多模态内容的预设类型中，选择预测出的用户可能停留时长最长的预设类型作为目标类型。

在一个实施例中，所述装置还包括控制单元，用于在选择子单元基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型前，基于预测出的用户偏好程度，确定所述候选多模态内容的预设类型中是否存在用户偏好程度不低于预设最低用户偏好程度的预设类型；若是，则控制选择子单元继续所述基于预测出的用户偏好程度，从所述候选多模态内容的预设类型中选择目标类型的步骤。

在一个实施例中，第二获取子单元，用于：

获取所述目标类型的候选多模态内容的标签集合；

计算所述对话回复文本和所述候选多模态内容的标签集合中的标签的相关性信息。

在一个实施例中，智能互动装置还包括模型处理单元，用于：

获取回归模型；

以各预设类型的候选多模态内容对应的训练样本，分别训练一个所述回归模型，得到各预设类型的候选多模态内容对应的预测子模型。

在一个实施例中，智能互动装置还包括标签设置单元，用于在第二获取子单元获取所述目标类型的候选多模态内容的标签集合前，获取候选多模态内容的承载信息和/或用户互动信息；基于候选多模态内容的承载信息和/或用户互动信息，分析候选多模态内容在至少一个描述维度上的特征，为候选多模态内容生成至少一个描述维度上的标签，得到候选多模态内容的标签集合。

在一个实施例中，第二获取子单元，用于：

对所述对话回复文本进行分析，获取所述对话回复文本中的关键词；

确定候选多模态内容的标签集合中与关键词相似的相似标签；

基于标签集合中的相似标签，确定标签集合对应的候选多模态内容与所述对话回复文本的相关性信息。

在一个实施例中，所述第二获取子单元，用于：

获取所述虚拟用户与所述用户在当前对话场景下产生的历史对话信息；

或者，获取距离当前时刻预设时长的历史时间段内，所述虚拟用户与所述用户的历史对话信息；

或者，获取所述虚拟用户与所述用户的，且属于目标话题的历史对话信息，其中，所述目标话题为所述对话消息所属的话题。

在一个实施例中，生成单元，包括：

话题确定子单元，用于确定所述历史对话信息所属话题的话题信息；

描述信息获取子单元，用于获取所述历史对话信息的含义描述信息，以及所述对话消息的含义描述信息；

文本确定子单元，用于基于所述话题信息、历史对话信息的含义描述信息以及对话消息的含义描述信息，确定所述对话消息的对话回复文本。

本发明实施例公开了的装置，可以显示用户与虚拟用户之间的聊天页面，其中，聊天页面中包括用户当前向虚拟用户发送的对话消息；在聊天页面显示虚拟用户针对对话消息的回复消息；其中，回复消息包括虚拟用户自动生成的对话回复文本、以及对话回复文本关联的目标多模态内容；当检测到用户针对目标多模态内容的播放操作时，播放目标多模态内容，由此，可以在对话过程中，用文本搭配多模态内容等来回复用户，丰富了与用户的对话形式，极大地增加了聊天的趣味性和对用户的吸引力。

此外，本发明实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图4所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402和电源403等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或单元，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，在一个实施例中，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及单元，处理器401通过运行存储在存储器402的软件程序以及单元，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

当计算机设备为终端时，该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。当然，可以理解的是，本实施例中并不排除服务器包括输入单元的方案，本实施例的服务器也可以包括上述的输入单元404。

尽管未示出，本实施例的计算机设备如终端还可以包括显示单元等，在此不再赘述。类似的，本实施例中并不排除服务器包括显示单元的方案，本实施例中的服务器也可以包括显示单元。

具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

显示用户与虚拟用户之间的聊天页面，其中，所述聊天页面中包括用户当前向虚拟用户发送的对话消息；

当检测到所述用户针对所述目标多模态内容的播放操作时，播放所述目标多模态内容。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的计算机设备可以实现在闲聊的过程中，用文本搭配音乐、歌曲、有声读物或视频等多模态内容来回复用户。

本发明实施例涉及的回复信息生成系统可以是由客户端、多个节点(接入网络中的任意形式的计算机设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图5，图5是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(p2p，peertopeer)网络，p2p协议是一个运行在传输控制协议(tcp，transmissioncontrolprotocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。本实施例中，预测模型、训练样本、虚拟用户与用户的当前对话信息和历史对话信息、目标多模态内容、以及候选多模态内容和对应的标签集合等信息，均可以通过分布式系统的节点被存储在区域链系统的共享账本中，计算机设备(例如终端或服务器)可以基于共享账本存储的记录数据获取候选多模态内容、及其对应的标签集合，以及目标多模态内容。

参见图5示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图6，图6是本发明实施例提供的区块结构(blockstructure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种智能互动方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种智能互动方法中的步骤，因此，可以实现本发明实施例所提供的任一种智能互动方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种智能互动方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：缪畅宇
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种快捷DIY烹饪器具的制作方法
上一篇：一种基于多活数据中心的流量切换方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。