用于交互的虚拟人物对话的系统和方法
【专利说明】
[0001] 相关申请交叉引用
[0002] 本申请要求2013年3月14日提交的美国申请号13/829, 925的优先权,其通过引 用被全部合并于此。
技术领域
[0003] 多个已公开的实施例关注于基于对话的人机交互的系统和方法。
【背景技术】
[0004] 人机交互(肥I)包含人与机器间的交互,重点在于计算机科学、认知科学、界面设 计和其他领域的交叉。人工智能(Al)是另一发展中的学科,其包括允许计算机系统有机地 应答用户输入的适应性行为。尽管AI可能通过提供虚拟人物与用户进行交互被用于增强 肥I,但如果该AI不可信任,则该交互可能似乎对该用户而言是稳定和仿真的。运在AI未 能解释关于交互的上下文要素和在与用户交互时未能维持"逼真的"的人物角色时尤其如 此。尽管是很好的人人交互的方法,但由于对话的上下文和固有地模糊的特性,对话可能对 AI系统而言尤其成问题。即使是更容易接受无生命人物为有生命实体的儿童,也能够在对 话的AI变得与人机交互内容无关时识别出。通过人机交互教导和吸引儿童将是非常令人 满意的,但必须克服无生命和前后无知的AI行为的障碍。 阳0化]因此,存在向用户、尤其是年轻用户,提供有效的人机交互的系统和方法的需要, 其适应交谈对话的挑战。
【发明内容】
[0006] 某些实施例设想了一种使用户参与与虚拟人物对话的方法,所述方法包括:接收 来自用户的音频输入,所述音频输入包括语音;获取所述语音的文本描述;基于所述文本 描述确定应答音频输出;和引发虚拟人物使用所确定的应答音频输出发言。
[0007] 在一些实施例中,所述方法进一步包括接收包括来自用户的语音的多种音频输 入,所述多种音频输入与一个或多个虚拟人物的多种发言输出相关联。在一些实施例中,所 述多种音频输入包括由一个或多个虚拟人物提出的问题的答案。在一些实施例中,所述多 种音频输入包括文字叙述且所述一个或多个虚拟人物的多种发言输出包括即兴讲述或对 所述叙述的评论。在一些实施例中,所述多种音频输入包括在关于话题的对话中的陈述。在 一些实施例中,所述获取所述语音的文本描述包括将所述音频输入传输至专用的语音处理 服务。在一些实施例中,其中所述接收音频输入包括确定是否执行一个的"自动声音活动监 巧U"、"按住说话"、"轻击说话"或"轻击说话伴随静默监测"操作。在一些实施例中,所述方 法进一步包括更改图标W反映所确定的音频输入操作。在一些实施例中,所述确定应答音 频输出包括确定用户个性化元数据。在一些实施例中,所述方法进一步包括获取与所述应 答音频输出相关联的音素元数据W用于动画化一些人物的面部特征的目的。在一些实施例 中,所述方法进一步包括审视来自所述用户的多种回复并基于所述审视执行更多的字符间 的对话而非用户-字符的对话。在一些实施例中,所述方法进一步包括将优先次序元数据 与所述虚拟人物的每个潜在的应答相关联并使用运些优先次序元数据使得可能的应答在 其他应答之前被输出。在一些实施例中,所述引发虚拟人物使用所确定的应答语音输出发 言包括引发所述虚拟人物提议使用用户设备拍摄照片。在一些实施例中,所述的方法进一 步包括使用用户设备引发用户拍摄照片;和发送所述照片至社交网络的一个或多个用户。
[0008] 某些实施例设想了一种使用户可视化参与与虚拟人物的对话的方法,包括:检索 与交互场景相关联的多个组件,所述交互场景由用户选择;配置所述多个组件的至少一个 代表所述场景中的虚拟人物;和传输所述多个组件的至少一些至用户设备。
[0009] 在一些实施例中,所述方法进一步包括检索与用户关联的个性化元数据并基于所 述个性化元数据更改所述多个组件的至少一个。在一些实施例中,所述检索多个组件包括 从数据库检索多个语音波形。
[0010] 部分实施例设想了一种使用户参与与虚拟人物对话的计算机系统,所述系统包 括:显示器;处理器;通讯端口;包含指令的存储器,其中所述指令被配置为引发所述处理 器进行:接收来自用户的音频输入,所述音频输入包括语音;获取所述语音的文本描述;基 于所述文本描述确定应答音频输出;和引发虚拟人物使用所确定的应答音频输出发言。
[0011] 在一些实施例中,所述接收音频输入包括确定是否执行一个的"自动声音活动监 巧U"、"按住说话"、"轻击说话"或"轻击说话伴随静默监测"操作。在一些实施例中,所述指 令进一步被配置为引发所述处理器更改图标W反映所确定的操作。在一些实施例中,确定 应答音频输出包括确定用户个性化元数据。在一些实施例中,所述指令进一步被配置W引 发所述处理器获取与所述应答音频输出相关联的音素元数据W用于动画化一些人物的面 部特征的目的。在一些实施例中,所述指令进一步被配置W引发所述处理器审视来自所述 用户的多种回复并基于所述审视执行更多的字符间的对话而非用户-字符的对话。在一些 实施例中,所述指令进一步被配置为引发所述处理器将优先次序元数据与所述虚拟人物的 每个潜在的应答相关联并使用运些优先次序元数据使得可能的应答在其他应答之前被输 出。在一些实施例中,引发虚拟人物使用所确定的应答音频输出发言包括引发所述虚拟人 物提议使用用户设备拍摄照片。
[0012] 部分实施例设想了一种使用户参与与虚拟人物对话的计算机系统,所述计算机系 统包括:接收来自用户的音频输入的装置,所述音频输入包括语音;确定所述语音的描述 的装置;基于所述描述确定应答音频输出的装置;和引发虚拟人物使用所确定的应答音频 输出发言的装置。
[0013] 在一些实施例中所述音频输入接收装置包括麦克风、数据包接收模块、WiFi接收 器、蜂窝网络接收器、W太网连接器、无线电接收器、本地连接器或者便携式存储器装置的 接口中的一个。在一些实施例中,所述确定所述语音的描述的装置包括专用语音处理服 务器的连接器、自然语言处理程序、语音识别系统、隐马尔可夫模型或贝叶斯分类器中的 一个。在一些实施例中,所述确定应答音频输出的装置包括人工智能引擎、机器学习分类 器、决策树、状态转换图、马尔可夫模型或贝叶斯分类器中的一个。在一些实施例中,所述 虚拟人物语音装置包括扬声器、移动装置上的扬声器的连接器、与用户设备通信的WiFi发 射器、数据包传输模块、与用户设备通信的蜂窝网络发射器、与用户设备通信的W太网连接 器、与用户设备通信的无线电发射器或与用户设备通信的本地连接器中的一个。
【附图说明】
[0014] 在附图的图示中W示例的方式而不是限定性的方式示出本发明的一个或多个实 施例,其中相似附图标记表示类似的元素。
[0015] 图1示出了可实施于某些实施例的系统中的各组件的框图。
[0016] 图2示出了可在某些实施例中使用的虚拟环境中的多个交互场景间的拓扑关系。
[0017] 图3示出了可实施于某些实施例的虚拟环境中的主场景的图形用户界面(GUI)的 示例截图。
[0018] 图4示出了可实施于某些实施例的虚拟环境中的"炉边谈话场景"GUI的示例截 图。
[0019] 图5示出了可实施于某些实施例的虚拟环境中的"对抗场景"GUI的示例截图。
[0020] 图6示出了可实施于某些实施例的虚拟环境中的"游戏竞赛场景"GUI的示例截 图。
[0021] 图7示出了可实施于某些实施例的虚拟环境中的"讲故事场景"GUI的示例截图。
[0022] 图8是可实施于某些实施例的描述虚拟环境中的用户交互过程中某些步骤的流 程图。
[0023] 图9是可实施于某些实施例的描述基于组件的内容管理和传输过程中某些步骤 的流程图。
[0024] 图10示出了可实施于某些实施例的组件创造和管理系统GUI的示例截图。
[00巧]图11是可实施于某些实施例的描述动态AI对话管理过程中的某些步骤的流程 图。
[00%] 图12是可实施于某些实施例的描述挫折管理过程中某些步骤的流程图。
[0027] 图13是可实施于某些实施例的描述语音接收过程中某些步骤的流程图。
[0028] 图14示出了可实施于某些实施例的社交资源分享GUI的示例截图。
[0029] 图15示出了可实施于某些实施例的图14中社交资源分享GUI中的信息草拟工具 的示例截图。
[0030] 图16是可实施于某些实施例的社交图像捕获捕获过程中某些步骤的流程图。
[0031] 图17示出了可实施于某些公开的实施例的计算机系统中的组件的框图。 具体实施例
[0032] 下文中的说明书和附图是示例性的而不应视为限制的解释。大量的具体细节被阐 述W提供对本发明的彻底理解。但是,在某些情况下,公知的细节并未被阐述W避免使本说 明书模糊。对本公开中一个或一实施例的参考可W是,但并不一定是对相同实施例的参考; 并且运种参考表示至少一个的实施例。
[0033] 本说明书中对"一个实施例"或"一实施例"的参考是指结合实施例描述的特定特 征、结构或特性被包含在本公开的至少一个实施例中。在本说明书中的多处出现的短语"在 一个实施例中"并不一定都