本发明涉及智能机器人领域,具体地说,涉及一种基于机器人角色交互的处理方法及装置。
背景技术:
当前的机器人行业发展迅速,出现了各种各样的家庭生活陪伴类机器人。这些机器人中,有一些是对热门的动漫IP(Intellectual Property)形象的实体化。比如,针对时下比较流行的动漫形象葫芦娃,可以将实体机器人设计成葫芦娃的样子。然而,实体机器人仅仅在形象上与动漫IP类似还不够,还需要在日常表达以及行为习惯上与该动漫IP类似,才能提升用户的体验。
为此,就需要一种能够模仿动漫形象进行多模态输出的实体机器人的技术方案的设计,从而使得实体机器人更能满足用户对陪伴的需求。
技术实现要素:
本发明的目的在于解决现有技术的实体机器人不能满足用户的陪伴的需求的问题,提供了一种基于机器人角色交互的数据处理方法。该方法包括以下步骤:
接收用户的多模态输入数据;
根据所接收的多模态输入数据,调用结合所述机器人代表的角色而生成的语言输出模型,产生多模态输出数据;
输出所产生的多模态输出数据。
根据本发明的基于机器人角色交互的数据处理方法,所生成的语言输出模型包括经典句输出模型、角色特点输出模型、情景输出模型。
根据本发明的基于机器人角色交互的数据处理方法,在生成所述语言输出模型时,包括以下步骤:
预先获取与所述机器人代表的角色有关的历史对话文本;
对所述历史对话文本进行训练,以生成与所述角色相适应的语言输出模型。
根据本发明的基于机器人角色交互的数据处理方法,在对所述对话文本进行训练时,采用RNN(Recurrent Neural Net,循环神经网络)算法对所述对话文本进行训练。
根据本发明的一个实施例,在输出多模态输出数据时,采用与所代表的角色相匹配的定制TTS(Text to Speech,文本到语音)来进行语音合成输出。
根据本发明的另一个方面,还提供了一种基于机器人角色交互的数据处理装置。该装置包括以下单元:
多模态输入数据接收单元,其用于接收用户的多模态输入数据;
多模态输出数据产生单元,其用于根据所接收的多模态输入数据,调用结合所述机器人代表的角色而生成的语言输出模型,产生多模态输出数据;
输出单元,其用于输出所产生的多模态输出数据。
根据本发明的基于机器人角色交互的数据处理装置,所生成的语言输出模型包括经典句输出模型、角色特点输出模型、情景输出模型。
根据本发明的基于机器人角色交互的数据处理装置,用于生成所述语言输出模型的单元包括:
预先获取单元,其用于预先获取与所述机器人代表的角色有关的历史对话文本;
训练单元,其用于对所述历史对话文本进行训练,以生成与所述角色相适应的语言输出模型。
根据本发明的基于机器人角色交互的数据处理装置,在对所述对话文本进行训练时,采用RNN算法对所述对话文本进行训练。
根据本发明的基于机器人角色交互的数据处理装置,其特征在于,在输出多模态输出数据时,采用与所代表的角色相匹配的定制TTS来进行语音合成输出。
本发明所带来的有益之处在于,根据本发明的机器人不仅外形与所模仿的卡通形象类似,在与用户进行互动时也能模仿该卡通形象,从而使得实体机器人的对人类的陪伴功能更加完善,因而更加能够满足人类对陪伴的需求。更进一步地,通过结合定制TTS技术,将机器人说话的声音设置成卡通里的声音,则可以使得根据本发明的实体机器人的交互输出更加贴近它所代表的这个角色。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1为根据本发明的一个实施例的基于角色交互的数据处理方法的流程图;
图2显示了根据本发明的一个实施例的语言输出模型的分类示意图;
图3显示了根据本发明的一个实施例进行语言输出模型例程调用的流程图;以及
图4显示了根据本发明的一个实施例的基于机器人角色交互的数据处理装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明实施例作进一步地详细说明。
正如前所述,由于当前的机器人行业发展迅速,出现了很多各式各样的家庭生活、陪伴机器人。这些机器人中,有一部分是对热门ip形象的实体化,比如热门动漫形象葫芦娃,可以做成一个葫芦娃的实体机器人(以下统称IP实体)(本发明包括但不限于能够支持人机自然对话交互的机器人、玩具等)。
为此,本发明提供了一种新的方式来让卡通漫画中的ip形象所有的经历、背景等信息,能够相对完善的迁移到实体机器人上,从而实体机器人能够像卡通、动漫里面一样来跟人对话。更进一步地,通过结合定制文本到语音TTS技术,将机器人说话的声音设置成卡通里的声音,则可以更加贴近这个角色。
以下通过实施例的方式详细介绍本发明的实现方法和基本原理。
图1显示了根据本发明的一个实施例的基于角色交互的数据处理方法的流程图。
在图1中,方法开始于步骤S101。当用户需要与设计为自己喜欢的卡通形象的机器人进行交互时,用户会发出特定的语音或动作来指示机器人实体交互行为将要发生。例如,用户会说出特定的招呼语句或者其他语句或动作。实体机器人接收到该指令后,接下来,在步骤S102中,接收用户的多模态输入数据。
在多模态交互场景下,用户的多模态输入数据包括表情输入、语音输入、动作输入等。根据本发明的实体机器人需要将这些类别的输入进行识别,从而获取用户的意图。
接下来,在步骤S103中,实体机器人根据所接收的多模态输入数据如人类的表情输入、语音输入、动作输入,调用结合该实体机器人代表的角色而生成的语言输出模型,从而产生多模态输出数据。
如图2所示,根据本发明所产生的语言输出模型按照分类可包括经典句输出模型201、角色特点输出模型202以及情景输出模型203。针对经典句输出模型201,在交互过程中,IP实体会结合不同的场景说出该IP角色最经典的语句。针对角色特点输出模型202,在交互过程中,涉及到IP角色的一些特点时,IP实体机器人能够准确的进行反馈。针对情景输出模型203,在交互过程中,涉及到动画里的一些场景时,IP实体机器人能够将动画中的情节完整地表达出来,与现实情境无缝对接。
在经典句输出模型的一个具体例子中,例如实体机器人为经典角色一休的机器人,当用户与它进行交互时,该机器人可以结合不同的场景,说出这个IP角色最经典的语句,例如它的口头禅“休息,休息一下吧!”更优选的是,该机器人还可以配以相应的经典动作,从而使得模仿更加相似。
在角色特点输出模型的一个具体例子中,例如实体机器人为多啦A梦机器人,当用户与它进行交互时,问及“你最喜欢吃什么呀?”机器人会回答“我最喜欢吃铜锣烧啊!”,问及“大熊最喜欢谁啊?”机器人会回答“当然是静香啦!”
在情景输出模型的一个具体例子中,例如实体机器人还是哆啦A梦机器人,当用户与它进行交互时,问及“吃了你的记忆面包真失败!”时,机器人会回答“谁让你平时不努力用功呀!”这种动画里面的该特定场景对话。
这些特定的语言输出需要实体机器人针对之前输入的动画中该角色的大量语料进行不断地学习,从而产生特定的语言输出模型,例如情境类语言输出模型、经典句输出模型以及角色特点类输出模型。
下面介绍根据本发明所进行的语言输出模型的建立。
如图3所示,在步骤S301中,在调用结合该实体机器人代表的角色而生成的语言输出模型时,语言输出模型并不是一开始就存在的,而是根据输入的语料进行不断学习而产生的。在步骤S302中,实体机器人可以预先获取与其代表的角色有关的历史对话文本。历史对话文本不必是全部的对话历史数据。也可以通过计算分析,只要输入一些经典句,便可以通过循环神经网络算法进行学习从而生成所需要的语言输出模型,步骤S303。通过学习历史数据,机器人可以模仿特定角色的讲话特点,在特定情境中用其特有的说话方式进行表达。
在根据获取的历史对话文本对模型进行训练时,采用RNN循环神经网络算法对对话文本进行训练,从而获得语言输出模型。本发明除了采用RNN循环神经网络算法进行语言模型的生成,还可以应用现有已公开的任何一种算法进行这类对话模型的生成。
最后,在步骤S104中,实体机器人根据对话模型,输出对应的多模态表达。在输出的多模态输出数据中,其相应地也可以包括情感表达数据、动作表达数据和语音表达数据。
根据本发明的一个实施例,在输出多模态输出数据时,可以采用与所代表的角色相匹配的定制TTS来进行语音合成输出。定制TTS表示该语音输出专为为机器人特别定制的语音合成,这样使得机器人不仅模仿到了卡通形象的语言还模仿到了它的语音。如果配以相应的特色动作输出,该实体机器人将会成为一个真正的卡通形象代表。
如图4所示,本发明还提供了一种基于机器人角色交互的数据处理装置400。该装置包括以下单元:
多模态输入数据接收单元401,其用于接收用户的多模态输入数据;
多模态输出数据产生单元402,其用于根据所接收的多模态输入数据,调用结合所述机器人代表的角色而生成的语言输出模型,产生多模态输出数据;
输出单元403,其用于输出所产生的多模态输出数据。
所生成的语言输出模型包括经典句输出模型、角色特点输出模型、情景输出模型。
其中,用于生成所述语言输出模型的单元包括:
预先获取单元,其用于预先获取与所述机器人代表的角色有关的历史对话文本;
训练单元,其用于对所述历史对话文本进行训练,以生成与所述角色相适应的语言输出模型。
根据本发明,在对所述对话文本进行训练时,采用RNN循环神经网络算法对所述对话文本进行训练。在根据获取的历史对话文本对模型进行训练时,采用RNN循环神经网络算法对对话文本进行训练,从而获得语言输出模型。本发明除了采用RNN循环神经网络算法进行语言模型的生成,还可以应用现有已公开的任何一种算法进行这类对话模型的生成。
在输出多模态输出数据时,采用与所代表的角色相匹配的定制TTS来进行语音合成输出。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。