语音交互方法及设备与流程

文档序号:17493663发布日期:2019-04-23 20:58阅读:213来源:国知局
语音交互方法及设备与流程

本申请涉及语音交互技术领域,尤其涉及语音交互方法及设备。



背景技术:

随着语音交互的发展,用户可以使用智能音箱等智能设备进行语音交互。例如,用户可以通过语音命令控制智能音箱执行音乐播放、天气查询等操作。然而,现有的智能音箱播报时相对生硬,给用户的体验较差。



技术实现要素:

根据本申请一方面,提供一种语音交互方法,包括:通过至少一个设备获取用户输入指令,所述用户输入指令至少包括语音指令;根据播放内容的设备的个数,以及用户输入指令,确定回复内容;播放所述回复内容。

根据本申请一方面,提供一种语音交互设备,包括:接收单元,用于获取用户输入指令,所述用户输入指令至少包括语音指令;通信单元,用于将获得的对所述用书输入指令的回复内容发送给至少一个语音交互设备;播放单元,用于播放所述回复内容。

综上,根据本申请的语义交互方案可以响应于用户输入指令,获取对一个或多个播放内容的设备的回复内容,从而可以灵活的在一个或多个设备中播放回复内容。更进一步的,当语义交互方案在多个设备之间建立配对关系时,还可通过获取群聊内容而控制多个设备进行内容播放时模拟群聊的场景,进而模拟出多人会话的场景,进一步提升人机交互时的用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出了根据本申请一些实施例的应用场景的示意图;

图2示出了根据本申请一些实施例的应用场景的示意图;

图3a示出了根据本申请一些实施例的语音交互方法300的流程图;

图3b示出了根据本申请一些实施例的确定回复内容的方法的流程图;

图3c示出了根据本申请一些实施例的筛选设备的示意图;

图3d示出了根据本申请一些实施例的聊天场景图。

图4示出了根据本申请一些实施例的语音处理设备400的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1示出了根据本申请一些实施例的应用场景100的示意图。

如图1所示,应用场景100例如可以包括:第一设备110、第二设备120、第三设备130、第四设备140、用户设备150和服务系统160。第一设备110、第二设备120、第三设备130和第四设备140均可以接收内容并进行音频播放。

在一些实施例中,第一设备110、第二设备120、第三设备130和第四设备140均可以与服务系统150进行通信。另外,第一至第四设备均可以接收用户输入指令。用户输入指令至少包括语音指令,还可以是通过用户设备150输入的文字内容或者用户对第一至第四设备的按键操作等等。在此基础上,第一至第四设备响应于用户输入指令,向服务系统160发送内容请求。内容请求可以包括用户输入指令和设备标识。服务系统160可以分别向各设备返回与各设备标识对应的回复内容。这样,第一至第四设备可以播放回复内容。在一些实施例中,第一至第四设备播放的回复内容可以组成群播内容。群播内容可以模拟不同角色之间的对话。这里,第一至第四设备例如可以被预设有特定的角色。设备的回复内容为具有特定角色语言特色的回复内容。在上述实施例中,第一至第四设备例如可以是人偶造型的机器人,机器人可以包括可以获取用户输入的底座和设置在底座上的音箱,但不限于此。其中所述底座与音箱可拆卸,两者之间至少可形成通信连接,当两者产生电连接时,所述底座还可以成为音箱的充电装置。

在一些实施例中,多个设备中一个可以被选择为能够获取到用户输入指令。例如,第一设备110可以被选择为获取用户输入指令。另外,第一设备110可以建立与其他多个设备之间的配对关系。例如,第一设备110建立与第二设备120、第三设备130和第四设备140的配对关系。例如,第一设备140接收语音输入:“打开王者配对”。服务系统160确定该语音输入的语义确定该语义为联网指令,即表示建立第一设备110与多个设备的通信连接的指令。第一设备110在接收到联网指令后,可以与附近的设备建立通信连接,采用的通信连接方式包括但不限于蓝牙等。这里,附近的设备是指可以接收第一设备110的通信信号的设备。在上述实施例中,第一设备例如为人偶造型的机器人。第二至第四设备可以是机器人,也可以是不包括底座的音箱。所述建立好的配对关系可以存储在服务器上也可以存储在用于建立通信连接的第一设备上。

在一些实施例中,机器人还可以包括用于拾音器和处理语音的数据信号处理器等器件。机器人例如可以安装各种嵌入式操作系统,例如,林纳克斯(linux)、安卓(android)或者其他片上系统(systemonchip,缩写为soc)。

用户设备150可以包括但不限于掌上型计算机、可穿戴计算设备、个人数字助理(pda)、平板计算机、笔记本电脑、台式计算机、移动电话、智能手机、增强型通用分组无线业务(egprs)移动电话、或任意两个或更多的这些数据处理设备或其他数据处理设备的组合。

服务系统160可以包括一个或多个服务器节点(图1未示出)。从内容角度而言,服务系统160可以包括:多个语料库(例如第一语料库161、第二语料库162等等)、表演节目数据库163、游戏数据库164和游戏解说数据库165。这里,多个语料库(例如第一语料库161、第二语料库162等等)、表演节目数据库163、游戏数据库164和游戏解说数据库165中任一个均可以部署在服务系统160的一个或多个服务器节点中。第一设备110和服务系统160可以通过一个或多个网络106进行通信。一个或多个网络106的示例包括局域网(lan)和广域网(wan)。本申请的实施例可以使用任意公知的网络协议来实现一个或多个网络106,包括各种有线或无线协议,诸如,以太网、firewire、全球移动通讯系统(gsm)、增强数据gsm环境(edge)、码分多址(cdma)、时分多址(tdma)、wifi、ip语音(voip),wi-max,或任意其他适合的通信协议。

在一些实施例中,第一设备110可以接收用户语音,并获取对用户语音进行降噪滤波等语音处理后得到的语音输入指令。数据处理设备140可以将语音输入指令连通要播放内容的设备个数、各设备的标识(例如第一至第四设备的标识)发送到服务系统160。服务系统160可以识别语音输入的语义,并根据语义进行操作。例如,语音输入的语义为用户的一个提问,服务系统160可以从语料库获取与语音输入对应的反馈内容。服务系统160可以根据设备个数和各设备的标识为各播放内容的设备确定回复内容。例如,在第一设备110和第二设备120配对的双机模式时,回复内容例如可以是由第一设备110和第二设备120进行播放的语料。播放的语料例如是多个语句。每个语句与两个设备中一个的标识关联。第一设备140可以从服务系统160获取回复内容,并且将回复内容中分配到第一设备110和第二设备120。在此基础上,第一设备110和第二设备120播放的回复内容可以组成模拟对话。这里,响应于用户的提问,第一设备110和第二设备120模拟对话的工作方式可以称为闲聊模式。这里第一设备与第二设备的交互还可以进一步扩展为第一设备与多个其他设备之间的交互。

在一些实施例中,语音输入的语义为进行节目表演时,服务系统160可以从表演节目数据库163获取回复内容。例如,在第一设备110属于单机模(即播放内容设备仅包括第一设备110)式时,服务系统160可以获取适合由一个设备播放的节目。又例如,在第一设备110和第二设备120属于双机模式时,回复内容例如可以是由第一设备110和第二设备120进行模拟对话的语料。这里,回复内容例如为适合由第一设备110和第二设备共同播放的节目。节目例如为相声、说唱、短视频段子或者歌曲合唱等等。其中,所述第一设备与第二设备分别具有各自的语言特色,和/或语音特色,当节目为相声时、说唱、短视频段子或者歌曲合唱时,两设备可以通过轮播或者同时播放的方式,达成两个角色的对口相声、二人说唱、二人合唱等效果。这里第一设备与第二设备的交互还可以进一步扩展为第一设备与多个其他设备之间的交互。

在特定场景中,用户输入指令为对解说模式(例如为游戏解说模式)的触发输入。获取请求包括第一设备110获取的触发输入指令和播放内容的设备的个数。响应于获取请求,服务系统160可以根据预先绑定的用户账号实时获取用户设备150的游戏过程中的数据(例如,当所述指令对应的游戏为“王者荣耀”时,获取的数据即为“王者荣耀”的游戏数据)。服务系统160的游戏数据库164例如可以存储游戏过程中的数据。服务系统160可以根据游戏数据库164中的游戏过程中的关键游戏事件。这里,关键游戏事件也可以称为用户操作引起的重要游戏事件。由于用户过程中游戏事件是持续不断产生的。服务系统160可以预定一些关键游戏事件。这里,预定的关键游戏事件也可以称预定的策略点。响应于发现关键游戏事件(也可以称为关键游戏事件),服务系统160可以获取与关键游戏事件有关的解说内容,并将解说内容作为回复内容。解说内容例如可以是游戏策略指导内容,游戏事件评价内容等等。服务系统160例如可以从游戏解说数据库查询与关键游戏事件有关的解说内容并发送到第一设备110。需要说明的是,服务系统160可以根据播放设备的个数选定解说内容。例如,播放设备仅包括第一设备110时,服务系统160可以获取适合由一个设备播放的解说内容。又例如,播放内容多喝设备博爱扩两个时,服务系统160可以获取适合两个播放内容的设备进行对话的解说对话。又例如,播放内容的设备为三个时,服务系统160获取适合获取三个设备的群聊内容。另外说明的是,当用户输入指令指向特定场景(例如解说场景)时,服务系统160可以获取预设回复内容的播放时间,当播放时间在特定场景设定播放时间阈值之内时,将其作为备选的回复内容。这样,例如在游戏中,用户需要及时获得策略协助的场景下,本申请的实施例可以避免因回复内容时间过长而影响用户获得信息的及时性,从而提高用户体验度。这里通过播放时间对回复内容进行的筛选可以由服务器执行,也可以由用于建立通信连接的第一设备110执行。

综上,应用场景100中第一设备110可以建立与多个播放内容的设备(例如120、130和140)的连接,即将工作模式设置为多设备模式。在此基础上,服务系统160例如可以根据用户输入指令对聊天内容的请求,返回适合由多个设备播放的聊天内容。另外,服务系统160可以根据对节目的请求,返回适合由多个设备共同播放的节目内容。应用场景100提供了一种让多个设备进行播放内容,从而模拟语音交互的机制,从而可以极大提高用户体验度。另外,在第一设备110接收对解说模式的触发时,服务系统160可以向第一设备110返回与用户正在玩的游戏有关的解说内容,以便第一设备110通过多个设备播放解说内容。应用场景100还可以提供为用户正在玩的游戏提供旁观者解说的方案,进一步提高用户体验度。

图2示出了根据本申请一些实施例的应用场景200的示意图。

如图2所示,应用场景200可以包括第一音箱210、第二音箱220、底座230、图1中用户设备150和服务系统160。第一音箱210可以设计为人偶,例如为图2中示出的“王者荣耀”中“吕布”的角色形象。类似地,第二音箱220可以设计为人偶,例如为图2中示出的“王者荣耀”中“孙尚香”的角色形象。另外,第一和第二音箱还可以是其他人偶形象,本申请对此不做限制。第一音箱210和第二音箱220均可以安装在底座230上。图2中示出了第一音箱210安装在底座230上。底座230具有与第一音箱210对接的物理接口,可以通过该物理接口第一音箱210进行数据通信。安装在一起的底座230和第一音箱210(或者第二音箱220等等)组成了一个机器人250。底座230可以布置转盘结构,可以带动第一音箱210进行转动。当所述机器人收到用户指令时,可以依据声音来源将身体转向靠近声音来源的一侧;或者在多个机器人进行交互时,依据声音来源将身体转向发出声音的机器人侧。在一些实施例中底座230也可以设置行走机构(图2未示出),从而使得机器人具有行走功能。另外,应用场景200还可以包括更多的机器人(即音箱和底座的组合形态)和音箱(未与底座进行组合)。

机器人250可以工作在单机模式中,即,底座230从服务系统160获取内容(例如聊天、节目、游戏解说等等),并通过第一音箱210进行播放。用户设备150在玩游戏时,服务系统160可以获取游戏过程中的数据,并向机器人250推送与游戏有关的解说内容。

另外,机器人250也可以工作在多设备的交互模式。机器人250的底座可以与多个音箱(例如220)或者其他机器人建立通信连接,从而将待播放的内容分配到多个音箱或者多个机器人。这样,一个或多个机器人以及一个或多个未组成机器人的音箱可以进行聊天对话、共同进行节目表演和共同进行游戏解说等操作。

图3a示出了根据本申请一些实施例的业务数据处理方法300的示意图。业务数据处理方法300例如应用在图1所示的应用场景或者图2所示的应用场景但不限于此。

在步骤s301中,通过至少一个设备获取用户输入指令。用户输入指令至少包括语音指令。这里至少一个设备例如可以是第一设备110或者机器人250。

在一些实施例中,用户输入指令例如为语音输入。例如第一设备110可以通过底座230上布置的多个麦克风接收用户语音。例如,第一设备110可以直接将获取的用户语音作为所述语音输入。又例如,第一设备110可以通过数字信号处理器等语音处理模块对用户语音进行滤波降噪等处理,并将语音处理结果作为所述语音输入。一些实施例可以包括多个播放内容的设备,例如包括第一设备110、第二设备120和第三设备130。在一些实施例中,多个播放内容的设备例如可以包括机器人230和第二音箱210。

在步骤s302中,根据播放内容的设备的个数,以及用户输入指令,确定回复内容。

在步骤s303中,播放回复内容。

在一些实施例中,播放内容的设备可以是多个。步骤s302可以实施为步骤s3021和s3022。如图3b所示,在步骤s3021中,确定其中一个设备为获取用户输入指令的设备(例如确定第一设备110或者机器人250)作为获取用户输入指令的设备,并建立获取用户输入指令的设备与其他所述多个设备之间的配对关系。

在一些实施例中,步骤s3021中,第一设备110(即获取用户输入指令的设备)接收表示联网指令的语音输入。在一些应用场景中,机器人250的底座230和单体的第二音箱220可以打开至无线待连接状态(例如为蓝牙等无线通信方式),用户可以通过唤醒词唤醒机器人250,然后说出与进入多设备的交互模式对应的语音输入。例如,用户可以说出:“嗨,吕布,打开王者配对”。其中,“嗨,吕布”是唤醒词。第一设备110可以识别出唤醒词,从而使得第一设备110从而休眠状态进入唤醒状态。“打开王者配对”为表示进行联网的语音输入。

第一设备110可以将语音输入发送到服务系统160。这样,服务系统160可对语音输入进行语义识别。在确定语义识别结果与联网指令匹配时,服务系统160可以向第一设备110发送联网指令。

第一设备110可以接收联网指令,并根据该指令,建立第一设备110与第二设备120和第三设备130的配对关系。又例如,机器人250根据联网指令,建立底座230与第二音箱220的通信连接。

在步骤s3022中,通过获取用户输入指令的设备获取到的用户输入指令,确定回复内容。在一些实施例中,步骤s3022可以根据所述多个播放内容的设备获得回复内容的概率随机确定播放回复内容的设备,根据所述用户输入指令,以及所述播放内容的设备,确定回复内容。其中,所述多个设备在建立配对关系时,被赋予相等的获得回复内容的概率;所述概率随所述设备播放所述回复内容的次数降低;随所述设备轮空播放所述回复内容的次数升高。例如,图3c示出多次确定回复内容时根据概率随机选定播放回复内容的设备的示意图。

如图3c所示,播放内容的设备可以包括第一设备110和第二设备120。图3c示出4轮播放回复内容的筛选情况。4轮筛选可以依次标记为第一策略点、第二策略点、第三策略点、第四策略点。在一个游戏场景中,每个游戏关键事件可以成为一个策略点。

策略点1:在第一次播放回复内容时时,第一设备110和第二设备播放120被选中的概率均是50%,随机选择其中一个设备进行播放。

策略点2:在第一轮播放回复内容时,假设第一设备110进行了播放,则在策略点2时,第一和第二设备的被选中的概率被调整至33.3%和66.7%,由于上一轮中第二设备120没有被选中,因此将其被命中的概率增加至66.7%,同时,第一设备110的被命中概率下调;随机选择其中一个设备进行播放。

策略点3:这时候,如果第二设备120仍然没有被选中,则在策略点3时,将第二设备120的被命中概率再次上调至83.3%,同时,第一设备110的被命中概率进一步下调。

策略点4:假设在前面三轮播放中,第二设备120均未被命中,则将第二设备120的被命中概率进一步上调为100%,同时,第一设备110的被命中概率进一步下调为0。也就是说,第四轮一定会命中前三轮未被命中的设备。这样,通过概率衰减方式可以减少单个设备连续播放的情形,增加多设备之间的交互感,从而提升用户的交互体验。这里通过调整命中概率实现多设备之间交互的方式可用于多种交互场景之下,执行的过程可以放在服务器端,也可以放在用于建立通信连接的第一设备上。

在一些实施例中,回复内容为群播内容。步骤s3022可以由多个播放内容的设备根据时序分别播放群播内容中相应内容。例如,群播内容可以分配到多个设备,各设备按照时序播放内容可以模拟对话或群聊的场景。

如图3d所示,当用户指令为用语音发出的“你猜我是什么星座?”时,机器人220与机器人250为联机状态,此时,依据收到的用户指令,机器人250首先回复“双鱼座”,然后第二音箱220回复“你猜我什么星座?”,接着机器人250回复“狮子座”,最后第二音箱220回复“错,为主公量身定做。”

在此过程当中,机器人250的底座负责接收用户指令,取得回复内容,确定机器人250和机器人220的回复时序及语句,分别发送给机器人250及机器人220的音箱进行播放。由于机器人250的回复语句具有吕布的特点,且播放时采用吕布的声音,而机器人220的回复语句具有孙尚香的特点,且播放时采用孙尚香的声音,从而,在实际场景下,机器人与用户之间的交互将显得非常生动活泼。这里的多语句,可以由服务器依照时序依次发给用于建立通信连接的机器人250,由机器人250播放或者转发给机器人220进行播放;或者也可以一起发给机器人250,再由机器人250依照时序依次指示机器人250或者机器人220进行播放。

综上,根据本申请的方法300可以响应于用户输入指令,获取对一个或多个播放内容的设备的回复内容,从而可以灵活的在一个或多个设备中播放回复内容。特别是,方法300可以获取群聊内容,从而控制多个设备进行内容播放时模拟群聊的场景,进而极大提高用户体验度。。这里依据机器人形象设定具有形象角色语言特色的回复内容,以及播放时采用具有形象角色语音来播放的方式也可以应用于其他实施例中。

图4示出了根据本申请一些实施例的语音交互设备400的示意图。如图4所示,设备400可以包括接收单元401,用于获取用户输入指令。用户输入指令至少包括语音指令。这里,接收单元401例如可以接收用户的表示提问、节目表演或者进入解说模式的语音输入。又例如,接收单元401可以被配置为可以接收对设备400的按键操作或者来自用户设备150的文字或者语音信息。

通信单元402,用于将获得的对所述用户输入指令的回复内容发送给至少一个语音交互设备。在一些实施例中,设备400可以与多个播放内容的设备建立配对关系。回复内容中各语句与设备标识关联。通信单元402可以根据语句与设备标识的关联关系,将回复内容中语句分配到相应的播放内容的设备中。

播放单元403,用于播放所述回复内容。具体而言,播放单元403可以通信单元402分配到播放单元403(也可以称为分配到设备400)的语句内容。

在一些实施中,设备400可以可通过通信单元402与至少一个其他语音交互设备的播放单元建立配对关系。当获取到用户输入指令时,设备400的通信单元将获得的回复内容发送至所述至少一个建立了配对关系的语音交互设备播放单元进行播放。

在一些实施例中,设备400还包括用于指示通信单元402发送对象的确认单元404。确认单元404可以根据所述建立了配对关系的多个播放单元获得回复内容的概率随机确定播放回复内容的播放单元。其中,所述多个播放内容的设备在建立配对关系时,被赋予相等的获得回复内容的概率;所述概率随所述设备播放所述回复内容的次数降低;随所述设备轮空播放所述回复内容的次数升高。这里,随机确定播放回复内容的播放单元的方式可以参考上文中图3c的筛选方式。这样,通过概率随机确定播放单元的方式,可以使得各播放单元播放语句的效果更加逼近于真实的聊天情况,从而提高人机交互时的用户体验。

在一些实施例中,当用户输入指令指向特定场景时,确认单元404可以根据预设的回复内容的播放时间来筛选回复内容,当预设回复内容的播放时间在特定场景设定播放时间阈值之内时,将其作为备选的回复内容。这里,特定场景例如为游戏解说场景。由于游戏进程中策略点(即关键游戏事件)可以持续产生。通过对播放时间进行控制,设备400可以避免因一个策略点的回复内容过长而导致后续策略点的回复内容的播放,从而可以提升回复内容的实时性,进一步提高用户体验。

在一些实施例中,通信单元402当获得的回复内容为群播内容时,可以依时序将相应内容发送给对应设备的播放单元进行播放。这样,多个播放单元按照语句的播放时序播放内容时,可以模拟多角色对话或者群聊的效果。群聊内容可以是闲聊、相声、说唱、短视频段子或者歌曲合唱等等。多个播放设备可以通过轮播或者同时播放的方式,达成两个或更多角色的对口或群口相声、二人或更多人说唱、二人或更多人合唱等效果。

在一些实施中,设备400可以具有特定的角色外观,播放单元403播放的内容为具有所述特定角色语言特色的回复内容,和/或所述播放单元403采用具有所述特定角色的语音播放所述具有所述特定角色语言特色的回复内容。以图2中角色“吕布”为例,设备400可以获取与吕布的说话方式、性格特征等角色特点一致的语料内容,播放单元403可以按照通常大家所认可的吕布的声音特点来播放语料内容。

在一些实施例中,设备400可以包括音箱,用于播放所述回复内容。另外,设备400还可以包括与音箱相互分离的底座,用于获取所述用户输入指令,并与至少一个音箱产生通信连接;其中,音箱包括所述播放单元403,底座包括所述接收单元401以及通信单元402。这里,音箱和底座装配在一起时,设备400可以称为机器人。音箱

在一些实施例中,所述音箱具有特定的角色外观,所述播放单元播放的内容为具有所述特定角色语言特色的回复内容,和/或所述播放单元采用具有所述特定角色的语音播放所述具有所述特定角色语言特色的回复内容。设备400更具体的实施方式请参见方法300,这不再赘述。

综上,本申请的语音交互设备可以建立多个设备的配对关系,从而可以将回复内容分配到多个设备中播放。由于多个设备播放的回复内容可以模拟对话或者群聊的场景,语音交互设备从而极大提高用户体验度。另外,本申请的语义交互设备可以按照设备的外观角色获取角色特色的语料和按照角色的声音特色播放内容,从而可以提高内容播放的丰富性。

以上所述仅为本申请的示例性实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1