服务器、智能家居系统及多设备语音唤醒方法与流程

文档序号:29227985发布日期:2022-03-12 13:19阅读:439来源:国知局
服务器、智能家居系统及多设备语音唤醒方法与流程

1.本技术涉及智能家居技术领域,尤其涉及一种服务器、智能家居系统及多设备语音唤醒方法。


背景技术:

2.智能语音控制是一种新型的交互方式,可通过对用户输入的语音信息进行语义识别,再根据语义识别结果控制设备运行。为了实现基于智能语音控制的交互过程,智能设备中可以内置智能语音系统。智能语音系统可以由硬件部分和软件部分组成。其中,硬件部分主要包括麦克风、扬声器以及控制器,用于接收、反馈和处理语音信息;软件部分主要包括语音转换模块、自然语言处理模块以及控制模块,用于将输入的声音信号转化为文字信号,并形成具体的控制指令进行控制。
3.用户在使用智能语音系统时,如果对应智能家居系统中包含的设备数量较多,则会出现多设备同时唤醒或者误唤醒的问题,造成该场景下的语音播放和交互过程混乱,严重影响用户的体验。为了改善多设备唤醒问题,用户可以根据使用习惯,通过终端设备中的应用程序定义并切换不同的唤醒策略。
4.但这种唤醒方式不仅需要用户在终端设备上执行手动切换,而且切换后的唤醒策略均是通过待唤醒设备间相互通信来决策哪个设备被唤醒,如果待唤醒设备数量较多,则无法在短时间内完成所有设备之间信息的交互,降低语音交互指令的执行率,且容易导致设备应答异常。


技术实现要素:

5.本技术提供了一种服务器、智能家居系统及多设备语音唤醒方法,以解决传统语音唤醒方法应答异常的问题。
6.第一方面,本技术提供一种服务器,包括:存储模块、通信模块以及控制模块。其中,所述存储模块被配置为存储智能设备上报的设备状态;所述通信模块被配置为与智能设备建立通信连接,以获得所述智能设备的设备状态;所述控制模块被配置为执行以下程序步骤:
7.获取用户通过所述智能设备输入的语音控制指令;
8.响应于所述语音控制指令,在所述语音控制指令中解析业务需求信息;
9.根据所述业务需求信息筛选目标设备,所述目标设备为所述设备状态能够实现所述业务需求信息的智能设备;
10.向所述目标设备发送响应指令,以及,向当前智能家居系统中所述目标设备以外的其他智能设备发送静默指令。
11.第二方面,本技术还提供一种智能设备,包括:音频输入装置、音频输出装置、通信器以及控制器。其中,所述音频输入装置被配置为检测用户输入的语音音频数据;所述音频输出装置被配置为播放语音响应;所述通信器被配置为与服务器建立通信连接,以向所述
服务器发送设备状态;所述控制器被配置为执行以下程序步骤:
12.获取用户输入的用于执行语音控制的语音音频数据;
13.根据所述语音音频数据生成语音控制指令;
14.向所述服务器发送所述语音控制指令,以使所述服务器在所述语音控制指令中解析业务需求信息,并根据所述业务需求信息筛选目标设备,所述目标设备为所述设备状态能够实现所述业务需求信息的智能设备;
15.接收所述服务器下发的响应指令或静默指令;
16.运行所述响应指令或静默指令。
17.第三方面,本技术还提供一种多设备语音唤醒方法,应用于智能家居系统,所述智能家居系统包括服务器和多个智能设备,所述智能设备与所述服务器建立通信连接;所述多设备语音唤醒方法包括以下步骤:
18.智能设备获取用户输入的语音音频数据,并根据所述语音音频数据生成语音控制指令,以及向所述服务器发送所述语音控制指令和设备状态;
19.所述服务器在所述语音控制指令中解析业务需求信息,并根据所述业务需求信息筛选目标设备,所述目标设备为所述设备状态能够实现所述业务需求信息的智能设备;
20.所述服务器向作为所述目标设备的智能设备发送响应指令,向当前智能家居系统中所述目标设备以外的其他智能设备发送静默指令;
21.作为目标设备的智能设备运行所述响应指令,以响应语音控制功能;
22.当前智能家居系统中所述目标设备以外的其他智能设备运行所述静默指令,不响应语音控制功能。
23.由以上技术方案可知,本技术提供的服务器、智能设备以及多设备语音唤醒方法可以在用户输入语音控制指令后,由服务器从语音控制指令中解析业务需求信息,并根据业务需求信息筛选当前设备状态能够实现该业务需求的目标设备,从而向目标设备发送响应指令,以使作为目标设备的智能设备做出语音响应;同时,服务器还根据目标设备的筛选结果,向当前智能家居系统中目标设备以外的其他设备发送静默指令,以使不作为目标设备的智能设备不响应该语音控制功能。所述方法可以在服务器进行语音控制指令的预先处理,以使所有类型的智能设备都能够在规定时间内快速高效地做出正确的唤醒应答,解决传统语音唤醒方法应答异常的问题。
附图说明
24.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1为本技术实施例中智能家居系统的使用场景;
26.图2为本技术实施例中智能设备的硬件配置图;
27.图3为本技术实施例中语音交互流程示意图;
28.图4为本技术实施例中多个智能设备响应语音交互效果示意图;
29.图5为本技术实施例中多设备语音唤醒方法流程示意图;
30.图6为本技术实施例中筛选目标设备流程示意图;
31.图7为本技术实施例中根据设备数量确定目标设备的流程示意图;
32.图8为本技术实施例中标记主设备流程示意图;
33.图9为本技术实施例中更新设备状态流程示意图;
34.图10为本技术实施例中多设备语音唤醒方法服务器侧时序流程图;
35.图11为本技术实施例中多设备语音唤醒方法智能设备侧时序流程图。
具体实施方式
36.下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本技术相一致的所有实施方式。仅是与权利要求书中所详述的、本技术的一些方面相一致的系统和方法的示例。
37.本技术实施例中所述智能家居系统是一种以特定区域网络为基础,基于统一控制服务建立的网络系统,所述智能家居系统可以包括多个相互建立通信连接关系的智能设备200。多个智能设备200可以通过接入同一个局域网络,实现设备之间的通信连接关系。多个智能设备200还可以直接通过统一通信协议组成点对点网络,实现通信连接。例如,多个智能设备200可以通过连接同一个无线局域网,使多个智能设备200之间可以相互通信。还例如,一个智能设备200还可以通过蓝牙、红外、蜂窝网络、电力载波通信等方式,与其他多个智能设备200建立通信连接。
38.其中,所述智能设备200是指具有通信功能,能够接收、发送、执行控制指令并实现特定功能的设备。所述智能设备200包括但不限于智能显示设备、智能终端、智能家电、智能网关、智能照明设备、智能音频设备、游戏设备等。构成智能家居系统的多个智能设备200可以为相同类型的设备,也可以为不同类型的设备。例如,如图1所示,在同一个智能家居系统中,可以包括智能电视、智能音箱、智能电冰箱、多个智能灯具等。这些智能设备200可以分布在不同的位置,以满足对应位置上的使用需求。
39.需要说明的是,本技术所述的智能家居系统,并不对本技术所要保护方案的应用范围造成限定。即在实际应用中,本技术提供的服务器、智能设备以及多设备语音唤醒方法并不局限于应用在智能家居领域中,对于其他支持智能语音控制的系统,例如,智能办公系统、智能服务系统、智能管理系统、工业生产系统等也同样适用。
40.根据智能设备200的实际功能,智能设备200具有特定的硬件配置。如图2所示,以显示设备为例,具有显示功能的智能设备200可以包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
41.在一些实施例中,控制器250包括中央处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。
42.在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面等。
43.在一些实施例中,显示器260可为液晶显示器、oled显示器、以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
44.在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及epg数据信号。
45.在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
46.在一些实施例中,控制器250通过存储在存储器中的各种软件控制程序,来控制智能设备的工作和响应用户的操作。控制器250控制智能设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示ui对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
47.在一些实施例中,用户可在显示器260上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
48.在一些实施例中,智能设备200还与服务器400进行数据通信。可允许智能设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向智能设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器机组。
49.在一些实施例中,智能设备200可以内置智能语音系统,以支持用户的智能语音控制。所述智能语音控制是指用户通过输入语音音频数据来操作智能设备200的交互过程。为了实现智能语音控制,智能设备200可以包括音频输入装置和音频输出装置。其中,所述音频输入装置用于采集用户输入的语音音频数据,可以是智能设备200内置或外接的麦克风装置。所述音频输出装置用于发出声音,以播放语音响应。例如,如图3所示,当用户通过音频输入装置输入“嗨!小
×”
等唤醒词时,智能设备200可以通过音频输出装置播放“我在”的语音响应,以引导用户完成后续语音输入。
50.在一些实施例中,智能设备200内置的智能语音系统还支持一语直达模式,即支持“one-shot”模式。在这种模式下,用户可以通过较少次数的语音输入,直接实现控制功能。例如,在传统模式下用户想要控制智能设备200播放电影资源,则需要先输入语音“嗨,小
×”
,待智能设备200反馈“我在”后,再输入“我想看电影”,则智能设备200反馈“为您找到以下电影”。而在“one-shot”模式下,用户可以直接输入“嗨!小
×
,我想看电影”,则智能设备200在接收到语音指令后直接反馈“为您找到以下电影”,减少语音交互次数,提高语音交互效率。
51.对于同一个智能家居系统中的多个智能设备200,用户可以通过智能语音控制多个设备的联动。例如,用户可以通过智能音箱输入语音指令“打开卧室灯”,则智能音箱可以响应于该语音指令,生成用于开启灯光的控制指令,再将控制指令发送给智能家居系统中名称为“卧室”的灯具,以控制开启卧室灯。同时,智能音箱还针对用户的语音输入做出响应,即播放“已为您打开卧室灯”等反馈语音内容。
52.在多个智能设备200之间联动控制时,控制指令可以通过接收到用户语音音频数据的智能设备200直接传递给被控设备,也可以通过智能设备200传递给路由器等特定的中
继设备,再由中继设备传递给被控设备。在一些实施例中,控制指令还可以通过服务器400传递给被控设备。例如,用户在智能家居所在局域网以外,通过智能终端300控制智能家居系统中的某个智能设备200时,智能终端300可以先将控制指令发送给服务器400,服务器400再将控制指令传递给智能设备200,进行控制。
53.为了实现对智能家居系统中智能设备200的控制,服务器400可以单独向任意智能设备200下发控制指令和相关数据。例如,对于显示设备,用户可以通过交互操作控制显示设备请求在线播放媒资,则服务器400可以根据播放请求,向显示设备反馈媒资数据。而对于针对多个智能设备200的联动控制,服务器400可以统一向智能家居系统下发控制指令和相关数据。例如,当用户智能音箱控制打开卧室灯具时,智能音箱可以将用户输入的控制指令发送给服务器400,服务器400再向智能家居系统下发反馈数据,从而使智能家居系统向卧室灯具发送打开指令,同时向智能音箱反馈控制响应。
54.智能家居系统中的部分智能设备200可以内置完整的智能语音系统,这类智能设备200可以作为主控制设备,能够独立的接收、处理以及响应,同时能够向其他智能设备200发送语音音频对应的控制指令。例如,显示设备、智能音箱、智能冰箱等智能设备200中可以内置完整的智能语音系统,以接收用户输入的语音音频。智能家居系统中的部分智能设备200可以不内置完整的智能语音系统,仅作为被控制设备接收主控制设备发送的控制指令。例如,灯具、小家电等智能设备,可以接收作为主控制设备的显示设备传递的控制指令,启动、停止运行或更改运行参数。
55.由于支持完整智能语音系统的智能设备数量越来越多,因此对于同一个智能家居系统中,可能包括多个支持智能语音系统的智能设备。例如,同一个房间内设置有智能电视、智能音箱以及智能电冰箱,这些智能设备200都内置完整的智能语音系统,可以针对用户输入的语音指令做出响应。但是,对于支持完整智能语音系统的不同智能设备200,其实际响应语音指令的方式,以及所支持响应的语音指令类型是不同的。例如,如图4所示,对于用户输入的语音指令“我想看电影”,智能电视能够做出响应显示电影列表,并反馈“已为您找到以下电影”的语音内容。而智能音箱和智能电冰箱则无法做出响应,因此会反馈“我听不懂你在说什么”的语音内容。
56.可见,由于当前智能家居系统中所包含的能够支持语音控制的智能设备200数量有多个,则针对同一个语音指令,会出现多个智能设备200同时唤醒或者误唤醒的情况,导致出现场景混乱,严重影响用户的体验。
57.为了缓解场景混乱的问题,在一些实施中,用户可以根据使用习惯通过智能终端300中的应用程序定义响应设备,并自由切换不同的唤醒策略。例如,用户可以手动设置智能音箱作为主要响应设备,则用户输入的语音指令可以由智能音箱进行响应,并通过智能音箱向其他智能设备200发送控制命令,以实现对整个智能家居系统中智能设备的智能语音控制。
58.但是,通过用户自定义的方式进行唤醒策略的控制方式,需要用户执行多次手动切换操作,不够智能化。而且,无论切换成哪种唤醒策略,目前多设备唤醒的执行过程都是通过待唤醒设备间相互通信来决策当前哪个设备被唤醒。这种执行方式存在很大风险,一方面,当待唤醒设备数量较多时,由于唤醒过程在每一个智能设备200之间都需要进行信息交互,因此无法保证在规定的时间内完成所有智能设备200之间信息的交互,从而导致智能
设备200的应答异常。另一方面,由于不同类型智能设备200的唤醒时延不同,即从唤醒到应答的时间不同,因此无法保证不同类型智能设备200在唤醒决策时,能够同时处于设备信息交互时间段内,部分唤醒时延长的智能设备200在设备信息交互时可能还未收到唤醒词,从而错过设备信息交互的时间,导致智能设备200无法针对语音作出响应,出现语音控制异常的问题。
59.为了缓解语音控制异常的问题,本技术的部分实施例中提供一种多设备语音唤醒方法,该方法可以应用于智能家居系统。所述智能家居系统包括服务器400和多个智能设备200。其中,所述服务器400应至少包括存储模块410、通信模块420以及控制模块430。存储模块410被配置为存储存储智能设备上报的设备状态。通信模块420被配置为与多个智能设备200建立通信连接,以获得智能设备200上报的设备状态以及向多个智能设备200下发控制指令和相关数据。控制模块430则被配置为执行所述多设备语音唤醒方法中服务器400一侧的程序步骤,以向不同的智能设备200下发响应指令或静默指令。
60.同理,为了满足所述多设备语音唤醒方法的实施,所述智能家居系统中的智能设备200应至少包括音频输入装置、音频输出装置、通信器220以及控制器250。其中,音频输入装置被配置为检测用户输入的语音音频数据。音频输出装置被配置为播放语音响应。通信器220被配置为与服务器400建立通信连接,以向服务器400上报设备状态以及接收服务器400下发的响应指令或静默指令。控制器250则被配置为所述多设备语音唤醒方法中智能设备200侧运行的程序步骤,以完成智能语音控制过程的响应。
61.如图5、图6所示,所述多设备语音唤醒方法包括以下内容:
62.智能设备200获取用户输入的语音音频数据。用户处于智能家居系统环境中时,可以实时进行语音输入,则智能设备200内置的音频输入装置可以将用户输入的语音声音信号转化为电信号,并经过降噪、放大、编码、转化等一系列信号处理方法,获得语音音频数据。在进行语音交互时,用户可以通过多种方式输入语音音频数据。即在一些实施例中,用户可以通过智能设备200内置音频输入装置输入语音音频数据。例如,用户可以通过智能设备200上内置的麦克风设备输入语音“嗨!小
×
,我想看电影”,则,麦克风可以将该语音声音信号转化为电信号,并传递给控制器250进行后续处理。
63.为了触发智能设备200进行智能语音控制,在一些实施例中,用户还可以在输入的语音音频数据中带有特定的唤醒词。所述唤醒词是一段包含特定内容的语音,如“嗨!小
×”
、“小
×

×”
、“嘿!
××”
等。对于用户输入语音音频数据的过程,尤其是通过智能设备200内置的远场麦克风输入语音音频数据的过程,智能设备200可以对用户输入的语音中是否包含唤醒词进行判断,当检测到唤醒词后,再进行后续处理,以缓解智能语音控制过程的误触发。
64.根据声音信号的传输特点,通常智能家居系统距离用户较近的检测到的用户语音音量衰减很小,并且传播距离较近,因此在用户发出声音后,距离用户较近的智能设备200会先检测到用户的语音音频数据。但由于在不同情况下用户输入的语音具体内容不同,因此响应语音的智能设备200是不确定的,即响应语音的智能设备200可能是距离用户距离较近的设备,也可能是距离用户距离较远的设备。例如,当用户在卧室输入“嗨!小
×
,我想看电影”的语音时,卧室内的智能音箱会先检测到语音音频数据,但智能音箱并不具有视频播放功能,而位于客厅内的智能电视具有视频播放功能。
65.因此,为了响应当前用户语音,在获取用户输入的语音音频数据后,智能设备200会根据语音音频数据生成语音控制指令。其中,语音控制指令是一种控制命令,具有特定的指令格式,包括控制动作函数、控制对象代码等内容。在智能设备200接收到语音音频数据后,智能设备200可以通过智能语音系统中的语音处理模块,先对语音音频数据进行文本转化,即通过声学特征提取,将语音音频数据中的波形数据转化为文本数据。
66.在转化为文本数据后,智能设备200可以使用分词工具,将非结构化的文本数据转化为结构化文本数据。即智能设备200可以通过词库匹配等方式,剔除文本数据中的语气词、助词等无实际意义的文本内容,保留文本数据中的关键词,并按照词义将多个关键词进行分隔,以获得结构化的文本。
67.在获得结构化文本数据后,智能设备200还可以将结构化文本输入文字处理模型。文字处理模型是一种基于机器学习的人工智能模型。文字处理模型可以在输入文本数据后,经过计算确定文本信息归属于特定语义的分类概率。因此,可以通过将各种标准控制指令作为分类标签,使文字处理模型能够输出文本数据对每个标准控制指令的分类概率,其中,分类概率最高的标准控制指令即是语音音频数据对应的控制指令。
68.文字处理模型可以利用样本数据和设置的输入输出规则,对初始模型进行反复训练获得。其中,样本数据为带有标签的文本信息。在模型训练的过程中,可以样本数据为输入,以分类概率为输出,对样本数据执行计算。并将输出的结果与样本数据中的标签进行比较,获得训练误差,再将训练误差反向传播,即根据训练误差调整模型参数,从而经过反复多次的大量样本数据输入,可以获得能够准确输出识别结果的文字处理模型。
69.经过模型计算后,智能设备200可以将用户输入的语音音频数据转化为语音控制指令。经过智能设备200的转化后,被控设备或者服务器400可以在接收到语音控制指令后直接对语音控制指令进行处理,如根据语音控制指令执行控制动作以及在语音控制指令中提取业务需求信息等。
70.显然,在一些实施例中,智能设备200可以直接将语音音频数据作为语音控制指令进行发送,即对于数据处理能力较低,或者没有内置完整智能语音系统的智能设备200,智能设备200可以直接将音频数据进行转发,由服务器400或者其他智能设备200执行语言处理,以缓解当前智能设备200的运算负荷。
71.在生成语音控制指令后,智能设备200可以向服务器400发送语音控制指令,以触发服务器400对多个智能设备200的唤醒过程执行控制。需要说明的是,由于智能家居系统中可以包括多个内置智能语音系统的智能设备200,因此当用户输入语音时,智能家居系统中的多个智能设备200均能够检测到语音音频数据,此时,为了避免重复的数据传输,服务器400可以在接收到一个语音控制指令后,暂停其他智能设备200中语音控制指令的生成过程和语音控制指令的上报过程。
72.例如,在智能电视向服务器400发送语音控制指令后,服务器400可以向智能电视所在智能家居系统中的智能音箱和智能冰箱发送用于暂停指令生成和指令发送的控制指令,则在接收到该控制指令后,智能音箱和智能冰箱均停止生成语音控制指令的生成和发送。由于数据处理能力较高的智能设备200通常能够在较短的时间内完成语音音频数据计算,从而先于其他设备完成语音控制指令的生成。因此,服务器400在接收到最先发送的语音控制指令后,停止其他智能设备200的语音控制指令生成和上报过程,还可以缩短语音控
制指令的生成时间,提高语音响应速度。
73.服务器400接收到语音控制指令后,可以在语音控制指令中解析业务需求信息。对于用户输入的不同语音控制指令,其中包含的控制内容也不同,则其拥有不同的业务需求。例如,当用户输入语音“嗨!小
×
,我想听音乐”时,则经过智能设备200的处理后,生成语音控制指令,且语音控制指令中包含“播放音乐”(music_play)的业务需求。当用户输入语音“嗨!小
×
,打开卧室灯”时,生成包含“打开灯具”(light_power on)业务需求的语音控制指令。
74.显然,当语音控制指令中包含业务需求信息时,服务器400可以直接从语音控制指令汇总提取业务需求信息。而当语音控制指令为智能设备200上传的语音音频数据时,服务器400还可以对智能设备200上传的语音音频数据进行识别处理,即如上述实施例中智能设备200对语音音频数据执行的处理方式相同,服务器400也可以通过内置的语音转文字工具、文本结构化处理工具以及文字处理模型等对语音音频数据进行识别,以从中识别出业务需求信息。
75.为了便于服务器400从语音控制指令中解析业务需求信息,在一些实施例中,可以设置业务需求识别模型,或者将上述文字处理模型的输出分类设置为业务需求,以通过模型计算出用户语音音频数据对于各业务需求的分类概率。
76.需要说明的是,由于用户输入的语音内容可能包含多个用户意图,因此从对应的语音控制指令中也可以解析出多个业务需求。例如,用户输入语音“嗨!小
×
,打开客厅灯和播放电影”,则可以在语音控制指令中解析出“打开灯具”和“播放电影”两个业务需求。此外,智能家居系统还可以通过预置更加丰富的指令集,实现更丰富的语音交互功能,则根据设定的指令集,可以对应确定其中包含的业务需求。例如,用户输入语音“嗨!小
×
,开启影院模式”,则智能家居系统可以根据“影院模式”的指令集,确定对智能家居系统的控制内容包括播放电影同时关灯,以模仿电影院的氛围。因此,服务器400可以在语音控制指令中解析出“关闭灯具”和“播放电影”两个业务需求。
77.不同的业务需求,对应为智能设备200执行不同的控制操作,对应需要响应该语音控制指令的智能设备200需要处于不同的设备状态。例如,对于灯具,其在处于待机状态才能够支持开启/关闭、亮度调节等控制;而当用户通过墙壁开关关闭灯具的供电,使其处于离线状态时,则不能支持持开启/关闭、亮度调节等控制。
78.因此,智能设备200可以通过预定的信息上报策略,向服务器400上报设备状态。在一些实施例中,智能设备200可以按照数据更新频率,每个特定的时间向服务器400上报一次当前设备状态,并且,服务器400可以根据智能设备200的上报状态,更新存储的设备状态。
79.例如,服务器400可以向智能设备200发送心跳指令,智能设备200则在接收到心跳指令后,向服务器400反馈当前设备状态,以使服务器400可以更新存储的设备状态。而当服务器400向智能设备200发送心跳指令的预设周期内,智能设备200没有向服务器400反馈心跳指令时,服务器400可以将对应的设备状态更新为离线状态。
80.为了使语音交互过程中所依据的设备状态为更有效的设备状态,在一些实施例中,智能设备200的设备状态还可以通过语音控制指令触发上报。即服务器400可以获取语音控制指令对应的语音音频数据,并从语音音频数据中识别唤醒词。如果语音音频数据中
包括唤醒词,则定位智能设备200所在的智能家居系统,从而向智能家居系统发送状态获取请求。智能家居系统中的全部智能设备200可以在接收到状态获取指令后,上报设备状态。
81.例如,在智能设备200上报语音音频数据时,服务器400可以从语音音频数据中识别唤醒词“嗨!小
×”
,则在语音音频数据中识别出唤醒词“嗨!小
×”
后,服务器400可以根据智能设备200的识别信息确定用户当前使用的智能家居系统,即
“××
的家居系统”,该智能家居系统的客厅中有智能电视、音箱a、音箱b;卧室中有灯、音箱c;厨房中有智能冰箱。再向该智能家居系统发送状态获取请求,以使该智能家居系统中的电视、音箱a、音箱b、灯、音箱c、智能冰箱上报当前的设备状态。
82.在获得业务需求信息和智能设备200上报的设备状态后,服务器400可以根据业务需求信息和设备状态信息筛选目标设备。其中,所述目标设备为设备状态能够实现业务需求信息的智能设备。
83.由于智能设备200能否实现业务需求需要特定的前置条件,如设备类型和设备状态,因此服务器400在筛选目标设备的过程中,可以根据不同的前置条件对当前智能家居系统中的智能设备200进行多层次筛选。例如,用户输入语音“嗨!小
×
,打开灯”,则对应的业务需求为“打开灯具”,其实现业务需求所需要的前置条件分别为,设备类型为灯具,设备状态为待机状态,则服务器400可以先根据设备类型在当前智能家居系统中筛选出所有类型为灯具的智能设备200,再根据设备状态筛选出设备状态为待机状态的灯具,作为目标设备。
84.在筛选出目标设备后,服务器400向作为目标设备的智能设备200发送响应指令,则作为目标设备的智能设备200可以通过运行响应指令,以响应语音控制功能。同时,服务器400还向当前智能家居系统中目标设备以外的其他智能设备200发送静默指令,以使当前智能家居系统中目标设备以外的其他智能设备可以通过运行静默指令,不响应语音控制功能。
85.例如,用户输入语音“嗨!小
×
,打开灯”,则家庭环境内的支持语音交互的智能设备200将收到的语音指令及设备状态上报给服务器400,即,将语音控制指令“打开灯具”和设备状态(待机)上报给服务器400。服务器400端收到语音控制指令后,可以判断有一台灯具当前的设备状态符合当前用户语音控制指令中业务需求对应的对象范畴。因此,服务器400可以下发用于唤醒该灯具的响应指令,同时下发静默指令给其它设备,以使设备端执行对应指令,使符合业务需求和设备状态灯具被点亮,而不符合业务需求和设备状态的其他智能设备200保持静默状态。
86.由以上技术方案可知,上述实施例中提供的多设备语音唤醒方法,可以使用语音控制指令中包含的业务需求信息和智能设备200上报的设备状态,再当前智能家居系统中筛选出能够响应语音控制指令的目标设备。并向目标设备发送响应指令,同时向其他设备发送静默指令,使得智能语音系统可以在接收到用户输入语音指令后,各智能设备200会通过分别和服务器400之间的通信来交互信息,通过服务器400自动判断目标设备,减少多个智能设备200之间的数据交互,以缓解多设备间通信频繁导致执行率低的问题。
87.用户在输入语音时,可以在语音控制指令中明确执行设备,例如,用户输入的语音内容为“打开电视”,则其中明确了执行设备为电视,此时,由于具有明确的执行设备,服务器400可以将语音控制指令直接传递给电视设备,无需再解析业务需求信息即可确定执行
设备。因此,在一些实施例中,在服务器400接收到智能设备200上报的语音控制指令后,还可以对语音控制指令中的执行设备进行检测。如果语音控制指令中没有明确执行设备,则按照上述实施例中提供的方式,通过解析业务需求信息,并与设备状态进行匹配筛选目标设备。
88.如果语音控制指令中明确了执行设备,即包括执行设备的识别信息,则可以根据语音控制指令生成控制命令和反馈语音信息。其中,控制命令为与语音控制指令相对应,面向执行设备的一种命令。例如,对于用户输入的“打开电视”语音,对应生成的控制命令为“tv_power on”。反馈语音信息是针对语音内容发出的一种语音音频,用于提示用户指令的执行结果。例如,当用户输入语音“打开电视”后,智能语音系统在将电视开机后,会播放“已为您打开电视”的反馈语音信息。
89.控制命令和反馈语音信息可以发送给特定智能设备200,以分别通过执行控制命令实现控制指令对应的业务,以及通过播放反馈语音信息,提示用户业务执行结果。控制命令和反馈语音信息可以均作用于执行设备,例如,在用户输入“打开电视”的语音时,电视响应该语音上电开机,同时通过电视的智能语音系统和扬声器播放“已问您打开电视”的语音反馈。
90.但由于执行设备可能位于距离用户较远的位置,此时如果通过执行设备播放反馈语音信息,则由于距离较远,而出现用户无法听清反馈语音内容的情况,造成用户无法知晓语音交互过程的控制结果。并且,当家中有多台智能语音控制设备时,很多时候用户并不关心唤醒的是哪台设备来反馈执行结果。为此,在一些实施例中,服务器400可以分别向不同的智能设备200发送控制命令和反馈语音信息。即服务器400可以按照执行设备的识别信息将控制命令发送给执行设备,并将反馈语音信息发送给输入语音控制指令的智能设备。
91.例如,当用户在卧室发出语音“打开电视”,卧室中带有智能语音系统的智能空调先检测到语音音频数据,并生成语音控制指令发送给服务器400,服务器400则根据语音控制指令可以确定电视为执行设备,并根据语音控制指令生成“tv_power on”的控制命令以及“已为您打开电视”的反馈语音信息。再将控制命令发送给客厅内的电视,以打开电视,以及将反馈语音信息发送给智能空调,以通过卧室中的智能空调播放“已为您打开电视”的语音反馈。
92.可见,在上述实施例中,当语音控制指令中有明确的执行设备时,可以通过执行设备和输入语音控制指令的智能设备200分别对语音控制指令进行响应,从而在满足业务需求的同时,给予用户更好的反馈效果。
93.由于智能家居系统中可能包含多个智能设备200,并且不同的智能设备200可以支持相同的业务需要,并且在同一时间内处于相同的设备状态,因此,通过上述实施例中的方式对设备进行筛选时,可能筛选出多个目标设备。此时,如果服务器400直接向作为目标设备的智能设备200发送响应指令,则将导致多个智能设备200同时对一个语音控制指令执行响应,仍旧存在场景混乱的问题。
94.对此,服务器400可以通过增加筛选条件的方式进一步进行细致的筛选过程,以减少作为目标设备的智能设备200的数量。即在一些实施例中,所述业务需求信息可以进一步包括业务类型和业务状态。则服务器400在根据业务需求信息筛选目标设备时,可以从业务需求信息中提取业务类型和业务状态,并在设备状态中匹配满足业务类型的候选设备,其
中,所述候选设备具有符合业务类型需要的设备类型,再通过遍历候选设备的设备状态,以筛选出设备状态符合业务状态的目标设备。
95.例如,用户输入语音“嗨!小
×
,关闭音乐”,则家庭环境内的智能设备200将收到的语音控制指令、当前的设备类型及设备状态上报给云端服务器400,即设备类型(音乐)及设备状态(播放中)。服务器400在收到智能设备200上报的内容后,可以根据语音控制指令中需求的业务类型和业务状态对当前智能家居系统中对应的设备类型和设备状态进行筛选,判断有一台处于音乐播放中的音箱当前设备类型及设备状态符合当前用户语音控制指令的对象范畴。因此,服务器400可以下发响应指令给对应的音箱,同时下发静默指令给其它设备,以使当前智能家居系统中的音箱设备执行对应的响应指令,执行关闭音乐操作。
96.在一些实施例中,所述业务需求信息还包括业务执行位置,服务器400可以根据业务执行位置对智能设备200进行进一步筛选,以确定目标设备。即服务器400可以在根据业务需求信息筛选目标设备时,从业务需求信息中提取业务执行位置,并获取当前智能家居系统中各候选设备的设备位置;如果候选设备的设备位置与业务执行位置重合,即候选设备满足业务执行位置,则可以执行遍历候选设备的设备状态的步骤,以筛选出设备状态符合业务状态的目标设备。如果候选设备的设备位置与业务执行位置不重合,标记候选设备不是目标设备,即可以从候选设备列表中删除该设备。
97.例如,用户输入语音“嗨!小
×
,让卧室的音箱播放音乐”,则家庭环境内的智能设备200将收到的用户指令,并将当前的设备类型及设备状态上报云端服务器,即设备类型(无)及设备状态(待机)。服务器400接收到智能设备200上报的信息后,可以从语音控制指令中解析出业务执行位置“卧室”,并按照该业务执行位置对当前智能家居系统中的智能设备200进行筛选,确定设备位置处于卧室范围内的智能设备200。因此,服务器400可以在判断有一台位于卧室中的音箱对应当前设备类型及设备状态符合当前用户指令控制的对象范畴时,下发响应指令给卧室中的音响。同时,服务器400还下发静默指令给当前智能家居系统中的其它设备,包括卧室中的设备和卧室以外的设备。
98.由以上技术方案可知,上述实施例中提供的多设备语音唤醒方法可以基于业务类型、业务状态、业务执行位置等业务需求信息,对智能家居系统中的智能设备200进行多轮筛选,从而确定数量较少的目标设备,以减少智能设备200之间的通信频率,提高智能语音控制过程的执行效率。
99.经过上述实施例中提供的筛选过程,服务器400可以在众多智能设备200中筛选出可响应控制指令的目标设备。通过上述筛选过程,虽然可以大大减少作为目标设备的智能设备200数量,但是在部分筛选过程中,能够满足业务需求的智能设备200仍然存在多个,而对于用户的语音控制过程,通常只需要特定的一个或多个目标设备执行响应。
100.因此,如图7所示,为了确定最终执行响应的目标设备,在一些实施中,服务器400还可以从筛选出的能够满足业务需求的多个智能设备200中进一步确定最终执行设备。即在根据业务需求信息筛选目标设备时,服务器400可以获取设备状态能够实现业务需求信息的智能设备数量。果智能设备数量等于1,即当前智能家居系统中只有一个能够满足当前业务需求的智能设备200,因此服务器400可以直接标记能够实现业务需求信息的智能设备为目标设备。
101.如果智能设备数量大于或等于2,查找主设备。其中,所述主设备为能够实现业务
需求信息的多个智能设备中的一个。主设备可以执行与用户的进行进一步交互,以确定最终响应语音控制指令的目标设备。
102.即在一些实施例中,服务器400可以在查找主设备后,向主设备发送问询指令,以使主设备播放询问语音,其中,所述问询指令为多轮免唤醒语音交互指令。再接收用户通过主设备输入的确认语音指令,并从确认语音指令中提取目标设备识别信息,以根据目标设备识别信息在能够实现业务需求信息的多个智能设备中筛选目标设备。
103.例如,当用户所处的环境中包括音箱a和音箱b两个正在播放音乐的智能设备200,则在用户输入语音:“嗨!小
×
,关闭音乐”时,音箱a和音箱b会在接收到用户输入的语音指令后,分别上报给云端服务器400当前各自的设备类型(音乐)和设备状态(播放中)。服务器400在接收到上述内容后,可以根据语音控制指令中的业务需求筛选出满足该业务需求的智能设备200。即判断有两台音箱当前的设备类型及设备状态与需求的业务类型和业务状态一致后,指定音箱a作为主设备,并向音箱a下发多轮免唤醒问询指令,即“您有音箱a、音箱b两台设备,请问您需要关闭哪一个?”,再接收用户反馈的确认语音指令,即在用户回复语音:“关闭音箱a的音乐”,则确定音箱a为最终执行语音控制响应的目标设备。此时,服务器400可以向音箱a发送响应指令,向包括音箱b的其他智能设备200发送静默指令。
104.为了在能够实现业务需求信息的多个智能设备200中查找到主设备,如图8所示,在一些实施例中,主设备可以是距离语音控制指令对应声源位置最近的智能设备200。服务器400可以在查找主设备时,获取能够实现业务需求信息的多个智能设备针对语音控制指令检测的语音音频数据,并在语音音频数据中提取声能量值,再通过对比声能量值,以获得声能量值最高的智能设备200,从而将声能量值最高的智能设备200标记为主设备。
105.由于特定场景内的混响时间参数t60是确定的,即在任何位置的能量衰减60db需要的时间是相同的,并且t60可基于对应位置的直达声和混响声能量比来估计,因此,可以基于波束形成的谱图和声源到达时间差,求出环境中所有智能设备200针对声源的直达声和混响声能量比,进而求出直达能量。再将各个设备中接收的声源直达声能量进行排列,即可以判断出距离声源位置最近的智能设备200,作为主设备。
106.除上述基于声能量值确定主设备的方式外,还可以基于其他方式确定主设备。即在一些实施例中,对声源位置与智能设备200之间距离的检测过程还可以由每个智能设备200完成,即智能设备200可以通过多目摄像头对当前环境进行图像获取,并根据多个角度上的图像构建出三维空间模型,再根据图像识别方法,在三维空间模型中提取人像,从而定位用户在三维空间模型中的位置,即声源位置。定位声源位置后,智能设备200再根据当前智能家居模型的摆放状态,确定声源位置与每个智能设备200之间的距离,最后将计算的距离发送给服务器400,以使服务器400可以确定距离声源位置最近的智能设备200为主设备。
107.可见,在上述实施例中,当能够实现业务需求的智能设备200的数量包括多个时,服务器400可以通过主设备与用户进行进一步交互的方式,进一步在多个智能设备200中选中能够最终执行语音控制响应的目标设备,从而使语音控制过程之前,不会在多个设备间进行频繁通信,提高语音交互过程的响应速度。
108.基于上述实施例提供的多设备语音唤醒方法,服务器400可以确定目标设备,并通过下发响应指令,使目标设备可以针对用户输入的语音进行交互响应。由于交互响应过程可以控制目标设备执行特定的交互动作,这些交互动作将可能更改智能设备200的设备状
态,因此在将响应指令发送给目标设备后,服务器400还可以再获取目标设备在执行响应指令后的设备状态,以实时更新存储的设备状态。
109.即如图9所示,服务器400可以在向目标设备发送响应指令后,接收目标设备上报的执行结果数据。其中,所述执行结果数据中包括运行响应指令后的设备新状态。再从执行结果中提取设备新状态,并使用设备新状态更新存储模块中存储的设备状态。
110.通过上述实施例中提供的设备状态更新方式,可以使服务器400中存储的设备状态及时与智能家居系统中智能设备200的实际设备状态保持一致,从而使服务器400在后续执行智能语音交互过程中,可以基于更新后的设备状态对智能设备200进行筛选,更准确的确定目标设备。
111.基于上述多设备语音唤醒方法,如图10所示,在本技术的部分实施例中还提供一种服务器400,包括:存储模块410、通信模块420以及控制模块430。其中,控制模块430被配置为执行以下程序步骤:
112.获取用户通过智能设备输入的语音控制指令;
113.响应于语音控制指令,在语音控制指令中解析业务需求信息;
114.根据业务需求信息筛选目标设备,所述目标设备为设备状态能够实现业务需求信息的智能设备;
115.向目标设备发送响应指令,以及,向当前智能家居系统中目标设备以外的其他智能设备发送静默指令。
116.与上述服务器400向配合的,如图11所示,在本技术的部分实施例中还提供一种智能设备200,包括:音频输入装置、音频输出装置、通信器220以及控制器250。其中,控制器250被配置为执行以下程序步骤:
117.获取用户输入的用于执行语音控制的语音音频数据;
118.根据语音音频数据生成语音控制指令;
119.向服务器发送语音控制指令,以使服务器在语音控制指令中解析业务需求信息,并根据业务需求信息筛选目标设备,所述目标设备为设备状态能够实现业务需求信息的智能设备;
120.接收服务器下发的响应指令或静默指令;
121.运行响应指令或静默指令。
122.由以上技术方案可知,上述实施例提供的服务器400和智能设备200可以组成智能家居系统,用于实施上述多设备语音唤醒方法。其中,服务器400可以在用户输入语音控制指令后,从语音控制指令中解析业务需求信息,并根据业务需求信息筛选当前设备状态能够实现该业务需求的目标设备,从而向目标设备发送响应指令,以使作为目标设备的智能设备做出语音响应;同时,服务器400还根据目标设备的筛选结果,向当前智能家居系统中目标设备以外的其他设备发送静默指令,以使不作为目标设备的智能设备200不响应该语音控制功能。所述服务器400可以进行语音控制指令的预先处理,以使所有类型的智能设备200都能够在规定时间内快速高效地做出正确的唤醒应答,解决传统语音唤醒方法应答异常的问题。
123.本技术提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本技术总的构思下的几个示例,并不构成本技术保护范围的限定。对于本领域的技术人
员而言,在不付出创造性劳动的前提下依据本技术方案所扩展出的任何其他实施方式都属于本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1