1.本文提出的实施例涉及用于控制设备集的方法、语音控制设备、计算机程序、计算机程序产品和载体。
背景技术:2.智能设备在家庭中的使用越来越多。从诸如中央供暖和制冷系统的固定设备到类似灯泡的较小物体的万物都可以连接起来。拥有智能电视、智能电子锁和智能百叶窗也很常见。控制设备的经典接口,例如硬件按钮和遥控器,仍然占主导地位。然而,越来越多的设备可以使用语音命令和/或使用移动电话的应用进行控制。
3.对设备集实施控制的一个问题是如何在设备集的若干设备中寻址到某个设备。
4.例如,在使用语音命令来控制房间中的灯的场景中,打开或关闭所有灯通常不是问题。如果应该单独地控制一个或多个灯,则变得更加复杂。这可以通过为灯或一组灯分配名称来解决,例如“窗灯”或“吸顶灯”。然而,在大房间(例如,会议室、展览厅、报告厅或类似场所)中,可能存在若干个相同种类的灯,并且很难通过它们的名称区分并记住所有灯。
5.手势控制尚未变得那么流行,但存在用户可以通过在面板前上下移动手或靠近设备的传感器来调暗灯光的示例。通过手势控制,用户可以指向用户想要控制的设备。这种手势控制系统可能缺乏反馈,这会导致不确定用户正在实际控制哪个设备。
6.因此,需要一种改进的方法来单独地控制设备集中的一个或多个设备。
技术实现要素:7.根据本发明的第一方面,提出了一种用于控制设备集的方法。该方法由语音控制设备执行。该方法包括从语音控制设备的用户接收第一语音命令。第一语音命令包括对设备集中的至少一个设备的第一引用以及要对设备集中的该至少一个设备执行的控制命令。该方法包括呈现与设备集中的至少一个设备中的每一个相关联的标识符。该方法包括从用户接收第二语音命令。第二语音命令包括对标识符中的一个或多个标识符的第二引用。该方法包括对设备集中的至少一个设备中可以基于第二语音命令中包括的第二引用来识别的一个或多个设备实施控制,以执行第一语音命令中包括的控制命令。
8.根据本发明的第二方面,提出了一种用于控制设备集的语音控制设备,该语音控制设备包括处理电路,该处理电路使该语音控制设备可操作地从语音控制设备的用户接收第一语音命令。第一语音命令包括对设备集中的至少一个设备的第一引用以及要对设备集中的该至少一个设备执行的控制命令。语音控制设备可操作地呈现与设备集中的至少一个设备中的每一个相关联的标识符。语音控制设备可操作地从用户接收第二语音命令。第二语音命令包括对标识符中的一个或多个标识符的第二引用。语音控制设备可操作地对设备集中的至少一个设备中可以基于第二语音命令中包括的第二引用来识别的一个或多个设备实施控制,以执行第一语音命令中包括的控制命令。
9.根据本发明的第三方面,提出了一种用于控制设备集的计算机程序。计算机程序
包括计算机代码,该计算机代码当在语音控制设备的处理电路上运行时,使语音控制设备从语音控制设备的用户接收第一语音命令。第一语音命令包括对设备集中的至少一个设备的第一引用以及要对设备集中的该至少一个设备执行的控制命令。计算机代码使语音控制设备呈现与设备集中的至少一个设备中的每一个相关联的标识符。计算机代码使语音控制设备从用户接收第二语音命令。第二语音命令包括对标识符中的一个或多个标识符的第二引用。计算机代码使语音控制设备对设备集中的至少一个设备中可以基于第二语音命令中包括的第二引用来识别的一个或多个设备实施控制,以执行第一语音命令中包括的控制命令。
10.根据本发明的第四方面,提出了一种计算机程序产品,其包括存储有根据第三方面所述的计算机程序的计算机可读存储介质。
11.根据本发明的第五方面,存在一种包括根据第三方面所述的计算机程序的载体,其中,该载体是电信号、光信号、无线电信号和计算机可读存储介质之一。
12.有利地,这些方面提供了一种单独地控制设备集中的设备的简单方式。
13.有利地,这些方面提供了一种以更自然和类似对话的方式与设备进行交互的机制。
14.根据以下详细公开、所附从属权利要求以及附图,所附实施例的其他目的、特征和优点将变得显而易见。
15.通常,除非本文另有明确说明,否则权利要求中使用的所有术语根据其技术领域中的普通含义来解释。除非另有明确说明,否则对“一/一个/所述元件、设备、组件、装置、模块、步骤等”的所有引用应被开放地解释为指代元件、设备、组件、装置、模块、步骤等的至少一个实例。除非明确说明,否则本文公开的任何方法的步骤不必严格以所公开的确切顺序来执行。
附图说明
16.现在参考附图以示例方式描述本发明构思,在附图中:
17.图1示意性地示出了根据本发明实施例的使用语音控制设备来控制设备集;
18.图2是根据本发明实施例的用于控制设备集的方法的流程图;
19.图3是根据本发明另一实施例的用于控制设备集的方法的流程图;
20.图4是根据本发明另一实施例的用于控制设备集的方法的流程图;
21.图5示意性地示出了根据本发明实施例的用于控制设备集的语音控制设备;以及
22.图6示出了根据实施例的包括计算机可读存储介质的计算机程序产品的实施例。
具体实施例
23.现在将在下文中参考示出本发明构思的某些实施例的附图更全面地描述本发明构思。然而,本发明构思可以按多种不同形式来体现,并且不应当被解释为受限于本文阐述的实施例;相反,通过示例的方式提供这些实施例,使得本公开将透彻和完整,并且向本领域技术人员充分地传达本发明构思的范围。贯穿附图的描述,相似的标记指代相似的元件。由虚线示出的任何步骤或特征应当被视为可选的。
24.随着语音识别领域的发展,放置在桌面上的小豆荚(pod)形式的价格实惠的语音
控制设备/语音助手已经变得流行,其中包括amazon echo和alexa、apple homepod和google home。这些语音控制设备/语音助手允许对设备集进行集成并可通过语音命令对其进行控制。除了简单的命令之外,google home助手还具有对对话框的一些支持。例如,当用户要求google home语音助手找到他/她的移动电话时,语音助手提供其可以以最大音量控制移动电话响铃,并在执行之前要求用户确认。
25.图1示意性地示出了使用语音控制设备100来控制设备集。在房间的右侧存在若干个吸顶灯,它们分别是设备101、设备102、设备103、设备104和设备105。吸顶灯在这里仅用于说明目的。这些设备可以是可被配置以进行操作的任何种类的设备。例如,这些设备可以是电子设备,例如灯、扬声器、计算机、平板电脑、移动电话、百叶窗、电子锁、洗碗机、洗衣机、冰箱、电视等。这些设备可以经由网络20(例如,局域网(lan)、广域网(wan)、诸如蓝牙、zigbee等的短程无线电通信)彼此通信并与语音控制设备(100)进行通信。这样,用户10可以经由语音控制设备(100)来控制这些设备。
26.在一些实施例中,语音控制设备100可以包括基于被捕捉的声音产生音频信号的一个或多个麦克风,被捕捉的声音包括用户10的语音命令。语音控制设备100可以被配置为对音频信号执行语音识别。语音识别能够通过计算机将口语识别并翻译成文本。语音控制设备可以被配置为与环境中的其他设备进行交互并至少部分地控制其他设备。
27.例如,用户可以向语音控制设备100发出“打开右侧吸顶灯”的语音命令。语音控制设备100可以对所生成的音频信号执行asr以识别命令(“打开”)以及所引用的设备(“右侧吸顶灯”)。由于在右侧存在若干个吸顶灯(101、102、103、104和105),需要进一步的指令以简单的方式限制吸顶灯,使得语音控制设备100可以执行用户所请求的操作。本发明的实施例提供了一种针对该问题的解决方案。
28.图2是示出了用于控制设备集的方法200的实施例的流程图。方法200由语音控制设备100执行。该方法有利地提供为计算机程序620。
29.s201:从语音控制设备的用户接收第一语音命令,第一语音命令包括对设备集中的至少一个设备的第一引用以及要对设备集中的该至少一个设备执行的控制命令;
30.使用与图1相同的示出示例,用户10进入右侧有若干个吸顶灯(101、102、103、104和105)的房间。用户向语音控制设备100发出“打开右侧吸顶灯”的语音命令。语音控制设备100对接收到的音频信号执行语音识别,以获取语音命令的内容。语音控制设备100可以将所获取的语音命令的内容与预先存储的语音训练记录进行比较,该语音训练记录可以存储在语音控制设备100的存储器或服务器的存储器中。在比较之后,语音控制设备100可以提取:第一引用,其在这种情况下是房间右侧的吸顶灯(101、102、103、104和105);以及控制命令,其在这种情况下是“打开”。
31.在一些实施例中,当语音控制设备100无法从第一语音命令中提取到第一引用和控制命令时,语音控制设备100可以要求用户重复第一语音命令。
32.s202:呈现与设备集中的至少一个设备中的每一个相关联的标识符。
33.使用与图1相同的示出示例,房间右侧的每个吸顶灯(101、102、103、104和105)本身可以呈现颜色,例如蓝色、黄色、红色、橙色和绿色。可以改变颜色并经由蓝牙和/或语音命令进行控制的智能灯泡已经可用,例如来自phi ll ips的“色调灯泡”(https://www2.meethue.com/en-us/bulbs)。因此,吸顶灯101至105中的每一个都可以由用户单独识
别。
34.s203:从用户接收第二语音命令,其中,第二语音命令包括对标识符中的一个或多个标识符的第二引用。
35.使用与图1相同的示出示例,第二语音命令可以是“蓝和黄”、“蓝和黄灯”、“蓝黄灯”等。
36.s204:对设备集中的至少一个设备中可以基于第二语音命令中包括的第二引用来识别的一个或多个设备实施控制,以执行第一语音命令中包括的控制命令。
37.使用与图1相同的示出示例,语音控制设备100可以打开具有蓝色和黄色标识符的具有正常光的灯。
38.所提出的方法200接收至少两条语音命令,其中第一语音命令是发起动作。基于第一语音命令,通过利用标识符呈现自身的设备来启用设备集的选择。发出第二语音命令以更具体地选择应该被控制的设备并且可选地确认对设备集的选择。尽管在上述方法200中仅示出了两条语音命令,但对于本领域技术人员来说显而易见的是,可以使用进一步的语音命令通过迭代过程来指定应该被控制的设备。
39.在一些实施例中,用户可以给出初始语音命令“请突出显示所有可以被控制的设备”,使得所有可控设备可以通过标识符突出显示它们自身。
40.在一些实施例中,标识符是视觉标识符或听觉标识符。
41.在一些实施例中,视觉标识符是以下至少一项:颜色、数字、字母、符号、代码和闪烁模式。所有这些实施例应该被呈现为也可以被组合的备选方案。
42.在一些实施例中,视觉标识符通过以下至少一项呈现:将视觉标识符投射到设备的表面上,在设备的显示器上显示视觉标识符,以及激活设备的灯。
43.在一些实施例中,设备可以具有某种状态指示器,例如发光二极管(led)灯,或者在灯泡的情况下,灯本身可以用作状态指示器。语音控制设备100可以例如让所考虑的设备的状态指示器开始闪烁以突出显示它们自己。每个状态指示器可以具有闪烁模式,例如快速闪烁、慢速闪烁、心跳闪烁。
44.在一些实施例中,可以将设备集划分为子集,并且呈现与设备集中的至少一个设备中的每一个相关联的标识符的步骤s202还包括:呈现与设备集的一个或多个子集相关联的子集标识符。子集标识符是视觉标识符或听觉标识符。一个示例是,当从用户接收到第一语音命令“打开灯”时,基于它们的位置或一些其他标准,或基于历史命令模式将房间中的灯分组为若干个子集,例如设备集的预定义子集。在电视附近可能存在设备的一个子集,在左侧窗户附近存在一个子集,在右侧窗户附近存在一个子集。每个子集可以具有诸如颜色的子集标识符,并且子集中的每个灯可以具有闪烁模式。用户可以给出指定颜色以选择一个特定子集的第二语音命令。用户还可以给出指定颜色与闪烁模式的组合以控制单个灯的第二命令。每个子集可以进一步划分。例如,设备集的一个子集可以是呈现红色的吸顶灯。房间左侧的吸顶灯可以正在闪烁,而房间右侧的吸顶灯不在闪烁。在一些实施例中,创建设备的子集可以包括:针对子集中的每个设备,在语音控制设备100处或在某个其他远程位置处(例如,在服务器上)将相应设备是该子集的一部分的指示存储在数据库中。因此,当语音控制设备100接收到引用设备的子集的语音命令时,语音控制设备100可以使用数据库中存储的指示来识别形成子集的设备,并且可以指示子集中的每个设备执行操作。备选地,每个
设备可以知道其与子集的关联,并且语音控制设备广播相关设备执行的这些命令。
45.例如数字、颜色和符号的组合可以定义设备集的子集的各种组合,从而在控制各种设备时允许广泛的灵活性。
46.在一些实施例中,语音控制设备100配备有投射仪,该投射仪能够将例如形状和颜色形式的标记投射到房间中的物理物品上。投射仪可以用于突出显示任何设备,尤其是可能无法以其他方式突出显示其自身的设备,例如洗衣机。例如,当用户想要控制一个壁挂灯时,语音控制设备100可以将数字投射到壁挂灯中的每一个上。用户可以通过简单地说出对应的数字来指定预期的壁挂灯。投射仪还可以指向用户请求的物品或在用户可见的壁上显示状态消息。
47.在一些实施例中,投射仪可以投射形状形式的标记以指示灯的光强度。例如,如果在灯上或灯附近投射一个圆圈,则一个完整的圆圈可以表示100%的光强度,而半圆可以表示最大光强度的50%。备选地,与最大光强度相关的所选光强度水平可以以特定颜色显示并被投射到灯上或灯附近。
48.在一些实施例中,对于具有显示器的设备,显示器可以用于突出显示该设备。显示器可以简单地被点亮,并且可以在显示器上显示数字以识别设备。例如,房间中的任何电视或计算机屏幕都可以在显示器上显示一个数字,然后该数字可以用于控制对应的屏幕。
49.在一些实施例中,设备可以使用呈现自身的外部设备。例如,初始被关闭的电视可以使用放置在附近(例如,同一架子上)的台灯作为电视的指示器,以避免打开电视的屏幕。语音控制设备100可以在对话中将电视称为“台灯旁边的屏幕”。这需要语音控制设备100已经注册了每个设备的位置并且因此具有关于每个设备的附近设备的信息。稍后将在本技术中描述如何让语音控制设备100获知每个设备的位置。
50.在一些实施例中,设备集中的一个或多个可以是灯。
51.在一些实施例中,设备集中的一个或多个可以具有显示器。
52.在一些实施例中,设备集中的一个或多个可以由投射光呈现。
53.在一些实施例中,听觉标识符被可听地呈现为以下至少一项:数字、字母、符号、代码和铃声。铃声/铃音可以是诸如一段音乐或歌曲的声音的任何组合。所有这些实施例应该被呈现为也可以被组合的备选方案。
54.图3是示出了用于控制设备集的方法的另一实施例的流程图,其中语音控制设备100被配置为执行(可选)步骤s204a和s204b(虚线)。
55.步骤s204a和s204b在从用户接收(s203)到第二语音命令的步骤之后,第二语音命令包括对标识符中的一个或多个标识符的第二引用。
56.s204a:关闭与不能基于第二语音命令中包括的第二引用识别的设备相关联的标识符。
57.使用与图1相同的示出示例,语音控制设备100关闭房间右侧的用除了蓝色和黄色之外的其他颜色(即,橙色、红色和绿色)突出显示的其他吸顶灯。
58.s204b:从用户接收用于确认对设备集的正确选择的第三语音命令。
59.在该步骤,使用与图1相同的示出示例,用户可以确认用蓝色和黄色呈现的其余灯是他想要控制的正确设备,并通过诸如“没错”之类的第三语音命令来确认对设备的选择。这样,如果其余灯不是用户想要控制的灯,则用户可以发出另一语音命令来纠正对设备集
的选择。
60.图4是示出了根据图3中描述的方法使用投射仪来控制特定窗灯的示例的流程图。
61.s301a:用户说出诸如“嗨!助手”之类的话来唤醒语音控制设备100。在一些实施例中,语音控制设备100可以处于低功率模式以节省电力。当用户说出其名称(在该示例中为“助手”)时,语音控制设备100可以切换到活动模式并等待语音命令。如果在某个时间段内未接收到语音命令,则语音控制设备100将返回到其原始的低功率模式。
62.s301:用户给出第一语音命令“打开一些窗灯”,其中控制命令是“打开”,并且第一引用是“一些窗灯”。
63.s302:由于存在多个窗灯,并且无法通过第一语音命令来区分它们,因此激活投射仪,并针对每个窗灯将一个数字投射到该窗户上或窗户旁边。
64.s303:用户给出第二语音命令“除了数字3之外的全部”。分析该语音命令的内容,并且提取标识符3。通过对除了数字3之外的所有数字进行计数来推断对标识符的第二引用。在该示例中,由于总共存在5个设备,因此第二引用是“1、2、4、5”,即除了数字3之外的所有用于窗灯的标识符。
65.s304a:关闭窗户3上或窗户3旁边的投射。
66.s304b:用户用第三语音命令“没错”进行确认。
67.s304:相应地打开灯。
68.在一些实施例中,如果语音控制设备100配备有相机,则可以通过经由相机的照片进行选择来将新设备添加到设备集中。在一些实施例中,语音控制设备100是智能电话或配备有相机的平板电脑。用户10可以通过智能电话或平板电脑拍摄房间的照片。在一些其他实施例中,与拍摄房间的照片的智能电话或平板电脑协作使用语音控制设备100。可以通过对象检测在照片上识别房间中的不同设备,这是一种与计算机视觉和图像处理相关的计算机技术,用于处理对数字图像和视频中的语义对象的实例的检测。可以在照片上注释语音控制设备100已知的现有设备。语音控制设备100可以被配置到学习模式中。在一些实施例中,用户可以向照片提供输入以确认想要被添加的设备。在一些实施例中,语音控制设备100可以自动识别尚未注册的设备并将这些设备作为新设备的建议提供给用户。在一些实施例中,通过分析房间的照片,可以获得并注册该设备集的相对位置。
69.如果添加了诸如灯的新设备,则语音控制设备100可以注册该新灯并将标识符分配给该新灯。该新灯可以用该标识符呈现自己以确认该分配。设备集中的其他设备可以同时用它们的标识符呈现自己以显示该设备集的标识符的设置。
70.语音控制设备100可以注册新添加的设备的属性。语音控制设备100可以与用户进行通信以获取新添加的设备的属性。
71.在一些实施例中,语音控制设备100还可以包括手势控制功能。在一些实施例中,用户可以物理地指向房间中的设备,并且语音控制设备100可以通过所配备的相机跟踪用户的手。语音控制设备100可以通过突出显示用户所指向的设备来确认用户的手势。
72.上述实施例对于实施例的所有方面旨在是说明性的,而不是限制性的。因此,这些实施例能够在详细实现方式中作出本领域技术人员可以从本文所包含的描述中推导出的许多变化。上述实施例中所示出的语音命令也能够在详细实现方式中作出许多变化。
73.图5以多个功能单元的方式示意性地示出了根据实施例的语音控制设备100的组
件。使用合适的中央处理单元(cpu)、多处理器、微控制器、数字信号处理器(dsp)等中的一个或多个的任何组合来提供处理电路510。处理电路510可以包括处理器560和存储器530,其中,存储器530包含可由处理器560执行的指令。存储器530还可以包含计算机程序产品610(如图6所示)。处理电路510还可以被提供为至少一个专用集成电路(asic)或现场可编程门阵列(fpga)。语音控制设备100可以包括输入540和输出550。输入540可以包括键盘、小键盘、鼠标、触摸屏、操纵杆、控制按钮等。在一些实施方式中,一个或多个麦克风(图5中未示出)可以用作接收音频输入(例如,用户语音命令)的输入。输出550可以包括显示器、光元件(例如,led)、用于产生触觉感觉的振动器等。在一些实施方式中,一个或多个扬声器(图5中未示出)可以用作用于输出音频声音的输出550。
74.语音控制设备100还可以包括通信接口520。通信接口520可以实现各种无线技术中的一种或多种,例如wi-fi、蓝牙、zigbee等。以太网端口(图5中未示出)可以进一步被提供为语音控制设备100的一部分以促进与网络的有线连接,或与其他无线网络进行通信的插入式网络设备。除了usb端口之外,或者作为其替代,可以采用其他形式的有线连接,例如宽带连接。
75.具体地,处理电路510被配置为使语音控制设备100执行如上所述的操作集或步骤。例如,存储器530可以存储该操作集,并且处理电路510可以被配置为从存储器530检索该操作集以使语音控制设备100执行该操作集。该操作集可以被提供为可执行指令的集合。
76.因此,处理电路510由此被布置成执行如本文公开的方法。存储器530还可以包括持久存储设备,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装存储器中的任意单独一个或组合。
77.图6示出了包括计算机可读存储介质630的计算机程序产品610的一个示例。在该计算机可读存储介质630上,可以存储计算机程序620,该计算机程序620可以使处理电路510和可操作地耦接至处理电路510的实体和设备(例如,通信接口520)执行根据本文描述的实施例的方法。计算机程序620和/或计算机程序产品610可以因此提供执行如本文公开的任何步骤的装置。
78.在图6的示例中,计算机程序产品610被示出为光盘,例如cd(紧凑盘)或dvd(数字多功能盘)或蓝光盘。计算机程序产品610还可以体现为存储器,例如随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、或电可擦除可编程只读存储器(eeprom)和更具体地体现为外部存储器中的设备的非易失性存储介质,例如usb(通用串行总线)存储器或闪存(例如,紧凑式闪存)。因此,尽管计算机程序620在这里被示意性地示出为所描绘的光盘上的轨道,但计算机程序620可以用适于计算机程序产品610的任何方式存储。一种载体可以包含计算机程序620,其中,该载体是电信号、光信号、无线电信号和计算机可读存储介质630之一。
79.已经参考一些实施例在上文中主要地描述了本发明构思。然而,本领域技术人员容易了解的是:上文公开的实施例之外的其他实施例同样可以在由所附专利权利要求所限定的本发明构思的范围之内。