电子设备、语音接口设备以及电子系统的制作方法

文档序号:18685604发布日期:2019-09-17 19:41阅读:166来源:国知局
电子设备、语音接口设备以及电子系统的制作方法

本申请属于申请日为2017年12月14日的中国实用新型专利申请No.201721751704.8的分案申请。

相关申请的交叉引用

本申请要求于2016年12月30日提交的、名称为“Design for Compact Home Assistant with Combined Acoustic Waveguide and Heat Sink(具有结合声波导和散热片的紧凑型家庭助手的设计)”的美国临时专利申请No.62/441,144的优先权,其全部内容通过引用并入本文。

技术领域

本申请一般涉及计算机技术,包括但不限于用于提供在智能居家或媒体环境中用作用户界面的语音激活电子设备的方法和系统。



背景技术:

集成有麦克风的电子设备已被广泛用于收集来自用户的语音输入,并且根据语音输入来实现不同的语音激活功能。例如,许多现有技术移动设备包括被配置成使用语音输入来启动电话呼叫、进行餐馆搜索、在地图上开始路线选择、创建日历活动、向社交网络添加帖子、识别歌曲以及完成许多其他任务的语音辅助系统(例如,Siri和Google Assistant)。移动设备通常包括显示屏,其允许提供语音输入的用户检查经由语音输入请求的任务的状态。

然而,在许多操作环境中,接收对用户语音输入的可听响应而不是在显示器上显示可视信息对于用户而言更加理想/便利(或甚至是必需的)。当提供用户辅助的电子设备不具有显示屏时(正如由Google Assistant提供的Google Home语音激活扬声器),或者当用户无法与显示屏交互时(正如在许多居家环境中,用户正与不在近旁的语音激活辅助设备进行交互或者用户关注特定任务),尤其如此。

针对这样的操作环境,有益地,提供具有扬声器系统的电子设备,该扬声器系统产生足够清晰度和音量的声音以对用户的辅助请求提供有效的可听响应。这样的电子设备还需要机载支持电子器件,诸如以下中的一个或多个:用来支持无线通信的无线电接收器、发射器和天线;电源电路和连接器;用于设备上处理的处理器和支持芯片;以及数据连接器。根据部署这样的电子辅助设备的居家/操作环境,辅助设备也能够被设计成具有不同的外观和/或形状因数。特别是在需要紧凑的形状因数的情况下,为了有效地消散由电子器件产生的热量,同时还为扬声器系统的有效操作提供足够的空间,这对结合上述部件提出挑战。当期望电子设备具有相对简单的结构并且能够以低成本制造,同时实现与移动设备能够执行的语音激活功能相似的语音激活功能时,使得挑战升级。

因此,需要有效地提供可听输出和散热的电子语音辅助设备的紧凑设计。



技术实现要素:

本申请的一个方面涉及一种电子设备,其包括:整体外部,所述整体外部包括上部分和基座部分;包含在所述整体外部内的多个电子组件,所述多个电子组件包括第一电连接器,所述第一电连接器被配置用于在所述第一电连接器被连接到外部连接器时进行以下至少之一:向所述多个电子组件供应电力和数据中的至少一种、以及从所述多个电子组件输出数据信号;一个或多个扬声器,所述一个或多个扬声器被安装在所述电子设备内,使得不存在用于将由所述一个或多个扬声器生成的声音传输到所述电子设备的外部的直接通路;波导,所述波导被设置在所述电子设备内以将由所述一个或多个扬声器输出的声音从所述电子设备的内部重导向到所述电子设备的外部,其中,所述波导还被配置成充当散热片,用以将由所述多个电子组件的操作产生的热量消散到所述电子设备的外部。

本申请的另一个方面涉及一种语音接口设备,其包括:整体外部,所述整体外部包括上部分和基座部分;包含在所述整体外部内的多个电子组件,所述多个电子组件包括第一电连接器,所述第一电连接器被配置用于在所述第一电连接器被连接到外部连接器时进行以下至少之一:向所述多个电子组件供应电力和数据中的至少一种、以及从所述多个电子组件输出数据信号;一个或多个扬声器,所述一个或多个扬声器被安装在所述语音接口设备内,使得不存在用于将由所述一个或多个扬声器生成的声音传输到所述语音接口设备的外部的直接通路;波导,所述波导被设置在所述语音接口设备内以将由所述一个或多个扬声器输出的声音从所述语音接口设备的内部重导向到所述语音接口设备的外部,其中,所述波导还被配置成充当散热片,用以将由所述多个电子组件的操作产生的热量消散到所述语音接口设备的外部。

本申请的再一个方面涉及一种电子系统,其包括:多个电子组件,所述多个电子组件包括第一电连接器,所述第一电连接器被配置用于在所述第一电连接器被连接到外部连接器时进行以下至少之一:向所述多个电子组件供应电力和数据中的至少一种、以及从所述多个电子组件输出数据信号;一个或多个扬声器,所述一个或多个扬声器被安装在所述电子系统内,使得不存在用于将由所述一个或多个扬声器生成的声音传输到所述电子系统的外部的直接通路;波导,所述波导被设置在所述电子系统内以将由所述一个或多个扬声器输出的声音从所述电子系统的内部重导向到所述电子系统的外部,其中,所述波导还被配置成充当散热片,用以将由所述多个电子组件的操作产生的热量消散到所述电子系统的外部。

公开了一种电子语音激活设备,其以小形状因数提供语音辅助功能,使得用户能够通过自然语言语音命令执行一系列活动,包括以下中的一个或多个:控制本地和远程电子设备,向远程服务器发出对服务和信息的请求,和/或将媒体信息发送到其他电子设备以供所述用户或其他用户消费。在一些实施方式中,电子语音激活设备包括用于指示与说出的用户请求相关联的语音处理的状态的视觉指示符,诸如一个或多个全彩LED。在一些实施方式中,电子语音激活设备包括一个或多个扬声器,所述一个或多个扬声器能够被用于将可听信息中继给用户以提供对用户请求(诸如搜索查询或者对篮球得分的请求)的回答、提供说出的语音处理操作的状态、播放音乐选择和/或朗读时事新闻的摘要或当前天气预报。鉴于语音输入对于用户而言较为便利,除从远程服务器和移动设备请求基于因特网的服务和功能之外,一些实现方式还允许用户使用语音输入来控制用户可访问的其他电子设备。

因此,本文描述电子设备的实施方式,它们提供免视和免提语音接口,以使得用户能够激活相关联的媒体播放器设备方面的语音激活功能,向远程服务器发出信息请求,消费可听信息或媒体,和/或在智能媒体或智能居家环境中控制耦合在语音激活电子设备内的智能居家或智能媒体设备。在本文所述的各种实施方式中,智能媒体环境包括一个或多个语音激活电子设备以及多个媒体显示设备,每个媒体显示设备被布置在不同的位置。在一些实施方式中,这些设备被耦合到投射设备(例如,机顶盒、Google ChromecastTM设备或智能电视)。这些设备能够经由发出到语音激活设备的语音请求而被引导播放由用户口头确认的媒体项目。

这些联网和语音激活的电子设备通常被放置在智能居家环境的不同位置的表面上。这样,在一些实施方式中,电子语音辅助设备被配置成具有匹配整体智能居家环境的形状因数和外观和/或能够在整个环境中与多个兼容的表面和设备集成。例如,在一些实施方式中,语音激活电子设备包括可分基座,所述基座能够被替换,以能够更好地匹配各种居家环境中的表面装饰。在一些实施方式中,所述可分基座是具有诸如布料、皮革、金属和光滑的各种表面外观的可分格栅。在一些实施方式中,所述基座经由磁吸力而被连接到电子设备的上部分,这使得所述基座与电子设备的上部分能够牢固地紧固,但使用手动用户操纵可分离。在一些实施方式中,所述基座与所述上部分能够使用扭转运动以及随后的分离运动而分离,并且在一些实施方式中,所述基座与所述上部分能够仅使用分离运动而分离。在一些实施方式中,电子设备包括用作扬声器格栅的上部分,其允许声音从包含在电子设备内的一个或多个扬声器传输到设备的外部。在一些实施方式中,所述上部分/扬声器格栅能够被配置有不同的表面装饰和/或能够如上所述牢固而可分离地紧固到所述基座部分。

在一些实施方式中,所述电子设备是包括一个或多个扬声器以及多个电子组件的紧凑型设备,所述多个电子组件包括以下中的一个或多个:微处理器、存储器、支持芯片、无线接收器和发射器、天线、电源电路、一个或多个相机、电源和/或数据连接器等,其中一些被安装在一个或多个印刷电路板上。扬声器能够被用于任何音频输出目的,包括输出对用户口头输入的可听响应、播放媒体内容的音轨以及生成可听警示(包括蜂鸣、警报、警笛等)。在一些实施方式中,一个或多个扬声器被安装在电子设备内,使得不存在用于将由一个或多个扬声器生成的声音传输到设备的外部的直接通路。在这样的实施方式中,为了促进有效的扬声器操作(包括将由扬声器输出的声音有效地传输到设备的外部),波导被设置在电子设备内以将由一个或多个扬声器输出的声音从设备的内部重导向(redirect)到设备的外部。在一些实施方式中,波导被配置成将声音重导向到设置在电子设备的外表面处的扬声器格栅。

在一些实施方式中,波导也被配置成充当散热片以将由电子组件的操作产生的热量消散到电子设备的外部,并且被安装在电子组件中的至少一些附近。

在一些实施方式中,所述一个或多个扬声器被安装在所述电子设备的基座部分中并且具有在所述设备内面朝上、朝向所述双用途波导/散热片的弯曲部分的主要声音投射方向。弯曲部分被设计成将来自一个或多个扬声器的声音重导向到电子设备的外部。发热电子组件和/或承载电子组件的一个或多个印刷电路板被直接附接到双用途波导/散热片的第二部分(或者使用热传导通路间接耦合到该第二部分),以便将由电子部件的操作产生的热量传输到散热片。散热片被配置成将从附接的电子组件传输到该散热片的热量移动到电子设备的外部。在一些实施方式中,散热片由具有高效热传导特性的材料制成,以促进热量从设备内部移动到设备外部。在一些实施方式中,所述弯曲部分是所述双用途波导/散热片的底表面(例如,朝向一个或多个扬声器的面朝下的表面),并且所述第二部分是与所述双用途波导/散热片的所述底表面相对的所述双用途波导/散热片的上表面(例如,电子组件所附接的面朝上的表面)。在一些实施方式中,所述电子组件以及所述一个或多个扬声器的位置被互换,使得所述一个或多个扬声器被定位于所述电子设备的上部分中,并且朝着所述双用途波导/散热片的上(弯曲)表面向下突出,并且所述电子组件被安装在所述电子设备的基座部分中,并且所述波导/散热片被安装在下部分中。

附图说明

为更好地理解所述各种实施方式,下面将结合以下附图参照具体实施方式的描述,其中相似的附图标记贯穿附图指代对应的部分。

图1图示出根据一些实施方式的示例性操作环境。

图2图示出根据一些实施方式的示例性语音激活电子设备。

图3图示出根据一些实施方式的示例性语音辅助服务器系统。

图4A、图4B和图4C分别是根据一些实施方式的示例性语音激活电子设备的正视图、侧视图和后视图。

图4D是根据一些实施方式的示例性语音激活电子设备的透视图。

图4E是根据一些实施方式的示例性语音激活电子设备的剖视图,示出双用途波导/散热片。

图4F是根据一些实施方式的示例性语音激活电子设备的分解图。

贯穿附图的几个视图,类似的附图标记指代对应的部分。

具体实施方式

数字革命已提供从支持信息的开放共享到地球村的观念的许多好处。然而,新兴技术经常引起消费者的困惑、怀疑和恐惧,阻碍消费者从技术中获益。电子设备可方便地用作语音接口,用以接收来自用户的语音输入并且启动语音激活功能,由此提供免视和免提的解决方案,以便能够利用现有技术和新兴技术两者进行简单高效的用户交互。具体地,即使用户的视线受遮掩并且他/她的双手正忙,在具有语音激活特征的电子设备处接收到的语音输入也能够携带指令和信息。为了实现免提和免视体验,根据本实用新型的语音激活电子设备不断地“收听”周围环境(即,不断地处理从周围环境收集的音频信号),或者只有当被触发时才如此(例如,经由用户说出“热词”来触发电子设备的操作)。另一方面,用户身份与用户的语音和用户使用的语言相链接。为了保护用户身份,这些语音激活电子设备通常被用于受保护、受控和私密空间的非公共场所(例如,住宅和汽车)。

具体地,在一些实施方式中,电子设备提供免视和免提语音接口以激活智能媒体或居家环境内耦合的其他媒体播放设备或智能居家设备的语音激活功能。智能媒体环境包括一个或多个语音激活电子设备以及多个媒体显示设备,每个媒体显示设备被布置在不同的位置。所述电子设备中的一些被耦合到可能的投射设备(例如,机顶盒)。每个语音激活电子设备被配置成记录语音消息,云投服务服务器根据该语音消息来确定用户语音请求(例如,媒体播放请求、媒体传送请求或者隐藏字幕发起请求)。然后,云投服务服务器将用户语音请求引导到如由语音消息指示的目的地投射设备。类似的布置能够被用于控制智能居家设备在智能居家环境中实现语音激活功能。这样的方法可选地补充或替代要求用户使用遥控器或客户端设备来控制智能媒体或居家环境中的媒体设备或智能居家设备的常规方法。

根据本申请的各种实施方式,联网和语音激活的电子设备通常被放置在智能居家环境的不同位置的表面上。每个语音激活电子设备被配置成具有匹配整体智能居家环境的形状因数。例如,每个语音激活电子设备包括能够与不同类型的表面匹配和接触的基座,所述表面包括桌面、家具表面、插接站、媒体播放器设备或者其他表面。这样的语音激活电子设备被配置成以紧凑牢固的方式耦合到其基座,由此自然地融合到各种居家环境中。

在一些实施方式中,所述电子设备是包括一个或多个扬声器以及多个电子组件的紧凑型设备,所述多个电子组件包括以下中的一个或多个:微处理器、存储器、支持芯片、无线接收器和发射器、天线、电源电路、一个或多个相机、电源和/或数据连接器等,其中一些被安装在一个或多个印刷电路板上。扬声器能够被用于任何音频输出目的,包括输出对用户口头输入的可听响应、播放媒体内容的音轨以及生成可听警示(包括蜂鸣、警报、警笛等)。在一些实施方式中,一个或多个扬声器被安装在电子设备内,使得不存在用于将由一个或多个扬声器生成的声音传输到设备的外部的直接通路。在这样的实施方式中,为了促进有效的扬声器操作(包括将由扬声器输出的声音有效地传输到设备的外部),波导被设置在电子设备内以将由一个或多个扬声器输出的声音从设备的内部重导向到设备的外部。在一些实施方式中,波导被配置成将声音重导向到设置在电子设备的外表面处的扬声器格栅。在一些实施方式中,波导也被配置成充当散热片以将由电子组件的操作产生的热量消散到电子设备的外部,并且被安装在电子组件中的至少一些附近。

现将详细参照实施方式,在附图中图示出这些实施方式的示例。在下文的详细描述中阐明诸多具体细节,以便全面理解所述各种实施方式。然而,本领域的普通技术人员将显而易见,在不具有这些具体细节的情况下,也可以实践所述各种实施方式。在其他实例中,并未详细描述公知的方法、过程、部件、电路和网络,以免不必要地混淆实施方式的多个方面。

语音辅助操作环境

图1是根据一些实施方式的示例性操作环境。操作环境100包括一个或多个语音激活电子设备104(例如,语音激活电子设备104-1至104-N,下文称为“一个或多个语音激活设备”)。一个或多个语音激活设备104可以被定位于一个或多个位置(例如,全部位于建筑物的房间或空间中,散布在建筑物内的多个空间中或者散布在多个建筑物中)(例如,房屋中的位置以及用户车里的位置)。

环境100还包括一个或多个可控电子设备106(例如,电子设备106-1至106-N,下文称为“一个或多个可控设备”)。可控设备106的示例包括媒体设备(智能电视、扬声器系统、无线扬声器、机顶盒、媒体流设备、投射设备)以及智能居家设备(例如,智能相机、智能恒温器、智能灯、智能危险检测器、智能门锁)。

语音激活设备104和可控设备106通过通信网络110而通信地耦合到语音辅助服务140(例如,语音辅助服务140的语音辅助服务器系统112)。在一些实施方式中,语音激活设备104和可控设备106中的一个或多个通信地耦合到本地网络108,该本地网络通信地耦合到通信网络110;一个或多个语音激活设备104和/或一个或多个可控设备106经由本地网络108通信地耦合到一个或多个通信网络110(并且,通过通信网络110耦合到语音辅助服务器系统112)。在一些实施方式中,本地网络108是在网络接口(例如,路由器)处实现的局域网。通信地耦合到本地网络108的语音激活设备104和可控设备106也可以通过本地网络108彼此通信。

可选地,语音激活设备104中的一个或多个通信地耦合到通信网络110并且不在本地网络108上。例如,这些语音激活设备不在对应于本地网络108的Wi-Fi网络上,而是通过蜂窝连接而连接到通信网络110。在一些实施方式中,在本地网络108上的语音激活设备104与不在本地网络108上的语音激活设备104之间的通信是通过语音辅助服务器系统112来完成。语音激活设备104(无论是在本地网络108还是在网络110上)被注册在语音助手服务140的设备注册表118中,并因此为语音辅助服务器系统112所知。类似地,不在本地网络108上的语音激活设备104可以通过语音辅助服务器系统112与可控设备106通信。可控设备106(无论在本地网络108上还是在网络110上)也被注册在设备注册表118中。在一些实施方式中,语音激活设备104与可控设备106之间的通信经过语音辅助服务器系统112。

在一些实施方式中,环境100还包括一个或多个内容主机114。内容主机114可以是远程内容源,根据用户语音输入或命令中所包括的请求,从该内容源流传送或以其他方式获得内容。内容主机114可以是信息源,根据用户语音请求,语音辅助服务器系统112从该信息源中检索信息。

在一些实施方式中,可控设备106能够接收命令或请求,以执行指定的操作或者转换到指定的状态(例如,从音设和或音桶)并且根据所接收的命令或请求来执行操作或转换状态。

在一些实施方式中,可控设备106中的一个或多个是布置在操作环境100中的媒体设备,用以向一个或多个用户提供媒体内容、新闻和/或其他信息。在一些实施方式中,由媒体设备提供的内容被存储在本地内容源、从远程内容源(例如,一个或多个内容主机114)流传送或者在本地生成(例如,通过本地文本到语音处理器,其向操作环境100的一个或多个拥有者朗读自定义的新闻简报、电子邮件、文本、本地天气预报等)。在一些实施方式中,媒体设备包括将媒体内容直接输出给观众(例如,一个或多个用户)的媒体输出设备以及联网以将媒体内容流传送到媒体输出设备的投射设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。投射设备的示例包括但不限于机顶盒(STB)、DVD播放器、电视盒和媒体流设备,诸如Google的ChromecastTM媒体流设备。

在一些实施方式中,可控设备106也是语音激活设备104。在一些实施方式中,语音激活设备104也是可控设备106。例如,可控设备106可以包括到语音辅助服务140的语音接口(例如,也能够接收、处理和响应于用户语音输入的媒体设备)。作为另一示例,语音激活设备104还可以根据语音输入(例如,也能够播放流媒体音乐的语音接口设备)中的请求或命令来执行特定操作并且转换到特定状态。

在一些实施方式中,语音激活设备104和可控设备106与具有相应账户的用户或者与用户域中具有相应用户账户的多个用户(例如,一组相关用户,诸如家庭或组织中的用户;更一般地,主用户和一个或多个授权的附加用户)相关联。用户可以对语音激活设备104进行语音输入或语音命令。语音激活设备104接收这些来自用户(例如,用户102)的语音输入,并且语音激活设备104和/或语音辅助服务器系统112继续确定语音输入中的请求并且生成对请求的响应。

在一些实施方式中,语音输入中所包括的请求是对可控设备106的命令或请求,以执行操作(例如,播放媒体、暂停媒体、快进或倒回媒体、更改音量、更改屏幕亮度、更改灯光亮度)或者转换到另一个状态(例如,更改操作模式、开机或关机、进入睡眠模式或从睡眠模式中唤醒)。

在一些实施方式中,语音激活电子设备104通过以下响应于语音输入:生成并提供对语音命令的口头响应(例如,响应于问题“现在几点?”说出当前时间);流传送由用户请求的媒体内容(例如,“播放海滩男孩的歌曲”);朗读为用户准备的新闻报道或每日新闻简报;播放存储在个人助理设备或本地网络上的媒体项目;更改状态或者操作操作环境100内的一个或多个其他连接的设备(例如,打开/关闭灯、电器或媒体设备,上锁/开锁,开窗等);或者经由网络110向服务器发出对应的请求。

在一些实施方式中,一个或多个语音激活设备104被布置在操作环境100中,以收集用于启动各种功能(例如,媒体设备的媒体播放功能)的音频输入。在一些实施方式中,这些语音激活设备104(例如,设备104-1至104-N)被布置在例如与投射设备和媒体输出设备位于同一个房间中的可控设备104(例如,媒体设备)附近。替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能居家设备而不具有任何媒体设备的建筑物中。替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能居家设备以及一个或多个媒体设备的建筑物中。替选地,在一些实施方式中,语音激活设备104被布置在不具有联网的电子设备的位置上。另外,在一些实施方式中,建筑物中的房间或空间可以具有多个语音激活设备104。

在一些实施方式中,语音激活设备104包括至少一个或多个麦克风、扬声器、处理器以及存储由处理器执行的至少一个程序的存储器。扬声器被配置成允许语音激活设备104将语音消息和其他音频(例如,可听音调)递送到语音激活设备104在操作环境100中所处的位置,由此广播音乐,报告音频输入处理的状态,与语音激活设备104的用户对话或者向其给予指令。作为语音消息的替选方案,可视信号也能够被用于向语音激活设备104的用户提供关于音频输入处理的状态的反馈。当语音激活设备104是移动设备(例如,移动电话或平板型计算机)时,其显示屏被配置成显示关于音频输入处理的状态的通知。

在一些实施方式中,语音激活设备104是联网的语音接口设备,用以借助语音辅助服务器系统112来提供语音识别功能。例如,语音激活设备104包括智能扬声器,其向用户提供音乐并且允许免视和免提接入语音辅助服务(例如,Google Assistant)。可选地,语音激活设备104是桌面型或膝上型计算机、平板型计算机、包括麦克风的移动电话、包括麦克风和可选扬声器的投射设备、包括麦克风和扬声器的音频系统(例如,立体声系统、扬声器系统、便携式扬声器)、包括麦克风和扬声器的电视机以及包括麦克风和扬声器并且可选地包括显示器的机动车中的用户界面系统。可选地,语音激活设备104是简单且低成本的语音接口设备。通常,语音激活设备104可以是能够联网并且包括麦克风、扬声器以及用于与语音辅助服务交互的程序、模块和数据的任何设备。鉴于语音激活设备104的简单性和低成本,语音激活设备104包括发光二极管(LED)阵列而不包括全显示屏,并且在LED上显示可视图案以指示音频输入处理的状态。在一些实施方式中,LED是全彩LED,并且LED的颜色可以被用作要在LED上显示的视觉图案的一部分。在2016年5月13日提交的、标题为“LED Design Language for Visual Affordance of Voice User Interfaces(用于语音用户界面视觉功能可见性的LED设计语言)”的美国临时专利申请No.62/336,566中描述了使用LED来显示视觉图案以便传达信息或设备状态的多个示例。在一些实施方式中,使用与执行语音处理操作的语音激活设备相关联的传统显示器上所示的特征图像,显示指示语音处理操作的状态的视觉图案。

在一些实施方式中,LED或其他视觉显示器被用于传达多个参与电子设备的集体语音处理状态。例如,在存在多个语音处理或语音接口设备(例如,如申请‘566的图4A中所示的多个电子设备400;多个语音激活设备104)的操作环境中,与相应电子设备相关联的彩色LED组(例如,如申请‘566的图4A中所示的LED 404)能够被用于传达电子设备中的哪一个正在收听用户以及收听设备中的哪一个是领导(其中“领导”设备通常率先响应于由用户发出的说出的请求)。

更一般地,申请‘566描述(例如,参见第[0087]-[0100]段)“LED设计语言”,用于使用LED的集合视觉地指示电子设备的各种语音处理状态,诸如“热词检测状态和收听状态”、“思考模式或工作模式”以及“响应模式或说话模式”。在一些实施方式中,根据申请‘566的“LED设计语言”的一个或多个方面,使用LED组来表示本文所述的语音处理操作的独有状态。这些视觉指示符也能够与由执行语音处理操作的电子设备生成的一个或多个可听指示器组合。由此产生的音频和/或视觉指示符将使得语音交互环境中的用户能够理解环境中各种语音处理电子设备的状态,并且以自然直观的方式与这些设备进行有效地交互。

在一些实施方式中,当语音激活设备104的语音输入被用于经由投射设备来控制媒体输出设备时,语音激活设备104有效地启用对支持投射的媒体设备的新的控制水平。在具体示例中,语音激活设备104包括具有远场语音访问的休闲娱乐扬声器,并且充当语音辅助服务的语音接口设备。语音激活设备104能够被布置在操作环境100中的任何区域中。当多个语音激活设备104被分布在多个房间中时,它们变成同步提供来自这些房间的语音输入的投影音频接收器。

具体地,在一些实施方式中,语音激活设备104包括Wi-Fi扬声器,其具有连接到语音激活的语音辅助服务(例如,Google Assistant)的麦克风。用户能够经由语音激活设备104的麦克风发出媒体播放请求,并且要求语音辅助服务在语音激活设备104本身或者另一个连接的媒体输出设备上播放媒体内容。例如,用户能够通过对Wi-Fi扬声器说出“Google,请在我的客厅电视机上播放猫的视频”来发出媒体播放请求。然后,语音辅助服务通过使用默认或指定的媒体应用在所请求的设备上播放所请求的媒体内容来满足媒体播放请求。

在一些实施方式中,用户能够经由语音激活设备104的麦克风发出关于显示设备上已经播放或正在播放的媒体内容的语音请求(例如,用户能够询问关于媒体内容的信息、通过在线商店购买媒体内容或者撰写和发布关于媒体内容的社交帖子)。

在一些实施方式中,当用户在家中移动时可能想要与它们进行当前媒体会话,并且能够从语音激活设备104中的一个或多个请求这样的服务。这就要求语音辅助服务140将当前媒体会话从第一投射设备传送到第二投射设备,该第二投射设备并未直接连接到第一投射设备或者不知道存在第一投射设备。在媒体内容传送之后,耦合到第二投射设备的第二输出设备从在耦合到第一投射设备的第一输出设备上放弃播放媒体内容的音乐曲目或视频剪辑内的确切点开始继续播放先前第一输出设备播放的媒体内容。在一些实施方式中,接收传送媒体会话的请求的语音激活设备104能够满足该请求。在一些实施方式中,接收到传送媒体会话的请求的语音激活设备104将该请求中继到另一个设备或系统(例如,语音辅助服务器系统112)以便进行处理。

此外,在一些实施方式中,用户可以经由语音激活设备104的麦克风发出对于信息的请求或者对于执行动作或操作的请求。所请求的信息可以是个人信息(例如,用户的电子邮件、用户的日历事件、用户的航班信息等)、非个人信息(例如,体育比分、新闻报道等)或者介于二者之间(例如,用户偏好的团队或运动的比分、来自用户偏好资源的新闻报道等)。所请求的信息或动作/操作可能涉及访问个人信息(例如,购买具有由用户提供的支付信息的数字媒体项目、购买物质产品)。语音激活设备104利用对用户的语音消息响应来响应于该请求,其中响应可以例如包括对于满足请求的附加信息的请求、已经满足请求的确认、无法满足请求的通知等。

在一些实施方式中,除语音激活设备104以及可控设备106当中的媒体设备之外,操作环境100还可以包括可控设备106当中的一个或多个智能居家设备。集成的智能居家设备包括智能多感测联网设备,其在智能居家网络中彼此无缝地集成和/或与中央服务器或云计算系统无缝地集成,以提供各种有用的智能居家功能。在一些实施方式中,智能居家设备被布置在操作环境100中与投射设备和/或输出设备相同的位置处,并因此被定位于投射设备和输出设备附近或者与其相距已知距离。

操作环境100中的智能居家设备可以包括但不限于一个或多个智能多感测联网恒温器、一个或多个智能联网的多感测危险检测器、一个或多个智能多感测联网入口通道接口设备(下文称为“智能门铃”和“智能门锁”)、一个或多个智能多感测联网警报系统、一个或多个智能多感测联网相机系统、一个或多个智能多感测联网壁开关、一个或多个智能多感测联网电源插座以及一个或多个智能多感测联网灯。在一些实施方式中,图1的操作环境100中的智能居家设备包括多个智能多感测联网电器(下文称为“智能电器”),诸如冰箱、炉灶、烤箱、电视、洗衣机、烘干机、灯、立体声音响、对讲机系统、车库开门器、落地扇、吊扇、壁式空调、泳池加热器、灌溉系统、安全系统、空间加热器、窗式空调机组、机动式通风管道等等。在一些实施方式中,这些智能居家设备类型中的任何一种能够配备有麦克风以及如本文所述的一个或多个语音处理能力,以便全部或部分地响应于来自拥有者或用户的语音请求。

在一些实施方式中,可控设备104和语音激活设备104中的每个能够与其他可控设备106、语音激活电子设备104、中央服务器或云计算系统和/或联网的其他设备(例如,客户端设备)共享数据通信和信息。数据通信可以使用各种定制或标准无线协议(例如,IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)和/或各种定制或标准有线协议(例如,以太网、HomePlug等)中的任何一种或者任何其他适当的通信协议,包括在本文件的提交日期之前尚未开发的通信协议来进行。

通过通信网络(例如,因特网)110,可控设备106和语音激活设备104可以与服务器系统(本文也称为中央服务器系统和/或云计算系统)通信。可选地,服务器系统可以与可控设备关联的制造商、支持实体或服务提供者以及向用户显示的媒体内容相关联。因此,服务器系统包括处理由语音激活设备104收集的音频输入的语音辅助服务器112、提供所显示的媒体内容的一个或多个内容主机114、可选地基于分布式设备终端创建虚拟用户域的云投服务服务器以及保存虚拟用户环境中分布式设备终端的记录的设备注册表118。分布式设备终端的示例包括但不限于可控设备106,语音激活设备104和媒体输出设备。在一些实施方式中,这些分布式设备终端被链接到虚拟用户域中的用户账户(例如,Google用户账户)。应领会到,由语音激活设备104收集的音频输入的处理能够本地地在语音激活设备104、语音辅助服务器112、另一个智能居家设备(例如,集线器设备)或者以上全部或子集的一些组合来执行。

应领会到,在一些实施方式中,一个或多个语音激活设备104还在无智能居家设备的环境中运行。例如,即使在不存在智能居家设备的情况下,语音激活设备104也能够响应于用户对于动作的信息或执行的请求,和/或启动或控制各种媒体播放功能。语音激活设备104还能够在广泛的环境中运行,包括但不限于交通工具、船舶、企业或制造业环境。

在一些实施方式中,通过包括热词(也被称为“唤醒词”)的语音输入,语音激活设备104被“唤醒”(例如,激活语音激活设备104上的语音辅助服务的接口,使语音激活设备104进入语音激活设备104准备好接收对语音辅助服务的语音请求的状态)。在一些实施方式中,如果语音激活设备104已经相对于接收到语音输入空闲达至少预定义时间量(例如,5分钟),则语音激活设备104需要唤醒;预定义时间量对应于语音接口会话或对话超时之前所允许的空闲时间量。热词可以是词语或短语,并且可以是预定义的默认值,和/或可以由用户自定义(例如,用户可以为特定的语音激活设备104设定别名作为设备的热词)。在一些实施方式中,可能存在能够唤醒语音激活设备104的多个热词。用户可以说出热词,等待来自语音激活设备104的确认响应(例如,语音激活设备104输出问候),并且作出第一语音请求。替选地,用户可以将热词和第一语音请求组合在一个语音输入中(例如,语音输入包括热词,后接语音请求)。

在一些实施方式中,根据一些实施方式,语音激活设备104与操作环境100的可控设备106(例如,媒体设备、智能居家设备)、客户端设备或服务器系统进行交互。语音激活设备104被配置成接收来自语音激活设备104附近的环境的音频输入。可选地,语音激活设备104存储音频输入并且在本地至少部分地处理音频输入。可选地,语音激活设备104经由通信网络110将所接收的音频输入或经部分处理的音频输入发送到语音辅助服务器系统112以供进一步处理。语音激活设备104或语音辅助服务器系统112确定音频输入中是否存在请求以及该请求为何,确定并生成对该请求的响应,并且将该响应发送到一个或多个可控设备106。接收响应的一个或多个可控设备106被配置成根据响应执行操作或更改状态。例如,媒体设备被配置成根据对音频输入中的请求的响应,从一个或多个内容主机114获得媒体内容或因特网内容,以便在耦合到媒体设备的输出设备上显示。

在一些实施方式中,一个或多个可控设备106和一个或多个语音激活设备104在用户域中彼此链接,更具体地,经由用户域中的用户账户彼此关联。关于可控设备106(无论在本地网络108上还是在网络110上)和语音激活设备104(无论在本地网络108上还是在网络110上)的信息被存储在与用户账户相关联的设备注册表118中。在一些实施方式中,存在可控设备106的设备注册表以及语音激活设备104的设备注册表。可控设备注册表可以参考在用户域中相关联的语音激活设备注册表中的设备,反之亦然。

在一些实施方式中,语音激活设备104中的一个或多个(和一个或多个投射设备)以及可控设备106中的一个或多个经由客户端设备103而针对语音辅助服务140被调试。在一些实施方式中,语音激活设备104不包括任何显示屏,并且在调试过程期间依赖于客户端设备103来提供用户界面,并且这同样适用于可控设备106。具体地,客户端设备103安装有应用,其使得用户界面能够使布置在客户端设备附近的新的语音激活设备104和/或可控设备106的便于调试。用户可以在客户端设备103的用户界面上发送请求,以启动需要调试的新的电子设备104/106的调试过程。在接收调试请求之后,客户端设备103与需要调试的新的电子设备104/106建立近程通信链路。可选地,基于近场通信(NFC),蓝牙,低功耗蓝牙(BLE)等建立短程通信链路。然后,客户端设备103将与无线局域网(WLAN)(例如,本地网络108)相关联的无线配置数据传送到新的电子设备104/106。无线配置数据至少包括WLAN安全码(即,服务集标识符(SSID)密码),并且可选地包括SSID、因特网协议(IP)地址、代理配置和网关配置。在经由近程通信链路接收到无线配置数据之后,新的电子设备104/106解码并恢复无线配置数据,并且基于无线配置数据加入WLAN。

在一些实施方式中,附加用户域信息被输入在客户端设备103上显示的用户界面上,并且被用于将新的电子设备104/106链接到用户域中的账户。可选地,经由近程通信链路,附加用户域信息连同无线通信数据一起被传送到新的电子设备104/106。可选地,在新设备已经加入WLAN之后,附加用户域信息经由WLAN被传送到新的电子设备104/106。

一旦电子设备104/106已经在用户域内被调试,其他设备及其相关联的活动便可以经由多个控制通路来控制。根据一个控制通路,安装在客户端设备103上的应用被用于控制另一个设备及其相关联的活动(例如,媒体播放活动)。替选地,根据另一个控制通路,电子设备104/106被用于实现另一个设备及其相关联的活动的免视和免提控制。

在一些实施方式中,语音激活设备104和可控设备106可以由用户(例如,由设备在用户域中相关联的主要用户)来分配别名。例如,客厅中的扬声器设备可以被分配别名“客厅扬声器”。通过这种方式,通过说出设备的别名,用户可以更容易在语音输入中指代设备。在一些实施方式中,对应设备的设备别名和映射被存储在语音激活设备104(其将仅存储与语音激活设备相同的用户相关联的设备的设备别名)和/或语音辅助服务器系统112(其将存储与不同用户相关联的设备的别名)。例如,语音辅助服务器系统112跨不同的设备和用户存储许多设备别名和映射,并且与特定用户相关联的语音激活设备104下载与用于本地存储的特定用户相关联的设备的别名和映射。

在一些实施方式中,用户可以将语音激活设备104和/或可控设备106中的一个或多个分组成由用户创建的设备组。该组可以被给予名称,并且该设备组可以通过组名来引用,这类似于通过别名来引用单个设备。类似于设备别名,设备组和组名可以被存储在语音激活设备104和/或语音辅助服务器系统112处。

来自用户的语音输入可以在语音输入中明确地指定针对该请求的目标可控设备106或目标设备组。例如,用户可以发出语音输入“在客厅扬声器上播放古典音乐”。语音输入中的目标设备是“客厅扬声器”;语音输入中的请求是让“客厅扬声器”播放古典音乐的请求。作为另一示例,用户可以发出语音输入“在住宅扬声器上播放古典音乐”,其中“住宅扬声器”是设备组的名称。语音输入中的目标设备组是“住宅扬声器”;语音输入中的请求是让组中的设备“住宅扬声器”播放古典音乐的请求。

来自用户的语音输入可能并没有目标设备或设备组的明确规范;在语音输入中缺乏通过名称引用目标设备或设备组。例如,在上述示例性语音输入“在客厅扬声器上播放古典音乐”之后,用户可能发出后续的语音输入“暂停”。语音输入不包括暂停操作请求的目标设备规范。在一些实施方式中,语音输入中的目标设备规范可能有歧义。例如,用户可能未完整地说出设备名称。在一些实施方式中,如下所述,目标设备或设备组可以被分配给语音输入,其中缺乏明确的目标设备规范或者目标设备规范有歧义。

在一些实施方式中,当语音激活设备104接收到经由目标设备或设备组的明确规范的语音输入时,语音激活设备104建立关于所指定的目标设备或设备组的焦点会话。在一些实施方式中,语音激活设备104存储针对焦点会话的会话开始时间(例如,开始焦点会话所基于的语音输入的时间戳)以及指定的目标设备或设备组作为焦点会话的焦点设备。在一些实施方式中,语音激活设备104也记录焦点会话中的后续语音输入。语音激活设备104至少记录焦点会话中的最近语音输入,并且可选地记录和保留焦点会话内的先前语音输入。在一些实施方式中,语音辅助服务器系统112建立焦点会话。在一些实施方式中,焦点会话可以通过语音输入明确指定不同的目标设备或设备组来结束。

虽然关于设备的焦点会话活跃,并且语音激活设备接收语音输入,但语音激活设备104关于语音输入做出一个或多个确定。在一些实施方式中,所述确定包括:语音输入是否包括明确的目标设备规范,语音输入中的请求是否是焦点设备能够满足的请求,以及与焦点会话中最后的语音输入的时间和/或会话开始时间相比的语音输入的时间。如果语音输入不包括明确的目标设备规范,包括焦点设备能够满足的请求,并且满足相对于焦点会话中最后的语音输入的时间和/或会话开始时间的预定义时间标准,则该焦点设备被指定为语音输入的目标设备。下面描述关于焦点会话的更多细节。

操作环境中的设备

图2是图示出根据一些实施方式的作为语音接口应用以在操作环境(例如,操作环境100)中收集用户语音命令的示例性语音激活设备104的框图。语音激活设备104通常包括一个或多个处理单元(CPU)202、一个或多个网络接口204、存储器206以及用于使这些部件(有时称作芯片组)互联的一个或多个通信总线208。语音激活设备104包括有助于用户输入的一个或多个输入设备210,诸如按钮212、触感阵列214以及一个或多个麦克风216。语音激活设备104还包括一个或多个输出设备218,其包括一个或多个扬声器220、可选的LED阵列222以及可选的显示器224。在一些实施方式中,LED阵列222是全彩LED阵列。在一些实施方式中,根据设备的类型,语音激活设备104具有LED阵列222或显示器224或者两者兼具。在一些实施方式中,语音激活设备104还包括位置检测设备226(例如,GPS模块)以及一个或多个传感器228(例如,加速计、陀螺仪、光线传感器等)。

存储器206包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或者其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或者一个或多个其他非易失性固态存储设备。存储器206可选地包括位于一个或多个处理单元202远程的一个或多个存储设备。存储器206或替选的存储器206内的非易失性存储器包括非瞬态计算机可读存储介质。在一些实施方式中,存储器206或存储器206的非瞬态计算机可读存储介质存储下列程序、模块和数据结构或者其子集或超集:

●操作系统232,包括用于处理各种基本系统服务以及执行硬件相关任务的程序;

●网络通信模块234,用于经由一个或多个网络接口204(有线或无线)以及诸如因特网、其他广域网、局域网(例如,本地网络108)、城域网等的一个或多个网络110将语音激活设备104连接到其他设备(例如,语音辅助服务140、一个或多个可控设备106、一个或多个客户端设备103以及其他一个或多个语音激活设备104);

●输入/输出控制模块236,用于经由一个或多个输入设备接收输入并且能够经由一个或多个输出设备218在语音激活设备104处呈现信息,包括:

o语音处理模块238,用于处理在语音激活设备104周围的环境中收集的音频输入或语音消息,或者准备所收集的音频输入或语音消息以便在语音辅助服务器系统112处进行处理;

oLED控制模块240,用于根据语音激活设备104的设备状态而在LED 222上生成视觉图案;以及

o触感模块242,用于感测语音激活设备104的顶面上(例如,触感阵列214上)的触摸事件;

●语音激活设备数据244,用于至少存储与语音激活设备104相关联的数据,包括:

o语音设备设置246,用于存储与语音激活设备104本身相关联的信息,包括公共设备设置(例如,服务层、设备型号、存储能力、处理能力、通信能力等)、用户域中一个或多个用户账户的信息、设备别名和设备组、与处理非注册用户时的限制有关的设置以及与由LED 222显示的一个或多个视觉图案相关联的显示规范;以及

o语音控制数据248,用于存储与语音激活设备104的语音接口功能有关的音频信号、语音消息、响应消息和其他数据;

●响应模块250,用于执行由语音辅助服务器系统112生成的语音请求响应中所包括的指令,并且在一些实施方式中,生成对某些语音输入的响应;以及

●焦点会话模块252,用于建立、管理和结束关于设备的焦点会话。

在一些实施方式中,语音处理模块238包括以下模块(未示出):

●用户标识模块,用于识别和解释向语音激活设备104提供语音输入的用户;

●热词识别模块,用于确定语音输入是否包括用于唤醒语音激活设备104的热词并且识别出语音输入中的热词;以及

●请求识别模块,用于确定语音输入中所包括的用户请求。

在一些实施方式中,存储器206还存储未完成的焦点会话的焦点会话数据254,包括以下:

●一个或多个会话焦点设备256,用于存储未完成的焦点会话中焦点设备或设备组的标识符(例如,设备别名、设备组名称、一个或多个设备的一个或多个MAC地址);

●会话开始时间258,用于存储未完成的焦点会话开始的时间戳;以及

●会话命令历史260,用于存储焦点会话中的在先请求或命令的日志,至少包括最近的请求/命令。该日志至少包括所记录的在先的一个或多个请求/一个或多个命令的一个或多个时间戳。

上述元素中的每个可以被存储在前述存储器设备中的一个或多个内,并且对应于用于执行上述功能的指令集。上述模块或程序(即指令集)不必被实现为单独的软件程序、程序、模块或数据结构,因此这些模块的各种子集可以被合并或以其他方式重新布置成各种实施方式。在一些实施方式中,存储器206可选地存储上述模块和数据结构的子集。另外,存储器206可选地存储以上未描述的附加模块和数据结构。在一些实施方式中,存储在存储器206中的程序、模块和/或数据的子集能够被存储在语音辅助服务器系统112上和/或由其执行。

在一些实施方式中,上述存储器206中的模块中的一个或多个是模块的语音处理库的一部分。语音处理库可以被实现并嵌入在各种设备上。在2016年5月10日提交的、标题为“Implementations for Voice Assistant on Devices(设备上语音辅助的实现)”的美国临时专利申请No.62/334,434中描述了语音处理库的示例。

图3是图示出根据一些实施方式的操作环境(例如,操作环境100)的语音辅助服务140的示例性语音辅助服务器系统112的框图。服务器系统112通常包括一个或多个处理单元(CPU)302、一个或多个网络接口304、存储器306以及用于使这些部件(有时称作芯片组)互联的一个或多个通信总线308。服务器系统112可以包括有助于用户输入的一个或多个输入设备310,诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机或者其他输入按钮或控件。另外,服务器系统112可以使用麦克风和语音识别或者相机和手势识别来补充或替代键盘。在一些实施方式中,服务器系统112包括一个或多个相机、扫描仪或光传感器单元,用于捕获例如在电子设备上打印的图形序列码的图像。服务器系统112还可以包括能够呈现用户界面并且显示内容的一个或多个输出设备312,包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器306包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或者其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或者一个或多个其他非易失性固态存储设备。存储器306可选地包括位于一个或多个处理单元302远程的一个或多个存储设备。存储器306或替选的存储器306内的非易失性存储器包括非瞬态计算机可读存储介质。在一些实施方式中,存储器306或存储器306的非瞬态计算机可读存储介质存储下列程序、模块和数据结构或者其子集或超集:

●操作系统316,包括用于处理各种基本系统服务以及执行硬件相关任务的程序;

●网络通信模块318,用于经由一个或多个网络接口304(有线或无线)以及诸如因特网、其他广域网、局域网、城域网等一个或多个网络110将服务器系统112连接到其他设备(例如,客户端设备103、可控设备106、语音激活设备104);

●用于能够在客户端设备处呈现信息的用户界面模块320(例如,用于呈现一个或多个应用322-328、其小程序、网站和网页和/或游戏、音频和/或视频内容、文本等的图形用户界面);

●用于在服务器侧执行的命令执行模块321(例如,游戏、社交网络应用、智能居家应用和/或其他基于web或非web的应用,用于控制客户端设备103、可控设备106、语音激活设备104和智能居家设备并且检查由这样的设备捕获的数据),包括以下中的一个或多个:

o投射设备应用322,其被执行以提供用于与一个或多个投射设备相关联的设备配置、设备控制和用户账户管理的服务器侧功能;

o一个或多个媒体播放器应用324,其被执行以提供用于与对应媒体源相关联的媒体显示和用户帐户管理的服务器侧功能;

o一个或多个智能居家设备应用326,其被执行以提供用于对应智能居家设备的设备配置、设备控制、数据处理和数据检查的服务器侧功能;以及

o语音辅助应用328,其被执行以布置从语音激活设备104接收到的语音消息的语音处理或者直接处理语音消息以提取用户语音命令以及针对该用户语音命令的一个或多个参数(例如,投射设备或另一个语音激活设备104的命名);以及

●服务器系统数据330,至少存储与媒体显示的自动控制(例如,以自动媒体输出模式和跟踪模式)相关联的数据以及其他数据,包括以下中的一个或多个:

o客户端设备设置332,用于存储与一个或多个客户端设备相关联的信息,包括公共设备设置(例如,服务层、设备型号、存储能力、处理能力、通信能力等),以及自动媒体显示控制的信息;

o投射设备设置334,用于存储与投射设备应用322的用户账户相关联的信息,包括账户访问信息、设备设置信息(例如服务层,设备型号,存储能力,处理能力,通信能力等)中的一个或多个)以及自动媒体显示控制的信息中的一个或多个;

o媒体播放器应用设置336,用于存储与一个或多个媒体播放器应用324的用户帐户相关联的信息,包括帐户访问信息、媒体内容类型的用户偏好、检查历史数据以及自动媒体显示控制的信息中的一个或多个;

o智能居家设备设置338,用于存储与智能居家应用326的用户账户相关联的信息,包括一个或多个账户访问信息、一个或多个智能居家设备的信息(例如,服务层、设备型号、存储能力、处理能力、通信能力等);

o语音辅助数据340,用于存储与语音辅助应用328的用户账户相关联的信息,包括一个或多个账户访问信息、一个或多个语音激活设备104的信息(例如,服务层、设备型号、存储能力、处理能力、通信能力等);

o用户数据342,用于存储与用户域中的用户相关联的信息,包括用户的订阅(例如,音乐流媒体服务订阅、视频流媒体服务订阅、时事通讯订阅)、用户设备(例如,与相应用户相关联的设备注册表118中注册的设备、设备别名、设备组)、用户账户(例如,用户的电子邮件账户、日历账户、金融账户)以及其他用户数据;

o用户语音简档344,用于存储用户域中的用户的语音简档,例如包括用户的语音模型或语音指纹以及用户的舒适音量水平阈值;以及

o焦点会话数据346,用于存储多个设备的焦点会话数据。

●设备注册模块348,用于管理设备注册表118;

●语音处理模块350,用于处理在电子设备104周围的环境中收集的音频输入或语音消息;以及

●焦点会话模块352,用于建立、管理和结束关于设备的焦点会话。

在一些实施方式中,存储器306还存储一个或多个未完成的焦点会话3462-1至3462-M的焦点会话数据346,包括以下:

●会话源设备3464,用于存储建立焦点会话的设备的标识符;

●一个或多个会话焦点设备3466,用于存储未完成的焦点会话中焦点设备或设备组的标识符(例如,设备别名、设备组名称、一个或多个设备的一个或多个MAC地址);

●会话开始时间3468,用于存储未完成的焦点会话开始的时间戳;

以及

●会话命令历史3470,用于存储焦点会话中的在先请求或命令的日志,至少包括最近的请求/命令。

在一些实施方式中,语音辅助服务器系统112主要负责处理语音输入,并因此,上文参照图2所述的存储器206中的程序、模块和数据结构中的一个或多个被包括在存储器306中的相应模块中(例如,语音处理模块238所包括的程序、模块和数据结构被包括在语音处理模块350中)。语音激活设备104将所捕获的语音输入发送到语音辅助服务器系统112以便进行处理,或者首先对语音输入进行预处理,并且将经预处理的语音输入发送到语音辅助服务器系统112以便进行处理。在一些实施方式中,语音辅助服务器系统112和语音激活设备104具有关于处理语音输入的一些共享责任和一些分开责任,并且图2中所示的程序、模块和数据结构可以被包括在两者中或者被划分给语音辅助服务器系统112和语音激活设备104。图2中所示的其他程序、模块和数据结构或者其类似物也可以被包括在语音辅助服务器系统112中。

上述元素中的每个可以被存储在前述存储器设备中的一个或多个内,并且对应于用于执行上述功能的指令集。上述模块或程序(即指令集)不必被实现为单独的软件程序、程序、模块或数据结构,因此这些模块的各种子集可以被合并或以其他方式重新布置成各种实施方式。在一些实施方式中,存储器306可选地存储上述模块和数据结构的子集。另外,存储器306可选地存储以上未描述的附加模块和数据结构。

具有结合声波导和散热片的紧凑型家庭助手的设计

图4A、图4B和图4C分别是根据一些实施方式的示例性紧凑型语音激活电子设备404的正视图、侧视图和后视图。电子设备404包括包含上部分406和基座部分408的整体外部以及包含在整体外部内的电子组件和一个或多个扬声器。电子设备404紧凑并且自然适合居家的许多区域。电子设备404包括一个或多个麦克风216,并且可选地包括全彩LED阵列(未示出)。全彩LED(例如图2中的LED 222)能够被隐藏在电子设备404的顶面下方,并且它们在未点亮时对用户而言不可见。电子设备404的后侧可选地包括被配置成耦合到电源的电源连接器410,并且前侧可选地包括电源开关412。

在一些实施方式中,电子设备404呈现无可见按钮的简洁外观,并且与电子设备404的交互是基于语音和触摸手势。替选地,在一些实施方式中,电子设备404包括有限数目的物理按钮,并且除语音和触摸手势之外,与电子设备404的交互还基于按压按钮。

图4D是语音激活电子设备404的透视图。一个或多个扬声器(未示出)被布置并隐藏在电子设备404中并且通过设备外部的多孔壁投射声音,以允许从扬声器生成的声波穿透到设备的外部。

图4E是根据一些实施方式的示例性语音激活电子设备404的剖视图,示出双用途波导/散热片。在一些实施方式中,电子设备404是包括一个或多个扬声器436以及多个电子组件的紧凑型设备,所述多个电子组件包括以下中的一个或多个:微处理器、存储器、支持芯片、无线接收器和发射器、天线、电源电路、一个或多个相机、电源和/或数据连接器等,其中一些被安装在一个或多个印刷电路板432上。扬声器(“扬声器组件”)436能够被用于任何音频输出目的,包括输出对用户口头输入的可听响应、播放媒体内容的音轨以及生成可听警示(包括蜂鸣、警报、警笛等)。在一些实施方式中,一个或多个扬声器436被安装在电子设备404内,使得不存在用于将由一个或多个扬声器436生成的声音传输到设备的外部的直接通路。在这样的实施方式中,为了促进有效的扬声器操作(包括将由扬声器436输出的声音有效地传输到设备的外部),声波导434被设置在电子设备404内,以将由一个或多个扬声器436输出的声音从设备的内部重导向到设备的外部。

在一些实施方式中,电子设备包括用作扬声器格栅的上部分406,其允许声音从包含在电子设备404内的一个或多个扬声器436传输到设备的外部。在一些实施方式中,波导434被配置成将声音重导向到设置在电子设备的外表面处的扬声器格栅。在一些实施方式中,上部分/扬声器格栅406能够被配置有不同的表面装饰和/或能够牢固而可分离地紧固到基座部分,如在标题为“VOICE-ACTIVATED ELECTRONIC DEVICE ASSEMBLY WITH SEPARABLE BASE(具有可分基座的语音激活电子设备组件)”的临时专利申请62/403,681中所述。例如,上部分具有带有第一附接结构的第一内表面以及沿着与第一附接结构相对的方向延伸超过第一内表面的第一外表面,并且基座部分具有第二内表面,其具有第二附接结构和圆形开口。第一内表面和第二内表面具有协调的形状,它们允许通过使第一内表面移动通过基座部分的圆形开口而使上部分和基座部分从分离位置移动到接合位置,以便当上部分和基座部分处于接合位置时,第一内表面和第二内表面形成嵌套布置,其允许第一附接结构与第二附接结构之间相互作用并且延伸部分抵接基座部分。第一附接结构和第二附接结构被配置成当第一部分和第二部分处于接合位置时,经由磁吸力形成彼此间的牢固但可分离的连接。上部分和基座部分被配置成通过手动人工操纵上部分和基座部分中的一个或两个而牢固地接合和分离,以使上部分和基座部分在分离位置与接合位置之间移动。

在一些实施方式中,电子设备外部的表面被配置成提供电触点以访问作为独立插接站、柜台、家具(例如,电视柜)或电器(例如,媒体播放器)的一部分的外接电源和/或数据连接器。在一些实施方式中,上部分的底表面被配置成提供电触点以访问作为独立插接站、柜台、家具或电器的一部分的外接电源和/或数据连接器。在具有或不具有底部的情况下,电子设备都能够被放置在插接站、柜台、家具或电器上。

在一些实施方式中,声波导434也被配置成充当散热片以将由电子组件的操作产生的热量消散到电子设备的外部,并且被安装在电子组件中的至少一些(例如,安装在PCB 432或印刷电路板432上的部件)附近。

在一些实施方式中,一个或多个扬声器436被安装在电子设备404的基座部分408(例如,“底壳”)中并且具有在设备内面朝上、朝向双用途波导/散热片434的弯曲部分的主要声音投射方向。弯曲部分被设计成将来自一个或多个扬声器436的声音重导向到电子设备404的外部。发热的电子组件和/或承载电子组件的一个或多个印刷电路板432被直接附接到双用途波导/散热片434的第二部分(或者使用热传导通路间接耦合到该第二部分),以便将由电子部件的操作产生的热量传输到散热片。散热片434被配置成将从附接的电子组件传输到该散热片的热量移动到电子设备的外部。在一些实施方式中,散热片434由具有高效热传导特性的材料制成,以促进热量从设备内部移动到设备外部。在一些实施方式中,弯曲部分是双用途波导/散热片434的底表面(例如,朝向一个或多个扬声器436的面朝下的表面),并且第二部分是与双用途波导/散热片434的底表面相对的双用途波导/散热片434的上表面(例如,电子组件所附接的面朝上的表面)。对于本领域技术人员而言,能够采用波导/散热片434的上部和下部的其他形状和形式。

在一些实施方式中,电子组件以及一个或多个扬声器436的位置被互换,使得一个或多个扬声器436被定位于电子设备404的上部分406中并且朝向双用途波导/散热片的上(弯曲)表面向下突出,并且电子组件被安装在电子设备404的基座部分408中,并且波导/散热片434被安装在下部分(例如,“底壳”)中。

在一些实施方式中,声波导设计将从扬声器436发出声音引导到期望的输出端口并且热连接到PCB 432,这就允许波导434也起散热片/扩散器的作用。将波导/散热片434卷绕在外壳内部上允许更高的热质量和更大的散热表面。在一些实施方式中,波导的卷绕部分上的切口图案增强热效率并且允许声音传播出去。在一些实施方式中,在扬声器起作用期间,声波还驱动波导/散热片434上方的空气,因而在最大生热时进一步增强热性能。

在一些实施方式中,如图4E所示,波导/散热片的锥形将来自向上扬声器436的声音重导向到侧面。由于PCB 432直接位于波导434的顶部,因此其也被用作散热片。波导434能够是任何材料,但散热片应是高度导热的材料。在一些实施方式中,波导材料是金属(例如,铝或铜),但波导/散热片434也能够由除金属以外的材料制成。

图4F是根据一些实施方式的示例性语音激活电子设备的分解图。该图示出允许传输声波的穿孔上部分406,PCB 432、声波导/散热片434、波导和扬声器组件436的底部分以及基座部分408。

本文所述各种实施方式的描述中所使用的术语仅出于描述特定实施方式的目的,而并非旨在进行限制。如所述各种实施方式和所附权利要求中所用,单数形式“一种”、“一个”和“所述”旨在同样包括复数形式,除非上下文另作明确说明。还应理解到,如本文所用的术语“和/或”涉及并包含相关列出术语中的一个或多个的任意和全部可能组合。应进一步理解到,术语“包括”和/或“包含”当用于本说明中时指明存在所陈述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组。

如本文所用,根据上下文,术语“如果”可选地解释成表示“当”或“据”或“响应于确定”或“响应于检测”或“根据确定”。类似地,根据上下文,短语“如果确定”或“如果检测到[所陈述的状况或事件]”被可选地解释成表示“在确定后”或“响应于确定”或“在检测到[所陈述的状况或事件]后”或“响应于检测到[所陈述的状况或事件]”或“根据确定检测到[所陈述的状况或事件]”。

应领会到,“智能媒体环境”可以指诸如独户住宅的居家智能环境,但本教导的范围不限于此。本教导还适用但不限于双工器、联排别墅、多单位公寓楼、旅馆、零售商店、办公楼、工业建筑物以及更一般地任何居住空间或工作空间。

还应领会到,虽然术语用户、客户、安装者、房主、拥有者、宾客、租客、房东、维修人员等可以用来指代本文所述的一些特定情况下行动的一个人或多个人,但这些引用并不限制本教导关于正执行这样的动作的一个人或多个人的范围。因此,例如,在独户居家住宅的情况下,术语用户、客户、购买者、安装者、订户和房主经常可以指同一个人,因为户主往往是做出购买决定、购买单位以及安装和配置单位并且也是单位用户之一的那个人。然而,在诸如房东-租客环境的其他情况下,客户可能是购房单位方面的房东,安装者可能是本地的公寓主管,第一用户可能是租客,并且第二用户可能又是关于远程控制功能的房东。重要地,尽管执行动作的人的身份可能与这些实施方式中的一个或多个所提供的特定优点密切相关,但这样的身份不应被解释为随后的描述必然将本教导的范围限制成具有那些特定身份的那些特定个人。

虽然各个附图以特定顺序图示出数个逻辑阶段,但这些与顺序无关的阶段可以被重新排序,并且其他阶段可以被组合或者分解。尽管具体提及一些重新排序或其他分组,但其他方式对于本领域普通技术人员而言将显而易见,因此在本文中呈现的排序和分组并非穷举替选方案。此外,应认识到,这些阶段能够以硬件、固件、软件或其任意组合来实现。

出于解释目的,参照具体实施方式来描述前述内容。然而,上述例示性讨论并不旨在穷举或者将权利要求的范围限定成所公开的确定形式。鉴于以上教导,可能有许多修改和变形。选取所述实施方式的目的是最好地阐释权利要求及其实际运用的基础原理,由此使得本领域其他技术人员能够以适于预期的特定用途的各种修改来最佳地使用这些实施方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1