与语音使能设备的暂时账户关联的制作方法

文档序号:24305672发布日期:2021-03-17 00:58阅读:160来源:国知局
与语音使能设备的暂时账户关联的制作方法

相关申请的交叉引用

本申请要求2018年6月6日提交的美国专利申请16/001,763和2018年6月6日提交的美国专利申请16/001,823的优先权,这两个专利申请全文以引用方式并入本文。



背景技术:

目前人们在家中使用语音使能设备。可能需要语音使能设备具有其他用途。本文描述的是技术上的改进和技术问题的解决办法,这些改进和解决办法可用来为用户提高语音使能设备的可用性等。

附图说明

下面将结合附图进行详细描述。在所述附图中,参考标号的最左位数字表明该参考标号首次出现的附图。在不同附图中使用相同的参考标号表示相似或相同的物件。附图中示出的系统未按比例绘制,并且附图中的部件彼此之间也可能未按比例绘制。

图1a示出了用于与语音使能设备的暂时账户关联的示例环境的示意图。

图1b示出了图1a的示意图的附加细节,显示用于与语音使能设备的暂时账户关联的示例环境。

图2示出了用于将账户与语音使能设备暂时相关联的示例过程的流程图。

图3示出了用于利用已经与账户暂时相关联的语音使能设备的示例过程的流程图。

图4示出了用于使用联系信息将账户与语音使能设备暂时重新相关联的示例过程的流程图。

图5示出了用于使用语音模型将账户与语音使能设备暂时重新相关联的示例过程的流程图。

图6示出了用于与一个或多个语音使能设备的暂时账户关联的示例环境。

图7示出了用于与语音使能设备的暂时账户关联的示例过程的流程图。

图8示出了用于与语音使能设备的暂时账户关联的另一示例过程的流程图。

图9示出了用于与语音使能设备的暂时账户关联的另一示例过程的流程图。

图10示出了用于将账户与语音使能设备解除关联的示例过程的流程图。

图11示出了用于将账户与语音使能设备解除关联的另一示例过程的流程图。

图12示出了用于处理由一个或多个设备提供的音频数据的语音处理系统的部件的概念图。

图13示出了用于与语音使能设备建立暂时账户关联的语音处理系统的部件的概念图。

具体实施方式

本文描述了用于与语音使能设备建立暂时账户关联的系统和方法。以用户可能暂时居住的酒店或其他环境为例。酒店可包括许多房间和/或套房,并且这些房间中的一些或全部可安置有一个或多个语音使能设备。语音使能设备可以是任何可捕获音频(诸如从一个说话的人捕获音频),生成要处理的音频数据,并且执行与该音频相关联的操作和/或确认某个动作已经由另一设备和/或系统执行。这样的设备可包括例如语音辅助设备、电视、门锁和/或窗锁、灯泡、时钟、警报器、电话、厨房用具等。酒店的语音使能设备可与和酒店相关联的一个或多个用户账户相关联。

当客人在酒店房间内时,客人可能希望与语音使能设备进行交互,诸如说“外面的天气如何”,“播放歌曲a”,“关灯”,“订购比萨饼”,“购买产品a”等。语音使能设备的麦克风可捕获表示用户话语的音频,并且可生成要发送到例如远程系统的对应音频数据。远程系统可诸如通过生成意图数据来确定对应于用户话语的意图。例如,该意图可以是输出指示语音使能设备的位置处和/或周围的天气的音频,输出对应于歌曲a的音频,使位于酒店房间的灯泡停止发光等。

在一些示例中,酒店的用户账户(可被描述为默认用户账户)可有权访问和/或被许可利用一个或多个资源来执行与该意图相关联的动作。例如,默认用户账户可有权访问天气应用程序。在其他示例中,默认用户账户可能无权访问和/或不被许可利用资源来执行该动作。例如,默认用户账户可能无权访问音乐资源来输出请求的歌曲,或者无权访问表示付款工具的资源来购买产品或订购比萨饼。在这些示例中,酒店的默认用户账户可能未用于执行用户请求的动作。

为了提高在用户暂时居住的酒店或其他环境中使用语音使能设备的体验,本发明可利用技术来建立个人用户账户和语音使能设备之间的暂时关联。例如,表示用户话语的音频数据可诸如被远程系统接收,并且可被分析以确定用于实现与用户话语相关联的意图的资源不可访问和/或与语音使能设备相关联的默认账户未被授权访问该资源。在这些示例中,指令数据可由远程系统生成,并且可被发送到语音使能设备。指令数据可使语音使能设备诸如经由语音使能设备的一个或多个扬声器输出对信息的请求,以在与用户相关联的个人用户账户和语音使能设备之间建立暂时关联。该请求可表示对与个人用户账户相关联的联系信息的请求。联系信息可以是例如与个人用户账户相关联的电话号码,和/或其他联系信息,诸如电子邮件地址和/或社交媒体账户标识。

然后,用户可向语音使能设备提供包括该联系信息的另一用户话语。表示用户话语的音频可由语音使能设备的麦克风捕获,并且可生成对应的音频数据并将其发送到例如远程系统。远程系统可对该音频数据执行自动语音识别,以生成表示用户话语的对应文本数据。该文本数据可包括由用户提供的联系信息的文本表示。远程系统可利用该联系信息来向与该联系信息相关联的个人设备发送消息,该消息将用于将该个人用户账户与语音使能设备暂时相关联。举例来说,该消息可以是短消息服务(sms)消息,其包括诸如网页链接的可选部分,当被个人设备的用户选择时,该可选部分可允许接收账户访问信息,诸如与该个人用户账户相关联的用户名和/或密码。

在一些示例中,当被选择时,该可选部分可使诸如网站访问和/或浏览应用程序的网站应用程序打开并显示允许用户输入账户访问信息的网页。在其他示例中,当被选择时,该消息的可选部分可使与该用户账户相关联的应用程序(诸如伴随应用程序)被访问。伴随应用程序可有权访问账户访问信息,并且可用于获取账户访问信息而无需用户将该信息输入到例如网站应用程序中。可从个人设备接收对应于账户访问信息的数据,并且该数据可被远程系统用来确定哪个用户账户与语音使能设备相关联。然后,远程系统可将用户账户与和语音使能设备相关联的设备标识暂时相关联。

一旦用户账户与语音使能设备相关联,随后的用户话语就可由语音使能设备的麦克风捕获,并且可生成对应的音频数据并将其发送到远程系统进行处理。可确定与这种用户话语相关联的意图,并且与活动账户相关联的资源可用来执行与该意图相关联的一个或多个动作,诸如播放特定歌曲,订购产品,请求个人账户信息,执行一个或多个基于该用户话语的隐式动作等。

附加地或另选地,本发明可提供技术来使用户账户与语音使能设备解除关联,诸如在语音使能设备位于用户暂时居住的环境中的情况下。利用以上提供的示例,在用户输入账户访问信息时,和/或在用户账户与语音使能设备相关联时,可使得网站应用程序或另一应用程序显示可允许个人设备的用户输入结账离开信息的一个或多个字段。例如,可提示用户指示该用户在酒店住宿的退房日期和/或退房时间。该信息可用于确定维持用户账户和语音使能设备之间的关联的时间段。

附加地或另选地,该时间段可以基于从与该环境相关联的一个或多个系统接收的数据,诸如房间调度数据。附加地或另选地,该时间段可至少部分地基于解除关联事件的发生,这可以是例如表明用户已经从该环境结账离开的指示,接收到将账户解除关联的用户请求,和/或接收到表明用户在该时间端期间暂时离开住所的指示。通过这样做,当被请求和/或期望时,用户账户可暂时与语音使能设备相关联,并且可解除关联以防止其他人无意地使用个人账户资源和信息。

本公开提供对本文公开的系统和方法的结构、功能、制造以及使用的原理的总体理解。附图中示出了本公开的一个或多个示例。本领域的普通技术人员将理解,本文具体描述并在附图中示出的系统和方法是非限制性实施方案。结合一个实施方案示出或描述的特征可与其他实施方案的特征组合,包括如在系统和方法之间那样。这样的修改和变化旨在被包括在所附权利要求的范围内。

下文参考若干示例实施方案描述其他细节。

图1a示出了用于与语音使能设备建立暂时账户关联的示例系统100的示意图。系统100可包括例如一个或多个语音使能设备102,这些语音使能设备可位于与人可暂时居住的环境相关联的一个或多个房间和/或套房中。该系统可另外包括个人设备106,该个人设备可以是与位于该环境内的用户相关联的设备。系统100可另外包括一个或多个可远离语音使能设备102和/或个人设备106的部件。这些部件可以包括例如受管属性语音小部件160、客户认证部件162、设备验证web应用程序164、数据加密部件166、通知部件168、关联管理部件170、语音小部件web应用程序172、策略检索部件174、一个或多个受管属性设置176、一个或多个域语音小部件178、代理180和opf182。这些部件中的每个部件将在下面通过一个或多个示例进行详细描述。

为了举例说明,可经由与语音使能设备102相关联的一个或多个麦克风来生成音频数据。音频数据可对应于用于显式或隐式地执行动作的用户话语。音频数据可由与语音使能设备102相关联的远程系统接收,在该远程系统处,可利用自动语音识别和/或自然语言理解技术来确定执行动作的意图。远程系统可确定要用于执行动作的资源不可供与语音使能设备相关联的默认用户账户使用。例如,用户话语可以是“购买中餐以供配送”,并且用于实现订购中餐以供配送的该意图的资源和/或域语音小部件可能不可供与语音使能设备102相关联的默认用户账户使用。在这些示例中,可能期望将用户的用户账户与语音使能设备102暂时相关联,诸如当用户账户与将用于实现给定意图的资源相关联时。

在这些示例中,可经由语音使能设备102的扬声器输出音频。该音频可表示对联系信息的请求,以开始将用户账户与语音使能设备102的设备标识暂时相关联的过程。语音使能设备102的麦克风可捕获对应于表示联系信息的用户话语的音频,并且可以生成对应的音频数据。可使用asr和/或nlu技术处理该音频数据。受管属性语音小部件160可至少部分地基于所提供的联系信息来接收指示发起暂时账户关联的意图的意图数据。可将“密封”或以其他方式加密与语音使能设备102相关联的设备标识的请求发送到数据加密部件166,该数据加密部件可密封或以其他方式加密设备标识。表示加密的设备标识的数据可由受管属性语音小部件160接收。

在示例中,受管属性语音小部件160可另外从客户认证部件162请求代码对。该代码对可以包括和/或表示用于将信息输入和/或密封设备标识解除关联的统一资源定位符(url)。受管属性语音小部件160可接收该代码对,并且可将该代码对、设备标识和联系信息发送到通知部件168。通知部件168可识别、确定和/或生成可包括url链接和/或其他可选部分的消息。可将该消息发送到个人设备106。

个人设备106的显示器可显示该链接和/或其他可选部分。一旦选择了该链接和/或其他可选部分,语音小部件web应用程序172就可启动,并且可使得显示网站以提供与将暂时相关联的与用户账户关联的认证信息。附加地或另选地,该网站可允许用户提供指示用户账户和设备标识之间的暂时关联何时应终止的信息。在示例中,语音小部件web应用程序172可调用数据加密部件166以解封和/或解密与语音使能设备102相关联的设备标识。

语音小部件web应用程序172可向关联管理部件170提供用户账户标识和/或解除关联信息。客户认证部件162可将设备标识提供给关联管理部件170。利用用户账户标识和设备标识,关联管理部件170可将用户账户与设备标识相关联。例如,当系统100接收到后续音频数据时,该音频数据可包括指示与语音使能设备102相关联的设备标识的数据。关联管理部件170可用于识别和/或确定哪个用户账户与设备标识在给定的时间段相关联。如果用户账户与设备标识相关联,则关联管理部件170可向系统100的其他部件提供这样的指示,其可指示哪些域语音小部件178和/或资源可用来执行与用户话语相关联的动作。

附加地或另选地,在示例中,可将与语音使能设备102相关联的应用程序安装在个人设备106上。在这些示例中,设备验证web应用程序164可验证与该应用程序相关联的设备标识,并且可从个人设备106提取或以其他方式接收用户账户凭据,诸如无需用户输入此类凭据。关联管理部件170可利用该信息来将用户账户与设备标识相关联。

可识别和/或确定与用户账户相关联的一个或多个域语音小部件178,或者将其描述为“白名单”域语音小部件178。当用户账户与语音使能设备102的设备标识相关联时,这些域语音小部件178可用于处理表示用户话语的音频数据。附加地或另选地,可从与受管属性相关联的一个或多个设备接收受管属性设置176。这些设置176可包括暂时账户关联的启用或禁用,关于允许哪些域语音小部件178的指示,用于将设备标识与用户账户相关联和/或解除关联的一个或多个规则等。策略检索部件174可接收设置176,并且可利用那些设置来访问域语音小部件178和/或处理将用户账户与设备标识暂时相关联的请求。

数据和/或指令可经由代理180在图1a中描述的部件与语音使能设备之间发送,代理180可格式化数据和/或利用一个或多个应用程序编程接口(api)来促进通信。同样,数据和/或指令可经由opf182在图1中描述的部件与个人设备106之间发送,opf182可格式化数据和/或利用一个或多个api来促进通信。

图1b示出了用于与语音使能设备建立暂时账户关联的示例系统100的附加部件的示意图。系统100可包括例如一个或多个语音使能设备102,这些语音使能设备可位于与环境104相关联的一个或多个房间和/或套房中,诸如例如酒店、婚宴场地、书房、教室、汽车和/或人可能暂时居住的任何其他房间或一组房间。系统100可另外包括个人设备106,该个人设备可以是与位于环境104内的用户相关联的设备。个人设备106可以是例如移动电话、个人助理设备、膝上型电脑、平板电脑、手表和/或能够发送和接收信息的任何其他电子设备。

语音使能设备102可包括部件诸如例如一个或多个处理器108、一个或多个网络接口110、存储器112、一个或多个麦克风114、一个或多个扬声器116和/或一个或多个显示器118。麦克风114可被配置为捕获音频诸如用户话语,并且生成对应的音频数据。扬声器116可被配置为诸如响应于经由网络122从远程系统120接收到音频数据和/或指令数据而输出音频。显示器118可被配置为在视觉上向用户呈现信息。

个人设备106可包括部件诸如例如一个或多个处理器124、一个或多个网络接口126、存储器128、一个或多个麦克风130、一个或多个扬声器132和/或一个或多个显示器134。麦克风130,扬声器132和/或显示器134可以与语音使能设备102的麦克风114、扬声器116和/或显示器118相同或相似的方式操作。个人设备106的存储器128可包括一个或多个部件,诸如例如消息应用程序136、网站应用程序138和/或语音使能设备应用程序140。这些部件中的每个部件将在下面与远程系统120的部件一起详细描述。

远程系统120可被配置为例如在远程系统120、语音使能设备102和/或个人设备106之间接收和发送数据。远程系统120可包括部件诸如一个或多个处理器142、一个或多个网络接口144和存储器146。存储器146的部件可包括例如包括一个或多个资源150的用户注册表148、自动语音识别(asr)部件152、自然语言理解(nlu)部件154、一个或多个语音模型156、文本到语音(tts)部件158、设备关联部件174和/或参照图1a描述的一个或多个部件。应当理解,尽管图1b示出远程系统120具有存储器146以及本文所述的部件中的每个部件,但是远程系统120可描述具有一个或多个存储器的多个系统。本文参照远程系统120描述的部件中的每个部件可与它们自己的系统相关联,并且/或者这些部件中的一些或全部可与单个系统相关联。存储器146的部件在下面进行详细描述。

用户注册表部件148可被配置为识别、确定和/或生成用户、用户配置文件、用户账户和/或设备之间的关联。例如,用户配置文件与用户账户之间的一个或多个关联可由用户注册表148识别、确定和/或生成。用户注册表148可另外存储指示给定用户配置文件和/或用户账户可访问和/或启用的一个或多个应用程序和/或资源150的信息。还应当理解,用户账户可与一个或多个用户配置文件相关联。还应当理解,术语“用户账户”和/或“用户配置文件”可用于描述与给定账户标识和/或配置文件标识相关联的一组数据和/或功能。例如,在使用系统100中的一些或全部时识别、确定和/或生成的数据可被存储或以其他方式与账户标识和/或配置文件标识相关联。与用户账户和/或配置文件相关联的数据可包括例如账户/配置文件访问信息、历史使用数据、设备关联数据和/或偏好数据。另外,如本文所述,资源150和/或域语音小部件168可包括远程系统120和/或当接收到表示与给定账户标识和/或配置文件标识相关联的用户话语的音频数据时已被授权和/或以其他方式可供使用的一个或多个其他设备和/或系统的一个或多个应用程序、技能、能力、功能和/或性能。资源150的一些非限制性示例可包括与播放音乐、访问播放列表和/或音频文件数据库、购物、控制附件设备(诸如灯泡和/或锁)、访问与联系人相关联的联系信息和/或发送/或接收消息相关联的功能。

asr部件152可被配置为接收可表示诸如用户话语的人类语音的音频数据,并且生成与对应于该音频数据的文本数据。该文本数据可包括对应于该人类语音的字词。nlu部件154可被配置为至少部分地基于该文本数据来确定与该人类语音相关联的一个或多个意图。下面参照图12更详细地描述asr部件152和nlu部件154。为了说明的目的,可以利用asr部件152和nlu部件154来确定执行利用资源150中的一个或多个资源的动作的一个或多个意图和/或将用户账户与语音使能设备102暂时相关联的意图。

例如,用户可向语音使能设备102说出用户话语。语音使能设备102的麦克风114可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络122被发送到远程系统120。asr部件152可处理该音频数据并且生成对应的文本数据。nlu部件154可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用资源150中的一个或多个资源的动作)和/或将用户账户与语音使能设备102暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。远程系统120可利用nlu部件154确定资源150不可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备102可与和环境104相关联的默认用户账户关联。该默认用户账户可能无权访问资源150来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统120的语音小部件160来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

语音小部件160可从nlu部件154接收该意图数据,并且可利用该意图数据来识别、确定和/或生成与对应于该意图数据的指令数据。例如,语音小部件160可被调用并用于生成指令数据,当被发送到语音使能设备102并由该语音使能设备启用时,该指令数据导致诸如经由扬声器116输出音频,该音频表示对将用户账户与语音使能设备102暂时相关联的信息的请求。tts部件158可用于生成将由语音使能设备102用来输出如由语音小部件160生成的指令数据所指示的音频的音频数据。例如,输出音频可以是“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”上面提供的示例音频仅通过示例的方式提供,而不是作为限制。应当理解,虽然联系信息的示例被提供为电话号码,但是联系信息可附加地或另选地包括例如电子邮件地址和/或社交媒体账户标识。

本文所述的语音小部件160可包括可在远程系统120中运行的语音使能web部件。语音小部件160可接收语音发起的请求并作出响应。语音小部件160可定义如用户所体验的技能的生命周期事件,处理来自用户的语音请求的方式和/或来自与用户进行交互的设备上发生的事件的回叫。给定的语音小部件可能能够处理某些意图。例如,nlu部件154可生成指示意图以及与该意图相关联的有效载荷的意图数据。语音小部件可与该意图相关联,并且包括有效载荷的该意图数据因此可被发送到该语音小部件并且由该语音小部件接收。语音小部件可通过分析有效载荷并且生成表示执行动作的指令和/或指示的数据来处理该意图。该指令和/或指示可被发送到系统的其他部件以执行该动作。

然后,用户可说出第二用户话语,该第二用户话语包括所请求的联系信息,在该示例中是电话号码。语音使能设备102的麦克风114可捕获对应于第二用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统120,在该远程系统处,asr部件152可生成表示该联系信息的对应的文本数据。

该文本数据可被提供给通知部件168,该通知部件可被配置为识别、确定和/或生成要发送给与该联系信息相关联的个人设备106的消息。在示例中,该消息可以是sms消息。在其他示例中,该消息可以是电子邮件、电话、社交媒体消息(诸如私信),或者个人设备106可接收的另一种形式的消息。

通知部件168可生成该消息和/或该消息的一部分。例如,当被选择时,与该消息相关联的可选部分(诸如网页链接)可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。通知部件168可附加地或另选地利用客户认证部件162来生成将所关联的设备标识与语音使能设备102、用户提供的联系信息和/或该消息的可选部分相关联的代码对。数据加密部件166可用于加密设备标识、联系信息和/或该消息。远程系统120的通知部件168可用于将该消息发送到个人设备106,在该个人设备处,个人设备106的消息应用程序136可用于接收和/或显示该消息。

在一些示例中,当被选择,该可选择部分时可使个人设备106的存储器128的网站应用程序138(诸如网站访问和/或浏览应用程序)打开并显示允许用户输入账户访问信息的网页。在其他示例中,当被选择时,该消息的可选部分可使与该用户账户相关联的语音使能设备应用程序140(诸如伴随应用程序)被访问。语音使能设备应用程序140可有权访问账户访问信息,并且可用于获取账户访问信息而无需用户将该信息输入到例如网站应用程序138中。对应于账户访问信息的数据可由远程系统120接收和从个人设备106接收,并且可由远程系统120用于确定哪个用户账户将与语音使能设备102相关联。

通知部件168还可被配置为发送与用户账户与语音使能设备102的关联和/或解除关联相关联的一个或多个消息。例如,可将消息发送到个人设备106,该消息导致和/或允许网站应用程序138显示允许个人设备106的用户输入与他们在环境104中的停留相关联的信息的网页。该信息可包括例如从环境104结账离开的结账离开时间和/或结账离开日。该信息可用于确定将维持用户账户与语音使能设备102之间的关联的时间段和/或用户账户应何时与语音使能设备102解除关联。通过提供此功能,用户能够控制与语音账户相关联的潜在个人信息和/或功能何时可供语音使能设备102使用,以及该信息和这些功能何时应不可用。

远程系统120的通知部件168和/或其他部件可附加地或另选地被配置为从与环境104相关联的一个或多个设备和/或系统请求调度数据。调度数据可指示用户停留在该环境中的时间段,该时间段可用于识别和/或确定维持用户账户与语音使能设备102之间的关联的时间段。

关联管理部件170可被配置为识别和/或确定用户账户与语音使能设备102之间的关联。例如,在从语音使能设备102接收到附加音频数据之后,关联管理部件170可用于确定用户账户与和语音使能设备102相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源150可用于执行与该音频数据相关联的一个或多个动作。

关联管理部件170可附加地或另选地被配置为存储与账户将与语音使能设备102相关联的时间段相关联的数据。关联管理部件170可附加地或另选地被配置为存储指示一个或多个解除关联事件的解除关联事件数据,当解除关联事件中的一个发生时,该解除关联事件使用户账户与语音使能设备102解除关联。解除关联事件可包括接收到表明用户已经从环境104结账离开的指示。附加地或另选地,远程系统120可接收表示另一用户话语的附加音频数据,并且远程系统120可确定与该用户话语相关联的意图是将用户账户与语音使能设备102解除关联。接收到该音频数据和/或确定该用户话语对应于解除关联的意图可被认为是解除关联事件。解除关联事件还可包括暂时解除关联事件。例如,语音使能设备102和/或远程系统120可被配置为接收表明与该环境相关联的锁和/或钥匙卡读取器已经被用来离开房间的指示。至少部分地基于该指示,关联管理部件170可被配置为将用户账户与语音使能设备102暂时解除关联,诸如直到该锁和/或钥匙卡读取器指示用户已经进入房间为止。

关联管理部件170可另外被配置为确定导致维持用户账户与语音使能设备102之间的关联的时间段改变的一个或多个事件何时发生。例如,远程系统120可接收表明该时间段将延长还是缩短的指示。举例来说,用户可决定从酒店提早退房和/或用户可以决定延长住宿时间。在其他示例中,可从与该环境相关联的系统接收表明该时间段已经延长还是缩短的指示。这样的事件的指示可被发送到远程系统120并由远程系统120接收,并且可用于识别、确定和/或生成维持用户账户与语音使能设备102之间的关联的第二时间段。

设备关联部件184可被配置为识别、确定、生成和/或存储指示语音使能设备102与环境104内的一个或多个其他设备之间的关联的设备关联数据。例如,环境104可包括被配置为与语音使能设备102通信的一个或多个“智能”附件设备。此类辅助设备的示例可包括灯泡、电视、插头、插座、锁和/或电器。设备关联部件184可被配置为存储指示这些附件设备中的哪些与语音使能设备102相关联的设备关联数据。在示例中,一旦用户账户与语音使能设备102相关联,用户便能够例如经由语音使能设备102提供用户话语以控制附件设备的功能。

附加地或另选地,在示例中,用户可访问具有相同的语音使能设备102和/或另一语音使能设备102的相同或另一环境104。该重复访问者可能希望在与用户相关联的用户账户与语音使能设备102之间重新建立关联。可采用多种方式中的一种或多种方式重新建立账户。例如,用户可提供由语音使能设备102的麦克风捕获的用户话语。可生成对应的音频数据并将其发送到远程系统120以进行处理。在确定要用于执行与该用户话语相关联的动作的资源不可供与语音使能设备102相关联的默认账户使用时,可由语音使能设备102输出音频,该音频请求用户提供联系信息以启动将用户的个人账户与语音使能设备102相关联的过程。用户可提供联系信息,诸如电话号码。

所提供的电话号码可与先前已经提供的电话号码相互对照,以将账户与语音使能设备102相关联。在该示例中,假定账户先前已经利用该联系信息与语音使能设备102相关联,则远程系统120可识别与该联系信息相关联的账户而无需向用户的个人设备106发送消息/或无需用户输入账户识别信息。在这些示例中,可将消息或其他通知发送到个人设备106和/或语音使能设备102,指示该账户已经与语音使能设备102相关联。通过这样做,如果账户被错误地或恶意地与语音使能设备102相关联,则可通知与该账户相关联的用户,以便可以采取纠正措施。

附加地或另选地,重复访问者可利用一个或多个语音模型156将账户与语音使能设备102相关联。语音模型156可包括例如一个或多个参考语音签名。参考语音签名可指示与音频数据相关联的特性,诸如对应于音频数据的幅度和/或频率。附加地或另选地,可利用频率估计、隐马尔可夫(markov)模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示和/或矢量量化来识别、确定和/或生成参考语音签名。用户可提供可由语音使能设备102的麦克风捕获的用户话语。可生成对应的音频数据并将其发送到远程系统120。可至少部分地基于语音模型156来识别用户。对用户的识别可包括例如确定音频数据的语音签名与由语音模型156存储和/或访问的参考语音签名中的一个参考语音签名匹配或最紧密匹配。与用户相关联的用户标识可与用户账户相关联。已经接收到对用户账户的识别和与从中接收音频数据的语音使能设备102相关联的设备标识的话,远程系统120然后可将该用户账户与语音使能设备102暂时相关联。在这些示例中,可将消息或其他通知发送到个人设备106和/或语音使能设备102,指示该账户已经与语音使能设备102相关联。通过这样做,如果账户被错误地或恶意地与语音使能设备102相关联,则可通知与该账户相关联的用户,以便可以采取纠正措施。

如本文所使用的,诸如处理器108、124和/或142的处理器可包括多个处理器和/或具有多个核的处理器。此外,处理器可包括一个或多个不同类型的核。例如,处理器可包括应用程序处理器单元、图形处理单元等。在一个具体实施中,处理器可包括微控制器和/或微处理器。处理器108、124和/或142可包括图形处理单元(gpu)、微处理器、数字信号处理器或本领域已知的其他处理单元或部件。另选地或附加地,本文中描述的功能可至少部分地由一个或多个硬件逻辑部件执行。例如但不限于,可使用的例示性类型的硬件逻辑部件包括现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统系统(soc)、复杂的可编程逻辑器件(cpld)等。此外,处理器108、124和/或142中的每个可拥有自己的本地存储器,这些存储器也可存储程序组件、程序数据和/或一个或多个操作系统。

存储器112、128和/或146可包括采用用于存储信息(诸如计算机可读指令、数据结构、程序组件或其他数据)的任何方法或技术实现的易失性存储器和非易失性存储器、可移动介质和不可移动介质。此类存储器112、128和/或146包括但不限于ram、rom、eeprom、闪存存储器或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储装置、raid存储系统,或可用于存储所需信息并可由计算设备访问的任何其他介质。存储器112、128和/或146可被实现为计算机可读存储介质(“crsm”),其可以是处理器108、124和/或142可访问以执行存储在存储器112、128和/或146上的指令的任何可用物理介质。在一种基本的具体实施中,crsm可包括随机存取存储器(“ram”)和闪存存储器。在其他具体实施中,crsm可包括但不限于只读存储器(“rom”)、电可擦除可编程只读存储器(“eeprom”)或可用于存储所需信息并可由处理器访问的任何其他有形介质。

此外,功能组件可存储在相应存储器中,或者相同的功能可替代地以硬件、固件、专用集成电路、现场可编程门阵列或作为片上系统(soc)来实现。另外,虽然未示出,但是本文所讨论的每个相应存储器(诸如存储器112、128和/或146)可包括被配置为管理诸如网络接口的硬件资源设备、相应装置的i/o设备等等并向在处理器上执行的应用程序或组件提供各种服务的至少一个操作系统(os)组件。这样的os组件可实现如freebsd项目发布的freebsd操作系统的变体;其他unix或类unix的变体;如linustorvalds发布的linux操作系统的变体;美国华盛顿州西雅图市amazon.cominc.的fireos操作系统;美国华盛顿州雷蒙德市微软公司的windows操作系统;如由加利福尼亚州圣何塞市的lynxsoftwaretechnologies,inc.发布的lynxos;如瑞典的eneaab发布的嵌入式操作系统(eneaose);等等。

网络接口110、126和/或144可启用系统100中所示的部件和/或设备之间和/或与一个或多个其他远程系统以及其他联网设备的消息。这样的网络接口110、126和/或144可包括一个或多个网络接口控制器(nic)或其他类型的收发器设备以通过网络122发送和接收消息。

例如,网络接口110、126和/或144中的每个可包括个人局域网(pan)部件,以使得能够通过一个或多个短距离无线消息信道传送消息。例如,pan部件可启用符合以下标准ieee802.15.4(zigbee)、ieee802.15.1(蓝牙)、ieee802.11(wifi)或任何其他pan消息协议中的至少一者的消息。此外,网络接口110、126和/或144中的每个可包括广域网(wan)部件,以使得能够通过广域网传送消息。

在某些情况下,远程系统120可在与语音使能设备102相关联的环境本地。例如,远程系统120可位于语音使能设备102内。在某些情况下,远程系统120的一些或全部功能可由语音使能设备102执行。

图2至图5示出了用于与语音使能设备建立暂时账户关联的各种过程。本文描述的过程在逻辑流程图中被示为框的集合,逻辑流程图表示一系列操作,其中一些或全部操作可以硬件、软件或其组合来实现。在软件的情境中,框可表示存储在一个或多个计算机可读介质上的计算机可执行指令,当被一个或多个处理器执行时,该计算机可执行指令对处理器进行编程以执行所叙述的操作。通常,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。除非特别指出,否则描述这些框的顺序不应理解为限制。可以任何顺序和/或并行地组合任意数量的所描述的框来实现该过程或另选过程,并且并非所有框都需要被执行。为了讨论的目的,参考在本文的示例中描述的环境、架构和系统来描述这些过程,诸如例如参照图1a、图1b、图6、图12和图13描述的那些,尽管可在各种各样的其他环境、架构和系统中实现这些过程。

图2示出了用于与语音使能设备建立暂时账户关联的示例过程200的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程200。如图2所示,已经提供了哪个设备和/或系统可执行所描绘的操作中的每个的示例。然而,应当理解,这些操作中的一个或多个操作可由与图2中具体示出的设备和/或系统不同的设备和/或系统执行。图2的语音使能设备可与图1b中描述的语音使能设备102相同或相似。图2的远程系统可与图1b中描述的远程系统120相同或相似。图2的个人设备可与图1b中描述的个人设备106相同或相似。

在框202处,过程200可包括生成表示用户话语的音频数据。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统。

在框204处,过程200可包括确定资源不可供与语音使能设备相关联的默认用户账户使用。例如,远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将用户账户与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

在框206处,过程200可包括生成指令和请求联系信息的音频数据。该指令和该音频数据可被发送到语音使能设备。例如,上述远程系统的语音小部件可从nlu部件接收意图数据,并且可利用该意图数据来识别、确定和/或生成对应于该意图数据的指令。例如,语音小部件可被调用并用于生成该指令,当被发送到语音使能设备并由该语音使能设备启用时,该指令导致诸如经由扬声器输出音频,该音频表示对将用户账户与语音使能设备暂时相关联的信息的请求。远程系统的tts部件可用于生成将由语音使能设备用来输出如由该语音小部件生成的指令所指示的音频的音频数据。

在框208处,过程200可包括至少部分地基于该指令来输出对应于该音频数据的音频。例如,输出音频可以是“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”上面提供的示例音频仅通过示例的方式提供,而不是作为限制。应当理解,虽然联系信息的示例被提供为电话号码,但是联系信息可附加地或另选地包括例如电子邮件地址和/或社交媒体账户标识。另外,尽管已经将对联系信息的请求描述为通过语音使能设备的扬声器以音频方式提供,但应当理解,该音频可通过语音使能设备的扬声器以外的扬声器提供,和/或该请求可采用听觉以外的方式或对听觉进行补充的方式呈现。例如,在语音使能设备包括显示器和/或与具有显示器的设备传送消息的情况下,可采用视觉方式来呈现该请求。

在框210处,过程200可包括生成表示联系信息的音频数据。例如,用户可提供包括联系信息的第二用户话语。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

在框212处,过程200可包括生成代码对,该代码对将联系信息与设备标识相关联,该设备标识与该联系信息所对应的设备相关联。该代码对的生成可由远程系统的代码对部件来执行。代码对部件可生成代码对,该代码对将与语音使能设备相关联的设备标识、用户提供的联系信息和/或参照框214更详细描述的消息的可选部分相关联。代码对部件可用于加密设备标识、联系信息和/或该消息。

在框214处,过程200可包括生成与用于账户凭据输入的链接或其他可选部分相关联的消息。可诸如通过利用代码对将该消息发送到与联系信息相关联的个人设备。例如,可将来自asr部件的文本数据提供给远程系统的通知部件,该通知部件可被配置为识别、确定和/或生成要发送给与联系信息相关联的个人设备的消息。在示例中,该消息可以是sms消息。在其他示例中,该消息可以是电子邮件、电话、社交媒体消息(诸如私信),或者个人设备可接收的另一种形式的消息。

通知部件可生成该消息和/或该消息的一部分。例如,可生成与该消息相关联的可选部分诸如网页链接,当被选择时,该可选部分可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。远程系统的通知部件可用于将该消息发送到个人设备,在该个人设备处,个人设备的消息应用程序可用于接收和/或显示该消息。

在框216处,过程200可包括接收选择该链接和/或可选部分的输入。在一些示例中,当被选择时,该可选部分可使个人设备的网站应用程序诸如网站访问和/或浏览应用程序打开并显示允许用户输入账户访问信息的网页。在其他示例中,当被选择时,该消息的可选部分可使与该用户账户相关联的语音使能设备应用程序(诸如伴随应用程序)被访问。语音使能设备应用程序可有权访问账户访问信息,并且可用于获取账户访问信息而无需用户将该信息输入到例如网站应用程序中。可生成对应于输入的输入数据,并且可利用该输入数据来打开网页应用程序,该网页应用程序在框218处可显示允许输入与用户账户相关联的账户凭据的网页。可生成对应于账户凭据的输入数据,并且可将该输入数据发送到远程系统。

在框220处,过程200可包括将对应于账户凭据的用户账户与语音使能设备相关联。例如,在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定用户账户与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。

在框222处,过程200可包括输出确认账户与语音使能设备相关联的音频。例如,远程系统可至少部分地基于用户账户与语音使能设备相关联来生成指令数据和/或音频数据。该指令数据和/或音频数据可被发送到语音使能设备,并且对应于该音频数据的音频可经由语音使能设备的扬声器输出。通过这样做,可向用户提供表明他/她的用户账户已经成功地与语音使能设备相关联的确认。

在框224处,至少部分地基于用户账户与语音使能设备相关联,过程200可包括使网页显示在个人设备上。该网页可允许输入用户账户何时应与和语音使能设备相关联的设备标识解除关联的指示。可生成对应于该输入的输入数据,并且可将该输入数据发送到远程系统。例如,可将消息发送到个人设备,该消息导致和/或允许网站应用程序显示允许个人设备的用户输入与他们在环境中的停留相关联的指示的网页。该指示可包括例如从该环境结账离开的结账离开时间和/或结账离开日。该信息可用于确定将维持用户账户与语音使能设备之间的关联的时间段,以及用户账户应何时与语音使能设备解除关联。通过提供此功能,用户能够控制潜在个人信息和/或功能何时可供语音使能设备102使用,以及该信息和这些功能何时应不可用。

远程系统的通知部件和/或其他部件可被配置为从与环境相关联的一个或多个设备和/或系统请求调度数据。调度数据可指示用户停留在该环境中的时间段,该时间段可用于识别和/或确定维持用户账户与语音使能设备之间的关联的时间段。

在框226处,过程200可包括接收解除关联时间数据。例如,远程系统的关联管理部件可被配置为存储与账户将与语音使能设备相关联的时间段相关联的数据。关联管理部件可附加地或另选地被配置为存储指示一个或多个解除关联事件的解除关联事件数据,当解除关联事件中的一个发生时,该解除关联事件使用户账户与语音使能设备解除关联。解除关联事件可包括接收到表明用户已经从环境结账离开的指示。附加地或另选地,远程系统可接收表示另一用户话语的附加音频数据,并且远程系统可确定与该用户话语相关联的意图是将用户账户与语音使能设备解除关联。接收到该音频数据和/或确定该用户话语对应于解除关联的意图可被认为是解除关联事件。解除关联事件还可包括暂时解除关联事件。例如,语音使能设备和/或远程系统可被配置为接收表明与环境相关联的锁和/或钥匙卡读取器已经被用于离开房间的指示。至少部分地基于该指示,关联管理部件可被配置为将用户账户与语音使能设备暂时解除关联,诸如直到该锁和/或钥匙卡读取器指示用户已经进入房间为止。

关联管理部件可另外被配置为确定导致维持用户账户与语音使能设备之间的关联的时间段改变的一个或多个事件何时发生。例如,远程系统可接收表明该时间段将延长还是缩短的指示。举例来说,用户可决定从酒店提早退房和/或用户可以决定延长住宿时间。在其他示例中,可从与该环境相关联的系统接收表明该时间段已经延长还是缩短的指示。对这样的事件的指示可被发送到远程系统并由远程系统接收,并且可用于识别、确定和/或生成维持用户账户与语音使能设备之间的关联的第二时间段。

在框228处,过程200可包括至少部分地基于解除关联时间数据来将用户账户与语音使能设备解除关联。用户账户与语音使能设备解除关联可至少部分地基于该时间段过去和/或解除关联事件的发生中的至少一者。

图3示出了用于利用已经与账户暂时相关联的语音使能设备的示例过程300的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程300。如图3所示,已经提供了哪个设备和/或系统可执行所描绘的操作中的每个的示例。然而,应当理解,这些操作中的一个或多个操作可由与图3中具体示出的设备和/或系统不同的设备和/或系统执行。图3的语音使能设备可与图1b中描述的语音使能设备102相同或相似。图3的远程系统可与图1b中描述的远程系统120相同或相似。图3的个人设备可与图1b中描述的个人设备106相同或相似。

在框302处,过程300可包括生成表示用户话语的音频数据。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统。

在框304处,过程300可包括生成表示与用户话语相关联的意图的意图数据。例如,可使用在下文参照图12更详细地描述的asr技术来处理该音频数据,以生成表示用户话语的文本数据。同样在下文参照图12更详细地描述的nlu技术可利用该文本数据来生成意图数据。例如,用户话语可以是“播放歌曲a”。远程系统的asr部件可生成表示文本“播放歌曲a”的文本数据。远程系统的nlu部件可生成表示“播放”意图的意图数据以及识别要播放的内容的“歌曲a”的相关联值。该意图数据可与语音使能设备的设备标识一起被发送到被配置为处理由nlu部件确定的意图的语音小部件。在语音使能设备与用户账户暂时相关联的示例中,存储指示设备标识与用户账户之间的暂时关联的数据的关联管理部件可用于确定与该用户账户相关联的资源可用于服务该意图。

在框306处,过程300可包括至少部分地基于用户账户与语音使能设备之间的关联来识别活动账户数据。例如,可查询关联管理部件和/或可利用关联管理部件来确定与语音使能设备的设备标识相关联的活动账户是默认账户还是暂时关联的用户账户。在设备标识已经与用户账户相关联的示例中,来自关联管理部件的有效账户数据可用于确定可用资源是与暂时关联的用户账户相关联的资源。

在框308处,过程300可包括访问与用户账户和意图相关联的资源。使用上面提供的示例,与语音使能设备相关联的用户账户可有关访问和/或被许可使用提供播放“歌曲a”的能力的一个或多个资源,诸如音乐服务和/或功能。该一个或多个资源可被访问并且可被用来执行所请求的动作。

在框310处,过程300可包括生成利用该资源执行操作的指令。例如,语音小部件可利用该资源来生成针对要执行的动作的指令。使用本文提供的示例,该指令可以是使语音使能设备输出对应于歌曲a的音频。

在框312处,过程300可包括语音使能设备接收该指令。也可接收对应于该指令的音频数据。

在框314处,过程300可包括执行该动作和/或输出确认该动作已经执行的音频。例如,某些动作将由语音使能设备执行。这些动作可以是例如输出对应于歌曲的音频,设置计时器,在语音使能设备的显示器上显示视频等。在这些示例中,指令数据可使语音使能设备执行该行动。在其他示例中,动作将由除语音使能设备以外的设备执行。这些动作可以是例如订购产品,操作电器,操作灯泡等。在这些示例中,指令数据可使一个或多个其他设备执行该动作,并且语音使能设备可用于输出确认该操作已经执行的音频。应当理解,动作的执行可包括语音使能设备和/或远程系统对动作的隐式执行。

在框316处,过程300可包括个人设备接收动作的通知。该通知可用于确认动作的执行以及确认用户账户与语音使能设备相关联的目的。如果用户账户不应与语音使能设备相关联,则该通知可用于提供使用个人设备将用户账户与语音使能设备解除关联的机会。通知的发送可以是可选的,并且可由与用户账户相关联的一个或多个用户偏好来确定。

图4示出了用于使用联系信息将账户与语音使能设备暂时重新相关联的示例过程400的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程400。如图4所示,已经提供了哪个设备和/或系统可执行所描绘的操作中的每个的示例。然而,应当理解,这些操作中的一个或多个操作可由与图4中具体示出的设备和/或系统不同的设备和/或系统执行。图4的语音使能设备可与图1b中描述的语音使能设备102相同或相似。图4的远程系统可与图1b中描述的远程系统120相同或相似。图4的个人设备可与图1b中描述的个人设备106相同或相似。

在框402处,过程400可包括生成表示用户话语的音频数据。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统。

在框404处,过程400可包括确定资源不可供与语音使能设备相关联的默认用户账户使用。例如,远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将用户账户与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

在框406处,过程400可包括生成指令和请求联系信息的音频数据。该指令和该音频数据可被发送到语音使能设备。例如,上述远程系统的语音小部件可从nlu部件接收意图数据,并且可利用该意图数据来识别、确定和/或生成对应于该意图数据的指令。例如,语音小部件可被调用并用于生成指令,当被发送到语音使能设备并由该语音使能设备启用时,该指令导致诸如经由扬声器输出音频,该音频表示对将用户账户与语音使能设备暂时相关联的信息的请求。远程系统的tts部件可用于生成将由语音使能设备用来输出如由该语音小部件生成的指令所指示的音频的音频数据。

在框408处,过程400可包括至少部分地基于该指令来输出对应于该音频数据的音频。例如,输出音频可以是“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”上面提供的示例音频仅通过示例的方式提供,而不是作为限制。应当理解,虽然联系信息的示例被提供为电话号码,但是联系信息可附加地或另选地包括例如电子邮件地址和/或社交媒体账户标识。另外,尽管已经将对联系信息的请求描述为通过语音使能设备的扬声器以音频方式提供,但应当理解,该音频可通过语音使能设备的扬声器以外的扬声器提供,和/或该请求可采用听觉以外的方式或对听觉进行补充的方式呈现。例如,在语音使能设备包括显示器和/或与具有显示器的设备传送消息的情况下,可采用视觉方式来呈现该请求。

在框410处,过程400可包括生成表示联系信息的音频数据。例如,用户可提供包括联系信息的第二用户话语。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

在框412处,过程400可包括确定与联系信息相关联的用户账户。例如,在用户是重复用户或先前已经经历了将用户账户与语音使能设备暂时相关联的过程的情况下,过程400不需要包括从用户获取账户凭据信息。相反,远程系统的关联管理部件中可能已经存储了将用户账户与联系信息相关联的数据。这样,当重复用户提供他/她的联系信息时,远程系统可查询关联管理部件并且识别要与语音使能设备相关联的用户账户,而无需从用户或个人设备请求此类信息。应当注意,可在用户访问相同环境或不同环境的情况下和/或如果用户停留在该环境的相同房间或不同房间中的情况下使用该过程400。换句话说,过程400可用于将用户账户与和远程系统相关联和/或可供远程系统使用的任何语音使能设备暂时相关联。

在框414处,过程400可包括生成消息,该消息请求确认将用户账户与语音使能设备相关联的意图。该操作可以是可选的,并且可作为确保用户被授权将用户账户与语音使能设备相关联的手段提供。可将该消息发送到个人设备。

在框416处,过程400可包括在个人设备处接收输入,该输入确认将用户账户与语音使能设备相关联的意图。例如,该消息可请求用户提供输入,该输入确认与个人设备以及用于与个人设备通信的联系信息相关联的用户希望将用户账户与语音使能设备暂时重新相关联。

在框418处,过程400可包括至少部分地基于从个人设备接收指示用户已经确认将用户账户与语音使能设备相关联的意图的输入数据,来将用户账户与语音使能设备相关联。在框420处,过程400可包括输出确认用户账户与语音使能设备之间的关联的音频。输出该音频可至少部分地基于从远程系统接收的指令数据,该指令数据指示语音使能设备输出确认该关联的音频。此后,用户可提供表示使语音使能设备和/或一个或多个其他设备和/或系统执行动作的命令的后续用户话语。

图5示出了用于使用语音模型将账户与语音使能设备暂时重新相关联的示例过程500的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程500。如图5所示,已经提供了哪个设备和/或系统可执行所描绘的操作中的每个的示例。然而,应当理解,这些操作中的一个或多个操作可由与图5中具体示出的设备和/或系统不同的设备和/或系统执行。图5的语音使能设备可与图1b中描述的语音使能设备102相同或相似。图5的远程系统可与图1b中描述的远程系统120相同或相似。图5的个人设备可与图1b中描述的个人设备106相同或相似。

在框502处,过程500可包括生成表示用户话语的音频数据。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统。

在框504处,过程500可包括至少部分地基于一个或多个语音模型来确定与用户相关联的用户账户。例如,对用户的识别可包括确定音频数据的语音签名与语音模型存储和/或访问的参考语音签名匹配或最紧密匹配。与用户相关联的用户标识可与用户账户相关联。

在框506处,过程500可包括生成指令和音频数据,该音频数据请求来自语音使能设备的用户的意图确认。例如,该音频数据可包括远程系统已经确定要与用户相关联的用户账户的指示符。

在框508处,过程500可包括至少部分地基于该指令来输出请求该意图确认的音频。该输出音频可包括远程系统确定要与用户相关联的用户账户的指示符。附加地或另选地,该输出音频可包括对用户的请求,希望用户提供确认用户账户将与语音使能设备相关联的意图的指示。例如,该输出音频可能包括“您想将rob的账户链接到此设备吗?”然后,用户可响应于确认请求来向语音使能设备提供另一用户话语。

在框510处,过程500可包括生成音频数据,该音频数据表示对意图确认请求的响应。该音频数据可被发送到远程系统进行处理。在框512处,过程500可包括分析该音频数据以确定将用户账户与语音使能设备相关联的意图。该分析可包括使用语音模型来确认对应于该响应的音频数据也与用户标识匹配或最佳匹配。

在框514处,过程500可包括将用户账户与语音使能设备暂时相关联。在这些示例中,可在框518处将消息或其他通知发送到个人设备和/或在框516处发送到语音使能设备,指示该账户已经与语音使能设备相关联。通过这样做,如果账户被错误地或恶意地与语音使能设备相关联,则可通知与该账户相关联的用户,以便能够采取纠正措施。

图6示出了用于与一个或多个语音使能设备的暂时账户关联的示例环境600。环境600可包括与图1b的环境100相同或相似的设备和/或系统。例如,环境600可包括环境104,语音使能设备102和与用户相关联的个人设备106可位于该环境中。环境600可另外包括一个或多个附件设备602。

远程系统的设备关联部件可被配置为识别、确定、生成和/或存储设备关联数据,设备关联数据指示环境104内的语音使能设备102与一个或多个其他附件设备602之间的关联。例如,环境104可包括一个或多个“智能”附件设备602,这些附件设备被配置为与语音使能设备102通信。此类附件设备602的示例可包括灯泡、电视、插头、插座、锁和/或电器。设备关联部件可被配置为存储指示这些附件设备中的哪些与语音使能设备102相关联的设备关联数据。在示例中,一旦用户账户与语音使能设备102相关联,用户就可能够诸如经由语音使能设备102提供用户话语以控制附件设备602的功能。

例如,用户可以说“开灯”,“打开智能插头”,“调低电视音量”等。语音使能设备102的麦克风可捕获这样的用户话语,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。另外,远程系统的关联管理部件可用于确定当前与语音使能设备相关联的活动账户,并且可利用与该活动账户相关联的资源来服务由用户话语表示的请求。

在示例中,一旦用户账户已经与语音使能设备的设备标识暂时相关联,则该用户账户可有权访问第一组资源,而默认账户可有权访问第二组资源。第一组资源中的一些资源可能与第二组资源中的资源相同,并且/或者第一组资源中的一些资源可能与第二组资源中的资源不同。在这些示例中,账户仲裁可由远程系统执行,以确定要使用哪个用户账户来处理用户话语和对其作出响应。在一些示例中,账户仲裁可包括使暂时关联的用户账户优先于默认账户,除非暂时关联的用户账户无权访问用于处理请求(诸如订购客房服务)的资源。在其他示例中,账户仲裁可包括使默认账户优先于暂时关联的用户账户,除非默认账户无权访问用于处理请求的资源。

附加地或另选地,一些用户账户可与他们自己的语音使能设备相关联。例如,一些用户可能在家中和/或办公室中具有与远程系统相关联的语音使能设备。该用户账户可与个人语音使能设备相关联。在这些示例中,诸如“关灯”的用户请求可指示关闭环境中的灯或在关闭家中的灯的意图。远程系统可执行动作仲裁以使一个或多个动作优先于其他动作。例如,当用户账户与环境中的语音使能设备暂时相关联时,远程系统可对与环境相关联的动作进行优先级排序。在其他示例中,远程系统可对与家庭和/或办公室设备相关联的动作进行优先级排序。在其他示例中,当请求对应于可由一个或多个设备执行的动作时,远程系统可在采取动作之前使从其接收了音频数据的语音使能设备请求来自用户的附加信息,诸如“您想要我关掉这个房间或家里的灯吗”。

图7至图11示出了用于与语音使能设备建立暂时账户关联的各种过程。本文描述的过程在逻辑流程图中被示为框的集合,逻辑流程图表示一系列操作,其中一些或全部操作可以硬件、软件或其组合来实现。在软件的情境中,框可表示存储在一个或多个计算机可读介质上的计算机可执行指令,当被一个或多个处理器执行时,该计算机可执行指令对处理器进行编程以执行所叙述的操作。通常,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。除非特别指出,否则描述这些框的顺序不应理解为限制。可以任何顺序和/或并行地组合任意数量的所描述的框来实现该过程或另选过程,并且并非所有框都需要被执行。为了讨论的目的,参考在本文的示例中描述的环境、架构和系统来描述这些过程,诸如例如参照图1a至图6、图12和图13描述的那些,尽管可在各种各样的其他环境、架构和系统中实现这些过程。

图7示出了用于与语音使能设备的暂时账户关联的示例过程700的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程700。

在框702处,过程700可包括:从语音使能设备接收表示第一用户话语的第一音频数据,第一用户话语请求动作的执行,该语音使能设备与第一账户相关联。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统,远程系统可接收该音频数据。

在框704处,过程700可包括确定用于执行该动作的资源与第一账户无关联。例如,远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将用户账户与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

在框706处,过程700可包括向语音使能设备发送经由语音使能设备的扬声器输出音频的指令,该音频表示对电话号码的请求。例如,远程系统可生成指令数据和请求联系信息的音频数据。该指令数据和该音频数据可被发送到语音使能设备。例如,上述远程系统的语音小部件可从nlu部件接收意图数据,并且可利用该意图数据来识别、确定和/或生成对应于该意图数据的指令数据。例如,语音小部件可被调用并用于生成指令数据,当被发送到语音使能设备并由该语音使能设备启用时,该指令数据导致诸如经由扬声器输出音频,该音频表示对将用户账户与语音使能设备暂时相关联的信息的请求。远程系统的tts部件可用于生成将由语音使能设备用来输出如由该语音小部件生成的指令数据所指示的音频的音频数据。

可至少部分地基于该指令数据来输出对应于该音频数据的音频。例如,输出音频可以是“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”上面提供的示例音频仅通过示例的方式提供,而不是作为限制。应当理解,虽然联系信息的示例被提供为电话号码,但是联系信息可附加地或另选地包括例如电子邮件地址和/或社交媒体账户标识。另外,尽管已经将对联系信息的请求描述为通过语音使能设备的扬声器以音频方式提供,但应当理解,该音频可通过语音使能设备的扬声器以外的扬声器提供,和/或该请求可采用听觉以外的方式或对听觉进行补充的方式呈现。例如,在语音使能设备包括显示器和/或与具有显示器的设备传送消息的情况下,可采用视觉方式来呈现该请求。

在框708处,过程700可包括:从语音使能设备接收第二音频数据,该第二音频数据表示包括电话号码的第二用户话语。例如,用户可提供包括联系信息的第二用户话语,这里是包括电话号码。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

在框710处,过程700可包括从语音使能设备接收语音使能设备的设备标识。例如,表示设备标识的数据可与第二音频数据一起从语音使能设备发送到远程系统。在其他示例中,设备标识可由远程系统至少部分地基于与语音使能设备相关联的信息来确定。

在框712处,过程700可包括生成与第二请求相关联的消息,第二请求是提供与第二账户相关联的认证信息。例如,可生成代码对,该代码对将联系信息与和该联系信息所对应的设备相关联的设备标识相关联。该代码对的生成可由远程系统的代码对部件来执行。代码对部件可生成代码对,该代码对将与语音使能设备相关联的设备标识、用户提供的联系信息和/或下文更详细描述的消息的可选部分相关联。代码对部件可用于加密设备标识、联系信息和/或该消息。

可生成该消息,并且该消息可包括用于账户凭据输入的链接或其他可选部分。通知部件可利用远程系统的认证链接部件来生成该消息和/或该消息的一部分。例如,认证链接部件可用于识别、确定和/或生成该消息的可选部分(诸如网页链接),当被选择时,该可选部分可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。

在框714处,过程700可包括将该消息发送到与电话号码相关联的个人设备。远程系统的通知部件可用于将该消息发送到个人设备,在该个人设备处,个人设备的消息应用程序可用于接收和/或显示该消息。可诸如通过利用代码对将该消息发送到与联系信息相关联的个人设备。例如,可将来自asr部件的文本数据提供给远程系统的通知部件,该通知部件可被配置为识别、确定和/或生成要发送给与联系信息相关联的个人设备的消息。在示例中,该消息可以是sms消息。在其他示例中,该消息可以是电子邮件、电话、社交媒体消息(诸如私信),或者个人设备可接收的另一种形式的消息。

在框716处,过程700可包括:从个人设备接收识别第二账户并且认证对第二账户的访问的认证数据。例如,对应于用户提供的输入和/或从个人设备访问的应用程序识别的输入的输入数据可表示账户凭据,并且可被生成并发送到远程系统。

在框718处,过程700可包括将对应于第二账户的账户标识与语音使能设备的设备标识相关联。例如,在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定账户标识与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。

过程700可附加地或另选地包括:向个人设备发送第二消息,该第二消息请求何时将用户账户与设备标识解除关联的指示。过程700还可包括从个人设备接收该指示并且从该指示确定时间段。过程700还可包括在该时间段过去之后将账户标识与设备标识解除关联。

过程700可附加地或另选地包括从语音使能设备接收附加音频数据,该附加音频数据表示用于动作的执行的另一用户话语。过程700还可包括:当在预先确定的时间段期间接收到该音频数据时,将该音频数据与用户账户相关联;以及确定用于执行该动作的资源与用户账户相关联。过程700还可包括生成利用该资源来执行该动作的第二指令,并将第二指令发送到语音使能设备。

过程700可附加地或另选地包括:从与第二环境相关联的第二语音使能设备接收表示执行该动作的另一用户话语的附加音频数据。第二环境可与另一个默认账户相关联。过程700还可包括:确定该另一个默认账户中不存在用于执行该动作的资源;以及向第二语音使能设备发送输出音频的指令,该音频从用户请求联系信息。过程700还可包括从第二语音使能设备接收表示包括联系信息的另一用户话语的音频数据。过程700还可包括:至少部分地基于联系信息来识别用户账户;以及接收与第二语音使能设备相关联的第二设备标识。过程700还可包括将账户标识与第二设备标识相关联。这样,对具有与远程系统相关联的语音使能设备的环境的重复访问者可在不使用个人设备的情况下将用户账户与语音使能设备暂时相关联。

图8示出了用于与语音使能设备的暂时账户关联的另一示例过程800的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程800。

在框802处,过程800可包括从语音使能设备接收表示包括联系信息的用户话语的音频数据。例如,用户可提供包括联系信息的用户话语。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

在框804处,过程800可包括从语音使能设备接收语音使能设备的设备标识。例如,表示设备标识的数据可与该音频数据一起从语音使能设备发送到远程系统。在其他示例中,设备标识可由远程系统至少部分地基于与语音使能设备相关联的信息来确定。

在框806处,过程800可包括生成加密的设备标识。例如,可将“密封”或以其他方式加密与语音使能设备相关联的设备标识的请求发送到远程系统的数据加密部件,该数据加密部件可密封或以其他方式加密设备标识。表示加密的设备标识的数据可由受管属性语音小部件接收以进一步处理。

在框808处,过程800可包括生成与可选链接相关联并且包括加密的设备标识的代码对。例如,受管属性语音小部件可从远程系统的客户认证部件请求代码对。该代码对可以包括和/或表示用于将信息输入和/或密封设备标识解除关联的url。受管属性语音小部件可接收该代码对,并且可将该代码对、设备标识和联系信息发送到通知部件。

在框810处,过程800可包括生成与请求相关联的消息,该请求是经由可选链接提供与用户账户相关联的认证信息。例如,该代码对可将联系信息与和该联系信息所对应的设备相关联的设备标识相关联。

可生成该消息,并且该消息可与用于账户凭据输入的链接或其他可选部分相关联。通知部件可利用远程系统的认证链接部件来生成该消息和/或该消息的一部分。例如,认证链接部件可用于识别、确定和/或生成该消息的可选部分(诸如网页链接),当被选择时,该可选部分可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。

在框812处,过程800可包括将该消息发送到与联系信息相关联的个人设备。例如,远程系统的通知部件可用于将该消息发送到个人设备,在该个人设备处,个人设备的消息应用程序可用于接收和/或显示该消息。可诸如通过利用代码对将该消息发送到与联系信息相关联的个人设备。例如,可将来自asr部件的文本数据提供给远程系统的通知部件,该通知部件可被配置为识别、确定和/或生成要发送给与联系信息相关联的个人设备的消息。在示例中,该消息可以是sms消息。在其他示例中,该消息可以是电子邮件、电话、社交媒体消息(诸如私信),或者个人设备可接收的另一种形式的消息。

在框814处,过程800可包括:从个人设备接收认证数据,该认证数据认证经由可选链接对用户账户的访问。例如,对应于用户提供的输入和/或从个人设备访问的应用程序识别的输入的输入数据可表示账户凭据,并且可被生成并发送到远程系统。

在框816处,过程800可包括:至少部分地基于接收到认证数据,使用户账户的账户标识与语音使能设备的设备标识相关联。例如,在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定用户账户与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。

过程800可附加地或另选地包括:向个人设备发送第二消息,该第二消息请求何时将用户账户与设备标识解除关联的指示。过程800还可包括从个人设备接收该指示并且从该指示确定时间段。过程800还可包括在该时间段过去之后将账户标识与设备标识解除关联。

过程800可附加地或另选地包括从语音使能设备接收附加音频数据,该附加音频数据表示使语音使能设备执行该动作的另一用户话语。过程800还可包括:当在时间段期间接收到该音频数据时,将该音频数据与用户账户相关联;以及确定用于执行该动作的资源与用户账户相关联。过程800还可包括生成利用该资源来执行该动作的第二指令,并将第二指令发送到语音使能设备。

过程800可附加地或另选地包括:从与第二环境相关联的第二语音使能设备接收表示执行该动作的另一用户话语的附加音频数据。第二环境可与另一个默认账户相关联。过程800还可包括:确定该另一个默认账户中不存在用于执行该动作的资源;以及向第二语音使能设备发送输出音频的指令,该音频从用户请求联系信息。过程800还可包括从第二语音使能设备接收表示包括联系信息的另一用户话语的音频数据。过程800还可包括:至少部分地基于联系信息来识别用户账户;以及接收与第二语音使能设备相关联的第二设备标识。过程800还可包括将账户标识与第二设备标识相关联。这样,对具有与远程系统相关联的语音使能设备的环境的重复访问者可在不使用个人设备的情况下将用户账户与语音使能设备暂时相关联。

过程800可附加地或另选地包括:从与第二环境相关联的第二语音使能设备接收表示执行动作的另一用户话语的附加音频数据。过程800还可包括:至少部分地基于语音模型来识别与用户话语相关联的用户;以及至少部分地基于识别用户来识别用户账户。过程800还可包括:从第二语音使能设备接收第二语音使能设备的第二设备标识;以及将账户标识与第二设备标识相关联。

过程800可附加地或另选地包括:识别与位于该环境中的与语音使能设备相关联的附件设备;以及识别与附件设备相关联的第二设备标识。过程800还可包括至少部分地基于将账户标识与语音使能设备的第一设备标识相关联来将账户标识与第二设备标识相关联。

过程800可附加地或另选地包括:从语音使能设备接收附加音频数据,该附加音频数据表示将账户标识与语音使能设备相关联的请求;以及向语音使能设备发送指令,使语音使能设备经由语音使能设备的扬声器输出提供联系信息的第二请求。

过程800可附加地或另选地包括:确定账户标识将与设备标识相关联的时间段;以及在该时间段期间接收第二音频数据,该第二音频数据表示请求该动作的执行的第二用户话语。过程800还可包括:确定用于执行该动作的资源与第一用户账户无关联;以及确定该资源可经由与语音使能设备相关联的默认用户账户供使用。过程800还可包括至少部分地基于确定该资源与第一用户账户无关联并且与默认用户账户相关联来选择默认用户账户。

图9示出了用于与语音使能设备的暂时账户关联的另一示例过程900的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程900。

在框902处,过程900可包括:从语音使能设备接收表示第一用户话语的第一音频数据,第一用户话语指示执行动作的请求,该语音使能设备与默认账户相关联。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统,远程系统可接收该音频数据。

在框904处,过程900可包括确定用于执行该动作的资源与账户无关联。例如,远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将账户标识与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

在框906处,过程900可包括至少部分地基于音频数据来识别与说出第一用户话语的用户相关联的账户标识,该账户标识先前已经与该语音使能设备或另一语音使能设备中的至少一者的设备标识相关联。例如,可向语音使能设备发送输出音频的指令,该音频从用户请求联系信息。可从语音使能设备接收表示包括联系信息的另一用户话语的音频数据,并且可使用联系信息来识别账户标识。附加地或另选地,可至少部分地基于语音模型来确定与用户话语相关联的用户标识。可至少部分地基于确定用户标识来识别账户标识。

在框908处,过程900可包括接收确认数据,该确认数据确认将账户标识与设备标识相关联的意图。例如,可将消息发送到与用户账户相关联的个人设备。该消息可请求确认将账户标识与设备标识相关联的意图。

在框910处,过程900可包括:至少部分地基于接收到确认数据,使账户标识与语音使能设备的设备标识相关联。例如,在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定用户账户与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。

图10示出了用于将账户与语音使能设备解除关联的示例过程1000的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程1000。

在框1002处,过程1000可包括接收第一指示,该第一指示表明用户账户的第一账户标识与和环境相关联的语音使能设备的设备标识之间的暂时关联建立。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统,远程系统可接收该音频数据。

远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将用户账户与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

可输出音频,诸如“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”用户可提供包括联系信息的第二用户话语,这里是包括电话号码。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

表示设备标识的数据可与第二音频数据一起从语音使能设备发送到远程系统。在其他示例中,设备标识可由远程系统至少部分地基于与语音使能设备相关联的信息来确定。然后可生成代码对,该代码对将联系信息与和该联系信息所对应的设备相关联的设备标识相关联。

可生成消息,并且该消息可包括用于账户凭据输入的链接或其他可选部分。通知部件可利用远程系统的认证链接部件来生成该消息和/或该消息的一部分。例如,认证链接部件可用于识别、确定和/或生成该消息的可选部分(诸如网页链接),当被选择时,该可选部分可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。对应于用户提供的输入和/或从个人设备访问的应用程序识别的输入的输入数据可表示账户凭据,并且可被生成并发送到远程系统。

在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定用户账户与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。用户账户与语音使能设备的设备标识之间的关联可被存储,诸如存储在远程系统处,并且可用于经由语音使能设备来服务用户请求。

在框1004处,过程1000可包括确定与语音使能设备相关联的解除关联事件已经发生,该解除关联事件表示所识别的用于维持暂时关联的时间段的过去或者从与环境相关联的系统接收到解除关联事件的第二指示中的至少一者。例如,可将消息发送到个人设备,该消息导致和/或允许网站应用程序显示允许个人设备的用户输入与他们在环境中的停留相关联的信息的网页。该信息可包括例如从该环境结账离开的结账离开时间和/或结账离开日。该信息可用于确定将维持用户账户与语音使能设备之间的关联的时间段,以及用户账户应何时与语音使能设备解除关联,诸如当该时间段过去时解除关联。通过提供此功能,用户能够控制潜在个人信息和/或功能何时可供语音使能设备使用,以及该信息和这些功能何时应不可用。

远程系统的通知部件和/或其他部件可被配置为从与环境相关联的一个或多个设备和/或系统请求调度数据。调度数据可指示用户停留在该环境中的时间段,该时间段可用于识别和/或确定维持用户账户与语音使能设备之间的关联的时间段。

附加地或另选地,解除关联事件可包括接收到表明用户已经从环境结账离开的指示。附加地或另选地,远程系统可接收表示另一用户话语的附加音频数据,并且远程系统可确定与该用户话语相关联的意图是将用户账户与语音使能设备解除关联。接收到该音频数据和/或确定该用户话语对应于解除关联的意图可被认为是解除关联事件。附加地或另选地,远程系统可从与环境相关联的系统接收表明已经从该环境结账离开的指示。接收到该指示可以是解除关联事件。解除关联事件还可包括暂时解除关联事件。例如,语音使能设备和/或远程系统可被配置为接收表明与环境相关联的锁和/或钥匙卡读取器已经被用于离开房间的指示。至少部分地基于该指示,关联管理部件可被配置为将用户账户与语音使能设备暂时解除关联,诸如直到该锁和/或钥匙卡读取器指示用户已经进入房间为止。

关联管理部件可另外被配置为确定导致维持用户账户与语音使能设备之间的关联的时间段改变的一个或多个事件何时发生。例如,远程系统可接收表明该时间段将延长还是缩短的指示。举例来说,用户可决定从酒店提早退房和/或用户可以决定延长住宿时间。在其他示例中,可从与该环境相关联的系统接收表明该时间段已经延长还是缩短的指示。对这样的事件的指示可被发送到远程系统并由远程系统接收,并且可用于识别、确定和/或生成维持用户账户与语音使能设备之间的关联的第二时间段。

在框1006处,过程1000可包括至少部分地基于确定解除关联事件已经发生来将第一账户标识与设备标识解除关联。账户标识与设备标识解除关联可导致与用户账户相关联的一个或多个资源与设备标识无关联。

在框1008处,过程1000可包括将对应于默认账户的第二账户标识与设备标识相关联。例如,远程系统的关联管理设备可指示与语音使能设备关联的设备标识与默认用户账户和/或另一个账户而不是用户账户相关联。附加地或另选地,在处理后续语音命令时,关联管理设备可能不提供与该设备标识相关联的活动账户的指示,从而使系统将默认账户与那些后续语音命令的设备标识相关联。

图11示出了用于将账户与语音使能设备解除关联的另一示例过程1100的流程图。描述操作或步骤的顺序不旨在被理解为限制,并且可以任何顺序和/或并行地组合任意数量的所描述的操作来实现过程1100。

在框1102处,过程1100可包括接收第一指示,该第一指示表明用户账户的第一账户标识与语音使能设备的设备标识之间的关联建立。例如,用户可向语音使能设备说出用户话语。语音使能设备的麦克风可捕获该用户话语,并且可生成对应的音频数据。该音频数据可经由网络被发送到远程系统,远程系统可接收该音频数据。

远程系统的asr部件可处理该音频数据并且生成对应的文本数据。远程系统的nlu部件可利用该文本数据来确定表示用户的意图(在这些示例中,该意图是执行利用一个或多个系统资源的动作)和/或将用户账户与语音使能设备暂时相关联的意图的意图数据。例如,用户话语可以是“播放歌曲a”。利用nlu部件,远程系统可确定资源可用于执行输出对应于歌曲a的音频的动作。例如,语音使能设备可与和环境相关联的默认用户账户关联。该默认用户账户可能无权访问资源来输出歌曲a。举例来说,默认用户账户可能未与允许播放歌曲a的音乐服务和/或数据库相关联。在这些示例中,可利用远程系统的语音小部件来启动将与用户相关联的个人用户账户与该语音使能设备暂时相关联的过程。

可输出音频,诸如“我们无法执行该操作,请提供您的电话号码以将您的账户链接到此设备。”用户可提供包括联系信息的第二用户话语,这里是包括电话号码。语音使能设备的麦克风可捕获对应于该用户话语的音频,并且可生成对应的音频数据。该音频数据可被发送到远程系统进行处理。例如,远程系统的asr部件可生成与对应于该音频数据并且表示联系信息的文本数据。

表示设备标识的数据可与第二音频数据一起从语音使能设备发送到远程系统。在其他示例中,设备标识可由远程系统至少部分地基于与语音使能设备相关联的信息来确定。然后可生成代码对,该代码对将联系信息与和该联系信息所对应的设备相关联的设备标识相关联。

可生成消息,并且该消息可包括用于账户凭据输入的链接或其他可选部分。通知部件可利用远程系统的认证链接部件来生成该消息和/或该消息的一部分。例如,认证链接部件可用于识别、确定和/或生成该消息的可选部分(诸如网页链接),当被选择时,该可选部分可帮助收集账户访问信息,诸如与个人用户账户相关联的用户名和/或密码。对应于用户提供的输入和/或从个人设备访问的应用程序识别的输入的输入数据可表示账户凭据,并且可被生成并发送到远程系统。

在从语音使能设备接收到附加音频数据后,可利用远程系统的关联管理部件来确定用户账户与和语音使能设备相关联的设备标识有效地相关联。该信息可用于确定如何处理该音频数据和/或哪些资源可用于执行与该音频数据相关联的一个或多个动作。用户账户与语音使能设备的设备标识之间的关联可被存储,诸如存储在远程系统处,并且可用于经由语音使能设备来服务用户请求。

在框1104处,过程1100可包括至少部分地基于时间段过去或者接收到解除关联事件发生的第二指示中的至少一者来确定解除关联事件已经发生。例如,可将消息发送到个人设备,该消息导致和/或允许网站应用程序显示允许个人设备的用户输入与他们在环境中的停留相关联的信息的网页。该信息可包括例如从该环境结账离开的结账离开时间和/或结账离开日。该信息可用于确定将维持用户账户与语音使能设备之间的关联的时间段,以及用户账户应何时与语音使能设备解除关联,诸如当该时间段过去时解除关联。通过提供此功能,用户能够控制潜在个人信息和/或功能何时可供语音使能设备使用,以及该信息和这些功能何时应不可用。

远程系统的通知部件和/或其他部件可被配置为从与环境相关联的一个或多个设备和/或系统请求调度数据。调度数据可指示用户停留在该环境中的时间段,该时间段可用于识别和/或确定维持用户账户与语音使能设备之间的关联的时间段。

附加地或另选地,解除关联事件可包括接收到表明用户已经从环境结账离开的指示。附加地或另选地,远程系统可接收表示另一用户话语的附加音频数据,并且远程系统可确定与该用户话语相关联的意图是将用户账户与语音使能设备解除关联。接收到该音频数据和/或确定该用户话语对应于解除关联的意图可被认为是解除关联事件。附加地或另选地,远程系统可从与环境相关联的系统接收表明已经从该环境结账离开的指示。接收到该指示可以是解除关联事件。解除关联事件还可包括暂时解除关联事件。例如,语音使能设备和/或远程系统可被配置为接收表明与环境相关联的锁和/或钥匙卡读取器已经被用于离开房间的指示。至少部分地基于该指示,关联管理部件可被配置为将用户账户与语音使能设备暂时解除关联,诸如直到该锁和/或钥匙卡读取器指示用户已经进入房间为止。

关联管理部件可另外被配置为确定导致维持用户账户与语音使能设备之间的关联的时间段改变的一个或多个事件何时发生。例如,远程系统可接收表明该时间段将延长还是缩短的指示。举例来说,用户可决定从酒店提早退房和/或用户可以决定延长住宿时间。在其他示例中,可从与该环境相关联的系统接收表明该时间段已经延长还是缩短的指示。对这样的事件的指示可被发送到远程系统并由远程系统接收,并且可用于识别、确定和/或生成维持用户账户与语音使能设备之间的关联的第二时间段。

在框1106处,过程1100可包括至少部分地基于确定解除关联事件已经发生来将第一账户标识与设备标识解除关联。账户标识与设备标识解除关联可导致与用户账户相关联的一个或多个资源与设备标识无关联。

在框1108处,过程1100可包括将对应于默认账户的第二账户标识与设备标识相关联。例如,远程系统的关联管理设备可指示与语音使能设备关联的设备标识与默认用户账户和/或另一个账户而不是用户账户相关联。附加地或另选地,在处理后续语音命令时,关联管理设备可能不提供与该设备标识相关联的活动账户的指示,从而使系统将默认账户与那些后续语音命令的设备标识相关联。

过程1100可附加地或另选地包括:从与用户账户相关联的个人设备接收表明该时间段将延长还是缩短的指示;以及至少部分地基于表明该时间段将延长还是缩短的指示来确定维持账户标识与设备标识之间的关联的第二时间段。在这些示例中,将账户标识与设备标识解除关联可至少部分地基于第二时间段过去。附加地或另选地,可从与环境相关联的系统接收表明该时间段将延长还是缩短的指示。

过程1100可附加地或另选地包括:从与环境的出口点相关联的附件设备接收表明与用户账户相关联的用户已经离开该环境的指示;以及至少部分地基于接收到该指示来将账户标识与设备标识解除关联。例如,该指示可表明门已被打开,锁已被解锁,门把手和/或旋钮已被转动,钥匙卡已刷过和/或被放置到钥匙卡读取器中等。过程1100还可包括:从附件设备接收表明用户在该时间段期间已经重新进入该环境的第二指示;以及至少部分地基于第二指示将账户标识与设备标识相关联。

图12示出了如何处理口头话语来允许系统捕获并执行用户说出的命令的概念图,该命令诸如可跟随唤醒词或触发表达(即,用于“唤醒”设备来使该设备开始将音频数据发送到远程系统诸如系统120的预定义字词或短语)的口头命令。所示的各种部件可位于相同或不同的物理设备上。图12中所示的各种部件之间的消息传送可直接发生或在网络122上发生。诸如设备102的麦克风112或另一设备的音频捕获部件捕获对应于口头话语的音频1200。然后,设备102使用唤醒词检测模块1201来处理对应于音频1200的音频数据,以确定是否在该音频数据中检测到关键词(诸如唤醒词)。在检测到唤醒词之后,设备102将对应于该话语的音频数据1202发送到包括asr模块152的远程系统120。音频数据1202可在传输之前从位于设备上的可选声学前端(afe)1256输出。在其他情况下,音频数据1202可采用不同的形式以便远程afe1256(诸如位于远程系统120的asr模块152上的afe1256)进行处理。

唤醒词检测模块1201与用户设备的其他部件(例如麦克风)一起工作,以检测音频1200中的关键词。例如,设备可将音频1200转换为音频数据,并且利用唤醒词检测模块1201处理该音频数据以确定是否检测到人类声音,并且如果是,则确定包括人类声音的音频数据是否匹配对应于特定关键词的音频签名和/或模型。

用户设备可使用各种技术来确定音频数据是否包括人类声音。一些实施方案可应用语音活动检测(vad)技术。此类技术可基于音频输入的各种定量方面来确定在音频输入中是否存在人类声音,这些定量方面诸如:音频输入的一个或多个帧之间的频谱斜率;音频输入在一个或多个频谱带中的能量水平;音频输入在一个或多个频谱带中的信噪比;或其他定量方面。在其他实施方案中,用户设备可实现被配置为将人类声音与背景噪声区分开的有限分类器。可通过诸如线性分类器、支持向量机和决策树的技术来实现该分类器。在其他实施方案中,可应用隐马尔可夫模型(hmm)或高斯混合模型(gmm)技术将音频输入与人类声音存储装置中的一个或多个声学模型进行比较,该声学模型可包括对应于人类声音、噪声(诸如环境噪声或背景噪声)或静音的模型。还可使用其他技术来确定音频输入中是否存在人类声音。

一旦在用户设备接收的音频中检测到人类声音(或与人类声音检测分开),则用户设备可使用唤醒词检测模块1201来执行唤醒词检测,以确定用户何时打算向用户设备说出命令。该过程也可称为关键词检测,其中唤醒词是关键词的具体示例。具体地,可在不执行语言分析、文本分析或语义分析的情况下执行关键词检测。取而代之的是,分析传入音频(或音频数据)以确定音频的具体特性是否匹预先配置的声波波形、音频签名或其他数据,从而确定传入音频是否“匹配”对应于关键词的已存储音频数据。

因此,唤醒词检测模块1201可将音频数据与已存储模型或数据进行比较以检测唤醒词。用于唤醒词检测的一种方法是应用通用大词汇表连续语音识别(lvcsr)系统来解码音频信号,同时在生成的词格或混淆网络中进行唤醒词搜索。lvcsr解码可能需要相对高的计算资源。用于唤醒词发现的另一种方法分别为每个关键唤醒词和非唤醒词语音信号建立隐马尔可夫模型(hmm)。非唤醒词语音包括其他口头字词、背景噪声等。可建立一个或多个hmm来建模非唤醒词语音特性,被称为填充模型。使用viterbi解码来搜索解码图中的最佳路径,并对解码输出进行进一步处理以决定是否存在关键词。通过合并混合dnn-hmm解码框架,可将该方法扩展为包括判别信息。在另一个实施方案中,可在不涉及hmm的情况下直接在深度神经网络(dnn)/递归神经网络(rnn)结构上构建唤醒词发现系统。这样的系统可通过在用于dnn的上下文窗口内堆叠帧或使用rnn来估计具有上下文信息的唤醒词的后验。应用后续后验阈值调整或平滑来进行决策。也可使用其他用于唤醒词检测的技术,诸如本领域已知的那些技术。

一旦检测到唤醒词,本地设备102就可“唤醒”并开始将对应于输入音频1200的音频数据1202传输到远程系统120以进行语音处理。可将对应于该音频的音频数据发送到远程系统120以路由到接收方设备,或者可将其发送到远程系统120以进行语音处理,来解读所包含的语音(出于启用语音消息的目的和/或出于执行该语音中的命令的目的)。音频数据1202可包括对应于唤醒词的数据,或者可在发送之前由本地设备102移除音频数据的对应于唤醒词的一部分。此外,本地设备可在检测到阈值以上的语音/口头音频时“唤醒”,如本文所述。在被远程系统120接收后,asr模块152可将音频数据1202转换为文本。asr将音频数据转录为表示包含在音频数据1202中的语音的字词的文本数据。然后,其他部件可将该文本数据用于各种目的,诸如执行系统命令,输入数据等。将音频数据中的口头话语输入到被配置为执行asr的处理器,asr随后基于该话语和在asr模型知识库(asr模型存储装置1252)中存储的预先建立的语言模型1254之间的相似性来解读该话语。例如,asr过程可将输入音频数据与声音(例如,子词单位或音素)和声音序列的模型进行比较,以识别匹配在音频数据的话语中说出的声音序列的字词。

可用来解读口头话语的不同方式(即,不同的假设)可各自被分配概率或置信度分数,其表示特定的一组字词与该话语中说出的字词匹配的可能性。置信度分数可基于许多因素,包括例如话语中的声音与语言声音的模型(例如,存储在asr模型存储装置1252中的声学模型1253)的相似性,以及与该声音匹配的特定字词将被包括在句子中的特定位置处(例如,使用语言或语法模型)的可能性。因此,口头话语的每个潜在的文本解读(假设)都与置信度分数相关联。基于所考虑的因素和所分配的置信度分数,asr过程152输出在音频数据中识别出的最有可能的文本。asr过程还可采用词格或n-best列表的形式输出多个假设,每个假设对应于一个置信度分数或其他分数(例如概率分数等)。

执行asr处理的一个或多个设备可包括声学前端(afe)1256和语音识别引擎1258。声学前端(afe)1256将来自麦克风的音频数据转换为用于由语音识别引擎1258处理的数据。语音识别引擎1258将语音识别数据与声学模型1253、语言模型1254和用于识别在音频数据中传达的语音的信息的其他数据模型进行比较。afe1256可减少音频数据中的噪声,并将数字化的音频数据划分为表示时间间隔的帧,afe1256根据这些时间间隔来确定表示音频数据的质量的多个值(称为特征),以及这些值的集合(称为特征向量),其表示音频数据在帧内的特征/质量。如本领域中已知的,可确定许多不同的特征,并且每个特征表示音频的对于asr处理可能有用的某种质量。afe可使用多种方法来处理音频数据,例如梅尔频率倒谱系数(mfcc)、感知线性预测(plp)技术、神经网络特征向量技术、线性判别分析、半绑定协方差矩阵,或本领域技术人员已知的其他方法。

语音识别引擎1258可参考语音/模型存储装置(1252)中存储的信息来处理来自afe1256的输出。另选地,执行asr处理的设备可从内部afe之外的另一源接收前端处理后的数据(诸如特征向量)。例如,用户设备可将音频数据处理为特征向量(例如,使用设备上的afe1256),并将该信息通过网络传输到服务器以进行asr处理。特征向量可能经过编码后到达远程系统120,在这种情况下,特征向量可能会在被执行语音识别引擎1258的处理器处理之前被解码。

语音识别引擎1258尝试将接收到的特征向量与如在已存储声学模型1253和语言模型1254中已知的语言音素和字词进行匹配。语音识别引擎1258基于声学信息和语言信息来计算特征向量的识别分数。声学信息用于计算声学分数,该声学分数表示由一组特征向量表示的预期声音与语言音素匹配的可能性。语言信息用于通过考虑哪些声音和/或字词在上下文中彼此一起使用来调整声学分数,从而提高asr处理将输出语法上有意义的语音结果的可能性。所使用的特定模型可以是通用模型,或者可以是对应于特定域的模型,诸如音乐、银行业等。举例来说,用户话语可以是“alexa,播放歌曲a”或“alexa,在电视上播放电影b。”唤醒检测模块可在用户话语中识别唤醒词(原本被描述为触发表达)“alexa”,并且可以基于识别该唤醒词来“唤醒”。可将对应于用户话语的音频数据发送到远程系统120,在该远程系统,语音识别引擎1258可识别、确定和/或生成对应于用户话语的文本数据,这里是“播放歌曲a”或者“在电视上播放电影b。”

语音识别引擎1258可使用多种技术来将特征向量与音素进行匹配,例如,使用隐马尔可夫模型(hmm)来确定特征向量可与音素匹配的概率。接收到的声音可表示为hmm状态之间的路径,并且多个路径可表示同一声音的多个可能的文本匹配项。

在asr处理之后,语音识别引擎1258可将asr结果发送到其他处理部件,这些部件对于执行asr的设备可能是本地的和/或分布在整个网络中。例如,可将语音的单个文本表示、包括多个假设和相应分数的n-best列表、词格等形式的asr结果发送到远程系统120,用于自然语言理解(nlu)处理,诸如将文本转换为命令以便由用户设备、远程系统120或另一设备(诸如运行特定应用程序诸如搜索引擎的服务器等)执行。

执行nlu处理154的设备(例如,服务器120)可包括各种部件,包括潜在的专用处理器、存储器、存储器等。如图12所示,nlu部件154可包括识别器1263,该识别器包括命名实体识别(ner)模块1262,该模块用于识别查询文本的对应于系统能够识别的命名实体的部分。称为命名实体解析的下游过程将文本部分链接到系统已知的特定实体。为了执行命名实体解析,系统可利用存储在实体库存储装置1282中的地名词典信息(1284a-1284n)。地名词典信息可用于实体解析,例如将asr结果与不同的实体(诸如语音使能设备附件设备等)匹配。地名词典可链接到用户(例如,特定的地名词典可与特定用户的设备关联相关联)),可链接到某些域(例如音乐、购物等),也可采用各种其他方式进行组织。

通常,nlu过程采用文本输入(诸如基于话语输入音频1200从asr152处理的文本输入),并且尝试对文本进行语义解读。也就是说,nlu过程基于各个字词确定文本背后的含义,然后实现该含义。nlu处理154解读文本串,以从用户中得出意图或期望的动作以及文本中的允许设备(例如,设备102)完成该动作的相关信息。例如,如果使用asr152处理了口头话语并且输出了文本“播放乐曲a”,则nlu过程可确定用户打算使对应于歌曲a的音频经由语音使能设备输出。

nlu可处理与相同话语相关的多个文本输入。例如,如果asr152输出n个文本片段(作为n-best列表的一部分),则nlu可处理所有n个输出以获得nlu结果。

如将在下面进一步讨论的,nlu过程可被配置为在nlu处理的过程中解析和标记以注释文本。例如,对于文本“播放歌曲a”,“播放”可被标记为命令(用于输出音频),并且“歌曲a”可被标记为要输出的音频的标识。

为了正确地执行对语音输入的nlu处理,nlu过程154可被配置为确定话语的“域”,以便确定并缩小由端点设备(例如,远程系统120或用户设备)提供的哪些服务可能是相关的。例如,端点设备可提供与和电话服务、联系人列表服务、日历/日程安排服务、音乐播放器服务等的交互有关的服务。单个文本查询中的字词可能意味着多于一项服务,并且一些服务可在功能上存在联系(例如,电话服务和日历服务都可使用联系人列表中的数据)。

命名实体识别(ner)模块1262接收asr结果形式的查询,并且尝试识别可用于理解含义的相关语法和词汇信息。为此,nlu模块154可在一开始识别可能与所接收的查询有关的潜在域。nlu存储装置1273包括识别与特定设备相关联的域的设备数据库(1274a-1274n)。例如,用户设备可与音乐、电话、日历、联系人列表和特定于设备的消息的域相关联,而不与视频相关联。另外,实体库可包括关于特定设备上的特定服务的数据库条目,这些条目可按设备id、用户id或家庭id或某些其他指标来索引。

在nlu处理中,域可表示具有共同主题的活动的离散集,诸如“购物”、“音乐”、“日历”等。这样,每个域可与特定的识别器1263、语言模型和/或语法数据库(1276a-1276n)、特定的一组意图/动作(1278a-1278n)以及特定的个性化词典(1286)相关联。每个地名词典(1284a-1284n)可包括与特定用户和/或设备相关联的域索引词汇信息。例如,地名词典a(1284a)包括域索引词汇信息1286aa至1286an。用户的联系人列表词汇信息可能包括联系人的姓名。由于每个用户的联系人列表很可能各不相同,因此该个性化信息将改善实体解析。

如上所述,在传统的nlu处理中,可应用适用于每个识别的域的规则、模型和信息来处理查询。例如,如果查询潜在地牵涉消息和例如音乐两者,则可使用用于消息的语法模型和词汇信息对该查询进行基本上并行的nlu处理,并且将使用用于音乐的语法模型和词汇信息对该查询进行处理。对基于按每组模型产生的查询的响应进行评分,通常将来自所有已应用的域的总最高排名结果选为正确结果。

意图分类(ic)模块1264解析查询以确定针对每个识别的域的一个或多个意图,其中意图对应于将响应于该查询而执行的动作。每个域都与链接到意图的字词数据库(1278a-1278n)相关联。例如,音乐意图数据库可将诸如“安静”、“音量减小”和“静音”的字词和短语链接到“静音”意图。又如,计时器意图数据库可将诸如“设置”、“开始”、“启动”和“启用”的字词和短语链接到“设置计时器”意图。同时,语音消息意图数据库可链接诸如“发送消息”、“发送语音消息”、“发送以下内容”之类的字词和短语。ic模块1264通过将查询中的字词与意图数据库1278中的字词和短语进行比较来识别针对每个已识别域的潜在意图。在一些情况下,使用针对输入文本进行处理以识别匹配意图的一组规则或模板来执行ic模块1264对意图的确定。

为了生成特别解读的响应,ner1262应用与相应域相关联的语法模型和词汇信息来实际地识别查询文本中对一个或多个实体的提及。以此方式,ner1262识别出以后的命令处理可能需要的“槽(slot)”或值(即,查询文本中的特定字词)。根据ner1262的复杂性,它还可按照具有不同特异性的类型(诸如名词、地点、城市、艺术家姓名、歌曲名称、时间长短、计时器编号等)来标记每个槽。每个语法模型1276包括通常在语音中关于特定域(即通用术语)常见的实体的名称(即名词),而来自地名词典1284的词汇信息1286则根据用户和/或设备而个性化。例如,与购物域相关联的语法模型可包括人们讨论购物时常用的字词的数据库。

将ic模块1264所识别的意图链接到特定于域的语法框架(包括在1276中),用值来填充“槽”或“字段”。每个槽/字段对应于查询文本的被系统认为对应于实体的一部分。为了使解析更加灵活,通常不会将这些框架构造为句子,而是基于将槽与语法标签相关联。例如,如果“播放歌曲a”是所识别的意图,则一个或多个语法(1276)框架可对应于诸如“播放{歌曲a}”的句子结构。

例如,在识别命名实体之前,ner模块1262可基于语法规则和/或模型来解析查询以将字词识别为主语、宾语、动词、介词等。所识别的动词可由ic模块1264用于识别意图,然后该意图由ner模块1262用来识别框架。同时,用于“播放歌曲”意图的框架可指定适用于播放所识别的“歌曲”的槽/字段的列表以及任何对象修饰语(例如,指定应从中访问该歌曲的音乐收藏)等。ner模块1262然后搜索特定于域的个性化词典中的对应字段,尝试将查询中的标记为语法对象或对象修饰语的字词和短语与在数据库中识别的字词和短语进行匹配。

此过程包括语义标记,即根据字词的类型/语义含义对字词或字词组合进行标记。可使用启发式语法规则来执行解析,或者可使用诸如隐马尔可夫模型、最大熵模型、对数线性模型、条件随机场(crf)等之类的技术来构建ner模型。

然后,链接到意图的框架用于确定应搜索哪些数据库字段来确定这些短语的含义,诸如在用户的地名词典中搜索与框架槽的相似性。如果对地名词典的搜索没有使用地名词典信息来解析槽/字段,则ner模块1262可搜索与域相关联的通用字词的数据库(在知识库1272中)。因此,例如,如果查询是“播放歌曲a”,则在未能确定要播放哪首歌曲之后,ner部件1262可在域词汇表中搜索短语“歌曲a”。另选地,可在地名词典信息之前检查通用字词,或者可尝试这两者,从而潜在地产生两个不同的结果。

然后可将来自nlu处理的输出数据(可能包括标记的文本、命令等)发送到命令处理器1207。可基于nlu输出来确定目的地命令处理器1207。例如,如果nlu输出包括发送消息的命令,则目的地命令处理器1207可以是被配置为执行消息发送命令的消息发送应用程序,诸如位于用户设备上或消息发送器具中的消息发送应用程序。如果nlu输出包括搜索请求,则目的地命令处理器1207可包括被配置为执行搜索命令的搜索引擎处理器,诸如位于搜索服务器上的搜索引擎处理器。在基于用户的意图生成了适当的命令之后,命令处理器1207可将这些信息中的一些或全部提供给文本到语音转换(tts)引擎158。然后,tts引擎158可生成实际音频文件以用于输出由命令处理器1207确定的音频数据(例如,“成功链接账户”或“再次尝试您的请求”)。在生成文件(或“音频数据”)之后,tts引擎158可将该数据提供回远程系统120。

现有系统的nlu操作可采用多域架构的形式。每个域(可包括一组意图和实体槽,它们定义了一个较大的概念诸如音乐、书籍等,以及用于执行各种nlu操作诸如ner、ic等的部件,诸如受训练的模型等)可被单独构造并且在对文本(诸如从asr部件152输出的文本)执行nlu操作的情况下的运行时操作期间可供nlu部件154使用。每个域可具有经过特殊配置以执行nlu操作的各步骤的部件。

例如,在nlu系统中,该系统可包括由多个域组成的多域体系结构,这些域用于该系统(或由连接到该系统的其他设备)可执行的意图/命令,诸如音乐、视频、书籍和信息。该系统可包括多个域识别器,其中每个域可包括其自己的识别器1263。每个识别器可包括各种nlu部件诸如ner部件1262、ic模块1264和其他部件,诸如实体解析器或其他部件。

例如,消息传递域识别器1263-a(域a)可具有ner部件1262-a,该ner部件识别哪些槽(即,输入文本的部分)可对应于与该域相关的特定字词。该字词可对应于诸如(对于消息传递域)接收者之类的实体。ner部件1262可使用机器学习模型,诸如特定于域的条件随机场(crf),以识别对应于实体的部分以及识别哪种类型的实体对应于该文本部分。消息传递域识别器1263-a也可具有其自己的意图分类(ic)部件1264-a,该ic部件确定文本的意图,假定文本在被禁止的域内。ic部件可使用模型(诸如特定于域的最大熵分类器)来识别文本的意图,其中该意图是用户希望系统执行的动作。为此,远程系统计算设备120可包括模型训练部件。该模型训练部件可用于训练上面讨论的分类器/机器学习模型。

如上所述,可在单个语音处理系统中采用多个设备。在这样的多设备系统中,每个设备可包括用于执行语音处理的不同方面的不同部件。所述多个设备可包括重叠的部件。如本文所示,用户设备和远程系统120的部件是示例性的,并且可位于独立设备中,或者可作为更大设备或系统的部件整体或部分地包括在内,可分布在网络上或通过网络连接的多个设备上等。

图13示出了将音频输出命令与多个设备相关联的语音处理系统120的部件的概念图,其中包括命令处理器1207,该命令处理器被配置为生成所选择的语音使能设备用来响应用户话语的命令。如参照图12所使用的,语音使能设备可包括诸如参照图1b描述的语音使能设备102。如图12所示,语音处理系统120可耦接到目标确定部件1334,并向目标确定部件1334提供被确定为在用户话语中表达的意图;该语音处理系统包括编排部件1324,该编排部件包括asr部件152和nlu部件154。此外,仲裁部件1330可将设备的排名列表提供给目标确定部件1334,以及该设备排名列表中的一个或多个语音使能设备的设备指示符(例如,ip地址、设备名称等)。目标确定部件1334然后可执行确定目标设备(例如,执行所请求的操作的设备)的技术,并将各种数据提供给命令处理器1207。例如,目标确定部件1334可向命令处理器1207提供语音使能设备的各种设备标识、所确定的目标设备、所确定的意图和/或命令等。

命令处理器1207和/或nlu部件154可基于该意图来确定域,以及基于该确定,将对应于音频数据的请求路由到适当的域语音小部件,诸如所示的域语音小部件156。域语音小部件156可包括任何类型的设备或设备组(例如,硬件设备、虚拟设备或分区、服务器等),并且可接收与音频信号相关联的文本数据和/或意图,并且可确定如何响应该请求。例如,关于命令“播放歌曲a”的意图可被路由到音乐域语音小部件156,该域语音小部件控制指令数据的生成,以用于将指令数据发送到语音使能设备以输出对应于歌曲的音频。

各种类型的域语音小部件156可用于确定响应于用户话语来向哪个设备发送命令和/或使用哪个设备,以及适当的响应和潜在的附加内容(例如,音频数据)。例如,域语音小部件156可包括:第三方技能域语音小部件156,其可处理与游戏、生产力等相关联的意图;音乐域语音小部件156,其可处理与音乐播放请求相关联的意图(例如,amazonmusic、pandora、spotify、iheart等);和/或信息域语音小部件156,其可处理对与特定设备的状态和/或正在被利用的内容和/或特定设备和/或设备组信息的输出相关联的信息的请求。

在域语音小部件156基于用户的意图生成适当的命令(在此可将其描述为指令数据)和/或提供将由语音使能设备之一输出的附加内容诸如音频数据之后,语音小域156可将该信息提供回语音系统120,该语音系统继而将部分或全部此信息提供给文本到语音转换(tts)引擎158。然后,tts引擎158生成实际的音频文件以用于输出由域语音小部件156确定的第二音频数据。在生成文件(或“音频数据”)之后,tts引擎158可将该数据提供回语音系统120。

然后,语音系统120可将这些信息中的一些或全部发布(即,写入)到事件总线1346。即,语音系统120可向事件总线1346提供关于初始请求的信息(例如,语音、文本、域/意图等),要提供给语音使能设备的响应,或与语音使能设备和语音处理系统120之间的交互相关的任何其他信息。

在语音处理系统120内,一个或多个部件或服务可订阅事件总线1346,以便接收有关用户设备与语音处理系统120之间的交互的信息。例如,在所示的示例中,设备管理部件1348可订阅事件总线1346,因此可监视有关这些交互的信息。在一些示例中,事件总线1346中的监视信息可包括语音处理系统120的各个部件之间的消息。例如,目标确定部件1334可监视事件总线1346以识别关于语音使能设备的设备状态数据。在一些示例中,事件总线1346可将对事件和/或设备状态数据的指示“推送”或发送到目标确定部件1334。附加地或另选地,事件总线1346可被“拉动”,其中目标确定部件1334将请求发送到事件总线1346,以提供对语音使能设备的设备状态数据的指示。事件总线1346可存储针对设备的设备状态的指示,诸如在数据库(例如,用户注册表148)中存储,并且使用所存储的设备状态的指示,将关于语音使能设备的设备状态数据发送到目标确定部件1334。因此,为了识别设备的设备状态数据,目标确定部件1334可向事件总线1346(例如,事件部件)发送请求,使其提供与设备相关联的设备状态数据的指示,并从事件总线1346接收所请求的设备状态数据。

设备管理部件1348用于监视发布到事件总线1346的信息,并且识别可触发动作的事件。例如,设备管理部件1348可识别(例如,经由过滤)以下事件:(i)来自与辅助设备相关联的语音使能设备(例如,在其环境中具有辅助设备,诸如电视、个人计算设备、附件设备等),以及(ii)与补充内容(例如,图像数据、视频数据等)相关联。设备管理部件1348可参考用户注册表148以确定哪些语音使能设备与辅助设备相关联,以及确定这些辅助设备的设备类型、状态和其他能力。例如,设备管理部件1348可从发布到事件总线1346的信息中确定与作出对应请求的语音使能设备或者被选择为响应用户话语或按照用户话语来操作的语音使能设备相关联的标识。设备管理部件1348可使用该标识从用户注册表148中识别与语音使能设备相关联的用户账户。设备管理部件1348还可确定任何辅助设备是否已向所识别的用户账户注册,以及任何此类辅助设备的功能,诸如辅助设备被配置为如何进行通信(例如,经由wifi、短距离无线连接等),设备能够输出的内容的类型(例如,音频、视频、静止图像、闪光灯等)等。

设备管理部件1348可确定所识别的特定事件是否与补充内容相关联。即,设备管理部件1348可将有关哪些类型的事件和/或哪些主要内容或响应与补充内容相关联的指示写入数据存储库。在一些情况下,语音处理系统120可授予第三方开发者访问权限,以允许开发者注册补充内容以用于在针对特定事件和/或主要内容的辅助设备上输出。例如,如果语音使能设备要输出天气将包括打雷和闪电,则设备管理部件1348可存储补充内容诸如雷声、闪电的图片/动画等的指示。又如,如果语音使能设备正在输出有关特定事实的信息(例如,“蓝鲸是地球上最大的哺乳动物……”),则辅助设备(诸如电视)可被配置为提供补充内容,诸如蓝鲸的视频或图片。又如,如果语音使能设备正在输出音频,则第二设备(诸如扬声器)可被配置为还至少部分地基于表示将辅助设备添加到该音频会话的请求的用户话语来输出该音频。在这些和其他示例中,设备管理部件1348可存储主要响应或内容(例如,输出有关世界上最大的哺乳动物的信息)和对应的补充内容(例如,音频数据、图像数据等)之间的关联。在某些情况下,设备管理部件1348还可指示哪些类型的辅助设备要输出哪些补充内容。例如,在本示例中,设备管理部件1348可存储以下指示:类别类型为“平板电脑”的辅助设备将要输出蓝鲸的图片。在这些和其他情况下,设备管理部件1348同时可与辅助设备功能相关联地存储补充内容(例如,具有扬声器的设备输出副音轨,具有屏幕的设备输出图像等)。

设备管理部件1348还可确定如何向语音使能设备和/或辅助设备传输响应和/或补充内容(和/或获取内容的信息)。为了作出该确定,设备管理部件1348可确定语音使能设备和/或辅助设备的设备类型、设备的能力等,如潜在地存储在用户注册表148中的那样。在一些情况下,设备管理部件1348可确定特定设备能够与语音处理系统120直接通信(例如,通过wifi),因此设备管理部件1348可直接通过网络122向辅助设备提供响应和/或内容(可能经由语音系统120)。又如,设备管理部件1348可确定特定的辅助设备不能与语音处理系统120直接通信,而是被配置为通过短距离无线网络与在其环境中的语音使能设备通信。这样,设备管理部件1348可将补充内容(或信息)提供给语音系统120,该语音系统120继而可将该补充内容(或信息)发送到语音使能设备,该语音使能设备可通过短距离网络将该信息发送到辅助设备。

计算机可读介质146还可包括用户注册表148,该用户注册表如本文所述包括关于用户配置文件的数据。用户注册表148可定位成语音处理系统120的一部分或定位在该语音处理系统附近,或者可例如通过网络122与各种部件传送消息。用户注册表148可包括与和语音使能设备以及语音处理系统120交互的各个用户、账户等有关的各种信息。为了说明,用户注册表148可包括关于与特定个体用户配置文件相关联的设备的数据。这样的数据可包括用于不同设备的用户或设备标识(id)和互联网协议(ip)地址信息,以及用户可用来引用设备的名称。还可列出描述设备的其他修饰词以及对设备的对象的类型的描述。此外,用户注册表148可存储各种语音使能设备和/或辅助设备之间的关联的指示,诸如设备的虚拟集群、设备的状态以及设备与音频会话队列之间的关联。用户注册表148可表示设备的群集和/或作为可接收命令并且将命令散布到每个设备和/或在群集中散布命令的单个设备。在一些示例中,设备的虚拟集群可被表示为被确定为能够或不能够(例如,离线)执行用户话语中的命令的单个设备。设备的虚拟群集通常可对应于所存储的设备分组,或所存储的一组设备之间的关联。

在一些示例中,与用户账户相关联的设备的设备状态可指示该设备的当前状态。这样,命令处理器1207和/或域语音小部件156可基于用户注册表148中的已存储设备状态来确定语音使能设备的当前设备状态。不同于接收语音使能设备的设备状态,在元数据中,设备状态可能已经确定或者被接收并存储在用户注册表148中。此外,用户注册表148可根据用户来提供各种许可等级的指示。例如,语音系统120可对音频信号执行说话者识别以确定说话者的身份。例如,如果说话者是儿童,则儿童配置文件可能具有权限约束,例如,他们无法请求经由某些设备输出音频和/或无法在一个或多个设备上输出某些音频。相反,家长配置文件可能能够不受约束地管理音频的输出。

在一些示例中,为了确定设备状态,事件总线1346可发布不同的事件,这些事件向订阅事件总线1346的各种实体或部件指示设备状态。例如,如果对于语音使能设备发生“播放歌曲a”事件,则事件总线1346可发布该事件的指示,因此可确定从其接收该音频数据的语音使能设备的设备状态。因此,可经由事件总线1346向诸如目标确定部件1334的各种部件提供各种设备状态的指示。事件总线1346还可在用户注册表148中存储和/或更新语音使能设备的设备状态。语音处理系统120的部件可查询用户注册表148以确定设备状态。

特定的用户配置文件可包括系统120可使用的各种数据。例如,用户配置文件可包括关于哪些语音使能设备与用户和/或用户配置文件相关联的信息。用户配置文件可进一步指示与该用户和/或用户配置文件相关联的每个设备的ip地址、设备的用户id、设备的类型的指示和设备的当前设备状态。

可基于下述条款描述本公开的实施方案。

1.一种系统,包括:一个或多个处理器;以及存储计算机可执行指令的计算机可读介质,当被所述一个或多个处理器执行时,所述计算机可执行指令使所述一个或多个处理器执行以下操作:从语音使能设备接收第一音频数据,所述第一音频数据表示请求动作的执行的第一用户话语,所述语音使能设备与第一账户相关联;确定用于执行所述动作的资源与所述第一账户无关联;向所述语音使能设备发送指令,以经由所述语音使能设备的扬声器输出音频,所述音频表示对电话号码的请求;从所述语音使能设备接收第二音频数据,所述第二音频数据表示包括所述电话号码的第二用户话语;从所述语音使能设备接收所述语音使能设备的设备标识;生成与第二请求相关联的消息,所述第二请求是提供与和提供了所述第一用户话语的用户相关联的第二账户相关联的认证信息;将所述消息发送到与所述电话号码相关联的个人设备;从所述个人设备接收认证数据,所述认证数据识别所述第二账户并且认证对所述第二账户的访问;以及将对应于所述第二账户的账户标识与所述语音使能设备的所述设备标识相关联。

2.根据条款1所述的系统,其中所述消息包括第一消息,并且所述操作还包括:向所述个人设备发送与第三请求相关联的第二消息,所述第三请求是关于何时将所述账户标识与所述设备解除关联的指示;从所述个人设备接收所述指示;从所述指示确定时间段;以及在所述时间段过去时,将所述账户标识与所述设备标识解除关联。

3.根据条款1或2所述的系统,其中所述指令包括第一指令,并且所述操作还包括:从所述语音使能设备接收第三音频数据,所述第三音频数据表示请求所述动作的执行的第三用户话语;确定在所述账户标识与所述设备标识相关联时的时间段期间接收到所述第三音频数据;将所述第三音频数据与所述账户标识关联;确定可经由所述第二账户访问所述资源;以及使所述动作执行。

4.根据条款1、2或3所述的系统,其中所述设备标识包括第一设备标识,并且所述操作还包括:识别与所述语音使能设备的环境相关联的附件设备;识别与所述附件设备相关联的第二设备标识;以及至少部分地基于将所述账户标识与所述第一设备标识相关联来将所述账户标识与所述第二设备标识相关联。

5.一种方法,包括:从语音使能设备接收音频数据,所述音频数据表示包括联系信息的用户话语;从所述语音使能设备接收所述语音使能设备的设备标识;生成加密的设备标识;生成与可选链接相关联并且包括所述加密的设备标识的代码对;至少部分地基于所述代码对来生成与请求相关联的消息,所述请求是提供与用户账户相关联的认证信息;将所述消息发送到与所述联系信息相关联的个人设备;从所述个人设备接收认证数据,所述认证数据认证经由所述可选链接对所述用户账户的访问;以及至少部分地基于接收到所述认证数据,使所述用户账户的账户标识与所述语音使能设备的所述设备标识相关联。

6.根据条款5所述的方法,其中所述消息包括第一消息,所述请求包括第一请求,并且所述方法还包括:向所述个人设备发送与第二请求相关联的第二消息,所述第二请求是关于何时将所述账户标识与所述设备标识解除关联的指示;从所述个人设备接收所述指示;至少部分地基于所述指示来确定时间段;以及至少部分地基于所述时间段过去来将所述账户标识与所述设备标识解除关联。

7.根据条款5或6所述的方法,其中所述音频数据包括第一音频数据,所述用户话语包括第一用户话语,并且所述方法还包括:从所述语音使能设备接收第二音频数据,所述第二音频数据表示请求所述语音使能设备执行动作的第二用户话语;确定当所述用户账户与所述设备标识相关联时接收到所述第二音频数据;确定用于执行所述动作的资源与所述用户账户相关联;以及使所述动作执行。

8.根据条款5、6或7所述的方法,其中接收所述认证数据包括至少部分地基于以下操作来接收所述认证数据:向驻留在所述个人设备上并与所述语音使能设备相关联的应用程序发送指令,所述指令请求如存储在与所述应用程序相关联的存储器中的所述认证数据;以及从所述应用程序接收所述认证数据。

9.根据条款5、6、7或8所述的方法,还包括:经由与所述语音使能设备相关联的默认账户接收指示偏好设置的偏好数据,所述偏好实现暂时账户标识关联,并且其中使所述账户标识与所述设备标识相关联至少部分地基于所述偏好数据。

10.根据条款5、6、7、8或9所述的方法,其中所述设备标识包括第一设备标识,并且所述方法还包括:识别与所述语音使能设备的环境相关联的附件设备;识别与所述附件设备相关联的第二设备标识;以及至少部分地基于将所述账户标识与所述第一设备标识相关联来将所述账户标识与所述第二设备标识相关联。

11.根据条款5、6、7、8、9或10所述的方法,其中所述音频数据包括第一音频数据,并且所述方法还包括:从所述语音使能设备接收第二音频数据,所述第二音频数据表示将所述用户账户与所述语音使能设备相关联的第一请求;以及向所述语音使能设备发送指令,以使所述语音使能设备经由所述语音使能设备的扬声器输出音频,所述音频表示提供联系信息的第二请求,其中至少部分地基于所述第二请求来接收所述第一音频数据。

12.根据条款5、6、7、8、9、10或11所述的方法,其中所述音频数据包括第一音频数据,所述用户话语包括第一用户话语,所述用户账户包括第一用户账户,并且所述方法还包括:确定所述账户标识将与所述设备标识相关联的时间段;在所述时间段期间接收第二音频数据,所述第二音频数据表示请求所述语音使能设备执行所述动作的第二用户话语;确定用于执行所述动作的资源与所述第一用户账户无关联;确定所述资源可经由与所述语音使能设备相关联的默认用户账户供使用;以及至少部分地基于确定所述资源与所述第一用户账户无关联并且与所述默认用户账户相关联来选择所述默认用户账户。

13.一种方法,包括:从语音使能设备接收表示第一用户话语的第一音频数据,所述第一用户话语指示执行动作的请求,所述语音使能设备与默认账户相关联;确定用于执行所述动作的资源与所述账户无关联;至少部分地基于所述音频数据来识别与说出所述第一用户话语的用户相关联的账户标识,所述账户标识先前已经与所述语音使能设备或另一语音使能设备中的至少一者的设备标识相关联;接收确认数据,所述确认数据确认将所述账户标识与所述设备标识相关联的意图;以及至少部分地基于接收到所述确认数据,使所述账户标识与所述语音使能设备的所述设备标识相关联。

14.根据条款13所述的方法,其中所述请求包括第一请求,并且所述方法还包括:向个人设备发送与第二请求相关联的消息,所述第二请求是关于何时将所述账户标识与所述设备标识解除关联的指示;从所述个人设备接收所述指示;至少部分地基于所述指示来确定时间段;以及至少部分地基于所述时间段过去来将所述账户标识与所述设备标识解除关联。

15.根据条款13或14所述的方法,其中所述音频数据包括第一音频数据,所述用户话语包括第一用户话语,并且所述操作还包括:从所述语音使能设备接收第二音频数据,所述第二音频数据表示请求动作的执行的第二用户话语;至少部分地基于当所述账户标识与所述设备标识相关联时接收到所述第二音频数据,将所述第二音频数据与所述账户标识相关联;确定用于执行所述动作的资源与对应于所述账户标识的用户账户相关联;以及使所述动作执行。

16.根据条款13、14或15所述的方法,其中所述音频数据包括第一音频数据,所述用户话语包括第一用户话语,并且识别所述账户标识包括至少部分地基于以下操作来识别所述账户标识:向所述语音使能设备发送指令,所述指令是关于输出请求联系信息的音频;从所述语音使能设备接收第二音频数据,所述第二音频数据表示包括所述联系信息的第二用户话语;以及使用所述联系信息来识别所述账户标识。

17.根据条款13、14、15或16所述的方法,其中识别所述账户标识包括至少部分地基于以下操作来识别所述账户标识:至少部分地基于语音模型来确定与所述用户话语相关联的用户标识;至少部分地基于所述用户标识来识别所述账户标识。

18.根据条款13、14、15、16或17所述的系统,其中所述设备标识包括第一设备标识,并且所述系统还包括:识别与所述设备标识相关联的附件设备;识别与所述附件设备相关联的第二设备标识;以及至少部分地基于将所述账户标识与所述第一设备标识相关联来将所述账户标识与所述第二设备标识相关联。

19.根据条款13、14、15、16、17或18所述的方法,还包括:经由所述默认账户接收指示偏好设置的偏好数据,所述偏好实现暂时账户标识关联,并且其中使所述账户标识与所述设备标识相关联至少部分地基于所述偏好数据。

20.根据条款13、14、15、16、17、18或19所述的方法,其中所述音频数据包括第一音频数据,所述用户话语包括第一用户话语,所述用户账户包括第一用户账户,并且所述方法还包括:确定所述账户标识将与所述设备标识相关联的时间段;在所述时间段期间接收第二音频数据,所述第二音频数据表示请求所述动作的执行的第二用户话语;确定用于执行所述动作的所述资源与和所述账户标识相关联的用户账户无关联;确定所述资源与所述默认账户相关联;以及至少部分地基于确定所述资源与所述用户账户无关联并且与所述默认账户相关联来选择所述默认账户。

21.一种系统,包括:一个或多个处理器;以及存储计算机可执行指令的计算机可读介质,当被所述一个或多个处理器执行时,所述计算机可执行指令使所述一个或多个处理器执行操作,所述操作包括:接收第一指示,所述第一指示表明用户账户的第一账户标识与和环境相关联的语音使能设备的设备标识的暂时关联建立;确定与所述语音使能设备相关联的解除关联事件已经发生,所述解除关联事件表示识别用于维持所述暂时关联的时间段的过去或者从与所述环境相关联的系统接收到所述解除关联事件的第二指示中的至少一者;至少部分地基于确定所述解除关联事件已经发生来将所述第一账户标识与所述设备标识解除关联;以及将对应于默认账户的第二账户标识与所述设备标识相关联。

22.根据条款21所述的系统,所述操作还包括:向与所述用户账户相关联的个人设备发送消息,所述消息请求何时将所述第一账户标识与所述设备标识解除关联的第三指示;以及从所述第三指示确定所述时间段。

23.根据条款21或22所述的系统,所述操作还包括:向与所述环境相关联的所述系统发送对结账离开数据的请求,所述结账离开数据指示与所述环境相关联的结账离开日期和结账离开时间;从所述系统接收所述结账离开数据;以及根据所述结账离开数据确定所述时间段。

24.根据条款21、22或23所述的系统,其中所述解除关联事件包括从酒店房间结账离开,并且所述操作还包括:从与所述环境相关联的所述系统接收表明已经从所述环境结账离开的第三指示,其中所述解除关联事件对应于所述第三指示。

25.一种方法,包括:接收第一指示,所述第一指示表明用户账户的第一账户标识与语音使能设备的设备标识之间的关联建立;至少部分地基于时间段过去或者接收到解除关联事件发生的第二指示中的至少一者来确定所述解除关联事件已经发生;至少部分地基于确定所述解除关联事件已经发生来将所述第一账户标识与所述设备标识解除关联;以及将对应于默认账户的第二账户标识与所述设备标识相关联。

26.根据条款25所述的方法,还包括:向与所述用户账户相关联的个人设备发送消息,所述消息请求何时将所述第一账户标识与所述设备标识解除关联的第三指示;以及从所述第三指示确定所述时间段。

27.根据条款25或26所述的方法,还包括:向远程系统发送请求数据,所述请求数据表示对结账离开数据的请求,所述结账离开数据指示所述第一账户标识将与所述设备标识解除关联的日期或时间中的至少一者;从所述远程系统接收所述结账离开数据;以及至少部分地基于所述结账离开数据来确定所述时间段。

28.根据条款25、26或27所述的方法,其中所述第二指示至少部分地基于从所述语音使能设备所处的所述环境结账离开。

29.根据条款25、26、27或28所述的方法,其中所述时间段包括第一时间段,并且所述方法还包括:从与所述第一账户标识相关联的个人设备接收第三指示,所述第三指示表明所述时间段将延长还是缩短;以及确定维持所述第一账户标识与所述设备标识之间的所述关联的第二时间段,所述第二时间段至少部分地基于所述第三指示。

30.根据条款25、26、27、28或29所述的方法,其中所述时间段包括第一时间段,并且所述方法还包括:从远程系统接收第三指示,所述第三指示表明所述时间段已经延长还是缩短;以及确定维持所述第一账户标识与所述设备标识之间的所述关联的第二时间段,所述第二时间段至少部分地基于所述第三指示。

31.根据条款25、26、27、28、29或30所述的方法,还包括:从所述语音使能设备接收表示用户话语的音频数据;从对应于所述音频数据的文本数据确定意图数据,所述意图数据指示将所述用户账户与所述设备标识解除关联的意图;并且其中确定所述解除关联事件已经发生包括至少部分地基于所述意图数据来确定所述解除关联事件已经发生。

32.根据条款25、26、27、28、29、30或31所述的方法,其中所述时间段包括第一时间段,并且所述方法还包括:从所述语音使能设备或与所述用户账户相关联的个人设备中的至少一者接收输入数据,所述输入数据指示在第二时间段将所述第一账户标识与所述设备标识暂时解除关联的请求;在所述第二时间段将所述第一账户标识与所述设备标识解除关联;以及至少部分地基于所述第二时间段过去来将所述第一账户标识与所述设备标识相关联。

33.一种系统,包括:一个或多个处理器;以及存储计算机可执行指令的计算机可读介质,当被所述一个或多个处理器执行时,所述计算机可执行指令使所述一个或多个处理器执行操作,所述操作包括:接收第一指示,所述第一指示表明用户账户的第一账户标识与语音使能设备的设备标识之间的关联建立;至少部分地基于时间段过去或者接收到解除关联事件发生的第二指示中的至少一者来确定所述解除关联事件已经发生;至少部分地基于确定所述解除关联事件已经发生来将所述第一账户标识与所述设备标识解除关联;以及将对应于默认账户的第二账户标识与所述设备标识相关联。

34.根据条款33所述的系统,所述操作还包括:向与所述用户账户相关联的个人设备发送消息,所述消息请求何时将所述第一账户标识与所述设备标识解除关联的第三指示;以及从所述第三指示确定所述时间段。

35.根据条款33或34所述的系统,所述操作还包括:向远程系统发送请求数据,所述请求数据表示对结账离开数据的请求,所述结账离开数据指示所述第一账户标识将与所述设备标识解除关联的日期或时间中的至少一者;从所述远程系统接收所述结账离开数据;以及至少部分地基于所述结账离开数据来确定所述时间段。

36.根据条款33、34或35所述的系统,所述操作还包括:至少部分地基于将所述第一账户标识与所述设备标识解除关联来生成消息,所述消息包括表明所述第一账户标识已经与所述设备标识解除关联的指示;以及将所述消息发送到与所述用户账户相关联的个人设备。

37.根据条款33、34、35或36所述的系统,所述操作还包括:从与所述语音使能设备所处的环境的出口点相关联的附件设备接收第三指示,所述第三指示表明与所述用户相关联的用户已经离开所述环境;至少部分地基于接收到所述第三指示来使所述第一账户标识与所述设备标识解除关联;从所述附件设备接收第四指示,所述第四指示表明用户在所述时间段期间已经重新进入所述环境;以及至少部分地基于所述第四指示来将所述第一账户标识与所述设备标识相关联。

38.根据条款33、34、35、36或37所述的系统,其中所述时间段包括第一时间段,并且所述操作还包括:从远程系统接收第三指示,所述第三指示表明所述时间段已经延长还是缩短;以及确定维持所述第一账户标识与所述设备标识之间的所述关联的第二时间段,所述第二时间段至少部分地基于所述第三指示。

39.根据条款33、34、35、36、37或38所述的系统,所述操作还包括:从所述语音使能设备接收表示用户话语的音频数据;从对应于所述音频数据的文本数据确定意图数据,所述意图数据指示将所述第一账户标识与所述设备标识解除关联的意图;以及至少部分地基于所述意图数据来确定所述解除关联事件已经发生。

40.根据条款33、34、35、36、37、38或39所述的系统,其中所述时间段包括第一时间段,并且所述操作还包括:从所述语音使能设备或与所述用户账户相关联的个人设备中的至少一者接收输入数据,所述输入数据指示在第二时间段将所述第一账户标识与所述设备标识暂时解除关联的请求;在所述第二时间段将所述第一账户标识与所述设备标识解除关联;以及至少部分地基于所述第二时间段过去来将所述第一账户标识与所述设备标识相关联。

尽管参照特定示例描述了前述发明,但是应当理解,本发明的范围不限于这些特定示例。由于为适应特定的操作要求和环境而改变的其他修改形式和改变形式对本领域的技术人员将是显而易见的,因此本发明不应被认为限于为公开目的而选择的示例,并且本发明涵盖不构成与本发明的真正实质和范围的偏离的全部改变形式和修改形式。

尽管本申请描述了具有特定结构特征和/或方法动作的实施方案,但应当理解,权利要求书不一定限于所描述的特定特征或动作。相反,该特定特征和动作仅举例说明落入本申请的权利要求的范围内的一些实施方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1