专利名称:声音启动的网络操作的制作方法
声音启动的网络操作
祖旦 冃眾
便携式电子设备诸如膝上型计算机、无线电话、个人数字助理、无线设备、 游戏系统和音频播放机已经变得日益普及。用户可使用一或多个这些设备进行 各种活动,诸如通过使用电子邮件、即时消息收发等相互通信。而且,用户可 使用一或多个这些设备通过网络访问各种各样的内容。然而,便携式电子设备 的紧凑尺寸会妨碍用户活动。
例如,紧凑的便携式电子设备不太适于文本输入。另外,当"忙碌"时, 诸如在驾驶或旅行时,将信息输入到便携式电子设备中是困难的、不安全的和 /或不方便的。
概述
描述操作的声音启动,它可用于协助用户在诸如其它输入机制不合乎需 要、不方便或者不能用的时候执行操作。用户向客户机设备提供语音。语音被 转换成文本。文本用于执行操作和获得结果。形成响应以将操作的结果传输至 客户机设备。可用各种方法格式化响应,诸如包括文本以及非文本部分(例如 图形、音频等等)。例如,用户语音可启动由搜索引擎执行的搜索操作。将搜 索结果提供给用户。用户随后使用该搜索结果通过附加的语音来启动进一步的 操作。
提供本概述以简化形式介绍下面在详细描述中进一步描述的一些概念。本 概述不是要标识要求保护主题的关键特征或本质特征,也不应当用于帮助确定 要求保护主题的范围。
附图简述
图1是在示例性实现中可用于使用声音启动的操作的技术的环境的示图。
图2是在示例性实现中更详细地示出图1的示例性客户机和服务的系统的示图。
图3是描绘在示例性实现中执行声音启动的操作并且生成响应的过程的 流程图。
图4是描绘在示例性实现中由语音启动web搜索的过程的流程图。 图5是描绘在另一示例性实现中执行声音启动的操作并生成响应的过程 的流程图。
图6是描绘在示例性实现中使用无线一键通(PoC)会话用于声音启动的 操作的过程的流程图。
图7是描绘在示例性实现中利用声音启动的搜索的结果用于其他声音启 动的操作的过程的流程图。
在讨论中,在实例中使用相同的标号来引用相同的结构与组件。
详细描述 概观
在一些情形中,对计算设备、手持或移动设备进行人工输入(例如用手) 是不方便的、不安全的或者是不可能的。在各种实现中,描述了可用于通过语 音诸如口头命令或词语来启动操作的技术。
例如,用户可向客户机设备诸如移动电话、计算设备、便携式数字助理 (PDA)等提供语音。随后将语音转换成文本。转换得到的文本随后可由服务 使用来基于转换得到的文本执行一或多个操作。构想了各种各样的操作。
例如,可将文本用作搜索项提供给因特网搜索引擎以执行搜索。获得这些 操作的结果。形成包含这些结果的响应,随后将它提供给用户的客户机设备。 可用各种方法提供响应,诸如通过电子邮件、超文本标记语言(HTML)、即 时消息、声音等等来提供。例如,响应于对最近的餐厅的口头请求,可向用户 提供具有地图和餐厅列表的HTML文档。在一实现中,可按照客户机设备的 位置自动提炼操作。因而,对餐厅的搜索可基于客户机设备的位置自动返回五 个最近的餐厅。
在下面的讨论中,首先描述了可用于使用各种技术来提供语音启动的操作 的示例性环境,然后描述可用于示例性环境中以提供语音启动的操作技术以及
其它环境中的示例性过程和用户界面。 示例性环境
图1是在示例性实现中可用于使用声音启动的操作技术的环境100的示
图。环境100例示为包括多个以通信方式耦合至网络104的客户机102(1)、 102(2)、 102(3)...102(N)。在下面讨论中的多个客户机102(1)至102(N)也可被称 为客户机102(n)(其中"n"可以是从一到"N"的任何整数)。这多个客户机 102(n)可用各种方式来配置。例如, 一或多个客户机102(n)可配置为能够通过 网络104通信的计算机,诸如台式计算机、移动站、游戏控制台、娱乐装置、 以通信方式耦合至显示设备的机顶盒、无线电话等等。客户机102(n)也可以是 便携式电子设备,诸如膝上型计算机、移动电话102(2)、个人数字助理(PDA) 102(3)、音频播放器等等。客户机102(n)可配置为通过无线连接、有线连接等 访问网络104。客户机102(n)的范围从具有大量存储器和处理器资源的完全资 源设备(例如,个人计算机、配有硬盘的电视录像机、游戏控制台)到具有有 限存储器和/或处理资源的低资源设备(例如,传统的机顶盒)。在下面的讨论 中,客户机102(n)还可与操作该客户机的人和/或实体相关。换言之,客户机 102(n)可描述包括用户/机器的逻辑客户机。
另外,尽管网络104被例示为因特网,但网络可采取多种多样的配置。例 如,网络104可包括广域网(WAN)、局域网(LAN)、无线网络、公共电 话网络、内联网等等。而且,尽管示出单个网络104,但网络104可配置为包 括多个网络。例如,多个客户机102(n)可通过无线网络耦合以相互通信。这些 客户机中的每一个也可通过因特网以通信方式耦合至图1所示的多个服务 106(s)中的一或多个(其中"s"可以是从一至"S"的任何整数)。也构想了 各种其它示例。
如图1所示,客户机102(n)能够通过网络104访问多个服务106(s)。服务 106(s)可用各种方式来配置。服务106(s)通常通过网络104向客户机102(n)提供 资源(例如,服务和内容)。资源可配置为各种内容,诸如网页、音乐、视频、 图象、用户论坛、模板、插件、网络日志(博客)等等。而且,服务106(s)可 提供作为诸如即时消息收发服务、电子邮件服务、搜索服务、在线购物、金融 服务等服务的资源。客户机可访问服务106(s)以启动各种活动,诸如通信、搜
索、帐户访问、文件管理、消费者活动等等。
多个客户机102(n)中的每一个例示为包括多个通信模块108(n)中的相应之 一。在例示的实现中,多个通信模块108(n)中的每一个能在多个客户机102(n) 中的相应之一上执行以提供多个客户机102(n)之间、客户机102与一或多个服 务106(s)之间以及诸如此类的通信模式。因而,通信模块108(n)表示提供给客 户机102(n)用于通过网络104发送与接收信息、声音数据、消息等等的功能。
例如, 一或多个通信模块108(n)可配置为发送与接收电子邮件。电子邮件 使用用于寻址与路由的标准与约定,使得电子邮件可跨网络104使用多个设备 诸如路由器、其它计算设备(例如电子邮件服务器)等来传递。如此,电子邮 件可在公司内通过内联网传送,使用因特网在全世界传送,等等。例如,电子 邮件可包括首部和用户指定的有效载荷诸如文本与附件,例如文档、计算机可 执行文件等等。首部包含有关源的技术信息并且经常描述消息从发送方到接收 方所采取的路线。
通信模块108(n)也可配置为提供蜂窝网络或无线声音服务。无线声音服务 提供在多个客户机102(n)和/或客户机102(n)与服务106(s)之间传输声音数据的 机制。例如,客户机102(n)可实时或接近实时地将声音数据传输至另一客户机。 因而,多个客户机102(n)可通过无线网络参与对话。客户机102(n)也可将声音 数据传输至一或多个服务106(s)。
而且,通信模块108(n)可配置为提供无线一键通(PoC) (PoC)功能。 PoC是允许在一或多个客户机102(n)和/或服务106之间进行接近立即的通信的 双向通信形式。通信模块108(n)可提供PoC联系人或组的列表,从中选择以启 动PoC会话。客户机102(n)可配备有PoC按钮,在PoC会话期间可压下该按 钮以进行交谈。在整个PoC会话中,进行接收的联系人或组可听到发送者的声 音而无需其做任何动作。因而,PoC与使用"步话机"或内部通话设备相似。 PoC可通过无线声音网络、对等网络、因特网等来实现。尽管PoC的名字表示 "蜂窝网络(cellular)",但PoC可在以各种方式配置的客户机102(n)上使用, 包括移动电话、膝上型计算机、手持设备、台式计算设备等等。例如,PoC会 话可通过因特网在台式计算设备与服务106(n)之间建立。
在另一示例中, 一或多个通信模块108(n)可配置为发送与接收即时消息。
即时消息收发提供这样一种机制在参加即时消息收发会话时,每一客户机 102(n)可相互发送文本消息。即时消息收发也可提供声音即时消息收发功能, 使得声音数据可通过即时消息收发会话来交换。即时消息一般是实时通信的,
尽管也可使用延迟的传递,诸如通过在客户机102(n)之一不可用例如离线时将 文本消息记入日志。因而,即时消息收发可视为电子邮件与因特网聊天的组合, 因为即时消息收发支持消息交换并且被设计为用于双向实况聊天。因此,即时 消息收发可用于同步通信。例如,像声音电话呼叫一样,即时消息收发会话可 实时执行,使得每一用户可在收到即时消息时向每一其他用户响应。
尽管描述了PoC、无线声音服务、即时消息和电子邮件,但通信模式可采 取各种其它配置而不脱离其本质与范围。而且,单独的客户机102(n)(更具体 地是客户机102(n)的通信模块)可配置为提供通信模式的各种不同组合,诸如 提供即时消息收发与无线声音两者。
通信模块108(n)还可提供接收口头命令和与服务106(s)通信的功能。图1 描绘代表使用多个客户机102(n)中的一或多个的各个用户的用户110。用户110 被示为向客户机102(1)提供语音112。语音112表示用户说出的词语,诸如用 户IIO可指定要由服务106(s)执行的操作。语音112由客户机102(1)接收,并 且可由通信模块108(1)通过网络104传输至服务106(s)。如在下面详细描述的, 可将语音112作为声音数据或者作为经过转换的声音数据(例如文本)传输至 服务106。
每一服务106(s)各自包括一或多个操作模块114(s)。操作模块114(s)表示 可用于执行由用户110的语音112指定的一或多个操作的功能。因而,语音112 可用于启动由操作模块114(s)执行的操作。操作模块114(s)还表示格式化响应 116(p)的功能,响应116(p)包含语音112指定的操作的结果。操作模块114(s) 可配置为提供各种操作。可由操作模块114(s)执行的操作包括但不限于搜索、 购买物品、预订服务(例如,餐厅、沙龙、汽车保养等等)、预订旅程、访问 帐户、访问内容、检索存储的内容、下载项目等等。
在一实现中,操作模块114(s)可配置为向客户机102(n)提供响应116(p), 它包括操作模块114(s)执行的操作的结果。响应116(p)可用各种方式配置,诸 如包括各种文本和/或非文本部分(例如,图形消息、音频消息等等)。在有关
图2的说明中可找到对各种响应116(p)的进一步讨论。
在一实现中,服务106(s)可接收语音112作为声音数据。然而,在一些实 例中,操作模块114(s)可能不理解声音数据以执行指定操作。因此,可执行转 化。例如,每一服务106(s)被示为具有相应的转化模块118(s)。转化模块118(s) 表示在声音数据与文本命令之间进行转化以便由配置为执行所需操作的模块 (诸如服务106(s)的操作模块114(s))理解的功能。例如,作为声音数据接收 的语音112可由转化模块118(s)转换成操作模块114(s)能理解的文本。操作模 块114(s)随后使用经过转换的语音(例如文本)来执行由语音112指定的操作。 在一实现中,转化模块118(s)也可配置为将响应116(p)转换成声音数据以便传 输至客户机102(n)。
尽管描述了服务106(s)上转化模块118(s)的执行,但客户机102(n)也可使 用相似的功能。例如,图1将每一客户机102(1)-102(N)示为具有相应的转化模 块118(1)-118(N)。在一实现中,由客户机102(n)接收的语音112可在客户机处 转化成文本。服务106(s),具体是操作模块114(s),随后接收操作模块114(s) 能理解的文本,它指定要执行的操作。而且,提供给客户机102(n)的非听得见 的响应116(p)或其部分可由客户机102(n)转化成语音。在有关图2的说明中可 找到通过转化模块118进行的声音数据转化的进一步讨论。
在一实现中,单个服务106(s)可执行众多操作。例如,用户110可提供语 音112,它使得服务106(s)执行对可用内容诸如网页、视频、音频等的搜索。 用户110可能在先前己经订阅或购买了该内容,或者可能希望购买该内容。内 容也可以是由用户维护的项目,诸如保存在客户机102(n)可通过网络104访问 的存储中。搜索生成被提供给客户机102(n)的列出可用内容的搜索结果。用户 110随后可査看可用内容并且提供附加的语音112以启动附加的操作,诸如将 包含在搜索结果中的内容项目通过流传送至客户机、下载内容、购买内容等等。
或者,可组合地使用多个服务106(s)来执行众多操作。因而,可由相同的 服务106或另一服务106(s)来执行附加的操作。在另一示例中,用户UO可使 用语音112来启动使用多个服务106(s)之一对旅行选项诸如可用航班的搜索。 然后,在收到搜索结果之后,用户110可使用附加的语音来通过多个服务106(s) 中的另一个服务启动预定搜索结果中指示的一个特定航班的操作。在关于图
3-7的说明中可找到响应于语音的操作执行的进一步讨论。
一般而言,在此描述的任何功能可使用软件、固件(例如,固化的逻辑电 路)、人工处理或这些实现的组合来实现。本文使用的术语"模块"和"逻辑" 一般表示软件、固件或软固件的组合。在软件实现的情形中,模块、功能或逻
辑表示程序代码,它在处理器(一或多个CPU)上执行时完成指定的任务。程 序代码可被存储在一或多个计算机可读存储器设备中,在关于图2的说明中可 找到有关其的进一步的描述。下面描述的语音技术的特征是平台无关的,意味 着这些技术可以在具有各种处理器的各种商用计算平台上实现。
图2是在示例性实现中更详细示出图1的示例性客户机102(n)与服务 106(s)的系统200的示图。服务106(s)被例示为由多个服务器202(a)(其中"a" 可以是从一至"A"的任何整数)实现,而客户机102(n)被例示为客户机设备。 服务器202(a)和客户机102(n)各自被例示为具有相应的处理器204(a)、 206(n) 和相应的存储器208(a)、 210(n)。
处理器不受限于形成它们的材料或者其中使用的处理机制。例如,处理器 可由半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样一种上下 文中,处理器可执行指令可以是能以电子方式执行的指令。或者,处理器或用 于处理器的机制,以及计算设备或用于计算设备的机制,可包括但不限于,量 子计算、光计算、机械计算(例如使用纳米技术)等等。另外,尽管分别为服 务器202(a)和客户机102(n)示出单个存储器208(a)、 210(n),但可使用多种多 样的存储器类型和组合,诸如随机存取存储器(RAM)、硬盘存储器、可移动 介质存储器等等。
操作模块114(a)和转化模块118(a)被示为在服务器202(a)的处理器204(a) 上执行。自然地,操作模块114(a)和转化模块118(a)也可在同一服务106(s)内 的不同的相应服务器202上提供,或者在图1所示的多个服务106中的不同服 务内提供。注意,关联于在此描述的各种模块的功能可进一步组合或划分而不 脱离其精神与范围。例如,尽管操作模块114(a)和转化模块118(a)被示为分开 的,但其各自的功能可在单个模块中提供。
转化模块118(a)还示为具有语音转文本模块212和文本转语音模块214。 语音转文本模块212表示将由客户机102(2M乍为语音数据提供的语音112转化
成操作模块114(a)可使用以执行操作的文本的功能。文本转语音模块214表示 将操作的结果(例如响应116(p)或其部分)转化成声音数据(例如可听见的声 音)的功能。文本转语音模块214可配置为将实时可听见的结果传输至客户机 102(n)。或者,文本转语音模块214可生成要保存为能让客户机102(n)访问的 音频记录诸如声音邮件、音频文件等的可听见的结果。
在一实现中, 一或多个服务102(s)可提供声音启动的搜索操作。图2所示 的操作模块114(a)配置为提供搜索操作。搜索引擎216被示为在操作模块114(a) 内的处理器204(a)上执行,并且可存储在存储器208(a)中。搜索引擎216可用 于执行各种搜索。这些包括但不限于一般的web或因特网、个人桌面、视频、 音频、企业、照片和/或本地搜索。这些搜索可基于作为用户IIO提供给客户机 102(n)的语音的关键词。或者,用户110的语音112可标识向搜索引擎216提 供搜索项的已存储的搜索。自然地,搜索操作可与单个操作模块114(a)内的其 它操作组合。换言之,配置为提供搜索的操作模块114(a)不限于提供搜索。
在一实现中,操作模块114(a)包括响应模块218。响应模块218表示形成 包含由服务106(s)执行的操作的结果的响应116(p)的功能。响应116(p)配置为 通过网络104被传输至客户机102(n)。或者,可远程存储结果并且可由客户机 102(n)访问,或者用户IIO可通过客户机102(n)或其它设备访问。当然,响应 116(p)中的结果可以来自单个操作模块114(a)、单个服务106(s)的多个操作、 由多个服务106(s)组合执行的众多操作的聚合等等。
响应116(p)可用各种方式配置。各种响应116(p)被示为在服务器202(a)的 存储器208(a)内的存储220中。响应116(p)可以是组合文本与图形的图形响应。 因而,响应于可听见的输入(例如语音112),用户IIO经由客户机102(n)可 接收其它格式的响应116(p),例如非可听见的响应。或者,用户110可接收组 合了可听见部分和文本与图形部分的响应。因而,响应116(p)可包括文本、图 形、视频、音频等的组合。
例如,如图2所示,可将响应116(p)配置为电子邮件116(1),以及HTML 文档116(2)、即时消息116(3)、视频响应116(4)、计算机可读文件116(5)等等。 而且,各种响应116(p)可单独使用,或者相互组合使用。例如,电子邮件和即 时消息116(3)可被同时返回给客户机102(2)。而且,可形成具有附连的文字处理文件或其它计算机可读文件116(5)的即时消息116(3)。也构想了各种其它组 合。
同样,可听见的响应116(6)也在图2中示出,它可单独使用,或者结合其 它响应116(p)使用。可听见的响应116(6)表示将被提供给客户机102(n)的要由 客户机"收听"的响应或部分响应,例如语音。例如,可响应于由语音112启 动的搜索生成HTML文档116(2)。 HTML响应116(2)被发送至客户机102(n)。 另外,文本转语音模块214可将HTML 116(2)或其部分转换成可听见的语音并 且返回可听见的响应116(6)。可实时或接近实时地返回可听见的响应,例如在 文本转语音模块214转换HTML文档的时候。因而,响应于可听见的输入(例 如语音112),用户IIO通过客户机102(n)可接收全部或部分是可听见的响应 116(6)的响应116(p)。注意,转化或者可在客户机102(n)处进行。因而,客户 机102(n)示为具有相应的转化模块118(n),它可被配置为执行文本转语音与语 音转文本转换两者。
在由搜索引擎216执行搜索的情形中,响应116可包括搜索结果222。多 个搜索结果222(m)被示为在服务器202(a)的存储器208(a)内的存储224中。搜 索结果222(m)可通过搜索引擎216的执行来获得。
操作模块114(a)可配置为以各种方式提炼搜索结果222(m)。操作模块 114(a)可使用有关客户机102(n)或用户110的信息来自动提炼搜索。信息可包 括客户机102(n)的位置、用户IIO的概况、关联于用户IIO的搜索历史、用户 IIO的偏好或爱好等等。信息可由客户机设备102(n)提供给操作模块。或者, 服务106(s)可维护该信息或者诸如从客户机102(n)、从服务106(s)的多个服务 器202(a)之一或从其它服务检索该信息。
例如,搜索结果222(m)可基于进行请求的客户机102(n)的位置进行过滤。 相应地,操作模块114(a)可配置为确定请求搜索的客户机102(n)的位置。例如, 客户机位置可由客户机102(n)与服务106(s)之间的通信中提供的标识符来确 定。标识符可以是关联于客户机设备102(n)的标识符,与路由该通信的设备相 关联的标识符,等等。在一示例中,操作模块114(a)可使用标识符来确定客户 机102(n)位于"芝加哥"。因而,响应于对餐厅、旅馆、方向等的搜索的搜索 结果222(m)可自动限制于"芝加哥"。也可使用用于确定位置的各种其它技术。
示例性过程
下面的讨论描述可使用先前描述的系统和设备来实现的声音启动的操作。 每一过程的各方面可用硬件、固件或软件或其组合来实现。这些过程被示为一 组框,这些框指定由一或多个设备执行的操作,并且不必受限于所示的执行相 应框的操作的顺序。在下面讨论的各部分中,将参考图1的环境100和图2的
系统200。
图3描绘其中服务基于来自客户机的语音数据执行操作并且生成响应的 过程300。服务通过网络从客户机接收语音数据(框302)。例如,图l所示 的服务106(s)可接收作为语音112输入至客户机102(1)的声音数据。客户机 102(1)可被配置为连接到网络104的移动计算设备,诸如启用无线的膝上型计 算机。可执行客户机102(2)的相应通信模块108(1)以提供客户机102(2)与服务 106(1)之间的声音即时消息收发会话。因而,语音112可由客户机102(2)通过 网络104经由声音即时消息收发会话来发送,而服务106(s)可接收(例如,"收 听")语音112。
执行转化模块118(s)以将语音数据转化成文本串(框304)。例如,在上 例中收到的语音112可被转化成文本306。可执行图1所示的转化模块118(s) 以转换语音112。语音112可指定简单的命令诸如"1"、"食物"、"运行"、 "买"等等,或者语音112可以是短语或语句,例如"找意大利餐厅"。因而, 转化模块118(s)将语音112转化成指令、命令、项等形式的文本306,它可由 服务106(s)用于启动一或多个操作。
文本被提供给操作模块,后者使用该文本来执行操作并获得结果(框 308)。继续该示例,现在假设文本306是命令,例如"买项目2"。图1的操 作模块114(s)接收文本306。操作模块114(s)可配置为使用文本306来执行购 买操作。例如,服务106(s)可能先前已经在声音即时消息收发会话期间、通过 电子邮件、因特网等向用户IIO提供了销售项目的列表。用户IIO在审阅列表 之后决定买列表中的项目2。用户IIO通过客户机102(1)(例如无线膝上型计 算机)将短语"买项目2"作为语音提供给客户机102(1)以启动对所需项目的 购买。
操作模块114(s)接收作为文本306的经过转化的命令并且启动购买操作。
获得操作310的结果。例如,此例的结果可以是完成的交易、收据、购买信息 的提示等等。应当注意,操作模块可启动由服务106(S)或图1所示的任何一或
多个服务106(s)执行的购买序列。因而,服务106(s)可配置为处理整个操作, 或配置为启动可远程(例如不在特定的服务106(s)内)执行的操作并获得结果。 自然地,可响应于语音U2执行如前所述的各种操作。
操作模块生成用于传输至客户机的包含结果的响应(框312)。在上面的 示例中,操作模块114(s)形成响应116(p),它包含购买操作的命令例如"买项 目2"的结果310。结果310例如可以是购买确认。可形成包含确认的文本即 时消息。包含确认的即时消息可通过客户机102(1)与服务106(s)之间的即时消 息收发会话来传输。因而,响应于声音购买命令,用户IIO接收确认购买所需 项目的文本即时消息响应。具有不同的输入与响应模式的能力在这样一些的情 形中是合乎需要的难以在某些客户机设备上形成文本或图形请求,或者在一 些时候要阅读文本或图形响应。因而,通过口头输入请求并以不同或多种模式 (例如,文本、图形、音频等)来接收响应的能力在某些情形中对于某些用户 是有利的。
在另一示例中,操作模块可形成可听见的响应。例如,带有购买确认的文 本即时消息可通过转化模块118(s)从文本转换成语音。可实时传输经过转化的 确认,例如通过声音即时消息收发会话,使得向用户IIO提供对购买的可听见 的确认。经过转化的响应可以是合成的语音、录制的语音等等。可在其它响应 之外或代替其它响应提供该可听见的响应。如前所述,在某些时候,可听见的 响应对于用户而言可能更方便或更安全,诸如在"忙碌"、驾驶等同时。
在另一情形中,可连同简单的可听见的响应一起提供图形响应,诸如带有 购买确认的文本即时消息。例如,可提供简短的可听见的响应,诸如"已完成"、 "成功"、"结果已发送"或"再试"。转化模块118(s)可配置为形成简短的 可听见的响应。在此情形中,向用户IIO提供对所需购买的可听见确认与文本 确认两者。也构想了响应模式的各种其它组合,包括电子邮件、即时消息、图 像、视频、音频、文件、HTML文档等中的一或多个。
图4描绘其中使用语音在服务处启动搜索的示例性过程400。作为语音接 收的搜索项被传输至服务以启动web搜索(框402)。例如,图2所示的用户
110可通过配置为移动电话的客户机设备102(n)启动搜索。相应地,通信模块 108(n)可配置为通过网络104提供无线声音服务,且因而客户机102(n)可将声 音数据传输至一或多个服务106(s)。在此例中,配置为移动电话的客户机设备 102(n)的用户IIO正在伊利诺伊州芝加哥市旅行,并且想要吃意大利菜。用户 110可使用移动电话呼叫图2的服务106(s),例如该服务被配置为提供搜索服 务。用户IIO启动与该服务的交互,诸如通过拨打号码、从联系人列表选择服 务106(s)等等(例如声音激活的拨号)。
因而在服务106(s)与客户机设备102(n)之间启动无线声音呼叫。用户110 向客户机设备102(n)(移动电话)提供语音112以启动搜索。语音112可包括 搜索项诸如"意大利餐厅芝加哥"。客户机设备102(n)将搜索项(例如语音112) 传输至服务106(s)。可将语音112转化成文本。服务106(s)随后可将文本项提 供给搜索引擎216以启动web搜索。
从服务接收包含web搜索的结果的响应(框404)。在上一示例中,例如, 服务106(s)可获得作为由口头项"意大利餐厅芝加哥"启动的web搜索的结果 的意大利餐厅的列表。服务106(s),更具体的是响应模块218形成响应116(p), 它包括意大利餐厅列表。响应可以是一个简单列表,诸如餐厅的电子邮件列表。 响应也可具有文本与图形的组合(例如图形响应),诸如具有餐厅列表、芝加 哥地图以及所列餐厅在地图上所在位置指示的HTML文档。客户机102(2)从服 务106(s)接收随后可由用户IIO使用的响应。也构想了组合文本、图形、音频 等的各种其它响应116(p)。
在一实现中,服务106(s)可配置为以各种方式提炼搜索或搜索结果。上例 中的服务106(s)可使用由服务106(s)确定的客户机102(n)的位置来自动提炼搜 索。例如,服务106(s)可确定无线声音呼叫源自芝加哥,或者客户机设备102(n) 当前在芝加哥。在此情形中,可简化用于启动搜索的语音112。用户110不用 说"意大利餐厅芝加哥",而是说"意大利餐厅"。基于由服务106(s)确定的 客户机位置,自动提炼该搜索。因而,响应于作为语音输入至客户机设备102(n) 的搜索项"意大利餐厅",用户可接收在其当前位置或靠近该位置(在此例中 为芝加哥)的意大利餐厅的搜索结果。
图5描绘形成包含由声音启动的操作的结果的响应的示例性过程500。执
行由在客户机处作为语音接收的声音数据指定的操作(框502)。现在假设图
1所示的用户UO想要使用手持计算设备诸如图1所示的个人数字助理(PDA) 102(3)来传送文件。文件可以是任何计算机可读文件,诸如演示、文本文档、 音频记录等等。在此情形中,用户想要与一或多个伙伴共享文件"file.txt"。 该文件可实际位于PDA102(3)上,或在用户IIO能通过网络104、对等网络等 访问的远程存储中。在此例中,用户110可使用声音来启动从PDA102(3)或从 远程位置至另一位置,诸如至该一或多个伙伴能访问的网络存储的文件传送。 用户110使用PDA 102(3)通过网络104将语音112传输至服务106(s)。例如, 用户IIO可说出命令或者短语诸如"传送,file.txt",这由PDA作为语音112 接收。语音112指定的操作被传输至服务106(s)。在一实现中,语音112是作 为声音数据来传输的。语音112可被转化成操作模块114(s)能理解的指令,后 者随后执行指定的操作。例如,转化模块118(s)可将语音112从语音转化成文 本指令。或者,客户机102诸如PDA102(3)可配置为将声音数据转换成文本以 便传输至服务106(s)。包括在PDA 102(3)上的转化模块U8(n)执行将语音112 从语音至文本的转化,且随后将文本指令发送至服务106(s)。
服务106(s)执行由语音112指定的操作。例如,可执行操作模块114(s)以 在PDA102(3)与网络存储位置之间传送文件"file.txt"。如此,用户110可将 文件移动至其他人(例如, 一或多个伙伴)可访问该文件的位置。当然,也可 按另一方向传送文件,例如,从服务102(s)或其它网络存储至PDA 102(3)。
形成响应以便至客户机,响应包括操作的结果(框504)。在上例中,结 果可指示文件传送是否成功。例如,可形成可听见的响应116(p),它说"已完 成"。响应116(p)也可以是文本消息、HTML消息等,它提供传送位置中的文 件的列表。也可形成响应116(p)的组合,诸如确认该传送的即时消息连同诸如 "成功"的可听见的响应。可执行转化模块118(s)以向PDA 102(3)提供实时语 音响应。
自然地,可使用该过程来执行各种其它操作,诸如检索文件、发送消息、 访问帐户、购买项目、将文件通过电子邮件发送至一或多个接收者、在远程计 算设备上启动可执行指令等等。
图6描绘其中使用无线一键通(PoC)来执行声音启动的操作的示例性过
程600。建立无线一键通(PoC)会话(框602)。例如,图2所示的客户机设 备102(n)可配置为启用PoC的移动电话。移动电话客户机102(n)可维护PoC 联系人的列表。 一或多个服务106(s)可以是PoC联系人。假设用户IIO想要来 自服务106(s)的内容。服务106(s)可配置为通过网络104提供各种内容,诸如 音频、视频、网页等等。在此情形中,用户110从服务106(s)搜寻音频内容。 用户选择PoC联系人并启动PoC会话。例如,用户可从联系人中选择服务106(s) 并且击打PoC按钮以启动会话。在移动电话客户机102(n)与服务106(s)之间建 立PoC会话。服务106(s)可通过PoC会话立即"收听"到来自移动电话客户机 102(n)的语音。
通过PoC会话从客户机接收语音数据(框604)。例如,图2的用户110 向移动电话客户机102(n)提供语音112,它通过PoC会话在服务106(s)处可被 即时(或接近即时)听到。语音112可以是对所需音频内容的请求。例如,用 户语音112可包括歌曲标题、艺术家、播放列表、位置等。
将语音数据转换成文本(框606)。继续上例,对所需音频内容的请求可 能不能直接被服务106(s)理解,具体是不能被将启动所需操作的操作模块114(a) 理解。因此,可将请求从语音转换成文本,例如,转换成操作模块114(a)能理 解的指令。如图2所示,转化模块118(a)可在服务106(s)的处理器204(a)上执 行以将收到的语音112转换成文本。在此例中,可生成提供用于启动检索语音 112中指定的音频内容的指令的文本。
使用该文本执行操作(框608)。例如,可将由转化模块118(a)生成的文 本(例如,指令)提供给操作模块114(a),后者使用该文本来执行操作,在此 情形中为检索音频内容。可从各种位置检索所需的音频内容,包括从服务器 202(a)、从服务106(s)的多个服务器202之一或者从另一服务106或能通过网 络104访问的远程位置来检索所需的音频内容。
形成包含操作的结果的响应以便传输至客户机(框610)。例如,可形成 配置为HTML文档的响应116(p),它提供至所选音频内容的超链接。在收到响 应116(p)时,用户IIO可使用该超链接来访问内容。可通过流传送或非流传送 的方式提供内容。响应116(p)也可包括返回所需内容本身。例如,响应116(p) 可用非流传送方式将音频文件单独地或者连同诸如即时消息收发、电子邮件等
的图形响应一起提供给移动电话客户机102(n)。
在一实现中,可使用已建立的PoC会话将可听见的响应传输至客户机。
例如,可听见的响应可指示所需内容可用或不可用、指示发送了图形响应、内
容可用的位置等等。因而,图2的响应模块218可用于形成响应116(p)。响应 可通过转化模块118(a)从文本转化成语音。转化的结果可通过PoC会话实时发 送至移动电话客户机102(n)。在另一实现中,可通过该PoC会话或另一 PoC 会话将所需音频内容流传送至客户机。通过PoC的可听见的响应可以是除其它 响应模式之外,或者代替其它响应模式的响应。例如,可用如前所述的各种组 合形成即时消息、HTML、文本、电子邮件和可听见的响应。
图7描绘其中利用声音启动的搜索的结果来执行附加的声音启动的操作 的过程700。使用在客户机处作为语音输入的项来执行搜索(框702)。例如, 用户110可能希望进行预定,诸如预定航班。用户110可使用图l所示的客户 机设备102(n)之一通过网络104与配置为提供预定的服务106(s)通信。用户110 可提供语音U2以启动对可用航班的搜索。例如,如果用户希望找出四月1日 在俄勒冈州波特兰市与伊利诺伊州芝加哥市之间的航班,则用户iio可提供具 有搜索项诸如"航班,PDX至ORD,四月1日"的语音112。可在服务106(s) 上执行搜索引擎216以执行由语音112指定的搜索。可向搜索引擎216提供由 转化模块118(a)从对语音112的转化所生成的文本搜索项。尽管转化模块118(a) 被示为在与搜索引擎216相同的服务器上,但转化也可在不同的服务器202上 执行、由客户机102的转化模块118执行等等。
将搜索的结果传输至客户机(框704)。响应于上面的航班搜索示例,用 户110可接收响应116(p),它包括四月l在俄勒冈州波特兰市与伊利诺伊州芝 加哥市之间的五个航班的列表。响应可用先前描述的任何各种方法来格式化, 诸如HTML文档、即时消息、电子邮件等等。
基于与搜索结果和作为语音对客户机的输入相关联的指令执行附加的操 作(框706)。上例的用户IIO接收并查看搜索的结果,其中例如包括五个可 能的航班。用户IIO现在可能希望预定这些航班之一。因而,用户可提供与搜 索结果相关的附加的语音112。例如,附加的用户语音112可指示"预定航班 99",它对应于在搜索结果中列出的航班中的一个。在一实现中,还可向用户 提示如何使用搜索结果来启动进一步的操作。例如,在搜索结果中的项目l可 指示"要预定该航班就说预定1"。由附加的语音112指定的操作被传输至 服务102(S)。该服务可以是与执行搜索相同的服务102(S),或者是不同的服务
102。服务随后执行与先前提供的搜索结果相关的附加操作。
因而,可利用由语音启动的搜索的结果来执行由语音启动的附加操作。自 然地,可使用利用语音启动的搜索结果来执行各种操作,诸如文件传送、文件 检索、购买交易、行程预定、旅馆和餐厅预定等等。附加操作也可以是进一步 的搜索或者对搜索结果的提炼。
总结
尽管已经用专用于结构特征和/或方法动作的语言描述了本发明,但要理 解,所附权利要求书定义的本发明不必受限于所述的这些特定特征或动作。相 反,这些特定特征和动作是作为实现要求保护的本发明的示例性形式而被公开 的。
权利要求
1.一种方法,包括转化通过网络接收的声音命令;执行所述经过转化的命令以形成图形响应;以及形成包含所述图形响应的通信以便通过所述网络传输至所述声音命令的发送者。
2. 如权利要求1所述的方法,其特征在于,所述图形响应是电子邮件。
3. 如权利要求1所述的方法,其特征在于,所述图形响应是超文本标记语 言(HTML)文档。
4. 如权利要求1所述的方法,其特征在于,所述图形响应是即时消息。
5. 如权利要求1所述的方法,其特征在于,所述声音命令是通过无线一键 通(PoC)会话接收的。
6. 如权利要求1所述的方法,其特征在于,所述声音命令是从手持客户机 设备接收的。
7. 如权利要求1所述的方法,其特征在于,所述声音命令是通过声音即时 消息收发会话接收的。
8. 如权利要求1所述的方法,其特征在于,所述声音命令指定要执行的选 自以下的至少一个操作搜索;金融交易;购买交易;文件传送;预定;以及下载。
9. 一种方法,包括执行由在客户机处作为语音接收的声音数据指定的搜索;以及 形成包括搜索结果的响应,以便通过网络传输至发起所述声音数据的客户机。
10. 如权利要求9所述的方法,其特征在于,还包括将所述声音数据转换 成文本搜索项。
11. 如权利要求9所述的方法,其特征在于,所述经过转换的声音数据是执行所述搜索的模块能理解的,而所述声音数据是所述模块不能理解的。
12. 如权利要求9所述的方法,其特征在于,所述响应包含选自以下的一 或多项电子邮件;文本;html文档;即时消息;图像;以及可听见的声音。
13. 如权利要求9所述的方法,其特征在于,基于所述客户机的位置自动 提炼所述搜索结果。
14. 如权利要求9所述的方法,其特征在于,还包括将所述搜索结果从文 本转换成可听见的响应。
15. 如权利要求9所述的方法,其特征在于,所述响应是实时可听见的响应。
16. 如权利要求9所述的方法,其特征在于,还包括基于与所述搜索结果 和作为语音对客户机的输入相关联的附加声音数据执行操作。
17. —或多个包括计算机可执行指令的计算机可读介质,在计算机上执行 所述计算机可执行指令时,指示所述计算机将通过移动设备输入的声音数据转 换成文本搜索串以输入到因特网搜索引擎。
18. 如权利要求17所述的一或多个介质,其特征在于,所述声音数据是通 过无线一键通(PoC)会话传输至所述因特网搜索引擎的。
19. 如权利要求17所述的一或多个介质,其特征在于,还包括向所述声音 数据的发送者提供搜索结果的指令。
20. 如权利要求18所述的一或多个介质,其特征在于,提供给所述发送者 的所述搜索结果是不可听见的。
全文摘要
本文提供声音启动的网络操作的实施例。
文档编号G06F17/00GK101341482SQ200680048127
公开日2009年1月7日 申请日期2006年11月17日 优先权日2005年12月22日
发明者A·拉玛克里什纳, J·J·奥斯特伦德, Q·米勒 申请人:微软公司