专利名称:逐步细化基于语音的搜索的制作方法
技术领域:
本发明总体上涉及以计算机作为媒介的搜索工具,并且更特别地,涉及利用人类语音来细化搜索。
背景技术:
在典型的搜索场景中,用户打字输入搜索字符串。字符串被提交给搜索引擎,其分析该字符串然后将搜索结果返回给用户。然后用户可以在返回结果中进行选择。然而,结果经常并不符合用户的期望,所以他选择对搜索进行细化。(在这里,“细化”意味着缩小或扩大或以其他方式改变搜索范围或结果的排序。)为了做到这一点,用户编辑原始的搜索字符串,可以增加、删除或改变词。改变的搜索字符串提交给搜索引擎(通常不记忆原始的搜索字符串),这使得完全重新开始整个处理。然而,当用户通过小型个人通信装置(如移动电话或个人数字助理)进行搜索时, 上述情况并非如此。这些装置一般都没有用于完整的键盘的空间。相反,它们具有有限的键盘,其具有很多太小的按键,对于触摸打字来说太小,或者可能有几个键,每一个都代表了若干个字母和符号。这些装置的用户发现他们的有限的键盘不适合输入和编辑复杂的搜索查询。这些个人装置的用户正在转向基于语音的搜索,来替代键入他们的查询。在此,用户说出搜索查询。语音到文本转换引擎将说出的查询转换为文本。随后通过标准的基于文本的搜索引擎如上所述地处理获得的文本查询。虽然理论上是好的,但是基于语音的搜索还存在若干问题。语音到文本的转换可能不准确,这导致错误的搜索结果。而且,人类语音通常包括重复和“非单词”(比如“啊” 和“嗯”),其能够干扰语音到文本转换引擎。在任一种情况下,用户通常不确切地知道什么文本搜索查询被提交给搜索引擎。因此,用户可能没有意识到他的语音查询被不正确地解读。从而,因为搜索结果基于(可能被错误解读的)搜索查询,因此返回的结果可能不是用户所要求的。当进行细化搜索时,用户无法从最初的基于语音的请求开始并对其进行细化, 而是需要在他的大脑中将查询细化,然后将整个细化后的清晰且没有非单词的查询重新说一遍。
发明内容
本发明针对以上考虑以及其他,本发明可以通过参考说明书、附图及权利要求来理解。根据本发明的方面,基于语音和非基于语音的编辑方法被添加到基于语音的搜索中以允许用户更好地了解提交给搜索引擎的文本查询并容易地对他们的语音查询进行编辑。根据某些实施例,用户开始说话。用户的语音被翻译为文本搜索查询并提交给搜索引擎。搜索的结果呈现给用户。用户继续说话时,基于用户的进一步的语音来细化用户的语音查询。细化后的语音查询被转换成文本查询,该文本查询被再次提交给搜索引擎。细化的结果呈现给用户。只要用户继续细化查询,则该处理一直继续。
某些实施例通过向用户呈现文本查询(由语音到文本转换引擎创建)来帮助用户了解他正在创建的搜索查询。通常不呈现非单词和非搜索词(“a”、“the”等)。文本查询中的某些搜索词被高亮显示以示出语音到文本转换引擎具有高置信水平,即这些词是用户所期望的。用户能够使用进一步的语音输入来编辑该文本查询。当用户继续说话时,他观察不同词的置信水平改变。例如,用户可以重复词(“b0at,b0at,b0at”)来提高该词的置信水平,或者他可以降低词的置信水平(“不是goat,我是说boat”)。当用户继续说话时, 文本搜索查询改变以更接近地匹配他想要说的词。某些实施例还允许用户利用非基于语音的搜索工具操作文本查询,所述非基于语音的搜索工具包括基于文本的、基于手写的、基于图形的、基于姿态的或者类似的输入/输出工具。用户能够增加或降低词的置信水平,可以将词组成短语,或者能够对词执行布尔 (Boolean)操作(例如,AND, OR, NOT)。如上所述,修改后的搜索查询被提交给搜索引擎。 某些实施例允许同时或者连续地进行基于语音和非基于语音的编辑。
虽然所附权利要求特别地阐述本发明的特征,但是,通过接合附图的以下详细描述可以更好地理解本发明及其目标和优点图1是实施本发明的代表性环境的概览;图加和2b是支持细化基于语音的搜索的多种模式的个人通信装置的简化图;图3是逐步细化基于语音搜索的示例性方法的流程图;图4是用于细化基于语音的搜索的示例性的基于文本的方法的流程图;以及图5是示出图4的方法的示例性应用的数据流图。
具体实施例方式转向附图,其中相同的附图标记表示相同的元件,本发明被示出为在合适的环境中实施。以下描述基于本发明的实施例,并且不应被视为在这里没有详细描述的替代实施例方面限制本发明。在图1中,用户102想进行搜索。不管什么原因,用户102选择说出他的搜索查询至他的个人通信装置104而不是键入该搜索查询。用户102的语音输入被处理(在装置 104本地或者在远程搜索服务器106上)为文本查询。该文本查询被提交给搜索引擎(再次说明本地或者远程地)。搜索结果在装置104的显示屏上展示给用户102。通信网络 100使得装置104能够在适当的情况下访问该远程搜索服务器106,并且在用户102的指导下在搜索结果中取回“命中”。图加和2b示出了结合本发明的实施例的个人通信装置104(例如,蜂窝电话、个人数字助理或个人电脑)。图 和2b以打开的构造示出了作为蜂窝电话的装置104,其主显示屏200被展示给用户102。通常,主显示器200用于进行大多数与用户102的高保真交互。例如,主显示器200用于显示视频或静止图像,其是用来改变配置设置的用户接口的一部分,并用于浏览通话记录和联系人清单。为支持这些交互,主显示器200具有高分辨率并且其大小能够适当地容纳在装置104中。装置104可以有第二个并且可能还具有第三个显示屏以显示状态消息。这些屏幕通常小于主显示屏200。在以后讨论中可以安全地忽略它们。除了主显示器200外,个人通信装置104的典型用户接口还包括键盘202或其他用户输入装置。图沘示出了个人通信装置104的一些更重要的内部组件。该装置104包括通信收发器204、处理器206和存储器208。通常还有麦克风210 (或两个)和扬声器212。因为搜索的结果可能不完全符合用户102的期望,因此本发明的方面允许用户 102细化搜索结果。图3呈现了细化基于语音搜索的结果的方法的实施例。该方法从步骤 300开始,其中用户102向他的个人通信装置104的麦克风210说出原始搜索。在步骤302,对用户102的语音查询进行分析。对于基于语音的搜索查询,分析常常包括从语音中提取关键搜索词,并且忽视非单词和非搜索词。然后提取的关键搜索词被转换成文本搜索查询。该文本搜索查询被提交给搜索引擎(本地或远程)。搜索引擎处理该文本搜索查询,进行该搜索,并返回搜索结果。在步骤304,搜索结果呈现在个人通信装置104的显示屏200上。通常,搜索返回的“命中”比能够在显示屏200上显示的多。在这种情况下,搜索引擎将它根据某种标准衡量的认为是“最佳”的结果呈现在显示屏200上。对于某些实施例,这些标准包括每个命中中的每个提取的搜索词的重要性。从基于文本的搜索的领域已知很多标准。例如,词频-逆向文档频率是特定文档中搜索词的重要性的度量。如果在某文档行中搜索词按照该标准是重要的,则该文档在结果列表中被推到比虽然包含该搜索词但在其中搜索词并不非常重要的另一文档更高的位置。已知其他基于文本的用于排名命中的标准并且能够将其用于本发明的实施例中。在处理基于语音的搜索中,这些标准的变动是很重要的。当用户键入搜索时,搜索引擎准确地知道输入的搜索字符串。而在语音搜索查询中,并非总是如此。搜索引擎可能错误地解读语音搜索查询中的搜索词。因此,在本发明的某些实施例中,从语音搜索查询提取的每个搜索词被分配有置信水平。高置信水平意味着搜索引擎非常确信它正确地解读了语音搜索词并把它正确地翻译为文本搜索词。当在步骤304中呈现搜索结果时,结果的顺序部分地由分配给每个搜索词的置信水平来确定。低置信水平意味着搜索引擎可能误解了搜索词,进而在搜索结果的排序中不应该给予该搜索词太高的权重。步骤306是可选的,但对基于语音的搜索非常有用。在这里,提取的搜索词呈现在个人通信装置104的屏幕200上。这允许用户102确切地知道搜索引擎是如何解读搜索查询的,所以用户102能够知道如何去看待搜索的结果。例如,如果提取的搜索词的显示表明搜索引擎错误地解读了关键词,则用户102知道搜索结果不是他想要的。可以显示每个搜索词的置信水平,让用户102进一步深入地看到语音解读处理和搜索结果的意义。下面讨论的图5的示例说明了这些概念中的一些。在步骤308,用户102通过为搜索引擎提供进一步的语音输入以逐步地细化搜索结果。这能够采取单独或者一起使用的许多形式。例如,用户102(基于可选步骤306的输出)发现重要的搜索词(比如,“boat”)被分配有低置信水平。然后用户102重复该搜索词(“boat,boat,boat”),努力说得非常清楚。搜索引擎基于该进一步的语音输入来修订它对语音搜索查询的解读,并提高被重复的搜索词的置信水平。搜索引擎基于重复的搜索词的增加的置信水平来细化搜索,并且在步骤310将细化的搜索结果呈现给用户102。用户102还可以通过语音替换被错误理解的搜索词“不是goat,我是说boat”。即使当搜索引擎在解读原始语音搜索查询中没有错误时,用户102也能够细化搜索。例如,一旦用户102开始说话时,搜索引擎就可以开始搜索,该搜索基于已经从用户102 的语音中提取的词。仅仅基于当前提取的原始搜索词的呈现的搜索结果可能范围非常广。 当用户102继续说话时,更多的搜索词被提取并同以前的搜索词进行逻辑组合以细化搜索字符串。随着用户102继续说话,基于进一步搜索词的细化的搜索结果变得更加精确。聪明的搜索引擎还能解读口语和短语,如“或”、“和”、“不”、“引号开始”和“引号结束”,作为具体细化搜索查询的逻辑操作。在用户102基于其个人通信装置104的屏幕200上呈现的搜索结果和提取的搜索词来细化搜索时,能够重复上述技术。使用这些技术,用户102可以缩小搜索范围、拓宽范围及改变搜索词的相对重要性以改变结果和结果的排序。图4示出了另一种细化基于语音搜索的方法。在初始步骤中,该方法与图3中的方法相似。用户102说出搜索查询(步骤400),从说出的查询提取搜索词(步骤40 ,提取的搜索词被转换为文本搜索查询,其用作搜索的基础(步骤404),然后结果(或至少“较好的”结果)被呈现给用户102(步骤406)。与该结果一起,提取的搜索词被呈现给用户(步骤408),也可以同时呈现分配给每个词的置信水平。在步骤410中,用户102能够有机会操作提取的搜索词。在一些实施例中,用户102 利用文本编辑器来操作这些词。用户102可以删除一些词、添加其他词、增加词的置信水平 (即,确认搜索引擎正确地解读了该搜索词,例如,在基于触摸的用户接口上触摸词)、对词进行逻辑组合(例如,创建复合词或短语),以及对提取的词执行布尔运算。以该方式,文本编辑工具用于细化原始的基于语音的搜索查询。在步骤412执行基于用户102的操作的细化的搜索,并且在步骤414将细化结果呈现给用户102。与图3的方法一样,当用户102继续细化搜索时可以重复上述步骤直到得到期望的结果。一些实施例在步骤410中支持除了文本编辑器之外的或者替代文本编辑器的其他用户输入装置。例如,用户102的面部姿态可以被解读为编辑命令。当用户102在编辑搜索字符串时由于其他原因不能自由使用双手时,这非常有用。图3和图4的方法虽然不同,但显然是兼容的。本发明的实施例可以允许用户102 同时使用基于语音的和非基于语音的工具来细化搜索。图5示出了细化基于语音的搜索的示例。因为专利是打印的文档,所以图5示出了使用基于文本的编辑技术,但是能够使用单纯基于语音的接口或者两者的结合来得到同样的结果。在图5的框500中,用户102说出搜索查询“Next is the ‘Hello My Cuckoo' Song(接下来是歌曲“你好我的杜鹃鸟”)。框502示出了搜索引擎从语音查询提取的搜索词。注意的是,搜索引擎把说出的词“next (接下来)”错误地当成“text (文本),, 并忽视了(或没有捕捉到)单词“the”和“my (我的)”。在一些实施例中,搜索引擎只显示已经分配有相对高的置信水平的提取词。框504示出了基于框502提取的搜索词的原始搜索结果。提取的搜索词,或者至少具有相对高的置信水平的词,在搜索结果中被高亮显示,这在框504中通过添加下划线示出。响应框504中呈现的结果,在框506中用户102删除两个提取的关键词“ is (是)” 和“text(文本)”。在另一个示例中,用户102可以用正确的关键词“next(接下来)”来替代被错误解读的关键词“text (文本)”。在本示例中,用户102意识到“next (接下来)” 是没有任何帮助的,也就不再增加了。在框508中示出了搜索项的修改列表,并且修改后的结果呈现在框510中。这时, 用户102能够应用上述讨论的技术来继续细化搜索或可以简单地在框510中所示的结果中进行选择。根据本发明的方面,用户102应用不同的基于语音和非基于语音的方法来细化基于语音的搜索查询。最后的结果是,至少,用户102更好地理解了搜索引擎为什么产生了这种结果,并且最好的是,用户102获得了期望的搜索结果。鉴于可以应用本发明的原理的很多可能实施例,应了解的是,这里参考附图描述的实施例仅仅是示例性的而不应理解为限制本发明的范围。例如,用于编辑搜索查询的不同用户接口可以适用于不同的情况和不同能力的装置。因此,这里描述的本发明意在包含所有落入所附权利要求及其等同物的范围内的实施例。
权利要求
1.一种用于逐步细化基于语音的搜索的方法,所述方法包括 从用户(102)接收(300)初始的语音输入;执行(30 搜索,所述搜索至少部分地基于初始的语音输入; 将至少部分的搜索结果呈现(304)给用户(102);以及当用户(10 继续说话时,至少部分地基于从用户(10 接收的进一步的语音输入来细化(308)搜索并将至少部分的细化的搜索结果呈现(310)给用户(102)。
2.如权利要求1所述的方法,其中,执行搜索包括从初始的语音输入提取一个或多个搜索词以及从进一步的语音输入提取一个或多个搜索词。
3.如权利要求2所述的方法,其中,呈现至少部分的搜索结果包括选择要呈现的结果, 该选择至少部分地基于按照提取的搜索词的置信度的排序。
4.如权利要求2所述的方法,其中,细化搜索包括在搜索中,从进一步的语音输入提取的搜索词分配有比分配给从初始的语音输入提取的搜索词的置信度更高的置信度。
5.如权利要求2所述的方法,其中,细化搜索包括在搜索中,重复的提取的搜索词被分配有比非重复的提取的搜索词更高的置信度。
6.一种用于细化基于语音的搜索的方法,所述方法包括 从用户(102)接收(400)语音输入;从接收到的语音输入提取(40 —个或多个搜索词;执行(404)搜索,该搜索至少部分地基于提取的搜索词;将至少部分的搜索结果呈现(406)给用户(102);将至少部分的提取的搜索词呈现(408)给用户(102);从用户(102)接收(410)命令以对呈现的搜索词进行逻辑操作;细化(412)搜索,该细化(412)至少部分地基于从用户(102)接收的逻辑操作命令;以及将至少部分的细化的搜索结果呈现(414)给用户(102)。
7.如权利要求6所述的方法,其中,从用户接收命令包括从由触觉输入、键盘输入、姿态输入和语音输入组成的组接收到的命令。
8.如权利要求6所述的方法,其中,用于对呈现的搜索词进行逻辑操作的命令包括从下述组成的组中选择的命令根据考虑移除搜索词、改变搜索词的置信水平、将多个搜索词合并成搜索短语、创建搜索词的逻辑析取、创建搜索词的逻辑连接和改变搜索字符串中的逻辑优先级。
9.一种个人通信装置(104),包括麦克风010),其被构造为从用户(102)接收(300,308)语音输入; 输出装置(200,212);和处理器006),其可操作地连接到麦克风O10)以及输出装置000,212),所述处理器 (206)被构造为执行(302)搜索,该搜索至少部分地基于从用户(102)接收(300)到的初始的语音输入;在输出装置(200,212)上为用户(102)呈现(304)至少部分的搜索结果,并且,当用户(102)继续说话时,至少部分地基于从用户(102)接收(308)的进一步的语音输入来细化(308)搜索;以及在输出装置000,212)上为用户(102)呈现(310)至少部分的细化的搜索结果。
10. 一种个人通信装置(104),包括麦克风010),其被构造为从用户(102)接收(400,410)语音输入; 输入装置(200,202,210); 输出装置(200,212);和处理器006),其可操作地连接到麦克风010)、输入装置000,202,210)以及输出装置000,212),该处理器(206)被构造为从接收自用户(10 的语音输入提取(40 —个或多个搜索词;执行(404)搜索,该搜索至少部分地基于提取的搜索词;在输出装置(200, 212)上向用户(102)呈现006)至少部分的搜索结果;在输出装置(200,212)上向用户 (102)呈现(408)至少部分的提取的搜索词;在输入装置(200,202,210)上从用户(102)接收(410)命令以逻辑操作呈现的搜索词;细化(412)搜索,该细化(412)至少部分地基于从用户(102)接收到的逻辑操作命令;以及在输出装置(200,212)上向用户(102)呈现(414) 至少部分的细化的搜索结果。
全文摘要
公开了一种编辑方法,其被添加到基于语音的搜索以允许用户(102)更好地理解提交给搜索引擎的文本查询并且容易编辑其语音查询。根据一些实施例,用户(102)开始说话(300)。用户的语音被翻译为文本查询并且被提交(302)到搜索引擎。搜索的结果被呈现(304)给用户(102)。当用户(102)继续说话时,基于用户的进一步的语音来细化(308)用户的语音查询。细化的语音查询被转换成文本查询并再次将其提交(308)给搜索引擎。细化的结果被呈现(310)给用户(102)。只要用户继续细化(308)查询,则该处理继续。一些实施例将文本查询呈现(408)给用户(102)并且允许用户(102)使用基于语音和非基于语音的工具来编辑(410)文本查询。
文档编号G10L15/00GK102246587SQ200980150288
公开日2011年11月16日 申请日期2009年12月14日 优先权日2008年12月16日
发明者W·加兰·菲利普斯, 哈里·M·布里斯, 巴沙尔·亚诺, 马长学 申请人:摩托罗拉移动公司