专利名称:构造搜索结果说明的制作方法
技术领域:
本发明涉及构造表示网页内容的搜索结果说明。
背景技术:
因特网用户通常提交搜索查询以定位与感兴趣话题相关的信息。同样,搜索结果响应于这些搜索查询而被标识。为了归纳每一个搜索结果(例如,网页),通常提供对搜索结果的简要描述,并且该简要描述通常包括标题、正文和web地址。该简要描述通常从有限的信息集合中生成。扩展从中生成简要描述的信息集合的技术以及将该简要描述配置成与用户上下文相关的技术将会是有用的。
发明内容
本发明的各实施例由所附权利要求书而非本发明内容来定义。为此,此处提供了本发明的各方面的高级概览,以提供公开内容的概览,并介绍将在以下具体实施方式
部分中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于独立地帮助确定所要求保护的主题的范围。本发明的各实施方式涉及构造表示网页内容的搜索结果说明。在一种实施方式中,使用网页的非结构化信息来构造搜索结果说明。在另一实施方式中,也可使用与一个或多个其他网页、用户和客户机设备相关的信息来构造搜索结果说明。使用本发明的实施方式来构造的搜索结果说明可能以各种方式增强用户搜索体验,诸如通过提供准确地反映网页内容并且与用户上下文相关的说明。
以下参考所附附图详细描述本发明的各说明性实施方式,附图中图1是描绘适于根据本发明的各实施方式使用的示例性计算设备的框图;图加和2b是根据本发明的一实施方式的示例性操作环境的框图;图3是根据本发明的一实施方式的示例性屏幕截图;图4描绘了根据本发明的一实施方式的示例性说明模板;以及图5和6是根据本发明的一实施方式的示例性方法的流程图。
具体实施例方式此处用具体细节描述本发明的各实施方式的主题以满足法定要求。然而,该说明书本身并非旨在必定限制权利要求的范围。相反,所要求保护的主题可结合其它当前或未来技术按照其它方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。术语不应被解释为暗示本文所公开的各步骤之中或之间的任何特定次序,除非且除了在明确描述个别步骤的次序的时候。通常,本发明的各实施方式涉及构造表示网页内容的搜索结果说明。如此处所使用的,术语“搜索结果说明”指的是与指定搜索结果(例如,网页)相关联的经排列的信息集合。该信息集合可以按各种格式呈现,其中一种格式包括搜索结果的标题、正文和web地址。虽然搜索结果说明通常用于归纳或表示被包括在搜索结果中的内容,但其他功能的示例包括描述内容并提供内容副本。简要地参考图3,描绘了被包括在响应于搜索查询314而返回的搜索结果集310中的示例性搜索结果说明312。本发明的一实施方式聚集信息(例如,316和318)以便包括在搜索结果说明312中,并且基于搜索查询314和/或作出请求的设备(例如,客户机)的能力来定制搜索结果说明312。简要描述了本发明的各实施方式后,现在描述图1,其中示出了用于实现本发明的各实施方式的示例性操作环境并将其大致指定为计算设备100。计算设备100只是合适的计算环境的一个示例,而非旨在对本发明的实施方式的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。本发明的各实施例可以在由计算机或诸如个人数据助理或其它手持式设备之类的其它机器执行的计算机代码或机器可使用指令(包括诸如程序模块之类的计算机可执行指令)的一般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明的各实施例可以在各种系统配置中实施,这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明的各实施例也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。参考图1,计算设备100包括直接或间接耦合以下设备的总线110 存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口 118、输入/输出组件120、 和电源122。总线110表示一个或多个总线(诸如地址总线、数据总线或其组合)。虽然为了清楚起见利用线条示出了图1的各框,但是实际上,各组件的轮廓并不是那样清楚,并且比喻性地来说,线条更精确地将是灰色的和模糊的。例如,可以将诸如显示设备等的呈现组件认为是I/O组件。同样,处理器具有存储器。可以认识到,这是本领域的特性,并且重申,图1只是说明可结合本发明的一个或多个实施例来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。计算设备100通常包括各种计算机可读介质。作为示例,计算机可读介质可以包括随机存取存储器(RAM);只读存储器(ROM);电可擦可编程序只读存储器(EEPROM);闪存或其他存储技术;CDR0M、数字多功能盘(DVD)或其他光学或全息介质;磁带盒、磁带、磁盘存储或其他磁存储设备,载波或可以用来编码所需要的信息并可以被计算设备100访问的任何其他介质。存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120等各种实体读取数据的一个或多个处理器114。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。I/O端口 118允许计算设备100逻辑上耦合至包括I/O组件120的其他设备,其中的一些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、打印机、无线设备等等。本发明的各实施方式可被具体化为方法、系统或被包含在一个或多个计算机可读介质上的信息集合等。计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质,并构想可由数据库、交换机和各种其它网络设备读取的介质。作为示例,计算机可读介质包括以用于存储信息的任何方法或技术实现的介质。存储的信息的示例包括计算机可使用指令、数据结构、程序模块以及其它数据表示。介质示例包括但不限于信息传递介质、 RAM、ROM、EEPR0M、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)、全息介质或其它光盘存储、磁带盒、磁带、磁盘存储、以及其它磁存储设备。这些技术可瞬间、临时或永久地存储数据。参考图2a,描绘了包括联网组件的计算环境并通过附图标记210来大致标识该计算环境。计算环境210包括客户机212、搜索器214、网页相关内容汇编器216、搜索结果说明生成器218以及网页250、252、2M和256。计算环境210的各种组件诸如通过网络220 进行通信。图加的线222暗示在本发明的一实施方式中,计算环境210的特定功能在线执行(例如,接收搜索查询并提供搜索结果),而其他功能离线执行(例如,提取信息以便包括在搜索结果说明中)。图加描绘了将在下文中更详细地描述的示例性实施方式。一般而言,图加描绘从客户机212将搜索查询(例如,“I^rice Laptop XL900”)提交给搜索器 214。标识搜索结果对2,其中一个搜索结果包括“驟w. buy. COm/laptOpS/XL900” 251。描述一个搜索结果的搜索结果说明224由搜索结果说明生成器218使用从网页相关内容汇编器216检索到的信息来生成。出于示例目的,描述图加和2b以使得搜索结果说明2 表示网页 250 的内容,其位于“www. buy. com/laptop/XL900,,。在本发明的一实施方式中,执行各种任务以准备构造搜索结果说明224。例如,汇编可用于撰写搜索结果说明224的信息。可用于撰写搜索结果说明224的信息可能源自各种源,诸如网页250、网页252(其是与网页250相同的网站的一部分)以及作为与网页250 和252不同的网站的一部分的网页2M和256。图加描绘网页相关内容汇编器216包括帮助汇编信息的数据提取器226。数据提取器2 包括结构化数据提取器228、结构化数据分类器230、非结构化数据提取器232以及非结构化数据分类器234。此外,网页相关内容汇编器216包括可用于一旦提取到数据就存储该数据的存储236。例如,一旦从网页250、 252,254和256中提取到数据,就在存储236中维护该数据。在本发明的一实施方式中,非结构化数据从网页250、网页252、网页2M或其组合中提取。此外,所提取的非结构化数据被分类成一个或多个信息类别,诸如在内容类型类别 275下列出的那些类别。在一种实施方式中,非结构化数据提取器232用于提取信息,而非结构化数据分类器234用于分类信息。虽然非结构化数据提取器232和非结构化数据分类器234出于说明目的而被描绘为单独组件,但在另一实施方式中,这些组件被组合成既提取又分类的单个组件。此外,在内容类型类别275下列出的类别可能取决于网站类型。例如,如果网页是公司网站的一部分,则在内容类型类别275下列出的类别可能与图加所描绘的那些类别不同,在这种情况下示例性类别可能包括股票价格、联系信息、地图等。或者, 如果网站用于方便多媒体(例如,视频和/或音乐)共享,则内容类型类别275可能包括播放时间长度、文件创建日期、文件大小、评级等。在一种实施方式中,网页250的非结构化数据258 (例如,高速缓存页面的文本)由非结构化数据提取器232在汇编关于网页250的信息时提取。例如,可能期望标识将对正在确定是否从搜索结果列表中选择网页250的用户特别具有信息性的非结构化数据258 的特定文本。即,诸如由网页250的设计者提供通常容易获得的结构化文本以便在搜索结果说明中用作网页250的内容的表示。然而,容易获得结构化文本可能不提供网页250的准确表示和/或可能不提供与搜索查询相关的信息。由此,通过提取非结构化数据258的其他文本并对其进行分类,数据提取器2 扩展可用于构造搜索结果说明2M的信息集合。 有了经扩展的信息集合,搜索结果说明2M可能包括对用户有帮助的网页250的内容的更准确的表示。在一种实施方式中,非结构化数据提取器232包括被编程为识别特定类型的信息的定制爬行器。一旦从网页250中提取非结构化数据258,就由非结构化数据分类器234基于如何解释非结构化数据258来对该非结构化数据258进行分类。例如,非结构化数据258 可能基于格式化(例如,USD符号和数字)被解释为美元金额;在这种情况下美元金额输入 274a在存储236中被存储在价格类别274b下。所提取和分类的信息在存储236中维护。非结构化数据提取器232可能使用各种其他技术来编程。例如,在一种技术中,诸如通过标识共同的URL模式或共同的HTML内容摘录来标识具有足够相似的文档结构的网页集合。通常这些站点使用相同或相似的服务器软件来构造,一旦标识该服务器软件就可利用该软件来标识模式。标识该网页集合的元数据并且专门针对具有足够相似的文档结构的网页来编程非结构化数据提取器232。例如,非结构化数据提取器232的模式可能映射到模式一致的非结构化数据。由此,提取具有足够相似的结构的随后分析的网页的非结构化数据并对其进行分类。在另一实施方式中,非结构化数据提取器232从属于与网页250相同的网站(www. buy. com)的网页252中提取非结构化数据(未描绘)。非结构化数据提取器232可能试图定位与网页250上的内容相关的网页252的非结构化数据。例如,如果网页250包括描述特定型号(例如,XL900)的膝上型计算机的内容,则网页252 (www. buy. com/. . . /XL900/ reviews)可能在非结构化数据中包括该特定型号的用户评级,以使得提取用户评级输入 269a并在存储236中将该用户评级输入存储在评级类别沈%下。网页252的所提取的非结构化数据诸如通过使用定制爬行器或被编程为识别特定类型的内容的其他组件来分类成内容类型类别275。经分类的网页252的所提取的非结构化数据然后可用于构造搜索结果说明2M。在另一实施方式中,非结构化数据提取器232从属于与网页250不同的网站的网页2M中提取非结构化数据259。非结构化数据提取器232可能试图在网页2M中定位与网页250上的内容相关的非结构化数据259。例如,如果网页250包括描述特定型号(例如, XL900)的膝上型计算机的内容,则网页254(www. laptopcity. com/XL900)可能在非结构化数据259中包括该特定型号的的膝上型计算机的图像,以使得提取图像日期输入(例如,图像文件)并在存储236中将该图像日期输入存储在图像类别沈713下。网页254的所提取的非结构化数据诸如通过使用定制爬行器或被编程为识别特定类型的内容的其他组件来分类成内容类型类别275。经分类的网页254的所提取的非结构化数据然后可用于构造搜索结果说明224。在本发明的另一实施方式中,结构化数据从网页250、网页252、网页254、网页256或其组合中提取。此外,所提取的结构化数据被分类成一个或多个信息类别,诸如内容类型类别275。在一种实施方式中,结构化数据提取器2 用于提取信息,而结构化数据分类器 230用于分类信息。虽然结构化数据提取器2 和结构化数据分类器230出于说明目的而被描绘为单独组件,但在另一实施方式中,这些组件可能被组合成既提取又分类的单个组件。因为结构化数据通常以使分类变得可容易确定的方式组织,所以这一组织被结构化数据分类器230用来将所提取的结构化数据分类成内容类型类别275。在本发明的一种实施方式中,结构化数据提取器228从属于与网页250不同的网站的网页256中提取结构化数据257。结构化数据提取器2 可能试图在网页256中定位与网页250上的内容相关的结构化数据257。在一替换实施方式中,结构化数据257包括由网页256传递的结构化馈源数据(structured feeds data),例如,结构化馈源数据可从网页256传递至结构化数据提取器228。结构化馈源数据的示例包括新闻馈源、博客馈源和产品馈源。在图加的示例性实施方式中,网页250可包括描述特定型号(例如,XL900)的膝上型计算机的内容,而网页256 (www. acmesalesco. com)可能在结构化数据257中包括与该特定型号相关的定价信息或评级信息,以使得接收、动态更新美元金额输入27 或评级输入并将其存储在存储236中。经分类的网页256的结构化数据257然后可用于构造搜索结果说明224。在本发明的另一实施方式中,在汇编关于给定网页(例如,网页250)的信息时,以规定次序引用信息源(例如,网页250、252、2M和256)。即,可基于网页的性质来为给定网页(例如,网页250)分配所需内容类型类别(例如,275)的集合。例如,涉及销售和/或评论产品的网页可被分配图加所描绘的那些内容类型类别275,而社交网络网页可被分配所需内容类型类别的替换集合(未示出),包括姓名、职业、地点、状态和简档链接。在汇编关于每一个所需内容类型类别下的给定网页的信息时,可以按规定次序搜索信息源。在一种实施方式中,该规定次序包括首先搜索(例如,爬行)给定网页。如果未通过使用从给定网页中提取的信息来填充所有所需内容类型类别,则可以接着搜索与给定网页相同的网站的另一网页,之后是与给定网页的网站不同的其他网站的网页。在本发明的另一实施方式中,一旦已经提取信息,就为该信息打分以建议该信息的质量水平。即,如果某一网页相关信息具有比其他网页相关信息更好的质量,则可能期望选择该质量更好的信息。因此,分配给信息项的质量分数可由计算环境的其他组件(例如, 搜索结果说明生成器218)用来评估网页相关信息的质量水平。如上所示,一旦已经提取数据,就可将该数据存储在存储236中。存储236包括出于说明目的以分解图278描绘的数据276。分解图278包括已经诸如从网页250、252、2M 和256提取或接收的并且关于由web地址280标识的网页250的内容的信息279。在图加中,信息279已被分类到各个信息类别中,诸如在信息279由结构化数据分类器230或非结构化数据分类器234分类时。在内容类型类别275下列出的示例性类别包括“产品ID”、 “图像”、“价格”、“评级”和“产品规格”。然而,如上所示,在本发明的一实施方式中,在内容类型类别275下列出的类别可取决于网页观0的性质(例如,公司网站或视频共享网站的网页)。可从存储236中检索数据276以便包括在搜索结果说明224中。例如,信息292被提供给搜索结果说明生成器218。一旦已经汇编(即,提取/接收并分类)关于网页的信息,该信息就可供用来响应于搜索查询而构造搜索结果说明。如上所示,客户机212发送的搜索查询240由搜索器214 诸如通过使用搜索查询接收器244来接收。附图标记239表示在分解图237中示出的用于描绘搜索查询233a (例如,“*price*lapt0p XL900”233b)的信息,该搜索查询233a由搜索查询接收器244接收并对应于客户机212发送的搜索查询M0。在一种实施方式中,搜索查询接收器244确定用户上下文(例如,产品研究 M6b)。用户上下文可描述用户或客户机的各方面,诸如在提交查询时的用户目标(例如,商业、研究、个人/企业定位器等)以及可用于呈现搜索结果说明的客户机212的能力 (例如,屏幕可操作区域)。在本发明的各实施方式中,用户上下文用于预测可能与提交搜索查询239的用户最相关的信息类别(例如,最终选自内容类型类别275的信息),以使得所预测的信息类别被包括在响应于搜索查询239而提供的搜索结果说明中。搜索查询接收器244可评估与用户上下文相关的各种因素。例如,搜索查询233a的文本可独立推断特定用户上下文。如图加所示,包括“产品研究”446b的用户上下文M6a已被分配“I^rice Laptop XL900”233b,这暗示用户上下文M6a可能基于文本 "price (价格)”和“ laptop XL900 (膝上型计算机XL900) ”。此外,搜索查询接收器244所考虑的其他因素可包括客户机212的浏览历史、时刻、客户机212的购买历史、存储在客户机212上的日期的日历等。在一种实施方式中,用户通过在垂直信息排列(例如,购物、旅游等)中明确地导航来指示用户上下文。除了 “产品研究”之外,与用户上下文相关的若干替换用户目标可被分配给搜索查询并且每一个替换用户目标可制定出不同的预测信息类别的集合。其他示例性用户目标包括个人标识,其中所预测的信息类别可包括联系信息、社交网络简档、图像和职业; 多媒体搜索,其中所预测的信息类别可包括标题、歌词、长度、文件大小和用户评级;地点定位器,其中所预测的信息类别可包括地图位置;实体标识符,其中所预测的信息类别可包括营业时间和联系信息;公司评论,其中所预测的信息类别可包括股票信息和最近新闻;阅读文献搜索,其中所预测的信息类别可包括作者、出版日期和用户评级;研究论文,其中所预测的信息类别可包括作者和出版日期;引用资源(例如,在线词典),其中所预测的信息类别可包括出版日期和条目概述;博客,其中所预测的信息类别可包括最新发帖;以及技术数据搜索,其中所预测的信息类别可包括代码摘录和文件大小。在一种实施方式中,搜索查询接收器244可标识适用于给定搜索查询的不止一个用户目标。因此,搜索查询接收器244将置信度量分配给该不止一个用户目标中的每一个, 以使得不止一个用户目标被分配给搜索查询。这一置信度分数可暗示用户上下文被认为是准确的程度。在一替换实施方式中,搜索查询接收器244可以不标识任何用户上下文,在这种情况下默认用户上下文被分配给搜索查询。在另一实施方式中,搜索查询接收器244可标识被包括在搜索查询233a中的触发单词,以使得所标识的触发单词提供对将与搜索查询233a相关的信息的特定洞察。例如, 标记(即,用星号)搜索查询23 以使得‘“price*”已被标识为触发单词,由此向操作环境210的其他组件指示价格相关信息很有可能与搜索查询233a相关。基于上述内容,若干不同的因素可能影响用户上下文246a。这些不同的因素可包括用户目标(例如,购买或评论产品)、触发单词、客户机212能力(例如,屏幕可操作区域和其他浏览器特性)、浏览历史、购买历史、语言、日期、时刻、用户的即将到来的约会、已知其他已安排事件(例如,公共事件)、用户人口统计信息以及用户指定的偏好(例如,更多结果更少细节)。其他因素可包括从点击图得出的推断、当前搜索引擎垂直信息排列(例如, web、图像、新闻等)、或者域级别任务页面(例如,投资者数据、联系人等)。在一种实施方式中,可对这些因素进行加权以使得特定因素比其他因素更多地影响用户上下文。例如,可对用户目标和触发单词进行加权以便对用户上下文造成比时刻更大的影响。上述内容旨在成为示例以示出在确定如何评估搜索查询时用户上下文可包括若干不同的考虑因素。搜索结果标识器245用于引用网页索引247以标识与搜索查询233a相关的搜索结果对2。搜索结果242出于说明目的以分解图249示出。分解图249描绘了示例性搜索结果,该搜索结果包括响应于搜索查询233a的由搜索结果标识器标识的“www. buy. laptops/ XL900”251。尽管搜索查询接收器244和搜索结果标识器M5出于说明目的而被描绘为单独组件,但搜索查询接收器244和搜索结果标识器245可被组合成接收搜索查询、确定用户上下文并标识搜索结果的单个组件。在本发明的一实施方式中,搜索结果说明生成器218从搜索器214接收信息沈0。 例如,信息260可指示用户上下文(例如,246)、搜索结果(例如,251)以及与搜索查询(例如,233a)相关联的触发单词。此外,客户机212的呈现能力(未描绘)还可被提供给搜索结果说明生成器218。在一种实施方式中,搜索结果说明生成器218包括聚集器四0,该聚集器收集信息260和四2以供搜索结果说明生成器218使用。参考更详细地描绘搜索结果说明生成器218的图2b,数据281包括已经有聚集器290收集的信息。数据出于说明目的用分解图282描绘,并且分解图282示出来自搜索器214和网页相关内容汇编器216 两者的信息可由搜索结果说明生成器218用来合成搜索结果说明224。继续参考图2b,在另一实施方式中,聚集器290将数据281传递给类别排名器观4。类别排名器观4确定类别的相关性,由于每一个类别都与搜索查询243相关,因此这些类别在内容类型类别294下列出。类别排名器284可基于用户上下文246来确定内容类型类别四4中的特定类别比其他类别更与搜索查询243相关。例如,类别排名器284可确定当用户上下文246是“产品研究”时,“产品id” 271和“价格” 273与搜索查询243最相关。 这一示例性实施方式由分解图287描绘,其中“产品id”已经接收到排名“1”而“价格”已经接收到排名“2”。在一替换示例中,如果用户上下文246包括“个人标识”,则“图像” 283 和“社交网络简档”(未描绘)可被排名器认为是最相关的。除了考虑用户上下文之外,类别排名器284在确定类别相关性时还可考虑搜索查询的实际文本。例如,如果一个搜索查询包括“read XL900 reviews (阅读XL900评论)”而一替换搜索查询包括“buy XL900 online (在线购买XL900) ”,则可将用户上下文“产品研究”分配给这两个搜索查询;然而,类别排名器284可以针对“read XL900 reviews”给“评级” 277分配更高相关性并且针对“buy XL900 online”给“价格” 273分配更高评级。此外,在用户上下文的置信度量已经由搜索器214提供给搜索结果说明生成器218的情况下, 类别排名器284可以在对每一个内容类型类别进行排名时考虑该置信度量。在另一实施方式中,类别排名器284将信息286传递给说明设计器观8,该说明设计器用于构造搜索结果说明224。信息观6出于说明目的用分解图287描绘。分解图287 描绘信息286包括已经被分类成各个类别的信息,这些类别中的某一些已经由类别排名器 284进行排名。除了经排名的内容类型类别291之外,分解图还描绘了搜索查询(例如,“*price*laptop XL900”293b)和用户上下文299a(例如,产品研究,所有这些都可由说明设计器288用来构造搜索结果说明224。在接收到数据286后,说明设计器288方便构造搜索结果说明224。在本发明的一种实施方式中,说明设计器288检索被分配给用户上下文的说明模板。图4描绘了三个示例性说明模板401、402和403。一般而言,说明模板401、402和403包括可由说明设计器288填充的一组预先安排的信息字段(例如,410、412和418)。在一种实施方式中,说明模板是用户上下文专用的,以使得用于“产品研究”的说明模板402可包括信息字段(例如,414和416),这些信息字段以与为个人标识说明定制的说明模板403的信息字段(例如,418和420)不同的格局安排。在另一实施方式中,说明模板通过考虑各种因素来选择, 诸如用户上下文、网页相关内容的汇编量、客户机设备的能力、包括在网页相关内容的汇编中的信息的质量或其组合。例如,在只有少量信息可用的情况下,可选择具有更少可填充字段的模板。另一方面,如果较大量的信息可用,则可选择具有更多可填充字段的模板。在另一实施方式中,说明模板可包括不同等级的可填充字段,以使得为说明设计器288提供随取决于检索到的说明模板的说明内容而变化的控制级别。例如,可选择说明模板401和402两者来构造与产品研究用户上下文相关的说明。然而,说明模板401包括信息字段410,该信息字段将用相关信息以及描述该相关信息的标签来填充。例如,当相关信息包括许多给定产品的RAM时,相关信息标签可包括“产品规格”。相反,说明模板402被预先配置成包括“价格”标签和“评级”标签,以使得说明设计器288在构造说明时可被限于这些信息类别。说明设计器288诸如通过考虑影响用户上下文的各种因素(例如,用户目标、触发单词等)来确定将使用什么信息来填充检索到的说明模板的信息字段。例如,如果检索到模板401来构造搜索结果说明224,则说明设计器288确定在信息字段410、412和422中包括什么信息。说明设计器288还可定制说明标题430。在一种实施方式中,可用于填充说明模板的信息量等于或少于被允许填充说明模板的信息量,以使得使用所有可用信息来填充。在一替换实施方式中,可用于填充说明模板的信息量多于被允许填充说明模板的量,以使得说明设计器288评估数据286中所提供的信息以确定在搜索结果说明2M中包括哪些信息。例如,说明设计器288可选择将排名最高的信息(例如,产品ID和价格)包括在搜索结果说明2M中。此外,说明设计器可识别需要填充图像字段422并且自动选择图像数据沈5。此外,说明设计器288可识别“*priCe*”已被标记为特别相关,并且格式化定价信息沈3以用更突出的方式(例如,较大和/或彩色字体)来呈现该定价信息。在另一实施方式中,说明设计器288可以在标题430中包括产品标识,由此开放式信息字段412将用评级信息297来填充。参考图3,搜索结果说明312描绘了已经由说明设计器288构造的示例性说明。如图所描绘的,已经在信息字段316和318处选择并填充被认为与搜索结果说明 312特别相关的信息。此外,更突出地显示描绘定价信息的信息字段318。在另一实施方式中,搜索结果说明2M被提供给客户机212。例如,图2b描绘信息 211被发送到客户机212。信息211出于说明目的以分解图213示出并且包括呈现一组搜索结果说明的网页,每一个搜索结果说明表示相应网页的内容。本发明的一种实施方式包括其上具有计算机可执行指令的计算机可读介质,这些指令在被执行时使得计算设备执行一种生成归纳网页内容的搜索结果说明的方法。参考图5,在一种实施方式中,方法510包括接收512用于确定用户上下文的搜索查询并且确定514 网页作为搜索查询的结果是合格的。方法510还包括引用516网页相关内容的汇编,该内容汇编与网页内容相关并且被分类成一个或多个内容类型类别。在步骤518,为一个或多个内容类型类别中的每一个分配相应的相关性排名。该相应的相关性排名建议对相应的内容类型类别与用户上下文的相关性的度量。方法510还包括选择520描述网页相关内容的至少一部分的经排名的内容类型类别,并且提供522包括该网页相关内容的至少一部分的搜索结果说明。参考图6,另一实施方式包括一种生成归纳网页内容的搜索结果说明的方法610, 该方法通过处理器以及一个或多个计算机可读介质执行。方法610包括从网页中提取612 非结构化数据并且将该非结构化数据分类614成一个或多个内容类型类别。另外,步骤616 包括为一个或多个内容类型类别分配相关性排名。该相关性排名建议一个或多个内容类型类别与从搜索查询推断的用户上下文的相关性的度量。方法610还包括选择618描述非结构化数据的至少一部分的经排名的内容类型类别。在步骤620,提供包括非结构化数据的至少一部分的搜索结果说明。在一种实施方式中,搜索结果说明包括描述非结构化数据的至少一部分的标签。本发明的另一实施方式包括一种系统,该系统包括处理器以及一个或多个计算机可读介质,该系统执行一种生成归纳网页内容的搜索结果说明的方法。该系统包括非结构化数据提取器232和非结构化数据分类器234,非结构化数据提取器232从网页中提取非结构化数据,非结构化数据分类器234将非结构化数据分类成一个或多个内容类型类别。该系统还包括接收搜索查询的搜索查询接收器对4,其中从该搜索查询中推断用户上下文。网页被认为是搜索查询的搜索结果。该系统还包括类别排名器观4,该类别排名器284为一个或多个内容类型类别中的每一个分配相应排名。该排名建议了相对于用户上下文的相关性的度量。该系统还包括说明设计器观8,该说明设计器288选择描述非结构化数据的至少一部分的经排名的内容类型类别并将搜索结果说明配置成包括该非结构化数据的至少一部分。所描绘的各组件以及未示出的组件的许多不同的安排都是可能的,而不背离所附权利要求书的精神和范围。已带着说明而非限制的意图描述了本技术的各实施例。在阅读本发明之后或由于阅读了本发明,替换实施例将变得对本发明的读者显而易见。可完成实现上述的替换装置而不脱离所附权利要求书的范围。某些特征和子组合是有用的,并且可以使用而无需参考其他特征和子组合并且被认为是在权利要求书的范围之内的。
权利要求
1.一种或多种其上包含计算机可执行指令的计算机可读介质,所述指令在被执行时使得计算设备执行一种构造表示网页的内容的搜索结果说明的方法,所述方法包括接收(51 用于确定用户上下文046a)的搜索查询; 确定(514)所述网页(250)作为所述搜索查询的搜索结果051)是合格的; 引用(516)网页相关内容的汇编076),所述网页相关内容的汇编与所述网页的内容相关并且被分类成一个或多个内容类型类别(275);为所述一个或多个内容类型类别中的每一个分配(518)相应的相关性排名,其中所述相应的相关性排名建议对相应的内容类型类别与所述用户上下文的相关性的度量。选择(520)描述所述网页相关内容的至少一部分的经排名的内容类型类别(291);以及提供包括所述网页相关内容的至少一部分的搜索结果说明(224)。
2.如权利要求1所述的一种或多种计算机可读介质,其特征在于,所述网页相关内容的汇编包括从所述网页中提取的非结构化数据,并且所述非结构化数据被分类成所述一个或多个内容类型类别。
3.如权利要求1所述的一种或多种计算机可读介质,其特征在于,所述网页相关内容的汇编包括从也包括所述网页的网站的第二网页中提取的非结构化数据,并且所述非结构化数据被分类成所述一个或多个内容类型类别。
4.如权利要求1所述的一种或多种计算机可读介质,其特征在于, 所述网页相关内容的汇编包括从馈源数据中提取的结构化数据,并且所述结构化数据被分类成所述一个或多个内容类型类别。
5.如权利要求1所述的一种或多种计算机可读介质,其特征在于,所述方法包括填充被定制成呈现与所述用户上下文相关的信息的说明模板,其中所述说明模板基于以下内容来选择所述用户上下文、许多所述网页相关内容的汇编、客户机设备的能力、被包括在所述网页相关内容的汇编中的信息的质量或其组合。
6.如权利要求5所述的一种或多种计算机可读介质,其特征在于,所述说明模板包括用一般表示所述网页的内容的文本来填充的第一信息字段,并且其中所述说明模板包括用所述网页相关内容的至少一部分来填充的第二信息字段。
7.—种生成归纳网页的内容的搜索结果说明的方法,所述方法通过处理器以及一个或多个计算机可读介质执行,所述方法包括从所述网页O50)中提取(612)非结构化数据058); 将所述非结构化数据分类(614)成一个或多个内容类型类别(275); 为所述一个或多个内容类型类别分配(616)相关性排名,其中所述相关性排名建议对所述一个或多个内容类型类别与从搜索查询推断的用户上下文的相关性的度量;选择(618)描述所述非结构化数据的至少一部分的经排名的内容类型类别091);以及提供(620)包括所述非结构化数据的至少一部分的搜索结果说明OM),其中所述搜索结果说明包括描述所述非结构化数据的至少一部分的标签(414)。
8.如权利要求12所述的方法,其特征在于,还包括从与所述网页共享共同网站的另一网页中提取网页相关内容,其中所述网页相关内容包括所述另一网页的结构化数据,所述另一网页的非结构化数据或其组合,并且所述搜索结果说明包括所述另一网页的结构化数据、所述另一网页的非结构化数据或其组合。
9.如权利要求12所述的方法,其特征在于,还包括从不与所述网页共享共同网站的另一网页中提取网页相关内容,其中所述网页相关内容包括所述另一网页的结构化数据,所述另一网页的非结构化数据或其组合,并且所述搜索结果说明包括所述另一网页的结构化数据、所述另一网页的非结构化数据或其组合。
10.如权利要求12所述的方法,其特征在于,还包括从不与所述网页共享共同网站的另一网页中提取网页相关内容,其中所述网页相关内容包括所述另一网页的结构化馈源数据,并且所述搜索结果说明包括所述另一网页的结构化馈源数据。
11.如权利要求12所述的方法,其特征在于,分配所述相关性排名包括对各种因素的组合进行加权,这些因素包括所述对相关性的度量、除了建议所述非结构化数据的质量水平的第一质量分数之外的建议所提取的任何结构化数据的质量水平的第二质量分数、建议所述用户上下文被认为是准确的程度的置信度分数或其组合。
12.一种包括处理器以及一个或多个计算机可读介质的系统,所述系统执行一种生成归纳网页的内容的搜索结果说明的方法,所述系统包括从所述网页(250)中提取非结构化数据058)的非结构化数据提取器032); 将所述非结构化数据分类成一个或多个内容类型类别(275)的非结构化数据分类器 (234);接收搜索查询(233a)的搜索查询接收器044),其中用户上下文046a)从所述搜索查询033a)中推断,并且所述网页(250)被认为是所述搜索查询的搜索结果051);类别排名器(284),所述类别排名器(观4)为所述一个或多个内容类型类别中的每一个分配建议对与所述用户上下文的相关性的度量的相应排名;以及说明设计器(288),其中所述说明设计器选择描述所述非结构化数据的至少一部分的经排名的内容类型类别 (四1),并且所述说明设计器将所述搜索结果说明(224)配置成包括所述非结构化数据的至少一部分。
13.如权利要求17所述的系统,其特征在于,所述非结构化数据提取器从与所述网页共享共同网站的另一网页中提取非结构化数据。
14.如权利要求17所述的系统,其特征在于,还包括结构化数据提取器和结构化数据分类器,所述结构化数据提取器从其他网页中提取结构化数据,所述结构化数据分类器将所述结构化数据分类成一个或多个内容类型类别。
15.如权利要求17所述的系统,其特征在于,所述非结构化数据提取器和非结构化数据分类器包括基于与已经标识的非结构化数据的相似性来对所提取的非结构化数据进行分类的定制爬行器。
全文摘要
本发明涉及构造表示搜索结果(例如,网页)的内容的搜索结果说明。对从网页和/或其他网页提取的信息进行分类并基于感知到的与用户上下文的相关性来对这些信息进行排名。然后比较所提取的信息以便包括在搜索结果说明中,以便提供准确地反映网页内容并且与用户上下文相关的说明。
文档编号G06F17/30GK102163217SQ20111007207
公开日2011年8月24日 申请日期2011年3月15日 优先权日2010年3月15日
发明者A·奈尔, A·阿里, D·马兰兹, G·万卡塔拉曼, I·约翰逊, M·严, P·殷, R·塞沙蒂里纳萨, R·纳塔拉詹, S·博德罗, S·周, T·胡恩, T·霍德 申请人:微软公司