专利名称:主题区讨论的自动发现聚集和组织的制作方法
主题区讨论的自动发现聚集和组织
背景技术:
用户通常对特定主题区感兴趣,并且想要深入地覆盖这些主题区内的事件和主题 的讨论。然而,用户通常难以快速发现这些信息。在一些情况下,用户可以尝试采用搜索引 擎来搜索给定主题区内的事件和主题的讨论。这需要用户向搜索引擎提交搜索查询以接收 搜索结果。通常,搜索引擎返回大量文档或网页地址,并且随后将筛选文档、链接的这一列 表以及相关联的信息来发现该主题区内的事件或主题的讨论留给用户处理。这一过程对用 户而言是麻烦的、令人沮丧并且耗时,并且作为结果,对用户而言,这一过程是发现感兴趣 的主题区内的事件和主题的讨论的低效方式。当前存在着聚集主题区的事件和主题的讨论的多种服务。例如,诸如必应(BING) 新闻垂直面和谷歌(GOOGLE)新闻垂直面等新闻垂直面将围绕给定事件的新闻故事聚集成 聚类,从而允许用户查看特定新闻事件的不同讨论。然而,当前聚集服务一般在范围上很有 限,只覆盖单个主题区或有限数量的主题区。例如,主题区是高级的,如政治、体育、科学/ 技术。另外,当前聚集服务通常需要来自负责开发和促进这样的聚集服务所提供的聚集的 编辑人员的大量人类努力。或者,一些当前聚集服务从接收到同等的人类编辑努力的现有 新闻服务中进行提取。
发明内容
提供本“发明内容”是为了以精简的形式介绍将在以下“具体实施方式
”中进一步 描述的一些概念。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征,也 不旨在用于帮助确定所要求保护的主题的范围。本发明的各实施方式涉及基于一组种子搜索查询并充分利用搜索引擎数据来群 集主题区内的事件和主题的web讨论的聚集服务。在各实施方式中,该聚集服务的编辑人 员选择特定主题区并开发一组种子搜索查询,它可以是该编辑人员相信与该特定主题区相 关的一小组搜索查询。作为替换或补充,该编辑人员标识与该编辑人员相信与该特定主题 区相关的文档相对应的一组种子URL。如果提供了一组种子查询,则结合搜索引擎数据使 用该组种子搜索查询来标识与该主题区相关的统一资源定位符(URL)的列表。如果提供了 一组种子URL,则可通过算法确定相关的URL以标识与该特定主题区相关的附加URL。以给 定的时间间隔爬行所标识的URL (并且在一些实施方式中,链接到这些URL的URL和从这些 URL链接出去的URL)以标识各个内容项,每一内容项与来自所爬行的URL的事件或主题的 讨论相对应。使用分类器来分析各内容项以标识与该主题区相关的内容项并过滤出与该主 题区不相关的内容项。随后将相关内容项编组成内容项的聚类。每一个聚类包括围绕该主 题区内的给定事件或主题的讨论。还将各个聚类进行排名以便于确定向最终用户呈现事件 的次序。上述过程可以对各种不同的主题区执行。最终用户可以访问聚集服务并选择感兴 趣的特定主题区。在最终用户选择特定主题区时,将所选主题区内的事件和/或主题的讨 论的聚类呈现给最终用户。
下面将参考附图详细描述本发明,附图中图1是适用于实现本发明的各实施方式的示例性计算环境的框图;图2是示出其中可以使用本发明各实施方式的示例性系统的框图图3是根据本发明的一实施方式的示例性聚集服务器的框图;以及图4是示出根据本发明的一实施方式的用于聚集给定主题区内的事件和主题的 web讨论的方法的流程图。
具体实施例方式此处用细节来描述本发明的主题以满足法定要求。然而,该描述本身并非旨在限 制本专利的范围。相反,发明人设想所要求保护的主题还可结合其他当前或未来技术按照 其他方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽 管术语“步骤”和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当 明确描述了各个步骤的次序时,该术语不应被解释为意味着此处公开的各个步骤之中或之 间的任何特定次序。本发明的各实施方式提供用于使用一组种子搜索查询和/或一组种子URL来群集 围绕给定主题区内的事件和主题的讨论的聚集服务。因此,本发明的一个实施方式针对存 储计算机可使用指令的一个或多个计算机存储介质,当这些指令由一个或多个计算设备使 用时,使该一个或多个计算设备执行一种方法。该方法包括接收包含被手动确定为与给定 主题区相关的输入搜索查询的初始一组搜索查询。该方法还包括通过分析搜索引擎会话数 据以标识与该输入搜索查询相关的附加搜索查询来生成已扩展的一组搜索查询,该已扩展 的一组搜索查询包括输入搜索查询和附加搜索查询。该方法还包括使用该已扩展的一组搜 索查询来标识与给定主题区相关的URL并周期性地爬行与该URL相关联的文档以提供来自 该URL的内容项。该方法还包括采用分类器来标识相关内容项,相关内容项由分类器确定 为与给定主题区相关。该方法还包括将相关内容项群集成聚类,每一聚类包括与给定主题 区内的特定事件或主题相关联的一组内容项,其中群集是至少部分地基于相关内容项之间 的超链接来执行的。该方法还包括将各个聚类相对于彼此进行排名,其中各聚类是至少部 分地基于从社交网络站点到与相关内容项的URL的超链接的存在来排名的。该方法还包括 生成允许用户查看并与各聚类进行交互的用户界面。在本发明的另一实施方式中,一个方面针对存储计算机可使用指令的一个或多个 计算机存储介质,当这些指令由一个或多个计算设备使用时,使该一个或多个计算设备执 行一种方法。该方法包括接收由聚集服务的管理员手动地确定为与给定主题区相关的多个 种子搜索查询和/或种子URL。该方法还包括至少部分地基于该多个种子搜索查询和/或 种子URL来标识多个URL并爬行与URL相对应的文档以从该文档中标识与给定主题区相关 的内容项。该方法还包括将这些内容项群集成聚类。该方法还包括将这些聚类相对于彼此 进行排名。本发明的又一实施方式针对由一个或多个计算设备执行来标识并群集与所选主 题区相关的web讨论的一种方法。该方法包括由第一计算进程基于被手动地确定为与所选 主题区相关的搜索查询来标识与所选主题区相关的网页。该方法还包括由第二计算进程标识关于与所选主题区相关的网页的讨论。该方法还包括由第三计算进程将这些讨论群集成 聚类,每一聚类包括关于特定主题或事件的一组讨论。第一、第二和第三计算进程由该一个 或多个计算设备执行。在简要描述了本发明各实施方式的概览之后,以下描述其中可实现本发明的各实 施方式的示例性操作环境,以便为本发明各方面提供通用上下文。首先具体参考图1,示出 了用于实现本发明的各实施方式的示例性操作环境,并将其概括地指定为计算设备100。计 算设备100只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出 任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或 要求。本发明可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器 执行的计算机代码或机器可使用指令(包括诸如程序模块之类的计算机可执行指令)的一 般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执 行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施,这些系 统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明也可以在 其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。参考图1,计算设备100包括直接或间接耦合以下设备的总线110 存储器112、一 个或多个处理器114、一个或多个呈现组件116、输入/输出端口 118、输入/输出组件120、 和说明性电源122。总线110可以是一条或多条总线(诸如地址总线、数据总线、或其组 合)。虽然为了清楚起见利用线条示出了图1的各框,但是实际上,各组件的轮廓并不是那 样清楚,并且比喻性地来说,线条更精确地将是灰色的和模糊的。例如,可以将诸如显示设 备等呈现组件认为是I/O组件。而且,处理器具有存储器。可以认识到,这是本领域的特性, 并且重申,图1的图示只是例示可结合本发明的一个或多个实施方式来使用的示例性计算 设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它 们全部都被认为是在图1的范围之内的并且被称为“计算设备”。计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算设 备100访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作 为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质 包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法 和技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于, RAM、ROM、EEPR0M、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储、 磁带盒、磁带、磁盘存储或其他磁存储设备、或能用于存储所需信息且可以由计算设备100 访问的任何其他介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现 计算机可读指令、数据结构、程序模块或其他数据,并包括任一信息传送介质。术语“已调制 数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作 为示例而非限制,通信设备介质包括有线介质,如有线网络或直接线连接,以及诸如声学、 射频(RF)、红外线及其他无线介质之类的无线介质。上述的任意组合也应包含在计算机可 读介质的范围内。存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可 以是可移动的、不可移动的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120等各种实体读取数据的一 个或多个处理器。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显 示设备、扬声器、打印组件、振动组件等等。I/O端口 118允许计算设备100逻辑上耦合至包括I/O组件120的其他设备,其 中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描 仪、打印机、无线设备等等。现转向图2,提供了示出在其中可以采用本发明的各实施方式的示例性系统200 的框图。应当理解,此处所描述的这一和其他安排仅作为示例来阐明。除了所示的安排和 元素之外,或作为其替代,可使用其他安排和元素(例如,机器、接口、功能、次序、以及功能 组等),并且可完全省略某些元素。此外,此处所描述的许多元素是可以实现为分立或分布 式组件或结合其他组件的、以及以任何合适的组合和在任何合适的位置的功能实体。此处 被描述为由一个或多个实体执行的各种功能可由硬件、固件和/或软件来执行。例如,各种 功能可由执行存储在存储器中的指令的处理器来执行。系统200可包括聚集服务器202、内容服务器204、206以及用户设备208,以及其 他未示出组件。图2所示的组件中的每一个都可以是任何类型的计算设备,诸如例如参考 图1描述的计算设备100。各组件可以经由网络210彼此通信,网络210包括但不限于一个 或多个局域网(LAN)和/或广域网(WAN)。这样的联网环境常见于办公室、企业范围计算机 网络、内联网和因特网中。应理解,在本发明范围内,可在系统200内采用任何数量的聚集 服务器、内容服务器以及用户设备。它们各自可包括单个设备或在分布式环境中协作的多 个设备。例如,聚集服务器202可包括安排在分布式环境中共同提供此处描述的聚集服务 的功能的多个设备。另外,在系统200内还可包括其他未示出的组件。诸如内容服务器204和206等内容服务器可以维护各种内容,如网页。例如,内容 服务器204和206可各自是维护多个网页的web服务器。一般而言,系统200示出在其中 聚集服务器202爬行存储在诸如内容服务器204和206等内容服务器上的网页的内容并根 据给定主题区来聚集内容的环境。通过访问和聚集来自各内容服务器的内容,聚集服务器202可以向诸如用户设备 208等用户设备提供所聚集的内容。具体而言,用户212可以使用用户设备208上的web浏 览器或其他机制来与聚集服务器202进行通信。例如,用户可以查看根据特定主题区所聚 集的内容。该内容可以在多个不同的聚类中提供。在各实施方式中,每一聚类包括被标识 为针对真实世界中的特定事件或主题的一组内容。现在参考图3,将详细描述根据本发明的一实施方式的示例性聚集服务器300。聚 集服务器300可包括种子查询组件302、查询扩展组件304、URL查看列表生成组件306、爬 行器308、分类器组件310、群集组件312、排名组件314和用户界面组件316,以及其他未示 出组件。每一组件可包括程序、例程、应用程序或能够执行此处所讨论的动作的其他机器可 执行代码。本领域技术人员将认识到,图3中示出的组件只是出于说明性的目的提供的,并 且其他安排可以根据本发明的各实施方式来提供。如上所述,聚集服务器300可包括单个 计算设备,但聚集服务器300可能经由分布式计算环境中的多个计算设备来实现。一般而言,聚集服务器300使用手动地确定为与给定主题区相关的一组种子搜索 查询来标识并聚集与该给定主题区有关的内容。聚集服务器300包括用于从与该聚集服务
8相关联的管理员/编辑人员接收一组种子搜索查询的种子查询组件302。在操作中,与聚 集服务器300所提供的聚集服务相关联的编辑人员选择感兴趣的主题区。另外,编辑人员 确定该编辑人员相信将覆盖感兴趣的主题区的一组种子查询。例如,该编辑人员可以决定 创建围绕“足球”的聚集来作为主题区并可以生成以下搜索查询来作为一组种子搜索查询 {足球},{世界杯},{fifa},{大联盟足球},IUEFA冠军联赛},{英超联赛},{美式足 球},以及{足球规则}。在各实施方式中,该组种子查询可包括少量搜索查询。例如,在一些实施方式中, 该组种子查询可包括10个或更少搜索查询。在一些实施方式中,该组种子查询可包括单个 搜索查询。查询扩展组件304操作该组种子查询以标识已扩展的一组搜索查询。例如,查询 扩展组件304可以使用包括10个或更少搜索查询的一组种子查询来生成可包括数百或数 千搜索查询的已扩展的一组搜索查询。如本领域技术人员可以理解的,各种不同的算法和技术可用于标识与给定搜索查 询相关的搜索查询。根据本发明的各实施方式,用于标识相关查询的任何现有技术可被用 来标识与该组种子查询相关的搜索查询。在一些实施方式中,查询扩展组件304使用搜索引擎会话数据来标识与该组种子 查询中的搜索查询相关的附加搜索查询。根据本发明的各实施方式,可采用各种不同搜索 引擎会话数据中的任一种。一般而言,搜索引擎会话数据可包括与最终用户提交给搜索引 擎的搜索查询、响应于该搜索查询提供的搜索结果、以及用户响应于所提交的搜索查询而 选择(或“点击”)的搜索结果有关的信息。仅作为示例而非限制,搜索引擎会话数据可包 括搜索引擎日志文件、查询-点击图、查询柱状图、搜索引擎工具栏数据以及web浏览数据 (例如,浏览网页的用户的用户行为日志)。基于这样的搜索引擎会话数据,可以基于例如 标识在用户的同一搜索会话内提交的搜索查询来确定相关查询。作为另一示例,可以将造 成相似搜索结果的搜索查询标识为相关的。此外,可以基于来自搜索查询的相似的搜索结 果被用户响应于搜索查询而选择来将该搜索查询标识为相关的。作为另一示例,可以使用 对查询-点击图的随机-走查来标识相关搜索查询。如本领域已知的,查询-点击图通常 是基于搜索引擎会话数据生成的二分图,其中各节点表示用户提交的搜索查询和用户选择 的搜索结果(即,URL),而各节点之间的边标识用户响应于搜索查询而选择的搜索结果。同 样,上述用于标识相关搜索查询的技术只是出于说明性的目的来提供的,并且本发明的各 实施方式可以采用用于标识相关搜索查询的各种技术的任何组合来将初始一组种子查询 扩展成已扩展的一组搜索查询。URL查看列表生成组件306标识与给定主题区相关的URL。在一些实施方式中,与 给定主题区相关的URL是基于搜索查询来确定的。在一些情况下,URL查看列表生成组件 306可以单单基于来自种子查询组件302的一组种子查询来确定相关的URL。在这样的实 施方式中,查询扩展组件304可被排除。在其他情况下,URL查看列表生成组件306可以基 于来自查询扩展组件304的已扩展的一组搜索查询来确定相关的URL。该已扩展的一组搜 索查询可包括一组种子查询和由查询扩展组件304确定为与该种子查询相关的附加搜索 查询。在又一些实施方式中,一组种子URL可由聚集服务的管理员手动地选择并提供给URL 查看列表生成组件306。在这样的实施方式中,查询扩展组件304、URL查看列表生成组件306和/或另一组件可以扩展种子URL以标识其他相关的URL。在又一些实施方式中,查询 扩展组件304、URL查看列表生成组件306和/或另一组件可以操作一组种子查询和一组种 子URL以扩展该种子查询/URL并为该URL查看列表标识一组相关的URL。任何及所有变型 都被构想为落在本发明的各实施方式的范围内。根据本发明的各实施方式,可以使用多种不同的技术基于搜索查询来标识相关的 URL。在一些实施方式中,URL查看列表生成组件306可以使用搜索引擎会话数据来标识相 关的URL。如上所述,搜索引擎会话数据可包括搜索引擎日志文件、查询-点击图、查询柱状 图、搜索引擎工具栏数据以及web浏览器数据。URL查看列表生成组件306可以使用用于供 查询扩展组件304确定上述相关性来标识相关搜索查询的相似技术来标识相关的URL。例 如,作为来自该组搜索查询的阈值数量的搜索查询的搜索结果而返回的URL可被确定为是 相关的。作为另一示例,用户响应于来自该组搜索查询的阈值数量的搜索查询而从搜索结 果中选择的URL可被确定为是相关的。在一些情况下,可以选择来自执行搜索查询的排名 靠前的URL。来自社交网络的链接也可被用来标识主题区内的感兴趣的URL。可以通过检 查社交网络用户的超链接中的多个主题区来将他们标识为对主题区感兴趣,或者以编辑身 份将他们标识为作为主题区内容的发布者的社交网络用户。任一组所标识的用户所发布的 链接随后可被添加到该主题区的URL查看列表。本领域技术人员将认识到,可以使用各种 技术基于一组搜索查询来标识相关URL。在一些实施方式中,关于用户浏览历史的信息也可被用来确定相关的URL。例如, 一些用户允许搜索引擎跟踪用户的浏览历史。这样的信息可以将一些URL标识为与已基于 搜索引擎会话数据被确定为是相关的其他URL高度相关。另外,web浏览信息可以帮助标 识哪些URL与给定主题区最相关。URL查看列表生成组件306生成标识与感兴趣的特定主题区相关的URL的URL查 看列表。URL查看列表中包括的信息可包括整个网站、网站的各部分和/或单独的网页。例 如,URL查看列表生成组件306可以确定整个网站或网站的一部分与特定主题区相关。在 这样的情况下,整个网站或网站的一部分中包括的所有URL都被包括为该URL查看列表的 一部分。然而,在一些情况下,URL查看列表组件306可以确定单独的网页是相关的,并且 与这些单独的网页相对应的URL可被添加到URL查看列表。尽管本发明的各实施方式针对使用一组搜索查询来通过算法标识相关的URLJfi 在一些实施方式中,编辑人员也可以将URL手动地标识为是相关的并且将这些手动地标识 的URL添加到URL查看列表。聚集服务器300还包括爬行器308。爬行器308可用于爬行URL查看列表生成组 件304所标识的网页和网站以标识新内容。在各实施方式中,爬行网页和网站的时间间隔 可以是可控制的。具体而言,可以按及时的方式来按足以标识新讨论的时间间隔来爬行网 页和网站。在一些实施方式中,爬行器308可以按与传统web爬行器所使用的方式相类似 的方式来操作并横跨超出URL查看列表之外。即,爬行器308可以沿着在当前被爬行的URL 查看列表中的URL处的文档内容中发现的附加链接进行。因为URL查看列表上的一些URL可以讨论多个不同的主题区,所以并非来自该URL 的所有新内容都将处于感兴趣的主题区内。如此,分类器组件310分析爬行器308所标识 的新内容。分类器组件310的目的是确定爬行器308所标识的新内容是否处于感兴趣的特定主题区内。换言之,分类器组件310用于过滤出与感兴趣的特定主题区不相关的所爬行 的内容。例如,继续其中感兴趣的主题区是“足球”的以上示例,URL查看列表可包括讨论除 足球之外的多个运动的网页。如此,分类器组件310操作从该网页爬行的内容以标识与足 球相关的内容项,同时移除与其他运动相关的内容项。在一些实施方式中,分类器组件310的分类器是通过爬行URL查看列表中的URL 以获得内容并使用现有技术来基于该内容创建感兴趣的特定主题区的语言模型来创建的。 仅作为示例而非限制,分类器可以是使用N元语法特征(例如,单元语法、双元语法、三元 语法等)的线性分类器、使用N元语法特征的决策树分类器、或使用N元语法特征的隐马 尔科夫0模型。在一些实施方式中,分类器可包括N元语法特征,如来自社交网络的信号 (例如,该系统可以标识特定用户喜欢足球和特定网页,所以该网页可被确定为是关于足球 的)。分类器组件310的输出是被标识为与感兴趣的主题区相关的未被群集的内容。群集组件312用于对来自分类器组件310的被标识为与感兴趣的特定主题区相关 的内容项进行群集。每一内容项与来自URL查看列表上的URL的事件或主题的讨论相对应。在本发明的各实施方式中,群集可以使用多种技术来执行。在一些实施方式中,群 集组件312分析内容项中的超链接以标识内容项之间的链接关系。这可以,例如,通过分析 其中节点表示内容项而节点之间的边表示一个内容项中的到另一内容项的超链接的链接 图来完成。在一些实施方式中,群集组件312将一个内容项标识为对真实世界中的特定事件 或主题的主讨论。在一些实施方式中,可以通过基于聚类中的各内容项的发布日期/时间 和从其他内容片段到一内容项的超链接来将该特定内容项标识为对事件或主题的原始讨 论来将该内容项标识为事件或主题的主讨论。例如,如果内容项B链接到内容项A,则内容 项B可能在内容项A之后出现并且对内容项A的讨论进行评论。作为具体示例,一个内容 项可以是关于遭受伤病的运动员的原始故事。另一内容项可以随后讨论这一伤病,超链接 到原始故事,并提供更多信息,如该运动员何时将可以再上赛场。在其他实施方式中,内容 项可以不是事件或主题的原始讨论,但是可以通过与到该聚类中的其他内容项的超链接的 数量相比,基于到该内容项的超链接的数量来被标识为主内容项。作为链接图群集的补充或替换,群集组件312可以使用其他群集技术。例如,在本 发明的一些实施方式中,群集组件312可以使用自组织群集,其中分析内容项的文本来标 识内容项之间的关系。在本发明的一些实施方式中,内容项的发布时间可被用来进行群集。 例如,如果两个内容项在相近的时间内发布,则这两个内容项更可能是相关的。在又一些实 施方式中,语言模型可被用来对内容项进行群集。群集组件312所执行的群集提供感兴趣的特定主题区内的多个事件聚类。每一事 件聚类都属于感兴趣的主题区内的特定事件或主题的讨论。如上所述,一个内容项可被标 识为对事件聚类的特定事件或主题的主讨论,而其他内容项被标识为对该主讨论进行评论 或与该主讨论相关。例如,事件聚类可以围绕特定足球比赛的结果。一个内容项可被标识 为该足球比赛的主讨论,而该聚类中的其他内容项可被标识为对该主讨论进行评论,或被 标识为该足球比赛的其他讨论。排名组件314用于对多个事件聚类相对于彼此进行排名。根据本发明的各实施方 式,排名组件314可以使用多种不同的排名技术。例如,在一些实施方式中,可以至少部分地基于每一事件聚类内的内容的发布日期和时间来执行排名。事件聚类中的内容项的发布 越近,该事件聚类接收到的排名越高。在一些实施方式中,排名可以至少部分地基于每一事 件聚类的大小(即,事件聚类的大小与该事件聚类内的单独的内容项的数量相对应)。聚类 越大,该聚类接收到的排名越高。事件聚类还可以至少部分地基于每一聚类内的内容的源 来进行排名。每一个源可以具有与该源相关的排名。源排名可以具有各种不同的因素,如最 终用户评论、聚集服务的编余人员的手动排名、基于来自源的单独的内容项的数量的排名、 以及基于到源所提供的内容项的超链接的数量的排名。事件聚类的排名也可以部分地基于 给定时间内发布的内容项的数量。例如,如果事件聚类包含在短时间内发布的大量内容项, 则该事件聚类将接收到较高的排名。搜索引擎会话数据和用户web浏览信息也可被用来对 聚类进行排名。具体而言,关于用户在进行web浏览时选择来自搜索结果的URL和/或访 问URL的频率的信息可被用来对事件聚类进行排名。在本发明的一些实施方式中,排名组件314可以将社交网络数据用于对事件聚类 进行排名。用户在因特网社交网络站点上对内容项的引用可以指示该内容项具有特定相关 性。例如,使用TWITTER社交网络站点的个人可以发出关于特定事件的tweet (消息)并在 该tweet中包括到讨论该事件的URL的链接。Tweet中超链接的存在可以指示特定事件是 流行的并且包括该事件的讨论的聚类的排名应当较高。社交网络数据可以从任何数量的社交网络站点获得,如FACEB00K、MYSPACE以及 TWITTER社交网络站点。在一些实施方式中,排名组件314标识来自社交网络站点的超链接 到与事件聚类内的内容项相对应的URL的内容。如此,排名组件314使用从社交网络站点 到与事件聚类内的内容项相对应的URL的超链接的存在来对事件聚类进行排名。在又一些 实施方式中,来自社交网络站点的超链接到与事件聚类内的内容项相对应的URL的内容被 添加到该事件聚类中。例如,对来自社交网络站点的内容的引用可以作为事件聚类的一部 分来呈现。聚集服务器300还包括便于用户查看各主题区内的经排名的事件聚类以及与它 的交互的用户界面组件316。根据本发明的各实施方式,聚集服务的编辑人员将选择各种 不同的主题区。对于每一主题区,编辑人员将手动地生成一组种子查询,该组种子查询将由 聚集服务器300处理来生成每一主题区内的经排名的事件聚类(如上所述)。用户界面组 件316提供允许用户浏览和/或搜索聚集服务提供的各主题区以选择特定主题区的用户界 面。在用户选择特定主题区时,根据对各事件聚类确定的排名来呈现该所选主题区内的事 件聚类,例如,按照从高排名到低排名的顺序列出各事件聚类。如此,用户可以查看与该特 定主题区内的最新的感兴趣的事件和主题有关的时论。每一事件聚类可以与该事件聚类内 的一个或多个内容项的标识和到与该一个或多个内容项相对应的URL的超链接一起呈现 在用户界面中。另外,每一事件聚类可以与描述该事件聚类的事件或主题的摘录一起呈现 在用户界面中。如上所述,一些实施方式将一个内容项标识为对事件或主题的主讨论并将其他内 容项标识为对该事件或主题的后续和/或相关讨论。在这样的实施方式中,用户界面能以 如下方式呈现事件聚类用户可以识别被标识为该事件或主题的主讨论的内容项。例如,事 件聚类可以与来自主内容项的标题和摘录以及其他内容项的仅标题一起呈现在用户界面 中。到每一原始内容项的超链接可以作为事件聚类的一部分来提供。
现在转向图4,提供了示出根据本发明的一实施方式的用于聚集给定主题区内的 事件和主题的web讨论的方法400的流程图。最初,如在框402处所示,接收一组种子搜索 查询和/或一组种子URL。该组种子搜索查询包括有聚集服务的编辑人员手动地确定为与 给定主题区相关的搜索查询。在一些实施方式中,该组种子搜索查询可包括少量搜索查询。 例如,该组种子搜索查询可包括10个或更少搜索查询。在一些实施方式中,该组种子搜索 查询可以是单个搜索查询。该组种子URL包括与编辑人员相信与给定主题区相关的文档相 对应的URL。在各实施方式中,种子URL的数量的范围从少量URL (例如,单个URL)到任意 数量的URL。如果接收到一组种子搜索查询,则如在框404所示,根据一些实施方式,扩展该组 种子搜索查询以生成已扩展的一组搜索查询。在本发明的各实施方式中,查询扩展可以使 用多种不同技术中的任何一种来执行。在一些实施方式中,搜索引擎会话数据可以用于查 询扩展。例如,与用户提交给搜索引擎的搜索查询、搜索引擎作为对搜索查询的回答而提供 的搜索结果、和/或搜索引擎返回的被用户选择的搜索结果相关的信息可被用来标识与种 子搜索查询相关的搜索查询。基于该已扩展的一组搜索查询和/或种子URL来生成URL查看列表,如在框406 所示。在一些实施方式中,该已扩展的一组搜索查询被用来标识与给定主题区相关的网站 和网页。仅作为示例而非限制,可以分析搜索引擎会话数据来标识与该已扩展的一组搜索 查询相关的URL。例如,可以分析搜索引擎会话数据以标识作为该已扩展的一组搜索查询中 的阈值数量的搜索查询的搜索结果而返回的URL。作为另一示例,可以分析搜索引擎会话数 据以标识用户从作为该已扩展的一组搜索查询中的阈值数量的搜索查询的搜索结果中选 择的URL。可以使用诸如对查询-点击图的随机走查等其他技术来基于该已扩展的一组搜 索查询标识相关的URL。本领域技术人员应当理解,上述用于基于已扩展的一组搜索查询来 标识相关的URL的技术只是出于说明性的目的来提供的,并且在本发明的各实施方式中可 以使用用于基于已扩展的一组搜索查询来标识相关的URL的其他技术。在又一些实施方式 中,浏览器会话数据也可被用来标识相关的URL。浏览器会话数据可包括标识用户的浏览历 史的信息,该浏览历史示出了用户在浏览会话期间查看的web文档的踪迹。在一些实施方式中,作为使用已扩展的一组搜索查询的补充或替换,URL查看列表 的生成至少部分地基于一组种子URL。URL查看列表中的URL可包括种子URL。还可以执行 URL扩展,URL扩展基于该组种子URL来标识与特定主题区相关的附加URL。URL查看列表 包括这些所标识的附加URL。如在框408处所示,爬行位于URL查看列表中的URL处的文档。在一些实施方式 中,也可以爬行链接到URL查看列表中的URL和/或从URL查看列表中的URL链接出来的 文档。通过爬行各文档,获得内容项。每一内容项可与特定事件或主题的讨论相对应。在 框410,将分类器应用于各内容项以标识与给定主题区相关的内容项。例如,虽然URL查看 列表中的URL被标识为与给定主题区相关,但在一些情况下,URL可包括与给定主题区不相 关的其他内容。如此,使用分类器来标识相关的内容项,同时移除与给定主题区不相关的内 容项。在标识了相关的内容项之后,将内容项编组成各个聚类,如在框412处所示。每一 聚类可以与围绕特定事件或主题的讨论相对应。根据本发明的各实施方式,可以使用各种不同的方式技术来对内容项进行群集。在一些实施方式中,分析内容项中的超链接以生成 聚类。具体而言,使用各内容项之间的超链接来将这些内容项标识为彼此相关。在一些实 施方式中,使用链接图来进行群集,其中节点表示URL而节点之间的边表示从一个URL到另 一个的超链接。在各实施方式中,可以使用其他技术来进行群集。例如,一些实施方式可以 使用自组织群集,其中基于文本分析来对内容项进行群集以使得包含相似文本的内容项被 编组在一起。在又一些实施方式中,内容项的发布时间可被用来进行群集。将各聚类相对于彼此进行排名,如在框414处所示。聚类排名可以使用用于排名 目的的多个因素来执行。在一些实施方式中,聚类排名至少部分地基于超链接到聚类中的 URL的社交网络数据的存在。可用于聚类排名目的的其他因素包括每一事件聚类内的内 容项的发布日期和时间;每一聚类的大小;每一聚类内的内容的源;给定时间内发布的内 容项的数量;搜索引擎会话数据;以及用户web浏览信息。如在框416所示,生成包括给定主题区的聚类的用户界面。聚类可以基于聚类排 名来包括在用户界面中。基于排名可能较流行的聚类被包括在用户界面中的较显著的位置 中。例如,聚类可以基于聚类排名来在用户界面中列出。在本发明的各实施方式中,以上参考框402-414描述的生成事件和主题的web讨 论的聚类的过程可以对各种不同的主题区执行。在这样的实施方式中,可以生成允许用户 浏览不同的主题区并从中进行选择的用户界面。在用户显著特定主题区时,该用户看到包 括所选主题区的聚类的用户界面。在各实施方式中,用户界面内的每一聚类包括到该聚类 中包括的讨论中的一个或多个讨论的超链接。如在图4中从框416到框408的返回所示,以给定的时间间隔爬行URL查看列表 中的标识新内容项的URL,并且重复对内容项进行群集的过程。如此,可以对给定主题区内 的事件和主题的最新近讨论进行标识、群集、排名,并提供给最终用户。如可理解的,本发明的各实施方式提供一种基于一组种子搜索查询来标识与给定 主题区相关的网页并对来自这些网页的事件和主题的讨论进行群集的聚集服务。参考各具 体实施方式描述了本发明,各具体实施方式
在所有方面都旨在是说明性的而非限制性的。 在不背离本发明范围的情况下,各替换实施方式对于本发明所属领域的技术人员将变得显 而易见。从前面的描述可以看出,本发明很好地适用于实现上文所阐述的所有目的和目 标,并且具有对于该系统和方法是显而易见且固有的其他优点。也可理解特定的特征和子 组合是有用的,并且可以加以利用而无需参考其他特征和子组合。这由权利要求所构想的, 并在权利要求的范围内。
权利要求
1.一个或多个存储计算机可使用指令的计算机存储介质,当该指令由一个或多个计算 设备执行时使得所述一个或多个计算设备执行一种方法,所述方法包括接收包括一个或多个输入搜索查询的初始一组搜索查询,所述一个或多个输入搜索查 询被手动地确定为与给定主题区相关;通过分析搜索引擎会话数据以标识与所述一个或多个输入搜索查询相关的多个附加 搜索查询,来生成已扩展的一组搜索查询,所述扩展的一组搜索查询包括所述一个或多个 输入搜索查询和所述多个附加搜索查询;使用所述已扩展的一组搜索查询以标识与所述给定主题区相关的多个URL ;周期性地爬行与所述多个URL相关联的文档,以提供来自所述URL的多个内容项;使用分类器来从所述多个内容项标识相关的内容项,所述相关的内容项由所述分类器 确定为与所述给定主题区相关;将所述相关的内容项群集成多个聚类,每一聚类包括与所述给定主题区内的特定事件 或主题相关联的一组内容项,其中群集是至少部分地基于所述相关的内容项之间的超链接 来执行的;将所述多个聚类相对于彼此进行排名,其中所述多个聚类是至少部分地基于从社交网 络站点到与所述相关的内容项的URL的超链接的存在来排名的;以及生成允许用户查看并与所述多个聚类进行交互的用户界面。
2.如权利要求1所述的一个或多个计算机存储介质,其特征在于,使用所述已扩展的 一组搜索查询来标识与所述给定主题区相关的多个URL包括基于所述已扩展的一组搜索 查询来分析搜索引擎会话数据和用户web浏览数据以标识所述多个URL。
3.如权利要求1所述的一个或多个计算机存储介质,其特征在于,还通过分析来自社 交网络的链接来进一步标识与所述给定主题区相关的多个URL。
4.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述分类器是通过 爬行所述URL的至少一部分以获取内容并基于该内容生成所述给定主题区的语言模型来 创建的。
5.如权利要求4所述的一个或多个计算机存储介质,其特征在于,所述分类器包括以 下至少一个使用N元语法特征的线性分类器;使用N元语法特征的决策树分类器;以及使 用N元语法特征的隐马尔科夫模型。
6.如权利要求1所述的一个或多个计算机存储介质,其特征在于,将所述相关的内容 项群集成所述多个聚类还至少部分地基于自组织群集,其中分析所述相关的内容项的文本 以标识所述相关的内容项之间的关系。
7.如权利要求6所述的一个或多个计算机存储介质,其特征在于,将所述相关的内容 项群集成所述多个聚类还至少部分地基于所述相关的内容项的发布时间。
8.如权利要求1所述的一个或多个计算机存储介质,其特征在于,将所述多个聚类相 对于彼此进行排名至少部分地基于从以下各项选出的一个或多个项所述相关内容项的 发布时间;每一聚类的大小;每一相关的内容项的源的排名;搜索引擎会话数据;以及用户 web浏览信息。
9.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述用户界面,为每 一聚类,提供主内容项和多个相关的内容项。
10.如权利要求1所述的一个或多个计算机存储介质,其特征在于,至少一个聚类的主 内容项是通过分析该至少一个聚类中的每一内容项的发布时间以及该至少一个聚类内的 内容项之间的超链接关系来标识的。
11.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述方法还包括将 来自超链接到至少一个聚类中的至少一个URL的社交网络站点的引用添加到该至少一个 聚类。
12.如权利要求1所述的一个或多个计算机存储介质,其特征在于,对多个主题区重复 所述方法。
13.—个或多个存储计算机可使用指令的计算机存储介质,当该指令由一个或多个计 算设备执行时使得所述一个或多个计算设备执行一种方法,所述方法包括接收由聚集服务的管理员手动地确定为与给定主题区相关的多个种子搜索查询和/ 或种子URL ;至少部分地基于所述多个种子搜索查询和/或种子URL来标识多个URL ;爬行与所述多个URL相对应的文档以标识来自该文档的与所述给定主题区相关的内 容项;将所述内容项群集成多个聚类;以及将所述多个聚类相对于彼此进行排名。
14.如权利要求13所述的一个或多个计算机存储介质,其特征在于,标识所述多个URL 还至少部分地基于被确定为与所述多个种子搜索查询相关的附加搜索查询。
15.如权利要求13所述的一个或多个计算机存储介质,其特征在于,将所述内容项群 集成多个聚类包括使用内容项中包含的超链接来标识所述内容项之间的关系。
16.如权利要求13所述的一个或多个计算机存储介质,其特征在于,将所述多个聚类 相对于彼此进行排名包括生成每一聚类的排名,并且其中至少一个聚类的排名是至少部分 地基于社交网络数据中的从社交网络站点到所述至少一个聚类中的至少一个内容项的超 链接的存在的。
17.如权利要求16所述的一个或多个计算机存储介质,其特征在于,所述方法还包括 将对来自超链接到所述至少一个聚类中的至少一个内容项的社交网络站点的社交网络数 据的引用添加到所述至少一个聚类。
18.一种由一个或多个计算设备执行来标识并群集与所选主题区相关的web讨论的方 法,所述方法包括由第一计算进程基于被手动地确定为与所选主题区相关的多个搜索查询来标识与所 选主题区相关的多个网页;由第二计算进程标识关于与所选主题区相关的网页的多个讨论;以及由第三计算进程将所述讨论群集成多个聚类,每一聚类包括关于特定主题或事件的一 组讨论,其中所述第、第二和第三计算进程由所述一个或多个计算设备执行。
19.如权利要求18所述的方法,其特征在于,将所述讨论群集成多个聚类包括使用所 述讨论中包含的超链接来标识所述讨论之间的关系。
20.如权利要求18所述的方法,其特征在于,所述方法还包括通过生成每一聚类的排名来将所述多个聚类相对于彼此进行排名,并且其中至少一个聚类的排名是至少部分地基 于社交网络数据中的从社交网络站点到所述至少一个聚类中的至少一个讨论的超链接的 存在的。
全文摘要
一种聚集服务使用种子搜索查询、种子URL和/或搜索引擎数据来聚集对给定主题区内的事件和主题的讨论。选择主题区并手动地生成与该主题区相关的一组种子搜索查询和/或种子URL。使用该组种子搜索查询和/或种子URL来标识包含与该主题区相关的内容的URL。以给定时间间隔爬行URL以标识内容项,使用分类器来分析这些内容项以标识与该主题区相关的内容项。将内容项编组成围绕主题区内的事件和/或主题的聚类。将各聚类相对于彼此进行排名以便于对聚类进行排序来呈现给最终用户。
文档编号G06F17/30GK102117321SQ20111000837
公开日2011年7月6日 申请日期2011年1月5日 优先权日2010年1月6日
发明者D·R·施瓦茨, P·R·贝利 申请人:微软公司