专利名称:使冗余最小化的Web馈送聚合方法
技术领域:
本发明涉及Web馈送(feed)的聚合。
背景技术:
自从开始于20世纪90年代早期起,万维网(World Wide Web)已经变得非常流行, 它现在包括数以亿计的Web页面,这些Web页面包括诸如文本、图像、视频以及去往其他Web 页面的链接(也称为超链接)等各种内容。数以亿计的Web冲浪者每天在使用着万维网。
现在,上线是非常简单的,既不需要专门技艺也不需要国家或国际机构前的专门 过程,事实上也不存在这样的机构。令人惊讶的是,尽管任何人都将受益于这种分类,但并 没有尝试对Web进行分类以便将Web站点按类分组(基于预定标准)。因此,Web冲浪者获 取重要、可靠的更新信息变得越来越难。当然,Web浏览器是有帮助的,但是随着Web页面 的数目增加,大量语义搜索请求得到的是未加工的内容,这些内容大多数未经分类,常常是 冗余的,不明确的,最后简单来说,是没有用的。
在21世纪的早些时候,提出了一种称为联合(syndication)的解决方案,以帮助 冲浪者在正确的时刻得到正确的信息。在联合中,一个Web站点的部分可用于其他Web站 点。更具体地,在Web联合中,内容(通常称为Web馈送)以特定格式——通常是基于XML 的格式(XML为可扩展标记语言),诸如RSS (真正简易联合)或Atom——被置于Web站点 上,并且与馈送链接相关联,另一用户(客户端)可以订阅馈送链接,以借助于称为馈送聚 合器(也称为馈送阅读器或新闻阅读器)的、在客户端的终端或服务器上本地运行的特定 应用来获取相应的内容。
在已经订阅馈送的情况下,馈送聚合器可以配置用于以预定的间隔(可以是 用户定义的)检查和获取更新的内容。现代Web浏览器通常包括内置的聚合器,诸如 iGoogleTM和My YahooTM。美国专利申请号US 2008/0034058 (已转让给Marchex公司) 和US2008/0046543 (已转让给RealNetworks)都示出了用于获得Web馈送的方法。
尽管馈送聚合器是用于从万维网获取更新信息并通过用户友好的图形接口(⑶I) 使其可由最终用户获得的强大资源,但是文章的量有时可能是压倒性的,特别是当用户已 经订阅了很多Web馈送时。为了解决这一问题,某些馈送聚合器包括允许用户利用关键词 为馈送添加标签的功能,以便将可用的文章分类和过滤到易于导航的类别中。然而,该方式 是耗时的,因为用户必须对他希望从其获得更新内容的馈送进行预先分类。而且,当要获取 的内容随着每次更新改变主题时(例如,在报纸网站中),为Web馈送添加标签是完全无用 的。发明内容
显然,需要一种允许Web冲浪者以完全可行的方式自动地获得从Web馈送获取的 信息的方案。
本发明的目的是提供这样的方案。
由此,根据一个方面,本发明提供一种用于聚合联合Web内容的方法,包括步骤
-从预定Web馈送获取更新内容;
-将所述更新内容与先前获取的已存储内容(例如,存储为馈送历史数据库中的 条目)进行比较;
-如果认为更新内容不同于已存储内容,则存储更新内容;
-如果认为更新内容与已存储内容相同,则删除更新内容。
可以提供进一步的步骤,即如下步骤
-如果认为更新内容是已存储内容的补充,则向该已存储内容添加该更新内容;
-计算相似性索引5"/,其表示更新内容与已存储内容之间的相似性程度;
-将所述相似性索引S/与一个或多个阈值进行比较。更具体地,将相似性索引5*/ 与两个阈值^llin和Smax进行比较,由此
-如果相似性索引5/低于^llin,则认为更新内容不同于已存储内容;
-如果相似性索引《S/大于Smax,则认为更新内容与已存储内容相同,并可以因此向 已存储内容添加该更新内容;
-如果相似性索引S/在^llin与Smax之间,则认为更新内容是已存储内容的补充。
根据另一方面,本发明提供一种馈送聚合器,包括
-馈送阅读器,配置用于检查和获取来自预定Web馈送的更新内容;
-过滤模块,配置用于管理所述更新内容与先前获取的已存储内容的比较;
-馈送历史数据库,用于存储内容。
馈送聚合器还可以包括一个或多个条目分析器,其链接至过滤模块,配置用于将 所述更新内容与已存储内容进行比较。更具体地,一个或多个条目分析器可以配置用于
-计算相似性索引&,其表示更新内容与已存储内容之间的相似性程度;以及
-将所述相似性索引与一个或多个阈值进行比较,以确定更新内容应被移除还是 被添加至馈送历史数据库。
通过结合附图考虑对优选实施方式的详细描述,本发明的上述以及其他目的和优 点将变得显然。
图1是示出根据本发明的馈送聚合器的结构的图示。
图2是根据本发明的用于聚合联合Web内容的方法的流程图。
具体实施方式
现在转到附图,在图1中示出了一个馈送聚合器1,其实现为诸如个人计算机 (PC)、服务器、通信个人数字助理(PDA)、智能电话等计算机设备的处理单元上的计算机程序。
馈送聚合器1包括馈送读取器模块2,其配置用于检查和获取来自远程Web站点 上提供的Web馈送3的更新联合Web内容。尽管馈送聚合器1优选地配置用于处理RSS馈送,但是也可以使用任何其他格式(诸如,Atom)。在图1中绘出了三个Web馈送3,这仅仅 是出于说明目的,馈送聚合器1可以链接至若干Web馈送,该Web馈送的数目可多达用户可 配置的数目。
馈送聚合器1还包括过滤模块4,其链接至馈送读取器2,并且馈送读取器2向过 滤模块4传送获取到的更新内容,以便进一步处理从而消除冗余,这将在此后公开。
馈送聚合器1还包括馈送历史数据库5,先前获取的馈送内容作为条目存储在其 中。
馈送聚合器1还可以包括至少一个条目分析器6,其链接至过滤模块4,配置用于 将更新内容与先前获取的内容进行比较,并且将其作为条目存储在馈送历史数据库5中, 以便确定更新内容是否应当
-从馈送聚合器1被移除,
-作为新条目存储在数据库5中,
-或者被添加到数据库5中的已有条目。
馈送聚合器1还包括历史访问模块7,其插入在过滤模块4与馈送历史数据库5之 间,并且配置用于访问和管理馈送历史数据库5,以便存储已由过滤模块4确定为适于存储 为新条目或者向已有条目添加的更新内容。
现在将描述馈送聚合器1的精确操作。
每当用户配置时,馈送读取器2检查和获取来自用户所订阅的预定Web馈送3的 更新内容(100)。在下文描述中,假设馈送读取器2配置有P个订阅,P是大于或等于1的 整数(P彡1)。。表示从第j个Web馈送3获取的更新内容,其中j是小于或等于P的整数j<P)。Fj可以包括完整的Web页面或其部分文本、图像、视频、超链接,等等。还假 设,馈送历史数据库5包括数目为N的条目,N是大于或等于1的整数(N彡1)。&表示馈 送历史数据库5中存储的第k个条目,其中k是小于或等于N的整数(1彡k彡N)。
更新内容?」由馈送读取器2向过滤模块4传送,其临时存储于过滤模块4中。过 滤模块4通过历史访问模块7获取应当与更新内容Fj进行比较的已存储条目&的列表。 更准确地,过滤模块4在已存储条目&的列表上进行迭代,更新内容Fj应当与这些已存储 条目&进行比较,以便被分入以下类别将被移除(删除);将被添加至已存储条目Ek;将 被存储为新条目En+1。
更准确地,通过将k初始设为1(110),更新内容?」由至少一个条目分析器6与已 存储条目&进行比较。比较可以通过各种方法来完成
-标题的基本字符串比较;
-语法分析,以确定所比较内容之间的共同关键词;
-基于语义的分析,以确定在所比较内容中使用的共同本体概念。为了限制比较的 领域,可以通过与条目&相关联的预定标签来限制本体域。
这些比较方法可以单独使用,或者可以相结合来作为整个比较过程的不同步骤。 比较方法的结合使用可以是层级式的。换言之,可以仅在标题的基本字符串比较步骤引起 断言标题相同的情况下加载语法分析步骤,以便确定具有相同标题的内容是否可能是不同 的。进而,可以仅在语法分析步骤已经确定语法类似的情况下加载基于语义的分析步骤,以 便进一步增加比较的准确程度。比较的每个步骤可以在不同的条目分析器6上运行。
在实现了更新内容Fj与已存储条目&的比较之后,条目分析器6计算(130)相似 性索引5·/,其表示h与&之间的相似性程度。向过滤模块4提供相似性索引5^,过滤模块 4首先基于5/的值来确定应认为h与&相同还是不同,其次由此做出关于h的相应决策。 基本上,Si =0%表示Fj与&将被认为不同,而災_=100%表示Fj与&将被认为相同。Si 可以不同于0和100 二者,这表示不能认为h与&相同,但是也不能认为它们不同。为了 做出关于更新内容Fj的适当决策,过滤模块4可以实现有至少一阈值S,使得
-如果&‘< S ,认为Fj不同于& ;
-如果51/> S,认为Fj与&相同。
在一个优选实施方式中,过滤模块4实现有两个阈值,Smin和Smax,其中^lin < Smax, 由此
-如果穷<Smin,认为Fj不同于& ;
-如果S/> Smax,认为Fj与&相同;
-如果Smin< Sjk < Smax ,认为 Fj 是 & 的补充。
阈值Smin和Smax可以根据随用户改变的所需准确程度来设置。默认值可以设为Smin =20% 以及 Smax = 80%。
过滤模块将相似性索引S/与阈值^llin和Smax进行比较(140),并且在以下选项中计 算关于h的决策
-如果认SFj不同于Eyt( Sjk < Smin ),则应当将Fj与下一条目进行比较。更 具体地,k增1 (150),并且针对&和Ek+1重新迭代比较过程。如果条目&是最后一个(k = N),则由于。被认为不同于所有条目< k < N),其将由过滤模块4提供给历史访问模 块7,以便作为新条目Ek+1存储在馈送历史数据库5中。
-如果认为?」与&相同(SjkIS麵),表示Fj对于&是冗余的(因此是无用 的),则由过滤模块4移除Fj (也即,从馈送聚合器1删除)(170);
-如果认为Fj是&的补充(Smin< S( < Smax ),则由过滤模块4将Fj添加至 &或与其结合,其中过滤模块4将修改已有条目Ek,并且将修改的条目Ek提供给历史访问 模块7,以替换馈送历史数据库5中先前存储的条目&。
对于所有更新内容Fj,1 ^ j ^ P,重复此比较过程。
前文公开的方法避免了冗余,因为只有被认为不同于已存储内容的内容被存储为 新条目。公开的聚合器1实现了真正的馈送聚合,从而合并类似的内容而不是简单地将其并置。
权利要求
1.一种用于聚合联合Web内容的方法,包括步骤 -从预定Web馈送获取(100)更新内容;-将所述更新内容与先前获取的已存储内容进行比较(120); -如果认为所述更新内容不同于所述已存储内容,则存储(160)所述更新内容; -如果认为所述更新内容与所述已存储内容相同,则删除(170)所述更新内容。
2.根据权利要求1所述的方法,还包括步骤如果认为所述更新内容是所述已存储内 容的补充,则向所述已存储内容添加(180)所述更新内容。
3.根据权利要求1或2所述的方法,包括步骤计算(130)相似性索引S/,以表示所述 更新内容与所述已存储内容之间的相似性程度。
4.根据权利要求3所述的方法,包括步骤将所述相似性索引S/与一个或多个阈值进 行比较。
5.根据权利要求4所述的方法,其中将所述相似性索引51/与两个阈值^lin和Smax进行 比较,由此-如果所述相似性索引S/低于^lin,则认为所述更新内容不同于所述已存储内容; -如果所述相似性索引S/大于^iax,则认为所述更新内容与所述已存储内容相同; -如果所述相似性索引S/在^lin与Smax之间,则认为所述更新内容是所述已存储内容的 补充。
6.根据权利要求1-5任一项所述的方法,其中被认为与已存储内容相同的更新内容被 添加至所述已存储内容。
7.根据权利要求1-6任一项所述的方法,其中先前获取的内容作为条目存储在馈送历 史数据库中。
8.—种馈送聚合器(1),包括-馈送阅读器O),配置用于检查和获取来自预定Web馈送(3)的更新内容; -过滤模块G),配置用于管理所述更新内容与先前获取的已存储内容的比较; -馈送历史数据库(5),用于存储内容。
9.根据权利要求8所述的馈送聚合器(1),还包括一个或多个条目分析器(6),其链 接至所述过滤模块(4),配置用于将所述更新内容与已存储内容进行比较。
10.根据权利要求8或9任一项所述的馈送聚合器(1),其中所述一个或多个条目分 析器(6)配置用于计算相似性索引51/,其表示所述更新内容与所述已存储内容之间的相似 性程度,并且其中所述过滤模块(6)配置用于将所述相似性索引与一个或多个阈值进行比 较,以确定所述更新内容将被移除还是被添加至所述馈送历史数据库(5)。
全文摘要
一种用于聚合联合Web内容的方法,包括步骤从预定Web馈送获取(100)更新内容;将所述更新内容与先前获取的已存储内容进行比较(120);如果认为该更新内容不同于已存储内容,则存储(160)该更新内容;如果认为该更新内容与已存储内容相同,则删除(170)该更新内容。
文档编号G06F17/30GK102037465SQ200980118076
公开日2011年4月27日 申请日期2009年4月9日 优先权日2008年4月14日
发明者G·比尔恩西德, P·雅博 申请人:阿尔卡特朗讯