专利名称:分类一组电子文档的方法
技术领域:
本发明属于电信领域,并且特别地属于用于搜索电子文档的搜索引擎领域。更精确地,本发明涉及分类一组电子文档的方法。例如,由用户通过因 特网类型的网络上的搜索引擎执行搜索而产生这样的 一组,在这种情况中的电子文档是Web页面("万维网"的简称),其通过本地存储介质而本地访问, 或经由网络而^皮远程访问。
背景技术:
搜索引擎利用用于评价(rate)或分类从搜索中出现的页面的几种技术。 在用于探查(explore ) —组Web页面的公知技术中, 一些技术依靠语义学, 如果一个页面包含所搜索的词的大量出现(occurrence),则页面被评价为更 加相关。这些技术敏感于名字"兜售信息(spamming)"公知的作法,其旨在 使因特网用户在他们的搜索查询中通常使用的词在给定页面中展示大量次 数,这具有使所述页面当作相关的而频繁出现的效果。其他技术基于Web的拓朴结构。这些技术同时考虑在所考虑的页面之间 的现存链接以及这些页面本身的性质,如在Web的网络域或子域中页面的从 属关系(membership )。这些技术通常基于要处理的页面的图型表示法。它们 适于满足在所述图中给出的拓朴性质的页面的分类。这些技术敏感于"兜售信 息,,的方法的变体,其旨在多次引用给定页面,这具有本地伪造Web的图的 拓朴特性的效果。和其他页面之间的关系的排名(rank)来实现Web页面的分类。这样的过程的示例,公知为术语"PageRank",用在Google 搜索引擎的 实现中并在文档中被描述"The PageRank Citation Ranking: Bringing Order on the Web", by L. Page, S. Brin, R. Motwani and T. Winograd; Technical Report, Computer Science Department, Stanford University, 1998。PageRank过程基于Web上页面可见性来排序页面。在该过程中,模拟 通过跟随超文本链接在Web上随机的逐页浏览。该浏览对应于当后者随机地 激活位于所查看页面中的超文本链接之一时通过用户访问Web而造成的浏 览,以便访问另一页面。该过程承担该模拟的浏览的概率分析,以便确定在 诸如此的随机逐页浏览期间位于给定页面的用户的概率。 一 个页面被其他页 面引用的次数越多,页面的排名就越高。这种过程提供了对于由用户执行的搜索非必要相关的评价排名。最好评 价的页面(最高排名)不必然是最好地与用户的期望对应的页面。此外,该过程不可能在一组文档中识别主题一致(community )或兴趣一 致,不能够将用户更加迅速地指引到感兴趣的页面。最终,在用户在一组呈现的文档中识别他特别感兴趣的文档的情况下, 不可能通过使用仅基于其排名而排序的一列文档来容易地确定与感兴趣的文 档接近或无论如何与后者链接的其他文档是否出现在该组文档中。发明内容因此本发明的目标特别是通过提出用于分类电子文档(如网页)的技术 来解决现有技术的上述缺点,特别使检测兜售信息的问题成为可能,其适用 于一大组文档且易迅速实现,并且不是通过分配排名,而是不管基于文档的 语义内容、还是在这些文档之间的超文本链接或完全为一些其他方式定义所 述接近的概念,完全通过构造彼此相近的文档或文档的子组的一致使简单分 类文档成为可能。由于这个目的,本发明的主题是,根据第一方面,分类一組电子文档的 方法,包括步骤-计数出现在所述组的每对文档(u, v)之间的超文本链接或联合引用 (cocitation ),-对于所述组的每对文档{u, v},确定在文档U和V之间的相关度w&v,所述相关度取决于在完成计数步骤时获得的链接数,-对于所述组的每个文档u,确定位于组Rd的球面的关联点I "乂其 中R是一组实数而d是一个正整数,对于所述组的至少一个文档ul,在Rd中关联点I 和X 之间的距离越小,文档Ul和U2之间的相关度就越高,其中u2是在文档ul和u2之间存在相关的文档,使用球面来确定点的位置的事实是独创的,在于这使得对于所获得的点 -因此对于相关联的文档-可以简单地定义这些点关于彼此的相对位置。具体地,在这种表示法模式中,没有点关于另一点是有利的(favor)。因此,两 点之间的相对位置,并且因此这两点之间的距离,可以用于表示与这两点相 关联的两个文档之间的相关度。由此获得的表示法反映了涉及的文档之间的 相关或链接。采用球面上(例如在三维空间中的球面)的一组文档的表示法的事实, 进一步使得设想任意类型的分类操作成为可能通过选择、评价(rate)、过 滤、分级,并且简单地实行这些,这是由于每个文档从此以后在N维空间中 由一简单的n重数(tuple)坐标来表示(例如通过三维空间中的三个坐标来 表示)。存在所述方法的多种应用文档的簇的构建、文档的评价或选择。在空 间Rd中基于文档的投影的空间位置或基于距离测量结果来执行这些操作,也 就是说通过考虑它们的相关度或接近度来确定。根据本发明的方法可以例如用于执行从搜索引擎执行的搜索中产生的 WEB页面的任意种类的分类操作、评价、分级,最初的页面,也就是说距离 其他页面最远的页面,纟皮评<介为例如最高。作为选择或组合,所述页面通过群(group)来分类,每一个群与一组页 面相对应,所述组页面通过函数X的投影位于空间Rd的球面的预定义空间区 域中。优选地,在这个变体中,限定该球面到空间区域的分割,并且根据它 们在分割的空间区域之一 中的投影的从属关系而评价所述文档。根据本发明的方法还可以用于检测"兜售信息"的出现,也就是彼此指向 的页面,这是因为在球面S上的所有这些页面的投影将基本上彼此靠近。根据本发明的方法还可以用于产生从由搜索引擎执行的搜索中产生的 WEB页面的可^见表示(visual representation )。根据所述方法的第一变体(variant),其中至少文档之一呈现出到至少另 一文档的至少一个超文本链接,两个文档u和v之间的相关度基于出现在文 档u和v之间的超文本链接数和/或联合引用链接数而确定,相关度越高,则 该数目就越大,不存在相关对应于不存在链接。分类搡作的实现。才艮据所述方法的第二变体,两个文档U和V之间的相关度基于文档U和 V的语义内容的接近的测量结果而确定,相关度越高,该测量结果就越低,不存在相关对应于测量结果低于预定义的阈值。该第二变体有利地允许了考虑文档的语义内容的分类操作的实现。根据第三变体,相关度基于由多个用户定义的喜爱页面而确定。在这种 情况下,由于每个用户均与一组文档相关联(他的喜爱页面),所以两个文档 U和V之间的相关度作为文档U和V所属于的这样的组的数目而确定。(profile)成为可能。所述三种变体可以进一步联合在一起,以便确定同时考虑超文本链接、 语义内容和/或更适宜用户的相关度。两个文档之间的任意其他类型的链接也 用于定义相关度。根据特定实施例,所述方法进一步包括步骤-定义用于将所述组投影到所述球面的初始函数X0,-确定用于将所述组投影到所述球面的初始函数X,所述投影函数X以 至少一次迭代、基于初始函数Xo而获得,每一次迭代在于基于在上一迭代中 获得的函数Xi.,来对于所述组的至少一个文档u,通过以值Xi (u)值替换 X,, (u)来确定函数Xi,从而使得对于属于所述组的任意文档v,优化取决 于值Xi-, ( u )和值Xw ( v )以及文档u和v之间的相关度wO,v)的预定义准 则成为可能。根据本发明的方法有助于函数X的迭代确定,由此简化了其实现并且使 得精确控制所述方法的收敛成为可能。优选地,以随机方式定义函数Xo。统计地从随机函数开始的事实改进了 收敛到所期望的函数X的速度,实行这些无需关于要获得的函数的先验知识。在该实施例中,预定义准则的优化存在于对于文档u将量A(u)的值最大 化等于<formula>formula see original document page 7</formula>其中<formula>formula see original document page 7</formula>,在文档u和v之间不存在相关时 cu ,vj =0,值Xi(u)等于<formula>formula see original document page 8</formula>本发明的主题也是由计算机系统可读的信息介质上的计算机程序,所述 程序包括当该程序被载入然后由计算机系统执行时,用于实现诸如以上简要 定义的根据本发明的方法的指令。本发明的主题也是数据处理装置,包括用于根据本发明的方法的步骤的 执行的数据处理部件。这样的装置设备例如是实现文档搜索引擎的计算机服 务器。本发明的主题也是由计算机系统可读的记录介质,包括程序,所述程序 包括当所述程序由计算机系统执行时,用于实现根据本发明的方法的程序代 码指令。
本发明的其他目的、特性和优点将通过下面的完全以非限制示例给出的、 并参照附图提供的描述而变得更加明显,其中 图1是才艮据本发明的方法的实施例的流程图。
具体实施方式
根据本发明的方法应用于一组电子文档,特别是一组WEB页面,对于 它们中的 一些,包括到 一个或多个其他页面的一个或多个超文本链接。在图解的所选择的实施例中, 一组文档V的两个文档u和v之间的相关 度基于存在于文档u和v之间的超文本链接和联合卩1用链接的数目而确定。对于两个文档之间超文本链接数的确定,不考虑超文本链接的意义而考 虑"对称的"超文本链接,也就是说将相同的处理应用到文档u包括到文档v 的链接的情况和文档v包括到文档u的链接的情况。如果存在至少一个其他文档w使得-存在至少一个从w指向u的超文本链接,以及画存在至少一个从w指向v的超文本链接,则两个文档u和v具有联合引用链接。现在通过参照图1更详细地描述根据本发明的方法的步骤。步骤S100存在于对于所述组V的文档的任意对p, vp角定取决于文档u和V之间的超文本链接数的权重W/ ,V入优选地,函数W/ ,VJ是文档U和V之间的超文本链接数的增函数。优选地,w ,y;的值位于预定义的最小值(一般是0)和预定义的最大 值(一般是l)之间。在这种情况下,最小值与在文档u和v之间不存在超 文本链接相对应,而最大值例如与在文档u和v之间出现预定义的最小数目 的超文本《连接相对应。根据第一示例,在不存在超文本链接时w/rw,y;的值选为等于0,而在文 档u和v之间至少出现一个超文本链接时w/w,v;的值选为等于1。根据第二示例,在不存在超文本链接时o;/ ,vj的值选为等于0,在文档 u和v之间出现单个超文本链接时w, ,v;的值选为等于0.5,而在文档u和v 之间出现两个或多个超文本链接时wfw,v)的值选为等于1。根据第三示例,将w/w,v卩的值定义为在文档u和v之间的超文本链接数 Nh的连续增函数,例如其中Nhmax是超文本链接数Nh的最高阈值。步骤S105存在于对于所述组V的文档的任意对(u, v)确定取决于文档u 和v之间的联合引用链接数的权重w乂w,v人优选地,函数w乂w,v;是文档u和 v之间的联合引用链接数的增函数。针对W/ ,vj给出的函数定义示例可换位于^/w,W。例如,在不存在联合 引用链接时C02 ,V)的值选为等于0,而在文档u和v之间至少存在一个联合 引用链接时叱 ,vj的值选为等于1。步骤S110存在于对于文档的任意对",v)确定与对(w, v》通过以下关 系相关联的相关度w ,v」。kl和k2是实系数使得,0W7 ^ 1, 0 "2 S 1, + ^ = 1由此相关度W ,vJ取得位于0和1之间的实数值,值0与不存在链接相对应。由于希望强调超文本链接的存在,所以赋予系数kl的值将被选择得更 高。相反,由于希望强调联合引用链接的存在,所以赋予系数k2的值将被选 择得更高。用于确定文档之间的相关度的该过程使得在根据本发明的、用于分类文档的方法中,在文档之间考虑两种类型的链接超文本链接和联合引用链接 成为可能。该过程对其他类型的链接是普遍的。例如,如果存在一个或多个超文本 链接使得从u传递到v成为可能,则可以定义两个文档u和v通过间接超文 本链接而互连,在这种情况下的超文本链接数大于或等于2。根据另一示例,可以考虑文档之间的语义类型的链接。在这种情况下, 基于两个文档的语义内容的分析和比较来执行两个文档之间的相关度的确 定。就这个目的而言,用于比较语义内容的公知过程是适用的。然后相关度 表示两个文档之间语义接近的测量。例如可以基于在每个文档中所包括的词 语的统计分析和比较来确定语义相关度。作为变体,可以定义两个文档之间 的距离以及将相关度作为所定义的距离的减函数而定义,以这种方式使得两 个文档之间的距离越小,则这些文档之间的相关度越高。将该过程最终概括为链接的任意值,而不管它们的类型。然后将两个文 档之间的相关度确定为加权的各初等相关度之和,例如取决于两个文档之间 的联合? 1用链接数的相关度与取决于两个文档的语义内容的相关度的和。所所提供的信息成为可能。返回图1,下面的步骤S120到S135在于确定用于在文档的组V和组Rd (R的d次笛卡儿幂,其中R表示一组实数,而d是正整数)的球面S之间 投影的函数X。最好将选为等于2或3。所确定的函数X是这样的,使得对于至少一个文档u,两点X"J和 X "J之间在Rd中的距离越小,相关度就越高,其中v是在文档u和v之间 存在相关的文档。根据特定实施例,迭代处理用于确定函数X该迭代处理的每一次迭代 在于基于在前一步骤得到的函数兀w来对于所述组V的至少一个文档u,通过以《似值替换A/^值确定函数《,从而使得优化预定义的准则成为可能; 该准则一方面取决于对于所考虑的文档U获得的兀.乂W"直以及对于所述组V 的任意文档V获得的《-,W"直,而另 一方面取决于在所述组V的文档U和任 意文档V之间的相关度W ,V,选择所述准则,以便使一系列函数《收敛于 呈现上述特性的函数Z。优选地,所述预定义准则的优化在于对于给定的文档u最大化数量A(u) 的值,A(u)等于,A(U)= Z (5(W,V)||X(W)-X(V)||2其中S(u,v) = l-co(u,v), 0 ^ co(u,v) S 1,并且在文档U和V之间不存在相关 时co(u,v)=0。在步骤S120,确定初始投影函数XO。优选地,初始函数X。取得球面S 上的随机值。其后将迭代处理应用于当前函数《=Z0。确定投影函数X的迭代处理从步骤S125开始。迭代与步骤S125、 S130 以及S135的执行相对应。迭代由索引i来表示。在步骤S120的结尾,索引i 取得其初始值并且等于0。在步骤S215,该索引递增i=i+l。在步骤S130,针对至少一个文档u执行下面的操作-确定1TL9 = J]v);r,—,(。的值,-若JYL9 # o, ¥f缀过兀似=-irw/II II通过JYW计算《似,-若}^0 = 0,则《似采取等于兀w(u)。在步骤S135,确定迭代处理是否结束。优选地,该处理被迭代充分多的 次数,用于函数X针对组V的每一个文档u修改至少一次。即使使用随机开始函数, 一系列函数《也能快速收敛,可以对于一组文 档迭代有限次数。终止迭代的判断还可以基于-已经执行的迭代次数, '-在每次迭代之后执行的函数收敛性的测量结果。该收敛性的测量结果可以通过在每次迭代之后以如下方式计算和zl,:ueV并且通过固定阈值来执行,所述阈值可能取决于組V的文档u的数目,低于所述阈值则迭代处理终止。在步骤S135,如果采取终止迭代处理的判断,则在其之后执行步骤S140; 否则从步骤S125开始,执行以下迭代。在步骤S140,基于在上次迭代获得的函数X所取得的值,对于文档的组 V的至少一部分执行分类操作。依靠所确定的投影函数X,球面S上的点X(u)的位置取决于文档u 和其他文档之间的链接。特别地,两点之间的距离表示与这两个点对应的文 档之间的相关度。可以想到使用其他数学准则来使得初始随机函数收敛到这样的函数。 在组V是从由搜索引擎执行的搜索中产生的 一组WEB页面的情况下, 该分类操作可以针对-通过检测具有距离其他投影最远的投影的页面来选择最初始的页面; -通过检测其投影基本上接近于一群页面的投影的页面来过滤包含"兜售信息"的页面(指向彼此的页面);-选择其投影满足所确定的准则的页面。根据第一变体,分类操作包括以下操作-针对组v的任意对(u, v)的距离值《w,yj二 1Ix )-;rwll的计算,-组V的至少一个子组V,的确定,其中值《M,v)满足预定义的准则,例如高于或低于预定义的阈值。该第 一变体使得检测球面上的点的簇成为可能,并且因此使得确定对应 的文档簇成为可能。根据第二变体,分类操作包括存在于确定子组v,的操作,对于所述子组任意点X (u)属于所确定的组,例如属于Rd中的空间中的预定义区域。该区域可以是例如球面的、立方体的内部体积,或在Rd的球面S上限定 的其它表面。通过针对几个预定义的区域重复这些处理,可以构建所述组文 档的划分或分割。文档执行任意种类的分类操作成为可能。此外,可以证明用于确定函数X的处理快速收敛。此外,当相关度基于超文本链接数的而确定时,用于该处理的迭代的计 算时间正比于该超文本链接数。本发明的所述方法因此可以用于大量页面。,关于一组最后,要是修改该组电子文档,(通过文档添加、文档删除或文档之间链 接的修改),它能够从对于未修改的组而获得的函数X开始,然后对于一些所 选择的文档(优选地,至少针对已经经历修改或已经被添加的文档)进行步骤130的执行,以便确定经校正的、考虑经修改的电子文档组的函数X因此本发明特别适用于包含大量文档的组的处理,所述文档的部分被时常更新。 在根据本发明的方法的变体中,产生函数z的图解表示法,也就是说所述球面以及位于所述球面上的点l的表示法。产生这样的图解表示法的事实使得可能促进由用户对于相关文档组的选择。该表示法可以例如以二维制图(cartgraphic)表示法的形式来完成,其中每个文档由与针对该文档所确 定的函数X的值相对应的绘图符号来区分。由此本发明有助于一实施例,其中在用户计算机终端上显示该图解表示 法,所述用户计算机终端包括显示屏以及图形选择工具(例如与指示器结合 使用的鼠标,使得在屏幕上限定图像区域成为可能),该工具适于选择图解表 示法的至少一部分。然后用户能够执行与他所选择的一个或多个组的文档对应的图解表示法 的一个或多个部分。终端经由图形选择工具来获得限定所选择的部分的数据。 基于这些数据,终端分类文档的组V。产生例如减少的一列文档,与其投影 位于由用户所选择的部分中的文档对应。可选择地,相反,排除其投影位于 所选择的部分中的文档。基于由用户保存的一列文档,可以执行附加的分类'' 操作,这些操作或者基于文档的属性或它们的相关度而自动地执行,或者基 于在初始选择的部分之内选择的新的部分而手动地执行。查看由搜索引擎执行的搜索的结果的这种模式对于用户是特别工效的 (ergonomic )。它以一组共同接近点的形式来显示文档的一致。诸如本发明中所定义的基于投影的表示法因此使得通过图形选择工具可 视地并且手动地,或者根据与在所产生的表示法中的这些文档的位置相链接 的预定义的准则来自动地执行分类或分级。根据优选实现,根据本发明的分类电子文档的方法的步骤由计算机程序 的指令而确定。这里,"计算机程序"被理解为表示一个或多个计算机程序,当其由合适 的计算机系统执行时,形成其目的是实现本发明的一组(软件)。然后当前述程序被载入到集成的计算机装置(例如载入到链接的用户终端)时,如果适于因特网类型的网络并且装配有因特网浏览器软件,则实现 根据本发明的方法。因此,本发明的主题也是这样的计算机程序,特别以存储在信息介质上 的软件的形式。这样的信息介质可以包括能够存储根据本发明的程序的任意 实体或装置。例如,正被讨论的介质可以包括诸如ROM之类的硬件存储装置,例如 CD-ROM或微电子电路ROM,或者石兹记录装置,例如硬盘。作为变体,信 息介质可以是集成了所述程序的集成电路,所述电路适于执行或用在正被讨 论的方法的3丸行中。此外,信息介质还可以是可传送的非硬件介质,诸如可以通过无线电或 其他装置经由电或光缆传输的电或光信号。根据本发明的程序可以特别地从 因特网类型的网络中下载。从设计的角度来看,根据本发明的计算机程序可以使用任意编程语言并 且可以以源代码、目标代码或在源代码和目标代码之间的中间代码(如部分 经编译的代码)的形式,或者以用于实现根据本发明的方法的任意其他所期 望的形式。
权利要求
1.一种分类一组电子文档的方法,包括步骤-计数在所述组的每对文档{u,v}之间出现的超文本链接或联合引用,-针对所述组的每对文档{u,v}确定文档u和v之间的相关度ω(u,v)(S110),所述相关度取决于在计数步骤完成时所获得的链接数,-针对所述组的每个文档u确定位于组Rd的球面上的相关联点X(u)(S120、S125、S130、S135),其中R是一组实数而d是正整数,对于所述组的至少一个文档u1,在Rd中相关联点X(u1)和X(u2)之间的距离越小,则文档u1和u2之间的相关度就越高,其中u2是在文档u1和u2之间存在相关的文档,-将所述组文档的至少部分基于在所述球面上确定的点而分类(S140)。
2. 如权利要求1所述的方法,其中至少一个所述文档包括至少一个到至 少一个其他文档的超文本链接,在两个文档u和v之间的相关度基于出现在 文档u和v之间的超文本链接数、和/或联合引用链接数而确定,相关度越高, 则该链接数越大,不存在相关与不存在链接相对应。
3. 如权利要求1或2所述的方法,其中两个文档u和v之间的相关度取 决于文档u和v的语义内容的接近的测量结果,相关度越高,则所述测量结 果越低,不存在相关与测量结果低于预定义的阈值相对应。
4. 如权利要求1或2所述的方法,包括步骤-定义(S120)用于将所述组投影到所述球面的初始函数^, -确定用于将所述组投影到所述球面的函数Z,所述投影函数X以至少 一次迭代、基于初始函数获得,每一次迭代在于基于在上一迭代中获得的函 数《w,通过对于所述组的至少一个文档u,以值兀.(u)替换值《.-,(u)来 确定函数X,,从而使得对于属于所述组的任意文档v,可以优化取决于值《—/ (u )和值v )以及在文档u和v之间的相关度ft;(^,v)的预定义准则(S125、 S130、 S135)。
5. 如权利要求3或4所述的方法,其中所述预定义的准则的优化在于针 对文档u将量/j 最大化为等于,<formula>formula see original document page 2</formula>其中V) = l-W ,V」,0 ^ W ,V) ^ 1,在文档U和V之间不存在相关时cu ,v」=0,值不 」等于兀似^r^)/llirwl1,其中 若iyw # o ,贝'j rfL9 = ^ s(u,v) vjKv),veV-(u〉若= o,则值《/w等于值《w(w。
6. 如前述权利要求中任意之一所述的方法,进一步包括在于产生所述球 面的图解表示法以及位于所述球面上的点X 的图解表示法的步骤。
7. 如权利要求6所述的方法,进一步包括步骤存在于 -在终端上显示所述图解表示法,-向终端用户提供合适的图形选择工具,用于至少部分所述图解表示法 的图形选择,-获取限定通过所述用户选择的至少一个部分的数据, -基于所述数据对于所述组的文档执行分类。
8. —种程序,包括记录在通过计算机系统可读的介质中的程序代码指令, 用于实现如权利要求1到7的任意一个所述的方法。
9. 一种数据处理装置,包括数据处理部件,用于如权利要求1到7的任 意一个所述的方法的步骤的执行。
10. —种由计算机系统可读的记录介质,包括程序,所述程序包括当由计 算机系统执行所述程序时,用于在权利要求1到7的任意一个中所述的方法 的实现的程序代码指令。
全文摘要
本发明关于用于分类一组电子文档的方法,包括以下存在的步骤针对该组的每对文档{u,v}确定(S110)在文档u和v之间的相关度ω(u,v);确定在所述组文档和组R<sup>d</sup>的球面之间的投影的函数,其中d是正整数,函数X使得对于至少一个文档u,在R<sup>d</sup>中两点X(u)和X(v)之间的距离越小,则相关度越高,其中v是在文档u和v之间存在相关度的文档;基于函数X所取的值,关于所述组文档的至少一个部分执行分类操作(S140)。
文档编号G06F17/30GK101268465SQ200680034703
公开日2008年9月17日 申请日期2006年9月7日 优先权日2005年9月20日
发明者杰罗姆·高尔蒂尔 申请人:法国电信公司