专利名称:使用传播的文档相关性来训练排名功能的制作方法
使用传播的文档相关性来训练排名功能
背景
如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由 因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴 趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,査询) 之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关 的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过"爬 行(crawl) " web (即,万维网)来标识每一网页的关键词来生成。为爬 行web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的 所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识, 如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等 等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能 与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基 于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排 名的顺序显示给用户。
用于网页排名的三种公知技术是PageRank (页排名)、HITS ("引起
超链接的主题搜索")和DirectHIT (直接HIT) 。 PageRank基于网页将具
有到重要网页的链接(即,"引出链接")的原理。因而,网页重要性基
于链接到该网页(即,"引入链接")的其它网页的数量与重要性。用简 单形式,网页之间的链接可以由邻接矩阵」表示,其中^表示从网页/到网
页y的引出链接的数量。网页^.的重要性分数y可以由以下等式表示
该等式可以通过基于下面的等式的迭代计算来求解
二 "W
其中w是网页的重要性分数的向量,并且是f的主本征向量。
HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重 要的原理。因而,HITS将网页的"重要性"分成两个相关属性"中心(hub)" 和"权威(authority)"。"中心"是由网页所链接到的网页的"权威"分数
来测量的,而"权威"是由链接到该网页的网页的"中心"分数测量的。与独
立于查询来计算网页重要性的PageRank相比,HITS基于结果的网页和通过 跟随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索 引擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加 作为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些 网页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心 分数可以由以下等式来表示
<formula>formula see original document page 6</formula>其中"C^表示网页p的权烕分数而A^)表示网页p的中心分数。HITS使用邻
接矩阵X来表示这些链接。邻接矩阵由以下等式表示
A 一 ,l如果页面,具有到页面y的链接
0(/ 一 to其它情况
向量a和A分别对应于该集合中所有网页的权威和中心分数,并且可以用
以下等式表示
因而,"和/z是矩阵^^4和^^的本征向量。HITS还可被修改来将按访问数量
测量的网页的流行度计算在内。基于对点进数据的分析,每当用户从网页/移 动至网页/时就增加邻接矩阵的6,。
DirectHIT基于过去的具有类似查询的结果的用户历史对网页排名。例如, 如果提交类似査询的用户通常首先选择结果的第三个网页,则该用户历史会是 第三个网页的排名应更高的指示。作为另一示例,如果提交类似査询的用户通 常首先花费最多的时间査看结果的第四个网页,则该用户历史会是第四个网页 的排名应更高的指示。DirectHIT从点进数据的分析中导出这些用户历史。
某些排名技术使用机器学习算法从包括查询、表示页面的特征向量和对于 每一査询的每一页面排名的训练数据中学习排名功能。排名功能用作从页面特 征到其对于一给定査询的排名的映射。排名功能的学习被某些人认为是对于学 习特征向量到已排序数值排名集合的一个成员的映射的回归问题。某些基于回 归的技术试图提供可被用来对页面排名的绝对相关性分数。然而,排名功能不 必提供绝对相关分数而仅仅需要提供页面的相对排名。因而,这些基于回归的 技术解决比所需更困难的问题。
用于排名功能的机器学习算法使用查询、特征向量和用户标记的相关 性分数作为训练数据。为生成该训练数据,可以将査询提交给生成搜索结 果的页面的搜索引擎。算法随后为这些页面生成特征向量并从用户输入每 一页面的相关性分数。这种方法的一个难点是搜索引擎可以返回上百个页 面作为其搜索结果。用户标记搜索结果的所有页面的代价很高。此外,用 户准确评估这么大数量的页面的相关性是困难的。虽然用户可以只标记页 面的一小部分,但是基于这一小部分的学习可能不能提供准确的排名功能。
概述
提供了一种用于将己标记文档对于一査询的相关性传播至未标记文档 的相关性的方法和系统。传播系统提供包括查询、以其对于这些査询的相 关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中 文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但 未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。 具有所传播的相关性的训练数据随后可以用于训练排名功能。
提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一 些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也 不旨在用于帮助确定所要求保护的主题的范围。
附图简述
图l是示出文档图的一部分的图。
图2是示出一实施例中传播系统的组件的框图。
图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。
图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。 图5是示出一实施例中传播系统的构建图组件的处理的流程图。 图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。 图7是示出一实施例中传播系统的归一化图权重组件的处理的流程图。
图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的 流程图。详细描述
提供了用于将对于一查询的已标记文档的相关性传播至未标记文档的 方法和系统。在一实施例中,该传播系统提供包括查询、以其对这些査询 的相关性标记的文档(由特征向量所表示)和未标记文档的训练数据。例 如,传播系统可以向搜索引擎提交查询并将搜索结果用作文档(例如,网 页)。传播系统随后可以提示用户基于其与査询的相关性来标记搜索结果 中的某些文档。传播系统随后计算训练数据中文档对之间的相似性。例如, 该传播系统可以用特征向量表示每一文档并且可以基于特征空间中的欧几 里得距离或基于余弦相似性度量来计算文档之间的相似性。传播系统随后 将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地 传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随 后可以用于训练排名功能。以此方式,传播系统可以基于文档之间的相似 性用附加的训练数据来自动扩充训练数据。
在一实施例中,传播系统使用文档图来表示文档,该图中的每一节点 表示一个文档且每一边表示由所连接的节点表示的文档之间的相似性。传 播系统可以将该图表示为对每一文档有一行和一列的方阵,该方阵中每一
非o值指示该行的节点和该列的节点之间的一条边。传播系统可以使用各
种技术来图定义边。例如,传播系统可以认为图形是全连接的,在这种情 况下每一节点具有到所有其它节点的边。作为另一示例,传播系统可以认 为节点通过最小生成树来连接。在一个实施例中,传播系统认为节点使用k 最近邻居算法来连接。具体地,传播系统为每一节点标识k最近邻居并添 加从该节点到其k个最近邻居中的每一个的边。传播系统随后基于由所连 接的边表示的文档之间相似性来为这些边计算权重。传播系统可以使用各 种技术来确定文档之间的相似性。在一实施例中,传播系统使用特征空间 中的基于文档的特征向量表示的欧几里得距离度量。传播系统将相似性存 储为方阵的值,从而得到相似性或仿射矩阵。传播系统还可以归一化该相
似性矩阵。传播系统还可以将对角值设置为0以防止相关性传播期间的自 强化(self-reinforcement) 0
生成相似性矩阵之后,传播系统使用基于流形排名的传播算法将已标
记文档的相关性传播至未标记的文档。基于流形排名的算法在He, J.,Li, M., Zhang, H丄等人的"Manifold-Ranking Based Image Retrieval", 2004年第12 届ACM国际会议多媒体方向(the 12th Annual ACM International Conf. on Multimedia, 2004)会刊中有描述。传播系统最初将已标记文档的相关性设 置为用户所提供的相关性分数并将未标记的文档的相关性分数设置为0。传 播系统随后将由相似性矩阵所指示的相似性计算在内,将已标记文档的相 关性传播至其相连的未标记文档。传播系统迭代地传播相关性分数,直到 相关性分数收敛于一解。未标记文档的所得的相关性分数与其与已标记文 档相同的査询相关的概率成比例。与许多具有高相关性分数的已标记文档
非常相似的未标记文档因而具有高相关性分数。相反,与任何已标记文档 都不非常相似的未标记文档具有低相关性分数。
传播系统可以使用可由如下方程表示的拉普拉斯核来表示相似性 <formula>formula see original document page 9</formula>
其中、'和 分别表示A和^的第1维,^表示特征空间的维数,而 表示反 映相似性计算中不同维的权重的正参数。因而,传播系统以如下方程表示 边的权重
<formula>formula see original document page 9</formula>(2)
其中,^表示文档z'和7之间的相似性。由于常数系数^A对相似性矩阵^ 的影响会被矩阵的归一化所抵消,故传播系统将其省略。传播系统如由以 下方程所表示地归一化相似性矩阵
<formula>formula see original document page 9</formula> (3)
其中,s表示归一化的相似性矩阵而o表示对角矩阵,其中(。')等于相似性 矩阵『的第/行的和。该归一化将相似性归一化为相关于所连接的文档的相似性。
传播系统可以将每一文档表示为形成欧几里得空间中的一点的'维特 征向量x。对于一个査询,传播系统接收文档的结果集
<formula>formula see original document page 9</formula>。前w点(特征空间中)表示用户标记的 文档,而后"点(特征空间中)表示未标记的文档。传播系统还接收相对应
的标记向量<formula>formula see original document page 10</formula>。后n个标记具有为0的值以表示未
标记文档。传播系统还可以允许指定负标记,而不仅仅是正标记,以表示 负相关示例。传播系统将特征空间中文档之间的距离表示为^'义x义—口 , 这对每一对点A和、分配一距离^^、),并将文档的排名函数表示为 —□,这向每一点、分配了排名分数乂。排名功能学习问题是从一组
具有特征y—w和标记y—"的査询中学习。传播系统通过如
下方程表示相关性传播的限制
<formula>formula see original document page 10</formula>
其中,/'表示相关性的限制,y表示初始标记,而"表示衰减因子。因为 计算归一化的相似性矩阵s的逆在计算上是困难的,所以传播系统使用泰勒
级数展开来逼近Z 。传播系统通过如下方程表示该泰勒级数展开
<formula>formula see original document page 10</formula>
传播系统迭代地求解Z,直到其收敛于一解或迭代了固定次数。
相关性被传播之后,传播标记的系统可以使用训练数据集(査询和已 标记特征向量)来训练排名功能。排名功能可以被实现为支持向量机、自 适应增强分类器(boosting classifier)、神经网络分类器等等。支持向量机 通过在可能的输入的空间中寻找超曲面来操作。超曲面尝试通过将正和负 示例中最接近的两个之间的距离最大化到该超曲面来从负示例中分出正示 例。这允许相似于但不同于训练数据的数据的正确的分类。可使用各种技 术来训练支持向量机。 一种技术使用将大二次规划问题分解成一系列可被 分析上解决的小二次规划问题的顺序最小优化算法。(请参考 http:〃research.microsoft.com/ jplatt/smo.html上的顺序最小优化。)
自适应增强是在训练数据的集合上运行多次测试的迭代过程。自适应 增强将弱学习算法(仅以比偶然性稍好的级别执行的算法)变换成强学习
算法(显示低误差率的算法)。弱学习算法在训练数据的不同子集上运行。 该算法越来越专注于其前导倾向于显示错误的那些示例。该算法校正由早 先的弱学习算法所造成的误差。因为其调整其前导的误差率,因此该算法
是自适应的。自适应增强组合粗略和适度地不准确的经验法则以创建高性 能算法。自适应增强将各独立运行测试的结果组合成单个、非常准确的分 类器。
神经网络模型具有三个主要组件架构、成本函数和搜索算法。架构
定义将输入和输出相关的功能形式(按照网络拓扑、单元连通度和激活功 能)。训练过程是在权重空间中搜索最小化目标函数的一组权重。神经网 络模型可以使用径向基函数("RBF")网络并用标准梯度下降作为其搜 索技术。
图1是示出作为查询的搜索结果返回的文档图的图示。在该示例中, 子图100表示搜索结果中所返回的文档的一部分。节点101-112表示搜索 结果的12个文档。节点101和106表示已标记文档。由节点101所表示的 文档用相关性分数.75标记,而由节点106所表示的文档用相关性分数.6标 记。传播系统使用最近邻居算法生成节点之间的边。在该示例中,节点102、 103和104是节点101的k个最近邻居中的每一个,但节点105-112不是k 个最近邻居中的一个。传播系统随后使用相似分数算法计算所连接的节点 之间的相似性。例如,节点101以具有指示所连接的节点之间的相似性的 权重8的边连接到节点102。
图2是示出一实施例中的传播系统的组件的框图。传播系统230通过 通信链路220 (例如,因特网)连接到文档存储210 (例如,网站)。传播 系统包括收集训练数据组件231、训练数据存储232和文档索引233。文档 索引包含文档存储中的文档(例如,网页)的索引。该文档索引可由web 爬行器生成。文档索引可以包括用以训练排名功能的每一文档的特征向量。 这些特征向量可以表示文档的许多不同类型的特征,如逆文档频率、关键 字、字体大小等等。收集训练数据组件向搜索引擎(未示出)提交查询, 并接收匹配这些查询的文档。搜索引擎可以独立于传播系统。在这种情况 下,传播系统可以从搜索结果中动态地生成特征向量。收集训练数据组件 可以提示用户标记匹配这些査询的文档中的某一些的相关性。收集训练数 据组件将查询、搜索结果(例如,特征向量)和标记存储在训练数据存储 中。传播系统还包括传播相关性组件235、构建图组件236、生成图权重组
件237、归一化图权重组件238和基于图传播相关性组件239。传播相关性 组件将己标记文档的相关性传播至存储于训练数据存储中的未标记文档。 传播相关性组件调用构建图组件以构建包括表示搜索结果的文档的边的 图。传播相关性组件随后调用生成图权重组件来为图的各边生成初始权重。 传播相关性组件调用归一化图权重组件来归一化所生成的权重。传播相关 性组件随后调用基于图传播相关性组件以执行从已标记文档到未标记文档 的相关性的实际传播。传播系统还包括创建排名功能组件241和排名功能 242。创建排名功能使用具有所传播的相关性的训练数据来创建排名功能。
其上可以实现传播系统的计算设备可以包括中央处理单元、存储器、 输入设备(例如,键盘和定点设备)、输出设备(例如,显示设备)和存 储设备(例如,盘驱动器)。存储器和存储设备是可以包含实现传播系统 的指令的计算机可读介质。此外,数据结构和消息结构可被存储或经由诸 如通信链路上的信号之类的数据传输介质发送。可以使用各种通信链路, 如因特网、局域网、广域网或点对点拨号连接。
传播系统可以向各种计算系统或设备提供服务,包括个人计算机、服 务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、 可编程消费电子产品、网络PC、小型计算机、大型计算机、包括任一上述 系统或设备的分布式计算环境等等。
传播系统可以在诸如程序模块等由一个或多个计算机或其他设备执行 的计算机可执行指令的通用上下文中描述。 一般而言,程序模块包括执行
特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据 结构等等。通常,程序模块的功能可以在各个实施例中按需进行组合或分 布。
图3是示出一实施例中传播系统的创建排名功能组件的处理的流程 图。创建排名功能组件收集训练数据,将己标记文档的相关性传播至未标 记文档,并随后训练一排名功能。在框301,该组件收集训练数据。在框 302,该组件为训练数据的一个子集输入标记。在框303,该组件调用传播 相关性组件以将已标记文档的相关性传播至未标记文档。在框304,该组件 使用该传播的相关性来训练排名功能。
图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。 该组件被提供训练数据并将已标记文档的相关性传播至未标记文档。在框 401,该组件调用构建图组件以构建包括边的初始图。在框402,该组件调 用生成图权重组件以生成指示由连接的节点所表示的文档之间的相似性的 权重。在框403,该组件调用归一化图权重组件以归一化图的权重。在框 404,该组件调用基于图传播相关性组件以执行相关性的传播。随后该组件 完成。
图5是示出一实施例中传播系统的构建图组件的处理的流程图。该组 件创建每一行和列表示一文档的方阵。该组件随后在每一节点和其k个最 近邻居(例如,k=10)之间标识并添加连接。在框501,该组件选择下一 个文档z'。在判定框502,如果已经选择了所有文档"则该组件返回,否则 该组件继续至框503。在框503,该组件选择下一个文档7。在判定框504, 如果已为所选文档z'选择了所有的文档八则该组件继续至框506,否则该 组件继续至框505。在框505,该组件计算所选文档z'和所选文档y之间的距 离,并随后循环至框503以选择下一文档7。在框506,该组件选择具有对 于文档z'的最小距离的10个文档7 (即,最近的邻居),并随后循环至框 501以选择下一文档''。
图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。 该组件基于曼哈顿(Manhattan)度量计算连接的节点之间的相似性。在框 601,该组件选择下一个文档''。在判定框602,如果已经选择了所有文档" 则该组件返回,否则该组件继续至框603。在框603,该组件将文档与其自 身的相似性初始化为0。在框604,该组件选择对所选文档z'的下一最近文 档7 (例如, 一连接的文档)。在判定框605,如果已选择了对于所选文档 Z的所有最近文档人则该组件循环至框601以选择下一文档"否则该组件 继续至框606。在框606,该组件将所选文档Z和所选文档y之间的相似性初 始化为1。在框607-609,该组件循环计算距离度量。在框607,该组件选 择特征向量的下一维Z。在判定框608,如果己经选择了所有维,则该组件 循环至框604以选择下一个最近文档7',否则该组件继续至框609。在框609, 该组件根据方程2将所选文档^和所选文档7之间的相似性设置为其当前相 似性乘以所选文档Z'和所选文档J的所选特征Z之间的差异的函数。该组件随 后循环至框607以选择下一维。
图7是示出一个实施例中传播系统的归一化图权重组件的处理的流程 图。该组件归一化相似性矩阵的权重。在框701,该组件选择相似性矩阵的 下一行z'。在判定框702,如果已选择了所有行,则该组件继续至框706, 否则该组件继续至框703。在框703-705,该组件计算对角矩阵的所选行 的值。在框703,该组件选择相似性矩阵的下一列八在判定框704,如果 已经选择了所有列,则该组件循环至框701以选择下一行,否则该组件继 续至框705。在框705,该组件将所选行z'和所选列y的权重添加至所选行z'的 对角元素。该组件随后循环至框703以为所选行z'选择下一列y。在框706, 该组件根据方程3归一化相似性矩阵。
图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的 流程图。该组件迭代地计算方程5的泰勒级数展开,直到其收敛于一解。 在框801,该组件将索引!'初始化为0。在框802,该组件将解向量初始化为 0。在框803-805,该组件循环直到其收敛于一解。在框803,该组件基于 前一迭代的值加上泰勒级数展开的下一因子计算下一迭代的值。在判定框 804,如果各值收敛于一解,则该组件返回,否则该组件继续至框805。在 框805,该组件将索引递增至下一迭代,并循环至框803以执行下一迭代。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理 解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反, 上述具体特征和动作作为实现权利要求的示例形式公开的。传播系统可以 被用来扩充搜索结果。例如,搜索引擎可以基于某一文档语料库来生成搜 索结果。随后可以使用该传播系统将搜索结果的文档的相关性传播至不同 语料库。具有最高相关性的不同语料库的文档随后可以被添加至搜索结果
中。传播系统可以被用来从以其对于一查询的相关性来标记的文档到未标 记文档来传播相关性(査询内传播),或从以其对于多个查询的相关性来 标记的文档到未标记文档来传播相关性(查询间传播)。该传播组件为每 一查询用查询内传播单独训练该训练组件并同时用查询间传播为多个查询 训练该训练组件。因此,本发明只由所附权利要求来限制。
权利要求
1. 一种用于训练文档排名组件的系统,包括包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记;基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235);以及训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。
2. 如权利要求l所述的系统,其特征在于,所述文档排名组件实现选 自由神经网络算法、自适应增强算法和支持向量机算法所组成的组的分类 算法。
3. 如权利要求l所述的系统,其特征在于,所述文档排名组件实现基 于回归的算法。
4. 如权利要求1所述的系统,其特征在于,所述传播相关性组件为每一查询单独传播相关性,且所述训练组件使用所述单独传播的相关性来训练所述文档排名组件。
5. 如权利要求1所述的系统,其特征在于,所述传播相关性组件同时为多个查询传播相关性,且所述训练组件使用所述同时传播的相关性来训练所述文档排名组件。
6. 如权利要求l所述的系统,其特征在于,包括创建其中文档被表示为由表示文档之间的相似性的边所连接的节点的图的图组件。
7. 如权利要求6所述的系统,其特征在于,所述图组件包括构建其中表示相似文档的节点通过边进行连接的图的构建图组件;以及基于由所述连接的节点所表示的文档的相似性为所述边生成权重的生成权重组件。
8. 如权利要求7所述的系统,其特征在于,所述构建图组件使用最近邻居算法在节点之间建立边。
9. 如权利要求l所述的系统,其特征在于,所述传播相关性组件使用基于流形排名的算法来传播相关性。
10. —种包含用于控制计算机系统以一种方法来训练文档排名组件的指令的计算机可读介质,所述方法包括提供(232)文档的表示以及对所述文档中的某一些的的标记,所述标 记指示文档对于一査询的相关性;创建(236)其中文档被表示为由边连接的节点的图,所述边表示由所 述连接的节点表示的文档之间的相关性;根据由所创建的图形所指示的文档之间的相似性并根据基于流形排名 的算法将已标记文档的相关性传播(239)至未标记文档;以及训练(241)文档排名组件以基于所述文档的所传播的相关性来对文档 对于查询的相关性排名。
11. 如权利要求IO所述的计算机可读介质,其特征在于,所述文档排 名组件实现选自贝叶斯网络算法、自适应增强算法和支持向量机算法所组 成的组中的分类算法。
12. 如权利要求IO所述的计算机可读介质,其特征在于,所述文档排 名组件实现基于回归的排名算法。
13. 如权利要求IO所述的计算机可读介质,其特征在于,所述相关性 的传播为每一查询单独传播相关性,且所述文档排名组件的训练使用所述 单独传播的相关性来训练。
14. 如权利要求IO所述的计算机可读介质,其特征在于,所述传播相 关性组件传播相关性〔查询间传播〕。
15. 如权利要求IO所述的计算机可读介质,其特征在于,图的创建包括构建其中表示相似文档的节点通过边进行连接的图;以及 基于由所述连接的节点所表示的文档的相似性为所述边生成权重。
16. —种用于训练文档排名组件的系统,包括提供文档的表示以及对所述文档中的某一些的标记的组件(231),所 述标记指示所述文档对于査询的相关性; 创建其中文档被表示为由边连接的节点的图的组件(236),所述边表 示由所述连接的节点表示的文档之间的相关性;基于由所创建的图指示的文档之间的相似性将已标记文档的相关性传 播至未标记文档的组件(239);以及生成基于所述文档的所传播的相关性来对文档对于查询的相关性进行 排名的文档排名组件的组件。
17. 如权利要求16所述的系统,其特征在于,所述传播相关性的组件根据基于流形排名的算法来传播相关性。
18. 如权利要求17所述的系统,其特征在于,所述传播相关性的组件 同时为多个查询传播相关性,且所述生成文档排名组件的组件使用所述同 时传播的相关性来生成所述组件。
19. 如权利要求16所述的系统,其特征在于,所述创建图的组件构建 图,基于由所述连接的节点所表示的文档之间的相似性为所述边生成权重。
20. 如权利要求16所述的系统,其特征在于,所述文档排名组件实现 基于回归的排名算法。
全文摘要
提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随后可以被用于训练排名功能。
文档编号G06F17/30GK101390096SQ200780006713
公开日2009年3月18日 申请日期2007年2月27日 优先权日2006年2月27日
发明者李明敬, 李智伟, 珏 王, 马韦莹 申请人:微软公司