专利名称:根据单词相关度识别单词聚类的制作方法
技术领域:
本发明总体上涉及词典(lexigmphical)分析,更具体地说,涉及根据单词相关度识别单词聚类。
背景技术:
一组数据可以包含大量信息,然而査找到相关信息却可能比较困难。关键词搜索是査找信息的主要技术。然而,在特定情况下关键词搜索在定位信息时并不有效。
发明内容
图1例示了根据语言的单词之间的相关度来生成语言本体的系统的一种实施方式-,
图2例示了可与图1的系统一起使用的相关度模块的一种实施方式;图3例示了记录基本相关度的相关度矩阵的实施例;图4例示了记录有向相关度的相关度矩阵的实施例;图5例示了记录平均相关度的相关度矩阵的实施例;图6例示了相关度图的实施例;以及
图7例示了可与图1所示的系统一起使用的聚类模块的一种实施方式。
具体实施方式
概述
在一种实施方式中,识别单词聚类包括访问记录相关度的记录。第
8一单词和第二单词之间的相关度描述了第一单词和第二单词之间的定量关系。单词聚类是根据近似度识别的。聚类中包括彼此足够相关的单词。如果第一单词和第二单词之间的相关度满足一个或更多个相关度判据则第一单词与第二单词足够相关。利用聚类进行聚类分析。
示例实施方式
在具体实施方式
中,领域本体的创建及查询包括以下步骤
1、 收集领域中的文档。在具体实施方式
中,文档是词条的集合。文档包括可读文本,例如,书《新约》。文档不需要包括叙述性形式的文本,
例如,文档可以包括用户输入的一组标注(tag),其单独及共同地描述了图像的内容。文档的集合可称为"领域文集(domain corpus)"。
2、 识别该领域中感兴趣的词条("词典词条")。词条的实施例包括单词(诸如"树")、短语(诸如"图形算法")、命名实体(诸如"纽约")等。词条(或概念)可具有不同的形式。在特定情况下,不同的单词用于同一概念,例如,"kidney stones (肾结石)"和"kidney calculi (肾结石)"是指同一概念,即"肾结石"。在其它情况下,词干可具有多种词形变化
(inflected varian),例如,词干"tree"具有词形变化"tree"和"trees"。在具体实施方式
中,同一词条的各种形式可处理为映射到同一词条。词典词条的任意适当形式可出现在文档中,但是具体词典词条不一定出现在任意文档中。
识别词典词条的方法的实施例包括利用用于特定领域的人造词典,例如,医学词典。在具体实施方式
中,可根据文档集中的一组文本串自动地生成词典词条的列表。可以按照频度对这些串进行索引及分类,并且可选择频度大于阈值的串。可使用其它合适的统计方法来确定词条。在具体实施方式
中,"单词"可与"词条"及"词典词条"互换。
3、 计算给定的共现上下文中词典词条的共现(co-occurrence)数量。如果两个词条中的每一个都在同一共现上下文(co-occurrence context)中至少出现一次,则这两个词条共现。共现上下文的实施例包括文档和段落。
4、 创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点的词典词条以及作为边权重的相关度。"有向加权图"可以用作可由任意合适的数据结构(例如,矩阵、二值判决图、或二值判决图的集合)代表的同一信息的实际表达。
5、应用查询该有向加权图的流程。给定一个或更多个词典词条作为输入,该流程输出与输入的词典词条有关的一个或更多个词典词条。例如,该流程可输出一个或更多个词条的分类列表,所述一个或更多个词条针对一个或更多个输入词条具有最高的差分有向相关度(如下所述)。在这种情况下,就该本体涉及的领域而言,该输出包括较接近输入词条的词条。
可使用任意适当的相关度定义。在具体的实施方式中,可使用以下
定义
1、 基本相关度
a. 词条A与B之间的基本相关度(A)可定义为包括词条A和B这两者的共现上下文的数量与包括词条A或B的共现上下文的数量的比值
A(A,B) = |AB|/|A or B|
b. 词条A与B之间的基本相关度(A)还可定义为包括词条A和B这两者的共现上下文的数量与包括A的共现上下文的数量或包括B的共现上下文的数量中的最大值的比值-
A(A,B) = |AB|/max(|A|,|B|)
2、 有向相关度
词条A与B之间的有向相关度(DAff)可定义为在假定共现上下文中观察到了 A的情况下观察到B的条件概率
DAff(A,B) = |AB| / |A|也就是说,有向相关度可以是包括词条A和B这两者的共现上下文的数量与包括词条A的共现上下文的数量的比值。通常,DAff(A,B)与DAff(B,A)不同。
3、 差分有向相关度
词条A和B之间的差分有向相关度(DiffDAff)可定义为词条A
10与B之间的有向相关度减去考虑了该文集中的词条B的常见程度(common-ness)的参数。在该文集中的词条B的常见程度可以是词条B
与该文集中的其它词条的基本相关度或有向相关度值的统计值。在具体实施方式
中,该文集中的词条B的常见程度可以是词条B的平均相关度(AA),这得到以下差分有向相关度的定义
DiffDAff(A,B) = DA(A,B) - AA(B)词条B的平均相关度(AA)或平均有向相关度可定义为
AA(B) = AVERAGE一x DAff(x, B)也就是说,平均相关度是共现上下文中的词条B与其他词条的有向相关度的平均值。
图1示出了识别单词的聚类的系统10的一种实施方式。在特定实施方式中,系统10根据单词之间的相关度识别单词的聚类。聚类中包括彼此足够相关的单词,其中足够的相关度是根据一个或更多个相关度判据确定的。在具体实施方式
中,系统10进行聚类分析。聚类分析的实施例包括根据页面的聚类对页面分类,根据文集的聚类确定文档集的特性,以及基于用户的文档中的聚类分析用户。
在特定实施方式中,对于给定的单词子集和词典D,可以基于特定
的反向索引II计算有向相关度,其中索引II例如包括针对单词Wj和Wj的条目I(Wi)和I(Wj)。 一般而言,反向索引是存储从词条到它的位置(即词条出现的共现上下文)的映射的索引数据结构。对于D中的每对单词Wi和Wj, DA(i,j)可以被定义为II中的条目I(Wi)和I(Wj)的合取值除以I(Wi)的数目值。一般而言,DA(i,j)不必等于DA(j,i)。结果可以以任意合适的方式例如以行方式存储,其中D(l,i)被存储,然后D(2,j)被存储,依此类
推。对于每行i,可以存储iI(Wi)l,接着是与Wj的合取的基数。
在特定实施方式中,可以在三个阶段中计算有向相关度。在这些实施方式中,每个词典词条被指派以唯一的整数标识符。反向索引的条目对应于整数标识符。在阶段O,对应于D的II条目被读取。对于参数(s,Q),仅形式ks+o的元素标识符被保留。值ks+o定义了将被检验的II条目的子集。以这样的方式,可以并行地计算有向相关度。作为示例,来自参数s,o(l,0)的结果相当于对参数(3, 0)、 (3, 1)、 (3, 2)的计算进行合并获 得的结果。该步骤允许计算用于很大反向索引的DA表。
在阶段1内,仅仅针对DA(i, j)以行的方式进行合取运算。在阶段2 内,读取计算出的上三角形UTDA阵列。据此获得作为UT置换的下三 角形部分。在特定的实施方式中,可以将多个维数相同的DA阵列并成 单个阵列。可以以(s,i)为参数按照犯!^=()...(3_1) DA来计算与大II相关的 DA数组。可以将附加信息与计算的合取存储起来,以便可以计算有向相 关度。在一定的情况中,可以存储n条目的基数。
在特定的实施方式中,可以以行的方式存储DA,所以AA条目的计 算可以与DA条目的计算并行地进行。具体地,可以通过在从盘中读取 DA时对DA的行进行求和,最后通过词典条目的数量进行归一化而生成 AA。
在示出的实施方式中,系统10包括客户端20、服务器22和存储器 24。客户端20允许用户与服务器22通信以便生成语言本体。客户端20 可以将用户输入发送到服务器22,并且可以将服务器输出提供(例如显示 或打印)给用户。服务器系统24管理用于生成语言本体的应用。存储器 24存储服务器系统24使用的数据。
在示出的实施方式中,存储器24存储页面50和记录54。页面50(或 文档或共现上下文)可以指文字集合。页面50的例子包括一个或更多个文 档页面、 一个或更多个文档、 一本或更多本书、 一个或更多个网页、信 件(例如电子邮件或即时消息)和/或其它文字集合。可以通过页面识别符 识别页面50。可以将页面50电子地存储中一个或更多个有形计算机可读 媒介中。页面50可以与任何适当的内容例如文本(例如字符、文字和/或 数字)、图像(例如图形、像片或视频)、音频(例如录音或计算机生成的声 音)和/或软件程序相联系。在特定的实施方式中, 一组页面50可以属于 --个文集。该文集可以与具体的主题、社区、组织或其它实体相联系。
记录54描述了页面50。在该实施方式中,记录54包括索引58、反 向索引62、本体66以及聚类67。索引58包括索引列表,其中,页面50 的索引列表指示页面50的单词。反向索引62包括反向索引列表,其中,
12单词(或单词集)的反向索引列表指示包括所述单词(或所述单词集)
的页面50。在一个实施例中,列表Wi包括包含有单词Wj的页面50的页 面标识符。列表Wi&Wj包括合取页面50 (其包含单词Wj和Wj这两者) 的页面标识符。列表Wi+Wj包括分取(disjunction)页面50 (其包含单 词Wi或Wj)的页面标识符。P(Wi)是Wi中页面50的数量,B卩,包括单词 Wi的页面50的数量。
在一种实施方式中,列表(诸如索引列表或反向索引列表)可被存 储为二值判决图(BDD)。在一个实施例中,集合Wi的二值判决图BDD (Wi)代表具有单词Wi的页面50。 BDD(Wj)的满足指定计数(satisfying assignment count) Satisf(BDD(WO)得到具有单词w;的页面50的数量
P(Wj):
P(Wj) = Satisf(BDD(Wi)) 因此,
P(W在Wj) = Satisf(BDD(Wi) AND BDD(W》) P(Wj+Wj) = Satisf(BDD(Wi) OR BDD(W》)
本体66代表语言的单词以及这些单词之间的关系。在一种实施方式 中,本体66代表单词之间的相关度。在例示的实施例中,本体66包括 相关度矩阵和相关度图。参照图3到图5来描述相关度矩阵的实施例。 参照图6来描述相关度图的实施例。聚类67记录彼此相关的词的聚类。 参照图7更详细地描述这些聚类。
在示出的实施方式中,服务器22包括相关度模块30和聚类模块31 。 相关度模块30可以计算单词对的相关度、记录相关度矩阵中的相关度和 /或报告相关度矩阵。相关度模块30还可以产生相关度图。将参照图2 更详细地描述相关度模块30。
在特定实施方式中,聚类模块31可以通过识别数据集中相关元素的 聚类发现数据集中的模式(pattem)。在特定实施方式中,聚类模块31 可以识别一组单词(例如, 一种语言或一组页面50)的聚类。 一般而言, 聚类单词彼此高度相关,但是不与聚类外的单词高度相关。单词聚类可 以指示单词集的主题(或题目)。在特定实施方式中,聚类模块31根据单词之间的相关度识别相关单词的聚类。在这些实施方式中,聚类单词
彼此高度相关,但是不与聚类外的单词高度相关。将参照图7更详细地 描述聚类模块31。
系统10的组件可以包括接口、逻辑、存储器和/或其他合适的元件。 接口接收输入、发送输出,处理输入和/或输出,和/或执行其他合适的操 作。接口可以包括硬件和/或软件。
逻辑执行组件的操作,例如,执行指令以根据输入产生输出。逻辑 可以包括硬件、软件和/或其他逻辑。逻辑可以在一个或更多个有形介质 中编码且当被计算机执行时可以进行操作。某些逻辑,例如,处理器, 可以管理组件的操作。处理器的实施例包括一个或更多个计算机、 一个 或更多个微处理器、 一个或更多个应用和/或其他逻辑。
存储器存储信息。存储器可以包括一个或更多个有形的、计算机可 读的和/或计算机可执行的存储介质。存储器的示例包括计算机存储器(例 如,随机存取存储器(RAM)或只读存储器(ROM),)、海量存储介质 (例如,硬盘)、可移动存储介质(光盘(CD)或数字视频光盘(DVD))、 数据库和/或网络存储器(例如,服务器)以及/或其他计算机可读介质。
可以对系统10做出修改、添加或省略而不偏离本发明的范围。系统 10的组件可以是集成的或分立的。而且,系统10的操作可以通过更多或 更少或其他组件实施。例如,生成器42和46的操作可以通过一个组件 执行,或者相关度计算器34的操作可以通过多于一个的组件执行。另外, 系统10的操作可以使用任意合适的逻辑实施,包括软件、硬件和/或其他 逻辑。当在本文中使用时,"各个"表示集中的各个成员或集的子集中的 各个成员。
可以对矩阵的实施例做出修改、添加或省略而不偏离本发明的范围。 矩阵可以包括更多的、更少的或其他的值。另外,矩阵的值可以以任意 合适的顺序布置。
图2示出了可以与图1的系统10—起使用的相关度模块30的一种 实施方式。相关度模块30可以为单词对计算相关度、在相关度矩阵中记 录相关度以及/或者报告相关度矩阵。相关度模块30还产生相关度图。
14在所示出的实施方式中,相关度模块30包括相关度计算器34、本 体生成器38和单词推荐器48。相关度计算器34为单词w,.或包括第一单 词vt;,和第二单词v^的单词对计算任意类型的相关度。相关度的实施例包 括基本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度。
在一种实施方式中,单词推荐器48接收种单词且识别与该种单词之 间的相关度大于阈值相关度的单词。阈值相关度可以具有任何适当的值, 诸如大于或等于0.25、 0.5、 0.75或0.95。阈值相关度可以被预编程或由 用户设定。
基本相关度可以根据包括单词w,和/或"的页面50的数量(例如, 数目)计算。合取页面数量代表包括单词w,和单词Wy两者的页面50的 数量。分取页面数量代表包括w,或勺的页面50的数量。通过将合取页 面数量除以分取页面数量,可以给出基本相关度。在一个实施例中,合 取页面数表示包括单词vv,和单词巧的页面数,而分取页面数表示包括单 词w,.或Wy的页面数。通过将合取页面数除以分取页面数可以给出基本相 关度
Affinity w》=尸W c&『》/ P(W +巧)
图3例示了记录基本相关度的相关度矩阵110的实施例。在所例示 的实施例中,相关度矩阵IIO记录单词W/,...,w的逐对相关度。根据相关 度矩阵IIO,单词vi^与w/之间的相关度是0.003,单词v^与v^之间的相 关度是0.005,以此类推。
返回参照图1,相关度组包括彼此具有高相关度的单词对,并可用 于针对页面内容而获得单词w和巧之间的关系。较高的相关度可指定为 大于相关度组阈值的相关度。阈值可以设定为任意合适的值,例如大于 或等于0.50, 0.60, 0.75, 0.90或0.95。 一个单词可属于多于一个的相关 度组。在一种实施方式中,相关度组可表示为BDD。用于该BDD的指 针可与该组的各个单词一起存储在反向索引62中。
有向相关度可用于测量单词w,对于圬的重要性。相关度计算器34 根据包括单词w,和巧的页面50的数量(例如,数目)来计算单词 与 给定单词HV的有向相关度。单词^页面数量表示包括单词w,的页面50
15的数量。单词W,与给定单词巧的有向相关度可通过合取页面数量除以单 词巧页面数量得到。例如,单词"页面的数量指示包括单词W,.的页面
50的数量。单词w,.与给定单词力的有向相关度可通过合取页面50的数 量除以单词w,页面50的数量得到 DAffinity(w,, wy)=尸(『,'在『》/尸(
DAffinity(w,, w》与DAffinity(w力w,.)不同。单词w与"之间的高有向 相关度DAffmity(w,,、力)指示在页面50包括单词wy的情况下页面50包括 单词w,的概率较高。在一个实施例中,页面[l 2 3 4 5 6]包括单词w,,而 页面[4 2]包括单词W,包括单词Wy的页面也包括单词W,,因此从单词". 的角度,单词vv'.具有较高的重要性。包括单词w,.的页面中仅有三分之一 的页面也包括单词" ,因此从单词w,的角度,单词VV/具有较低的重要性。
图4例示了记录单词v^,.,.,v^的有向相关度的相关度矩阵120。在该 实施例中,单词124是A单词,而单词128是B单词。矩阵120的各行 记录了 B单词与给定A单词的相关度,而矩阵120的各列记录了 A单词 与给定B单词的相关度。
返回参照图l,针对其它单词"来计算单词w,的平均相关度。在一 种实施方式中,平均相关度可以是单词w,与其它各个单词Wy之间的相关 度的平均。iV个单词中的单词v^的平均相关度可由下式给出
AveAff(W,)= ^S二尸(一)
图5例示了记录平均相关度的相关度矩阵140的实施例。行142记 录单词1到单词50,000的基本相关度。行144记录单词1到单词50,000 的平均相关度。
返回参照图1,单词的平均相关度可指示该单词的深度(depth)。具 有较低平均相关度的单词可认为是较深的单词,而具有较高平均相关度 的单词可认为是较浅的单词。较深的单词倾向于更技术、更具体和更精 确。较深单词的百分比较高的页面50可被认为是较深的页面,而较深单 词的百分比较低的页面50可被认为是较浅的页面。在一种实施方式中, 用户可指定要提取的单词和/或页面50的深度。
页面50的较深的单词可形成具有高度相关单词的一个或更多个聚
16类(duster)。聚类可表示共同思想或主题。页面50的主题的数量可指示 页面50的特异性。具有较少主题的页面50可被认为是较特殊的,而具 有较多主题的页面50可被认为是较不特殊的。
单词w,.相对单词VV;的差分相关度是单词w,与单词^之间的有向相 关度减去单词w,相对其它全部单词的平均相关度。差分相关度可表示为-
DiffAff(w,., w》=DAffinity(w,., w》—AveAff(w》
差分相关度排除了由单词w,在页面50中出现的一般趋势而造成的 偏差(bias)。在具体情况下,差分相关度可提供针对给定了页面包括单 词w/瞎况下该页面包括单词w,的概率的更精确指示。
差分相关度可用于多种应用。在一个实施例中,人名之间的差分相 关度可用于研究社会网络。在另一实施例中,语言元素之间的差分相关 度可用于研究自然语言处理。在另一实施例中,产品之间的差分相关度 可用于研究营销。
相关度计算器34可使用任意合适的技术来搜索反向索引列表,以计 算相关度。例如,为了识别包括单词w,和单词"这两者的页面,相关度 计算器34可搜索单词^的列表^以及单词"的列表% ,以获得公共元 素,即公共页面标识符。
在特定实施方式中,本体生成器38产生语言的本体66,诸如相关 度矩阵或相关度图。本体可以根据任意合适的相关度产生,诸如根据基 本相关度、有向相关度、平均相关度、差分相关度和/或其他相关度产生。 本体66可以以任意方式根据从语言中选出的单词产生。例如,可以选择 来自于语言的普遍使用部分的单词或涉及一个或更多个特定主题领域的 单词。
在所示出的实施方式中,本体生成器38包括相关度矩阵生成器42 和相关度图生成器46。相关度矩阵生成器42产生相关度矩阵,该相关度 矩阵记录单词之间的相关度。相关度图生成器46产生相关度图,该相关 度图代表单词之间的相关度。在相关度图中,节点代表单词,节点之间 的有向边的权重代表节点代表的单词之间的相关度。相关度图可以具有 任意适当大小的维数。
17图6示出了相关度图150的示例。相关度图150包括节点154和链 路158。节点154代表单词。在该实施例中,节点154a代表单词"二进制"。 节点154之间的节点有向边的权重代表节点154代表的单词之间的相关 度。例如,较大的权重代表较大的相关度。节点之间的链路158表示节 点154代表的单词之间的相关度大于相关度阈值。相关度阈值可以具有 任意合适的值,例如,大于或等于0.25、 0.5、 0.75或0.95。
图7示出了可以与图1的系统10—起使用的聚类模块31的一种实 施方式。在特定实施方式中,聚类模块31通过识别数据集中的相关元素 的聚类发现数据集中的图案。在特定实施方式中,聚类模块31可以识别 一组单词(例如,语言或一组页面50)的聚类。 一般而言,聚类单词彼 此高度相关,但是不与聚类之外的单词高度相关。单词的聚类可以指示 该组单词的主题(或题目)。
在特定实施方式中,聚类模块31根据单词之间的相关度识别相关单 词的聚类。在该实施方式中,聚类的单词彼此高度相关,但是不与聚类 外的单词高度相关。在一种实施方式中,如果单词足够相关,它们可以 被认为高度相关。如果单词满足一个或更多个相关度标准(例如阈值), 单词可以足够相关,标准的实施例在下面提供。
任意合适的相关度都可用于识别聚类。在特定实施方式中,聚类模 块31使用有向相关度。单词相对其他单词的有向相关度表征了单词的共 现。聚类包括具有相似共现的单词。在特定实施方式中,聚类模块31使 用差分相关度。差分相关度旨在去除单词在页面50中出现的一般趋势导 致的偏差。
在所示出的实施方式中,聚类模块31包括聚类引擎210和聚类分析 器214。聚类引擎210根据相关度识别单词的聚类,且聚类分析器214应 用相关度聚类以分析各种情况。
聚类引擎210可以以任意合适方式根据相关度识别单词的聚类。用 于识别聚类的方法的三个实施例为根据一组单词建立聚类,将单词分 入聚类,以及比较单词的相关度向量。在一种实施方式中,聚类引擎210 根据一组单词建立聚类。在一种实施方式中,聚类引擎210根据具有相
18关度-Aff(w,,".)的单词—,.}的集『建立聚类S。相关度值*八任(>^ 代表 单词w,:相对于wy的任意合适类型的相关度,诸如有向相关度DAffinity(w,, Wy)或差分相关度DiffAff(W,, w,.)。这里提供的相关度值的某些实施例可以 被认为是归一化值。在该实施例中,Afff。r w)代表前向相关度,且
Affback (W/, W,)代表后向相关度。
在该实施例中,聚类5*开始于种单词viv当前单词v^代表在当前迭
代中与来自集『的单词比较的聚类S的单词。最初,当前单词W被设置 为种单词w9。
在迭代中,当前单词^被设置为聚类S的单词。集『的单词w,根 据它们与当前单词W的前向聚类Afff。^^ vO分类。从分类集『的起点 开始,识别满足相关度标准的候选单词we。相关度标准可以包括与当前
单词W的前向相关度标准 AfffbrOc,> Thcf
以及与种单词V^的后向相关度标准 AffbackOp Wc) > Thcb
其中Thef代表候选单词的前向阈值,Theb代表候选单词的后向阈值。 候选单词{>^}的有序集的第一单词被添加到聚类&添加的单词数由参数 Size。给出。阈值Th。f和Theb可以为范围从最小值到最大值的任何适当值 的浮点参数。在特定的实施例中,阈值Thef和Theb的适当值可以根据实
际相关度的等级列表确定。例如,可以使用列表的第200个值。参数Sizee 可以是具有任意合适值的整数参数。合适的值的实施例包括缺省值1、 2、 3或4。在特定实施方式中,参数可以在特定迭代处变化。
可以执行任意合适数目的迭代。在一个实施例中,可以在方法启动 之前设计迭代数目。在另一实施例中,可以在方法的执行过程中计算次 数。例如,可以根据聚类S的尺寸的生长速度计算次数。
在另一实施方式中,聚类引擎210通过将一组单词中的单词分类成 聚类来识别聚类。在一个实施例中,集『的单词^v, }根据相关度*Aff(W,, ")(诸如差分相关度或有向相关度)分类。在另一实施例中,单词{>^} 根据聚集函数分类,例如,根据单词w,的与单词分离集Q中的各个成员的相关度之和分类。集『可以以任意合适的方式选择。例如,集『可以
是与査询最相关的x个单词,其中x可以是任意合适的值,诸如从10至
100, 100至200或等于或大于200的值。
在该实施例中,聚类最初为空。集『的第一单词w,被放置在聚类中。 在每次迭代,当前单词w从集『中选择。如果tAff(v^, 满足相关度阈 值Th给出的相关度标准,则当前单词w被放入到聚类,其中ny代表聚 类中放置的第一单词。阈值Th可以具有任意合适的值,例如,0.1至0.5 范围的值(最小值为0.0和最大值为1.0)。如果*八任(>^ vv》不满足阈值 Th,则当前单词w被置于空聚类。针对集『中的每个单词重复该迭代。
在处理了集『的单词之后,小聚类可以被消除。例如,可以消除具 有少于Y个单词的聚类。Y可以具有任意合适的值,诸如3至5、 5至 10、 10至25、 25至50,或大于等于50的范围中的值。
如果聚类的数目不在满意的范围内,可以使用不同的阈值Th重复该 处理,该不同的阈值Th给出了针^t在聚类中进行放置的较严格或较松的 标准。满意的范围可以由具有任意合适值的聚类数目最小值和聚类数目 最大值给出。合适值的实施例包括针对最小值的1至5、 5至10或大于 或等于10范围的值,以及针对最大值的10至15、 15至20或大于或等 于20的范围中的值。可以增加阈值Th的值以增加聚类的数目,且可以 减小阈值Th的值以减小聚类数目。
在另一实施方式中,聚类引擎210通过比较单词的相关度向量识别 聚类。在特定实施方式中,相关度矩阵的行和列可以得出相关度向量o^,
*Aff(v^, w》,…,*Aff(w,, …,*Aff(w,, w )>,这代表单词w,.相对于单词 "的相关度,j、l,…,"。相关度值*八汪0^")代表单词^相对于单词>^ 的任意合适类型的相关度,例如,有向相关度或差分相关度。
在特定实施方式中,具有相似相关度值的相关度向量可以表示聚类。 仅用于描述目的,相关度向量可以被认为是相关度空间中单词的相关度 的坐标。即,每个相关度值*八纟代>^, w)可以被认为是特定维数的坐标。具 有相似相关度值的相关度向量表示这些向量与之相关的单词在相关度空 间彼此靠近。即,这些向量表示这些单词与其他单词具有类似相关度关
20系,且因而可以适用于相同聚类中的成员关系。
如合适的距离函数所确定的,如果一个相关度向量接近另一相关度 向量,则这些相关度向量相似。距离函数可以基于相关度向量定义为例 如针对给定尺寸的向量的标准欧几里得距离,或者给定尺寸的向量的余
弦。距离函数可以通过聚类引擎210或通过用户指定。
在特定实施方式中,聚类引擎210应用聚类算法以识别值彼此接近 的相关度向量。聚类算法的示例包括直接算法、重复二等分算法、聚合 算法、偏差聚合算法和/或其它适当算法。在一个实施例中,聚类引擎210 可以包括聚类软件,诸如CLUTO。
聚类分析器214可以在任意合适的应用中使用相关度聚类以用于分 析。在一种实施方式中,聚类分析器214可以使用相关度聚类对页面50 进行分类。类可以与聚类标识符或一个或更多个聚类成员相关。在一个 实施例中,页面50的聚类被识别,然后可以根据聚类对页面50进行分 类。在另一实施例中,可以选择页面50的重要单词,然后定位包括该单 词的聚类。然后根据定位的聚类对页面50进行分类。
在一种实施方式中,聚类分析器214可以使用相关度聚类来分析页 面50的文集。文集可以与特定主题、 一个或更多个个体的社团、组织或 它们的实体相关。在一个实施例中,聚类分析器214可以识别文集的聚 类且根据聚类确定文集的文集特性。文集特性可以表示与实体(所述实 体与文集相关)相关的单词。如果一个或更多的页面50具有文集特征的 聚类,则页面50可以与该实体相关。
在一种实施方式中,针对搜索查询歧义消除和扩展,聚类分析器214 可以使用相关度聚类。在该实施方式中,聚类分析器214识别包括给定 搜索查询的搜索词条的聚类。聚类提供与给定搜索查询相关的另选单词 和/或分类。在一个实施例中,来自于聚类的单词可以被报告给搜索者以 帮助下一次搜索查询。在另一实施例中,聚类分析器214可以从聚类选 择单词且自动地形成一个或更多个新的搜索查询。聚类分析器214可以 顺序地或并行地运行新的查询。
在一种实施方式中,聚类分析器214可以使用相关度聚类来研究社
21会网络。在一个实施例中,页面50可以提供社会网络的洞察。这种页面 的实施例包括信件(诸如信、电子邮件和即时消息)、备忘录、文章和会 议记录。这些页面50可以包括包含社会网络的中的人的用户标识符(诸 如名字)的单词。可以识别名字的聚类以分析该网络中的人之间的关系。 在一个实施例中,差分相关度聚类可用于过滤页面50中的出现最多的名 字,而不提供诸如系统管理员的名字之类的信息。
在特定实施方式中,聚类分析器214可以通过组合和/或比较数据集 的聚类来分析数据集。在一种实施方式中,比较交叠数据集的聚类。一 个数据集的聚类可以映射到其他数据集的聚类,这可以提供两个数据集 之间的关系的洞察。例如,数据集可以来自于对一组同事的文档的分析 且来自于该组的社会网络研究。社会网络聚类可以映射到文档主题聚类 以分析社会网络和主题之间的关系。
本发明的某些实施方式可以提供一个或更多的技术优点。 一种实施 方式的技术优点是可以根据从单词之间的相关度识别单词的聚类。聚类 包括彼此足够相关的单词,其中足够的相关度是根据一种或更多种相关 度判据确定的。 一种实施方式的另一技术优点可以是可进行聚类分析。 聚类分析的实施例包括根据页面的聚类对页面分类,根据文集的聚类确 定文集特性,并且基于用户的文档中的聚类分析用户。本发明的特定实 施方式可包括零个、 一些或全部上述技术优点。对于本领域技术人员而 言,从这里所包括的附图、说明书以及权利要求得到一项或更多项其它 技术优点是明显的。
尽管已经根据某些实施方式描述了本公开,但这些实施方式的变型 和改变对于本领域技术人员而言是显见的。因此,实施方式的上述描述 并不限制本公开。在不偏离所附权利要求限定的本发明的精神和范围的
情况下,可以做出其他变型、替代和变更。
本申请要求David(nmi) Marvit等人于2007年10月5日提交的题为 "WORD CLUSTERING BASED ON AFFINITY"的美国临时申请第 60/977,811号(律所案号:073338.0550)的优先权。
2权利要求
1、一种方法,所述方法包括访问存储于一个或更多个有形存储介质中的记录,所述记录记录了多个相关度,第一单词和第二单词之间的相关度描述了所述第一单词和所述第二单词之间的定量关系;根据所述多个相关度识别多个单词的多个聚类,聚类包括一个或更多个彼此足够相关的单词,如果第一单词和第二单词之间的相关度满足一种或更多种相关度判据则所述第一单词与所述第二单词足够相关;利用所述聚类进行聚类分析以产生结果;以及报告聚类分析的结果。
2、 根据权利要求1所述的方法,其中所述相关度还包括从由基本相关度、有向相关度、以及差分相关度组成的组中选出的相关度。
3、 根据权利要求1所述的方法,其中根据所述多个相关度识别多个单词的多个聚类还包括通过以下步骤建立聚类在所述聚类中放入种子单词,以及为添加进所述聚类的各个单词重复以下步骤根据该个单词和当前单词之间的前向相关度对多个单词分类;识别满足所述一种或多种相关度判据的一个或更多个候选单词,所述一种或更多种相关度判据包括与当前单词的前向相关度判据和与种子单词的后向相关度判据;以及将所述一个或更多个候选单词放入所述聚类。
4、 根据权利要求1所述的方法,其中根据所述多个相关度识别多个单词的多个聚类还包括通过为所述多个单词中的各个单词重复以下步骤将单词分类进聚类-如果该各单词和聚类的第一单词之间的相关度满足相关度阈值,则将该个单词放入所述聚类;以及否则将该个单词放入空聚类。
5、 根据权利要求1所述的方法,其中根据所述多个相关度识别多个单词的多个聚类还包括通过以下步骤比较所述单词的多个相关度向量获得记录了相关度值的多个相关度向量,相关度向量与单词相关联并包括多个相关度值,相关度值指示关联的单词和另一单词之间的相关度;识别一组彼此接近的相关度向量;以及将与该组相关度向量关联的单词放入聚类。
6、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括根据聚类对包括所述多个单词的页进行分类。
7、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括通过以下步骤根据聚类对页进行分类-选择所述页的一个或更多个重要单词;确定所述多个聚类中的包括所述一个或更多个重要单词的一个或更多个聚类;以及根据所述一个或更多个聚类对所述页进行分类。
8、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括根据所述聚类确定包括所述多个单词的文集的文集特性。
9、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括确定所述多个聚类中的包括给定搜索查询的一个或更多个搜索术语的一个或更多个聚类;根据所述一个或更多个聚类选择一个或更多个单词;以及报告所选择的一个或更多个单词。
10、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括确定所述多个聚类中的包括给定搜索查询的一个或更多个搜索术语的一个或更多个聚类;根据所述一个或更多个聚类选择一个或更多个单词;以及根据所选出的一个或更多个单词生成一个或更多个下一搜索查询。
11、 根据权利要求1所述的方法,其中所述利用聚类进行聚类分析以产生结果的步骤还包括分析人的社会网络,每个人与用户标识符关联,所述单词包括所述用户标识符,通过以下步骤分析所述社会网络根据所述聚类确定所述人之间的一个或更多个关系。
12、 根据权利要求1所述的方法,其中访问存储于一个或更多个有形的存储介质中的记录的步骤还包括访问根据多个数据集合生成的相关度值,所述多个数据集合包括所述多个单词;所述根据多个相关度识别多个单词的多个聚类的步骤还包括为每个数据集合识别聚类集合;以及其中所述利用聚类进行聚类分析以产生结果的步骤还包括-比较第一数据集合的第一聚类集合与第二数据集合的第二聚类集合以分析第一数据集合和第二数据集合之间的关系。
13、 一种或多种编码有软件的计算机可读的有形介质,所述软件在执行时能够访问记录,所述记录记录了多个相关度,第一单词和第二单词之间的相关度描述了所述第一单词和所述第二单词之间的定量关系;根据所述多个相关度识别多个单词的多个聚类,聚类包括一个或更多个彼此足够相关的单词,如果第一单词和第二单词之间的相关度满足一种或多种相关度判据则第一单词与第二单词足够相关;利用所述聚类进行聚类分析以产生结果;以及报告聚类分析的结果。
14、 根据权利要求13所述的计算机可读的有形介质,其中所述相关度还包括从由基本相关度、有向相关度、以及差分相关度组成的组中选择的相关度。
15、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够通过以下步骤建立聚类以根据所述多个相关度识别多个单词的多个聚类在所述聚类中放入种子单词,以及为添加进所述聚类的每个单词重复以下步骤根据每个单词和当前单词之间的前向相关度对多个单词分类;识别满足所述一种或更多种相关度判据的一个或更多个候选单词,所述一种或多种相关度判据包括与当前单词的前向相关度判据和与种子单词的后向相关度判据;以及将所述一个或更多个候选单词放入所述聚类。
16、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够通过为所述多个单词中的各个单词重复以下步骤将单词分类为聚类以根据所述多个相关度识别多个单词的多个聚类如果该个单词和聚类的第一单词之间的相关度满足相关度阈值,则将该个单词放入所述聚类;以及否则将该个单词放入空聚类。
17、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够通过以下步骤比较所述单词的多个相关度向量以根据所述多个相关度识别多个单词的多个聚类-获得记录了相关度值的多个相关度向量,相关度向量与单词相关联并包括多个相关度值,相关度值指示关联的单词和另一单词之间的相关度;识别一组彼此接近的相关度向量;以及将与该组相关度向量关联的单词放入聚类。
18、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以根据聚类将包括所述多个单词的页分类以利用聚类进行聚类分析以产生结果。
19、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以通过以下步骤根据聚类将页分类以利用聚类进行聚类分析以产生结果选择所述页的一个或更多个重要单词;确定所述多个聚类中的包括所述一个或更多个重要单词的一个或更多个聚类;以及根据所述一个或更多个聚类对所述页进行分类。
20、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以根据所述聚类确定包括所述多个单词的文集的文集特性以利用聚类进行聚类分析以产生结果。
21、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够通过以下步骤利用聚类进行聚类分析以产生结果-确定所述多个聚类中的包括给定搜索査询的一个或更多个搜索术语的一个或更多个聚类;根据所述一个或更多个聚类选择一个或更多个单词;以及报告所选择的一个或更多个单词。
22、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以通过以下步骤利用聚类进行聚类分析以产生结果确定所述多个聚类中的包括给定搜索査询的一个或更多个搜索术语的一个或更多个聚类;根据所述一个或更多个聚类选择一个或更多个单词;以及根据所选择的一个或更多个单词生成一个或更多个下一搜索查询。
23、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以通过分析人的社会网络利用聚类进行聚类分析以产生结果,每个人与用户标识符关联,所述单词包括所述用户标识符,通过以下步骤分析所述社会网络根据所述聚类确定所述人之间的一个或更多个关系。
24、 根据权利要求13所述的计算机可读的有形介质,其中所述软件还能够操作以通过以下步骤访问存储于一个或更多个有形的存储介质中的记录访问从多个数据集合生成的相关度值,所述多个数据集合包括所述多个单词;通过以下步骤根据多个相关度识别多个单词的多个聚类为每个数据集合识别聚类集合;以及通过以下步骤利用聚类进行聚类分析以产生结果-比较第一数据集合的第一聚类集合与第二数据集合的第二聚类集合以分析第一数据集合和第二数据集合之间的关系。
25、 一种系统,所述系统包括装置,所述装置用于访问存储于有形的存储介质中的记录,所述记录记录了多个相关度,第一单词和第二单词之间的相关度描述了所述第一单词和第二单词之间的定量关系;装置,所述装置用于根据所述多个相关度识别多个单词的多个聚类,聚类包括一个或更多个彼此足够相关的单词,如果第一单词和第二单词之间的相关度满足一种或多种相关度判据则所述第一单词与第二单词足够相关;装置,所述装置用于利用所述聚类进行聚类分析以产生结果;以及装置,所述装置用于报告聚类分析的结果。
全文摘要
本发明涉及根据单词相关度识别单词聚类。在一种实施方式中,识别单词聚类包括访问记录了相关度的记录。第一单词和第二单词之间的相关度描述了第一单词和第二单词之间的定量关系。根据相关度识别单词聚类。聚类包括彼此具有足够相关的单词。如果第一单词和第二单词之间的相关度满足一种或多种相关度判据则第一单词与第二单词足够相关。利用聚类进行聚类分析。
文档编号G06F17/30GK101493823SQ20081016617
公开日2009年7月29日 申请日期2008年10月6日 优先权日2007年10月5日
发明者B·托马斯·阿德勒, 亚历克斯·吉尔曼, 大卫·马尔维特, 斯特吉奥斯·斯特吉奥, 贾瓦哈拉·贾殷 申请人:富士通株式会社