一种基于emd的文档语义相似距离度量化方法

文档序号:6458617阅读:210来源:国知局
专利名称:一种基于emd的文档语义相似距离度量化方法
技术领域
本发明涉及一种基于EMD的文档语义相似距离度量化方法,属于信息检索、数 据挖掘领域。
背景技术
文档相似性度量算法用于计算文档之间的相似程度,在信息检索、数据挖掘等领 域中具十分重要的意义,它是分类、过滤、聚类、搜索等高级文档数据组织与管理的 基础计算,其性能优劣直接影响到信息检索和数据挖掘的整体效果与质量。文档相似 性度量算法可以采用相似系数的形式,也可以采用相似距离的形式,二者可以相互转 换。
在通常的文档相似距离度量算法方法中,如欧氏、海明距离等等,认为文档的 各特征项/词汇相互正交,而忽略了不同特征项之间的语义关系,采用不同文档中相同 词形"一对一"匹配的方式进行相似性比较,准确性欠佳。'为了在文档相似距离计算 中引入不同特征项之间的语义关系,建立文档特征项之间"多对多"的匹配关系,一
些学者基于图像检索领域中常用的EMD(Earth Mover, s Distance)算法及WordNet电 子字典,实现了基于EMD的文档语义相似距离算法,有效地提高了计算的准确性。 下面给出基于EMD的文档相似距离的计算方法。<formula>formula see original document page 4</formula>
有《为特征项、与、,的语义相似距离,『=ix,, 另有匹配度
. /二1 产l
F = ",},人/是由 经(匹配到 的量,并满足
<formula>formula see original document page 4</formula><formula>formula see original document page 5</formula>若以A, B的特征项组成的集合^, S为两组顶点(下同),连接两组顶点构成关系 图(7 = {4&/)},得到最小匹配总量Work(」力)如下
<formula>formula see original document page 5</formula>
则A , B的相似距离定义为项集合2与5的EMD距离
<formula>formula see original document page 5</formula> (6)
综上所述,在EMD计算中可以把A的特征项看作质量分别为w。,,的若干堆土方, B的特征项看作若干容量为的坑穴(反之亦然),求文档A与B的EMD相似距离的 问题即为求解将土方经距离为《,的路径填充到坑穴的最短距离运输方案。这里儿.为 各路径上的流量,则的EMD相似距离即为最小的运输工作总量与相对轻的一方土方 总质量或容量之比。EMD实际上是一个关于运输问题的线性规划算法。
从以上算法背景介绍可以看出,现有的基于EMD的文档相似距离计算方法存在 着一个重要的不足之处,即不满足度量定义的正性公理和三角不等公理,具体表现为 算法存在严重的局部匹配问题,这将导致其计算分辨能力较差。

发明内容
要解决的技术问题
为了消除现有EMD文档语义相似距离算法不满足度量公理的缺陷,本发明提出 一种基于EMD文档相似性度量化的方法,可以实现原算法的度量化。 技术方案
本发明的思想是EMD要完全满足度量公理需确保的条件有,计算特征项之间相 似度的函数(称为基函数)本身为度量,以及在EMD的计算空间域内各文档特征项集合 总权值恒等。前者易于实现,需着重解决后者。在选择满足度量公理的基函数的基础 上,本发明以虚拟项的形式补齐文档矢量权值差,之后对补齐特征项权值的两个文档矢量进行归一化处理,再进行EMD计算,从而实现一种严格的基于EMD的文档语义 相似距离度量。
本发明技术特征在于,在基于EMD的文档语义相似距离计算中提出了文档宽度 和虚拟项的概念,并提出了基于最相似最高优先权准则和全匹配准则的EMD计算简 化方法,具体步骤为
1、 首先对文集中两篇待计算文档语义相似距离的文档进行预处理,去除停用词, 将文档表示成为f/.W/项权值矢量,A为左矢量,B为右矢量;
2、 对文档左矢量A和右矢量B计算文档宽度lA^^、 IBIL,《和文档宽度差『AB,
^B=|lAIUHIBIUl;
3、 利用基于WordNet的词汇相似距离工具,计算左右文档矢量权值非0特征项之 间的相似距离,并分别存储到相似距离记录列表;
4、 定义虚拟项的权值和虚拟项与其它特征项的相似距离,将得到的虚拟项与其它 特征项的相似距离写入步骤3的记录列表;所述的虚拟项的权值等于步骤2得到的左 右文档矢量的宽度差;所述的虚拟项与其它特征项的相似距离是取左右文档矢量的 特征项之间相似距离的最大值;
5、 如果左右文档矢量的文档宽度不相等,也就是文档宽度差不为0,则需进行插 入虚拟项处理。若左矢量宽度大于右矢量,则为右矢量插入步骤4构建的虚拟项;反 之,为左矢量插入步骤4构建的虚拟项;
6、 在插入虚拟项后,对文档矢量进行归一化处理将文档矢量中各项的权值除以
该文档矢量的总权值,用商值替代原来的项权值,得到的新的左、右文档矢量的总权
值将分别为l; -
7、 根据最相似最高优先权准则和全匹配准则进行EMD简化计算。 所述的文档宽度是设X是一个文档矢量的特征项组成的集合,x为特征项,有:
每一个映射M:x4及+LU(n, "Z,都称为分布M下X的一个分布值,则SM(x)是 义在分布M下的文档宽度,记为Mw,当1 = 0)时,|X|L=0。
所述的文档宽度差为左右文档矢量的宽度差值,该值为非负值。所述的虚拟项与其它特征项的相似距离是取左右文档矢量的各特征项之间的相 似距离的平均值。
所述的最相似最高优先权准则是在计算文档间的相似度时,总是希望为相似距 离短的项对在文档矢量匹配时给予最高的优先级,即最相似的项(有可能是同义词或近 义词)在匹配时首先参与权值的"运输",实现相似距离最小的项对给予最大的匹配计 算优先权,其它项对的匹配计算优先权依项间相似距离的增加递减分配。通过运用最 相似最高优先权准则可以减少EMD算法的计算负担。
所述的全匹配准则是 一篇文档中的一个多义词通常在该文档中仅取一个词义, 所以在进行项匹配时一个项同时匹配给多个词的情况很少。因此,我们可以认为项与 项应当进行完全匹配,除非其中一个权值大于另一个才需对剩余的权值进行再匹配。 通过运用全匹配准则可以有效地减少EMD算法的迭代次数。
根据上述准则,简化的EMD计算首先在步骤3中的相似距离记录列表中搜索相 似距离最小值,将该最小值连接的左矢量特征项的"土方"量(也就是权值)全部运 输到右矢量的"坑穴"。若"坑穴"容量不够则多余部分保留在左矢量中,若"土方" 量不够,则多余部分保留在右矢量中,将实际运输量作为该条路径上的流量。这样的 一次运输完成后,依照上述方法在步骤3中的相似距离记录列表中搜索下一个相似距 离最小值,直到所有左矢量的权值被运输完毕。
根据下式计算文档语义相似距离<formula>formula see original document page 7</formula>
有益效果
本发明提出一种基于EMD的文档语义相似距离度量化方法,利用插入虚拟项的 方法对文档矢量的权值进行了平衡,消除了 EMD算法在计算过程中不区别文档矢量 之间的权值差异而导致算法陷入局部匹配的缺陷,从而提高算法的分辨能力并拓展了 算法的应用范围。
方法还对EMD算法的计算过程进行了简化提高了运算速度,适合于实时性较高的应用场合。


图l:本发明方法的基本流程图
具体实施例方式
现结合附图对本发明作进一步描述
本发明的采用Reuters-21578文集中的两篇英文文本文档作为实施实例,用于实施 的硬件环境是P4 3.0GhzCPU、内存512M、硬盘80G; Windows XP Professional操 作系统、NTFS文件系统。利用PerI工具及WordNet2.1完成项语义距离计算,虚拟项 相似距离赋值采用方法②,存储计算结果;主程序采用丫0++6.0实现。
1、 预处理。在去除停用词的基础上,根据VSM模型把文档表示成《维矢量,左 文 档 A^(、,i^),(/。,2,w。,2),…,(",H^》 , 右 文 档 B^(^,M^),(",2,MV2),…,仏,气w》,f为特征项(可以是词组、短语、词等, 一般取
词),W为项f的(^W/权重。
2、 计算文档宽度和文档宽度差。.
文档A 、 B的宽度lAl、 即为它们各自特征项的《.W/权重累加和。
- llBii《'.,《
文档A、 B的宽度之差记为ff^,有^^ =
3、 特征项之间的相似距离计算。可调用基于WordNet词汇相似距离Perl工具中的 lesk算法完成词汇相似距离的计算。将结果存储到相似距离记录列表械,》。
4、 构建虚拟项。虚拟项为(H), wv=『AB,这里^无实际词汇含义。虚拟项与
其它项相似距离记为《,赋值采用方法二,即取均值^, 3=^;||>^,其中 -0,
*0 。将《存储到相似距离记录列表{(} 。 J
5、 为B插入虚拟项,由于llAl"喊2lBl嫂,因而需要为右文档B插入上述虚拟项,
得到B',.,,气,),(,A2,气2),…,(", ),(/,,,vO}。
6、 归一化处理。令w。,' = w。, /max(PF,S / S W , ' = wA 乂 /max(W,S _/ S iV , wv'=Wv/maX(『,"),得到A'= {(、,w。,,),(f。,2,w。,2'),…,(,a,w,B'^"^,^,,),^"7、 EMD简化计算。为了简化EMD(A',B")算法,首先采用最相似最高优先权准则 因而简化EMD计算过程中首先选择相似距离记录列表{《;}中最小的(.,并得到一个 二元组实例(/,/)。
由dif和(i,j),得到气,与气,的相对小的权值,也即min(w a,i,w b,j),若 min(w a,i,w b,j)=0 ,执4亍下一步,否贝f i,j = min(w a,i,w b,j),若w a,i小于等于w b,j,则w a,i=w b,j, wa,i= 0;反之w a,i大于w b,j,w a,i=w a,i-w b,j,w b,j= 0 。
根据最相似最高优先权准则得到下一组二元组实例(i,j)按照上面的方法计算匹配 值,直至所有特征词的权重匹配完毕。
按照公式(7)计算A、 B的相似距离。
由此我们实现了基于EMD文档A 、 B语义相似距离度量计算。 该方法解决了基于EMD文档语义相似距离算法中不满足度量的缺陷问题,并在
原有EMD计算方法上进行了简化处理。方法可以用于以前不适合EMD文档语义相似
距离的文档三角索引,计算的分辨能力与计算效率都有所提高。
权利要求
1. 一种基于EMD的文档语义相似距离度量化方法,其特征在于步骤如下1)首先对文集中两篇待计算文档语义相似距离的文档进行预处理,去除停用词,将文档表示成为tf·idf项权值矢量,A为左矢量,B为右矢量;2)对文档左矢量A和右矢量B计算文档宽度‖A‖tf·idf、‖B‖tf·idf和文档宽度差WAB,WAB=|‖A‖tf·idf-‖B‖tf·idf|;3)利用基于WordNet的词汇相似距离工具,计算左右文档矢量权值非0特征项之间的相似距离,并分别存储到相似距离记录列表;4)定义虚拟项的权值和虚拟项与其它特征项的相似距离,将得到的虚拟项与其它特征项的相似距离写入步骤3的记录列表;所述的虚拟项的权值等于步骤2得到的左右文档矢量的宽度差;所述的虚拟项与其它特征项的相似距离是取左右文档矢量的特征项之间相似距离的最大值;5)如果左右文档矢量的文档宽度不相等,也就是文档宽度差不为0,则需进行插入虚拟项处理。若左矢量宽度大于右矢量,则为右矢量插入步骤4构建的虚拟项;反之,为左矢量插入步骤4构建的虚拟项;6)在插入虚拟项后,对文档矢量进行归一化处理将文档矢量中各项的权值除以该文档矢量的总权值,用商值替代原来的项权值,得到的新的左、右文档矢量的总权值将分别为1;7)根据全匹配准则和最相似最高优先权准则进行EMD简化计算。
2.根据权利要求1所述的基于EMD的文档语义相似距离度量化方法,其特征在于所述的文档宽度是设Z是一个文档矢量的特征项组成的集合,X为特征项,有 每一个映射M:;c4irU((n, xeX'都称为分布M下JT的一个分布值,则^]M(x)义E^是义在分布M下的文档宽度,记为IWL,当义=0时,|X||W=0。
3. 根据权利要求1所述的基于EMD的文档语义相似距离度量化方法,其特征在于所述的文档宽度差为左右文档矢量的宽度差值,该值为非负值。
4. 根据权利要求1所述的基于EMD的文档语义相似距离度量化方法,其特征在于 所述的虚拟项与其它特征项的相似距离是取左右文档矢量的各特征项之间的相似距离的平均值。
5. 根据权利要求1所述的基于EMD的文档语义相似距离度量化方法,其特征在于 所述的最相似最高优先权准则是在计算文档相似距离时项间相似距离最小的项对给予最大匹配计算优先权,其它项对的匹配计算优先权依项间相似距离的增加递减分配。
6. 根据权利要求1所述的基于EMD的文档语义相似距离度量化方法,其特征在于 所述的全匹配准则是项与项进行完全匹配,除非其中一个权值大于另一个权值才需对剩余的权值进行再匹配。
全文摘要
本发明涉及一种基于EMD的文档语义相似距离度量化方法,属于信息检索、数据挖掘等领域。其特征在于首先对于文档进行预处理,将文档表示成为tf·idf项权值矢量,再计算文档矢量的宽度和宽度差,接着计算各特征词汇之间的语义相似距离,之后为文档矢量插入虚拟项补齐总权值,并对处理后的文档矢量进行归一化处理,最后根据全匹配准则和最相似最高优先权准则完成EMD简化计算。有益效果实现了基于EMD的文档语义相似距离的度量化,提高了原算法的分辨能力并拓展了算法的应用范围;方法还对EMD算法的计算过程进行了简化提高了运算速度,适合于实时性较高的应用场合。
文档编号G06F17/30GK101286159SQ200810018390
公开日2008年10月15日 申请日期2008年6月5日 优先权日2008年6月5日
发明者俊 方, 王晓东, 雷 郭 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1