专利名称:一种基于上下文关联的中文相似性比较方法
技术领域:
本发明涉及中文相似性比较技术领域,具体是一种基于上下文关联的中文相似性比较方法。
背景技术:
中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域,因为计算机对自然语言,尤其是中文的理解很困难,所以一直是人们研究的热点和难点。相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”,应该是指语义层面的所谓的“形不似而神似”。即两篇“相似”的文章,在经过(1)语法结构改变; (2)语序调换;C3)部分词语替换;(4)加入其他内容之后,仍然能检测出其相关性。其相似度大小取决于相似片段长度、改动程度等因素。目前文本相似性比较广泛采用基于词频统计的方法,该方法基于VSM(向量空间模型),对粒度设置很敏感,粒度过小则会将大量不相关的片段判定为相似,粒度过大则会产生大量漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar, H Garcia-Molina, SCAM A Copy Detection Mechanism for Digital Documents,1995)、 CHECK(Antonio Si Hong Va Leong Rynson W. H. Lau, CHECK :A Document Plagiarism Detection System, 1997)等。上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向量,其中的每一个词或字作为该向量的一个维;这个词或字出现的次数即为该向量在该维度上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词, 而忽略了这些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候,其上下文经常会提供重要的信息。现有的这些方法并没有充分利用这些上下文信息。有关VSM 的知识可以参考 N Shivakumar,H Garcia-Molina 的论文SCAM :A Copy Detection Mechanism for Digital Documents。
发明内容
本发明针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较的问题,提出了一种基于上下文关联的中文相似性比较方法。本发明一种基于上下文关联的中文相似性比较方法,具体包括以下步骤步骤1、首先将要进行比较的两篇文本的文本流进行分词,然后为每一个文本建立倒排表,具体是通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段(suspicious fragment);步骤3、对可疑相似片段进行聚合,得到最终的相似文本块(Similar Chunk)及该相似文本块的相似度。所述的步骤2具体又包括
步骤2. 1、首先使用倒排表对中心词进行映射若词X同时在文本S的倒排表和文本D的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度η = 2r+l的一对可疑相似片段;步骤2. 2、以η 个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;步骤2. 3、确定文本S和文本D的相似值RLl^ = max (Rs,D, Rd,s); D表示文本
S对文本D的相似度,Rd, s表示文本D对文本S的相似度。所述的步骤3中生成相似文本块,是针对文本S中每个核心可疑相似片段,进行下面过程寻找该核心可疑相似片段的直接密度可达集合,将生成的直接密度可达集合中的核心可疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置,最大的终止位置索引号作为所要生成的相似文本块的结束位置。本发明的优点与积极效果在于本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。
图1是本发明的中文相似性比较方法的整体步骤流程图;图2是本发明方法步骤二中使用倒排表对中心词进行映射的示意图;图3是一个可疑相似片段的数据结构所包含的信息。
具体实施例方式下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。本发明的基于上下文关联的中文相似性比较方法,如图1所示,具体包括以下步骤步骤一、读取要进行比较的文本S和文本D,将两篇文本的文本流(Text Stream) 进行分词和索引。从句子中划分出的每个有独立意义的词被称作分词。由于中文的词与词之间没有明确的边界,因此,中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。本发明方法采用基于二元迭代的自适应中英文分词算法(参考文献曹勇刚,曹羽中等,《面向信息检索的自适应中文分词系统》,软件学报,2006年3月)。该自适应中英文分词算法利用它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词搜索引擎的倒排索引,筛选候选词并进行歧义消解。在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度,达到了进行消歧和识别新词,为用户提供检索的中心词的目的。在分词之后,为每一个文本建立倒排表(Indexed Doc),具体是通过词汇内容建立索引,词汇本身作为索引的键,词汇在文本中的位置作为索引值。步骤二、对倒排表进行相似性检测,得到可疑相似片段。在建立索引之后,使用较小粒度进行相似性检测,得到可疑的相似片段。所述的可疑相似片段要经过进一步判定才可以确定是否属于一个相似文本块。步骤2. 1、寻找可疑相似片段的时候,首先使用倒排表对中心词进行映射,如图2所示。对于每一个可疑相似片段,设立中心词和一个半径r,则可疑相似片段长度η = 2r+l。 如图2所示在待比较的两篇文本S和文本D的倒排表中,若某一个词X同时在S的倒排表和D的倒排表中出现,则将该词X作为中心词,建立该中心词X的关系映射。经过实验,选取可疑相似片段半径r = 2,如图2所示,画斜线部分为可疑相似片段长度,该长度为5,即由步骤一产生的5个词为一个粒度进行相似性检测。步骤2. 2、以η个词作为一个粒度进行相似性检测,并确定可疑相似片段的相似度。令S表示候选文本、D表示待检测(或者查询)文本;令s表示候选片段,s e S,d表示待检测(或者查询)片段,d e D,F(s)表示片段s的词汇向量,即VSM模型中的“向量”, 该向量以所有可能的词汇作为维度,以某维度上的词汇出现在文本S中的次数作为该维度上的数值,F(d)表示片段d的词汇向量,以某维度上的词汇出现在文本D中的次数作为该维度上的数值。rsf(s,d)表示一对可疑相似片段s、d的相似度。可疑相似片段的相似度 rsf(s,d)可以使用经典的VSM算法进行计算(SCAM中的算法)
权利要求
1.一种基于上下文关联的中文相似性比较方法,其特征在于,该方法具体包括如下步骤步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词,然后为每一个文本建立倒排表,具体是通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段,具体是步骤2. 1、首先使用倒排表对中心词进行映射若词X同时在文本S的倒排表和文本D 的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到以词X作为中心词、以r作为半径,长度η = 2r+l的一对可疑相似片段;步骤2. 2、以η个词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;步骤2. 3、确定文本S和文本D的相似值鹏:M.sd = max (RS,D, Rd,s) ; Rs, D表示文本S对文本D的相似度,Rd, s表示文本D对文本S的相似度;步骤3、对可疑相似片段进行聚合,生成相似文本块。
2 根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于, 步骤2. 1中所述的r为2。
3.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于, 步骤2中所述的可疑相似片段,其数据结构包括如下元素包含该可疑相似片段s与d的相似度rsf (s,d)、片段s在文本S中的起始位置索引号S_MartIndex、片段s在文本S中的终止位置索引号8_ΕικΠικ!θΧ、片段d在文本D中的起始位置索引号djtartlndex和片段d 在文本D中的终止位置索引号cLEncHndex。
4.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于, 步骤2. 3中所述的文本S对文本D的相似度I S,D具体通过式(1)得到
5.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法,其特征在于, 步骤3中所述的生成最终的相似文本块的具体步骤如下步骤1、找出文本S的所有核心可疑相似片段;步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段Pi开始,计算核心可疑相似片段Pi的直接密度可达集合Reachable (Pi) =Reachable(Pi) = {ρ !Pi到ρ是直接密度可达的};所述的直接密度可达定义为给定一个可疑相似片段集合C,对于可疑相似片段p,qeC,若ρ在q的ε邻域内,而q是一个核心可疑相似片段,则称从ρ到q是直接密度可达的;所述核心可疑相似片段定义为如果可疑相似片段ε邻域内至少包含最小数目为K的可疑相似片段,则称该可疑相似片段为K的核心可疑相似片段,在K值明确时,简称为核心可疑相似片段;步骤3、对于集合Reachable (Pi)中的每个核心可疑相似片段p,确定其直接密度可达集合 Reachable (ρ),并将其力口入 Reachable (Pi);步骤4、递归执行步骤3,直到Reachable(Pi)的大小不再发生变化; 步骤5、寻找集合Reachable(Pi)中的每一个可疑相似片段ρ的起始位置索引号和终止位置索引号,将其中最小的起始位置索引号作为生成相似文本块的起始位置,最大的终止位置索引号作为相似文本块的结束位置;步骤6、重复步骤2至步骤5,直至文本S中所有的核心可疑相似片段都经过了处理,完成所有相似文本块的生成。
6.根据权利要求5所述的一种基于上下文关联的中文相似性比较方法,其特征在于, 所述的可疑相似片段,在半径r取2情况下,设置ε取15 25,K取2 5。
全文摘要
本发明提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。
文档编号G06F17/27GK102314418SQ20111030353
公开日2012年1月11日 申请日期2011年10月9日 优先权日2011年10月9日
发明者晏海华, 赵长海, 郎钰泽 申请人:北京航空航天大学