本发明涉及一种抄袭检测文本匹配方法,涉及抄袭检测技术领域。
背景技术:
抄袭文本匹配是抄袭检测的核心任务,该任务致力于获取可疑文档和它抄袭的源文档匹配的抄袭片段(potthastetal.,2012a;2013a;2014)。研究者针对抄袭文本匹配开展了大量的工作,其中大部分研究基于启发式的方法,应用词或者字符表示可疑文档和抄袭源文档,然后通过计算可疑文档和源文档片段中重叠的字符、单词,或通过文本向量的相似来识别确切的或可能的抄袭匹配。
这类方法在低模糊抄袭检测上取得了良好的性能,而在高模糊抄袭检测上的性能却不令人满意。例如,以plagdet得分为评价指标(pan定义的抄袭检测的主要评价指标,最高分为1.0),在抄袭检测评测pan@clef2012的无模糊抄袭检测子集上最高的plagdet为0.9451,在pan@clef2012的低模糊抄袭检测子集上,最高的plagdet为0.8441。然而,与简单的复制和粘贴源文挡的无模糊抄袭或者简单的修改源文档的低模糊抄袭不同,在高模糊的抄袭中,文本通常使用词汇和句法释义、句子的缩减、组合、重组、概念泛化和特化等手段来躲避抄袭检测(alzahranietal.,2012)。面对抄袭文档会大篇幅的改动、大部分的单词和短语都被替换的情况,启发式方法在高模糊抄袭的文本匹配中没有取得令人满意的性能。例如,在pan@clef2012高模糊抄袭子集上,plagdet的最高分仅为0.4067,在总结性抄袭子集上,plagdet的最高分仅为0.6101(potthastetal.,2012a;2013a)。
单凭专家经验和启发式规则设计的抄袭匹配方法受到它所在的框架的限制,特别是在实践中,很难向启发式方法中添加在抄袭检测的研究中已被确认的有效的特征来捕获高模糊抄袭的匹配文本。因此,在基于启发式的文本匹配方法中,系统性能的改善只能依赖于修改原启发式方法的参数或者开发新的启发式方法实现。
现有技术中针对基于启发式的文本匹配方法存在的问题没有给出相应的解决方案。
技术实现要素:
本发明的目的是提供一种基于排序的抄袭检测文本匹配方法,为了解决基于启发式方法依赖专家经验,致使检测性能不佳的问题。
本发明为解决上述技术问题采取的技术方案是:
一种基于排序的抄袭检测文本匹配方法,所述方法的实现过程为:
步骤1、构建基于排序的抄袭文本匹配模型:
设f为基于排序的抄袭文本匹配模型,f是关于
其中,称f为基于排序的抄袭文本匹配模型;
步骤2、基于meteor评价指标提取排序特征
给出可疑文档dplg中的片段si,将选择si的抄袭源形式化为给定一个可疑文档的片段si,对源文档的片段列表dsrc={(r1,r2,......,rq)}的每个文本片段rj,利用机器翻译评价指标meteor的精确率precision、召回率recall、f1值、f均值fmean、惩罚度penalty和meteor得分meteorscore六个评价指标构建特征向量
表1基于meteor的特征
步骤3、根据抄袭文本匹配的排序算法,学习排序模型f,获得权重向量
定义
对于偏序关系yi,u>yi,v,如果
排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前,即:
其中,如果π是真,则[[π]]为0,否则[[π]]为1;最小化式(3)意味着排序学习系统应该在假设空间h上学习一个排序函数f∈h,使得f在训练数据t的n个可疑文档片段上,最大化下列不等式的数目:
直接优化上述问题被证明是np难的;
使用松弛变量(非负)ξi,j,k
进一步的,等式(5)可被重写为:
用新的向量
根据ru和rv的排序,赋予向量
由此,式(6)的优化问题转化为在序对
最小化:
使得:
ξu,v,k≥0,k=1,...,n
其中,项
式(8)为:使用定义在文档序对上的hinge损失,对于可疑文档片段si,xi,u为抄袭匹配对应的向量,xi,v不是抄袭匹配对应的向量,yu,v=1,那么如果
式中,
进一步地,步骤1所述基于排序的抄袭文本匹配模型的构建过程为:
设可疑文档dplg={(s1,s2,......,sp)},dplg的抄袭源文档dsrc={(r1,r2,......,rq)},其中si和rj分别是文档dplg和dsrc的文本片段(例如一个句子);
定义p和q分别是dplg和dsrc中的文本片段的数目;
给定si∈dplg,表示在dsrc中找到si最可能的抄袭匹配;
对于一个文本片段对(si,rj),设yi,j是表明si和rj抄袭匹配程度的标签;设在文本dsrc中,ru是si的抄袭匹配,rv不是si的抄袭匹配,则希望:
yi,u>yi,v(10)
给定一个文本片段对(si,rj),设函数
其中
根据不等式(10)和(11),函数f应满足下列不等式
不等式(12)定义了两个文本片段对(si,ru)和(si,rv)之间的偏序关系;给定si∈dplg,基于在dsrc中找到si最可能的抄袭匹配的目标,认为文本片段对间的相对顺序比准确的预测每一个文本片段对的抄袭程度更重要,使用函数f,得到dsrc中的文本片段关于si的抄袭程度的列表
在
其中,
给定一个si∈dplg,排序列表l(i)的前
本发明的有益效果是:
针对基于启发式的文本匹配方法存在的问题,本发明提出使用统计机器学习的方法识别抄袭匹配,提出基于排序的抄袭检测文本匹配方法(ranking-basedtextmatchingapproachforplagiarismdetection,rtmapd)。一方面,该方法能够克服基于启发式的方法基于专家经验设计,难以融合各种特征,特别是高模糊抄袭的特征(比如词汇特征、语义特征)的问题;另一方面,该方法也能够较好的解决训练数据集中正例和反例的数据不平衡问题。特别的,为了考虑高模糊抄袭中同义词的替换、语义的相关等问题,使用了机器翻译的评价指标meteor(banerjeeandlavie,2005)的各种评价指标来评价可疑文本片段和每个源文档片段的相似度,将评价结果用于构建排序所需的词汇特征和语义特征。
本发明方法将抄袭文本的匹配形式化为一个排序任务,给出一个可疑文本片段,该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。特别的,本发明引入机器翻译的评价指标meteor来捕获词汇相似和语义相似。
发明的创新点是用排序学习的方法解决抄袭检测的问题,这种方法在高模糊抄袭中性能更好。
本发明方法在pan@clef2012和pan@clef2013的抄袭检测文本对齐数据集上进行了评价,并与pan2013、2013和2014评测中获得最好性能的方法进行了比较。实验结果展示,与基线方法相比,本发明方法的性能在五个不同的抄袭类型的十二个文档集合上获得了具有统计意义的显著提升。特别是在高模糊抄袭和总结抄袭子集上,本发明方法相对基线方法在评价指标plagdet上分别提高了22%和43%。此外,本发明方法时间效率也优于基线方法。
附图说明
图1为pan@clef2012trainingcorpus数据集的2000个随机案例的余弦距离和jaccard系数的得分分布图,
图中,x和y坐标分别是抄袭片段与源片段对的余弦距离和jaccard系数,(a)中noobfuscation表示抄袭片段与源片段采取了无模糊的抄袭,(b)中lowobfuscation表示抄袭片段与源片段采取了低模糊的抄袭,(c)中summaryobfuscation表示抄袭片段对源片段采取了的总结式的抄袭,(d)中paraphraseobfuscation表示抄袭片段与源片段采取了高模糊的释义抄袭;
图2为本发明的基于排序的抄袭文本匹配模型原理示意图;
图3为不同文本匹配方法的运行时间比较曲线图,即本发明所提rtmapd方法与基线方法kong12和sanchez-perez14的运行时间进行的比较。
具体实施方式
如图1至图2所示,本实施方式针对所述的基于排序的抄袭检测文本匹配方法具体说明如下:
1关于抄袭
通常,抄袭可分为低模糊抄袭(如完全复制,部分复制,简单修改)和高模糊抄袭(包括释义抄袭,总结抄袭,跨语言抄袭等)(alzahranietal.,2012)。高模糊抄袭检测性能较低是目前抄袭检测的最大问题,启发式方法远未在高模糊抄袭检测上获得令人满意的性能。其原因主要在于高模糊抄袭文本与源文本词汇的差别较大,词汇匹配的数目很少,难以准确地识别出抄袭匹配。
2抄袭匹配问题分析
为说明问题,本发明在pan@clef2012trainingcorpus中随机选择了1000个抄袭片段(记为绿色点)和1000个非抄袭片段(记为红点),使用现有抄袭匹配的两个主要方法,余弦距离和jaccard系数,对基于启发式的词匹配方法进行了分析。图1显示了这些抄袭片段的分布,x和y坐标分别是抄袭片段对的余弦距离和jaccard系数。
图1表明,余弦距离和jaccard系数对于抄袭案例和非抄袭案例,在无模糊和低模糊子集上的区分很清晰,而在总结模糊子集和高模糊子集上则混合在一起,无法分辨。
另一方面,抄袭文本匹配存在正例和反例的数据不平衡问题:在训练语料库中抄袭文本与非抄袭文本按字符计算的长度比为1:20。这意味着只有5%的文本片段可被用于构建训练用例。he与garcia提出,大部分标准的算法都假设或希望类的分布是平衡的,或者误分类的代价是相等的,否则,当面对复杂的不平衡数据集的时候,这些算法无法保证良好的精度(heandgarcia,2009)。
上面的分析展示了抄袭文本匹配需要面对的两个方面的挑战:高模糊抄袭文本的匹配和训练数据不平衡。
3基于排序的抄袭文本匹配方法
提出了基于排序的抄袭匹配算法,描述了基于meteor评价指标的特征。
首先给出抄袭文本匹配的形式化定义,然后,提出使用基于序对的排序学习算法解决抄袭文本匹配问题。最后,给出了基于机器翻译meteor评价指标的排序学习特征,以此捕获文本的词汇和语义相似。
3.1基于排序的抄袭文本匹配模型
设可疑文档dplg={(s1,s2,......,sp)},dplg的抄袭源文档dsrc={(r1,r2,......,rq)},其中si和rj分别是文档dplg和dsrc的文本片段(例如一个句子)。p和q分别是dplg和dsrc中的文本片段的数目。给定si∈dplg,我们想在dsrc中找到si最可能的抄袭匹配。对于一个文本片段对(si,rj),设yi,j是表明si和rj抄袭匹配程度的标签。设在文本dsrc中,ru是si的抄袭匹配,rv不是si的抄袭匹配,则我们希望:
yi,u>yi,v(1)
给定一个文本片段对(si,rj),设函数
其中
根据不等式(1)和(2),函数f应满足下列不等式
不等式(3)定义了两个文本片段对(si,ru)和(si,rv)之间的偏序关系。给定si∈dplg,由于我们的目标是在dsrc中找到si最可能的抄袭匹配。因此,我们认为文本片段对间的相对顺序比准确的预测每一个文本片段对的抄袭程度更重要。因此,使用函数f,我们可以得到dsrc中的文本片段关于si的抄袭程度的列表
其中,
理想中,给定一个si∈dplg,排序列表l(i)的前
针对图2所描述的基于排序的抄袭文本匹配模型,举例说明如下。设抄袭文本片段的句子分别为s1、s2、s3和s4,源文本片段的句子分别为r1、r2、r3和r4。根据数据集的标注,文本片段对(s1,r1)是一个抄袭匹配。简单起见,设抄袭匹配的标签是1(y1,1=1),非抄袭匹配(s1,r2),(s1,r3)和(s1,r4)的标签是0(y1,2=0,y1,3=0,y1,4=0),则抄袭匹配和非抄袭匹配可记录为(s1,r1,1)、(s1,r2,0)、(s1,r3,0)和(s1,r4,0),且s1的排序列表可表示为
3.2抄袭文本匹配的排序算法
本节给出抄袭文本匹配的排序算法,学习图2对应的排序模型f。
给出可疑文档dplg中的片段si,定义
用>表示偏序关系,如果yi,u>yi,v,表示对于可疑文档片段si,ru排序在rv前面,即下列不等式成立:
换句话说,对于偏序关系yi,u>yi,v,如果
其中,如果π是真,则[[π]]为0,否则[[π]]为1。最小化式(8)意味着排序学习系统应该在假设空间h上学习一个排序函数f∈h,使得f在训练数据t的n个可疑文档片段上,最大化下列不等式的数目:
直接优化上述问题被证明是np难的(joachims,2002)。herbrich等人提出将上述学习问题形式化为在序对样例上的分类问题(herbrichetal.,1999)。使用松弛变量(非负)
进一步的,等式(9)可被重写为:
注意,此处应用了新的向量
这意味着根据ru和rv的排序,可以赋予向量
最小化:
使得:
ξu,v,k≥0,k=1,...,n
其中,项
其中
3.3基于meteor评价指标的特征
在3.1中,本发明将选择si的抄袭源形式化为给定一个可疑文档的片段si,对源文档的片段列表dsrc={(r1,r2,......,rq)}的每个文本片段rj,计算rj是si的抄袭匹配文本的概率问题。在机器翻译(machinelearning)中,使用评价指标评估是否一个机器翻译系统生成的翻译结果与源句子语义相等。受机器翻译的评价指标的启发,本发明将si视为rj的应用同一种语言撰写的“翻译”文本,则,si对rj的抄袭程度可以通过评价文本对(si,rj)的翻译质量决定。由此,将机器翻译的评价指标引入到对文本抄袭程度的计算中。
据我们了解,尚未有研究使用机器翻译指标评价文本的抄袭程度。仅在与抄袭检测相似的文本释义识别领域有使用机器翻译的评价指标的研究。例如,finch等人使用机器翻译的blue、nist、wer和per指标作为文本释义识别的特征(finchetal.,2005),wan等人使用了blue评价指标作为文本释义识别特征(wanetal.,2006),madnani等人对各类机器翻译指标在释义识别中的性能进行了比较(madnanietal.,2012)等。
在机器翻译的评价指标中,本发明选择了meteor(banerjeeandlavie,2005)评价指标作为排序函数的特征。meteor是一种基于unigram的词汇匹配,通过使用分段确切匹配、porterstemmer映射和基于wordnet的同义词映射,每个可疑文档片段s和它的备选片段r不仅可以基于词和字符串比较,还能解决词的形态变异(例如具有唯一词干)以及处理同义词替换。其中,后两种特征特别适合检测高模糊的抄袭。
给定一对可疑文档片段s和源文档片段r,表示为(s,r),本发明选择了meteor的precision、recall、f1、fmean、penalty和meteorscore作为特征。
该指标如表1所示。
表1基于meteor的特征
4实验
第4节报告了实验结果与先进的文本对齐方法的性能比较。
本节报告本发明方法在抄袭检测数据集上的实验结果。4.1节介绍了实验所使用的数据集,4.2节介绍了抄袭检测的评价指标,4.3节介绍了实验的设置,包括基线方法的描述和参数训练,4.3节以plagdet、recall、precision和granularity为评价指标,展示了无论在低模糊抄袭检测还是高模糊抄袭检测中本发明方法均能够具有统计有效性地优于基线方法。
4.1数据集
在2012、2013和2014年评测抄袭检测文本对齐算法的公共可用文本对齐数据集pan上,我们评价了本发明所提出的方法。根据pan@clef的官方运行设置,本发明将这些数据及标注为pan12trainingcorpus、pan12testingcorpus,pan13testingcorpus1andpan13testingcorpus2。这些数据集包含pan设计的各种抄袭类型,实验所用数据集的每一个子集的统计信息如表2和表3所示。
表2pan2012文本对齐数据集统计信息
表3pan2013文本对齐数据集统计信息
4.2实验设置
4.2.1基线方法
为了比较本发明方法的有效性,本发明选择kong12(kongetal.2012)和sanchez-perez14作为强基线方法。
kong12方法在pan@clef2012的评测中,以plagdet为评价指标,获得了pan12testingcorpus数据集以全部子集为评价对象的第一名(potthastetal.,2012a)和pan13testingcorpus2全部子集为评价对象的第一名(potthastetal.,2013a)。该方法提出使用余弦距离和jaccard系数以句子为单位获得抄袭匹配(kongetal.2012),然后使用一个启发式算法来合并这些匹配。详情可参考(kongetal.2012)和(kongetal.2013)。
sanchez-perez14在pan@clef2014的评测中,获得了pan13testingcorpus2上总分第一名(potthastetal.2014;sanchezetal.,2014)。类似于kong等人(kongetal.2012)的方法,sanchez-perez等人应用余弦距离和dice系数计算两个句子的相似度,当相似度分别大于一个阈值的时,该句对被识别为抄袭匹配。一个类似于kong12的基于启发式的方法被用于合并抄袭匹配。
另外,为了比较本发明所提方法的性能,本发明也选择了oberreuter12和r.torrejón13两个方法作为基线方法,其中oberreuter12使用了基于字符的特征,r.torrejón13使用了基于词的特征。
oberreuter12以plagdet为评价指标,该方法在pan@clef2013中获得了pan12testingcorpus总分的第一名和pan13testingcorpus总分的第二名(potthastetal.2013a)。oberreuter12方法应用了字符的18-gram作为特征来获得确切的匹配。
r.torrejón13在2013年提交给pan的所有算法中获得了总分第一名(potthastetal.2013a)。该方法应用排序的词的3-gram和两种排序的词的1-skip-3-gram为特征来获得可疑文档和源文档的确切的匹配(torrejónandramos,2013)。
下文中将本发明所提方法标注为rtmapd。
4.2.2性能评价指标
本发明选择pan@clef的官方的评价指标precision,recall,plagdet和granularity作为文本对齐的评价指标。
设s为数据集中的抄袭案例集合,r是抄袭检测算法检测出的抄袭案例结合,将一个抄袭案例描述为:s=<splg,dplg,ssrc,dsrc>,s∈s,表示dplg和dsrc中对应的抄袭字符,它存在于dplg和dsrc的抄袭片段splg和ssrc中。类似的,一个抄袭片段r∈r,为抄袭检测算法检测出的抄袭案例。基于上述符号描述,pan将s下的r的精确率precision、召回率recall定义为:
其中,如果r检测出了s,则s∩r等于r∩s,否则,s∩r为φ。
为融合精确率和召回率,pan定义了粒度指标granularity:
其中,sr∈s是s中包含的r中检测到的真正的抄袭案例,rs∈r是r中包含的r所检测到的真正抄袭案例。
上述所有评价指标最终整合为一个单一的整体评价指标plagdet用于评价文本对齐的性能,其定义如下所示:
其中,f1是precision和recall的加权调和平均数,其定义如下:
4.2.3参数训练
构建训练数据。为了学习排序模型,本发明利用了pan12trainingcorpus来构建训练数据。对于pan12trainingcorpus上抄袭案例的集合s=<splg,dplg,ssrc,dsrc>,首先将splg和ssrc拆分为句子,对于splg中的句子si,ssrc中与sj具有最高余弦相似度的句子rj被选作sj的对应的抄袭匹配,用作训练数据中的正例。其他在dsrc中却不在ssrc中的句子按照它们与si余弦相似度排序,然后与si组合作为反例。训练中为每一个si构建了一个正例和二十个反例。
学习排序模型。在训练数据上使用学习了一个排序模型。
匹配获取。从效率和灵活性的角度出发,本发明的匹配获取采用了两个独立的步骤:备选抄袭匹配生成和抄袭匹配排序。在备选抄袭匹配生成中,可以文档和源文档首先被拆分成有一个句子组成的文本片段,然后使用porter算法进行了词干提取并去除了停用词。首先在源文档中选择了与可疑文档的每个句子si的余弦相似度大于t1的最高的前m句子,将这些句子与si组合作为备选抄袭匹配。
与信息检索中存在多个与查询相关的文档不同,对于抄袭文本片段si,仅有有限的n个抄袭源与其对应,而通常n又仅为1。故抄袭文本匹配问题中,利用学到的模型重排序备选抄袭匹配并且选择前n个句子作为si的抄袭匹配。
其中,参数t1、m和n均基于训练数据以获得最优的plagdet为目标训练,它们的取值分别是t1=0.31、m=20、n=1。
为了公平的与pan评测中的基线方法比较,获得连续的抄袭片段,合并识别到的抄袭匹配文本,实验使用了与基线方法kong12(kongetal.,2012)一致的抄袭片段对齐方法:同样的抄袭匹配合并算法和后处理算法。该方法应用了一个基于启发式的算法将可疑文档和抄袭源文档中位置连续的片段或句子间距在一定距离阈值内的片段合并为对齐的抄袭片段。在后处理过程中,保留那些jaccard系数高于阈值t2的文本片段作为最终的抄袭文本片段。遵循基线方法kong12,实验中将t2设置为0.32(kongetal.,2012)。
4.3实验结果
实验结果报告了本发明方法和基线方法在每一种抄袭类型上的plagdet值。同时,实验结果中也列出了精确率precision、召回率recall和粒度granularity作为参考。加重的值表示每一个抄袭类型子集上最好的结果,括号中的数字展示了本发明所提方法较基线方法的相对提升幅度,*展示了本发明应用单边t校验在p<0.05时具有统计有效性的优于基线方法kong12和sanchez-perez14。斜体展示了在提交给pan12和pan13的所有算法中,不同抄袭类型子集上最高的plagdet得分。实验中所报告的实验结果均是基于tira(gollubetal.2012)评价平台上的评测结果或发布在文献(potthastetal.,2012;2013;2014)中的结果。本发明方法称为rtmapd。
表4和表5对比了rtmapd和kong12的文本对齐性能。同时,为了比较的目的,根据(potthastetal.,2012a;2013a)的报告,本发明也列出了sanchez-perez14、oberreuter12和r.torrejón三个方法在pan12testingcorpus和pan13testingcorpus2上的结果。
另外,在表4(e)中,我们也给出了suchomel13的结果,该方法在pan2013总结抄袭子集上获得了第一名(suchomeletal.,2013)。由于无法获得除kong12外其他基线方法的细节,我们没有列出rtmapd与这些方法的统计有效性分析。从实验结果可以看到,rtmapd在两个数据集的十个子集上均获得了最好的结果。
表4rtmapd与基线方法在pan12testingcorpus上使用抄袭片段对齐算法的文本对齐性能比较
(a)pan12-entire-corpus
(b)pan12-no-obfuscation-sub-corpus
(c)pan12-low-obfuscation-sub-corpus
(d)pan12-artificial-high-sub-corpus
(e)pan12-simulated-paraphrase-sub-corpus
表5rtmapd与基线方法在pan13testingcorpus2上使用抄袭片段对齐算法的文本对齐性能比较
(a)pan13-entire-corpus2
(b)pan13-no-obfuscation-sub-corpus
(c)pan13-random-obfuscation-sub-corpus
(d)pan13-translation-sub-corpus
(e)pan13-summary-sub-corpus
表6比较了rtmapd与基线方法在pan13testingcorpus1上的文本对齐性能。由于方法oberreuter12和方法r.torrejón13没有出现在pan@clef2013对数据集pan13testingcorpus1的评测报告中,我们也没有获得这些方法的运行细节和算法细节,因此下面的表格只列出了kong12和sanchez-perez14的性能。
表6rtmapd与基线方法在pan13testingcorpus1上使用抄袭片段对齐算法的文本对齐性能比较
(a)pan13-entire-corpus
(b)pan13-no-obfuscation-sub-corpus
(c)pan13-random-obfuscation-sub-corpus
(d)pan13-translation-obfuscation-sub-corpus
(e)pan13-summary-obfuscation-sub-corpus
如表4、5和6所示,抄袭片段对齐通过将短的抄袭文本片段合并为对齐的长抄袭片段,改善了系统的召回率precision和精确率recall,从而使granularity降低,提升了文本对齐的整体性能plagdet。在与基线方法kong12使用同样的合并算法的情况下,rtmapd在大部分数据子集上具有统计有效性的用于基线方法。特别地,在高模糊抄袭检测子集pan12artificialhighsub-corpus、pan12summarysub-corpus和两个摘要抄袭检测子集pan13summaryobfuscationsub-corpus上,rtmapd显著地改善了文本被其他性能,这说明rtmapd方法更适用于检测高模糊抄袭。在表4(e)、5(e)和6(e)上,rtmapd的plagdet指标比基线方法的最高分高于6.48%、11.53%和8.46%(kong12andsanchez-perez14)。从这些实验结果可以看出本发明所提方法在结合了抄袭匹配合并后能够获得比基线方法更好的文本对齐性能。这也说明融合本发明提出的抄袭文本匹配算法,可以极大的提升文本对齐的性能。
在需要处理大量数据的需求下,模型的效率问题也是算法设计中非常重要的方面。在工作中,我们对本发明所提方法与基线方法kong12和sanchez-perez14的运行时间进行了比较,图3展示了不同文本对齐方法的有效性比较。所有的方法都在同一台机器上以单线程运行,机器的主要配置为xeoncpue5-26202.00ghz和32gbram。所有的方法使用了同样的输入,计时从获得输入到产生文本对齐结果为止。
图3说明rtmapd的处理时间低于基线方法。分析其主要原因在于合并匹配的抄袭匹配的时候计算量的缩减。提现方法而言,在可疑文档和抄袭源文档中超过一定阈值的相似句对均被作为抄袭匹配的备选参与合并过程,但是对于rtmapd而言,每一个可以文档中的句子,只有一个源文档中的句子作为其匹配,这极大的缩减了需要合并的匹配抄袭匹配的数量。这也说明本发明所提方法更适用于大规模数据量的应用。
5结论(对本发明技术效果的验证)
抄袭文本匹配是抄袭检测的核心任务,在当前研究中,基于启发式的方法,是获取抄袭文本匹配的主要方法,正如我们所知,与机器学习方法相比,基于启发式的方法缺乏持续改进的能力。然而,统计机器学习方法尚未被应用在抄袭文本匹配中。针对上述问题,本发明提出应用基于序对的排序学习方法解决抄袭检测的高模糊抄袭文本匹配问题,并提出使用机器翻译的meteor评价指标来捕获词汇与语义的相似性。应用pan2012和pan2013的抄袭检测数据集对该方法进行了评价,并与pan2013、2013和2014评测中获得最好性能的方法进行了比较。实验结果展示,与基线方法相比,本文方法的性能在五个不同的抄袭类型的十二个文档集合上获得了具有统计意义的显著提升。特别是在高模糊抄袭和总结抄袭子集上,本文方法相对基线方法在评价指标plagdet上分别提高了22%和43%。此外,本文方法时间效率也优于基线方法。
本发明还可有其它多种实施方式或实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
本发明中的参考文献
[1]potthastm,gollubt,hagenm,etal."overviewofthe4thinternationalcompetitiononplagiarismdetection".proc.clef2012conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.therome,italy,pp.101–128,sept.2012.
[2]potthastm,hagenm,gollubt,etal."overviewofthe5thinternationalcompetitiononplagiarismdetection".proc.clef2013conferenceandlabsoftheevaluationforum.thevalencia,spain,sept.2013.
[3]potthastm,hagenm,beyeraetal."overviewofthe6thinternationalcompetitiononplagiarismdetection".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,pp.845–876.sept.2014.
[4]alzahranism,salimn."ontheuseoffuzzyinformationretrievalforgaugingsimilarityofarabicdocuments".proc.2ndieeeinternationalconferenceontheapplicationsofdigitalinformationandwebtechnologies,icadiwt'09.thelondon,uk,pp.539-544,aug.2009.
[5]banerjees,laviea."meteor:anautomaticmetricformtevaluationwithimprovedcorrelationwithhumanjudgments".proc.aclworkshoponintrinsicandextrinsicevaluationmeasuresformachinetranslationand/orsummarization.pp.65-72,jun.2005.
[6]grozeac,gehlc,popescum."encoplot:pairwisesequencematchinginlineartimeappliedtoplagiarismdetection".proc.3rdpanworkshoponuncoveringplagiarism,authorship,andsocialsoftwaremisuse.sansebastian,spain,pp.10-17,sept.2009.
[7]oberreuter,g.carrillo-cisneros,d.scherson,i.d.,&velásquez,j.d."submissiontothe4thinternationalcompetitiononplagiarismdetection".clef2012conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.therome,italy,sept.2012.
[8]torrejóndar,manuelj,ramosm."textalignmentmoduleincoremo2.1plagiarismdetectornotebookforpanatclef2013".proc.clef2013conferenceandlabsoftheevaluationforum.thevalencia,spain,sept.2013.
[9]
[10]
[11]murugesanm,jiangw,cliftonc,etal."efficientprivacy-preservingsimilardocumentdetection".theinternationaljournalonverylargedatabases.vol.19,no.4,pp.457-475,2010.
[12]zhangh,chowtws."acoarse-to-fineframeworktoefficientlythwartplagiarism".patternrecognition.vol.44,no.2,pp.471-487,2010.
[13]leileik,haoliangq,shuaiw,etal."approachesforcandidatedocumentretrievalanddetailedcomparisonofplagiarismdetection".proc.clef2012conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.therome,italy,sept.2012.
[14]sanchez-perezm.a.,sidorovg.,gelbukha.f."awinningapproachtotextalignmentfortextreusedetectionatpan2014".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,pp.1004-1011.sept.2014.
[15]elhadim,al-tobia."useoftextsyntacticalstructuresindetectionofdocumentduplicates".proc.3rdieeeinternationalconferenceondigitalinformationmanagement.thelondon,uk,pp.520-525,nov.2008.
[16]potthastm,
[17]alvif,stevensonm,cloughpd."hashingandmergingheuristicsfortextreusedetection".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,pp.939-946.sept.2014.
[18]glinosd.s."ahybridarchitectureforplagiarismdetection".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,pp.958-965.sept.2014.
[19]abnars,dehghanim,zamanih,etal."expandedn-gramsforsemantictextalignmentnotebookforpanatclef2014".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,sept.2014.
[20]lyonc,barrettr,malcolmj."atheoreticalbasistotheautomateddetectionofcopyingbetweentexts,anditspracticalimplementationintheferretplagiarismandcollusiondetector".plagiarism:prevention,practiceandpolicies.pp.15-22,2004.
[21]suz,ahnbr,eomky,etal."plagiarismdetectionusingthelevenshteindistanceandsmith-watermanalgorithm".proc.3rdieeeinternationalconferenceoninnovativecomputinginformationandcontrol,ieeecomputersociety.pp.569,2008.
[22]elhadim,al-tobia."duplicatedetectionindocumentsandwebpagesusingimprovedlongestcommonsubsequenceanddocumentssyntacticalstructures".proc.4thinternationalconferenceoncomputersciencesandconvergenceinformationtechnology,seoul,korea,nov.,2009.
[23]heh,garciaea."learningfromimbalanceddata".ieeetransactionsonknowledgeanddataengineering.vol.21,no.9,pp.1263-1284,2009.
[24]collinsm,koot."discriminativererankingfornaturallanguageparsing".computationallinguistics.vol.31,no.1,pp.25-70,2005.
[25]joachimst."optimizingsearchenginesusingclickthroughdata".proc.8thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining,acm.theedmonto,pp.133-142,jul.2002.
[26]herbrichr,graepelt,obermayerk."largemarginrankboundariesforordinalregression".pp.115-132,2000.
[27]cortesc,vapnikv."support-vectornetworks".machinelearning.vol.20,no.3,pp.273-297,1995.
[28]torrejóndar,ramosjmm."coremo2.3plagiarismdetectortextalignmentmodule-notebookforpanatclef2014".proc.clef2014conferenceandlabsoftheevaluationforum,evaluationlabsandwork-shop-workingnotespapers.thesheffield,uk,sept.2014.
[29]gollubt,burrowss,steinb."firstexperienceswithtiraforreproducibleevaluationininformationretrieval".proc.sigir12workshoponopensourceinformationretrieval(osir12),portland,oregon,pp.52–55,aug.2012.
[30]