专利名称:能加快反剽窃或转载文档检测速度的方法
技术领域:
本发明涉及计算机领域,具体涉及利用计算机保护知识产权、惩治学术腐败的方法,特别是文字文档的反剽窃或转载检测方法。
背景技术:
反剽窃系统是通过比对源文档和目标文档的相似性给出剽窃相似度结果的一种自动化计算机网络系统。反剽窃系统可用于知识产权保护、电子学习、数字图书馆、转载监控、信息安全、网上论文提交系统、音乐及多媒体反剽窃等多个领域。由此可知对反剽窃系统技术的研究具有重要的理论和实践意义。
现有的文字文档反剽窃或转载检测方法为用户将被检测文档的全文,通过网络提交给提供文字文档反剽窃或转载检测服务的服务商,服务商的服务器将被检测文档的全文与文献库中的文献进行比较,得出结论后提供给用户。
现有的文字文档反剽窃或转载检测方法的缺陷在于1、当被检测文档的全文的数据量大或被检测文档的数量很大时,网络传输的速度慢,占用网络资源;2、服务商的服务器的工作量大,速度慢。
发明内容本发明所要解决的技术问题是一种能加快反剽窃或转载文档检测速度的方法。
本发明解决上述技术问题所采用的技术方案是能加快反剽窃或转载文档检测速度的方法,具体步骤包括(1)建立用于存放遗留格式计算机编码的存储空间;(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落通过网络提交给指定的服务器;b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文通过网络提交给指定的服务器;或,结束。
能加快反剽窃或转载文档检测速度的方法,具体步骤包括(1)建立用于存放遗留格式计算机编码的存储空间;(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较;b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文与文献库中的文献内容进行比较。
上述方案中,遗留格式的计算机编码包括表示软回车符号含义的计算机编码。
上述方案中,遗留格式的计算机编码包括表示两个以上的连续空格符号加上回车符号含义的计算机编码。
本发明方法的工作原理为如果文档的作者存在剽窃或转载行为,作者往往会直接复制其剽窃或转载原文件的全文或部分,因此,作者提供的文档(如Doc、DocX、PDF、HTML、XML等格式的文档)中,往往存在一些其剽窃或转载的原文档中的一些遗留格式,如软回车符号“↓”、两个以上的连续空格符号加上回车符号“
”。本发明方法就是先找到这些格式遗留,再将这些遗留格式附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少了被检测文档的数据量,提高了网络传输的速度,减少了对网络资源的占用,减少了服务器的工作量。
与现有技术相比,本发明优点在于本发明方法从用户剽窃行为习惯角度研究反剽窃问题,而传统方法的思路主要从字符串本身的语义角度进行研究。本方法第一次从用户行为习惯角度分析剽窃文档本身存在的规律性痕迹,从而从心理学、行为学、社会学角度研究本身是计算机问题的反剽窃或转载技术,为反剽窃或转载问题提供新的社会性技术解决思路。
本发明方法可用在计算机网络的客户机和服务器上。
图1为本发明实施例1的软件流程图图2为本发明实施例2的软件流程图具体实施方式
本发明实施例1,它为在计算机网络的客户机使用的能加快反剽窃或转载文档检测速度的方法。其具体步骤包括(1)在客户机的硬盘或内存中建立用于存放遗留格式计算机编码的存储空间;遗留格式的计算机编码包括表示软回车符号“↓”含义的计算机编码和表示两个以上的连续空格符号加上回车符号“
”含义的计算机编码。
(2)用存储空间内的遗留格式计算机编码对被检测文档(剔除引文后的文档)进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落通过网络提交给指定的、能提供文字文档反剽窃或转载检测服务的服务器;
b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文通过网络提交给指定的、能提供文字文档反剽窃或转载检测服务的服务器;或,结束。
本发明实施例1的软件流程如图1所示。
本发明实施例1减少了被检测文档的数据量,提高了网络传输的速度,减少了对网络资源的占用,减少了服务器的工作量。
本发明实施例2,它为在计算机网络的服务器使用的能加快反剽窃或转载文档检测速度的方法。其具体步骤包括(1)在服务器的硬盘或内存中建立用于存放遗留格式计算机编码的存储空间;遗留格式的计算机编码包括表示软回车符号“↓”含义的计算机编码和表示两个以上的连续空格符号加上回车符号“
”含义的计算机编码。
(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落与文献库中的文献进行比较,得出结论后提供给用户;b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文与文献库中的文献进行比较,得出结论后提供给用户。
本发明实施例2的软件流程如图2所示。
本发明实施例2减少了服务器的工作量。
上述用于存放遗留格式计算机编码的存储空间中的遗留格式计算机编码可任意添加和删减。遗留格式计算机编码还可以包括用户在不同文档格式进行转换或者复制剪贴时,在新文档中遗留的老文档格式。这些格式在正常创建新文档时一般不会出现,但在文档转换或拷贝时,因文档格式差异而遗留下来。
权利要求
1.能加快反剽窃或转载文档检测速度的方法,具体步骤包括(1)建立用于存放遗留格式计算机编码的存储空间;(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落通过网络提交给指定的服务器;b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文通过网络提交给指定的服务器;或,结束。
2.能加快反剽窃或转载文档检测速度的方法,具体步骤包括(1)建立用于存放遗留格式计算机编码的存储空间;(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出以下选择a、如存在相同的遗留格式计算机编码,则将遗留格式计算机编码附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较;b、如不存在相同的遗留格式计算机编码,则将被检测文档的关键词或/和全文与文献库中的文献内容进行比较。
3.如权利要求
1或2所述的方法,其特征在于遗留格式的计算机编码包括表示软回车符号含义的计算机编码。
4.如权利要求
1或2所述的方法,其特征在于遗留格式的计算机编码包括表示两个以上的连续空格符号加上回车符号含义的计算机编码。
专利摘要
本发明涉及能加快反剽窃或转载文档检测速度的方法,具体步骤包括(1)建立用于存放遗留格式计算机编码的存储空间;(2)用存储空间内的遗留格式计算机编码对被检测文档进行匹配搜索,判断是否存在相同的遗留格式计算机编码,并作出后面的选择。本发明方法就是先找到这些格式遗留,再将这些遗留格式附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少了被检测文档的数据量,提高了网络传输的速度,减少了对网络资源的占用,减少了服务器的工作量。
文档编号G06F17/30GK1996300SQ200610166577
公开日2007年7月11日 申请日期2006年12月31日
发明者沈阳 申请人:武汉大学导出引文BiBTeX, EndNote, RefMan