专利名称:中文数字反抄袭侦测比对系统与方法
中文数字反抄袭侦测比对系统与方法技术领域
本发明是关于中文数字反抄袭侦测比对系统与方法,尤指一种利用搜索引擎的功 能,将要比对的文章以拆解字句算法拆解分句后分别拿去搜寻,当搜寻结果的总结吻合搜 寻的句子时,就把搜寻结果的网页载下来进行全文比对,即可快速判断是否有从此网站抄 袭的中文数字反抄袭侦测比对系统与方法。
背景技术:
近年来网络发达,也改变了学生写作业的习惯,从过去鼓励学生多查阅网络数据, 到现在必须防堵学生使用网络数据,而网络使用也确实造成了大量抄袭的现象,互联网营 造出高度抄袭的环境,在环境与时间的压力下,容易产生抄袭行为;其次社会弥漫“走快捷 方式”取巧的心理,学生只关心写作业的效率而不重视作业质量,学术界也重视论文的出版 量,而较少关注内容质量,社会弥漫取巧的心态;再者,抄袭的偏差行为已成常态,代写服务 更让整个学术环境恶化,抄袭不诚实行为已恶化为学术欺骗的严重犯行。
有鉴于学生抄袭行为日益严重,尤其是抄袭网络数据或将网络数据二次加工,重 新拼贴与排列组合成大杂烩文章的行为,国外的营利企业发明了数字抄袭侦测软件进行防 范,经过长时间的运作与测试,确实能降低抄袭行为的发生率,抑制学生想要侥幸投机的行 为,只是多数侦测系统的测验报告与相关文献几乎是以英语系国家为主,各种累积的知识 仅止于英文环境,无法移植到中文语系,由于中文语体不管是书写结构、字词组合、文字断 句(segmentation)、标点符号的使用等,都与英文环境有极大差异,因此中文化界面的数字 抄袭比对系统与方法仍需要开发,以适合华语教育界使用。
已知的中文抄袭文章比对系统与方法,如中国台湾第1262402号题为《特征撷取、 数据解密方法以及抄袭文章搜寻的系统与方法》的发明专利公告,其是对已植入水印的文 章10进行特征撷取,以取得文件特征20,根据所取得的词汇输入搜索引擎30,并且比对索 引数据库40以搜寻因特网上可能抄袭的文章50 ;接着将搜寻所得的文章50与原文比对, 根据比对结果取得的句子执行水印解析;最后,将所取得的水印信息60与原来的水印比 对,然后根据比对结果判断该搜寻所得的文章是否为抄袭文章,若比对结果大于一临界值, 则表不其为抄袭文章70。
而该已知发明的特征撷取方法是将自植入水印的文章取得的句子、词汇予以断词 及词性标注,然后根据文章中水印植入的词与句型,利用同义词库与同义句型库,针对文章 的文字产生其语意层面的特征,即将内容中藏有水印的句子与词汇取出。然后以词汇以及 词性作为查询定义的依据,在同义词数据库中进行搜寻,以取得可作为该文章的特征的词 汇。然后以该词汇为关键词,利用搜索引擎进行网络搜寻,以获得相关可能的抄袭文章。
然而,该种已知的抄袭文章搜寻系统与方法由于必需经过将文章植入水印、将植 入水印的文章进行特征撷取、根据所取得的词汇输入搜索引擎30、比对索引数据库40以搜 寻因特网上可能抄袭的文章50、将搜寻所得的文章50与原文比对、根据比对结果取得的句 子执行水印解析、将所取得的水印信息60与原来的水印比对及根据比对结果判断该搜寻所得的文章是否为抄袭文章等繁杂的步骤,虽然可比对出改变同义词与同义句的部分,但对于比对一般论文或长篇文章而言,如此大量复杂的步骤对计算机服务器会造成很大的负荷,进而影响文章比对的速度,而降低使用的效率。其次,因为比对系统所搜寻到相同的部分可能是“参考书目”或合乎规范围的“直接引用”,故再精确的比对系统也很难直接判断一篇文章是否为抄袭文章;最后,“抄袭”一词仍未有客观明确的界定,雷同字数多寡也成为判断抄袭与否的重要参考因素,而水印范围的设定,并无法让使用者根据自己主观界定或客观学术环境作弹性调整。因此,为更有效率地判断一篇文章是否为抄袭文章,首先必需加快文章比对的速度,并利用抄袭比对系统的比对结果做为辅助判断是否为抄袭文章的依据,最后再以人工检视方法做进一步查验即可有效的判断一文章是否为抄袭文章;其次,使用者可以透过本身所处的学术环境或需求对于“抄袭”字数的定义作弹性调整,也符合用户的需求。所以,如何加快文章比对的速度,以及让审查者可清楚且快速得知比对文章中涉嫌抄袭部分与搜寻部分的差异,与对于抄袭字数定义作为弹性调整,则为该已知抄袭文章搜寻系统所欠缺考虑的部分。为此,本发明者基于多年相关系统开发与方法研究的经验,特针对目前中文数字反抄袭侦测比对系统与方法加以研究,从而得出本发明专利申请。
发明内容
本发明的目的在于提供一种中文数字反抄袭侦测比对方法,使用者可将比对文章上传至中心伺服器以进行数据存取,并将比对文章透过系统程序所设定的拆解规则进行拆解,而得到固定字数的拆解文句,再利用搜索引擎将拆解文句一句一句搜寻后,即可获得多篇与拆解文句雷同的网页或文章,再将雷同的网页或文章与比对文章进行全文比对,对比对文章和与所述比对文章相雷同的网页或文章的雷同部分进行标记及分析,即可获得比对结果,该比对结果可供审查者进行人工查验,并判断比对文章是否为抄袭文章。本发明的中文数字反抄袭侦测比对系统,其中文章访问机制设首页元件以提供用户进入中文数字反抄袭侦测比对系统的管道,并设有上传元件与数据库元件;文章拆解机制在开始侦测上传比对文章时,将该比对文章以拆解字句算法,将每篇比对文章先以换行方式拆成多个段落,再依自定义的拆解字数,以固定字数将每个段落拆解成固定长度的最小侦测句子,并将各最小侦测句子的标点符号删除,再依自定义的搜寻比对字数,以固定字数做作为门坎筛选符合搜寻比对条件的最小侦测句子,最后即可将前述各符合搜寻比对条件的最小侦测句子登录编号,以提供搜寻比对机制进行侦测抄袭之用;搜寻比对机制设比对元件、判定元件及抄袭来源比对元件,利用比对元件及判定元件可获得与拆解文章部分雷同的网页或文章,并以抄袭来源比对元件连接并下载与比对文章相似的雷同的网页或文章,即可将比对文章与雷同的网页或文章以比对元件及判定元件进行全文比对;评估报告机制是在前述比对文章进行全文比对、判定后,即可针对每一份上传的比对文章做出分析,并获得比对结果。本发明的中文数字反抄袭侦测比对系统与方法,乃在中文数字反抄袭侦测比对系统的中心伺服器设有多个运算主机,经由中心伺服器将各使用者上传的比对文章分派给各运算主机,利用运算主机进行文章拆解、下载多篇与文章拆解部分雷同的网页或文章、并进行全文比对,以获得比对结果,并将比对结果回传至中心伺服器,再经由中心伺服器传送至使用者。
图1是本发明所述的中文数字反抄袭侦测比对方法的步骤流程图。
图2是本发明所述的实施例。
图3是本发明所述的中文数字反抄袭侦测比对系统的示意图。
主要元件符号说明
比对文章10中心伺服器11拆解文章12搜索引擎13
雷同的网页或文章14全文比对15比对结果16
文章访问机制2
首页元件20上传元件21数据库元件22
文章拆解机制3
拆解字句算法30段落310拆解字数32
最小侦测句子320搜寻比对字数33
搜寻比对机制4
比对元件40判定元件41抄袭来源比对元件42
评估报告机制5
用户6
运算主机110具体实施方式
如此,为使公众得 以充分了解本发明的特征,兹依附图标解说如下
如图1所示,其为本发明的数字反抄袭比对方法的步骤流程图。首先,使用者可将比对文章10上传至中心伺服器11以进行数据存取,并将比对文章10以拆解字句算法进行拆解而得到拆解文章12,利用搜索引擎13将拆解文章12的最小侦测句子一句一句上传搜寻后,即可获得多篇与拆解文章12部分雷同的网页或文章14,并将该雷同的网页或文章14 下载,并将比对文章10与雷同的网页或文章14进行全文比对15,对比对文章10与雷同的网页或文章14相同的部分进行标记及分析,即可获得比对结果16,该比对结果16可供审查者进行人工查验,以进一步判断比对文章是否为抄袭文章。
再者,如图3所示,本发明所述的中文数字反抄袭侦测比对系统至少包含
文章访问机制2,设首页元件20以提供用户进入中文数字反抄袭侦测比对系统的管道,包括网站首页、用户账号与密码的鉴别、用户账号密码遗忘重领的机制等;并可将用户身份区分为系统管理者、教师、学生与参观者,以方便使用者的管理与设定权限。
前述文章访问机制2设上传元件21,以提供网站页面供使用者上传比对文章10至中心伺服器11,此上传元件21将会判别上传比对文章10的格式(Word格式或PDF格式) 是否符合系统需求;上传元件21会把上传比对文章10储存并入中心伺服器11的数据库元件22之中,并监控使用者在期限之内可以重新上传比对文章10。
前述文章访问机制2设数据库元件22,主要是随时在因特网上搜集各类型的数字数据,并加以储存,以增加比对时的数据源。文章拆解机制3,前述文章拆解机制3在开始侦测上传比对文章10时,将该比对文章10以拆解字句算法30,将每篇比对文章10先以换行方式31拆成多个段落310,再依自定义的拆解字数32,以固定字数将每个段落310拆解成固定长度的最小侦测句子320,并将各最小侦测句子320的标点符号删除,再依自定义的搜寻比对字数33,以固定字数作为门坎筛选符合搜寻比对条件的最小侦测句子320,若一删除标点符号后的最小侦测句子320所剩余的字数少于所设定的搜寻比对字数33时,即不搜寻比对该句子;如此,利用拆解字句算法30即可解决比对文章10拆解后的句子太短无搜寻意义,或比对文章10拆解后的句子太长不易搜寻的问题;最后即可将前述各符合搜寻比对条件的最小侦测句子320登录编号,以提供搜寻比对机制4进行侦测抄袭之用。关于前述拆解字句算法30,例如某一比对文章10以换行方式31拆成之段落310为“他慢慢蹲下来,好了一点,好了一点。从略微的仰角,他看到街对面有个手拿气球的奇怪女人正抬头仰望天空,她像发现幽浮似地,嘴不由自主地张开来。”;若自定义的拆解字数32为15个字,即可将该段落310拆解成固定长度的最小侦测句子320为“(他慢慢蹲下来,好了一点,好了一)(点。从略微的仰角,他看到街对面)(有个手拿气球的奇怪女人正抬头仰)(望天空,她像发现幽浮似地,嘴不)(由自主地张开来。之后再将各最小侦测句子320删除标点符号,可得到不含标点符号的最小侦测句子320为“(他慢慢蹲下来好了一点好了一)(点从略微的仰角他看到街对面)(有个手拿气球的奇怪女人正抬头仰)(望天空她像发现幽浮似地嘴不)(由自主地张开来)”;若自定义的搜寻比对字数33为8个字,其中该句“(由自主地张开来)”只有7个字,不符合筛选门坎,因此最后可登录编号及上传搜寻比对的最小侦测句子320为“(他慢慢蹲下来好了一点好了一)(点从略微的仰角他看到街对面)(有个手拿气球的奇怪女人正抬头仰)(望天空她像发现幽浮似地嘴不)”;共4句。搜寻比对机制4设比对元件40,前述比对元件40可透过互联网搜索引擎13 (如Google搜索引擎或YAHOO搜索引擎等)、各式电子文章数据库或其他学生的文章等加以登录比对前述经筛选过的最小侦测句子320,或将比对文章10与雷同的网页或文章14进行全文比对15。前述搜寻比对机制4设判定元件41,此判定元件41的功能在于根据前述比对元件40的比对结果,针对比对文章10中的每一句、每一段落做出是否抄袭的判断,并以百分比来呈现其抄袭可能性;或将比对文章10与雷同的网页或文章14进行全文比对15的抄袭比例也做出评估判定。前述搜寻比对机制4设抄袭来源比对元件42,主要是建立抄袭文字与抄袭来源间的连结工作,以连结并下载与比对文章10相似的雷同的网页或文章14进行全文比对15。本发明所述的获得与比对文章10相似的雷同的网页或文章14的方法,是利用搜寻比对机制4的搜索引擎13、比对元件40及判定元件41,将经过拆解字句算法30筛选过的最小侦测句子320 —句一句分别进行搜寻比对,而搜寻后所得到的搜寻比对结果,根据拿去搜寻的句子和搜寻比对结果的总结,计算两者共同子序列的比例,并设定一门坎值,若共同子序列的比例超过该门坎值时,即以抄袭来源比对元件42连接并下载该网页或文章,即可获得与拆解文章12部分雷同的网页或文章14,以进行后续全文比对15的程序。本发明所述的全文比对15的方法,是利用搜寻比对机制4的比对元件40,将比对文章10与雷同的网页或文章14直接以无意义字符接在一起,利用词尾数组(Suffix Array)的数据结构处理过,再利用数据分割(Data Partitioning,简称DP)的技巧,即可得 到所有在比对文章10中局部最长且有出现在雷同的网页或文章14的句子,之后再以搜寻 比对机制4的判定元件41,将全文比对15后的抄袭比例做出评估判定;因为比对相同的部 分可能是“参考书目”或合乎规范的“直接引用”,为方便审查者进行人工查验,该比对文章 10与雷同网相14的比对相同部分,搜寻比对机制4会分别以反黄方式标记于比对文章10 及雷同的网页或文章14中。
评估报告机制5,是所有侦测工作的最后一项,也就是在前述比对文章10与雷同 的网页或文章14进行全文比对、判定后,利用评估报告机制5即可针对每一份上传的比对 文章10做出分析,并获得比对结果16。
如图2所示,其为本发明的中文数字反抄袭侦测比对系统的实施例,各使用者6 将比对文章10经由文章访问机制2上传至中心伺服器11以进行数据存取后,中心伺服器 11即会将各使用者6上传的比对文章10分派给各运算主机110,该运算主机110利用文章 拆解机制3对比对文章10进行拆解而得到拆解文章12,并以搜寻比对机制4利用搜索引擎 13将拆解文章12 —句一句分别上传搜寻比对后,即可将与拆解文章12部分雷同的网页或 文章14下载回传至运算主机110,以进行比对文章10与雷同的网页或文章14的全文比对 15,利用评估报告机制5即可针对每一份上传的比对文章10做出分析,并于产生比对结果 16后,将此一比对结果16回传至中心伺服器11,因此使用者6即可观看比对结果16。
如此,本发明利用中心伺服器11与运算主机110之分工机制可提升中文数字反抄 袭侦测比对系统的搜寻比对速度,且本发明的中文数字反抄袭侦测比对系统利用文章拆解 机制3及搜寻比对机制4可加快比对文章10比对的速度,并于比对文章10与雷同的网页 或文章14的相同部分以反黄方式各别标记于文章及网页中,使该使用者6可快速获得比对 文章10的比对结果16,并利用比对结果16进行人工查验,以判断比对文章是否为抄袭文.1V.早。
权利要求
1.一种中文数字反抄袭侦测比对方法,包括下列步骤 将比对文章上传至中心伺服器以进行数据存取; 将比对文章以拆解字句算法进行拆解而得到拆解文章; 利用搜索引擎将拆解文章的最小侦测句子一句一句上传搜寻后,即可获得多篇与拆解文章部分雷同的网页或文章,并将该雷同的网页或文章下载; 将比对文章与雷同的网页或文章进行全文比对,对比对文章与雷同的网页或文章相似的部分进行标记及分析,即可获得比对结果,该比对结果可供审查者进行人工查验,并判断比对文章是否为抄袭文章。
2.一种中文数字反抄袭侦测比对系统,至少包含 文章存取机制,设首页元件以提供用户进入中文数字反抄袭侦测比对系统的管道;前述文章存取机制设上传元件以提供网站页面供使用者上传比对文章至中心伺服器;前述文章存取机制设数据库元件以随时在因特网上搜集各类型的数字数据,并加以储存,可增加比对时的数据源; 文章拆解机制,前述文章拆解机制在开始侦测上传比对文章时,将该比对文章以拆解字句算法,将每篇比对文章先以换行方式拆成多个段落,再依自定义的拆解字数,以固定字数将每个段落拆解成固定长度的最小侦测句子,并将各最小侦测句子的标点符号删除,再依自定义的搜寻比对字数,以固定字数作为门坎筛选符合搜寻比对条件的最小侦测句子,最后即可将前述各符合搜寻比对条件的最小侦测句子登录编号,以供搜寻比对机制进行侦测抄袭之用; 搜寻比对机制设比对元件,前述比对元件可透过因特网搜索引擎、各式电子文章数据库或其他学生的文章等加以登录比对前述经筛选过的最小侦测句子,或将比对文章与雷同的网页或文章进行全文比对;前述搜寻比对机制设判定元件,此判定元件的功能在于根据前述比对元件的比对结果,针对比对文章中的每一句、每一段落做出是否抄袭的判断,并以百分比来呈现其抄袭可能性,或对比对文章与雷同的网页或文章进行全文比对的抄袭比例也做出评估判定;前述搜寻比对机制设抄袭来源比对元件,主要是建立抄袭文字与抄袭来源间之连接工作,以连接并下载与比对文章相似之雷同的网页或文章进行全文比对; 评估报告机制,是所有侦测工作的最后一项,在前述比对文章进行全文比对、判定后,即可针对每一份上传的比对文章做出分析,并获得比对结果。
3.如权利要求2所述的中文数字反抄袭侦测比对系统,其特征在于,首页元件包括网站首页、用户账号与密码的鉴别、用户账号密码遗忘重领的机制等;并可将用户身份区分为系统管理者、教师、学生与参观者,以方便使用者的管理与设定权限。
4.所述的中文数字反抄袭侦测比对系统,其特征在于,上传元件将会判别上传比对文章的格式是否符合系统需求,且上传元件会把上传比对文章储存并入中心伺服器的数据库元件之中,并监控使用者在期限之内可以重新上传比对文章。
5.如权利要求1或2所述的中文数字反抄袭侦测比对系统,其特征在于,获得与比对文章相似的雷同的网页或文章之方法,是利用搜寻比对机制之搜索引擎、比对元件及判定元件,将经过拆解字句算法筛选过之最小侦测句子一句一句各别进行搜寻比对,而搜寻后所得到的搜寻比对结果,根据拿去搜寻的句子和搜寻比对结果之总结,计算两者共同子序列的比例,并设定一门坎值,若共同子序列的比例超过该门坎值时,即以抄袭来源比对元件连接并下载该网页或文章,即可获得与拆解文章部分雷同的网页或文章,以进行后续全文比对之程序。
6.如权利要求1或2所述的中文数字反抄袭侦测比对系统,其特征在于,全文比对的方法,是利用搜寻比对机制的比对元件,将比对文章与雷同的网页或文章直接以无意义字符接在一起,利用词尾数组(Suffix Array)的数据结构处理过,再利用数据分割(DataPartitioning,简称DP)的技巧,即可得到所有在比对文章中局部最长且有出现在雷同的网页或文章中的句子;之后再以搜寻比对机制的判定元件,将全文比对后的抄袭比例做出评估判定。
7.如权利要求1或2所述的中文数字反抄袭侦测比对系统与方法,其特征在于,比对文章与雷同的网或文章的比对相同部分,搜寻比对机制会分别以反黄方式标记于比对文章及雷同的网页或文章中。
8.如权利要求1或2所述的中文数字反抄袭侦测比对系统与方法,其特征在于,中心伺服器设有多个运算主机,经由中心伺服器将各使用者上传的比对文章分派给各运算主机,利用运算主机进行文章拆解、下载多笔与比对文章部分雷同的网页或文章及全文比对,以获得比对结果,并将比对结果回传至中心伺服器,再经由中心伺服器传送至使用者。
全文摘要
本发明涉及一种中文数字反抄袭侦测比对系统与方法,本系统包含文章存取、拆解、搜寻比对及评估报告等机制,使用过程中,使用者首先将比对文章经由文章存取机制上传至中心伺服器进行数据存取,中心伺服器将上传的比对文章分派给运算主机,该运算主机即通过文章拆解机制将比对文章拆解成句子群,并将所获之句群逐句上传至搜索引擎,透过搜寻比对机制进行搜寻,即可获得与拆解文章字句雷同的网页或文章并下载回传至运算主机,以进行比对文章与雷同网页或文章的全文比对,全文比对结果会将比对文章和与所述比对文章相雷同的网页或文章的雷同部分标示并陈,并注记网页之来源,此一比对结果将会回传至中心伺服器,因此使用者即可观看比对结果。
文档编号G06F17/30GK103049467SQ20121025851
公开日2013年4月17日 申请日期2012年7月24日 优先权日2011年10月12日
发明者杨纯青 申请人:杨纯青