藏文作文抄袭检测原型系统的制作方法

文档序号:23419794发布日期:2020-12-25 11:42阅读:137来源:国知局
藏文作文抄袭检测原型系统的制作方法

本发明涉及现代教育技术领域,具体涉及一种藏文作文抄袭检测原型系统。



背景技术:

随着互联网的快速发展,学生抄袭网络资源的现象屡见不鲜。在高等教育领域,已有一些针对学生论文剽窃检测的研究,但在藏文等低资源语言领域,针对学生单语言作文抄袭检测和跨语言作文抄袭检测问题,还存在着大量的研究空白。

语文学科中作文部分属于学习的重难点之一。面对写作困难,许多学生会选择互联网上的海量资源作为参考,其中不乏有人使用直接或间接方法进行抄袭,这种抄袭行为既不利于学生写作能力的发展,也给教师作文评判增加了工作量,同时还影响了营造学习的公平性环境。

目前已有的抄袭检测系统大多适用于论文抄袭检测,根据文章摘要、参考文献、论文结构等进行检测。学生作文与论文不同,首先它不具备论文所具有的“摘要-正文-参考文献-致谢”文章结构;其次学生的作文内容相较于论文更加口语化、抒情化,且具有“引经据典”的写作手法,这一点在实际教学中不能被认定为抄袭。因此,学生作文抄袭检测和论文抄袭检测之间存在差异。

目前,还不存在藏文作文抄袭检测的原型系统。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种藏文作文抄袭检测原型系统,解决了目前藏文教学领域学生抄袭作文难以检测的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

本发明针对藏文作文抄袭情况进行研究,其中抄袭的类型大致可以分为三种:复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。并根据每一种抄袭类型提出一种检测方式,构建出一个适用于藏文作文抄袭检测的原型系统,所述系统包括:计算机和服务器;

所述计算机供用户通过网页界面上传本地存储的藏文作文,并通过网页界面展示所述服务器计算得到的文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比;

所述服务器对所述计算机上传的藏文作文进行复制型抄袭检测、语义改写型抄袭检测以及跨语言翻译型抄袭检测,得到文本相似度检测结果。

可选地,所述服务器为flask服务器,包括第一模块和第二模块;

所述第一模块是基于最长公共子序列算法的检测模块,用于检测藏文作文中直接复制或仅有少量改动的抄袭行为;

所述第二模块是基于注意力机制的孪生长短时网络模型的检测模块,用于检测藏文作文中语义改写型抄袭和跨语言翻译型抄袭。

可选地,所述服务器中的第一模块对所述计算机上传的藏文作文进行复制型抄袭检测的方法具体为:

使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,所述藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;

在所述第一模块中,在所述藏文句对之间相似度值超过第一阈值时,直接认定为抄袭句对,在所述藏文句对之间相似度值未超过所述第一阈值时,认定不存在复制型抄袭行为,但有可能存在语义改写型抄袭或跨语言翻译型抄袭行为,将所述藏文句对递交至所述第二模块继续检测。

可选地,关于阈值的设定,参考学术不端文献检测系统,该系统认为文字重合率大于等于10%的属于句子抄袭,文字重合率在30%-50%之间的属于段落抄袭,文字重合率大于50%的属于整体抄袭。因此,本系统进行判断时,在所述第一模块中,所述第一阈值设置为0.5。

可选地,所述服务器中的第二模块对所述计算机上传的藏文作文进行语义改写型抄袭检测以及跨语言翻译型抄袭检测的方法具体为:

采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,所述藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;

在所述第二模块中,在所述藏文句对之间的相似度值超过第二阈值时,认定存在抄袭行为,在所述藏文句对之间的相似度值未超过所述第二阈值时,认定不存在抄袭行为。

可选地,所述第一模块使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:

将藏文句子作为基本单位,通过动态规划的思想,寻找所述藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;

所述最长公共子序列的长度l,所述藏文句对之间的相似度s计算公式为:

可选地,所述第二模块采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,包括:

使用多个评测语料和实验室语料库中的多条藏汉句对作为训练语料,训练基于注意力机制的孪生长短时记忆网络模型,得到改进的基于注意力机制的孪生长短时记忆网络模型;

通过所述改进的基于注意力机制的孪生长短时记忆网络模型,在藏文单语言任务和藏汉跨语言任务中,分别使用训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,计算所述藏文句对之间的相似度值。

可选地,还包括:

收集多篇藏文作文语料,通过语义改写的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。

可选地,还包括:

通过藏汉翻译的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。

本发明通过最长公共子序列算法,处理藏语作文中的连续复制型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型,处理藏文作文中语义改写型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。

(三)有益效果

本发明提供了一种藏文作文抄袭检测原型系统。与现有技术相比,具备以下有益效果:

本发明提供一种藏文作文抄袭检测原型系统,按照单语言和跨语言两种类型,对计算机上传的藏文作文进行检测。检测原型系统采用最长公共子序列算法和基于注意力机制的孪生长短时记忆网络模型,分别处理复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。其中,基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型;又依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。

其中,训练藏文音节向量的过程为:首先对藏文训练语料分句,以藏文音节符“·”作为分割标记,对藏文句子进行音节切分,再使用适合大型数据词向量表征工具训练藏文音节向量。所使用的使用适合大型数据词向量具有高效的训练速度,更考虑了相似性。在训练时,同时考虑n-gram和n-char特征。n-gram特征指藏语文本中音节和音节之间的特征,相当于汉语中的字对字。n-char特征指藏文音节中字母之间的特征。训练过程中设置epoch=100,thread=5,上下文窗口大小为9,n-gram的长度为1,n-char的长度为3。

训练藏汉跨语言词向量的过程为:使用一个有监督和无监督的跨语言词表示模型(利用一个线性的映射矩阵将两个词向量模型对齐同一个语义空间)训练藏汉跨语言词向量,使用藏语单语词向量、汉语单语词向量和藏汉双语词典,以有监督的形式训练藏汉跨语言词向量。

本发明提供的藏文作文抄袭检测原型系统面向使用藏文作文的教师和研究人员,实现了藏文作文自动抄袭检测功能,能根据单语言、跨语言分别检测,提供计算机上传的藏文作文的相似度值以及抄袭句子对比。整个系统操作简单明了、实用高效,为日常藏文作文抄袭检测提供了良好的技术支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明藏文作文抄袭检原型系统的框图;

图2为本发明藏文作文抄袭检测系统所执行藏文作文抄袭方法的流程图;

图3为本发明第一种输出结果示例图;

图4为本发明第二种输出结果示例图;

图5为本发明第三种输出结果示例图;

图6为藏文作文抄袭检测原型系统的页面图;

图7为藏文作文抄袭检测系统输出结果示意图;

图8为藏文音节与藏文词示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种藏文作文抄袭检测原型系统,解决了目前藏文教学领域,学生抄袭作文难以检测的技术问题。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本申请提出的藏文作文抄袭检测原型系统中,分别针对复制型抄袭、语义改写型抄袭、跨语言翻译型抄袭使用不同的检测方法。如图1所示,主要包括:面向复制型抄袭的检测方法、面向语义改写型和跨语言翻译型抄袭的检测方法。

本申请提出的藏文作文抄袭检测原型系统包括:计算机和服务器。

其中,计算机供用户通过网页界面上传本地存储的藏文作文,并通过网页界面展示服务器计算得到的文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比。

计算机上的网页界面负责与用户的交互以及文本的输入、检测结果的输出,服务器负责藏文作文相似度检测。用户可以通过计算机上的网页界面上传本地藏文作文进行检测,如图6所示。

服务器对计算机上传的藏文作文进行分句、分词处理、进行复制型抄袭检测、语义改写型抄袭检测以及跨语言翻译型抄袭检测,计算得到文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比,并返回给计算机,最终在计算机上的网页界面展示服务器计算得到文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比,如图7所示。

其中,服务器为flask服务器,包括第一模块和第二模块;第一模块是基于最长公共子序列算法的检测模块,用于检测藏文作文中直接复制或仅有少量改动的抄袭行为。第二模块是基于注意力机制的孪生长短时网络模型的检测模块,用于检测藏文作文中语义改写型抄袭和跨语言翻译型抄袭。具体参考图2。

服务器中的第一模块对计算机上传的藏文作文进行复制型抄袭检测,可以检测计算机上传的藏文作文中直接复制或仅有少量改动的抄袭行为。具体的方法为:

使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,藏文句对中的一个藏文句子依次为计算机上传的藏文作文中的每一个藏文句子,藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;

在第一模块中,在藏文句对之间相似度值超过第一阈值时,直接认定为抄袭句对,在藏文句对之间相似度值未超过所述第一阈值时,认定不存在复制型抄袭行为,但有可能存在语义改写型抄袭或跨语言翻译型抄袭行为,将藏文句对递交至第二模块继续检测。

其中,在第一模块中,第一阈值是0.5。

其中,第一模块使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:

将藏文句子作为基本单位,通过动态规划的思想,寻找藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;

最长公共子序列的长度为l,藏文句对之间的相似度s计算公式为:

具体包括以下步骤:

s101、使用最长公共子序列算法对连续复制文本抄袭现象进行检测。假设有两个字符串序列a和b,其中a={a1,a2,…,am},b={b1,b2,…,bn},而c={c1,c2,…,ck}是a和b的最长公共子序列。那么就有如下规律:

1)如果am=bn,那么ck=am=bn,并且ck-1是am-1和bn-1的一个最长公共子序列。

2)如果am≠bn,那么ck≠am,则c是am-1和b的一个最长公共子序列。

3)如果am≠bn,那么ck≠bn,则c是a和bn-1的一个最长公共子序列。

二维数组x[i,j]来表示字符串序列a和b中对应的前i、j个最长公共子序列的长度。递归式如下:

例如,长度为m的藏文句子为字符串序列a,长度为n的藏文句子为字符串序列b。长度为m的藏文句子包括m个字符,其中,a1表示长度为m的藏文句子中的第1个字符(长度为m的藏文句子的一部分),a2表示长度为m的藏文句子中的第1个字符至第2个字符(长度为m的藏文句子的一部分),……,am-1表示长度为m的藏文句子中的第1至第m-1个字符(长度为m的藏文句子的一部分),am表示长度为m的藏文句子中的第1至m个字符(也即长度为m的藏文句子本身)。

同理,长度为n的藏文句子包括n个字符,其中,b1表示长度为n的藏文句子中的第1个字符(长度为n的藏文句子的一部分),b2表示长度为n的藏文句子中的第1个字符至第2个字符(长度为n的藏文句子的一部分),……,bn-1表示长度为n的藏文句子中的第1至第n-1个字符(长度为n的藏文句子的一部分),bn表示长度为n的藏文句子中的第1至n个字符(也即长度为n的藏文句子本身)。

本发明将藏文句子作为研究的基本单位,通过上述动态规划的思想,寻找长度分别为m、n的藏文句子的最长公共子序列,并计算最长公共子序列的长度l,那么这两个藏文句子之间的相似度s计算公式为:

基于最长公共子序列方法检测复制型抄袭,本发明对收集的45篇高中藏文作文通过完全复制抄袭、少量词序调整的方式生成30篇藏文抄袭作文,共包含241个抄袭句子。针对连续文本复制型剽窃检测,在构造的241对藏文语料的检测正确率为96%,准确率较高。图3所示为真实藏文作文抄袭检测情况。

服务器中的第二模块采用基于注意力机制的孪生长短时网络模型,分别利用训练好的藏文音节向量和藏汉跨语言词向量,在藏文单语言任务和藏汉跨语言任务中分别结合训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,进行语义改写和跨语言翻译型抄袭检测,计算藏文句对之间的相似度值,藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子。

在第二模块中,在藏文句对之间的相似度值超过第二阈值(例如0.5)时,认定存在抄袭行为,在藏文句对之间的相似度值未超过第二阈值(例如:0.5)时,认定不存在抄袭行为。

其中,第二模块对计算机上传的藏文作文进行语义改写型抄袭检测以及跨语言翻译型抄袭检测的方法具体为:

使用多个评测语料和实验室语料库中的多条藏汉句对作为训练语料,训练基于注意力机制的孪生长短时记忆网络模型,得到改进的基于注意力机制的孪生长短时记忆网络模型;

通过改进的基于注意力机制的孪生长短时记忆网络模型,在藏文单语言任务和藏汉跨语言任务中,分别使用训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,计算所述藏文句对之间的相似度值。

本发明收集多篇藏文作文语料,通过语义改写的方式或通过藏汉翻译的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。

本发明采用基于注意力机制的孪生长短时记忆网络模型的原因如下:

传统rnn神经网络架构由编码器和解码器两个组件组成,该架构的主要思路如下:首先,通过lstm单元将句子序列编码为固定长度的向量表示;然后,将编码器生成的固定长度向量通过lstm单元解码为输出序列。这种架构可以有效地解决命名实体识别、词性标注等大部分序列标注问题,因此成为神经网络处理序列问题的主要框架。

但这种架构存在一个严重的缺陷:将输入序列编码为一个固定长度的序列虽然可以降低算法的复杂度,但却严格限制了可以表示的语义信息,尤其是当输入较长序列时,该模型很难将输入序列的信息完整传入神经网络,这严重影响了解码出的序列效果。而注意力机制完全摒弃了编码器-解码器框架,从序列中学习每一个元素的重要性权值,根据权值对输入序列进行合并,这使得输出序列不仅包含局部信息同时也包含全局信息,可以很好解决编码器—解码器框架带来的较长序列表示不完整的问题。

此外,长短时记忆网络中隐层之间的节点相互链接,隐层的输入不仅包含上一层的输出也包含上一时刻隐层的输出,使用双向长短时记忆网络使得神经网络不仅可以学习它的正向规律,也可以学习它的反向规律。孪生双向长短时记忆网络同时考虑正向和反向神经网络信息,使该网络在预测时不仅仅只根据前面隐层节点的信息进行推断,同时也关联后续节点信息,可以很好地解决单向循环神经网络带来的预测结果忠实性不足等问题。

本发明中,关于藏文音节向量的说明如下:

藏文不同于英语汉语,藏文是一种逻辑格语法系的拼音文字,藏文文字以音节为基本单位,每个音节之间用音节符“·”隔开。如图8所示,藏文音节通过音节符分隔开,与汉语相比,藏文词由多个藏文音节构成,而每一个藏文音节都相当于汉语中的一个汉字。

关于藏汉跨语言词向量的说明如下:跨语言词向量是单语言词向量的一种扩展,是跨语言的词表示,它认为具有相同语义的不同语言在向量空间上的词向量比较接近。因此,可以通过藏语、汉语映射到同一个向量空间的方式,在藏-汉语言之间进行知识转移。此外,将单语转换到双语,可以构建共享的双语向量空间,以此在不同的语言间扩展语义任务。

本发明所使用的语料包括训练语料和测试语料,除收集到的藏文作文外,还可以使用多个(例如10000个)评测语料和语料库中21万条藏汉句对来进行训练和测试。也可以对收集到的多篇藏文作文,通过语义改写的方式,构造多对抄袭句子和多篇藏文抄袭作文来进行训练和测试。也可以通过藏汉翻译的方式,构造了多对抄袭句子和多篇藏文抄袭作文来进行训练和测试。

本发明可以使用多个评测语料,每个评测语料都包含两个相似句子和人工标注的相似度值标签。可以对多个评测语料进行翻译,得到对应的藏文相似句子和藏汉平行句对。其中,藏文相似句子用于语义改写的训练和测试,藏汉平行句对用于跨语言翻译的训练和测试。

由于多个评测语料本身带有人工标注的表征两个句子的相似度的标签,所以经过翻译得到的藏文相似句子同样携带标签。藏汉平行句对包括两个相似的藏文句子且携带标签和两个相似的汉文句子且携带标签。

本发明使用基于注意力机制的孪生长短时记忆网络模型,训练300维的藏文音节向量进行语义改写型抄袭的检测,藏文音节向量的窗口长度选取9。请藏语母语人对196个藏文句对进行人工标注,作为模型的计算参考。部分句对结果如表1所示:

表1

针对跨语言翻译抄袭检测,本发明采用基于注意力机制的孪生长短时记忆网络模型,将藏汉双语词向量和句对作为输入,以此来进行抄袭检测。本发明采用人工构建的藏汉词典训练双语词向量,其中,词典为由藏语母语人收集建立的词典,共包含51546条藏汉词条。部分句对结果如表2所示:

表2

基于注意力机制的孪生长短时记忆网络模型检测作文语义改写型抄袭和跨语言翻译型抄袭,根据句对相似度计算作文抄袭情况。图4和图5分别是系统检测语义改写型抄袭作文和跨语言翻译型抄袭作文的检测情况。

需要说明的是,本发明实施例是藏文作文抄袭检测原型系统,不仅适用于高中藏文作文的抄袭检测,通过本发明实施例的方法,也可以检测其他学段(如小学或者初中)的藏文作文间的相似度。

本发明所使用的实验语料包括训练语料和测试语料,由于训练语料需要较大的规模量,目前收集到的藏文高中作文文本数量不足以支撑,因此本文分别使用semeval2014中的10000个评测语料和实验室语料库中21万条藏汉句对来进行训练。测试语料为本发明人在民族学校收集到的45篇藏文高中作文语料,通过语义改写的方式,构造了196对抄袭句子和30篇藏文抄袭作文来进行检测;又通过藏汉翻译的方式,构造了190对抄袭句子和30篇藏文抄袭作文用以检测实验效果。

实验使用semeval2014评测中的英文语料,每条语料都包含人工标注的相似度值标签。由于本发明研究的是藏文文本抄袭,故先将评测中的英文语料通过小牛翻译得到对应的藏文语料和藏汉平行句对。

基于注意力机制的孪生长短时记忆网络模型检测作文语义改写型抄袭和跨语言翻译型抄袭,根据句对相似度计算作文抄袭情况。图4和图5分别是系统检测语义改写型抄袭作文和跨语言翻译型抄袭作文的检测情况。

综上所述,与现有技术相比,具备以下有益效果:

本发明提供一种藏文作文抄袭检测原型系统,按照单语言和跨语言两种类型,对计算机上传的藏文作文进行检测。检测原型系统采用最长公共子序列算法和基于注意力机制的孪生长短时记忆网络模型,分别处理复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。其中,基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型;又依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。

本发明提供的藏文作文抄袭检测原型系统面向使用藏文作文的教师和研究人员,实现了藏文作文自动抄袭检测功能,能根据单语言、跨语言分别检测,提供计算机上传的藏文作文的相似度值以及抄袭句子对比。整个系统操作简单明了、实用高效,为日常藏文作文抄袭检测提供了良好的技术支持。

需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到针对学生作文抄袭问题,各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以系统或软件的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1