一种文章检测的方法及装置与流程

文档序号:32212999发布日期:2022-11-16 06:39阅读:46来源:国知局
一种文章检测的方法及装置与流程

1.本技术涉及数据处理技术领域,特别是涉及一种文章检测的方法及装置。


背景技术:

2.随着互联网技术的发展,文章抄袭、文章转载等情况层出不穷,因此需要对越来越多的文章的原创度(如学术论文等)进行检测。
3.目前,通过建立自有文章库来检测文章的原创度,但是自有文章库存在的文章只是互联网数据的一部分,很难将互联网中的文章全部覆盖,并且在采用自有文章库进行文章原创度检测时,还需要经过复杂的算法计算,才能得出文章的原创度,导致最终的检测结果可信度不高。
4.因此,如何提高文章检测的可信度是本领域技术人员关注的重点问题。


技术实现要素:

5.基于上述问题,本技术提供了一种文章检测的方法及装置,以提高文章检测的可信度。本技术实施例公开了如下技术方案:
6.第一方面,本技术公开了一种文章检测的方法,包括:
7.获取待检测文章的多个预设文段;
8.将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果;
9.提取所述目标搜索结果与所述目标预设文段对应的重复字数;
10.判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段;
11.若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。
12.可选的,所述对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果,包括:
13.对所述目标预设文段进行搜索,获得多个搜索结果;
14.将所述多个搜索结果逐一与所述目标预设文段进行匹配;
15.将所述多个搜索结果中匹配度最高的搜索结果确定为目标搜索结果。
16.可选的,所述方法还包括:
17.判断所述待检测文章的字数是否小于第三阈值,若所述待检测文章的字数小于第三阈值,不执行所述将所述多个预设文段分别作为目标预设文段的步骤。
18.可选的,在所述判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段之后,所述方法还包括:
19.获取所述目标搜索结果与所述目标预设文段对应的重复文字;
20.获取所述目标搜索结果对应的搜索结果链接;
21.存储所述重复文字和所述搜索结果链接。
22.可选的,所述方法还包括:
23.获取所述待检测文章对应的检测结果,所述检测结果包括所述待检测文章为原创文章或所述待检测文章为非原创文章;
24.对所述检测结果、所述重复文字和所述搜索结果链接进行展示。
25.第二方面,本技术公开了一种文章检测的装置,包括:
26.获取模块,用于获取待检测文章的多个预设文段;
27.搜索模块,用于将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果;
28.提取模块,用于提取所述目标搜索结果与所述目标预设文段对应的重复字数;
29.判断模块,用于判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段;
30.确定模块,用于若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。
31.可选的,所述搜索模块,包括:
32.第一搜索子模块,用于对所述目标预设文段进行搜索,获得多个搜索结果;
33.匹配模块,用于将所述多个搜索结果逐一与所述目标预设文段进行匹配;
34.确定模块,用于将所述多个搜索结果中匹配度最高的搜索结果确定为目标搜索结果。
35.可选的,所述装置还包括:
36.第一判断子模块,用于判断所述待检测文章的字数是否小于第三阈值,若所述待检测文章的字数小于第三阈值,不执行所述将所述多个预设文段分别作为目标预设文段的步骤。
37.可选的,在所述判断模块之后,所述装置还包括:
38.第一获取子模块,用于获取所述目标搜索结果与所述目标预设文段对应的重复文字;
39.第二获取子模块,用于获取所述目标搜索结果对应的搜索结果链接;
40.存储模块,用于存储所述重复文字和所述搜索结果链接。
41.可选的,所述装置还包括:
42.第三获取子模块,用于获取所述待检测文章对应的检测结果,所述检测结果包括所述待检测文章为原创文章或所述待检测文章为非原创文章;
43.展示模块,用于对所述检测结果、所述重复文字和所述搜索结果链接进行展示。
44.相较于现有技术,本技术具有以下有益效果:
45.本技术首先获取待检测文章的多个预设文段,将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果,然后提取所述目标搜索结果与所述目标预设文段对应的重复字数,判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段,最后若
所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。如此,在本技术中无需自建文章库,利用互联网文章覆盖度高的特性对文章进行搜索,使得文章与互联网中已有的文章进行对比,得出检测结果,从而提高了文章检测的可信度。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例提供的一种文章检测的方法的流程图;
48.图2为本技术实施例提供的一种文章检测的装置的结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本技术保护范围。
50.需要说明的是,本技术提供的一种文章检测的方法及装置,用于数据处理技术领域,上述仅为示例,并不对本技术提供的方法及装置名称的应用领域进行限定。
51.正如前文描述,随着互联网技术的发展,文章抄袭、文章转载等情况层出不穷,因此需要对越来越多的文章的原创度(如学术论文等)进行检测。目前,通过建立自有文章库来检测文章的原创度,但是自有文章库存在的文章只是互联网数据的一部分,很难将互联网中的文章全部覆盖,导致最终的检测结果可信度不高。由此,如何提高文章检测的可信度是本领域技术人员关注的重点问题。
52.所以发明人提出本技术的技术方案,本技术首先获取待检测文章的多个预设文段,将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果,然后提取所述目标搜索结果与所述目标预设文段对应的重复字数,判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段,最后若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。如此,在本技术中无需自建文章库,利用互联网文章覆盖度高的特性对文章进行搜索,使得文章与互联网中已有的文章进行对比,得出检测结果,从而提高了文章检测的可信度。
53.本技术实施例提供的方法可以由终端设备上的软件执行。所述终端设备例如可以是手机、平板电脑、计算机等设备。所述软件例如可以是系统软件。
54.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。
55.方法实施例
56.以下通过一个实施例,对本技术提供的一种文章检测的方法进行说明。
57.参见图1,该图为本技术实施例提供的一种文章检测的方法的流程图,如图1所示,该方法可以包括:
58.s101:获取待检测文章的多个预设文段。
59.在本步骤中,获取待检测文章的多个预设文段。多个预设文段可以根据文章字数来确定,比如,若文章字数在300字和560字之间,则依次抽取15个字,每15个字作为一个预设文段,以构成多个预设文段,直到不能再抽取字为止;若文章字数大于560字,则依次抽取28个字,每28个字作为一个预设文段,以构成多个预设文段,直到不能再抽取字为止。
60.可选的,在本步骤之后,还包括:
61.去除多个预设文段中的特殊字符,只留下预设文段中的标点符号、文字、数字以及字母,特殊字符包括多个预设文段中去除标点符号、文字、数字以及字母的其余字符。
62.s102:对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果。
63.在本步骤中,将多个预设文段分别作为目标预设文段,也可以说是将多个预设文段中的任意一个预设文段作为目标预设文段,然后对目标预设文段进行搜索,获得目标预设文段对应的目标搜索结果。
64.可选的,本步骤可以包括:
65.步骤1:对所述目标预设文段进行搜索,获得多个搜索结果。
66.在本步骤中,对目标预设文段进行搜索获得多个与目标预设文段匹配度相近的搜索结果。其中,可以利用网络爬虫对目标预设文段进行搜索,在此不做具体限定。
67.步骤2:将所述多个搜索结果逐一与所述目标预设文段进行匹配。
68.在本步骤中,将获得的多个搜索结果与目标预设文段逐一进行匹配,获得匹配结果,然后将匹配结果的匹配度进行对比,确定出匹配度最高的搜索结果。
69.步骤3:将所述多个搜索结果中匹配度最高的搜索结果确定为目标搜索结果。
70.在本步骤中,将匹配度最高的搜索结果作为目标搜索结果。
71.比如,利用百度对“汉代从域外输入了各种香料以及芳香植物”进行搜索,会获得搜索结果1“汉代从域外输入了香料,并移植了某些芳香植物”、搜索结果2“佛教的兴盛带来了香料的需求,域外香料的大量输入”和搜索结果3“相继从西域输入了如胡椒、丁香、迷迭香、安息香等外来香料”,然后将搜索结果1作为目标搜索结果。
72.s103:提取所述目标搜索结果与所述目标预设文段对应的重复字数。
73.在本步骤中,将目标搜索结果与目标预设文段进行比对,确定目标搜索结果与目标预设文段对应的重复文字,并将重复文字标记,对标记后的重复文字进行计算,得到目标搜索结果与目标预设文段对应的重复字数。
74.比如,将目标预设文段“汉代从域外输入了各种香料以及芳香植物”与搜索结果1、搜索结果2和搜索结果3逐一进行比对,对搜索结果1、搜索结果2和搜索结果3中的重复文字用红色字体进行标记,然后对红色字体的重复文字进行计算,得到搜索结果1与目标预设文段的重复字数为14个,搜索结果2与目标预设文段的重复字数为9个,搜索结果3与目标预设文段的重复字数为6个。
75.s104:判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定
所述目标预设文段为非原创文段。
76.在本步骤中,预设第一阈值,然后判断重复字数是否大于第一阈值,如果重复字数大于第一阈值,则确定目标预设文段为非原创文段,非原创文段为文段不是作者自己创作。
77.可以理解的是,若目标预设文段的字数是15个字且重复字数大于10字或者目标预设文段的字数是28个字且重复字数大于19字,则确定目标预设文段为非原创文段。
78.在本步骤中,可选的,在本步骤之后可以包括:
79.获取所述目标搜索结果与所述目标预设文段对应的重复文字;获取所述目标搜索结果对应的搜索结果链接;存储所述重复文字和所述搜索结果链接。
80.在本步骤中,在获取到目标搜索结果与目标预设文段对应的重复文字,以及目标搜索结果对应的搜索结果链接后,存储重复文字和搜索结果链接。比如,搜索结果1“汉代从域外输入了香料,并移植了某些芳香植物”对应的搜索结果链接为www.xxxxx.com,然后将重复文字“汉代从域外输入了香料芳香植物”和www.xxxxx.com存储。
81.可选的,本步骤还包括:
82.获取所述待检测文章对应的检测结果;对所述检测结果、所述重复文字和所述搜索结果链接进行展示。
83.在本步骤中,检测结果包括待检测文章为原创文章或待检测文章为非原创文章,原创文章为文章是作者自己创作,非原创文章为文章不是作者自己创作,属于抄袭文章,然后对检测结果、重复文字和搜索结果链接进行展示。
84.s105:若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。
85.在本步骤中,预设第二阈值为7,目的是当非原创文段的个数超过7个时,确定待检测文章为非原创文章,即确定该文章为抄袭文章;当非原创文段的个数不超过7个时,确定待检测文章为原创文章。
86.此外,在本技术的技术方案中,还包括:
87.判断所述待检测文章的字数是否小于第三阈值,若所述待检测文章的字数小于第三阈值,不执行所述将所述多个预设文段分别作为目标预设文段的步骤。
88.可以理解的是,在获取到待检测文章之后,预设第三阈值为300,然后判断待检测文章的字数是否小于300字,若小于300字,则判定待检测文章不符合文章检测规则,不执行将多个预设文段分别作为目标预设文段的步骤;若不小于300字,则判定待检测文章符合文章检测规则,执行将多个预设文段分别作为目标预设文段的步骤。
89.可见,本可选方案主要是说明如何对文章进行检测。具体的,在本可选方案中,首先获取待检测文章的多个预设文段,将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果,然后提取所述目标搜索结果与所述目标预设文段对应的重复字数,判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段,最后若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。
90.综上,在本实施例中无需自建文章库,利用互联网文章覆盖度高的特性对文章进
行搜索,使得文章与互联网中已有的文章进行对比,得出检测结果,从而提高了文章检测的可信度。
91.装置实施例
92.下面对本技术实施例提供的一种文章检测的装置进行介绍,下文描述的一种文章检测的装置与上文描述的一种文章检测的方法可相互对应参照。
93.参见图2,该图为本技术实施例提供的一种文章检测的装置的结构示意图,如图2所示,该装置可以包括:
94.获取模块100,用于获取待检测文章的多个预设文段;
95.搜索模块200,用于将所述多个预设文段分别作为目标预设文段,对所述目标预设文段进行搜索,获得所述目标预设文段对应的目标搜索结果;
96.提取模块300,用于提取所述目标搜索结果与所述目标预设文段对应的重复字数;
97.判断模块400,用于判断所述重复字数是否大于第一阈值,若所述重复字数大于第一阈值,确定所述目标预设文段为非原创文段;
98.确定模块500,用于若所述多个预设文段中非原创文段个数大于第二阈值,确定所述待检测文章为非原创文章,若所述多个预设文段中非原创文段个数不大于第二阈值,确定所述待检测文章为原创文章。
99.可选的,所述搜索模块200,包括:
100.第一搜索子模块,用于对所述目标预设文段进行搜索,获得多个搜索结果;
101.匹配模块,用于将所述多个搜索结果逐一与所述目标预设文段进行匹配;
102.确定模块,用于将所述多个搜索结果中匹配度最高的搜索结果确定为目标搜索结果。
103.可选的,所述装置还包括:
104.第一判断子模块,用于判断所述待检测文章的字数是否小于第三阈值,若所述待检测文章的字数小于第三阈值,不执行所述将所述多个预设文段分别作为目标预设文段的步骤。
105.可选的,在所述判断模块之后,所述装置还包括:
106.第一获取子模块,用于获取所述目标搜索结果与所述目标预设文段对应的重复文字;
107.第二获取子模块,用于获取所述目标搜索结果对应的搜索结果链接;
108.存储模块,用于存储所述重复文字和所述搜索结果链接。
109.可选的,所述装置还包括:
110.第三获取子模块,用于获取所述待检测文章对应的检测结果,所述检测结果包括所述待检测文章为原创文章或所述待检测文章为非原创文章;
111.展示模块,用于对所述检测结果、所述重复文字和所述搜索结果链接进行展示。
112.本技术实施例所提供的文章检测的装置与上述实施例提供的文章检测的方法具有相同的有益效果,因此不再赘述。
113.需要说明的是,本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
114.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实
施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
115.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
116.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
117.以上对本技术所提供的一种文章检测的方法及装置进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1