选刊方法、装置、存储介质和计算机设备与流程

文档序号:39303667发布日期:2024-09-06 01:18阅读:19来源:国知局
选刊方法、装置、存储介质和计算机设备与流程

本技术涉及计算机,尤其是涉及到一种选刊方法、装置、存储介质和计算机设备。


背景技术:

1、发表科研论文是学术工作者最关心的事情,但世面已有的刊物众多,对于初涉领域的人来说,选择什么刊发表是一个难题。相关技术中,通常依靠网络爬虫爬取历史发表数据形成可用于人工智能模型的语料,并建立相关模型,通过计算出新输入数据与模型语料之间的相似度,利用相似度找出相似度高的语料,再根据这些相似语料的得出刊物。但局部数据无法涵盖全部的刊源信息,结果准确性不能保障,并且建立模型需一定时间,无法高效的应用数据。


技术实现思路

1、有鉴于此,本技术提供了一种选刊方法、装置、存储介质和计算机设备,利用用户输入的篇名、关键词、摘要等信息通过统计学的办法快速推荐出较适合发表的刊物。

2、根据本技术的一个方面,提供了一种选刊方法,包括:

3、依据待投文档的检索词和指定检索内容,按照指定检索方式在目标数据库进行检索,确定待投文档的相似文档;

4、依据指定检索方式,确定待投文档与相似文档所属候选刊物之间的刊物相关度和候选刊物的相似属性信息;

5、依据刊物相关度和相似属性信息,计算候选刊物的推荐度;

6、将推荐度大于预设推荐度的候选刊物作为目标刊物,并顺序输出目标刊物的刊物信息。

7、进一步地,指定检索方式包括模糊检索,依据待投文档的检索词和指定检索内容,按照指定检索方式在目标数据库进行检索,确定待投文档的相似文档,具体包括:

8、以目标数据库中预设刊物作为检索单元,依据检索词和指定检索内容检索不同预设刊物下的候选文档;

9、确定不同预设刊物下的候选文档的文档数量;

10、对预设刊物进行筛选,确定候选文档的文档数量大于预设数量的候选刊物;

11、将候选刊物下的候选文档作为相似文档。

12、进一步地,指定检索方式包括模糊检索,依据指定检索方式,确定待投文档与相似文档所属候选刊物之间的刊物相关度,具体包括:

13、将预设相关度作为刊物相关度。

14、进一步地,指定检索方式包括精确检索,依据待投文档的检索词和指定检索内容,按照指定检索方式在目标数据库进行检索,确定待投文档的相似文档,具体包括:

15、依据检索词和指定检索内容在目标数据库进行检索,确定候选文档以及候选文档与待投文档之间的相似度;

16、依据相似度对候选文档进行筛选,确定预设文档数量的相似文档,其中,相似文档的相似度大于第一预设相似度。

17、进一步地,指定检索方式包括精确检索,依据指定检索方式,确定待投文档与相似文档所属候选刊物之间的刊物相关度,具体包括:

18、将相似文档所属的预设刊物作为候选刊物,并依据属于同一候选刊物的相似文档的相似度,确定刊物相关度。

19、进一步地,相似属性信息包括:候选刊物下文档的文档数量、所有候选刊物下文档的第一文档总数、候选刊物下的相似文档的文档数量、所有相似文档的第二文档总数、待投文档与相似文档之间的相似度、刊物相关度的最大值和平均值。

20、进一步地,依据刊物相关度和相似属性信息,计算候选刊物的推荐度,具体包括:

21、依据第一文档总数、第二文档总数、刊物相关度的最大值和平均值,计算基础匹配度;

22、依据候选刊物下相似文档与待投文档之间的相似度和基础匹配度计算推荐度。

23、进一步地,依据候选刊物下相似文档与待投文档之间的相似度和基础匹配度计算推荐度,具体包括:

24、若候选刊物下存在相似度大于第二预设相似度的相似文档,依据基础匹配度、刊物相关度、候选刊物下文档的文档数量、候选刊物下相似文档的文档数量,计算第一匹配度作为推荐度;

25、若候选刊物下不存在相似度大于第二预设相似度的相似文档,依据第一匹配度和预设系数计算第二匹配度作为推荐度。

26、进一步地,选刊方法还包括:

27、采用预设提取工具对待投文档的内容信息进行分词处理,确定待投文档的分词词语并删除分词词语中的停用词;

28、确定分词词语的分词权重;

29、依据分词权重拼接分词词语,得到检索词。

30、进一步地,内容信息包括摘要文本和标题文本,确定分词词语的分词权重,具体包括:

31、获取分词词语的词语特征,以及第一分词在摘要文本和标题文本的语句特征;

32、依据词语特征和语句特征,确定分词词语的分词权重。

33、进一步地,内容信息包括关键词,确定分词词语的分词权重,具体包括:

34、将第一预设权重值作为分词权重。

35、进一步地,内容信息包括关键词,方法还包括:

36、依据关键词更新预设提取工具。

37、进一步地,依据分词权重拼接分词词语,具体包括:

38、从分词词语中筛选分词权重大于第二预设权重值的目标词语;

39、将目标词语输入语义模型,得到目标词语的语义信息;

40、将目标词语的语义信息作为聚类元素,并对聚类元素进行聚类,得到至少一个语义聚类集合;

41、依据第一拼接方式组合不同语义聚类集合,并依据第二拼接方式组合同一语义聚类集合中的目标词语。

42、根据本技术的另一方面,提供了一种选刊装置,包括:

43、检索模块,用于依据待投文档的检索词和指定检索内容,按照指定检索方式在目标数据库进行检索,确定待投文档的相似文档;

44、处理模块,用于依据指定检索方式,确定待投文档与相似文档所属候选刊物之间的刊物相关度和候选刊物的相似属性信息;以及,依据刊物相关度和相似属性信息,计算候选刊物的推荐度;

45、推荐模块,用于将推荐度大于预设推荐度的候选刊物作为目标刊物,并顺序输出目标刊物的刊物信息。

46、进一步地,指定检索方式包括模糊检索,检索模块,具体用于以目标数据库中预设刊物作为检索单元,依据检索词和指定检索内容检索不同预设刊物下的候选文档;确定不同预设刊物下的候选文档的文档数量;对预设刊物进行筛选,确定候选文档的文档数量大于预设数量的候选刊物;将候选刊物下的候选文档作为相似文档。

47、进一步地,指定检索方式包括模糊检索,处理模块,具体用于将预设相关度作为刊物相关度。

48、进一步地,指定检索方式包括精确检索,检索模块,具体用于依据检索词和指定检索内容在目标数据库进行检索,确定候选文档以及候选文档与待投文档之间的相似度;依据相似度对候选文档进行筛选,确定预设文档数量的相似文档,其中,相似文档的相似度大于第一预设相似度。

49、进一步地,指定检索方式包括精确检索,处理模块,具体用于将相似文档所属的预设刊物作为候选刊物,并依据属于同一候选刊物的相似文档的相似度,确定刊物相关度。

50、进一步地,相似属性信息包括:候选刊物下文档的文档数量、所有候选刊物下文档的第一文档总数、候选刊物下的相似文档的文档数量、所有相似文档的第二文档总数、待投文档与相似文档之间的相似度、刊物相关度的最大值和平均值。

51、进一步地,处理模块,具体用于依据第一文档总数、第二文档总数、刊物相关度的最大值和平均值,计算基础匹配度;依据候选刊物下相似文档与待投文档之间的相似度和基础匹配度计算推荐度。

52、进一步地,处理模块,具体用于若候选刊物下存在相似度大于第二预设相似度的相似文档,依据基础匹配度、刊物相关度、候选刊物下文档的文档数量、候选刊物下相似文档的文档数量,计算第一匹配度作为推荐度;若候选刊物下不存在相似度大于第二预设相似度的相似文档,依据第一匹配度和预设系数计算第二匹配度作为推荐度。

53、进一步地,处理模块,还用于采用预设提取工具对待投文档的内容信息进行分词处理,确定待投文档的分词词语并删除分词词语中的停用词;确定分词词语的分词权重;依据分词权重拼接分词词语,得到检索词。

54、进一步地,内容信息包括摘要文本和标题文本,处理模块,具体用于获取分词词语的词语特征,以及第一分词在摘要文本和标题文本的语句特征;依据词语特征和语句特征,确定分词词语的分词权重。

55、进一步地,内容信息包括关键词,处理模块,具体用于将第一预设权重值作为分词权重。

56、进一步地,内容信息包括关键词,装置还包括:

57、更新模块,用于依据关键词更新预设提取工具。

58、进一步地,处理模块,还用于从分词词语中筛选分词权重大于第二预设权重值的目标词语;将目标词语输入语义模型,得到目标词语的语义信息;将目标词语的语义信息作为聚类元素,并对聚类元素进行聚类,得到至少一个语义聚类集合;依据第一拼接方式组合不同语义聚类集合,并依据第二拼接方式组合同一语义聚类集合中的目标词语。

59、根据本技术再一个方面,提供了可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现上述选刊方法的步骤。

60、根据本技术又一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行程序时实现上述选刊方法的步骤。

61、借由上述技术方案,从用户提交的待投文档中提炼出检索词,并以用户指定的检索方式通过检索词在目标数据库进行检索,以查找与待投文档具有较高相似度的相似文档。按照不同指定检索方式对应的规则确定与待投文档相关的候选刊物及其刊物相关度,并统计出候选刊物所具备的相似属性信息。利用刊物相关度和相似属性信息计算不同的候选刊物相对于候选刊物的推荐度。最后利用推荐度筛选目标刊物,并按照推荐度对目标刊物进行排序,按顺序向用户展示该待投文档适合发表的刊物。一方面,可以根据用户的稿件本身的内容,综合分析给出符合用户适合文档发表的期刊,降低用户的选刊难度,有助于提高文章投稿的成功率和学术价值。另一方面,以目标数据库全量期刊数据作为基础,通过统计学的方法客观的评价目标数据库中所有刊物与待投文档的适配程度,无需训练模型即可查询出文档与输入内容的相似度,避免了神经网络模型分类不全面的问题,更省去了训练大模型的时间,以便于快速的为用户提供可靠的刊物推荐结果。

62、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1