一种基于研究领域计算论文相似度的算法

文档序号:37020308发布日期:2024-02-09 13:13阅读:23来源:国知局
一种基于研究领域计算论文相似度的算法

本发明涉及论文相似度计算领域,特别涉及一种基于研究领域计算论文相似度的算法。


背景技术:

1、为了能够给用户精准推送相似的论文,计算论文相似度能够准确找到目标论文类似的论文,排除无关的论文,减少用户检索的时间。论文的相似度计算也是知识挖掘的重要技术基础,通过分析相似论文的研究方向,预测可能出现的知识或者未来会形成交叉的主题。

2、运用自然语言处理论文文本是最直观的方法,通过把论文的标题、摘要等文字信息进行特征提取等操作,之后再对这些特征进行比对从而得出结果。对于文本类数据一般采用n-gram或word2vec等方法将文本向量化,之后再用余弦相似度去计算向量之间的相似度从而得出论文之间的相似度。虽然摘要和标题可以代表论文的研究方向和主题,但是由于字数的限制,并不能完整体现文章内容,所以经过提取后的特征也不能完整代表论文,这就导致计算结果会有误差。

3、现有masoudreyhanihamedani,sang-wookkim等在informationscience,volumes334–335,2016,pages273-292,issn0020-0255中将论文的引用关系和文本数据结合起来计算论文的相似度。但文本相似度的计算依旧是采用将论文中的术语向量化,然后度量向量的相似性。通过将论文之间的共引关系量化,再结合文本的相似度,最后计算出论文之间的相似度。单一的引用关系会让计算出现误差。


技术实现思路

1、本发明的目的在于克服现有技术中所存在的利用引用关系和文本数据结合计算的方法误差较大的问题,提供一种基于研究领域计算论文相似度的算法,通过将论文间所属研究领域耦合度以及对应的置信度相结合计算,得到更精确的论文之间的相似度。

2、为了实现上述发明目的,本发明提供了以下技术方案:

3、一种基于研究领域计算论文相似度的算法,所述算法包括:

4、s1:从论文库下载论文,统计所述论文中出现频率最高的研究领域,补充其丢失的父类领域,给所述父类领域分配与其子类领域相同的权重,并对所述权重做归一化处理;

5、s2:根据所述研究领域的层次,将每篇所述论文的研究领域和相关置信权重表示为多个层次向量,多个所述层次向量为所述论文的初始表示;

6、s3:构建所述论文的相关性矩阵,用所述相关性矩阵乘以所述论文的初始表示,得到所述论文在所述层次的最终表示;

7、s4:给每个所述层次分配不同的权重参数,并根据所述权重参数计算论文之间的相似度。

8、其中,所述s1中的所述归一化处理包括:将所述论文的所有领域的权重均增加0.1,并进行归一化计算;其计算公式为:

9、v’=v/|v|

10、其中,v’为归一化后的层次向量,v为原始层次向量,|v|为层次向量的模。

11、归一化处理的目的是消除不同特征之间的量纲差异,使不同特征具有可比性。

12、进一步的,所述s2中的所述层次包括0~5级共6个层次,每篇所述论文的初始表示包括6个层次向量,6个所述层次和6个所述层次向量一一对应。

13、具体的,所述s3中的相关性矩阵根据共现矩阵计算得到,所述计算公式为:

14、

15、

16、其中,ti,j表示两个研究领域共现的次数,ni和nj表示研究领域i和j各自出现的次数,tfij表示研究领域i,j共现的频率,idfij表示研究领域i,j的逆频率指数,p表示论文的数量。

17、引入相关性矩阵能够充分考虑到影响论文相似度的研究领域之间的关系,弥补在论文的初始表述向量上定义的相似性无法反映领域之间细微的差别,改进初始表示,使其包含更多信息。

18、进一步的,所述权重参数的分配公式为:

19、

20、其中,l代表两篇论文中研究领域的最高级别,i代表研究领域的级别。

21、随着研究领域层次的提高,领域也趋于更加专业化,如果高层次领域相似,那么论文的研究方向也很可能相似,论文的相似度更高。因此,增加权重参数能够区分不同层次的重要性,更准确地描述论文的研究领域。

22、所述相似度的计算公式为:

23、

24、其中,s代表论文a和b之间的相似度,vec_ai,vec_bi分别代表论文a和b在层次i的初始向量,mi代表层次i的相关性矩阵。

25、将两篇论文的每个层次与权重参数结合并汇总,得到论文之间的相似度,由于引入层次和权重参数,使得对相似度的描述更准确。

26、一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的算法。

27、与现有技术相比,本发明的有益效果:

28、通过论文间所属研究领域耦合度以及对应的置信度相结合计算出论文之间的相似度,具有新颖性和良好的准确性;

29、通过将每篇论文表示为6个等级的向量,使每篇论文的表示形式详细完整,用不同等级研究领域的相似度来得出论文总的相似度,避免概括范围较大的领域过度影响计算结果;

30、通过在研究领域之间引入了包含其耦合度的相关性矩阵,改进论文的表示向量,使向量中包含更多的信息,避免计算过程中仅用研究领域的种类是否相同来决定最后的相似度;

31、通过对不同等级研究领域结果加权最后整合结果,让更能代表论文的研究领域占有更大的权重。



技术特征:

1.一种基于研究领域计算论文相似度的算法,其特征在于,所述算法包括:

2.根据权利要求1所述的基于研究领域计算论文相似度的算法,其特征在于,所述s1中的所述归一化处理包括:将所述论文的所有领域的权重均增加0.1,并进行归一化计算;其计算公式为:

3.根据权利要求1所述的基于研究领域计算论文相似度的算法,其特征在于,所述s2中的所述层次包括0~5级共6个层次,每篇所述论文的初始表示包括6个层次向量,6个所述层次和6个所述层次向量一一对应。

4.根据权利要求1所述的基于研究领域计算论文相似度的算法,其特征在于,所述s3中的相关性矩阵根据共现矩阵计算得到,所述计算公式为:

5.根据权利要求1所述的基于研究领域计算论文相似度的算法,其特征在于,所述权重参数的分配公式为:

6.根据权利要求1所述的基于研究领域计算论文相似度的算法,其特征在于,所述相似度的计算公式为:

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的算法。


技术总结
本发明涉及论文相似度计算领域,特别涉及一种基于研究领域计算论文相似度的算法,包括:S1:从论文库下载论文,统计论文中出现频率最高的研究领域,补充其丢失的父类领域,给父类领域分配与其子类领域相同的权重,并对权重做归一化处理;S2:根据研究领域的层次,将每篇论文的研究领域和相关置信权重表示为多个层次向量,多个层次向量为论文的初始表示;S3:构建论文的相关性矩阵,用相关性矩阵乘以论文的初始表示,得到论文在层次的最终表示;S4:给每个层次分配不同的权重参数,计算论文之间的相似度。通过论文间所属研究领域耦合度以及对应的置信度相结合计算出论文之间的相似度,具有新颖性和良好的准确性。

技术研发人员:马健兵,陈柯
受保护的技术使用者:成都信息工程大学
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1