本发明涉及大数据文献检索。更具体地,涉及一种文献与专家遴选的匹配方法、设备。
背景技术:
1、近十多年来,随着中国社会的快速发展,全国科研院所、高等院校、社会各领域工程技术人员编写的专业文献逐年增加,纷纷投递到各种期刊、学报、学术会议、杂志等单位,每篇文献通常需要遴选到3位专家进行评阅。面对如此大的工作量,传统人工遴选方法不堪重负、容易出错、效率低下,早已不能适应当前社会发展的新需求。
2、目前信息化手段得到深入推广,系统平台采集全国高校、科研院所、社会知名人士数百万名专家信息,包括专家所属一级学科、二级学科、所在单位院校、职称、年龄、相关领域的研究方向和关键词等,形成专家数据库。文献的专家遴选是依据文献的研究方向、标题、关键词、摘要等信息,将文献与专家数据库的专家合理匹配的过程。当前主流遴选技术按照用户在系统平台预设遴选限制条件,首先做基础条件筛选,再通过特征向量匹配技术对文献的研究方向、标题、关键词、摘要智能提取指纹向量,与候选专家的指纹画像库进行匹配与限定,最终输出专家遴选结果。由于中文具有自由灵活、语义丰富的特点,上述专家遴选方法在工程实践中存在精准度不足、不能深入理解词汇上下文语义的缺陷,导致需要大量人工干预,通过人工矫正文献的研究方向寻找合适的专家,费时费力、效率低下,亟待改进。
技术实现思路
1、本发明的目的在于提供一种文献与专家遴选的匹配方法、设备,以解决现有技术存在的问题中的至少一个。
2、为达到上述目的,本发明采用下述技术方案:
3、本发明第一方面提供一种文献与专家遴选的匹配方法,包括:
4、基于数据库元数据信息,构建学科词库;
5、根据输入文献的文献信息、专家库和基础条件遴选得到第一候选专家范围集合;
6、以第一候选专家范围集合为基础通过特征向量条件遴选得到第二候选专家范围集合;
7、将第一候选专家范围集合和第二候选专家范围集合取交集,得到第三候选专家范围集合;
8、计算文献信息与第三候选专家范围集合中每位专家的修正相似度;
9、根据得到的修正相似度,计算文献信息与第三候选专家范围集合中每位专家的相似度;
10、根据用户设置的阈值对相似度进行过滤,得到第四候选专家范围集合;
11、基于第四候选专家范围集合中每位专家与文献信息的相似度对第四候选专家范围集合中的每位专家进行排序。
12、可选地,所述输入文献的文献信息和专家库专家信息,通过特征向量条件遴选得到第二候选专家范围集合,进一步包括
13、根据专家库每位专家的信息生成专家向量库,根据文献信息生成文献信息向量,基于余弦相似度匹配法则,将文献信息向量与专家向量库进行匹配,得到第二候选专家范围集合。
14、可选地,所述计算文献信息与第三候选专家范围集合中每位专家的修正相似度包括根据文献信息和第一分词工具得到文献分词集合;
15、根据第三候选专家范围集合中专家的专家信息和第二分词工具得到专家分词集合;
16、将文献分词集合与专家分词集合取交集得到第三集合;
17、根据学科词库和第三集合得到第三集合中词汇的权重。
18、可选地,所述根据学科词库和第三集合得到第三集合中的词汇的权重
19、
20、其中,dict为学科词库,len(word)表示词汇的字符串长度,其他词汇的权重weight均规定为1,pow(2,len(word))为第三集合中的词汇存在于对应学科词库中该词汇的权重,也表示2的len(word)次指数结果。
21、可选地,所述计算文献信息与第三集合中每位专家的修正相似度公式为
22、
23、其中,s1为文献分词集合,s3为第三集合,sim为修正相似度,∑x∈s3weight(x)为第三集合中各分词的权重之和,∑y∈s1weight(y)为文献分词集合中各分词的权重之和。
24、可选地,所述文献信息包括文献的研究方向、标题、关键词和摘要;所述专家库的专家特征向量包括专家的研究方向和关键词。
25、可选地,所述根据得到的修正相似度,计算文献信息与第三集合中每位专家的相似度包括
26、文献对每位专家的研究方向相似度最大值
27、
28、其中,sim_rdir为文献研究方向的相似度,n为文献的研究方向数量。
29、可选地,所述根据得到的修正相似度,计算文献信息与第三集合中每位专家的相似度还包括
30、文献对每位专家的整体相似度
31、sim_total=sim_rdir+sim_key+sim_title+sim_abstract
32、其中,sim_rdir为文献研究方向的相似度,sim_key为文献关键词的相似度,sim_title为文献标题的相似度,sim_abstract为文献摘要的相似度。
33、可选地,所述根据用户设置的阈值对相似度进行过滤,得到第四候选专家范围集合包括
34、使用用户设置的研究方向最大相似度阈值对研究方向相似度最大值进行过滤;
35、或使用用户设置的关键词相似度阈值对关键词相似度进行过滤,过滤掉相似度小于阈值的专家,得到第四候选专家范围集合。
36、可选地,所述基于第四集合中每位专家与文献信息的相似度对第四集合中的每位专家进行排序包括
37、按照研究方向相似度最大值降序排序,再按照整体相似度降序排序,得到文献专家遴选结果第一列表;
38、在排序结果第一列表基础上进行分组随机排序;
39、对于第一列表中的专家,顺序以预设范围专家为一组,组内做随机排序,组之间不打乱先后顺序,以形成排序结果第二列表;
40、若用户无此需求,则排序结果第二列表与第一列表相同。
41、本发明第二方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明第一方面所提供的方法。
42、本发明的有益效果如下:
43、本发明的分词结果更凸显上下文语义层面的特征,便于文本信息的深入挖掘和推理;还重新定义了修正相似度计算方式,提高学科领域的专业词汇所占的权重,降低普通词汇的干扰影响,使文献的整体相似度分值及其排序结果更能体现文本内容上下文语义的相关度,最终实现文献专家遴选结果的精准度更高且稳定。
1.一种文献与专家遴选的匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述输入文献的文献信息和专家库专家信息,通过特征向量条件遴选得到第二候选专家范围集合,进一步包括
3.根据权利要求2所述的方法,其特征在于,所述计算文献信息与第三候选专家范围集合中每位专家的修正相似度包括
4.根据权利要求3所述的方法,其特征在于,
5.根据权利要求4所述的方法,其特征在于,所述计算文献信息与第三集合中每位专家的修正相似度公式为
6.根据权利要求5所述的方法,其特征在于,所述根据得到的修正相似度,计算文献信息与第三集合中每位专家的相似度包括
7.根据权利要求6所述的方法,其特征在于,所述根据得到的修正相似度,计算文献信息与第三集合中每位专家的相似度还包括
8.根据权利要求7所述的方法,其特征在于,所述根据用户设置的阈值对相似度进行过滤,得到第四候选专家范围集合包括
9.根据权利要求8所述的方法,其特征在于,所述基于第四集合中每位专家与文献信息的相似度对第四集合中的每位专家进行排序包括
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一项所述的方法。