本技术涉及数据处理,尤其涉及基于机器学习的专家获奖预测方法和装置。
背景技术:
1、在人才发展和培养、制定人才政策以及合理分配科学资源等方面,预测专家获得该奖项可能性大小是其中重要的一环。现有搜索网站包含大量的的专家和学术论文,在如此数据量下,专家获奖预测工作复杂程度不容小觑,不仅需要考虑算法的精度,还要考虑算法的速度;除此之外还要考虑现有数据,以及日益增长的新数据。
2、对于专家获奖预测,有相关研究工作。例如现有的依据专家学术大数据评估专家影响力的方法、基于结构洞理论的节点重要性评估方法、基于异构网络的hnrank算法、加入强联系的swrank评估专家影响力的算法。它的基本思想是首先根据论文-专家关系,构建包含专家、论文和期刊三种不同类型节点的无向异构网络,通过构建论文合作者的合作关系无向图,加入会议比例、介数中心性、信息熵等指标因素,从而根据结构洞理论提出用来评估节点重要性的b2算法,也称为bridgerank算法和betweenesrank算法。其次根据上一步计算出来的节点重要性得分即b2值,结合pagerank值以及h_index对专家影响力进行排名,并对pagerank算法进行改进,计算学者中间、学者与论文、论文与期刊、论文间的pagerank值,加权求和得到评估指标hnrank值,即得到hnrank算法。最后结合b2算法和hnrank算法,形成swrank算法,其中b2值和hnrank值的加权系数由专家的排名与专家引用量之间的相关系数得到。在异构网络数据方面,现有的针对多重关系异构网络的学术实体权威度评估方法,聚焦于权威度这一评价指标,利用机构、作者、文献这三类实体之间的合作、合著和引用的关系构建异构网络模型,提出了计算文献、作者、机构权威度的混合随机游走算法co-academicrank算法,并在情报学和图书馆学数据集上进行测试和分析,对比了pagerank和co-ranking算法,证明了co-academicrank算法的优越性和有效性。目前尽管有很多评估专家影响力的方法,但是主要还是基于传统的pagerank算法进行改进,而且具体针对某一个奖项的预测研究得较少,现有的利用机器学习算法支持向量机对图灵奖进行预测的方法,主要基于文献指标数据。而针对现有搜索网站数据集的相关工作也只是很少的一部分,将算法运用于现有搜索网站全数据并没用得到理想的结果,同时表现出速度慢、准确率低的缺点,对于准确预测专家的奖项还远远不够。
技术实现思路
1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本技术的第一个目的在于提出一种基于机器学习的专家获奖预测方法,解决了现有方法速度慢、准确率低技术问题,实现了快速、准确的预测专家的奖项。
3、本技术的第二个目的在于提出一种基于机器学习的专家获奖预测装置。
4、为达上述目的,本技术第一方面实施例提出了一种基于机器学习的专家获奖预测方法,包括:获取待预测专家身份标识;根据待预测专家身份标识提取对应的专家相关信息,并根据专家相关信息生成专家特征,其中,专家特征包括显示特征和隐式特征,显示特征为根据专家相关信息构造的统计特征,隐式特征为根据专家相关信息构建的图中对应节点的特征;将显示特征和隐式特征进行拼接,并输入到分类模型,输出待预测专家的获奖概率。
5、本技术实施例的基于机器学习的专家获奖预测方法,从挖掘专家基础信息、论文相关指标以及专家网络关系的角度去解决大数据集的专家获奖预测问题,基于现有全数据集提出了一个结合机器学习的专家获奖预测方法,能够针对大规模数据提供有效地解决方法。
6、可选地,在本技术的一个实施例中,获取待预测专家身份标识后,还包括:
7、对待预测专家身份标识的格式进行验证,以确保待预测专家身份标识格式正确。
8、可选地,在本技术的一个实施例中,根据专家相关信息生成隐式特征,包括:
9、根据专家相关信息中论文的合作者以及论文的引用情况构建待预测专家的网络关系图数据;
10、基于图数据以及专家相关信息中的专家获奖信息,训练图上的节点分类模型,得到每个节点的隐式表征作为隐式特征,其中,节点的标签为专家是否获得该奖项。
11、可选地,在本技术的一个实施例中,分类模型为xgboost模型,将显示特征和隐式特征进行拼接,并输入到分类模型,输出待预测专家的获奖概率,包括:
12、对显示特征和隐式特征进行拼接,并输入到训练好的xgboost模型中,获得专家得分;
13、对此奖项关联的所有专家得分进行概率的横向对比,调整专家的先后顺序,得到待预测专家的获奖概率。
14、可选地,在本技术的一个实施例中,在获得待预测专家的获奖概率后,还包括:
15、对显示特征和隐式特征进行统计,得到的统计信息作为待预测专家的获奖概率的解释信息;
16、展示待预测专家的获奖概率和解释信息。
17、为达上述目的,本发明第二方面实施例提出了一种基于机器学习的专家获奖预测装置,包括获取模块、特征生成模块、预测结果生成模块,其中,
18、获取模块,用于获取待预测专家身份标识;
19、特征生成模块,用于根据待预测专家身份标识提取对应的专家相关信息,并根据专家相关信息生成专家特征,其中,专家特征包括显示特征和隐式特征,显示特征为根据专家相关信息构造的统计特征,隐式特征为根据专家相关信息构建的图中对应节点的特征;
20、预测结果生成模块,用于将显示特征和隐式特征进行拼接,并输入到分类模型,输出待预测专家的获奖概率。
21、可选地,在本技术的一个实施例中,还包括验证模块,具体用于:
22、对待预测专家身份标识的格式进行验证,以确保待预测专家身份标识格式正确。
23、可选地,在本技术的一个实施例中,根据专家相关信息生成隐式特征,包括:
24、根据专家相关信息中论文的合作者以及论文的引用情况构建待预测专家的网络关系图数据;
25、基于图数据以及专家相关信息中的专家获奖信息,训练图上的节点分类模型,得到每个节点的隐式表征作为隐式特征,其中,节点的标签为专家是否获得该奖项。
26、可选地,在本技术的一个实施例中,分类模型为xgboost模型,将显示特征和隐式特征进行拼接,并输入到分类模型,输出待预测专家的获奖概率,包括:
27、对显示特征和隐式特征进行拼接,并输入到训练好的xgboost模型中,获得专家得分;
28、对此奖项关联的所有专家得分进行概率的横向对比,调整专家的先后顺序,得到待预测专家的获奖概率。
29、可选地,在本技术的一个实施例中,还包括展示模块,具体用于:
30、对显示特征和隐式特征进行统计,得到的统计信息作为待预测专家的获奖概率的解释信息;
31、展示待预测专家的获奖概率和解释信息。
32、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。