基于深度学习的学术奖项获奖预测方法及装置与流程

文档序号:32016697发布日期:2022-11-02 20:29阅读:292来源:国知局
基于深度学习的学术奖项获奖预测方法及装置与流程

1.本发明属于知识挖掘、数据分析、机器学习领域。


背景技术:

2.学术奖项的预测,是通过某些针对行的学术指标对学者进行获奖评估。目前的国内外的较为主流的方法是人工定义多个学术指标,将学者学术的成就用这些按指标进行分数的计算。最终得分是各指标加权求和。这种方法的不足之处在于,计算最终得分是通过加权求和方法,而每个方法的权重基本会采用人工经验的定义,会缺乏统计特性,和无法转化成准确数值。
3.为了解决这个问题,除此之外,其他的主要预测方法都是单奖项的预测,还有对于一些学术人脉和相关奖项的特征没有充分的考虑,本发明提供了一种基于深度学习的专门用于学术奖项预测的方法,这种方法利用了神经网络对多维度特征的较好的融合和提取,避免了人工定义的主观性和不准确。除此之外,我们的预测方法中,还针对学术奖项预测的特点,充分考虑了,预测目标奖项的相关奖项以及学者学术圈相关学者等多个特征。并且能够同时预测多个奖项的获奖概率。


技术实现要素:

4.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本发明的第一个目的在于提出一种基于深度学习的学术奖项获奖预测方法,用于同时预测多个奖项的获奖概率。
6.本发明的第二个目的在于提出一种基于深度学习的学术奖项获奖预测装置。
7.本发明的第三个目的在于提出一种计算机设备。
8.本发明的第四个目的在于提出一种计算机可读存储介质。
9.为达上述目的,本发明第一方面实施例提出了一种基于深度学习的学术奖项获奖预测方法,包括:
10.获取关键词特征集合,并使用大规模学术预训练模型oagbert对所述关键词特征集合进行编码,获取关键词向量;
11.获取其他特征,并对所述其他特征进行编码,获取其他特征向量;其中,所述其他特征包括相关奖项特征和学术人脉特征;
12.将所述其他特征向量按照顺序进行拼接与关键词向量输入学术奖项获奖预测模型中,进行特征的融合提取;
13.通过所述学术奖项获奖预测模型获得学术奖项获奖预测结果。
14.另外,根据本发明上述实施例的基于深度学习的学术奖项获奖预测方法还可以具有以下附加的技术特征:
15.进一步地,在本发明的一个实施例中,所述关键词特征集合包括:
16.学术指标特征、研究领域特征。
17.进一步地,在本发明的一个实施例中,所述学术人脉特征包括:合作者学者特征、师生关系学者特征。
18.进一步地,在本发明的一个实施例中,所述合作者学者特征的提取流程,包括:
19.获取预测对象学者的全部论文;
20.通过所述全部论文获取全部合作者;
21.统计所述预测对象学者与所述全部合作者的合作频率,将所述合作者按所述合作频率降序排序;
22.以所述降序排序的前n人作为统计对象,统计指标:h指数,发文数,引用数,机构等级水平;n为预设数量;h指一名科研人员至多有h篇论文分别被引用了至少h次;
23.将所述统计指标作为合作者学者特征。
24.进一步地,在本发明的一个实施例中,所述师生关系学者特征的提取流程,包括:
25.获取预测对象学者的学生和老师;
26.以所述预测对象学者的学生和老师作为统计对象,统计指标:h_指数,发文数,引用数,机构等级水平;h指一名科研人员至多有h篇论文分别被引用了至少h次;
27.将所述统计指标作为师生关系学者特征。
28.进一步地,在本发明的一个实施例中,在将所述其他特征向量按照顺序进行拼接与关键词向量分别输入学术奖项获奖预测模型之前,还包括:
29.对所述学术奖项获奖预测模型进行训练。
30.进一步地,在本发明的一个实施例中,所述对所述学术奖项获奖预测模型进行训练,包括:
31.获取训练数据集,所述训练数据集包括关键词向量和其他特征向量;
32.构建初始学术奖项获奖预测模型,所述初始学术奖项获奖预测模型包括一个线性层和三个mlp;
33.将所述训练数据集输入所述学术奖项获奖预测模型中;其中所述关键词向量先通过线性层进行降维,降维后的关键词向量与所述其他向量合并输入3层mlp,进行特征的融合提取;
34.输出多标签分类结果。
35.为达上述目的,本发明第二方面实施例提出了一种基于深度学习的学术奖项获奖预测的装置,包括以下模块:
36.第一获取模块,用于获取关键词特征集合,并使用大规模学术预训练模型oagbert对所述关键词特征集合进行编码,获取关键词向量;
37.第二获取模块,用于获取其他特征,并对所述其他特征进行编码,获取其他特征向量;其中,所述其他特征包括相关奖项特征和学术人脉特征;
38.输入模块,用于将所述其他特征向量按照顺序进行拼接与所述关键词向量输入学术奖项获奖预测模型中,进行特征的融合提取;
39.预测模块,用于通过所述学术奖项获奖预测模型获得学术奖项获奖预测结果。
40.为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于深度学习的学术奖项获奖预测方法。
41.为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于深度学习的学术奖项获奖预测方法。
42.本发明实施例提出的基于深度学习的学术奖项获奖预测方法及装置,主要优点是:第一,使用深度学习,自动进行特征提取和特征融合,减少了特征工程的工作。第二,增加已获相关奖项特征,充分考虑已获奖项对与目标奖项获奖概率的影响。第三,增加学者学术人脉关系特征。第四,通过模型的多标签分类能力,可以同时预测多个奖项的获奖概率。第五,将学者的研究内容作为一个特征,使模型的预测具有一定的研究方向区分能力。
附图说明
43.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
44.图1为本发明实施例所提供的一种基于深度学习的学术奖项获奖预测方法流程示意图。
45.图2为本发明实施例所提供的mlp多标签类模型结构示意图。
46.图3为本发明实施例所提供的一种基于深度学习的学术奖项获奖预测装置流程示意图。
具体实施方式
47.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
48.下面参考附图描述本发明实施例的基于深度学习的学术奖项获奖预测方法和装置。
49.图1为本发明实施例所提供的一种基于深度学习的学术奖项获奖预测方法的流程示意图。
50.如图1所示,该基于深度学习的学术奖项获奖预测方法包括以下步骤:
51.s101:获取关键词特征集合,并使用大规模学术预训练模型oagbert对关键词特征集合进行编码,获取关键词向量;
52.s102:获取其他特征,并对其他特征进行编码,获取其他特征向量;其中,其他特征包括相关奖项特征和学术人脉特征;
53.s103:将其他特征向量按照顺序进行拼接与关键词向量输入学术奖项获奖预测模型中,进行特征的融合提取;
54.s104:通过学术奖项获奖预测模型获得学术奖项获奖预测结果。
55.该发明的优点之一是减少目前大多数方法特征选取的工作,即通过大数据统计计算分析与预测目标奖项相关性较强的学术指标,或者咨询相关领域专家进行人工特征定于和分数的设置。本发明与此不同,而是将主要的普遍认同的学术特征作为输入特征,通过神经网络模的监督学习,因为模型参数数量的是300万规模,能够很好的对预测的结果标签进行拟合和特征表示,从而能够动态的根据个各种特征值及其组合,最优的进行特征的分解,
融合,提取,并且计算相应的权重,最终进行获奖的概率预测。
56.学者发表论文的关键词集合,最具研究方向的代表性,本发明将要预测的对象学者的关键词集合进行编码后,经过模型的一次特征的提取处理,再与其他特征合并后继续进行后续流程。
57.进一步地,在本发明的一个实施例中,关键词特征集合包括:
58.学术指标特征、研究领域特征。
59.本发明的模型特征,覆盖了学者的科研成果,强相关科研奖项,学术机构,学术人脉4个维度。其中部分特征是学者自身的学术特征这些特征都是学术界广泛使用的学术指标,本发明不需要像其他的方法通过特征工程去从中挑选特征,而是将所有特征一起输入模型,让模型去做选择,这样大大减小了和免去了人工成本。部分特征的编码方式如下:
60.机构特征编码:共5个等级,编码分别为1-5。国内大学以c9,985,211,前200,其他作为划分依据。国外大学以qs大学排名,u.s.news大学排名的前100,前200,前300,前400,其他,为划分依据。
61.相关奖项是否获奖编码:采用one-hot方式编码,相关奖项个数作为特征长度,每个维度作为一个奖项的标志,用0,1表示是否获奖。
62.进一步地,在本发明的一个实施例中,学术人脉特征包括:合作者学者特征、师生关系学者特征。
63.进一步地,在本发明的一个实施例中,合作者学者特征的提取流程,包括:
64.获取预测对象学者的全部论文;
65.通过全部论文获取全部合作者;
66.统计预测对象学者与全部合作者的合作频率,将合作者按合作频率降序排序;
67.以降序排序的前n人作为统计对象,统计指标:h指数,发文数,引用数,机构等级水平;n为预设数量;h指一名科研人员至多有h篇论文分别被引用了至少h次;
68.将统计指标作为合作者学者特征。
69.进一步地,在本发明的一个实施例中,师生关系学者特征的提取流程,包括:
70.获取预测对象学者的学生和老师;
71.以预测对象学者的学生和老师作为统计对象,统计指标:h指数,发文数,引用数,机构等级水平;h指一名科研人员至多有h篇论文分别被引用了至少h次;
72.将统计指标作为师生关系学者特征。
73.进一步地,在本发明的一个实施例中,在将所述其他特征向量按照顺序进行拼接与关键词向量分别输入学术奖项获奖预测模型之前,还包括:
74.对所述学术奖项获奖预测模型进行训练。
75.其中,本发明的深度模型结构是mlp多标签类模型,模型自身多分类能力使得该发明具有了多奖项同时预测的能力。mlp多标签类模型结构如图2所示。
76.进一步地,在本发明的一个实施例中,对学术奖项获奖预测模型进行训练,包括:
77.获取训练数据集,训练数据集包括关键词向量和其他特征向量;
78.构建初始学术奖项获奖预测模型,所述初始学术奖项获奖预测模型包括一个线性层和三个mlp;
79.将所述训练数据集输入所述学术奖项获奖预测模型中;其中所述关键词向量先通
过线性层进行降维,降维后的关键词向量与所述其他向量合并输入3层mlp,进行特征的融合提取;
80.输出多标签分类结果。
81.其中,关键词向量集合会通过一个线性层,这个线性层有3个目的,第一,对关键词特征进行提取,因为这些关键词对于其他的特征以及奖项所具有的关键程度是不一样,也需要模型进行训练才能很好的加一区别。第二就是能将输入的多个关键词组合成1个向量输出,第三,是降维,因为oagbert的编码长度相对于其他的特征维度过长,会导致模型预测结果大概率偏向于这些向量。
82.本发明实施例提出的基于深度学习的学术奖项获奖预测方法,主要优点是:第一,使用深度学习,自动进行特征提取和特征融合,减少了特征工程的工作。第二,增加已获相关奖项特征,充分考虑已获奖项对与目标奖项获奖概率的影响。第三,增加学者学术人脉关系特征。第四,通过模型的多标签分类能力,可以同时预测多个奖项的获奖概率。第五,将学者的研究内容作为一个特征,使模型的预测具有一定的研究方向区分能力。
83.具体的,第一,学术奖项相关性指标的选择对于获奖预测的准确率影响是至关重要的,但是基于对目前其他的相对成熟专业的预测方法,都大量的采用人工定义的学术指标作为预测特征,各方法指标会不尽相同,甚至定义产生某些新指标,这些指标虽然是从新的维度去对学者的某些学术能力进行描述,但也难免会因为是人为主观因素影响推荐方法。指标的选取在算法领域被称做特征工程,特征工程的不同导致了各预测方法对于特征选择的不同,上述的特征工程有2个缺点,第一,特征工程是一个耗费人力和时间的工作,第二,如果根据某些人工经验选择特征,会因为引入了人为的主观因素,导致预测结果的偏离。基于解决上述2个缺点,本发明提供了基于深度学习的学术获奖预测方法,极大的提高了获奖概率预测的效率。
84.第二,某些奖项之间的较强的关联性,甚至可以认为是前置奖项,而目前的主流预测方法对此没有进行充分的考虑。本发明方法将这些奖项的获奖作为深度学习模型的特征进行学习。使其与其他学术特征做融合,提升对获奖概率的准确率。
85.第三,学者的学术人脉也从一个侧面反应了学者的学术能力。本发明的预测方法中,增加了这一维度,从合作者,师生关系等人脉圈学者的学术水平角度去衡量一个学者对于获得该奖项的概率。
86.第四,深度模型中包含较好较成熟的多标签算法,应用在获奖预测中,使用本发明具有同时预测多个奖项的获奖的功能。
87.第五,模型特征中加入学者所在研究方向关键词。这么做的目的是因为,实际的奖项中,在某个领域,细分研究方向上的区别的学术指标对于获奖的影响是不同的,所以为了使模型在更细小的研究方向上具有区分度,本发明加入关键词的语义特征,使本发明能够更好的区分处理不同研究方向下,根据各学术能力指标进行预测。
88.为了实现上述实施例,本发明还提出一种基于深度学习的学术奖项获奖预测装置。
89.图3为本发明实施例提供的一种基于深度学习的学术奖项获奖预测装置的结构示意图。
90.如图3所示,该基于深度学习的学术奖项获奖预测装置包括:第一获取模块100,第
二获取模块200,输入模块300,预测模块400,其中,
91.第一获取模块,用于获取关键词特征集合,并使用大规模学术预训练模型oagbert对关键词特征集合进行编码,获取关键词向量;
92.第二获取模块,用于获取其他特征,并对其他特征进行编码,获取其他特征向量;其中,其他特征包括相关奖项特征和学术人脉特征;
93.输入模块,用于将其他特征向量按照顺序进行拼接与关键词向量输入学术奖项获奖预测模型中,进行特征的融合提取;
94.预测模块,用于通过学术奖项获奖预测模型获得学术奖项获奖预测结果。
95.为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于深度学习的学术奖项获奖预测方法。
96.为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于深度学习的学术奖项获奖预测方法。
97.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
98.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
99.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1