一种学术影响力预测方法与流程

文档序号:17834317发布日期:2019-06-05 23:22阅读:276来源:国知局

本发明涉及学术影响力预测领域,具体而言,属于对专家学者的学术影响力进行量化预测的领域。



背景技术:

随着科学技术的飞速发展,每年都会产生大量的科研文献、著作和专利,如何通过对这些数据进行分析来合理评价科研工作者的学术影响力一直是一个重要的热点探讨问题,这种量化评价结果可以对科研项目申请、企业聘用权威专家进行科技难点攻关、以及权威科技奖项评选等都有着重要的指导价值。传统的学术影响力指数主要基于学者发表的论文信息来计算,例如常用的h-index和g-index等指标。然而,在科技高速发展的今天,学者的学术影响力不仅体现在其发表的论文,而且还体现在学者的专利、著作、基金资助、奖项、同行评议,甚至社交媒体和新闻报告等方面。本专利提出一种新的基于多源数据的综合学术影响力指数,通过多个数据源来更全面刻画学者的学术影响力。该学术影响力指数既可以公平地量化评价学者的学术贡献,还可以用于预测学者的学术潜力。

现有的学术影响力指数主要基于学者发表的论文信息来计算,例如h-index和g-index等。在信息高速发展的时代,学者的影响力不仅仅局限其发表的论文,学者的专利、著作、基金资助、奖项、同行评议,甚至社交媒体和新闻都能反应学者的影响力。本专利提出一种新的基于多数据源的综合学术影响力指数,利用多个数据源来有效刻画学者的影响力。这种影响力指数可公平评价学者的学术贡献,甚至可以预测学者的学术潜力。



技术实现要素:

有鉴于此,本发明提供一种学术影响力预测方法,为计算得到综合学术影响力指数,需要给出不同学术指数的计算预测方法,并合理把这些指数的结果进行综合。本专利从三个方面来分析学术影响力:(1)科研影响力;(2)工业影响力;(3)社会影响力。最后按照加权求和的方法得到学术影响力预测值。

为了实现上述目的,本发明提供如下技术方案:

(1)计算科研影响力指数,具体计算过程为:

统计学者发表的科研论文总数pn;

统计学者发表的科研论文被引用总数cn;

计算评估研究人员的学术产出数量与学术产出水平的指数h和衍生指数g;其中如果h=x表示其发表的论文中有x篇的引用次数不小于x,如果g=x,表示将论文按照被引次数降序排序,被引次数按序号叠加,累计被引次数等于序号x的平方,g指数和h指数高度相关,一般g指数比h指数高;

计算专家著作地域影响力bg,根据学者的著作,统计著作的被引用数,并按照国家(或者其他地理划分依据)将引用者进行统计求和,地域影响力bg指数等于x,表示有x个国家的学者引用该学者著作次数不小于x;

统计专家获得的科研资助金额和科研奖项数目fn,统计获得学者的科研资助金额x和获得的科研奖项数目y,指数fn是x乘以y的sigmoid函数,具体为:

基于以上指标,得到综合的科研影响力指数rindex

其中,wr1+wr2+wr3+wr4+wr5+wr6=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,wr1、wr2、wr3、wr4、wr5、wr6表示不同指标对应的权重。

(2)计算工业影响力,从以下方面衡量:

专利总数tn,学者获得授权的专利总数,用于衡量学者科研成果转化为工业产品的产出能力;

专利被引用数tcn,学者获授权的专利被引用的总数,是目前用于衡量学者的专利是否受工业领域关注的重要参考数据;

专利创新度r,利用文本挖掘技术和向量空间模型,计算其与领域内其他专利的平均余弦相似度进行评估;

计算专利价值度v;

计算专利转化率tz,以成果转化率衡量,成果转化率=成果的应用总数/成果总数;

确定专利生命周期tct;

评估学者企业合作紧密度te;

根据以上指标,可得到综合工业影响力指数tindex

其中,wt1+wt2+wt3+wt4+wt5+wt6+wt7=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,wt1、wt2、wt3、wt4、wt5、wt6、wt7表示不同指标对应的权重。

(3)计算社会影响力,通过将收集的新闻媒体数据和社交媒体数据统一处理,按照如下类别获得专家的社会影响力:

被提及次数scn,统计社交网络或新闻中出现目标学者的总数,用于表征学者的知名度;

领域被提及次数sdn,统计特定领域资讯中目标专家/学者的出现频数,用于表征学者在特定领域的知名度;

地域被提及次数szn,对某个特定地区的资讯进行学者出现次数统计,用于表征学者在该地域的知名度;

基于以上三个指标,可得到综合的社会影响力指数sindex:

其中,ws1+ws2+ws3=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,ws1、ws2、ws3表示不同指标对应的权重。

对以上获得的科研影响力、工业影响力、以及社会影响力进行加权求和得到学者的学术影响力预测值,具体计算方法为:

zindex=wr×rindex+wt×tindex+ws×sindex,其中wr+wt+ws=1。

根据本发明的一个实施例,所述专利创新度的评估方法为:

以专利文献中的动名词短语进行专利创新性特征提取,并引入向量空间余弦相似度原理,设第i篇专利的知识向量为vi,wi/j为矢量vi的特征项,且wi/j∈vi,第k篇专利的知识向量为vk,则第i篇专利相对于第k篇专利的相对向量空间余弦相似度cos(θ)i/k为:

其中,n是向量特征总数,若所有专利文献的总量为m,根据相对向量空间余弦度可以得到第i篇专利相对与其它专利文献的向量空间余弦相似度ri为:

ri为[0,1]之间的实数,理论上越接近于0,该专利创新层次越高。

根据本发明的一个实施例,所述专利价值度从如下三个方面衡量:

v1:取与本专利相似度最高的200篇专利,然后用本专利申请日之后的专利数量减去本专利申请日之前的专利数量;

v2:基于v1,用申请日之前的专利相似度的算数平均值减去申请日之后的专利相似度的算数平均值;

v3:在本专利申请日前后各取100篇与本专利最相似的文献,用申请日之后的100篇专利相似度的算术平均值减去申请日之前的100篇专利相似度的算数平均值,再将得到的差值乘以常数100。

根据本发明的一个实施例,所述专利生命周期采用专利在其申请文件扉页中所有引证文献技术年龄的中间数表征,即:

专利年龄=本专利授权年-该引证专利授权年

tct=中间年龄=专利年龄由大到小排列的中间数。

根据本发明的一个实施例,所述学者企业合作紧密度通过分析专家和企业的合作关系得到,充分收集专家信息、企业信息,从中抽取专家-企业的关系、专家-专家的关系、企业-企业的关系,并按照如下过程计算学者企业合作紧密度指数:

输入:专家p,企业c,专家-企业的关系rpc、专家-专家的关系rpp、企业-企业的关系rcc;

将所有的专家和企业抽象为节点,根据收集到的专家信息、企业信息、专家-企业的关系、专家-专家的关系、企业-企业的关系连接结点;

输出:有向图g,统计专家和企业的连接边数目作为te。

同时,本发明还提供一种自适应的权重调整方法,具体方法为:

step1:人工根据经验设定一套初始的权重值;

step2:根据该权重值计算得到学者的综合学术影响力指数;

step3:随机取100个学者,将这些学者的指数分配给一个用户,用户根据他对学者的了解,对各项指数的合理性进行评分,评分准则为两种:合理和不合理。

step4:根据大量用户的这种反馈,对获得较多合理打分的权重进行提升,对获得较多不合理打分的权重进行降低。回到step2。

根据以上不断迭代,最终可以得到一种经过用户反馈和系统调节的自适应权重分数。

与现有技术相比,本发明实施例的有益效果是:本发明综合考虑了来自论文、著作、专利、媒体的数据,通过多角度的分析得到综合的学术影响力指数,该指数比传统的h-index等指数更能刻画学者的影响力。同时,本发明的多角度指数可以通过雷达图来进行可视化展示,从而直观地反映学者不同角度的影响力。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。

为计算得到综合学术影响力指数,需要给出不同学术指数的计算方法,并合理把这些指数的结果进行综合。本专利从三个方面来分析学术影响力:(1)科研影响力;(2)工业影响力;(3)社会影响力。

下面分别给出科研影响力、工业影响力和社会影响力的计算方法。

科研影响力用于度量学者在科研方面的高水平论文、论文创新性和所得到的科研关注。科研影响力包括以下的具体指标:

学者发表的科研论文总数pn;

学者发表的科研论文被引用总数cn;

计算评估研究人员的学术产出数量与学术产出水平的指数h和衍生指数g;其中如果h=x表示其发表的论文中有x篇的引用次数不小于x,如果g=x,表示将论文按照被引次数降序排序,被引次数按序号叠加,累计被引次数等于序号x的平方,g指数和h指数高度相关,一般g指数比h指数高;

专家著作地域影响力bg,根据学者的著作,统计著作的被引用数,并按照国家(或者其他地理划分依据)将引用者进行统计求和,地域影响力bg指数等于x,表示有x个国家的学者引用该学者著作次数不小于x;计算方法为:(1)将要考虑的地域进行划分,称为i,i∈[1,n],n为划分的区块个数;(2)统计第i区块出版物作者数量niauthor,引用出版物的论文的作者数量niciter;(3)考虑综合区块发展因素确定每个区块的权重系数wi;(4)分别计算各个区块的综合影响力:inferencei=wi·(x·niauthor+y·niciter);(5)利用inferencei进行可视化展示。可视化可以在地图上进行,也可以将数值映射到坐标系中展示。

专家获得的基金和奖项指数fn,统计获得学者的科研资助金额x和获得的科研奖项数目y,指数fn是x乘以y的sigmoid函数,具体为:

基于以上指标,得到综合的科研影响力指数rindex

其中,wr1+wr2+wr3+wr4+wr5+wr6=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,wr1、wr2、wr3、wr4、wr5、wr6表示不同指标对应的权重。

工业影响力用于度量学者在与工业应用相关方面的高水平专利和与企业的合作程度。工业影响力包括以下的具体指标:

专利总数tn,学者获得授权的专利总数,用于衡量学者科研成果转化为工业产品的产出能力;

专利被引用数tcn,学者获授权的专利被引用的总数,是目前用于衡量学者的专利是否受工业领域关注的重要参考数据;

专利创新度r,利用文本挖掘技术和向量空间模型,计算其与领域内其他专利的平均余弦相似度进行评估;具体评估方法如下:

以专利文献中的动名词短语进行专利创新性特征提取,并引入向量空间余弦相似度原理,设第i篇专利的知识向量为vi,wi/j为矢量vi的特征项,且wi/j∈vi,第k篇专利的知识向量为vk,则第i篇专利相对于第k篇专利的相对向量空间余弦相似度cos(θ)i/k为:

其中,n是向量特征总数,若所有专利文献的总量为m,根据相对向量空间余弦度可以得到第i篇专利相对与其它专利文献的向量空间余弦相似度ri为:

ri为[0,1]之间的实数,理论上越接近于0,该专利创新层次越高;

计算专利价值度v;价值度可以从一下三方面衡量:

v1:首先取与本专利相似度最高的200篇专利,然后用本专利申请日之后的数量减去本专利申请日之前的数量。

v2:基于v1,用申请日之前的专利相似度的算数平均值减去申请日之后的专利相似度的算数平均值。

v3:在本专利申请日前后各取100篇与本专利最相似的文献,用申请日之后的100篇专利相似度的算术平均值减去申请日之前的100篇专利相似度的算数平均值,再将得到的差值乘以常数100。

v1-v3的计算公式如下(相似度的计算参考k-i中的余弦相似度):

v1=149-51,top200

v2=avg(rel.post(149))-avg(rel.prior(51))

v3=[avg(rel.post(100))–avg(rel/prior(100))]*k

由于三个数值的得出均为申请日之后的数据减去申请日之前的数据,因此皆为越大越好,数值越大则客观地表示本专利在申请时占据领先地位,而且申请之后跟随众多。

计算专利转化率tz,专利成果转化是指从将专利从科研单位转移到生产部门,形成新产品、新工艺、新材料,发展新产业。其可用成果转化率衡量。具体计算公式如下:

成果转化率=成果的应用数/成果总数

确定专利生命周期tct,技术生命周期指技术从产生到退出市场,被新的技术所取代的过程,可分为引入期、发展期、成熟期和淘汰期。这里采用主要针对某件专利文献所代表的技术的生命周期的计算方法——tct(technologycycletime)计算法。该方法基于以下理论:技术生命周期可以用专利在其申请文件扉页中所有引证文献技术(专利)年龄的中间数表示:

专利年龄=本专利授权年-该引证专利授权年

tct=中间年龄=专利年龄由大到小排列的中间数

评估学者企业合作紧密度te,所述学者企业合作紧密度通过分析专家和企业的合作关系得到,充分收集专家信息、企业信息,从中抽取专家-企业的关系、专家-专家的关系、企业-企业的关系,并按照如下过程计算学者企业合作紧密度指数:

输入:专家p,企业c,专家-企业的关系rpc、专家-专家的关系rpp、企业-企业的关系rcc;

将所有的专家和企业抽象为节点,根据收集到的专家信息、企业信息、专家-企业的关系、专家-专家的关系、企业-企业的关系连接结点;

输出:有向图g,统计专家和企业的连接边数目作为te

根据以上指标,可得到综合工业影响力指数tindex

其中,wt1+wt2+wt3+wt4+wt5+wt6+wt7=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,wt1、wt2、wt3、wt4、wt5、wt6、wt7表示不同指标对应的权重。

社会影响力用于度量学者在与社交网络和媒体中的知名度。将收集的新闻媒体数据和社交媒体数据统一处理,通过统计分析获得专家的社会影响力指标,具体如下:

被提及次数scn,统计社交网络或新闻中出现目标学者的总数,用于表征学者的知名度;

领域被提及次数sdn,统计特定领域资讯中目标专家/学者的出现频数,用于表征学者在特定领域的知名度;

地域被提及次数szn,对某个特定地区的资讯进行学者出现次数统计,用于表征学者在该地域的知名度;

基于以上三个指标,可得到综合的社会影响力指数sindex:

其中,ws1+ws2+ws3=1,max()表示所有学者在该指数的最大值,其作用是对各指数进行归一化处理,从而保证得到的科研影响力指数是一个在[0,1]区间的数值,ws1、ws2、ws3表示不同指标对应的权重。

最后,通过对上述指数进行加权求和得到学者的综合学术影响力,具体为:zindex=wr×rindex+wt×tindex+ws×sindex,其中wr+wt+ws=1。

根据本发明的另一实施例,在上述计算中,一个重要的问题是如何获得合理的权重指数,本发明针对该问题,提出一种自适应的权重调整方法,具体过程为:

step1:人工根据经验设定一套初始的权重值;

step2:根据该权重值计算得到学者的综合学术影响力指数;

step3:随机取100个学者,将这些学者的指数分配给一个用户,用户根据他对学者的了解,对各项指数的合理性进行评分,评分准则为两种:合理和不合理;

step4:根据大量用户的这种反馈,对获得较多合理打分的权重进行提升,对获得较多不合理打分的权重进行降低;回到step2。

根据以上不断迭代,最终可以得到一种经过用户反馈和系统调节的自适应权重分数。

本发明不仅提出了专家学术影响力预测的三个方面,并且提出一种著作地域影响力的计算方法、专利创新度的计算方法、并提出用媒体和新闻数据来刻画学者的影响力的方法。本发明中计算得到的指数可以通过分类列表的方式直观展示,也就可以通过雷达图来进行可视化展示,直观地反映学者不同角度的学术影响力和综合的学术影响力。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1