一种基于作者著作树和图神经网络的论文合作者推荐方法与流程

文档序号：23261318发布日期：2020-12-11 18:50阅读：129来源：国知局

本发明主要涉及实体消歧，异质网络嵌入技术领域，词向量嵌入技术领域，具体是一种基于作者著作树和图神经网络的论文合作者推荐方法。

背景技术：

现代科学出现了综合化、交叉化的新趋势,单人完成科研活动正变得越来越困难,科研协作显得尤为重要。科研协作可以促进科研人员之间的交流、实现科研资源的整合和高效利用。因此，寻求合作者是科研工作者的重要学术活动之一，因为合适的合作者会有助于提升科研效率、科研创新能力和科研质量。对于科研人员来说,如何快速、高质量的找到合适的科研合作者成为目前亟待解决的一个问题。另一方面,随着我国高校科研管理信息化建设的不断推进,积累了丰富的科研数据资源,如何发掘并利用已有科研管理数据资源来解决这一问题是一个值得探讨的课题。随着信息技术的快速发展,科研平台已经广泛出现，并且吸引了大量的研究人员通过虚拟社区来开展科研合作。在这些科研平台上，研究者们可以发布自己的研究成果，浏览其他学者的公开信息，跟踪同行学者的科研进展，寻求潜在的合作机会。然而随着学术数据的大量增长，研究者在面对数字科研平台中的海量数据时，往往需要花费许多的时间定位到自己感兴趣的潜在合作者，用户常常对于想要认识那些学者、可以和哪些相似的学者进行合作是不明确的。因此，利用这些科研平台的科研数据库开发出高效的合作者推荐系统将有效地促进学术合作与知识共享。合作者推荐系统往往通过分析已有作者的科研成果，通过对作者发表的论文的信息进行挖掘，得到其研究内容和方向的表征，进而通过表征的相似性寻找到与目标作者研究方向一致的且没有合作过的学者进行推荐。

技术实现要素：

本发明的目的是提供了一种基于作者著作树结构和图神经网络信息传播模型的论文合作者推荐技术方案。该技术方案利用作者已发表的论文和论文的关键词信息来构建作者著作树，利用论文中的标题，摘要，关键词文本信息得到作者著作树中各个节点的初始表征向量。使用基于图神经网络的信息传递模型编码和优化作者节点的最终表征向量。最终通过作者最终表征向量之间的余弦相似度比较作者研究方向的接近程度，进而给目标作者推荐接近程度高的合作者。

本发明具体包括以下步骤：

步骤一：在科研数据库中，对于其中的每一个作者，收集该作者所著的所有论文，并收集这些论文的关键词信息，构建其著作树。

步骤二：根据步骤一对每个作者构建的著作树，基于图神经网络模型构建信息传播模型，将著作树上的论文和关键词信息传播到作者节点中，编码出作者的最终表征向量。

步骤三：从科研数据库中抽取所有合作过的作者对集合。根据步骤二中构建的信息传播模型和交叉熵损失函数训练参数，优化作者的最终表征向量。

步骤四：根据步骤一到步骤三生成的作者最终表征向量，给定任一作者，向其推荐合作者。

本发明的技术方案为：

一种基于作者著作树和图神经网络的论文合作者推荐方法，其步骤包括：

1)对于数据库中的每一个作者，收集该作者所著的论文并提取所收集论文中的关键词信息，构建该作者的著作树；

2)对每个作者的著作树，基于图神经网络模型构建该作者著作树的信息传播模型，将著作树上的论文信息和关键词信息传播到作者节点中，编码出对应作者初始的表征向量；

3)从该数据库中抽取出所有合作过的作者对集合，然后根据信息传播模型和交叉熵损失函数训练信息传播模型的参数，优化各初始表征向量，得到各作者最终的表征向量；

4)对于一需要推荐合作者的论文a，遍历该数据库获取与该论文a的作者未曾合作过的作者集合n；然后比较该作者a最终的表征向量与该作者集合n中每一作者最终的表征向量的余弦相似度，根据余弦相似度计算结果为该论文a的作者推荐论文合作者。

所述信息传播模型为其中ai代表著作树中作者的表征向量，pi代表著作树中论文的表征向量，ti代表著作树中关键词的表征向量；所述信息传播模型的传播方法为：首先任一与表征向量为pi的论文节点相连的关键词节点将自身的表征向量ti的信息传递给该论文节点，论文节点整合自身的信息和其所有关键词信息生成新的隐层表征向量p′i；然后任一与表征向量为ai的作者节点相连的论文节点将自身的隐层表征向量p′i的信息传递给该论文节点，作者节点整合自身的信息和其所有论文信息生成了作者的表征向量a′i；其中n(pi)表示所有与表征向量为pi的论文节点相连的关键词节点的表征向量的集合，w1是论文向自身传播信息所使用的传播矩阵，w2是关键词向论文传播信息所使用的传播矩阵，relu()为激活函数，n(ai)表示所有与表征向量为ai的作者节点相连的论文节点的隐层表征向量的集合，w3是作者向自身传播信息所使用的传播矩阵，w4是论文向作者传播信息所使用的传播矩阵。

进一步的，ai、pi、ti均是维度为d1的向量，w1是维度为d2×d1的矩阵，w2是维度为d2×d1的矩阵，w3是维度为d3×d1的矩阵，w4是维度为d3×d2的矩阵，d1、d2、d3均为设定值。

进一步的，采用交叉熵损失函数训练所述信息传播模型的参数w1、w2、w3和w4；其中(a′i，a′j)∈p代表最终表征向量分别为a′i和a′j的两个作者组成的作者对属于作者对集合p，d(a′i)表示随机选取的k个没有与最终表征向量为a′i的作者合作过的作者组成的集合，其中k为一设定值。

进一步的，构建作者的著作树的方法为：将作者所著论文及论文的关键词都看作是节点，构建出一个具有三层节点的著作树；其中，第一层的根节点是该著作树的作者节点；第二层是论文节点，并与该作者节点相连；第三层是关键词节点，每个关键词节点与包含该关键词的论文节点相连。

进一步的，对著作树上的每一个节点赋一初始表征向量且各节点的表征向量维度相同；其中对于每个关键词节点，使用word2vec模型将每个关键词转化为一个语义表征向量，代表该节点的初始表征向量；对于每个论文节点，收集其标题和摘要的文本信息，将它们拼接成一段长文本信息，并使用doc2vec模型将这段长文本信息转化为一个语义表征向量，代表该论文节点的初始表征向量；对于每个作者节点，则将计算所有的论文节点的初始表征向量的均值，代表该作者节点的初始表征向量。

一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行上述方法中各步骤的指令。

与现有技术相比，本发明的积极效果为：

1.通过抽取作者的著作树，将每个作者的研究内容、研究方向等非结构化的文本数据凝练为树形的结构化数据，以便更加容易的使用以节点之间的信息传播为特征的神经网络模型来挖掘作者的表征信息。

2.本发明提出以一种能够感知作者著作树结构的基于图神经网络的信息传播模型，能够将作者著作树上的关键词和论文信息自下而上的传播到作者节点中去，使用交叉熵损失函数训练参数，进而编码和优化出高效的作者表征向量。

3.本发明使用简洁易于训练的神经网络，仅包含四个需要训练的参数矩阵，相较于已有的基于深度神经网络方法的合作者推荐模型，具有训练和推荐速度快，存储空间小，易于扩展等特点。

附图说明

图1为本发明的方法流程图。

图2为作者著作树结构示意图。

具体实施方式

下面将结合附图及实施例对本发明做进一步的阐述说明。

本发明的目标是为任一数据库中的作者推荐新的合作者，主要使用作者发表过的论文信息，论文的标题，摘要，关键词信息。本发明方法流程如图1所示。

步骤一：在科研数据库中，对于其中的每一个作者，收集该作者所著的所有论文，并收集这些论文的关键词信息，构建其著作树。

在科研数据库中，包含着一定数量的作者和一定数量的论文。检索一个作者可以得到它的所著的论文集合；检索一篇论文，可以得到它的作者集合，标题，关键词集合和摘要等信息。

首先对于每个作者，检索出其所著的论文集合，接着检索出集合中每个论文的关键词集合。然后把该作者，其所著论文以及其所著论文的关键词都看作是节点，可以构建出一个具有三层节点的著作树。其中，第一层的根节点是该作者节点；第二层是其所著的论文节点，并与该作者相连；第三层是所有论文的关键词节点，每个关键词节点与包含该关键词的论文节点相连。这样就构建出了该作者的著作树，著作树的示意图如图2所示。

接着对著作树上的每一个节点赋初始表征向量。对于每个关键词节点，使用word2vec模型将每个关键词转化为一个语义表征向量，代表该节点的初始表征向量。对于每个论文节点，收集其标题和摘要的文本信息，将它们拼接成一段长文本信息，并使用doc2vec模型将这段长文本转化为一个语义表征向量，代表该论文的初始表征向量。对于每个作者节点，则将求所有的论文的初始表征向量的均值，代表该作者的初始表征向量。且每个节点的表征向量的维度相同。

图神经网络是一种近年来提出的比较流行的神经网络架构，它把传统的深度神经网络与图的结构信息相结合，将神经网络推广到图结构的数据中。图神经网络以及其变种可以被看作是一种信息传播模型的特例，目的是将节点周围的邻居信息以及节点自身的属性信息转化为节点的嵌入表示。

我们的目的是将每个作者的著作树上的论文节点和关键词节点的信息传递到作者节点中。对于任一个作者的著作树，采用从下层往上层的传播顺序，首先将关键词节点的信息传递到对应的论文节点中，然后将论文节点的信息传递到作者节点中。我们使用基于图神经网络模型的信息传递模型，传播的公式定义如下：

其中ai，pi，ti分别代表著作树中的作者，某一论文，某一关键词的表征向量。

在公式(1)中，任一与表征向量为pi的论文节点相连的关键词节点将自身的表征向量ti的信息传递给该论文节点，论文节点整合自身的信息和其所有关键词信息生成了新的隐层表征向量p′i。其中n(pi)表示所有与表征向量为pi的论文节点相连的关键词节点的表征向量的集合，w1是论文向自身传播信息所使用的传播矩阵，w2是关键词向论文传播信息所使用的传播矩阵，relu()为激活函数，将括号中的任意数，向量或者矩阵中小于0的元素变为0。

在公式(2)中，任一与表征向量为ai的作者节点相连的论文节点将自身的隐层表征向量p′i的信息传递给该论文节点，作者节点整合自身的信息和其所有论文信息生成了作者的最终表征向量a′i。其中n(ai)表示所有与表征向量为ai的作者节点相连的论文节点的隐层表征向量的集合，w3是作者向自身传播信息所使用的传播矩阵，w4是论文向作者传播信息所使用的传播矩阵。

在传播模型中，ai，pi，ti是维度为d1的向量，w1，w2是维度为d2×d1的矩阵，w3是维度为d3×d1的矩阵，w4是维度为d3×d2的矩阵，d1，d2，d3可根据实际情况设置为设定值。

同时w1，w2，w3，w4为用来训练的参数矩阵，首先被随机初始化，然后随着训练过程其值产生变化。

步骤三：抽取所有合作过的作者对集合。根据步骤二中构建的信息传递模型和交叉熵损失函数训练参数，优化作者的最终表征向量。

依次遍历数据库中的两两作者，若两个作者所著的论文集合中出现至少同一个论文，即这两个作者合作了同一个论文，则将这两个作者组成的作者对加入合作过的作者对集合p。

根据得到的所有合作过的作者对集合p，使用一个交叉熵损失函数来训练参数w1，w2，w3，w4，该交叉熵损失函数的定义如下：

其中(a′i，a′j)∈p代表最终表征向量分别为a′i和a′j的两个作者组成的作者对属于集合p，即这两个作者合作过论文，d(a′i)表示随机选取的k个没有与最终表征向量为a′i的作者合作过的作者组成的集合，其中k可根据实际情况设置为设定值，一般设置为3。

将步骤二中的公式(1)，(2)代入到上式(3)中。首先随机初始化参数w1，w2，w3，w4，然后采用mini-batchadam优化器最小化交叉熵损失函数来训练参数，这样通过训练参数后的信息传递模型便得到了优化的作者最终表征向量。

步骤四：对于任一个作者，根据步骤一到步骤三生成的最终表征向量，向其推荐合作者。

根据步骤一到步骤三得到了所有作者的最终表征向量。对于某一个需要推荐合作者的论文，遍历数据集中所有其他作者，若该作者与任一其他作者所著的论文集合没有出现相同论文，则代表他们未曾合作过，加入到该作者未曾合作过的作者集合中。遍历结束后，比较该作者与所有其未曾合作过的作者的最终表征向量的余弦相似度，将值从高到底排序后，取前m个值对应的未曾合作过的作者，最终生成m个推荐的合作者，越靠前的作者代表推荐程度越高。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜一;乔子越;周园春;宁致远
技术所有人：中国科学院计算机网络信息中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。