1.本发明涉及计算机技术领域,尤其涉及一种科技论文数据文本语义特征提取方法、系统及存储介质。
背景技术:2.科技论文作为重要的研究成果展示与信息获取来源,几乎每日都有大量的科技论文被发表,这些学术成果包含多种最新的专业领域信息,有效快速的获取这些科技论文并进行语义特征的表示与学习显得尤为重要。然而科技论文数据中往往包含大量复杂的属性,例如论文的摘要、关键词、引用文献等,论文之间的关联更加紧密,此外,论文中大量的专业知识覆盖学科广泛,使得科技论文的特征提取需要大量的专业知识;有效提取论文数据的特征可以为科技论文数据的处理提供支撑。
3.tf-idf(term frequency
–
inverse document frequency)是一种传统的文本特征提取方式。它使用词频以及逆文档频率,将文档表示为关键词权重的多维向量表示,是一种典型的向量空间模型。mikolov等基于连续词袋模型(cbow)和skip-gram模型引入了一种词向量表示模型word2vec,整个nlp领域很快就进入了embedding的世界。传统的编码方式主要以onehot编码为主,这种编码方式得到的向量往往是稀疏的,word2vec训练出的词向量是低维、稠密的,它有效利用了词的上下文信息,使得向量的语义信息更加丰富。li等人使用word2vec算法处理语义鸿沟,并实现http流量的词频-文档频率倒数(tf-idf)加权映射以构造低维段落矢量表示减少复杂性;而word2vec由于再训练后,每个词的语义向量就不会改变,无法结合上下文语义获取不同的向量。peters等人为了解决word2vec缺乏上下文适应的问题,提出了 elmo 模型;与静态的词嵌入表示模型获取的语义表示向量保持不变的特点不同,elmo 首先需要在一个大规模的语料上进行预训练,在预训练结束后,再根据具体的应用领域进行微调,从而达到领域适应的目的,使得一个词能够根据当前语境获取特殊的向量。gpt同样采用一个语料库来获取预训练模型,再通过一个小规模的语料进行微调,与 elmo 相比,二者的主要区别在于特征提取所采用的网络结构不同,gpt采用的是transformer,而elmo采用的是lstm。transformer是谷歌提出的一种端到端的序列模型,在此模型的基础上,很多改进方法广泛应用于自然语言处理,甚至是图像等领域;与传统的序列模型相比,transformer完全采用注意力机制组成网络,通过编码器、解码器的结构组成整个网络;谷歌在此基础上进一步提出了bert模型,bert模型通过mask机制,遮挡语料中部分单词进行预测任务,从而进行模型的预训练,并采用双向编码的方式,有效地提取了文本的上下文语义。
4.传统的预训练模型主要通过单向的网络,或者是对双向网络的简单拼接,这样的网络结构无法有效挖掘文本的上下文关系,而bert强调全方向地获取上下文信息,通过深度的双向transformer单元,来构建整个模型,因此最终生成能融合上下文信息的深层双向语言表征。在预训练过程中,bert分别采用masked language model和next sentence prediction任务进行预训练,其中masked language model是通过随机替换语料中的部分
单词,并使模型预测被替换的单词从而实现预训练,有效地使模型能够学习到单个句子的特征,然而对于常见的问答、对话等语句,更需要捕获句子上下文的关系,而masked language model任务倾向于抽取单词层次的表征,无法直接获取语句层次的特征。为了使模型能够理解句子间的关系,bert使用了next sentence prediction任务来预训练,也就是通过判断两个句子是否是上下文关联来进行训练任务;bert通过深度的网络以及大规模的语料进行上述两种预训练任务,获取丰富的文本语义表示,并在此基础上,在nlp的多个下游任务中取得了当时的最佳表现。
5.在现有的利用基于预训练语料模型进行特征提取的方法中,都是针对文本上下文进行语义特征提取,然而对于科技论文而言,论文的各个属性,尤其是关键词以及标题存在大量关联,论文之间也可以通过关键词的共现关系进行关联,这些属性覆盖了论文的主要语义信息,而现有的特征提取方法忽略了这些论文属性之间的关联,无法同时从上下文以及论文关联关系进行特征提取,从而导致现有的特征提取方法无法较好的提取到科技论文的语义特征。因此,如何较好的提取到科技论文的语义特征是亟待解决的技术问题。
技术实现要素:6.有鉴于此,本发明提供了一种科技论文数据文本语义特征提取方法、系统及存储介质,以解决现有技术中存在的一个或多个问题。
7.根据本发明的一个方面,本发明公开了一种科技论文数据文本语义特征提取方法,所述方法包括:获取科技论文的文本信息,并基于获取到的所述科技论文的文本信息构建实体关系图,所述文本信息包括论文标题以及关键词,所述实体关系图中的节点为论文标题或关键词,所述实体关系图中的边为节点之间的关联关系;基于获取到的所述科技论文的文本信息提取语义特征,得到语义特征矩阵;基于所述实体关系图确定原始邻接矩阵,将所述语义特征矩阵及所述原始邻接矩阵输入至图网络模型,得到空间特征矩阵;将所述语义特征矩阵与所述空间特征矩阵进行特征融合,得到所述科技论文的最终语义特征。
8.在本发明的一些实施例中,基于获取到的所述科技论文的文本信息提取语义特征,得到语义特征矩阵,包括:将获取到的所述科技论文的文本信息输入至bert模型,得到语义特征矩阵。
9.在本发明的一些实施例中,基于获取到的所述科技论文的文本信息构建实体关系图,包括:基于获取到的所述科技论文的文本信息通过逐点互信息算法计算任意两个节点之间的相关性,基于计算得到的相关性构建实体关系图。
10.在本发明的一些实施例中,所述逐点互信息算法的计算公式为:;其中,wi表示节点i,wj表示节点j,,,
,m表示科技论文文本摘要长度,c(w
i,
wj)表示节点i和节点j在同一科技论文文本摘要中的共现次数,c(wi)表示节点i在摘要中出现的总次数,c(wj)表示节点j在摘要中出现的总次数。
11.在本发明的一些实施例中,所述图网络模型包括多层卷积层,各卷积层的输出为:;其中,l(i)为第i层的输出,l
(i-1)
为第i-1层的输出,ρ为激活函数,w(i)为模型参数,为邻接矩阵的拉普拉斯变换,,d为度矩阵,用于归一化。
12.在本发明的一些实施例中,所述方法还包括:基于得到的所述最终语义特征计算所述实体关系图中任意两个节点的余弦相似度;基于所述余弦相似度得到重构邻接矩阵;计算所述原始邻接矩阵及重构邻接矩阵的损失值,基于所述损失值优化所述图网络模型的参数。
13.在本发明的一些实施例中,所述图网络模型的损失函数为:;其中;s为余弦相似度矩阵,a为原始邻接矩阵,f为f范数。
14.在本发明的一些实施例中,通过公式z=λz
gcn
+(1-λ) z
bert
将所述语义特征矩阵与所述空间特征矩阵进行特征融合;其中,z
gcn
为空间特征矩阵,z
bert
为语义特征矩阵,λ为超参数,且λ∈(0,1)。
15.根据本发明的另一方面,还公开了一种科技论文数据文本语义特征提取系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
16.根据本发明的又一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
17.本发明所公开的科技论文数据文本语义特征提取方法及系统,先获取到论文语义特征矩阵,并通过图网络模型确定空间特征矩阵,最终将语义特征矩阵及空间特征矩阵进行特征融合,得到科技论文的最终语义特征;该方法及系统在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,丰富论文的语义表示,从而可较好的提取到科技论文的语义特征。
18.本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
19.本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
20.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:图1为本发明一实施例的科技论文数据文本语义特征提取方法的流程示意图。
21.图2为本发明另一实施例的科技论文数据文本语义特征提取方法的流程示意图。
22.图3为本发明一实施例的科技论文数据文本语义特征提取系统的架构示意图。
具体实施方式
23.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
24.在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
25.应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
26.在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
27.图1为本发明一实施例的科技论文数据文本语义特征提取方法的流程示意图,如图1所示,该科技论文数据文本语义特征提取方法至少包括步骤s10至s40。
28.步骤s10:获取科技论文的文本信息,并基于获取到的所述科技论文的文本信息构建实体关系图,所述文本信息包括论文标题以及关键词,所述实体关系图中的节点为论文标题或关键词,所述实体关系图中的边为节点之间的关联关系。
29.在该步骤中,首先可先对科技论文文本数据进行预处理,进而对科技论文进行关键词抽取,以抽取到包含标题内容、关键词内容的文本信息。进一步的,基于科技论文的结构特点,建立科技论文实体的标题以及关键词之间的关联。具体的,基于获取到的所述科技论文的文本信息构建实体关系图g,g为无向图,该无向图中的节点为标题或关键词,而节点之间的边表示对应两个节点之间的关联关系。在构建关系图g时,利用科技论文的标题与关键词或关键词与关键词之间的关联关系,建立科技论文实体标题节点与关键词节点的边。
30.其中,基于获取到的所述科技论文的文本信息构建实体关系图,可包括:基于获取到的所述科技论文的文本信息通过逐点互信息算法计算任意两个节点之间的相关性,基于计算得到的相关性构建实体关系图。应当理解的是,此处所列举的基于节点之间的相关性构建实体关系图仅是一种示例,除此之外,还可以根据其他方法构建实体关系图;并且在计算两个节点之间的相关性时除了采用逐点互信息算法之外,也可采用其他类算法。
31.进一步的,逐点互信息算法的计算公式为:;
其中,wi表示节点i,wj表示节点j,示例性的,节点i为标题节点,节点j为关键词节点,pmi(w
i ,wj)表示节点i与节点j之间的相关性得分,,,,m表示实体关系图中标题的数量,标题的数量也可认为成文档的数量,c(w
i,
wj)表示节点i和节点j在同一科技论文文本摘要中的共现次数,c(wi)表示节点i在摘要中出现的总次数,c(wj)表示节点j在摘要中出现的总次数。在该实施例中,论文与关键词之间的关联,采用基于词频-逆文档频率(tf-idf)的指标来定义词-文档的关联程度,即两个节点 i 和 j 之间的边的权重定义为:对于关键词之间的关联,利用逐点互信息(pmi)来计算得分,可将得分大于一定数值的两个节点认为具有关联关系,则此时相对应的在该两个具有关联关系的节点之间生成边;类似的,可将得分小于一定数值的两个节点认为不具有关联关系,则此时相对应的两个不具有关联关系的节点之间不会生成边。
32.步骤s20:基于获取到的所述科技论文的文本信息提取语义特征,得到语义特征矩阵。
33.在该步骤中,可基于预训练语言模型提取科技论文的语义特征,即将在步骤s10中获取到的科技论文的文本信息输入至预训练语言模型中,以得到该科技论文的语义特征矩阵。
34.预训练语言模型可为bert模型、word2vec模型、elmo 模型等。当预训练语言模型为bert模型时,则基于获取到的所述科技论文的文本信息提取语义特征,得到语义特征矩阵,具体包括:将获取到的所述科技论文的文本信息输入至bert模型,得到语义特征矩阵。bert模型其网络结构主要通过transformer构成,采用无监督的方式进行训练。在对于模型进行训练时,首先确定数据样本集,基于数据样本对初始网络模型进行训练以优化网络参数,从而得到训练后的bert模型。
35.示例性的,bert模型的输出可记为x,x表示科技论文的语义特征矩阵;,文档节点嵌入编码由表示,其中 d是嵌入维度,x
doc
表示文本信息中的标题对应的语义特征矩阵,而x
word
表示文本信息中关键词对应的语义特征矩阵,n
doc
表示文本信息中标题的数量,而n
word
表示文本信息中关键词的数量,而n
doc
+n
word
也可以看作为实体关系图中节点的总数量。
36.步骤s30:基于所述实体关系图确定原始邻接矩阵,将所述语义特征矩阵及所述原始邻接矩阵输入至图网络模型,得到空间特征矩阵。
37.原始邻接矩阵可记为a,a为n
×
n矩阵,n为实体关系图中节点的数量,且a∈rn×n,在邻接矩阵a中,若节点i与节点j连通,则对应的a
ij
=1;若节点i与节点j不连通,则对应的a
ij
=0;由此可知,矩阵a中的元素为0或者1。应当理解的,此处将邻接矩阵的元素分别设为0或1仅是一种较佳示例,在其他应用场景下,也可根据实际应用进行调整。
38.在该步骤中,将原始邻接矩阵a以及在步骤s20中获取到的语义特征矩阵输入至训练好的图网络模型中进行学习,进而得到了科技论文的空间特征矩阵。其中,基于bert模型获取到嵌入特征,并将其视作关系图g中节点的特征表示,即x作为节点的初始特征矩阵被输入至训练好的图网络模型中进行学习。而对图网络模型进行训练时,与bert模型类似的,
首先构建训练样本集,该训练样本集包括多个样本数据,基于样本数据对初始图网络模型进行训练,以更新网络模型的网络参数,从而得到训练后的图网络模型。
39.示例性的,图网络模型包括多层卷积层,即作为图网络模型的输入的初始特征矩阵以及原始邻接矩阵,具体的为图网络模型的第一层卷积层的输入。图网络模型中第i层卷积层的输出可表示为:;其中,l(i)为第i层的输出,l
(i-1)
为第i-1层的输出,ρ为激活函数,w(i)为模型参数,为邻接矩阵的拉普拉斯变换,,d为度矩阵。而图网络模型的最终输出可表示为:z
gcn
=g(x,a);a为原始邻接矩阵,x为语义特征矩阵,z
gcn
为空间特征矩阵。
40.步骤s40:将所述语义特征矩阵与所述空间特征矩阵进行特征融合,得到所述科技论文的最终语义特征。
41.在该步骤中,是将基于步骤s20得到的语义特征向量以及基于步骤s30得到的空间特征向量进行向量融合,从而得到科技论文的最终语义特征。在该步骤中,通过联合 bert模块 和 gcn 模块两者的优势,利用大量原始科技论文数据的大规模预训练,在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,丰富了科技论文的语义表示。
42.实际上,直接利用进行下游的分类任务时,无论是收敛的速度还是最终的分类结果都不如直接使用原始bert的特征向量,因而本发明利用残差网络构建了一个加权的输出来综合gcn的特征表示以及语义特征表示;即通过公式z=λz
gcn
+(1-λ) z
bert
将所述语义特征矩阵与所述空间特征矩阵进行特征融合;其中,z
gcn
为空间特征矩阵,z
bert
为语义特征矩阵,λ为超参数,且λ∈(0,1)。λ用于控制gcn输出的特征表示与原始语义特征之间的权重;λ=1意味着使用仅采用gcn模型对科技论文进行表示学习,而意味着只采用bert模块对科技论文进行表示学习;因而本发明中的,当时,能够平衡来自两种模型的预测,使bert-gcn模型可以更好地优化输出结果;bert直接操作于gcn的λ值,确保gcn的λ值被朝着目标调节和优化;这有助于多层gcn模型克服梯度消失或过度平滑等内在缺陷,从而获取更好的性能。通过该实施例可以发现,该科技论文数据文本语义特征提取方法利用残差网络将bert获取的原始语义特征与图卷积网络输出的特征进行加权,充分挖掘了论文文本数据中语义信息以及关联信息。
43.在一实施例中,本发明的科技论文数据文本语义特征提取方法还包括:基于得到的所述最终语义特征计算所述实体关系图中任意两个节点的余弦相似度;基于所述余弦相似度得到重构邻接矩阵;计算所述原始邻接矩阵及重构邻接矩阵的损失值,基于所述损失值优化所述图网络模型的参数。
44.即在预训练过程中,采用链接预测作为预训练任务,使得最终的输出能够学习到图的结构特征。对于节点i、j而言,其编码后的特征为zi,zj,接下来计算两点的余弦相似度s
ij
,最终得到重构后的邻接矩阵s。进而通过交叉熵损失函数,计算原始邻接矩阵a与重构矩阵s之间的损失值,作为优化目标。示例性的,图网络模型的损失函数为:;其中;s为余弦相似度矩阵,a为邻接矩阵,f为f范数。
45.图2为本发明另一实施例的科技论文数据文本语义特征提取方法的流程示意图,如图2所示,在该科技论文数据文本语义特征提取方法中,首先获取原始科技论文数据;进而对科技论文进行关键词抽取;并基于关键词之间的关系进行关键词关系构建;进一步的对科技论文进行原始语义特征提取,以得到语义特征矩阵;进而基于实体关系图对应的邻接矩阵以及得到的语义特征矩阵对科技论文进行空间关联特征提取,以得到空间特征矩阵;最后将空间特征矩阵及语义特征矩阵进行向量融合,即得到科技论文的最终语义表示。该方法在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,丰富论文的语义表示,从而可较好的提取到科技论文的语义特征。
46.相应的,本发明还提供了一种科技论文数据文本语义特征提取系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。图3为本发明另一实施例的科技论文数据文本语义特征提取系统的架构示意图,如图3所示,该系统首先基于bert模型提取科技论文数据的语义特征,进而基于gcn网络模型提取科技论文的空间特征,进一步将语义特征及空间特征进行特征融合,最终得到科技论文的最终语义特征。
47.通过上述实施例可以发现,本发明在对科技论文数据进行特征提取时,结合科技论文之间的关联性,利用关键词的共现关系,构建论文文档与关键词的异质网络,在bert提取的原始语义特征的基础上,采用图卷积网络(gcn),根据论文的关联关系,从论文与关键词的异质网络的三元组中获得论文的向量表示。即在本发明提出的 bert-gcn 模型中,使用 bert模型初始化文本图中文档节点的表示,这些表示用作 gcn 的输入,然后文档表示将使用 gcn 基于图结构迭代更新,其输出被视为文档节点的最终表示,使其能够利用预训练模型和图模型的优势。
48.另外,本发明通过科技论文这类领域专业知识要求极高的语料构建知识图谱进行训练,提高模型在专业领域上的特征表示能力。首先对语料库构建文档与关键词的异构图,其中节点为单词或文档,节点向量使用预训练的 bert模型进行初始化,并使用图卷积网络 (gcn)对特征进行聚合。通过联合训练 bert 和 gcn 模块,所提出的方法能够利用两者的优势,利用大量原始科技论文数据的大规模预训练,在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,丰富了论文的语义表示。
49.另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
50.本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软
盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
51.还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
52.本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
53.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。