本发明涉及自然语言处理技术领域,具体的,涉及一种科技项目评审专家自动匹配方法及存储介质。
背景技术:
科技项目是指以科学研究和技术开发为内容而单独立项的项目。科技项目的开展是我国科技计划实施的一种具体表现方式,项目所产生的科学价值、经济价值、社会价值对科学和社会的进步,经济的发展有着深远意义。
在科研项目申报的过程中,需要选择出若干个相关领域的专家成为评审专家来对项目进行审查评估,来确认项目是否具有研究的价值。但由于科技项目申请数量多、不同领域的科技项目的领域特点差异大,并且专家的科研信息比较复杂,科技项目管理人员很难恰当地选择项目所需要的评审专家,所以完全依靠人工进行筛选评审专家的工作方式存在工作量大、效率不高、缺乏科学性等问题。
因此,如何克服上述不足,快速而高效的为评审项目自动匹配评审专家成为亟需解决的技术问题。
技术实现要素:
本发明的目的在于提出一种科技项目评审专家自动匹配方法,克服人工筛选评审专家工作方式中存在的工作量大、效率不高、缺乏科学性等问题。
为达此目的,本发明采用以下技术方案:
一种科技项目评审专家自动匹配方法,其特征在于,包括如下步骤:
数据结构化处理步骤s110:
对科技项目和评审专家信息数据结构化处理,过滤掉无关信息,在科技项目和评审专家信息数据中引入领域词典,对数据作分词处理。利用通用停用词库和专业停用词库进行停用词过滤,去掉分词后的文本数据中对应的停用词;
主题词提取与处理步骤s120:
对科技项目和评审专家信息数据预处理后,采用文档主题生成模型(latentdirichletallocation,lda)分别对科技项目和评审专家信息数据提取主题词,以主题词来表征文档的内容,然后通过词向量化层获取主题词对应词向量,之后连接长短期记忆网络(longshort-termmemory,lstm)层提取主题词向量高级特征;
计算相似度推荐专家s130:
采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,相关程度越大,说明两者匹配度越高。对相似度值降序排列,选取相似度值较高所对应的专家作为最终推荐专家。
可选的,在数据结构化处理步骤s110中,过滤掉无关信息,主要包括:删除标点符号、删除空格。
可选的,在主题词提取与处理步骤s120中,所述lda主题模型,利用数据回归计算出文档的主题分布和主题的词概率分布。
可选的,长短期记忆网络结构(lstm网络)是一种改进的循环神经网络,
具体的,lstm网络由3个门结构和1个状态单元组成,所述门结构包括输入门、遗忘门、输出门,所述输入门接收两个输入,即上一时刻lstm的输出结果ht-1和当前时刻的输入xt,t时刻的输入门的输出it计算公式为:
it=σ(wi·[ht-1,xt]+bi)
其中,σ为sigmoid函数,wi表示输入门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bi为输入门的偏置向量;
遗忘门输出ft同样接收上述两个输入,并决定是否从状态单元中丢弃信息,输出计算式为:
ft=σ(wf·[ht-1,xt]+bf)
其中,σ是sigmoid函数,wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项;
当前时刻的即时状态单元值
其中,wc是
则当前时刻的状态单元ct接收输入门和遗忘门的值,可以表示为:
其中,ct-1为上一时刻的单元状态,初始化为1;
输出门ot用于控制lstm状态单元的输出,表达式为:
ot=σ(wo[ht-1,xt]+bo)
其中,σ是sigmoid函数,wo是输出门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bo是输出门的偏置项;
最终当前单元的输出表示为:
ht=ot*tanh(ct)。
可选的,在计算相似度推荐专家s130中,
计算科技项目和评审专家向量间相似度即表示待评审科技项目与评审专家的匹配程度,余弦相似度计算公式为:
其中,d={d1,d2,…,dm}表示由lstm层生成的科技项目的m个主题词向量,e={e1,e2,…,en}表示lstm层生成的评审专家的n个主题词向量。
可选的,采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,对相似度值降序排列,选取相似度值较高所对应的专家作为最终的推荐专家。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的科技项目评审专家自动匹配方法。
本发明提供的科技项目评审专家自动匹配方法,与现有技术相比,具有如下优势:
1)由于本发明将lda主题模型与lstm神经网络相融合,lda概率主题模型通过过滤内容杂质来获取文档主题词信息,有效的利用文档信息。然后使用lstm神经网络进一步提取主题词特征,lstm神经网络的设计能够在很深的层次上很好地获取主题词高级特征并且消除梯度消失问题,进而提高评审专家自动匹配的速度。
2)由于本发明采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,可以更准确的匹配评审专家。
附图说明
图1是根据本发明具体实施例的科技项目评审专家自动匹配方法的流程图;
图2是根据本发明另一个实施例的科技项目评审专家自动匹配方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明结合文档主题生成模型(latentdirichletallocation,lda)与长短期记忆网络模型(longshort-termmemory,lstm)。首先通过lda主题模型分别提取科技项目与评审专家文档的主题词,然后使用lstm网络来进一步提取主题词特征信息,从而使特征更具判断力,提高评审专家自动匹配的准确度。最后采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,对相似度值降序排列,选取相似度值较高所对应的专家作为最终的推荐专家。
具体的,参见图1,示出了本发明科技项目评审专家自动匹配方法的流程图,包括如下步骤:
数据结构化处理步骤s110:
对科技项目和评审专家信息数据结构化处理,过滤掉无关信息,主要包括:删除标点符号、删除空格等;在科技项目和评审专家信息数据中引入领域词典,对数据作分词处理;利用通用停用词库和专业停用词库进行停用词过滤,去掉分词后的文本数据中对应的停用词。
主题词提取与处理步骤s120:
对科技项目和评审专家信息数据预处理后,采用lda(latentdirichletallocation文档主题生成模型)主题模型分别对科技项目和评审专家信息数据提取主题词,以主题词来表征文档的内容,然后通过词向量化层获取主题词对应词向量,之后连接长短期记忆网络(longshort-termmemory,lstm)层提取主题词向量高级特征。
具体的,lda主题模型,利用数据回归计算出文档的主题分布和主题的词概率分布。
长短期记忆网络结构(lstm网络)是一种改进的循环神经网络,可以较好地解决循环神经的长期依赖问题。
具体的,lstm网络由3个门结构和1个状态单元组成,所述门结构包括输入门、遗忘门、输出门,所述输入门接收两个输入,即上一时刻lstm的输出结果ht-1和当前时刻的输入xt,t时刻的输入门的输出it计算公式为:
it=σ(wi·[ht-1,xt]+bi)
其中,σ为sigmoid函数,wi表示输入门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bi为输入门的偏置向量。
遗忘门输出ft同样接收上述两个输入,并决定是否从状态单元中丢弃信息,输出计算式为:
ft=σ(wf·[ht-1,xt]+bf)
其中,σ是sigmoid函数,wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项。
当前时刻的即时状态单元值
其中,wc是
则当前时刻的状态单元ct接收输入门和遗忘门的值,可以表示为:
其中,ct-1为上一时刻的单元状态,初始化为1。
输出门ot用于控制lstm状态单元的输出,表达式为:
ot=σ(wo[ht-1,xt]+bo)
其中,σ是sigmoid函数,wo是输出门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bo是输出门的偏置项。
最终当前单元的输出表示为:
ht=ot*tanh(ct)
通过lstm神经网络,能更有效地利用文本序列的信息,可以更好地提取主题词向量高级特征。
计算相似度推荐专家s130:采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,相关程度越大,说明两者匹配度越高,对相似度值降序排列,选取相似度值较高所对应的专家作为最终推荐专家。
具体的,计算科技项目和评审专家向量间相似度即表示待评审科技项目与评审专家的匹配程度。余弦相似度计算公式为:
其中,d={d1,d2,…,dm}表示由lstm层生成的科技项目的m个主题词向量,e={e1,e2,…,en}表示lstm层生成的评审专家的n个主题词向量。
综上所述,参见图2,示出了本发明科技项目评审专家自动匹配方法的具体流程示意图。本发明实施例通过提供了一种科技项目评审专家自动匹配方法,包括:对科技项目和评审专家信息数据结构化处理,过滤掉无关信息。采用lda主题模型分别提取科技项目与评审专家文档的主题词,然后使用lstm网络来进一步提取主题词特征信息,从而使特征更具判断力,提高评审专家自动匹配的准确度。最后采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,对相似度值降序排列,选取相似度值较高所对应的专家作为最终推荐专家。
进一步的,本发明还公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的科技项目评审专家自动匹配方法。
本发明提供的科技项目评审专家自动匹配方法,与现有技术相比,具有如下优势:
1)由于本发明将lda主题模型与lstm神经网络相融合,利用lda概率主题模型过滤内容杂质来获取文档主题词信息,有效利用文档的信息。然后使用lstm神经网络进一步提取主题词特征,lstm神经网络的设计能够在很深的层次上很好地获取主题词高级特征并且消除梯度消失问题,进而提高评审专家自动匹配的速度。
2)由于本发明采用余弦相似度公式计算科技项目的主题特征向量与每位专家主题特征向量的相关程度,可以更准确的匹配评审专家。
显然,本领域技术人员应该明白,上述的本发明的各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。