一种基于大数据的科技项目立项评估的方法
【专利摘要】本发明提出了一种基于大数据的科技项目立项评估的方法,包括如下步骤:获取项目立项申请数据;对项目相关技术最新发展方向和热点处理后与立项申请数据比较得到第一结果;对国家政策扶持方向和地方政府产业发展方向信息处理后与立项申请数据比较得到第二结果;对主管部门实地产业考察反馈建议及综合实力信息处理后输出第三结果;对主管部门历年相似科技项目立项、历年已立项项目建设情况及成效处理后与立项申请数据比较得到第四结果;依据第一结果、第二结果、第三结果、第四结果及其权重得到立项申请评估及建议报告。实施本发明的基于大数据的科技项目立项评估的方法,具有以下有益效果:科技项目评估的质量和水平较高、评估结果更客观、更全面。
【专利说明】—种基于大数据的科技项目立项评估的方法
【技术领域】
[0001]本发明涉及项目评估领域,特别涉及一种基于大数据的科技项目立项评估的方法。
【背景技术】
[0002]科技项目信息具有数据类型非结构化、数据量庞大等大数据特征,数据来源往往是通过多年积累的跨区域数据,采用普通机器和算法的处理时间较长。现行的科技项目评估采用专家评分模式,评估的主要内容包括:评估项目立项的必要性和可行性;以项目的国内外发展现状、技术情况及研究水平作为指标进行评价;对项目研究开发内容、技术工艺路线、实施方案进行评价;评估项目承担单位的能力,对承担单位的科研能力、科技人才的专业水平、科研设备器材和科技项目的管理能力进行评估;评估项目经费的落实情况,对资金来源,自筹资金、政府配套资金及金额数量进行评价。由于科技项目信息具有大数据复杂性特点,以及专家的认识不同、知识领域有偏差、带有一定的主观意识,而且申报程序也具有复杂性,申报条件具有模糊性,所以项目立项评估只靠专家评分得出的结论往往科学依据不足,很难形成项目优选的共识。这样在专家评审中会存在一些随意性、盲目性和片面性,导致科技项目评估的质量和水平不高,科技项目专家评审机制不完善。专家项目评分的全面性和可信度有待进一步加强。
【发明内容】
[0003]本发明要解决的技术问题在于,针对现有技术的上述科技项目评估的质量和水平不高的缺陷,提供一种科技项目评估的质量和水平较高的基于大数据的科技项目立项评估的方法。
[0004]本发明解决其技术问题所采用的技术方案是:构造一种基于大数据的科技项目立项评估的方法,包括如下步骤:
A)获取科技项目立项申请数据;
B)获取科技项目相关技术的最新发展方向和热点信息,并对其进行处理得到当前研究热点数据,将所述当前研究热点数据与科技项目立项申请数据的相应部分进行比较得到第
一结果;
C)获取国家政策扶持方向和地方政府产业发展方向信息,对其处理后得到扶持方向数据,将所述扶持方向数据与科技项目立项申请数据的相应部分进行比较得到第二结果;
D)获取主管部门实地产业考察反馈建议信息和项目申请单位的综合实力信息,并进行处理后输出以数据形式体现的第三结果;
E)获取主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效,并对其处理后得到一个向量空间集,将所述向量空间集与所述科技项目立项申请数据的相应部分进行比较得到第四结果;
F)确定所述第一结果、第二结果、第三结果和第四结果的权重,并依据所述第一结果、第二结果、第三结果、第四结果及各自的权重得到科技项目立项申请的评估及立项建议报
生口 O
[0005]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤A)进一步包括:
Al)获取关于科技项目立项申请的第一文本;
A2)对所述第一文本进行处理得到用于表示立项申请项目的第一向量空间;所述科技项目立项申请数据为所述第一向量空间。
[0006]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤B)进一步包括:
BI)获取科技项目相关技术的最新发展方向和热点信息并形成一系列文本记录;
B2)对每项文本记录依次进行中文分词、滤除停用词后提取文本特征;
B3)对所述文本特征进行聚类,并提取表示当前研究热点的第一向量;
B4)将所述第一向量与所述第一向量空间进行比较,得到用于表示科技项目立项申请与当前技术热点相关度的第一结果。 在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤C)进一步包括: Cl)获取关于国家政策扶持方向和地方政府产业发展方向的第二文本;
C2)对所述第二文本依次进行中文分词、滤除停用词后得到第三文本;
C3)通过对所述第三文本计算词频来获取当前扶持方向关键词;
C4)对各关键词的权重进行平均分配并构建第二向量空间;
C5)将所述第二向量空间与所述第一向量空间进行比较,得到表示所述科技项目立项申请与扶持方向吻合度的第二结果。
[0007]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤D)进一步包括:
Dl)获取关于科技资源调查系统中项目申请单位的综合实力信息、申请单位历年项目建设情况和主管部门实地产业考察反馈建议信息的一系列文本记录,并形成第四文本;所述综合实力信息包括人力、财力、物力和基地信息;
D2)从所述第四文本中提取绩效信息;
D3)依据所述绩效信息对所述申请单位进行信誉评分;
D4)对所述信誉评分进行归一化处理得到数据型的第三结果。
[0008]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤E)进一步包括:
El)获取关于主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效的文档数据源C = {C1,C2……CL...};
E2)从文档数据源C= {C1,C2……Ci...}中读取一个文本Ci;
E3)初始化所述文本Ci的词频词序原型向量Vi ;
E4)对所述文本Ci进行中文分词,并将所述文本Ci分词后得到的分词滤除停用词,得到第一分词向量空间Ti=(Til,Ti2,……,Tin);
E5)计算所述分词向量空间Ti=(Til,Ti2,……,Tin)中向量元素Tij的词频,得到对应所述文本Ci中的词频权重Fij,得到第一词频加权向量空间Fi= (Fil,Fi2,……,Fin);E6)对所述词频加权向量空间Fi进行降维,得到第二词频加权向量空间Fi’ = (Fil,Fi2,……,Fik)和第二分词向量空间Ti,=(Til,Ti2,……,Tik);
E7)计算第二分词向量空间Ti’中的向量元素的词序,得到词序权重Sij (j=l,2,…,k),并得到词序加权向量空间Si= (Sil,Si2,……,Sik);
E8)构建文本的词频词序向量Vi= ( Ti’,Fi’,Si);
E9)判断所述文档数据源C中的文本是否已读完,如是,执行步骤ElO);否则,返回步骤E2)读取下一个文本;
E10)生成对应于所述文档数据源C = {C1,C2……CL...}中文本的词频词序向量空间
V= {VI, V2......Vi};
Ell)将所述词频词序向量空间V = {VI,V2……Vi}与所述第一向量空间进行比较,得到表示所述科技项目立项申请与历年项目之间相似度的第四结果。
[0009]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤F)进一步包括:
Fl)判断第四结果是否大于设定的阈值,如是,评分为O ;否则,执行步骤F2);
F2)确定所述第一结果、第二结果、第三结果和第四结果的权重;
F3)依据所述第一结果、第二结果、第三结果、第四结果及其各自的权重得到评分值;同时输出立项建议报告。
[0010]在本发明所述的基于大数据的科技项目立项评估的方法中,所述立项建议报告包括与科技项目立项申请的相似度在设定范围内的历年立项、申报单位相似项目、单位绩效情况、当前扶持方向和关键技术热点信息。
[0011]在本发明所述的基于大数据的科技项目立项评估的方法中,所述步骤A2)中的第一向量空间是按照所述E2)至Ell)的方法得到的。
[0012]实施本发明的基于大数据的科技项目立项评估的方法,具有以下有益效果:由于通过对科技项目相关技术的最新发展方向和热点信息处理后与科技项目立项申请数据的相应部分比较得到第一结果;通过对国家政策扶持方向和地方政府产业发展方向信息处理后与科技项目立项申请数据的相应部分比较得到第二结果;通过对主管部门实地产业考察反馈建议信息和项目申请单位的综合实力信息处理后输出第三结果;通过对主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效处理后与所述科技项目立项申请数据的相应部分比较得到第四结果;由第一结果、第二结果、第三结果、第四结果及各自的权重得到科技项目立项申请的评估及立项建议报告,所以对项目立项做出了相对比较科学规范细致的评估,专家评审可以参考借鉴模型评估以进一步全面、仔细、负责地了解被评审项目的具体情况,避免了从前专家评审中的一些随意性、盲从性和片面性的弊端,从而使科技项目评估的质量和水平较高。
【专利附图】
【附图说明】
[0013]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0014]图1为本发明基于大数据的科技项目立项评估的方法一个实施例中的流程图;
图2为所述实施例中获取科技项目立项申请数据的具体流程图;
图3为所述实施例中对科技项目相关技术的最新发展方向和热点信息进行处理的具体流程图;
图4是所述实施例中对国家政策扶持方向和地方政府产业发展方向信息进行处理的具体流程图;
图5是所述实施例中对主管部门实地产业考察反馈建议信息和项目单位的综合实力信息进行处理的具体流程图;
图6是所述实施例中对主管部门历年相似科技项目情况进行处理的具体流程图;
图7是所述实施例中科技项目立项申请的评估及立项建议报告获取的具体流程图。
【具体实施方式】
[0015]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0016]在本发明基于大数据的科技项目立项评估的方法实施例中,其方法的流程图如图1所示。图1中,该方法包括如下步骤:
步骤SOl获取科技项目立项申请数据:本步骤中,获取科技项目立项申请数据,也即获取关于新立项项目的数据。关于如何具体获取科技项目立项申请数据,稍后会进行详细描述。
[0017]步骤S02获取科技项目相关技术的最新发展方向和热点信息,并对其进行处理得到当前研究热点数据,将当前研究热点数据与科技项目立项申请数据的相应部分进行比较得到第一结果:本步骤中,针对各大型专业技术网站、期刊和科技资源调查管理系统中的相关大数据进行统计分析,采用复方中文分词算法及Kmeans聚类算法对相关大数据进行处理,输出当前科研技术的前沿研究热点数据,将当前研究热点数据与科技项目立项申请数据的相应部分进行比较得到第一结果。这样就实现了对科技项目相关技术的最新发展方向和热点息的客观评估。
[0018]步骤S03获取国家政策扶持方向和地方政府产业发展方向信息,对其处理后得到扶持方向数据,将扶持方向数据与科技项目立项申请数据的相应部分进行比较得到第二结果:本步骤中,获取国家政策扶持方向和地方政府产业发展方向信息,其主要信息为国家政策扶持、地方政府的产业发展发向和扶持方向公文,属于文本信息数据挖掘,对其处理后得到扶持方向数据,将扶持方向数据与科技项目立项申请数据的相应部分进行比较得到第二结果,第二结果为扶持方向关键词。这样就实现了对项目的国家政策扶持方向、地方政府产业发展扶持方向的客观评估。
[0019]步骤S04获取主管部门实地产业考察反馈建议信息和项目申请单位的综合实力信息,并进行处理后输出以数据形式体现的第三结果:本步骤中,获取主管部门实地产业考察反馈建议信息和项目申请单位的综合实力信息,其主要信息为主管部门实地考察地方产业发展、考察各级工程中心和企业重点实验室的反馈建议信息,对其处理后输出以数据形式体现的第三结果,第三结果为扶持方向关键字和扶持力度因子。这样就实现了对主管部门实地产业考察反馈意见的客观评价。
[0020]步骤S05获取主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效,并对其处理后得到一个向量空间集,将向量空间集与科技项目立项申请数据的相应部分进行比较得到第四结果:本步骤中,获取科技综合业务管理系统中的主管部门历年已立项项目情况、项目申请单位的历年项目立项建设情况以及成效信息,采用“基于TF/IDF及马尔可夫模型的高性能计算文本特征提取算法”(The high performance computingtext feature
extraction algorithm based on the TF/IDF and markov model)(简称:HpTF/IDF-MM)对这些信息进行处理得到一个向量空间集,将向量空间集与科技项目立项申请数据的相应部分进行比较得到第四结果。这样就实现了对主管部门历年相似项目立项情况、历年已立项项目建设情况和成效信息的客观评估。
[0021]步骤S06确定第一结果、第二结果、第三结果和第四结果的权重,并依据第一结果、第二结果、第三结果、第四结果及各自的权重得到科技项目立项申请的评估及立项建议报告:本步骤中,确定第一结果、第二结果、第三结果和第四结果的权重,本实施例中,权重的设置由专家凭经验进行设置,然后依据第一结果、第二结果、第三结果、第四结果及各自的权重得到科技项目立项申请的评估及立项建议报告。为了方便描述,本实施例中,将第一结果、第二结果、第三结果和第四结果分别标记为Ml、M2、M3和M4,再依据历年项目立项的专家评估来确定Ml、M2、M3和M4的权重,最终获取立项申请的评估以及立项建议报告。
[0022]立项建议报告以文本的模式给专家提供相关的立项建议参考,立项建议报告的内容包括:与科技项目立项申请的相似度在设定范围内的历年立项(本实施例中为相似度前5的历年立项)、申报单位相似项目、单位绩效情况、当前扶持方向和关键技术热点信息。其中,相似度前5的历年立项作为参考信息;输出申报单位相似项目用于避免重复立项。
[0023]本实施例中,通过步骤S01-S06得到的项目评分,评分越高,立项可行性越好;通过步骤S02、S03 了解当前扶持方向和热点关键技术;通过步骤S04提供单位的信誉评价、综合实力与绩效情况;通过步骤S05提取了相似度前5名的项目名称,分布地区。相比现有技术中的科技项目专家评分模式,本发明对科技项目立项进行评估具有量化的评价体系和相对统一的评价标准,通过对科技项目的最新技术发展方向、技术热点;国家政策扶持方向;地方政府产业发展扶持方向;主管部门历年相似项目立项情况;历年已立项项目建设情况和成效以及主管部门实地产业考察反馈意见六个方面的评分,对项目立项做出相对比较科学规范细致的评估。专家评审可以参考借鉴评估方法以进一步做到全面、仔细、负责地了解被评审项目的具体情况,避免了目前专家评审中的一些随意性、盲从性和片面性,从而能够起到完善科技项目专家评审机制的作用。
[0024]值得一提的是,在图1中,为了便于叙述起见,步骤S02-S05具有一定的顺序。实际上,也可以将上述步骤分为几个组,每个组内部的步骤具有一定的顺序,而在组与组之间,可以是如上所述的顺序关系,也可以是并行的,还可以是与上述顺序不同的顺序。例如,一种分组的方法是:步骤S02和S03是一组,步骤S04和S05是一组,这些组之间的可以是并列的或并行执行的,也可以是按照一定规律顺序执行的(可以不是上述的顺序)。
[0025]对于本实施例而言,上述步骤SOl还可进一步细化,其细化后的具体流程图如图2所示。图2中,步骤SOl进一步包括:
步骤Sll获取关于科技项目立项申请的第一文本:本步骤中,获取关于科技项目立项申请的第一文本,也即获取关于新项目的立项申请的第一文本。
[0026]步骤S12对第一文本进行处理得到用于表示立项申请项目的第一向量空间:本步骤中,本步骤中,对第一文本进行处理得到用于表示立项申请项目的第一向量空间,具体就是对新项目的立项申请采用HpTF/IDF-MM算法得到代表新项目的第一向量空间,本实施例中,将第一向量空间记为L ;上述科技项目立项申请数据为第一向量空间。稍后会对HpTF/IDF-MM算法进行介绍。
[0027]对于本实施例而言,上述步骤S02还可进一步细化,其细化后的具体流程图如图3所示。图3中,步骤S02进一步包括:
步骤S21获取科技项目相关技术的最新发展方向和热点信息并形成一系列文本记录:本步骤中,科技项目相关技术的最新发展方向和热点信息是从数据源中提取的。数据源为国家及省市的科技计划项目数据,然后从数据源中提取关于科技项目的最新技术发展方向、技术热点的数据集就得到了科技项目相关技术的最新发展方向和热点信息,并形成一系列文本记录。
[0028]步骤S22对每项文本记录依次进行中文分词、滤除停用词后提取文本特征:本步骤中,对每项文本记录进行中文分词、滤除停用词,然后提取文本特征。
[0029]步骤S23对文本特征进行聚类,并提取表示当前研究热点的第一向量:本步骤中,采用Kmeans聚类算法对对文本特征进行聚类,并提取表示当前研究热点的第一向量。
[0030]步骤S24将第一向量与第一向量空间进行比较,得到用于表示科技项目立项申请与当前技术热点相关度的第一结果:本步骤中,将第一向量与第一向量空间L进行比较,得到用于表示科技项目立项申请与当前技术热点相关度的第一结果Ml ;第一结果Ml的取值范围是:0 < Ml < I。
[0031]对于本实施例而言,上述步骤S03还可进一步细化,其细化后的具体流程图如图4所示。图4中,步骤S03进一步包括:
步骤S31获取关于国家政策扶持方向和地方政府产业发展方向的第二文本:本步骤中,国家政策扶持方向和地方政府产业发展方向的第二文本是从数据源中提取的。数据源为国家及省市的科技计划项目数据,然后从数据源中提取关于国家政策扶持方向和地方政府产业发展方向的数据集就得到了国家政策扶持方向和地方政府产业发展方向的第二文本。
[0032]步骤S32对第二文本依次进行中文分词、滤除停用词后得到第三文本:本步骤中,对第一文本依次进行中文分词、滤除停用词等预处理后得到第三文本。
[0033]步骤S33通过对第三文本计算词频来获取当前扶持方向关键词:本步骤中, 通过对第三文本计算词频来获取当前扶持方向关键词。
[0034]步骤S34对各关键词的权重进行平均分配并构建第二向量空间:本步骤中,对各关键词的权重进行平均分配,并直接构建向量空间模型,本实施例中,将该向量空间模型称为第二向量空间。
[0035]步骤S35将第二向量空间与第一向量空间进行比较,得到表示科技项目立项申请与扶持方向吻合度的第二结果:本步骤中,将第二向量空间与第一向量空间L进行比较,得到表示科技项目立项申请与扶持方向吻合度的第二结果M2,第二结果M2的取值范围是:0
<M2 < I。
[0036]对于本实施例而言,上述步骤S04还可进一步细化,其细化后的具体流程图如图5所示。图5中,步骤S04进一步包括:
步骤S41获取关于科技资源调查系统中项目申请单位的综合实力信息、申请单位历年项目建设情况和主管部门实地产业考察反馈建议信息的一系列文本记录,并形成第四文本:本步骤中,从上述数据源中提取关于科技资源调查系统中项目申请单位的综合实力信息、申请单位历年项目建设情况和主管部门实地产业考察反馈建议信息的一系列文本记录,并形成第四文本,值得一提的是,本实施例中,综合实力信息包括人力、财力、物力和基地信息。
[0037]步骤S42从第四文本中提取绩效信息:本步骤中,从第四文本中提取绩效信息。
[0038]步骤S43依据绩效信息对申请单位进行信誉评分:本步骤中,通过识别第四文本中的绩效信息,可判别出褒贬情况,然后对申请单位进行信誉评分。
[0039]步骤S44对信誉评分进行归一化处理得到数据型的第三结果:本步骤中,对信誉评分进行归一化处理,输出为数据型的第三结果M3。第三结果M3的取值范围是:0 < M3
<I。
[0040]对于本实施例而言,上述步骤S05中,主要输入历年项目立项的情况,其包括项目的题名、单位、申请文件、可行性报告等,对数据源进行整理,将每个项目视为每条文本记录。对文本记录进行中文分词、滤除停用词、构建文本特征、建立向量空间,采用基于TF/IDF及马尔可夫模型的高性能计算文本特征提取算法(HpTF/IDF-MM)构建基于词频词序的向量空间集,其输出结果为一系统的向`量空间集。与第一向量空间L对比,取最高相似度的值,记为第四结果M4。步骤S05的具体流程图如图6所示。图6中,步骤S05进一步包括:
步骤S501获取关于主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效的文档数据源C = {C1,C2……CL...}:本步骤中,获取关于主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效的文档数据源C = {C1,C2……CL...}。
[0041]步骤S502从文档数据源C = {C1,C2……CL...}中读取一个文本C1:本步骤中,从文档数据源C= {C1,C2……CL...}中读取一个文本Ci。
[0042]步骤S503初始化文本Ci的词频词序原型向量V1:本步骤中,初始化文本Ci的词频词序原型向量Vi。
[0043]步骤S504对文本Ci进行中文分词,并将文本Ci分词后得到的分词滤除停用词,得到第一分词向量空间Ti= (Til,Τ?2,……,Tin):本步骤中,对文本Ci进行中文分词,并将文本Ci分词后得到的分词滤除停用词,得到第一分词向量空间Ti=(Til,Τ?2,……,Tin)。
[0044]步骤S505计算分词向量空间Ti=(Til,Ti2,……,Tin)中向量元素Ti j的词频,得到对应文本Ci中的词频权重Fi j,得到第一词频加权向量空间Fi= (Fil, Fi2,……,Fin):本步骤中,计算分词向量空间Ti=(Til,Ti2,……,Tin)中向量元素Tij的词频,得到对应文本Ci中的词频权重Fij,得到第一词频加权向量空间Fi= (Fil,Fi2,……,Fin)。
[0045]步骤S506对词频加权向量空间Fi进行降维,得到第二词频加权向量空间Fi’ =(Fil,Fi2,……,Fik)和第二分词向量空间Ti,= (Til,Ti2,……,Tik):本步骤中,对词频加权向量空间Fi进行降维,得到第二词频加权向量空间Fi,= (Fil, Fi2,……,Fik)和第二分词向量空间Ti,=(Til,Ti2,……,Tik) O
[0046]步骤S507计算第二分词向量空间Ti’中的向量元素的词序,得到词序权重
Sij (j=l, 2,…,k),并得到词序加权向量空间Si= (Sil, Si2,......,Sik):本步骤中,计算第
二分词向量空间Ti’中的向量元素的词序,得到词序权重Sij (j=l,2,…,k),并得到词序加权向量空间 Si= (Sil,Si2,......,Sik)。
[0047]步骤S508构建文本的词频词序向量Vi=( Ti’,Fi’,Si):本步骤中,构建文本的词频词序向量Vi= ( Ti,,Fi,,Si)。
[0048]步骤S509判断文档数据源C中的文本是否已读完:本步骤中,判断文档数据源C中的文本是否已读完,如是,执行步骤S510 ;否则,返回步骤S502读取下一个文本。
[0049]步骤S510生成对应于文档数据源C = {C1,C2……CL...}中文本的词频词序向量空间V = {VI,V2……Vi}:如果上述步骤S509的判断结果为是,则执行本步骤。本步骤中,生成对应于文档数据源C = {C1,C2……Ci...}中文本的词频词序向量空间V = {VI,V2……Vi}。
[0050]步骤S511将词频词序向量空间V = {VI,V2……Vi}与第一向量空间进行比较,得到表示科技项目立项申请与历年项目之间相似度的第四结果:本步骤中,将词频词序向量空间V = {VI,V2……Vi}与第一向量空间L进行比较,得到表示科技项目立项申请与历年项目之间相似度的第四结果Ml。第四结果M4的取值范围是:0<M4< 1。
[0051]值得一提的是,上述步骤S12中的第一向量空间L是按照上述步骤S512至步骤S511的方法得到的。
[0052]HpTF/IDF-MM算法适用于高性能集群应用,采用Mapreduce编程,能够在项目材料大数据处理中达到快速高效的效果。输入信息为文本文档数据集,输出信息为特征加权后的文档空间向量集。算法能够提取良好的特征信息,构建具有代表性的向量空间,其特别之处在于它既能够很好地通过词频来提取文本的重要特征,又能够通过词序来反映立项材料中各项信息的特征。HpTF/IDF-MM算法对文本进行特征提取,在文本特征提取阶段能够很好地平衡负载,提高运算速度,缩短运算时间;该算法融合了词频和词序的特点,既能反映项目的关注热点,同时也能通过词序反映科技项目申报材料之间的关联信息,非常适用于科技项目材料非结构化但又相对规范化的数据特征;该算法在实现步骤上,首先利用词频计算量较小的特点,对HpTF/IDF运算后的结果进行文本降维,然后再进行词序特征的运算,有效减少了算法的时间复杂度。
[0053]对于本实施例而言,上述步骤S06还可进一步细化,其细化后的具体流程图如图7所示。图7中,步骤S06进一步包括:
步骤S61判断第四结果是否大于设定的阈值:本步骤中,判断第四结果M4是否大于设定的阈值,如是,执行步骤S62 ;否则,执行步骤S63。
[0054]步骤S62评分为O:如果上述步骤S61的判断结果为是,则执行本步骤。本实施例中,将评分(项目评分)标记为F,本步骤中,当M4大于设定的阈值时(该设定的阈值由训练集中专家经验得出为0.9,也可以自由设置),项目评分F=O。
[0055]步骤S63确定第一结果、第二结果、第三结果和第四结果的权重:如果上述步骤S61的判断结果为否,则执行本步骤。本步骤中,将第一结果、第二结果、第三结果和第四结果的权重分别标记为W1、W2、W3和W4,权重设置亦由专家经验进行设置。通常情况下,根据各类型数据代表的意义,各权重应满足如下条件:W1=W2〈W3〈W4,同时,ffl+W2<0.5。
[0056]步骤S64依据第一结果、第二结果、第三结果、第四结果及其各自的权重得到评分值;同时输出立项建议报告:本步骤中,依据第一结果Ml、第二结果M2、第三结果M3、第四结果M4及其各自的权重得到评分值。项目评分F=W1*M1+W2*M2+W3*M3+W4* (1-M4)。本步骤中,同时还输出立项建议报告其内容包括:相似度前5的历年立项作为参考信息;输出申报单位相似项目,以避免重复立项;输出单位绩效情况;输出当前扶持方向和热点关键技术。
[0057]总之,在本实施例中,该方法对科技项目的最新技术发展方向、技术热点;国家政策扶持方向;地方政府产业发展扶持方向;主管部门历年相似项目立项情况;历年已立项项目建设情况和成效和主管部门实地产业考察反馈意见六个方面进行评估,以“基于TF/IDF及马尔可夫模型的高性能计算文本特征提取算法”大数据处理技术从海量科技项目信息中挖掘评分因子,客观地对科技项目进行评分,辅以专家评分模式,使科技项目评估尽可能的做到科学、合理、符合实际情况,并能够为相关主管部门服务,减少立项决策的盲目性和随意性,有重点、有效率地分配科技资源,改善、提高科技决策的质量和水平。相比科技项目专家评分模式,本发明对科技项目立项进行评估具有量化的评价体系和相对统一的评价标准,对项目立项做出相对比较科学规范细致的评估。
[0058]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于大数据的科技项目立项评估的方法,其特征在于,包括如下步骤: A)获取科技项目立项申请数据; B)获取科技项目相关技术的最新发展方向和热点信息,并对其进行处理得到当前研究热点数据,将所述当前研究热点数据与科技项目立项申请数据的相应部分进行比较得到第一结果; C)获取国家政策扶持方向和地方政府产业发展方向信息,对其处理后得到扶持方向数据,将所述扶持方向数据与科技项目立项申请数据的相应部分进行比较得到第二结果; D)获取主管部门实地产业考察反馈建议信息和项目申请单位的综合实力信息,并进行处理后输出以数据形式体现的第三结果; E)获取主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效,并对其处理后得到一个向量空间集,将所述向量空间集与所述科技项目立项申请数据的相应部分进行比较得到第四结果; F)确定所述第一结果、第二结果、第三结果和第四结果的权重,并依据所述第一结果、第二结果、第三结果、第四结果及各自的权重得到科技项目立项申请的评估及立项建议报生口 ο
2.根据权利要求1所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤A)进一步包括: Al)获取关于科技项目立项申请的第一文本; A2)对所述第一文本进行处理得到用于表示立项申请项目的第一向量空间;所述科技项目立项申请数据为所述第一向量空间。
3.根据权利要求2所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤B)进一步包括: BI)获取科技项目相关技术的最新发展方向和热点信息并形成一系列文本记录; B2)对每项文本记录依次进行中文分词、滤除停用词后提取文本特征; B3)对所述文本特征进行聚类,并提取表示当前研究热点的第一向量; B4)将所述第一向量与所述第一向量空间进行比较,得到用于表示科技项目立项申请与当前技术热点相关度的第一结果。
4.根据权利要求3所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤C)进一步包括: Cl)获取关于国家政策扶持方向和地方政府产业发展方向的第二文本; C2)对所述第二文本依次进行中文分词、滤除停用词后得到第三文本; C3)通过对所述第三文本计算词频来获取当前扶持方向关键词; C4)对各关键词的权重进行平均分配并构建第二向量空间; C5)将所述第二向量空间与所述第一向量空间进行比较,得到表示所述科技项目立项申请与扶持方向吻合度的第二结果。
5.根据权利要求4所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤D)进一步包括: Dl)获取关于科技资源调查系统中项目申请单位的综合实力信息、申请单位历年项目建设情况和主管部门实地产业考察反馈建议信息的一系列文本记录,并形成第四文本;所述综合实力信息包括人力、财力、物力和基地信息; D2)从所述第四文本中提取绩效信息; D3)依据所述绩效信息对所述申请单位进行信誉评分; D4)对所述信誉评分进行归一化处理得到数据型的第三结果。
6.根据权利要求1或2所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤E)进一步包括: El)获取关于主管部门历年相似科技项目立项情况、历年已立项项目建设情况及成效的文档数据源C = {C1,C2……CL...}; E2)从文档数据源C= {C1,C2……Ci...}中读取一个文本Ci; E3)初始化所述文本Ci的词频词序原型向量Vi ; E4)对所述文本Ci进行中文分词,并将所述文本Ci分词后得到的分词滤除停用词,得到第一分词向量空间Ti=(Til,Ti2,……,Tin); E5)计算所述分词向量空间Ti=(Til,Ti2,……,Tin)中向量元素Tij的词频,得到对应所述文本Ci中的词频权重Fij,得到第一词频加权向量空间Fi= (Fil,Fi2,……,Fin); E6)对所述词频加权向量空间Fi进行降维,得到第二词频加权向量空间Fi’ = (Fil,Fi2,……,Fik)和第二分词向量空间Ti,=(Til,Ti2,……,Tik); E7)计算第二分词向量空间Ti’中的向量元素的词序,得到词序权重Sij (j=l,2,…,k),并得到词序加权向量空间Si= (Sil,Si2,……,Sik); E8)构建文本的词频词序向量Vi= ( Ti’,Fi’,Si); E9)判断所述文档数据源C中的文本是否已读完,如是,执行步骤ElO);否则,返回步骤E2)读取下一个文本; E10)生成对应于所述文档数据源C = {C1,C2……CL...}中文本的词频词序向量空间V= {VI, V2......Vi}; Ell)将所述词频词序向量空间V = {VI,V2……Vi}与所述第一向量空间进行比较,得到表示所述科技项目立项申请与历年项目之间相似度的第四结果。
7.根据权利要求6所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤F)进一步包括: Fl)判断第四结果是否大于设定的阈值,如是,评分为O ;否则,执行步骤F2); F2)确定所述第一结果、第二结果、第三结果和第四结果的权重; F3)依据所述第一结果、第二结果、第三结果、第四结果及其各自的权重得到评分值;同时输出立项建议报告。
8.根据权利要求7所述的基于大数据的科技项目立项评估的方法,其特征在于,所述立项建议报告包括与科技项目立项申请的相似度在设定范围内的历年立项、申报单位相似项目、单位绩效情况、当前扶持方向和关键技术热点信息。
9.根据权利要求8所述的基于大数据的科技项目立项评估的方法,其特征在于,所述步骤A2)中的第一向量空间是按照所述E2)至El I)的方法得到的。
【文档编号】G06F17/30GK103455596SQ201310393575
【公开日】2013年12月18日 申请日期:2013年9月2日 优先权日:2013年9月2日
【发明者】罗亮, 卢智星, 方少亮 申请人:广东省计算中心