一种基于区域产业企业的三网产业图谱构建方法

文档序号:25021275发布日期:2021-05-11 16:45阅读:105来源:国知局
一种基于区域产业企业的三网产业图谱构建方法

本发明属于知识图谱技术领域,具体涉及一种基于区域产业企业的三网产业图谱构建方法。



背景技术:

近年来,区域产业的发展一直是国家的重点发展目标。目前国家的区域产业政策的发展主要依靠每5年发布一次的产业投入产出表和各地区的统计数据,基于投入产出数据构建有向图,通过确定阈值以提取强关联关系并构建产业复杂网络,实现对区域产业关联进行分析。这类方法可以较为准确的统计出各个地区的产业发展现状。

然而,投入产出表所构建的产业关联,主要考虑了产业之间的投入产出关系,对相关企业之间的联系关注较少,每5年发布一次的报告,无法实时向政府部门提供决策依据。同时,面临外界环境干扰的突发事件和快速发展的新兴产业,无法提供快速、准确的判断依据。同时,现有产业关联趋势的判断,缺乏行之有效的计量方法,仅通过统计数据和管理经验,无法进行经验推广。



技术实现要素:

本项目旨在帮助产业政策制定的决策部门,通过了解和预测区域产业的发展趋势,迅速捕获当前的产业发展形势,制定行之有效的产业发展政策。本发明基于企业和产业已有的结构化、非结构化数据,形成了一套基于区域产业企业的产业图谱构建方法。本发明同时克服了传统基于产业投入产出表方法更新缓慢、无法发现新兴产业发展、无法融入更丰富企业信息的问题,提出了一种能够融合区域信息、产业信息和企业信息,能够为决策者提供计量工具的产业图谱构建方法。

本发明所采用的技术方案是:一种基于区域产业企业的三网产业图谱构建方法,其特征在于,包括以下步骤:

步骤1:从官方网站获取最新投入产出信息,获得产业部门之间的投入产出表和产业描述信息;从官方网站获得行政区划关系;从官方网站获得企业相关属性信息;从新闻网站获取新闻舆情,获得新闻相关文本,企业相关属性信息包括企业名称、注册资金、企业地址、企业营业范围、企业专利;

步骤2:将企业经营范围使用共现性计算得到企业合作关联网络,将企业专利使用文本匹配算法计算得到企业竞争关联网络,将企业合作关联网络和企业竞争关联网络通过加权计算得到企业关联网络;

步骤3:根据投入产出表计算产业关联网络;

步骤4:根据行政区划关系使用企业地址信息计算区域关联网络;

步骤5:根据企业经营范围使用无监督分类方法计算企业到产业的映射;

步骤6:根据企业关联网络更新产业关联网络;

步骤7:利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱;

作为优选,步骤1所述投入产出表为:

iij

1≤i≤n,1≤j≤n

其中,iij表示第i个产业部门对第j个产业部门的投入,n表示产业总数;

步骤1所述产业部门描述信息为:

di

其中,di表示第i个产业部门的描述信息;

步骤1所述行政区划关系记为a;

步骤1所述企业相关属性信息为:

c={cname,ccapital,caddress,cbusiness,cpatent}

其中,cname表示企业名称,ccapital表示注册资金,caddress表示企业地址,cbusiness表示企业经营范围,cpatent表示企业专利;

步骤1所述新闻舆情记为news;

作为优选,步骤2所述企业合作关联网络为cooperation;

cooperation中每个元素具体计算为:

计算企业cp和企业cq共同所属的新闻舆情news条数m;

cooperationpq=mpq

其中,cooperationpq表示企业cp和企业cq的合作关联关系;

步骤2所述企业竞争关联网络为competition;

competition中每个元素具体计算为:

其中,competitionpq表示企业cp和企业cq的竞争关联关系,cossim(·)表示余弦相似度,表示第p个企业的所有专利组成的词向量,计算为:

其中表示转换为词向量的函数;

步骤2所述企业合作关联网络和企业竞争关联网络加权计算得到企业关联网络为enterprise,enterprise中每个元素具体计算为:

enterprisepq=αcooperationpq+βcompetitionpq

其中,enterprisepq表示企业cp和企业cq的企业关联关系,α和β表示权重;

作为优选,步骤3所述根据投入产出表计算产业关联网络:

对投入产出表i,利用里昂惕夫逆矩阵计算得出产业关联网络矩阵industry,其中industryij表示第i个产业部门对第j个产业部门之间的关联关系;

作为优选,步骤4所述根据行政区划关系使用企业地址信息计算区域关联网络:

对行政区划关系a,结合企业地址caddress,每个元素具体计算为:

其中,表示企业cp的企业地址;

根据行政区划关系a能够确定企业所属省、市、区三级区域;

作为优选,步骤5所述根据企业经营范围使用无监督分类方法计算企业到产业的映射,即根据企业经营范围确定所属产业部门,具体计算为:

使用余弦相似度方法计算第i个产业部门和第p个企业经营范围的相似度:

其中表示第p个企业的经营范围词向量,表示第i个产业部门的所有描述信息的词向量,计算为:

其中,di表示第i个产业部门的描述信息,表示转换为词向量的函数;

取第p个企业经营范围与所有产业部门相似度最小的前k个,表示第p个企业所属的k个产业部门,即为企业到产业的映射,记为cp∈i。

作为优选,步骤6所述根据企业关联网络更新产业关联网络为net,net中每个元素具体计算为:

其中,netij表示动态更新后的产业关联网络i产业部门对j产业部门的关联关系,α为权重系数,m表示企业总数,k表示每个企业与产业相似度前k个最小值,industryij表示第i个产业部门对第j个产业部门之间的关联关系,表示第p个企业的注册资金,enterprisepq表示第p个企业与第q个企业之间的关联关系。

作为优选,步骤7所述利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱为g(a,net,enterprise,θ),其中θ表示网络之间的关联关系,计算为:

θ=(cp∈a,cp∈i,ii∈a)

其中,根据步骤5所述的企业到产业的映射,cp∈a表示第p个企业所属区域,cp∈i表示第p个企业所属的产业部门,ii∈a表示第i个产业所属区域。

本发明基于区域产业企业的三网产业图谱构建方法,利用产业投入产出表计算产业关联网络。利用行政区划代码数据,进行区域关联网络构建。根据企业的经营范围共现性和专利文本相似度匹配,对企业合作关联和竞争关联计算,融合后得到企业关联网络。进一步根据无监督分类算法,按照经营范围将企业映射到产业,实现产业关联网络的动态更新。最终融合三网的产业图谱,能够更加清晰明确的反映出各个区域、各个产业,包括所属区域、产业的企业的关联关系。当舆情中出现更多的新兴交叉领域和产业时,会动态反映在企业之间的合作关联网络中,并映射到产业关联关系网络,使得决策部门能够更快的捕捉到区域产业发展的变化趋势,为决策部门提供更好的政策理论和计量工具。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图;

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

下面结合图1介绍本发明的具体实施方式。

请见附图1,本发明提供了本发明所采用的技术方案是:一种基于区域产业企业的三网产业图谱构建方法,其特征在于,包括以下步骤:

步骤1:从官方网站获取最新投入产出信息,获得产业部门之间的投入产出表和产业描述信息;从官方网站获得行政区划关系;从官方网站获得企业相关属性信息;从新闻网站获取新闻舆情,获得新闻相关文本,企业相关属性信息包括企业名称、注册资金、企业地址、企业营业范围、企业专利;

步骤1所述投入产出表为:

iij

1≤i≤n,1≤j≤n

其中,iij表示第i个产业部门对第j个产业部门的投入,n表示产业总数,本实施例中n=149;

步骤1所述产业部门描述信息为:

di

其中,di表示第i个产业部门的描述信息;

步骤1所述行政区划关系记为a;

步骤1所述企业相关属性信息为:

c={cname,ccapital,caddress,cbusiness,cpatent}

其中,cname表示企业名称,ccapital表示注册资金,caddress表示企业地址,cbusiness表示企业经营范围,cpatent表示企业专利;

步骤1所述新闻舆情记为news;

步骤2:将企业经营范围使用共现性计算得到企业合作关联网络,将企业专利使用文本匹配算法计算得到企业竞争关联网络,将企业合作关联网络和企业竞争关联网络通过加权计算得到企业关联网络;

步骤2所述企业合作关联网络为cooperation;

cooperation中每个元素具体计算为:

计算企业cp和企业cq共同所属的新闻舆情news条数mpq;

cooperationpq=mpq

其中,cooperationpq表示企业cp和企业cq的合作关联关系;

步骤2所述企业竞争关联网络为competition;

competition中每个元素具体计算为:

其中,competitionpq表示企业cp和企业cq的竞争关联关系,cossim(·)表示余弦相似度,表示第p个企业的所有专利组成的词向量,计算为:

其中表示转换为词向量的函数;

步骤2所述企业合作关联网络和企业竞争关联网络加权计算得到企业关联网络为enterprise,enterprise中每个元素具体计算为:

enterprisepq=αcooperationpq+βcompetitionpq

其中,enterprisepq表示企业cp和企业cq的企业关联关系,α和β表示权重,与合作和竞争网络中的平均值成正相关,合作网络的平均值计算公式为:

竞争网络中的平均值计算公式为:

count(c)表示企业总数;

步骤3:根据投入产出表计算产业关联网络;

步骤3所述根据投入产出表计算产业关联网络:

对投入产出表i,利用里昂惕夫逆矩阵计算得出产业关联网络矩阵industry,其中industryij表示第i个产业部门对第j个产业部门之间的关联关系;

步骤4:根据行政区划关系使用企业地址信息计算区域关联网络;

步骤4所述根据行政区划关系使用企业地址信息计算区域关联网络:

对行政区划关系a,结合企业地址caddress,每个元素具体计算为:

其中,表示企业cp的企业地址;

根据行政区划关系a能够确定企业所属省、市、区三级区域;

步骤5:根据企业经营范围使用无监督分类方法计算企业到产业的映射;

步骤5所述根据企业经营范围使用无监督分类方法计算企业到产业的映射,即根据企业经营范围确定所属产业部门,具体计算为:

使用余弦相似度方法计算第i个产业部门和第p个企业经营范围的相似度:

其中表示第p个企业的经营范围词向量,表示第i个产业部门的所有描述信息的词向量,计算为:

其中,di表示第i个产业部门的描述信息,表示转换为词向量的函数;

取第p个企业经营范围与所有产业部门相似度最小的前k个,其中k=3,表示第p个企业所属的k个产业部门,即为企业到产业的映射,记为cp∈i。

步骤6:根据企业关联网络更新产业关联网络;

步骤6所述根据企业关联网络更新产业关联网络为net,net中每个元素具体计算为:

其中,netij表示动态更新后的产业关联网络i产业部门对j产业部门的关联关系,α为权重系数,m表示企业总数,k表示每个企业与产业相似度前k个最小值,industryij表示第i个产业部门对第j个产业部门之间的关联关系,表示第p个企业的注册资金,enterprisepq表示第p个企业与第q个企业之间的关联关系。

步骤7:利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱;

步骤7所述利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱为g(a,net,enterprise,θ),其中θ表示网络之间的关联关系,计算为:

θ=(cp∈a,cp∈i,ii∈a)

其中,根据步骤5所述的企业到产业的映射,cp∈a表示第p个企业所属区域,cp∈i表示第p个企业所属的产业部门,ii∈a表示第i个产业所属区域。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1