本发明涉及数据处理领域,更具体的说,它涉及本发明涉及一种基于知识图谱的产业链网络关系构建方法。
背景技术:
1、错综复杂的产业链结构对分析带来了挑战,而知识图谱是一项非常适于解决这种错综复杂结构的新技术。
2、人们习惯性的将围绕某一类产品形成的各环节企业、技术、零部件等信息绘制成一个产业地图,称之为产业链或产业图谱,这种绘制方法具有非常大的随意性,不具有统一的表示方法。
技术实现思路
1、本发明提供提出一种基于知识图谱的规范、统一的网络关系构建方法,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,快速清晰的了解目前的产业链信息,借助模型的定义,可视化的了解问题所处位置,从而达到快速识别、精准施策的目的。
2、一种基于知识图谱的产业链网络关系构建方法,包括如下步骤:
3、s1:获取产业对应的所有企业信息、企业数据和行业信息,企业信息包括企业名称和企业主营产品名称;企业数据包括订单数据、资金转账记录数据和合同文本数据,其中订单数据和资金转账记录数据为结构化数据,合同文本数据为非结构化数据;行业信息包括行业名称;
4、s2:根据企业信息在空的图数据库中建立节点,节点形式为{name}、{label}和{industry},其中name为企业名称,label为企业主营产品名称,industry为行业名称,行业名称包括原料行业、研发行业、产品制造行业和服务行业;
5、s3:对同属同一企业的企业主营产品名称建立企业主营产品名称与企业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,label},其中att为实体关系;
6、s4:根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,industry},其中att为实体关系;
7、s5:根据企业信息和企业数据建立企业名称与企业名称之间的实体关系,并在图数据库中生成三元组,三元组的形式为{name,att,name},其中att为实体关系;
8、s6:根据生成的所有三元组建立基于知识图谱的产业链网络关系。
9、作为本发明的一个优选,所述步骤s4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组包括如下步骤:根据行业名称建立多个行业关键词词典,行业关键词词典内部设定了行业关键词与行业名称的从属关系;获取企业名称对应的所有企业主营产品名称,并将所有企业主营产品名称依次与不同行业关键词词典内部的行业关键词进行匹配,输出匹配成功的行业关键词数量,选择不同行业关键词词典输出的匹配成功的行业关键词数量中数量最大的行业关键词数量,计算数量最大的行业关键词数量与企业主营产品名称总数的关键词比值,将关键词比值与预设比值阈值进行大小比较,若是关键词比值大于等于预设比值阈值,建立所有企业主营产品名称对应的企业名称与输出数量最大的行业关键词数量对应行业关键词词典对应的行业名称的实体关系,实体关系为“从属”,三元组的形式为{name,从属,name};若是关键词比值小于预设比值阈值,选择下一个企业名称。
10、作为本发明的一个优选,所述步骤s4中,根据企业名称建立企业名称与行业名称的实体关系,并在图数据库中生成三元组,还包括如下步骤:根据企业名称获取对应企业的资金总支出金额和研发支出金额,计算该企业研发支出金额与资金总支出金额的研发资金占比,将研发资金占比与预设研发资金占比进行大小比较,若是研发资金占比大于等于预设研发资金占比,建立该企业名称与研发行业的实体关系,实体关系为“从属”,三元组的形式为{name,从属,研发行业};若是研发资金占比小于预设研发资金占比,选择下一个企业名称。
11、作为本发明的一个优选,所述步骤s5中,根据企业信息中的企业主营产品名称建立企业名称与企业名称之间的实体关系包括如下步骤:
12、t1:对所有企业信息分别分配企业编码xi,i=1,2,3······i,其中i为企业信息总数;
13、t2:依次选择企业编码xi,根据企业编码xi获取对应所有的企业主营产品名称,存储为集合δi={ui1,ui2,ui······uij},其中j=1,2,3······j,j为企业主营产品名称总个数;
14、t3:令k=1;
15、t4:选择集合δk,获取集合δk对应的企业主营产品名称总个数j;
16、t5:令x=1;
17、t6:选择集合δk+x,将集合δk和δk+x进行并集计算,生成并集集合ε,计算并集集合ε内的元素总个数q,计算重合度判断“q≤p”是否成立,若是“q≤p”成立,不进行操作,进入t8;若是“q≤p”不成立,进入t7;
18、t7:建立集合δk对应企业编码xk的企业名称和集合δk+x对应企业编码xk+x的企业名称之间的实体关系,实体关系为“竞争”,三元组的形式为{name,竞争,name}。
19、作为本发明的一个优选,所述步骤s5中,根据企业数据中的订单数据和资金转账记录数据建立企业名称与行业名称的实体关系包括如下步骤:建立原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典;获取订单数据和资金转账记录数据,根据订单数据获取企业之间流通的产品名称和流通方向,将产业名称依次与原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典进行匹配,当产业名称依次与原料关键词词典内部原料关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“供应”,三元组的形式为{name,供应,name},根据流通方向,前一个name为供应方,后一个name为被供应方;当产业名称依次与技术服务关键词词典和服务关键词词典内部技术服务关键词和服务关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“提供”,三元组的形式为{name,提供,name},根据流通方向,前一个name为提供方,后一个name为被提供方;当产业名称依次与中间件关键词词典内部中间件关键词匹配成功时,建立订单数据对应两个企业对应的企业名称之间的实体关系,实体关系为“制备”,三元组的形式为{name,制备,name},根据流通方向,前一个name为制备方,后一个name为被制备产品获取方。
20、作为本发明的一个优选,所述步骤s5中,根据企业数据中的合同文本数据建立企业名称与企业名称之间的实体关系包括如下步骤:将合同文本数据输入深度学习模型,生成企业名称与企业名称之间的实体关系和三元组。
21、作为本发明的一个优选,所述步骤s1中,在建立完节点之后,遍历所有{label}节点,并将重复的{label}节点进行删除。
22、作为本发明的一个优选,所述行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典的建立包括如下步骤:获取用户标注好类别的行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集,并分别对行业关键词数据集、原料关键词数据集、技术服务关键词数据集、中间件关键词数据集和服务关键词数据集进行无监督的聚类分析,提取出关键词,存入对应行业关键词词典、原料关键词词典、技术服务关键词词典、中间件关键词词典和服务关键词词典中。
23、本发明具有以下优点:
24、1、本发明通过获取企业信息、企业数据和行业信息,并根据实体关系“从属”、“竞争”、“供应”、“提供”和“制备”匹配企业主营产品名称与企业名称、企业名称与企业名称和企业名称与行业名称的实体关系,生成三元组,再根据所有三元组生成对应的知识图谱,由于实体关系较少,且获取的数据全面,本产业链网络关系具有规范、统一的特点,在分析产业链结构、防范产业链风险、优化产业链布局等工作时,能够快速清晰的了解目前的产业链信息,借助模型的定义,可视化的了解问题所处位置,从而达到快速识别、精准施策的目的。