一种基于产业链的行业知识图谱构建方法与流程

文档序号:16693350发布日期:2019-01-22 19:10阅读:5831来源:国知局
一种基于产业链的行业知识图谱构建方法与流程

本发明涉及人工智能中知识图谱技术领域,尤其涉及一种基于产业链的行业知识图谱构建方法。



背景技术:

宏观、行业和公司研究是金融投资的基石。但是随着互联网的发展,海量的宏观、行业、公司信息和数据爆炸式增长,理解大数据的手段有限,限制了对这些数据的精准与精细分析,大大降低了大数据的潜在价值。因此对大数据进行智能分析是金融领域亟待实现的技术难题。

知识图谱(knowledgegraph)以其强大的语义处理能力和开放组织能力,为经济、金融研究提供了强大的背景知识支撑,可以有效赋能舆情分析、商业洞察、商业情报分析等基于大数据的精准分析。例如,光伏行业研究员最关心的是行业核心驱动因素,以此判断行业发展会否发生大的趋势性变化。知识图谱可以构建关于光伏行业的背景知识,如光伏行业最新政策走向、行业整体投资情况、产品的种类及产销情况,原料及产品的进出口情况、行业内企业经营情况等,研究人员以此为据可以推倒出光伏行业核心驱动因素是否发生变化的重要结论。知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。按照知识图谱的覆盖面可分为通用知识图谱与行业知识图谱。其中,行业知识图谱注重知识的层次结构,通常需要在特定行业的知识和数据基础上预先构建模式图。基于行业知识图谱的研究,起步较晚,目前还处于探索阶段。

产业链概念源于产业经济学,是指各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态。产业链中大量存在着上中下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。由于产业链可以作为宏观,行业、甚至个股信息和数据的重要载体,基于产业链的研究框架是研究员进行宏观、行业、公司研究的重要工具和手段。基于产业链的研究,起步较早,形成了大量丰富的研究成果。

具体的,一方面,金融研究人员更关注的是产业链上中下游之间的勾连关系,而现有的行业知识图谱大多是行业知识简单提取和聚合,实体关系往往呈现复杂网络特征,不能满足金融研究人员的研究需求。通过产业链思想构建行业知识图谱,可以利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。另一方面,构建行业知识图谱需要大量行业先验知识,很难通过半监督甚至无监督机器学习实现自动化构建,工作量巨大,对行业研究人员依赖大。以产业链为基础构建行业知识图谱可以提高知识图谱的构建效率。

综上所述,产业链和行业知识图谱在内涵、外延等方面存在天然的内在联系,如何将他们有机的结合,将产业链间、产业链节点间、节点内的结构和关系映射到知识图谱中,使知识图谱能够充分利用到产业链研究的各类成果,并提升构建知识图谱的效率,是急需集中聚焦的问题。



技术实现要素:

本发明专利基于产业链思想,提供一种基于产业链的行业知识图谱构建方法,构建后的知识图谱具有产业链结构特征,可以充分反映了产业链内部各行业节点以及节点内部企业、产品等实体间的勾连关系,能用于行业舆情分析、产业链传导分析、行业资讯重要性分析等。

为了实现上述目的,本发明提出一种基于产业链的行业知识图谱构建方法,包括如下步骤:

s10、对产业链进行建模,具体包括如下步骤:

s101、根据第一预设属性和第二预设属性对目标企业进行划分,构建产业链框架;

所述第一预设属性用于表征产业链的类别;所述第二预设属性用于表征产业链内的行业节点类别,以及各行业节点在产业链中所处的位置;

s102、根据所构建的产业链框架,将目标企业根据主营业务按照第三预设属性挂载于一个或多个行业节点之下的公司节点上;所述公司节点是产业链下行业节点的二级节点(产业链-行业节点-公司节点);

所述第三预设属性用于根据目标企业的财务信息中有关的主营业务信息,确定行业节点与所述企业的对应关系;

s103、根据公开的资料数据提取企业特征词,构建企业初始特征词库;

s104、根据公开的资料数据构建行业节点的产品/服务节点;所述产品/服务节点是产业链下行业节点下的二级节点(产业链-行业节点-产品/服务节点),与公司节点为同级关系,共同构成产业链下的树状结构;

s105、根据公开的资料数据构建产品/服务节点的初始特征词库;

s20、根据所构建的产业链模型,构建行业知识图谱。

优选地,步骤s20所述的根据所构建的产业链模型,构建行业知识图谱,具体包括如下步骤:

s201、种子知识获取;

s202、增量知识获取;

s203、知识融合;

s204、知识存储与知识计算。

优选地,所述的第一预设属性是在金融行业公认的公司行业分类标准基础上,对分类标准中的一级行业节点按相关性进行合并和补充,最终获得能够反映目标公司行业分工并符合经济、金融认知的产业链分类。

优选地,所述的第二预设属性是在投资领域常用的公司行业分类标准基础上,根据行业间的分工关系、投入产出关系、物流、信息流关系、产品、服务的传递路径,成本利润的分布关系,对行业分类标准中的第三级分类进行合并、增补,相互连接,并挂载到相应的产业链中,形成行业节点相互勾连的有向图。

优选地,所述的第三预设属性是根据目标公司最新财务报告中有关主营业务的数据,确定目标企业所属的目标产业链、目标行业、目标企业主营业务所属的业务类别、业务类别位于目标产业链的上中下游的位置。

优选地,所述的公开的资料数据,包括:政府网站、百科站点、垂直行业站点、公司官网、公司公告、财务报告、行业资料、行业标准、行业数据库、行业研究报告、公司财务报告及公告。

优选地,步骤s201所述的种子知识获取,具体为:

在目标产业链中,根据企业特征词库和产品/服务特征词库,在公开的资料数据中抽取同义词关系、“实体-实体”关系、“属性-值”关系,将抽取的知识作为初始知识加入种子集中。

本发明所述企业特征词库和行业产品/服务特征词库是构建知识图谱中各类行业关系的基础,可以有效减少知识提取过程中噪声过大的问题,同时使用初始特征词库的方式构建实体关系可以避免行业知识图谱构建中知识提取的冷启动问题。

优选地,步骤s202所述的增量知识获取,具体为:

利用种子集中的已有的实体关系进行建模迭代更新种子集。

优选地,步骤s203所述的知识融合,具体为:

将抽取出的实体、属性和关系集成到知识图谱中,对数据进行实体匹配和模式对齐。

优选地,步骤s204所述的知识存储与知识计算,具体为:

将学习到的三元组知识、事件信息、时态信息、结构化的知识图谱组织数据进行存储,并通过计算获取其中显式的或隐含的知识、模式或规则。

步骤s204所述的知识存储的目的除了可以满足图谱数据存储的基本功能,也为上层的知识推理、知识快速查询、图实时计算等应用做存储支撑。所述知识计算的范畴非常大,包括通过使用图论的相关算法,实现对图谱的探索和挖掘。

与现有技术相比,本发明至少具有以下优点:

1、采用本发明实施例的技术方案建立的基于产业链的行业知识图谱可以清晰的反映产业链间以及产业链内部“实体-关系-实体”、“实体-属性-属性值”,可以方便金融研究人员进一步利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。

2、基于产业链构建行业知识图谱可以有效减少行业知识提取过程中噪声过大的问题,同时使用特征词库的方式构建实体关系可以避免知识提取的冷启动问题。

3、采用此实施例方案可以实现增量知识学习,有效降低对专业研究人员的依赖。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一种实施例中基于产业链的行业知识图谱构建方法流程图;

图2为本发明一种实施例中产业链进行建模流程图;

图3位本发明一种实施例中产业链模型结构示意图;

图4位本发明一种实施例中构建行业知识图谱流程图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明中所构建的行业知识图谱在构建过程中是以特定的领域或行业为导向的,但不局限于单个行业。所构建的行业知识图谱实现了将与一个或多个行业相关的实体和事件、实体和事件的属性以及实体与实体、实体与事件、事件与事件之间的关系整合联接成为一个知识的图谱。

用于构建行业知识图谱的数据来源可以是多种多样的。举例而言,数据来源可以是开放式的百科类数据源(例如,百度百科、维基百科等),也可以是结构化的数据库(例如,维基数据、dbpedia、垂直网站或特定行业的专业数据库等),还可以是任何相关的第三方半结构化或非结构化数据源(例如,专业网站、在互联网媒体中发布的内容,包括新闻、公司年报、企业公告等)。

发明人经过研究发现,一方面,金融研究人员更关注的是产业链上中下游之间的勾连关系,从而利用知识图谱研究产业链传导和事件驱动、发现重要性事件、分析资讯情感等。而现有的行业知识图谱大多是行业知识简单提取和聚合,实体关系往往呈现复杂网络特征,不能满足金融研究人员的研究需求。例如,2017年9月1日,研究人员希望在第一时间知道当天的发生任何事件对螺纹钢期货价格可能产生显著影响,影响的方向是怎样的?传统方式构建的行业知识图谱只能推理得到可能影响的钢铁价格的实体,但很难将各类影响因素进一步量化,从而得到对当日价格影响最大的事件到底是什么?

为了解决上述问题,在本发明实施例分两部分解决:

第一部分,依据经济学、金融学、以及行业知识和经验对产业链进行建模。首先依据预设属性和公认的行业研究框架建立产业链框架。其次,依据预设属性,将a股上市企业根据主营业务挂载于一个或多个行业节点之下的公司节点上。然后,构建所述企业的初始特征词库。再次,利用,结合各类信息源,结合行业研究人员对所述产业链的专业知识和常识性理解,构建所述行业节点的产品/服务节点。最后,构建所述产品/服务节点的初始特征词库。

第二部分,在产业链框架的基础上构建行业知识图谱,包括知识获取、知识融合、知识存储、知识计算4个步骤。

由此可见,本发明实施例从构建产业链结构出发,根据目标产业链所包含的行业,公司、产品、服务完善产业链上下游的结构,在此基础上构建公司、产品/服务特征词库,对行业知识图谱进行定义,从而完成知识建模过程。

采取以产业链为基础的自顶向下的知识建模方法的好处是:一方面,可以充分利用有关产业链的研究框架、研究路径、研究成果,使所建立的行业知识图谱凝聚行业专家的智慧,所蕴含的行业知识更具深度、完备性,准确性也更高。另一方面,行业数据多源异构的特点决定了行业知识融合难度较大,加之传统信息抽取、实体链接相关的技术在行业知识的提取中的效果不佳。使用特征词库的方式构建实体关系可以避免知识提取的冷启动问题,提高知识图谱的构建效率。此外,该方法可以实现增量知识学习,有效降低对专业研究人员的依赖。通过上述方法建立知识图谱后,便可以实现行业用户的诸多需求,例如,系统抓取到2017年9月1日本钢高炉发生爆炸,通过钢铁产业链知识图谱推倒得到:(本钢-发生-爆炸-影响-产量),本钢是国内特种钢材生产的龙头企业(本钢-生产-特种钢,本钢-是-龙头),从而推导出螺纹钢期货将受到较大负面影响(产量-负相关-产品价格),从而实现重要事件的实时发现与预警。

一般的,从行业知识图谱的全生命周期看,可以分为知识建模,知识获取,知识融合,知识存储,知识计算和知识应用6个部分。实际上,实施例中产业链建模过程是自顶向下的构建行业知识图谱的模式图的过程,也可以看作是知识建模过程。

本发明一种优选实施例中,基于产业链的行业知识图谱构建方法流程如图1所示,包括如下步骤:

s10、依据经济学、金融学、以及行业知识和经验对产业链进行建模,流程如图2所示,具体包括如下步骤:

s101、根据第一预设属性和第二预设属性对所有中国a股市场上市企业进行划分,构建产业链框架;所述第一预设属性用于表征产业链的类别;所述第二预设属性用于表征产业链内的行业节点类别,以及各行业节点在产业链中所处的位置;

本发明一种优选实施例中,建立产业链框架,所述产业链框架根据第一预设属性和第二预设属性,以及公认的行业研究框架进行划分和建立,对所有中国a股市场上市企业实现全覆盖。研究人员参考《申银万国行业分类标准》,对一级行业分类按相关性进行合并、补充,得到能反映中国a股所有上市公司行业分工,并符合经济、金融认知常识的11个产业链分类,分别为:金融、房地产、钢铁、有色、石化、电力、机械、汽车、医药、食品饮料、电子产业链。在此基础上,针对《申银万国行业分类标准》中二、三级行业分类,根据中国a股上市公司主营业务构成,以及各公司在产业链中的分工情况、投入产出关系,价值、信息、产品、服务的传递路径进行合并、增补,形成240个行业,再将各行业以产业链为组织单元进行连接,形成行业之间相互勾连的复杂有向图,其中行业是产业链的子节点(产业链-行业)。步骤101应用于钢铁产业链,u1~u5行业是产业链的上游,m1~m4行业是产业链中游,d1~d8行业是产业链下游,详细结构图如图3所示。

s102、根据所构建的产业链框架,将a股上市企业根据主营业务按照第三预设属性挂载于一个或多个行业节点之下的公司节点上;所述第三预设属性用于根据目标企业的财务报告信息中有关的主营业务信息,确定行业节点与所述企业的对应关系;

本发明一种优选实施例中,根据上市公司最新财务报告中有关主营业务数据披露,结合研究人员对所述产业链框架和结构的理解,确定所述目标企业所属的目标产业链、行业,目标企业主营业务所属的业务类别和业务类别位于目标产业链的上中下游的位置。步骤102应用于钢铁产业链,以c1公司为例,c1的主营业务包括b1、b2、b3,其中,b1业务属于m3行业,因此将c1定位于m3节点下的公司节点上。需要说明的是,一个公司所属的行业不一定只有一个,有可能一个公司同属几个行业。例如,c1公司的b2业务属于m1行业,可将c1定位于m1节点下的公司节点上。

s103、根据政府网站、百科站点、垂直行业站点、公司官网、公司公告、财务报告提取企业特征词,构建企业初始特征词库;

本发明一种优选实施例中,通过目标企业证券基本资料、企业基本资料、董监高信息、主营业务信息、所属领域、经营范围、产品/服务介绍等确定其公司层面的特征词库。所述公司节点是产业链下行业节点的二级节点(产业链-行业节点-公司节点)。步骤103应用于钢铁产业链,以c1公司为例,从百科站点、垂直行业站点、c1公司官网、c1公司公告、c1公司财务报告中提取有关c1公司的实体词,用于表征c1公司的特征,共计得到含有2300个特征词的字典。

s104、根据行业资料、行业标准、百科站点、垂直行业站点、行业数据库、行业研究报告、公司财务报告和公告,结合行业研究人员对所述产业链的专业知识和常识性理解,构建行业节点的产品/服务节点;

本发明一种优选实施例中,所述产品/服务节点是产业链下行业节点下的二级节点(产业链-行业节点-产品/服务节点),与公司节点为同级关系,共同构成产业链下的树状结构;在步骤104中构建所述产品/服务节点是指目标行业提供的产品和服务的类别,由研究人员根据行业专业知识和经验总结得到。在步骤102与步骤104中构建的公司节点与产品/服务节点与步骤101构建的行业节点是子-父结构关系,由其共同构成了所述产业链的框架结构。步骤104应用于钢铁产业链,以m3行业为例,根据投入产出关系,m3行业的常见的产品和包括p1、p2、p3,服务包括s1、s2,将上述商品和服务定位于m3节点下的产品/服务节点上。

s105、根据行业资料、行业标准、百科站点、垂直行业站点、行业数据库、行业研究报告、公司财务报告和公告构建产品/服务节点的初始特征词库;

本发明一种优选实施例中,产品/服务特征词是指与目标行业所提供产品或服务有关的实体概念,由研究人员根据行业专业知识和经验总结得到。步骤105应用于钢铁产业链,以m3行业下p1产品为例,从百科站点、垂直行业站点,以及其他行业资料中提取有关p1产品的特征词,用于表征p1产品的特征,共计得到含有120个特征词的字典。

s20、根据所构建的产业链模型,构建行业知识图谱。

本发明实施例中,产业链构建完成意味着行业知识图谱的知识建模过程完成;利用构建好的产业链完成行业知识图谱的构建,如图4所示是构建行业知识图谱的流程示意图,具体包括如下步骤:

s201、种子知识获取;在所述目标产业链,使用在产业链构建过程中得到的企业特征词库和产品/服务特征词库,在门户网站、财经网站、政府网站、垂直行业站点、行业资料与标准、百科站点、行业数据库、行业研究报告、公司财务报告和公告等获取同义词关系、“实体-实体”关系、“属性-值”关系。将抽取出的上述知识作为初始知识加入种子集中。

本发明一种优选实施例中,在步骤201中所述企业特征词库和行业产品/服务特征词库是构建知识图谱中各类行业关系的基础,可以有效减少知识提取过程中噪声过大的问题,同时使用初始特征词库的方式构建实体关系可以避免行业知识图谱构建中知识提取的冷启动问题。通过“抽取-转换-加载(etl)”操作,可以对所获得的行业数据进行转换,然后从转换后的数据中提取实体、实体属性和实体关系并将其加载至种子知识集中。例如,在基于本体的数据整合方法中,以预定的方式定义不同数据库中的各个字段与各种实体信息之间的映射关系,从而根据所述字段及其内容提取实体、实体属性及实体关系,完成构建基本行业知识图谱数据库。

s202、增量知识获取;基于模式的方法实现增量迭代知识抽取。利用种子集中的已有实体关系对文本数据进行自动标注,然后根据标注结果自动地生成高质量的“三元组”知识模式。利用这些模式到文本中学习新的知识,并加入到种子集中。这一过程不断迭代,直至没有新的知识被学习出来。

本发明一种优选实施例中,种子集中的实体、属性特征词有限,通过这些特征词学习到知识也是有限的,随着各类行业数据的不断积累,需要通过一些手段不断获取新知识。本发明为了避免后续对人工的较大依赖,使用了以下方法实现增量知识的学习:

(1)实体抽取。根据种子实体实例进行特征建模,利用该模型对处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。

(2)关系抽取。以种子知识库中的关系模式作为训练集的标注,基于特征向量构建有监督学习方法。

s203、知识融合;将抽取出的实体、属性和关系集成到知识图谱中;知识融合阶段主要对数据进行实体匹配和模式对齐。

本发明一种优选实施例中,通过知识获取,实现了从非结构化和半结构化数据中获取“实体-关系”以及“实体-属性”信息,但是,这些结果中含有大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,需进行清理和整合。本实施例的知识融合主要指实体链接。其步骤为:对已抽取到的实体进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

s204、知识存储与知识计算。将学习到的三元组知识、事件信息、时态信息、结构化的知识图谱组织数据进行存储。知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则。

本发明一种优选实施例中,知识存储的目的除了可以满足图谱数据存储的基本功能,也为上层的知识推理、知识快速查询、图实时计算等应用做存储支撑。知识计算的范畴非常大,包括通过使用图论的相关算法,实现对图谱的探索和挖掘;基于规则的知识推理,辅助业务决策。例如,钢铁行业知识图谱构建完成后,通过复杂网络方法,自动发现实体社团;基于规则方法的行业、产品、公司等实体的情感分析;使用本体推理进行行业新知识发现或重要性事件检测。

在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1