矿区地理实体关联网络构建方法及设备与流程

文档序号:31706010发布日期:2022-10-01 11:13阅读:133来源:国知局
矿区地理实体关联网络构建方法及设备与流程

1.本发明实施例涉及信息管理技术领域,尤其涉及一种矿区地理实体关联网络构建方法及设备。


背景技术:

2.实体关联网络是一个结构化、关联化的知识表示形式,通过清晰直观的图结构来表达客观世界中的事物及其关联关系,为领域知识组织与管理提供了新的思路。因此,基于实体关联网络自动获取并关联整合矿产领域的信息与知识,成为相关科研机构和政府部门所共同关注的课题。然而,矿产领域积累了比较多的成果资料文本数据,存在数量规模大、概念模式复杂、文本信息挖掘不足、数据关联程度低等问题,给矿产资源领域地理实体关联网络的构建带来诸多挑战。这些挑战主要集中在两方面:一是如何有效组织、表达与关联各类复杂的矿区矿产信息;二是如何从非结构化领域文本资料中抽取出矿产资源相关的实体属性信息。因此,开发一种矿区地理实体关联网络构建方法及设备,可以有效面对上述相关技术中的挑战,就成为业界亟待解决的技术问题。


技术实现要素:

3.针对现有技术存在的上述问题,本发明实施例提供了一种矿区地理实体关联网络构建方法及设备。
4.第一方面,本发明的实施例提供了一种矿区地理实体关联网络构建方法,包括:步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;步骤3、基于neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
5.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,所述特征表达包括:语义特征、空间特征、资源特征、项目特征、地质特征五个维度。
6.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,所述关联关系包括:空间关联、资源关联、项目关联、地质关联四个方面。
7.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤1中,建立面向矿产领域的矿区矿产资源地理实体表达框架,具体包括:建立地理实体特征表达体系,定义语义特征由矿区名称orename,矿区标识码oreid,矿区类型oretype和矿区类型码oretypeid组成;定义空间特征由行政区划名称regname、空间等级spalev、具体地域spereg、行政区划代码regcode和为地理经纬度lonlat组成;定义资源特
征由矿种名称minespename,矿种类型minespetype,矿种储量规模minespesca,矿种品位minespequa组成;定义项目特征由项目名称proname、形成单位formunit、工作程度workdegree,项目建设的开始和结束时间staendtime组成;定义地质特征由矿体特征orebodyfea、矿石特征orefea、成因类型gentype、其他地质特征othfea组成;建立地理实体关系表达体系,定义空间关联关系依据拓扑层级关系和方位相对位置建立,关系类型包括隶属、位于,参考知识为行政区划层级集合;定义资源关联关系依据矿产资源类型中的上下位关系建立,关系类型包括包含、矿种属于,参考知识为矿种类型划分集合;定义项目关联关系依据项目形成单位、工作程度的一致性建立,关系类型包括形成单位属于、工作程度属于,参考知识为工作程度集合、形成单位集合;定义地质关联关系构成特点、成分特点、成因类型的一致性建立,关系类型包括矿体数量一致、成分类型属于和成因属于。
8.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤2中,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,具体包括:基于爬虫技术获取互联网地质信息平台上的公开数据,定义无关文档的关键词列表,进行数据预处理,删除与矿区矿产描述无关及不符合要求的数据;选用部分原始数据,采用bmeo的序列标注方式对数据进行标注,并对标注数据集的质量进行检查,得到矿产资源领域的实体标注数据集;在bilstm-crf模型的输入层进行向量优化;将标注好的标注数据集按照6:2:2的比例来进行划分,分别作为训练集、验证集和测试集,保存训练和调整好的改进bilstm-crf模型,得到矿区矿产实体识别模型。
9.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,所述在bilstm-crf模型的输入层进行向量优化,包括:模型融合矿产资源领域专有词典,使用分词工具对矿区矿产资源文本语料进行分词,对于矿区矿产资源文本语料,词典中存在的词会被完整划分出来,不存在的词使用常规的分词工具进行划分,划分后的词语利用word2vec进行词向量训练,得到词语级别的向量序列,将以前的字向量输入升级到词向量输入,利用更多的语义特征并提高信息密度。
10.在上述方法实施例内容的基础上,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤3具体包括:选用neo4j图数据库来进行存储矿区矿产知识,利用cypher图查询语句和python语言,将步骤2中抽取得到的矿区地理实体的语义、空间、资源、项目、地质特征信息,自动化导入图数据库中进行存储;利用cypher图查询语句和python语言,依据步骤1中的地理实体关系表达体系,分别构建矿区地理实体的空间、资源、项目和地质关联,具体实现方式为:引入不同层级的行政区划集合建立空间关联;引入矿区矿产资源概念层级集合建立资源关联;通过引入工作程度集合和形成单位取值集合建立项目关联;通过引入地质特征取值集合建立地质关联。
11.第二方面,本发明的实施例提供了一种矿区地理实体关联网络构建装置,包括:第一主模块,用于实现步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;第二主模块,用于实现步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;第三主模块,用于实现步骤3、基于neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息
进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
12.第三方面,本发明的实施例提供了一种电子设备,包括:
13.至少一个处理器;以及
14.与处理器通信连接的至少一个存储器,其中:
15.存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的矿区地理实体关联网络构建方法。
16.第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的矿区地理实体关联网络构建方法。
17.本发明实施例提供的矿区地理实体关联网络构建方法及设备,从非结构化矿产资料文本中抽取出结构化的实体属性信息,为矿区地理实体关联网络的构建提供数据基础,有效提高历史资料文本的挖掘程度与利用价值;形成矿区地理实体关联网络,能够有效支撑知识检索、知识问答等下游应用,为提升矿产资源领域信息与知识的社会化服务能力提供有效途径。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明实施例提供的矿区地理实体关联网络构建方法流程图;
20.图2为本发明实施例提供的矿区地理实体关联网络构建装置结构示意图;
21.图3为本发明实施例提供的电子设备的实体结构示意图;
22.图4为本发明实施例提供的数据标注流程图;
23.图5为本发明实施例提供的改进后bilstm-crf模型架构图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
25.从特征表达和关系表达两个层次出发,建立面向矿产资源的矿区地理实体及实体关系的表达框架,然后获取矿产资源领域资料文本数据并进行数据标注,将标注数据划分为训练集、验证集、测试集对改进bilstm-crf模型进行训练和测试,得到矿产资源实体识别
模型,并对实际资料文本中的矿产资源实体信息进行抽取,接着利用neo4j图形数据库存储抽取得到的矿区地理实体信息,基于地理实体关系表达模型构建矿区地理实体之间的多类关联关系,最终形成矿区地理实体关联网络。基于这种思想,本发明实施例提供了一种矿区地理实体关联网络构建方法,参见图1,该方法包括:步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;步骤3、基于neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
26.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,所述特征表达包括:语义特征、空间特征、资源特征、项目特征、地质特征五个维度。
27.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,所述关联关系包括:空间关联、资源关联、项目关联、地质关联四个方面。
28.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤1中,建立面向矿产领域的矿区矿产资源地理实体表达框架,具体包括:建立地理实体特征表达体系,定义语义特征由矿区名称orename,矿区标识码oreid,矿区类型oretype和矿区类型码oretypeid组成;定义空间特征由行政区划名称regname、空间等级spalev、具体地域spereg、行政区划代码regcode和为地理经纬度lonlat组成;定义资源特征由矿种名称minespename,矿种类型minespetype,矿种储量规模minespesca,矿种品位minespequa组成;定义项目特征由项目名称proname、形成单位formunit、工作程度workdegree,项目建设的开始和结束时间staendtime组成;定义地质特征由矿体特征orebodyfea、矿石特征orefea、成因类型gentype、其他地质特征othfea组成;建立地理实体关系表达体系,定义空间关联关系依据拓扑层级关系和方位相对位置建立,关系类型包括隶属、位于,参考知识为行政区划层级集合;定义资源关联关系依据矿产资源类型中的上下位关系建立,关系类型包括包含、矿种属于,参考知识为矿种类型划分集合;定义项目关联关系依据项目形成单位、工作程度的一致性建立,关系类型包括形成单位属于、工作程度属于,参考知识为工作程度集合、形成单位集合;定义地质关联关系构成特点、成分特点、成因类型的一致性建立,关系类型包括矿体数量一致、成分类型属于和成因属于。
29.具体地,地理实体是对真实世界中具有共同属性的地物的抽象表达。矿区地理实体是以各个矿区作为研究范围,可以对矿区的属性关系特征进行表达的独立地物。从实体特征表达和实体关系表达两个层面对矿区地理实进行表达,可以为矿区地理实体信息获取和矿区地理实体关联网络构建提供坚实的理论基础。
30.(1)建立矿区地理实体的特征表达体系
31.从语义特征、空间特征、资源特征、项目特征、地质特征五个维度建立矿区地理实
体的特征表达体系,给出组成要素与表达形式。
32.1)地理实体的语义特征是对地理对象所属概念的描述,一般用最具代表的属性来描述地理对象的本质,矿区地理实体语义特征的形式化表达如式(1):
33.semfea={orename,oreid,oretype,oretypeid}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
34.其中,orename为矿区名称,oreid为矿区标识码,oretype为矿区类型,oretypeid为矿区类型码,各字段在数据库中的存储类型均为字符串。
35.2)空间特征是对地理实体空间位置状态进行存储和表达的基础。矿区的空间位置反映了一个矿区所在的空间区域信息,是对矿区空间特征最基本、最核心的描述。矿区地理实体空间特征的形式化表达如式(2):
36.spafea={regname,spalev,spereg,regcode,lonlat}
ꢀꢀꢀꢀ
(2)
37.其中,regname为行政区划名称,spalev为空间等级,spereg为具体地域,这三个字段采用自然语言来进行描述,为文本型;regcode为行政区划代码,lonlat为地理经纬度,这两个为数字字符串型。
38.3)资源特征主要描述矿种,矿种是矿区最重要的资源。矿区地理实体资源特征的形式化表达如式(3):
39.resfea={minespename,minespetype,minespesca,minespequa}(3)
40.其中,minespename为矿种名称,minespetype为矿种类型,minespesca为矿种储量规模,minespequa为矿种品位,这些字段均采用自然语言来进行描述,数据类型为文本型。
41.4)矿区独特的资源优势吸引诸多项目投资落地,因而矿区的特征包含了项目特征。矿区地理实体项目特征的形式化表达如式(4):
42.profea={proname,formunit,workdegree,staendtime}
ꢀꢀꢀ
(4)
43.其中,proname为项目名称,formunit为形成单位,workdegree为工作程度,上述这些字段使用自然语言描述,数据类型为文本型;staendtime为矿区项目建设的开始和结束时间,为一个时间段范围,采用日期字符串型格式。
44.5)地质特征描述了矿区地质方面的特性,是矿产资源产生、形成的内在因素。矿区地理实体地质特征的形式化表达如式(5):
45.geofea={orebodyfea,orefea,gentype,othfea}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
46.其中,orebodyfea表示矿体特征集合,orefea表示矿石特征,gentype表示成因类型,othfea表示其他地质特征集合。
47.(2)建立矿区地理实体的关系表达体系
48.从资源关联、项目关联、地质关联、属性关联四个方面建立矿区地理实体的关系表达体系,作出关系描述与关联说明。
49.1)空间关联关系,是由矿区地理实体在空间中的分布而产生的位置关联。采用拓扑关系中的层级包含和方位中的相对位置来表达空间关联关系,关系类型包括“隶属”、“位于”,参考知识为行政区划层级集合。
50.具体来说,行政区划集合节点间存在“隶属”关系,矿区与具体地域之间存在“位于”关系。对自然资源空间位置的具体地域描述上,可用方位加距离的自然语言形式来进行详细描述,以表达其方位关系,例如:某自然资源实体位于“某省某市某区某镇,距某市北西30km处”。
51.2)资源关联关系,反映矿区地理实体在矿种名称、矿种类型上的关联。基于矿产资源类型中的上下位关系来建立资源关联关系,关系类型包括“包含”、“矿种属于”,参考知识为矿种类型划分集合。
52.具体来说,矿种名称和矿种类型之间存在上下位关系。矿种类型属于上位词,具有较强的概括性;矿种名称属于下位词,具有丰富的内涵属性。上下位词展示了一般与个别的关系。上下位关系在矿产资源关联关系中得到了很好的体现,包括包含关系(包含与被包含的关系)、继承关系、部分和整体关系。例如:“黑色金属矿产”包含“铁矿”,则“铁矿”是“黑色金属矿产”的下位概念,“金属矿产”又包含“黑色金属矿产”,则“金属矿产”是“黑色金属矿产”的上位概念。
53.3)项目关联关系,用来反映矿区地理实体在项目特征方面的关联。项目关联关系表现在项目的形成单位、工作程度的一致上,关系类型包括“形成单位属于”、“工作程度属于”,参考知识为“工作程度集合”、“形成单位集合”。
54.具体来说,一个单位可能在多个矿区有项目建设工作,多个矿区的工作程度可能存在一致。在矿区地理实体的项目关联关系构建中,由于工作程度和形成单位相对容易描述且易于统一,故引入工作程度集合和形成单位集合,减少相同名称的属性在数据库存储时的冗余。
55.4)地质关联关系,用来反映矿区地理实体在地质特征方面的关联。地质关联关系表现在构成特点、成分特点、成因类型的一致性上,关系类型包括“矿体数量一致”、“成分类型属于”、“成因属于”。
56.具体来说,在地质关联关系构建中,主要通过引入相应的地质特征取值集合来实现。在矿区地质方面,矿床的形成可能有多种因素,通常包含三大类:内生成因、外生成因和变质成因。矿区与成因之间的关系表示为成因。内生成因一般包括气化-热液作用、岩浆作用、接触交代和伟晶岩作用;外生成因一般包括风化、沉积、可燃有机岩作用;变质成因包括区域变质、接触变质以及混合岩化变质。
57.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤2中,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,具体包括:基于爬虫技术获取互联网地质信息平台上的公开数据,定义无关文档的关键词列表,进行数据预处理,删除与矿区矿产描述无关及不符合要求的数据;选用部分原始数据,采用bmeo的序列标注方式对数据进行标注,并对标注数据集的质量进行检查,得到矿产资源领域的实体标注数据集;在bilstm-crf模型的输入层进行向量优化;将标注好的标注数据集按照6:2:2的比例来进行划分,分别作为训练集、验证集和测试集,保存训练和调整好的改进bilstm-crf模型,得到矿区矿产实体识别模型。
58.具体地,基于步骤1定义的矿区地理实体表达框架,对采集到的部分矿区矿产资源文本数据进行分类型标注,形成矿区标注文本数据集。利用标注数据集对改进后bilstm-crf模型进行训练,并利用模型识别并抽取矿区矿产资源文本进行中的实体属性信息,包括矿区语义、空间、资源、项目、地质五个方面的特征信息。
59.(1)获取原始矿产领域资料文本数据,构建注数据集
60.1)数据获取
61.本实施例采用的原始数据主要来自于全国地质资料馆网站,部分数据以“地质云
3.0”平台上的作为补充。获取的数据包含报告题名、作者、形成单位、汇交单位、档号、矿产、项目起止时间、工作程度、主题词、内容提要等字段信息。对于某些内容提要信息为空的文档,根据文档题名在“地质云3.0”平台上进行查找补充。
62.2)数据预处理
63.定义无关文档的关键词列表,剔除与矿区矿产描述无关的文档。定义文档中需删除的关键词列表,删除文档中不符合要求的语句。
64.3)数据标注流程
65.选用部分原始数据进行数据标注。数据标注过程如图4所示:在文档数据标注之前,需要先定义好实体类型和标注规则,然后创建标注任务并分发给团队合作者,实现多人在线共同标注。最后对标注质量进行检查,如果标注合格,则导出标注结果并结束流程,如果标注不合格,则重新进行标注。
66.在数据标注流程中,采用bmeo的序列标注方式对数据进行标注,句子之间用一个空行隔开,以字符作为最小标注单元,其中,“b-实体类型”表示实体的开始(begin),“m-实体类型”表示实体的中间(middle),“e-实体类型”表示实体的结尾,“o”表示其他(other),用于标记非实体无关字符。
67.(2)搭建并训练基于改进bilstm-crf模型的实体识别网络
68.基于标注好的自然资源文本数据语料,将文本实体要素抽取转换为命名实体识别任务,所有的属性都当作实体来看待,基于改进bilstm-crf模型进行文本中的实体信息抽取。
69.1)搭建基于bilstm-crf的命名实体识别模型
70.基于bilstm-crf模型进行矿产资料文本中的实体识别。模型流程如下:首先将已经标注好的矿产资料文本数据转换成由词嵌入表示的向量;其次,将词嵌入特征输入到正向和反向lstm中进行双向训练;然后将经由bilstm层双向训练的结果作为crf层的输入;最后,由crf层输出预测的标签。模型一共有五层,自下而上分别为数据层、词嵌入层、bilstm层、crf层和标签输出层。
71.2)改进基于bilstm-crf的命名实体识别模型
72.本发明在bilstm-crf模型的输入层进行了向量优化,加入了矿产资源领域的专属词典,对矿产文本语料数据进行词典分词,保留矿产资源领域中专有名词的语义信息。作出改进的原因是,传统的bilstm-crf模型在数据输入层面只是将输入语料中的字进行随机初始化,将字嵌入到向量空间进行计算分析,未考虑领域中专有实体的语义特征。
73.改进bilstm-crf模型如图5,该模型融合矿产资源领域专有词典,使用jieba分词工具对矿区矿产资源文本语料进行分词。对于矿区矿产资源文本语料,在词典中存在的词会被完整的划分出来,不存在的词就使用常规的jieba分词工具进行划分。划分后的词语利用word2vec进行词向量训练,得到词语级别的向量序列。将以前的字向量输入升级到词向量输入,可以利用更多的语义特征、提高信息密度。
74.3)利用标注数据集对改进bilstm-crf模型进行训练
75.将标注数据集按照6:2:2的比例来进行划分,分别作为训练集、验证集和测试集,使用训练集训练模型的参数,使用验证集检验模型的性能并调整模型参数,使用测试集检验已经训练好的最终模型的泛化性能。
76.保存训练和调整好的改进bilstm-crf模型,得到矿区矿产实体识别模型。
77.(3)抽取矿产资料文本中的实体要素
78.使用训练好的实体识别模型抽取大量未标注矿产资料文本中的矿区语义特征信息(包括矿区名称、矿区类型和矿区类型码)、空间特征信息(包括具体地域、行政区和经纬度)、资源特征信息(包括矿种名称、矿种类型和矿区规模)、项目特征信息(包括工作程度和形成单位)、地质特征信息(包括成因类型、矿体数量、矿体形状和矿石类型)。
79.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,所述在bilstm-crf模型的输入层进行向量优化,包括:模型融合矿产资源领域专有词典,使用分词工具对矿区矿产资源文本语料进行分词,对于矿区矿产资源文本语料,词典中存在的词会被完整划分出来,不存在的词使用常规的分词工具进行划分,划分后的词语利用word2vec进行词向量训练,得到词语级别的向量序列,将以前的字向量输入升级到词向量输入,利用更多的语义特征并提高信息密度。
80.基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建方法,步骤3具体包括:选用neo4j图数据库来进行存储矿区矿产知识,利用cypher图查询语句和python语言,将步骤2中抽取得到的矿区地理实体的语义、空间、资源、项目、地质特征信息,自动化导入图数据库中进行存储;利用cypher图查询语句和python语言,依据步骤1中的地理实体关系表达体系,分别构建矿区地理实体的空间、资源、项目和地质关联,具体实现方式为:引入不同层级的行政区划集合建立空间关联;引入矿区矿产资源概念层级集合建立资源关联;通过引入工作程度集合和形成单位取值集合建立项目关联;通过引入地质特征取值集合建立地质关联。
81.具体地,选用neo4j图数据库来进行存储矿区矿产知识,先依据地理实体的特征表达体系存储抽取得到的矿区地理实体信息,然后依据地理实体关系表达体系,分别构建空间、资源、项目、地质关联,最终形成矿区地理实体关联网络。
82.(1)矿区地理实体信息存储
83.图谱中关系创建的基本方式为,使用create命令创建矿区地理实体关联网络中的实体节点,节点创建命令语法如下:
84.create(《node-name》:《label-name》{《property1-name》:《property1-value》......《propertyn-name》:《propertyn-value》})
85.其中,node-name表示节点名称,label-name表示节点标签名称,标签名相当于关系数据库中的表名,property-name和property-value是该节点的属性名称和属性值。neo4j图数据库会为创建的节点自动分配一个内部唯一标识id属性,且id会依次递增。
86.由于实体节点具有唯一性,在存储时为了避免重复冗余,需要给实体节点添加唯一索引进行约束。例如,给矿区实体节点添加索引的cypher语句如下:
87.create constraint on(m:`矿区`)assert m.name is unique
88.基于上述方法,将从大量未标注矿产领域文本中抽取得到的矿区地理实体信息导入到图形数据库中进行存储。
89.(2)矿区地理实体关系构建
90.图谱中关系创建的基本方式为,先使用match命令检索现有的两个节点,然后通过merge命令创建它们之间的关系,相关语法如下:
91.match(《node1-label-name》:《node1-name》),(《node2-label-name》:《node2-name》);
92.merge(node1-label-name)-[《relationship-label-name》:《relation ship-name》{《define-properties-list》}]-》(node2-label-name)
[0093]
关系的创建需要指定关系类型,每个关系包含两个节点:开始节点和结束节点。基于方向性,neo4j关系可分为两种:单向和双向关系,分别用单向箭头和双向箭头来表示。
[0094]
1)空间关联关系构建
[0095]
先引入不同层级的行政区划集合(省级、地市级、区县级),某些同层级的行政区划之间存在相邻关系,不同层级的行政区划之间存在包含关系。然后建立矿区地理实体间的空间关联,矿区地理实体空间上“位于”行政区划节点
[0096]
2)资源关联关系构建
[0097]
先引入矿区矿产资源概念层级集合(即矿种类型划分集合),某些同层级的概念之间存在并列关系,某些不同层级的概念之间存在上下位关系。然后建立矿区地理实体间的空间关联,矿区地理实体“矿种属于”矿种类型节点。
[0098]
3)项目关联关系构建
[0099]
先引入工作程度集合和形成单位取值集合,每个集合都包含该属性项取值的全集,每个具体属性值节点“属于”工作程度或形成单位的根节点。然后建立矿区地理实体间的项目关联,矿区地理实体“工作程度属于”工作程度节点,矿区地理实体“形成单位属于”形成单位取值节点。
[0100]
4)地质关联关系构建
[0101]
先通过引入相应的地质特征取值集合(矿石成分类型、成因类型集合),某些不同层级的地质特征取值节点间存在“属于关系”。然后建立矿区地理实体间的地质关联,矿区地理实体“成分属于”成分类型节点,“成因属于”成因类型节点。接着计算每个矿区实体包含的矿体数量,若两个矿区实体包含的矿体数量相同,则建立实体间的“矿体数量相同”的关系边。
[0102]
基于上述方法,针对图形数据库中的大量矿区地理实体分别构建空间、资源、项目、资源关联关系,形成面向矿产领域的矿区地理实体关联网络。
[0103]
当需要对实体关联网络信息进行更新时,利用neo4j cql提供的set子句来完成节点及关系信息更新。在更新节点时,首先用match语句匹配到需要更新的节点,然后使用set语句对该节点的属性值进行添加或更新。更新关系与更新节点类似,利用match先匹配到两个实体之间的关系,而后对关系属性值设置更新。以更新节点为例,具体命令语法为:
[0104]
match(《node-label-name》:《node-name》)set node-label-name.property-name=“***”。
[0105]
本发明实施例提供的矿区地理实体关联网络构建方法,从非结构化矿产资料文本中抽取出结构化的实体属性信息,为矿区地理实体关联网络的构建提供数据基础,有效提高历史资料文本的挖掘程度与利用价值;形成矿区地理实体关联网络,能够有效支撑知识检索、知识问答等下游应用,为提升矿产资源领域信息与知识的社会化服务能力提供有效途径。
[0106]
本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理
实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种矿区地理实体关联网络构建装置,该装置用于执行上述方法实施例中的矿区地理实体关联网络构建方法。参见图2,该装置包括:第一主模块,用于实现步骤1、从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框架;第二主模块,用于实现步骤2、基于互联网获取矿产资源资料文本数据,进行数据预处理和标注,获得标注数据集,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,并基于矿区实体识别模型对未标注矿产资源资料文本中的实体要素进行识别和抽取;第三主模块,用于实现步骤3、基于neo4j图形数据库,依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储,依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、资源、项目和地质关联,形成矿区地理实体关联网络。
[0107]
本发明实施例提供的矿区地理实体关联网络构建装置,采用图2中的若干模块,从非结构化矿产资料文本中抽取出结构化的实体属性信息,为矿区地理实体关联网络的构建提供数据基础,有效提高历史资料文本的挖掘程度与利用价值;形成矿区地理实体关联网络,能够有效支撑知识检索、知识问答等下游应用,为提升矿产资源领域信息与知识的社会化服务能力提供有效途径。
[0108]
需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征获得相应的技术手段,以及由这些技术手段构成的技术方案,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。例如:
[0109]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第一子模块,用于实现所述特征表达包括:语义特征、空间特征、资源特征、项目特征、地质特征五个维度。
[0110]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第二子模块,用于实现所述关联关系包括:空间关联、资源关联、项目关联、地质关联四个方面。
[0111]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第三子模块,用于实现步骤1中,建立面向矿产领域的矿区矿产资源地理实体表达框架,具体包括:建立地理实体特征表达体系,定义语义特征由矿区名称orename,矿区标识码oreid,矿区类型oretype和矿区类型码oretypeid组成;定义空间特征由行政区划名称regname、空间等级spalev、具体地域spereg、行政区划代码regcode和为地理经纬度lonlat组成;定义资源特征由矿种名称minespename,矿种类型minespetype,矿种储量规模minespesca,矿种品位minespequa组成;定义项目特征由项目名称proname、形成单位formunit、工作程度workdegree,项目建设的开始和结束时间staendtime组成;定义地质特征由矿体特征orebodyfea、矿石特征orefea、成因类型gentype、其他地质特征othfea组成;建立地理实体关系表达体系,定义空间关联关系依据
拓扑层级关系和方位相对位置建立,关系类型包括隶属、位于,参考知识为行政区划层级集合;定义资源关联关系依据矿产资源类型中的上下位关系建立,关系类型包括包含、矿种属于,参考知识为矿种类型划分集合;定义项目关联关系依据项目形成单位、工作程度的一致性建立,关系类型包括形成单位属于、工作程度属于,参考知识为工作程度集合、形成单位集合;定义地质关联关系构成特点、成分特点、成因类型的一致性建立,关系类型包括矿体数量一致、成分类型属于和成因属于。
[0112]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第四子模块,用于实现步骤2中,利用标注数据集,对改进的bilstm-crf模型进行训练,得到矿区实体识别模型,具体包括:基于爬虫技术获取互联网地质信息平台上的公开数据,定义无关文档的关键词列表,进行数据预处理,删除与矿区矿产描述无关及不符合要求的数据;选用部分原始数据,采用bmeo的序列标注方式对数据进行标注,并对标注数据集的质量进行检查,得到矿产资源领域的实体标注数据集;在bilstm-crf模型的输入层进行向量优化;将标注好的标注数据集按照6:2:2的比例来进行划分,分别作为训练集、验证集和测试集,保存训练和调整好的改进bilstm-crf模型,得到矿区矿产实体识别模型。
[0113]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第五子模块,用于实现所述在bilstm-crf模型的输入层进行向量优化,包括:模型融合矿产资源领域专有词典,使用分词工具对矿区矿产资源文本语料进行分词,对于矿区矿产资源文本语料,词典中存在的词会被完整划分出来,不存在的词使用常规的分词工具进行划分,划分后的词语利用word2vec进行词向量训练,得到词语级别的向量序列,将以前的字向量输入升级到词向量输入,利用更多的语义特征并提高信息密度。
[0114]
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的矿区地理实体关联网络构建装置,还包括:第六子模块,用于实现步骤3具体包括:选用neo4j图数据库来进行存储矿区矿产知识,利用cypher图查询语句和python语言,将步骤2中抽取得到的矿区地理实体的语义、空间、资源、项目、地质特征信息,自动化导入图数据库中进行存储;利用cypher图查询语句和python语言,依据步骤1中的地理实体关系表达体系,分别构建矿区地理实体的空间、资源、项目和地质关联,具体实现方式为:引入不同层级的行政区划集合建立空间关联;引入矿区矿产资源概念层级集合建立资源关联;通过引入工作程度集合和形成单位取值集合建立项目关联;通过引入地质特征取值集合建立地质关联。
[0115]
本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图3所示,该电子设备包括:至少一个处理器(processor)、通信接口(communications interface)、至少一个存储器(memory)和通信总线,其中,至少一个处理器,通信接口,至少一个存储器通过通信总线完成相互间的通信。至少一个处理器可以调用至少一个存储器中的逻辑指令,以执行前述各个方法实施例提供的方法的全部或部分步骤。
[0116]
此外,上述的至少一个存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可
以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0117]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0118]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的一些部分所述的方法。
[0119]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0120]
需要说明的是,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括
……
"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0121]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1