本发明属于计算机信息处理,涉及知识图谱,具体为一种地理知识图谱的构建方法、设备及存储介质。
背景技术:
1、知识是复杂的,每一个概念实体都有着诸多层次,并与其它许多实体相关联。鉴于知识的复杂性,如果没有合适的工具,以机器可读的格式获取知识是几乎不可能的。知识图谱是为实现这一目标而专门构建的,这是一种揭示实体间关系的语义网络,代表实体间相互链接描述的集合。知识图谱通常用三元组的形式来描述结构化的知识,三元组的各个元素由实体、属性、属性值,或者是头实体、实体间的关系、尾实体来构成。大型的知识图谱,通常是基于资源描述框架(resource description framework,rdf)标准建立的,如dbpedia,wikidata,geonames,wordnet等。
2、在地理领域方面,目前已有的地理领域的知识图谱有geonames,linkedgeodata,ckgg等。geonames是一个全球地理数据库,包含了大量的地理实体,但其拥有的属性较少,且除了经纬度坐标和上级地理实体外,鲜有地理科学所需要的地理知识。linkedgeodata是将开放的地图数据openstreetmap转换为了rdf格式的知识库,便于与其它图谱进行融合使用。但其对于relation类型的openstreetmap实体,并没有转换得到其地理区域数据,而且同样欠缺地理科学所需的地理属性。
3、中文高中地理知识图谱(chinese knowledge graph for high-schoolgeography,ckgg)整合了geonames和wikidata中的地理实体,并收集整理了多个其它的地理数据源,用于为其中的地理实体添加了气温、降水量、光照强度等高中地理所涉及的属性。但其存在着如下缺陷:只有国家和一级行政区等极少数较大范围的地点实体才有区域类型的数据;多数据源实体对齐的规则方法较为简单,存在着错误合并不同地理实体的情况,以及相同地理实体未被合并的情况;实体对应的属性偏少,导致较为缺乏一些应用场景。
4、对于地理区域数据,在知识图谱中常用wkt格式表示。目前已有地理区域数据的数据源有geoboundries,gadm,openstreetmap等。geoboundries和gadm均使用esrishapefile格式来表示地理区域,可通过gdal工具将其转换为wkt格式。但相较于openstreetmap,其包含地理实体数量较少。geoboundries和gadm仅包含了政治区划划分的行政单位,即国家、一级行政区(省)、二级行政区(地级市)等,缺乏自然地理实体,如山脉、河流等数据。此外,这两个数据源对于一个地理实体,除了区域信息之外,仅拥有其行政等级和英文名称标签,不存在直接到其它数据源的链接,因此和其它数据源中的地理实体对齐也是一个挑战。此外,对于中国地点名称的抽查检验表明,其准确率也是存在着一定的不足,如邵阳,应为shaoyang,其错误标记为zhaoyang。
5、openstreetmap采用其独有的osm.pbf格式存储地理实体的区域数据,可使用libosmium库进行解析处理。openstreetmap有三种不同类型的数据,分别是node类型,way类型以及relation类型。其中node类型的实体是一个用经纬度坐标点,表示了地球表面上的一点。way类型的实体则是由多个有序node类型的实体构成,构成了一条有向折线段。relation类型的实体则较为复杂,是一个递归的结构,其包含了多个node,way或者relation类型的实体。而且,对于每个包含的子结构,都有一个与之对应的标签。一个最朴素的例子即为,一个关系包含了多条路径,构成了一个封闭图形,即一个多边形。而其中每条路径的标签都是outer(外部)或者inner(内部)。现有的openstreetmap和wikidata的实体连接数据集即表明由于relation的wkt格式比较复杂,而且由于存在大量的地理信息缺失,目前还无法对其地理信息进行完善(http://www.openkg.cn/dataset/openstreetmap-wikidata)。
技术实现思路
1、本发明要解决的技术问题是:针对现有地理领域知识图谱的不足,设计了一种地理知识图谱的构建方法。
2、本发明的技术方案为:一种地理知识图谱的构建方法,获取地理数据源的数据,将区域数据转化为wkt格式并导出相关属性,对地理数据源数据中的实体进行实体对齐及属性融合,再对实体添加对应的自然地理属性后,构建得到地理知识图谱,包括以下步骤:
3、步骤一,获取geonames,wikidata,openstreetmap这三个数据源中的数据:对于geonames地理知识库,获取制表符分隔的数据文件,将其存储至关系型数据库中便于后续处理;对于wikidata知识库,获取三元组格式的数据进行存储;对于openstreetmap公开地图数据,获取其二进制格式的osm.pbf格式文件,使用osmium工具导出所需的地理实体,再存储进行后续处理;
4、步骤二:对步骤一从openstreetmap得到的地理实体,使用libosmium库解析,将openstreetmap中递归嵌套的relation类型实体建模为有向无环图结构,按照其拓扑序,依次转换为知识图谱的wkt类型数据,用于存储地理区域数据,表示的地理地点类型分为两种,一种是多边形,一种是折线段;
5、步骤三:对wkt格式的区域数据导出相关属性,使用得到的区域数据,即多边形区域和折线段区域这两种wkt类型数据,通过数据计算地理实体的属性,对于多边形数据计算出其占地面积,对于折线段数据计算出其长度,此外还计算属性数据,包括距海距离、沿河距离、相邻地点以及属于关系;
6、步骤四:对geonames,wikidata,openstreetmap三个数据源的地理实体进行对齐融合,利用不同数据源之间的公共属性,判定两地理实体是否等价;
7、步骤五:获取自然地理相关数据源中的网格数据,包括土壤类型、每月平均风向,对于网格数据类型,将其转储至postgresql数据库中,使用栅格raster数据格式进行表示,便于后续处理;对于每个图谱中的地理实体,根据其所表示的区域范围,或根据其所表示的经纬度坐标,找出其对应的网格的数据,用于表示该地理实体的相应的属性值;
8、步骤六:获取人文地理相关数据源中的表格数据,对于该种类型数据,使用字符串相似度算法,再结合二分图匹配来根据地名找到其对应的地理实体;
9、构建完成的图谱形式为其中e表示地理实体的集合,p为不同关系和属性的集合,l为各种枚举型属性和数值型属性的集合,r为构成图谱的三元组集合,满足其中的尾实体为地理实体还是值类型取决于具体的属性,属性为土壤类型或降水量时,尾实体即分别对应枚举值类型和数值类型;而当属性为上下级地点时,尾实体则为一个地理实体。
10、本发明还提出一种电子设备,包括存储介质和处理器,所述存储介质用于存储计算机程序,处理器用于执行所述计算机程序,算机程序被执行时,实现上述地理知识图谱的构建方法。
11、本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被执行时,实现上述地理知识图谱的构建方法。
12、本发明对于将现有数据源转换为知识图谱支持的wkt格式提出了新的方案,尤其是对relation实体的处理方式,实现从复杂的数据源中有效获得知识图谱的可用信息。
13、本发明的地理知识图谱的构建方法很好地对ckgg中存在的缺陷进行了改进,不局限于极少数较大范围的地点实体,将大多数常见地理实体均添加了区域类型的数据;改进了多数据源实体对齐的规则方法,修正了原有的一些错误合并不同地理实体的情况,以及相同地理实体未被合并的情况;针对地理实体对应的属性偏少,添加了土壤类型、每月平均风向等自然地理属性,以及人类发展指数、人均用电量等人文地理属性。