一种基于生命周期理论的地理知识图谱质量测定方法

文档序号:35512716发布日期:2023-09-20 20:55阅读:79来源:国知局
一种基于生命周期理论的地理知识图谱质量测定方法

本发明涉及人工智能领域,尤其涉及一种基于生命周期理论的地理知识图谱质量测定方法。


背景技术:

1、随着信息与通讯技术的发展,海量时空信息不断涌现,呈现出多源异构的特点,对其蕴含的时空知识组织和知识挖掘提出了挑战。为此,结合通用知识图谱和时空信息特征的地理知识图谱应运而生。地理知识图谱是一种以节点和关系为载体的图结构时空知识组织方式。其用rdf三元组存储了地理概念及它们间的关系和地理对象及聚合的时空信息。这种以地理实体为中心聚合的时空信息能够有效表达时空、状态、过程、演化等的地理特性,并且支撑时空知识的内容关联、复合查询、协同计算及逻辑推理等应用,正逐步成为地学智能应用的驱动核心。上述应用的效果很大程度上依赖于地理知识图谱的质量,因此,使用者在使用地理知识图谱前需要测定地理知识图谱质量。

2、但是目前行业始终缺乏地理知识图谱质量的系统性测定方法,体现在直接使用通用知识图谱的质量测定方法测定地理知识图谱质量,进而导致两个主要问题:一是测定任务仅针对某一特定目标,使用的指标和计算方法都是分散的,没有形成完整的质量测定框架;二是通用知识图谱的测定方法没有顾及地理知识的时空特征,不能正确反映地理知识图谱质量。

3、因此,本领域的技术人员致力于开发一种基于生命周期理论的地理知识图谱质量测定方法,以解决上述现有技术的不足。


技术实现思路

1、有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是目前现有公开的技术直接使用通用知识图谱的质量测定方法测定地理知识图谱质量,导致测定任务仅针对某一特定目标,使用的指标和计算方法都是分散的,没有形成完整的质量测定框架;且通用知识图谱的测定方法没有顾及地理知识的时空特征,不能正确反映地理知识图谱质量的缺陷问题。

2、为实现上述目的,本发明提供了一种基于生命周期理论的地理知识图谱质量测定方法,包括将地理知识图谱的生命周期划分为数据阶段、生产阶段、内容阶段、应用阶段和交换阶段,依据所述地理知识图谱生命周期定义地理知识图谱质量qualitygeokg由数据阶段质量qualityins、生产阶段质量qualitymth、内容阶段质量qualitycon、应用阶段质量qualityapp和交换阶段质量qualityacc综合测定;具体包括以下步骤,

3、步骤1、计算数据阶段质量qualityins;所述数据阶段质量qualityins为待测定地理知识图谱的输入数据的质量;具体包括以下步骤:

4、步骤1-1、计算知识源可靠性;所述知识源可靠性指标indicatorprv使用构建所述待测定地理知识图谱的知识来源的可靠程度测定所述数据阶段质量,构建所述待测定地理知识图谱的知识来源的可靠程度越高则所述数据阶段质量越高;

5、所述知识源可靠性的计算具体包括以下步骤,

6、步骤1-1-1、计算一条知识源的层级权重prvweight、知识源的信息等级prvinformation;

7、所述知识源的信息等级prvinformation的计算公式为:

8、

9、其中,

10、providerlevel是所述知识源的注册等级或名望等级指数;

11、providernumber是所述知识源的贡献指数;

12、providerdistance是所述知识源与所提供知识的空间偏离距离指数;

13、进一步地,所述知识源的注册等级或名望等级指数providerlevel使用以下计算公式得到:

14、

15、其中,

16、level(provider)是所述知识源的注册等级或名望等级;

17、max_level是全部知识源中的最大注册等级或名望等级。

18、所述知识源的注册等级或名望等级越高,则所述知识源的注册等级或名望等级指数providerlevel越大;

19、进一步地,所述知识源的贡献指数providernumber使用以下计算公式得到:

20、

21、其中,

22、number(provider)是所述知识源贡献的知识数量;

23、average_number是全部知识源贡献的平均知识数量;

24、因此,所述知识源贡献的知识数量越多,则所述知识源的贡献指数providernumber越大;

25、进一步地,所述知识源与所提供知识的空间偏离距离指数providerdistance使用以下计算公式得到:

26、

27、distance(providercity-object)是所述知识源与所提供知识在地理空间上的欧式距离;

28、所述知识源与所提供知识在地理空间上的欧式距离越小,则所述知识源与所提供知识的空间偏离距离指数providerdistance越大;

29、进一步地,所述知识源的层级权重prvweight根据提供者层级确定;

30、在本发明具体实施方式中,所述提供者层级为世界或国家级权威数据源的,层级权重为1.00;

31、在本发明具体实施方式中,所述提供者层级为省际或区域高置信度数据源,层级权重为0.75;

32、在本发明具体实施方式中,所述提供者层级为一般公众性数据源,层级权重为0.50;

33、在本发明具体实施方式中,所述提供者层级为个人数据源,层级权重为0.25;

34、步骤1-1-2、计算待测定地理知识图谱的n条知识中,一条知识的来源可靠性prvi;所述一条知识的来源可靠性prvi的计算公式为:

35、prvi=prvweight×prvinformation

36、其中,

37、prvweight是知识源的层级权重;

38、prvinformation是知识源的信息等级;

39、步骤1-1-3、计算识源可靠性指标indicatorprv,所述知识源可靠性指标indicatorprv的计算公式为:

40、

41、其中,

42、所述待测定地理知识图谱由n条知识构建而成;

43、prvi为其中一条知识的来源可靠性;

44、步骤1-2、计算知识源时空覆盖度指标indicatorcrg;所述知识源时空覆盖度指标indicatorcrg使用构建所述待测定地理知识图谱的知识来源的在空间和时间上的限制程度测定所述数据阶段质量,构建所述待测定地理知识图谱的知识来源的知识源时空覆盖度越高则所述数据阶段质量越高;具体包括以下步骤,

45、步骤1-2-1、计算构成所述待测定地理知识图谱的n条知识中的一条知识的空间覆盖度crgspatial、时间覆盖度crgtemporal;

46、进一步地,所述空间覆盖度crgspatial使用以下计算公式得到:

47、

48、其中,

49、numspatial是所述待测定地理知识图谱中的空间知识三元组数量;

50、numsp_limited是所述待测定地理知识图谱中存在空间区域限制的空间知识三元组数量;

51、所述待测定地理知识图谱中存在的空间区域限制越少,则所述空间覆盖度crgspatial越大;

52、进一步地,所述时间覆盖度crgtemporal使用以下计算公式得到:

53、

54、其中,

55、numtemporal是所述待测定地理知识图谱中的知识三元组数量;

56、numtp_limited是所述待测定地理知识图谱中存在时间范围限制的空间知识三元组数量;

57、所述待测定地理知识图谱中存在的时间范围限制越少,则所述时间覆盖度crgtemporal越大;

58、步骤1-2-2、计算一条知识的知识源时空覆盖度crgi;算公式为:

59、crgi=crgspatial×crgtemporal

60、其中,

61、crgspatial是空间覆盖度,测定所述知识源在空间上的覆盖度;

62、crgtemporal是时间覆盖度,测定所述知识源在时间上的覆盖度;

63、步骤1-2-3、计算知识源时空覆盖度指标indicatorcrg;计算公式为:

64、

65、其中,

66、crgi是构成所述待测定地理知识图谱的n条知识中的一条知识的知识源时空覆盖度;

67、步骤1-3、计算知识媒介可靠性指标indicatormed;所述知识媒介可靠性指标indicatormed使用承载构建所述待测定地理知识图谱的知识的传输媒介可靠程度测定所述数据阶段质量,构建所述待测定地理知识图谱的知识媒介的可靠程度越高则所述数据阶段质量越高;具体包括以下步骤,

68、步骤1-3-1、计算所述代测定地理知识图谱中一条知识的知识媒介适宜性medsuitability、媒介损耗性medtype;

69、进一步地,所述知识媒介适宜性medsuitability使用以下计算公式得到:

70、

71、其中,

72、所述待测定地理知识图谱由l类知识构建而成;

73、sti为其中一类知识的媒介类型的适宜性;

74、若该类知识通过适宜的媒介传输,则所述sti取值为1.00;

75、若该类知识通过不适宜的媒介传输,则所述sti取值为0.50;

76、进一步地,所述媒介损耗性medtype,根据知识类型确定;

77、所述知识类型为结构化知识,媒介损耗为无损,媒介损耗性为1.00;

78、所述知识类型为半结构化知识,媒介损耗为有损,媒介损耗性为0.75;

79、所述知识类型为非结构化知识,媒介损耗为产生歧义,媒介损耗性为0.50;

80、步骤1-3-2、计算一条知识的媒介可靠性medi;公式为

81、medi=medsuitability×medtype

82、其中,

83、medsuitability是知识媒介适宜性,测定所述知识是否通过最适宜的媒介进行传输;

84、medtype是媒介损耗性,测定所述知识使用的媒介是否对所述知识造成传输耗损;

85、步骤1-3-3、计算知识媒介可靠性指标indicatormed;所述知识媒介可靠性指标indicatormed的计算公式为:

86、

87、其中,

88、medi是构成所述待测定地理知识图谱的n条知识中的一条知识的媒介可靠性;

89、步骤1-4、基于步骤1-1~步骤1-3所得的知识源可靠性指标indicatorprv、知识源时空覆盖度指标indicatorcrg、知识媒介可靠性指标indicatormed三个指标综合测定所述待测定数据阶段质量qualityins;公式为

90、

91、式中,

92、indicatorprv为知识源可靠性;

93、indicatorcrg为知识源时空覆盖度;

94、indicatormed为知识媒介可靠性;

95、步骤2、计算生产阶段质量qualitymth;所述生产阶段质量qualitymth是测定所述输入数据转换为所述待测定地理知识图谱时的质量,具体包括以下步骤,

96、步骤2-1、测定转换方法性能mthperformance、转换方法置信度mthtype;

97、进一步地,所述转换方法性能mthperformance可使用自然语言处理领域的f1值计算:

98、

99、其中,

100、p是转换结果的准确率:p=正确转换的数据数量/转换的全部数据数量;

101、r是转换结果的召回率:r=正确转换的数据数量/应被转换的数据数量;

102、进一步地,所述转换方法置信度mthtype可使用转换结果的检验水平进行测定:

103、mthtype=1-∝

104、其中,

105、∝是结果的检验水平或显著水平;

106、步骤2-2、计算一种转换方法的方法可靠性mthi;计算公式为:

107、mthi=mthperformance×mthtype

108、其中,

109、mthperformance是转换方法性能;

110、mthtype是转换方法置信度;

111、步骤2-3、测定所述待测定地理知识图谱的生产阶段质量qualitymth,计算公式为:

112、

113、其中,

114、mthi为所述待测定地理知识图谱使用m种转换方法将所述输入数据转换为所述待测定地理知识图谱的其中一种转换方法的方法可靠性;

115、步骤3、计算内容阶段质量qualitycon;所述内容阶段质量qualitycon是测定所述待测定地理知识图谱中含有的知识的质量;具体包括以下步骤,

116、步骤3-1、计算所述待测定地理知识图谱中一条知识的知识逻辑正确性crrloqic、知识内容正确性crrcontent;

117、对于所述知识逻辑正确性crrlogic可使用以下计算公式得到:

118、

119、其中,

120、numwl是所述待测定地理知识图谱中与本体模式冲突的知识数量;

121、n是所述待测定地理知识图谱中全部知识的数量;

122、所述待测定地理知识图谱中与本体模式冲突的知识越少,则所述知识逻辑正确性crrlogic越大;

123、对于所述知识内容正确性crrcontent可使用以下计算公式得到:

124、

125、其中,

126、numwt是所述待测定地理知识图谱中与真实情况不符的知识数量;

127、n是所述待测定地理知识图谱中全部知识的数量;

128、所述待测定地理知识图谱中与真实情况不符的知识越少,则所述知识内容正确性crrcontent越大;

129、步骤3-2、计算一条知识的知识正确性crri;计算公式为:

130、crri=crrlogic×crrcontent

131、其中,

132、crrloqic是知识逻辑正确性;

133、crrcontent是知识内容正确性;

134、步骤3-3、计算待测定地理知识图谱知识正确性指标indicatorcrr;所述知识正确性指标indicatorcrr使用所述待测定地理知识图谱含有知识的正确程度测定所述内容阶段质量,所述待测定地理知识图谱的知识正确性越高则所述内容阶段质量越高,所述知识正确性指标indicatorcrr的计算公式为

135、

136、其中,

137、crri是构成所述待测定地理知识图谱的n条知识中的一条知识的知识正确性;

138、步骤3-4、计算所述待测定地理知识图谱知识的类别误差cndtype、知识的空间误差cndspatial、知识的时间误差cndtemporal;

139、进一步地,所述类别误差cndtype可使用以下计算公式得到:

140、

141、其中,

142、numwtt是所述待测定地理知识图谱中存在类别错误的知识数量;

143、n是所述待测定地理知识图谱中全部知识的数量;

144、所述待测定地理知识图谱中存在类别错误的知识数量越小,则所述类别误差cndtype越大;

145、进一步地,所述空间误差cndspatial可使用以下计算公式得到:

146、

147、其中,

148、err_spatiali是所述待测定地理知识图谱在某一空间粒度中出现错误的知识数量;

149、n是所述待测定地理知识图谱中全部知识的数量,空间粒度及其数量p可参照行政区划、空间分辨率、比例尺等不同空间划分方式设定;

150、所述待测定地理知识图谱在不同空间粒度中出现错误的知识数量越小,则所述空间误差cndspatial越大;

151、进一步地,所述时间误差cndtemporal可使用以下计算公式得到:

152、

153、其中,

154、err_temporali是所述待测定地理知识图谱在某一时间粒度中出现错误的知识数量;

155、n是所述待测定地理知识图谱中全部知识的数量,时间粒度及其数量q可按年、月、日、时、分、秒等方式设定;

156、所述待测定地理知识图谱在不同时间粒度中出现错误的知识数量越小,则所述时间误差cndtemporal越大;

157、步骤3-5、计算所述待测定地理知识图谱知识的知识误差指标indicatorcnd;所述知识误差指标indicatorcnd使用所述待测定地理知识图谱含有知识的误差程度测定所述内容阶段质量,所述待测定地理知识图谱的知识误差越低则所述内容阶段质量越高,所述知识误差指标indicatorcnd的计算公式为:

158、indicatorcnd=cndtype×cndspatial×cndtemporal

159、其中,

160、cndtype是构成所述待测定地理知识图谱的n条知识的类别误差;

161、cndspatial是构成所述待测定地理知识图谱的n条知识的空间误差;

162、cndtemporal是构成所述待测定地理知识图谱的n条知识的时间误差;

163、步骤3-6、基于计算得到的待测定地理知识图谱的知识正确性指标indicatorcrr、知识误差指标indicatorcnd两个指标测定所述待测定地理知识图谱的内容阶段质量qualitycon:

164、

165、步骤4、计算应用阶段质量qualityapp;所述应用阶段质量qualityapp是测定所述待测定地理知识图谱中含有的知识符合应用需求的程度;具体包括以下步骤,

166、步骤4-1、计算所述待测定地理知识图谱中知识的概念完整性、空间完整性、时间完整性;

167、步骤4-2、计算所述待测定地理知识图谱的知识完整性指标indicatorcmp;所述知识完整性指标indicatorcmp使用所述待测定地理知识图谱是否含有应用所需目标概念测定所述应用阶段质量,所述待测定地理知识图谱的知识完整性越高则所述应用阶段质量越高,所述知识完整性指标indicatorcmp的计算公式为:

168、indicatorcmp=cmpcore×cmpspatial×cmptemporal

169、其中,

170、cmpcore是概念完整性,测定所述待测定地理知识图谱包含目标概念的程度;

171、cmpspatial是空间完整性,测定所述待测定地理知识图谱包含目标概念的空间范围的程度;

172、cmptemporal是时间完整性,测定所述待测定地理知识图谱包含目标概念的时间范围的程度;

173、进一步地,对于概念完整性,若所述待测定地理知识图谱包含目标概念,则cmpcore取值为1.00;若所述待测定地理知识图谱不包含目标概念,则cmpcore取值为0.50;

174、进一步地,对于空间完整性,若所述待测定地理知识图谱包含目标概念的空间范围,则cmpspatial取值为1.00;若所述待测定地理知识图谱不包含目标概念的空间范围,则cmpspatial取值为0.50;

175、进一步地,对于时间完整性,若所述待测定地理知识图谱包含目标概念的时间范围,则cmptemporal取值为1.00;所述待测定地理知识图谱不包含目标概念的时间范围,则cmptemporal取值为0.50;

176、进一步地,若未指定所述待测定地理知识图谱的应用目标,则用通用知识图谱的相关概念、空间、时间进行测定;

177、步骤4-3、计算所述待测定地理知识图谱中知识的概念代表性repcore、空间代表性repspatial、时间代表性reptemporal;

178、进一步地,所述概念代表性repcore可使用以下计算公式得到:

179、

180、其中,

181、kg_numconcept是所述待测定地理知识图谱中的目标概念数量;

182、kg_numconcept是参照领域知识图谱中的目标概念数量;

183、所述待测定地理知识图谱包含的参照领域知识图谱中的目标概念的数量越多,则所述概念代表性repcore越大;

184、进一步地,所述空间代表性repspatial可使用以下计算公式得到:

185、

186、其中,

187、numsp_tar_trp是所述待测定地理知识图谱中在目标地理空间区域的知识数量;

188、numsp_gen_trp是参照领域知识图谱中在目标地理空间区域的知识数量;

189、所述待测定地理知识图谱在目标地理空间区域内包含的参照领域知识图谱中的目标概念的数量越多,则所述空间代表性repspatial越大;

190、进一步地,所述时间代表性reptemporal可使用以下计算公式得到:

191、

192、其中,

193、numtp_tar_trp是所述待测定地理知识图谱中在目标时间范围的知识数量;

194、numtp_gen_trp是参照领域知识图谱中在目标时间范围的知识数量;

195、所述待测定地理知识图谱在目标时间范围内包含的参照领域知识图谱中的目标概念的数量越多,则所述时间代表性reptemporal越大;

196、步骤4-4、计算所述待测定地理知识图谱中知识代表性指标indicatorrep;所述知识代表性指标indicatorrep使用所述待测定地理知识图谱中含有知识与现实世界知识的分布偏差程度测定所述应用阶段质量,所述待测定地理知识图谱的知识代表性越高则所述应用阶段质量越高,所述知识代表性指标indicatorrep的计算公式为

197、indicatorrep=repcore×repspatial×reptemporal

198、其中,

199、repcore是概念代表性,测定所述待测定地理知识图谱包含的目标概念对现实世界知识的代表程度;

200、repspatial是空间代表性,测定所述待测定地理知识图谱包含的目标概念在空间上对现实世界知识的代表程度;

201、reptemporal是时间代表性,测定所述待测定地理知识图谱包含的目标概念在时间上对现实世界知识的代表程度;

202、步骤4-5、使用知识完整性indicatorcmp和知识代表性indicatorr□□两个指标测定所述待测定地理知识图谱的应用阶段质量qualityapp:

203、

204、步骤5、计算交换阶段质量qualityacc;所述交换阶段质量qualityacc是测定所述待测定地理知识图谱满足对外数据交换的程度;具体包括以下步骤,

205、步骤5-1、计算所述待测定地理知识图谱中的可理解性cphunderstand、可操作性cphinteroperate;

206、进一步地,所述可理解性cphunderstand可使用以下计算公式得到:

207、cphunderstand=schema×document

208、其中,

209、schema是uri可访问性,若用于访问所述待测定地理知识图谱的uri有效,则schema取值1.00;若用于访问所述待测定地理知识图谱的uri无效,则schema取值0.00;

210、document是说明文档情况,若所述待测定地理知识图谱有配套说明文档,则document取值1.00;若所述待测定地理知识图谱没有配套说明文档,则document取值0.00;

211、进一步地,所述互操作性cphinteroperate可使用以下计算公式得到:

212、

213、其中,

214、numunknown_concept是所述待测定地理知识图谱中对现有本体而言未知的概念数量;

215、humconcept是所述待测定地理知识图谱中全部概念的数量;

216、format是使用知识图谱标准格式的情况,若所述待测定地理知识图谱使用rdf、n-triples、turtle、json-ld等知识图谱标准格式交换,则format取值1.00;若所述待测定地理知识图谱没有使用知识图谱标准格式交换,则format取值0.00;

217、步骤5-2、计算所述待测定地理知识图谱中可解释性指标indicatorcph;所述可解释性指标indicatorcph使用所述待测定地理知识图谱能被人和计算机无障碍理解的程度测定所述交换阶段质量,所述待测定地理知识图谱的可解释性越高则所述交换阶段质量越高,所述可解释性指标indicatorcph的计算公式为:

218、indicatorcph=cphunderstand×cphinteroperate

219、其中,

220、cphunderstand是可理解性;

221、cphinteroperate是可操作性;

222、步骤5-3、计算所述待测定地理知识图谱的可得性excavailable、互链接性excinterlink、许可程度exclicensing;

223、进一步地,所述可得性excavailable可使用以下计算公式得到:

224、excavailable=volumeavailable/volumetotal

225、其中,

226、volumeavailable是所述待测定地理知识图谱中可被访问者下载的数据量;

227、volumetotal是所述待测定地理知识图谱全部的数据量;

228、所述待测定地理知识图谱中可被访问者下载的数据量越多,则所述可得性excavailable越大;

229、对于所述互链接性excinterlink可使用以下计算公式得到:

230、excinterlink=numins_linking/numins

231、其中,

232、numins_linking是所述待测定地理知识图谱中具有外部链接的实例数量;

233、numins是所述待测定地理知识图谱中全部实例的数量;

234、所述待测定地理知识图谱中具有外部链接的实例越多,则所述互链接性excinterlink越大;

235、进一步地,所述许可程度exclicensing,若所述待测定地理知识图谱提供了数据授权使用条件文件,则exclicensing取值1.00;若所述待测定地理知识图谱没有提供数据授权使用条件文件,则exclicensing取值0.50;

236、步骤5-4、计算所述待测定地理知识图谱的可交换性指标indicatorexc;所述可交换性指标indicatorexc使用所述待测定地理知识图谱能被访问和获取的程度测定所述交换阶段质量,所述待测定地理知识图谱的可交换性越高则所述交换阶段质量越高,所述可交换性指标indicatorexc的计算公式为:

237、indicatorexc=excavailable×excinterlink×exclicensing

238、其中,

239、excavailable是可得性;

240、excinterlink是互链接性;

241、exclicensing是许可程度;

242、步骤5-5、使用可解释性indicatorcph和可交换性indicatorexc两个指标测定所述待测定地理知识图谱的交换阶段质量qualityacc:

243、

244、步骤6、基于步骤1~5,计算待测定地理知识图谱的质量qualitygeokg,公式为

245、

246、式中,

247、qualityins为数据阶段质量;

248、qualitymth为生产阶段质量;

249、qualitycon为内容阶段质量;

250、qualityapp为应用阶段质量;

251、qualityacc为交换阶段质量;

252、采用以上方案,本发明公开的基于生命周期理论的地理知识图谱质量测定方法,具有以下优点:

253、本发明的基于生命周期理论的地理知识图谱质量测定方法,将地理知识图谱的生命周期划分为数据阶段、生产阶段、内容阶段、应用阶段和交换阶段,依据所述地理知识图谱生命周期定义地理知识图谱质量由数据阶段质量、生产阶段质量、内容阶段质量、应用阶段质量和交换阶段质量综合测定,形成了完整的质量测定框架,可正确反映地理知识图谱质量。

254、以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1