一种基于深度聚类的语义位置检索方法、系统、设备及介质

文档序号:39362123发布日期:2024-09-13 11:13阅读:26来源:国知局
一种基于深度聚类的语义位置检索方法、系统、设备及介质

本发明涉及知识图谱空间数据检索领域,尤其涉及一种基于深度聚类的语义位置检索方法、系统、设备及介质。


背景技术:

1、知识图谱通常由实体(例如人、组织、地点等)和连接实体的关系(例如出生于、就读于等)组成,现有知识图谱中的这些实体和关系已经被进一步丰富,时间与空间的信息得到补充,例如yago2在yago的基础上,拓展了空间和时间的维度。这种时空信息的拓展,使得基于知识图谱的复杂搜索和分析成为可能。在此类知识图谱上进行关键字搜索是一个被广泛研究的领域,它允许用户在不了解知识图谱模型和sparql等结构化查询语言的情况下检索需要的信息。虽然现有的方法使用r-tree等空间索引和不同的剪枝规则减少检索空间,但仍然有太多的候选实体需要在线遍历检查。


技术实现思路

1、发明目的:本发明旨在提供一种基于深度聚类能够缩小候选集合的大小的语义位置检索方法;本发明的另一目的是提供一种基于深度聚类的语义位置检索系统、设备及介质。

2、技术方案:本发明所述的基于深度聚类的语义位置检索方法,包括以下步骤:

3、(1)提取知识图谱中实体的空间和语义信息;

4、(2)使用空间实体编码器,将实体的空间和语义信息编码成统一的嵌入向量;

5、(3)使用级联的孪生神经网络框架,对步骤(3)得到的嵌入向量进行深度聚类,得到聚类结果集;

6、(4)根据聚类结果集和用户任务信息,使用基于skyline的语义位置检索方法,查询符合用户任务信息的语义位置。

7、进一步的,步骤(1)所述提取知识图谱中实体的空间和语义信息,具体如下:

8、(11)将知识图谱中的实体划分为空间实体和一般实体;

9、(12)提取知识图谱中的任意实体的关键字,形成描述各个实体的一般关键字集;

10、(13)将空间实体及其子实体的一般关键字集进行拼接去重,形成描述各个空间实体的空间关键字集合;

11、(14)提取空间实体的地理坐标信息。

12、进一步的,步骤(12)提取知识图谱中的任意实体的关键字,形成描述各个实体的一般关键字集,具体如下:

13、先从节点uri中提取节点名称,再和节点标签值一起使用“_”符号进行分词,并通过小写字母转换,生成初步的关键字集;针对初步的关键字集,使用停用词表去除wikicat、wordnet、of、109303008关键字,最后去重处理,生成一般关键字集。

14、进一步的,步骤(2)使用空间实体编码器,将实体的空间信息和语义信息编码成统一嵌入向量的过程如下:

15、(21)给定空间实体si=(xi,yi),空间编码器encx()=nn(pe(t)(x))将坐标xi编码为空间嵌入向量其中,nn()表示全连接层,表示d(x)维度的表征空间,d(x)=6s,s表示网格尺度的总数,pe(t)(x)表示连接向量的多尺度表征;

16、(22)给定空间实体si=(xi,yi),语义编码器ency()将空间关键字集编码为语义嵌入向量具体如下:

17、

18、其中,表示空间关键字集中第h个关键字对于的嵌入向量,h表示空间关键字集中向量的总数,表示d(y)维度的表征空间;

19、(23)完整的空间实体嵌入向量e是空间嵌入向量e[xi]和语义嵌入向量e[yi]之和,具体如下:

20、

21、且,d=d(x)+d(y)。

22、进一步的,所述连接向量的多尺度表征pe(t)(x)满足以下条件:

23、

24、其中,s表示网格尺度的总数,对于每一个尺度s,满足以下条件:

25、

26、

27、其中,aj为单位向量,且a1、a2、a3之间的夹角为2π/3;λmin为最小网格尺度,λmax为最大网格尺度,g为λmax/λmin。此处利用不同频率的正弦和余弦函数,将坐标分解成多尺度表示,可以更好反映周围环境,捕获更多空间信息。

28、进一步的,步骤(3)使用级联的孪生神经网络框架,对实体嵌入向量进行深度聚类,具体如下:

29、(31)定义聚类分区目标(cpo)为

30、

31、其中,s(si,sj)表示同一聚类内一对空间实体(si,sj)的相似性,通过最小化cpo来最小化同一聚类内的语义位置差异,而最大化不同聚类间的语义位置差异;

32、(32)使用孪生神经网络对实体嵌入向量进行聚类,并定义损失函数l(si,sj)如下:

33、

34、其中,c(si)=c(sj)表示它们在同一聚类内,损失函数对1-s(si,sj)进行求和并将其最小化,以减小聚类内实体嵌入向量的差异;

35、(33)使用级联的孪生神经网络框架进行聚类训练,框架分为若干层,每层包含若干个孪生神经网络,形成一个树形结构,每个孪生神经网络负责将当前集合划分为两个子集合,从而将实体嵌入向量集划分为数千个聚类,作为聚类结果集。

36、进一步的,步骤(4)使用基于skyline的语义位置检索方法,查询符合条件语义位置的实现过程如下:

37、(41)用户输入用户任务信息,用户任务信息包括查询位置和查询关键词,返回结果数k;

38、(42)对于聚类结果集c1,c2,...,cn,计算每一个聚类内所有嵌入向量的平均值,作为该聚类的中心点,得到聚类中心点集o1,o2,...,on;

39、(43)将聚类中心点oi和给定查询的相似度与阈值τ进行比较,如果小于阈值,则对该聚类内所有嵌入向量进行剪枝,否则将其加入候选集合;

40、(44)对候选集合,使用基于skyline的语义位置检索算法,按分数返回top-k带有位置信息的结果给用户。

41、本发明所述于深度聚类的语义位置检索系统,包括:

42、数据预处理模块,用于提取知识图谱中实体的空间和语义信息;

43、用户输入模块,用于输入用户任务信息;

44、实体空间编码模块,用于将实体的空间和语义信息编码成统一的嵌入向量;

45、深度聚类模块,用于使用级联的孪生神经网络框架,对得到的嵌入向量进行深度聚类,得到聚类结果集;

46、语义位置检索模块,用于使用基于skyline的语义位置检索方法,查询符合用户任务信息的语义位置。

47、本发明所述计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

48、本发明所述算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

49、有益效果:本发明与现有技术相比,其显著优点是:1、本发明使用级联的孪生神经网络框架来提高集群性能和训练速度,使用孪生神经网络进行深度聚类,减小检索空间,以避免在大规模知识图谱上进行在线的图遍历,提升检索效率;2、本发明通过使用空间实体编码器,将每个实体的空间和语义信息编码成统一嵌入向量,以便后期将知识图谱中实体的空间和语义信息进行有效聚类;3、本发明能够对候选实体进行深度聚类,缩小候选集合的大小,从而检索效率高;4、本发明可以根据查询位置和查询关键字,检索并返回得到top-k带有位置信息的结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1