面向大规模向量空间路径约束连接查询方法

文档序号:30835464发布日期:2022-07-22 22:56阅读:来源:国知局

技术特征:
1.面向大规模向量空间路径约束连接查询方法,其特征在于,包括以下步骤:步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;步骤2在分布式集群系统中引入map-reduce处理框架,设计基于网格的距离计算优化方法;步骤3在map阶段中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中;步骤4在reduce阶段进行结果路径选取,调用map阶段输出的最终结果集并写入分布式系统的主计算节点中进行计算,不断删掉起点进行递归扩展遍历,最终得到查询路径。2.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤1中所述的基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略,包括如下步骤:步骤1-1基于多节点的分布式集群系统构建整体网络基于多节点的分布式集群系统构建整体网络g=(v,e),整体网络是全部查询点和边的总和,即包含全部查询点集合e和单向边集合v;其中,查询点的含义为分布式集群系统中的各机器节点,单向边为个机器节点间的局域网单向连接;若两个查询点对不在单向边集合v中,则默认这两个查询点之间是可以双向抵达的;步骤1-2网格划分策略将向量空间中的节点投影到网格中,以约束距离ε进行等宽网格划分,将全部备选节点划分至对应的单元格内,创建网格索引,设置出发节点p及约束距离ε,计算到出发节点p的其他所有不超过给定约束距离ε的备选节点,表示为p-ε近邻节点查询。查询某一出发节点的最近邻居节点需要以全部节点作为代表,考虑每一节点时必须要计算整体网络g内全部节点到所考虑节点的距离。3.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤2中所述在分布式集群系统中引入map-reduce处理框架,设计基于网格的距离计算优化方法,包括如下步骤:步骤2-1查询节点到单元格的距离计算查询节点到单元格的距离,在计算查询节点到邻居单元格的距离的时候分为两种不同的情况:第一种情况,查询节点所在的单元格与对应需要计算的邻居单元格在某一维度上是相同的,在这种情况下,只计算不同维度上的距离,相同那一维度上的距离默认为0。第二种情况,查询节点所在的单元格与对应需要计算的邻居单元格在两个维度上都不相同,在这种情况下需要同时考虑两个不同维度的距离,计算实际距离。查询点到单元格的距离计算公式为;其中,c是一个邻居单元格,q为主单元格内的一个查询点,lb
c
[i]为c单元格下界,ub
c
[i]是c单元格上界,p为向量空间总维度数,q[i]为主单元格内选定的查询点,当查询点q位于上下界范围内时,默认该维度的距离为0,反之,则需要具体计算距离;
步骤2-2查询点间的距离计算查询点之间的距离为空间上的节点之间的实际距离,查询点间的距离计算公式为:公式(ii)中q点及o点是整体网络g中的两个查询点,i为的含义为向量空间节点累加的下界,p的含义是向量空间的总维度数,q
i
和o
i
是具体到某一维度上的实际距离。4.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤3中所述在map过程中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中,按照如下步骤进行:四阶段筛选策略实现由单元格粒度到节点粒度的逐级细化删减方式,分为出发点到单元格距离筛选、出发点所在约束区域筛选、单向边筛选以及出发点备选点实际距离筛选。步骤3-1设计筛选满足条件的备选节点方法在map阶段,计算出发节点到单元格的距离、出发节点所有的约束区域、单向边的删选以及节点之间的距离筛选,根据所得到的计算结果进行删选操作,每一个map最终得到下一步可以前进的一个结果子集:{......;出发节点;......};即在map计算阶段,找到所有到出发节点距离小于给定约束距离e的备选节点的集合,将结果集缓存在分布式系统中各机器节点的内存中。步骤3-2出发节点到单元格距离筛选策略在这一阶段计算出发节点到单元格的距离,设置出发节点q,根据步骤2-1中的公式(ⅰ)计算出发节点q到不同维度的邻居单元格的距离,根据步骤3-1设定的备选节点筛选方案判定计算值是否超过给定约束距离阈值ε,若超过给定约束距离阈值ε,则该单元格内所有备选节点的距离计算都不需要再执行,可以全部删减;计算结束后,将所有满足筛选条件的单元格内的备选节点作为结果子集输出;步骤3-3出发节点所在约束区域筛选策略针对步骤3-2输出的结果子集,在符合出发节点到邻居单元格距离约束的情况下,查询到出发节点距离为给定阈值ε的约束区域,出发节点的约束区域为四条直线构成的正方形区域,出发节点位于约束区域的中心位置,四条直线到出发节点的直线距离为给定阈值ε;若备选节点位于约束区域外,可以直接删除,筛选结束后,得到满足符合约束区域筛选策略的输出结果子集;步骤3-4单向边筛选策略针对步骤3-3的处理结果,在余下的全部的可能备选节点中,调用单向边数据集合进行查找,若备选节点到出发节点为单向,且方向设置为备选节点到出发节点,则该备选节点不满足单向边筛选策略,将该节点删除。若备选节点到出发节点为双向抵达,则将该备选节点归纳至结果子集中,经过单向边筛选后,输出结果子集;步骤3-5出发点备选点实际距离筛选策略在剩余结果子集中进行最后一步的具体计算,由步骤2-2的公式(ⅱ),计算备选节点到出发节点之间的实际距离,判断计算结果是否大于给定阈值ε,若计算结果大于给定阈值ε,判定为该备选节点不符合最终输出路径要求,可以将该点直接删除,若计算结果小于给定
阈值ε,判定为该备选节点符合最终输出路径要求,保留在结果子集中,计算结束后,输出最终的结果集,并将结果集缓存到内存中。5.按照权利要求1所述的面向大规模向量空间路径约束连接查询方法,其特征在于步骤4中所述的在reduce阶段进行结果路径选取,调用步骤3中的map阶段输出的最终结果集并写入分布式系统的主计算节点中进行计算,不断删掉起点进行递归扩展遍历,得到查询路径,过程如下:步骤4-1结果路径筛选策略在reduce阶段,调用缓存在各机器节点内存中的map阶段的最终结果集,由步骤3中的四阶段筛选策略得到的最终结果集可知,距离出发节点的距离小于约束距离ε的全部符合条件的备选节点已经找到,由第一个节点所对应的map计算结果开始,依次向下调用map计算结果,在删除起点并更新路径后,继续不断向下调用,重复上述步骤,不断递归拓展所得到的路径,最终找到满足约束条件的路径,或者判定并不存在满足约束条件的结果路径。

技术总结
本发明涉及一种面向大规模向量空间路径约束连接查询方法,属于大数据应用领域。具体方案为:步骤1基于多节点的分布式集群系统构建整体网络,制定整体网格划分策略;步骤2在分布式集群系统中引入Map-Reduce处理框架,设计基于网格的距离计算优化方法;步骤3在Map阶段中设计四阶段筛选策略,根据计算结果进行减枝操作,找到所有满足四阶段筛选策略的备选节点,产生的结果集缓存在分布式系统中各机器节点的内存中;步骤4在Reduce阶段进行结果路径选取,调用Map阶段输出的最终结果集并写入分布式系统的主计算节点中进行计算,不断删掉起点进行递归扩展遍历,最终得到查询路径。采用本发明技术方案,极大程度减少了中间计算节点的数量,可以有效解决现有向量空间约束路径查询方法中存在的中间计算节点的数量过多、结果集优化效果不佳的技术问题以及用户无法在大规模向量空间中处理海量数据的技术问题。规模向量空间中处理海量数据的技术问题。规模向量空间中处理海量数据的技术问题。


技术研发人员:王俊陆 隋宇 宋宝燕 纪婉婷 陈廷伟 张师文
受保护的技术使用者:辽宁大学
技术研发日:2022.05.10
技术公布日:2022/7/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1