一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法与流程

文档序号:11386810阅读:330来源:国知局
本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,将以数据、信息和知识等形态的资源根据存储代价和搜索代价综合考虑资源组织方案。主要用于通过数据图谱、信息图谱和知识图谱对以数据、信息和知识形态出现的资源进行合理组织和存储,提高搜索效率,属于分布式计算和软件工程学技术交叉领域。
背景技术
:传统的搜索引擎技术根据用户的查询要求快速检索和排序网页资源,对于搜索引擎反馈的大量资源需要用户进行人工排查和筛选,导致搜索效率低下,难以满足用户快速获取到资源的需求。现有的技术包括基于机器学习的方法和基于本体的方法为应对这一挑战做出了许多贡献,然而,基于机器学习的方法缺乏有效的机制来明确地将经验知识与训练模型结合在一起,基于本体的方法受到人类专家方面沉重负担的限制。知识图谱容纳资源规模较大,涵盖的知识领域广泛,并且能为用户提供智能搜索和问答服务。基于知识图谱的搜索侧重于图结构的逻辑推理计算,基于语义网三元组进行推理补充资源信息,实现web从网页链接向概念链接的转变,支持用户按照语句进行检索,以图形化的方式向用户反馈结构化知识,准确定位用户所需资源,使用户从人工过滤网页寻找答案的模式中解脱出来,提高了搜索效率。本文提出一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法关键技术在于对不同图谱上的搜索效率和将以数据、信息和知识等形态存在的资源根据在数据图谱、信息图谱和知识图谱上的综合代价进行存储,通过对资源的合理组织和存储能够达到搜索效率最优。技术实现要素:技术问题:本发明的目的是提供一种对数据(datadik)、信息(informationdik)和知识(knowledgedik)(我们定义数据为datadik,信息为informationdik,知识为knowledgedik)等形态的资源的原始表述的自然语言的机器理解、自动处理、自动综合和自动分析方法,用于解决对不同类型、不同规模资源的高效组织和存储,以便提高在图谱上的搜索效率,降低搜索过程中所要耗费的代价。技术方案:本发明是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,从应对自动增量式结合经验知识和减少人工专家交互负担等两个方面考虑,从资源处理、处理优化和资源管理等角度进行研究,基于对现有知识图谱(knowledgegraph)概念的拓展提出了一种三层可自动抽象调整的解决架构。这个架构包括:数据图谱(datagraphdik)、信息图谱(informationgraphdik)和知识图谱(knowledgegraphdik)(我们定义数据图谱为datagraphdik,信息图谱为informationgraphdik,知识图谱为knowledgegraphdik)等三个层面。基于不同层次的图谱架构进行存储资源,提高搜索效率。体系结构图1给出了在datagraphdik,informationgraphdik和knowledgegraphdik上查找资源的体系结构,获取到用户的资源查找对象集合(ipr)后,计算在资源存储空间(sor)上搜索的代价。表1所示为对datadik、intormationdik和knowledgedik等形态的资源以及对应图谱层次的介绍。表2所示为ipr中单位资源类型转换的原子代价,表3所示为sor中单位资源类型转换的原子代价。下面我们给出datagraphdik,informationgraphdik和knowledgegraphdik的具体说明。我们定义datagraphdik为datagraphdik:=collection{array,list,stack,queue,tree,graph}.datagraphdik是各种数据结构包括数组(array)、链表(list)、栈(stack)、队列(queue)、树(tree)和图(graph)等的集合(collection)。datagraphdik只能对图谱上表示的datadik进行静态分析,无法分析和预测datadik的动态变化。我们定义informationgraphdik为informationgraphdik:=combination{relateddatadik}。informationgraphdik是相互关联的datadik(relateddatadik)的组合(combination),informationdik是通过datadik和datadik组合之后的上下文传达的,经过概念映射和相关关系组合之后的适合分析和解释的信息。在informationgraphdik上进行数据清洗,消除冗余数据。我们定义knowledgegraphdik为knowledgegraphdik:=collection{statisticrules}。knowledgegraphdik实质是语义网络和由informationdik总结出的统计规则(statisticrules)的集合(collection)。knowledgegraphdik蕴含丰富的语义关系,在knowledgegraphdik上能通过信息推理和实体链接提高knowledgegraphdik的边密度和结点密度,knowledgegraphdik的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持,这些规则可以由人手动构建,但往往耗时费力,得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征,通过在knowledgegraphdik中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系。本发明将搜索目标资源集合定义为ipr:={ipr1,ipr2,ipr3},ipr的类型集合为x={x1,x2,x3},每种资源的规模为n={n1,n2,n3},资源空间为sor={sor1,sor2,sor3},sor的类型集合为y={y1,y2,y3},每种资源的规模为m={m1,m2,m3},假定ipr中所有类型资源已在当前资源存储空间(sor)以任意一种存储方案存储完毕。类型变量集合为z={datadik,informationdik,knowledgedik},对不同类型变量进行赋值,datadik:=1,informationdik:=2,knowledgedik:=3。表1.资源类型的渐进形式表2.ipr中单位资源类型转换的原子代价标注:c11:从x1转移到datadik的代价;c12:从x1转移到informationdik的代价;c13:从x1转移到knowledgedik的代价;c21:从x2转移到datadik的代价;c22:从x2转移到informationdik的代价;c23:从x2转移到knwledgedik的代价;c31:从x3转移到datadik的代价;c32:从x3转移到informationdik的代价;c33:从x3转移到knowledgedik的代价。表3.sor中单位资源类型转换的原子代价y1y2y3datadikc’11c’12c’13informationdikc’21c’22c’23knowledgedikc’31c’32c’33标注:c’11:从datadik转移到y1的代价;c’12:从informationdik转移到y1的代价;c’13:从knowledgedik转移到y1的代价;c’21:从datadik转移到y2的代价;c’22:从informationdik转移到y2的代价;c’23:从knwledgedik转移到y2的代价;c’31:从datadik转移到y3的代价;c’32:从informationdik转移到y3的代价;c’33:从knowledgedik转移到y3的代价。有益效果:本发明提出了一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,主要用于解决对于以datadik,informaitiondik和knowledgedik形态存在的资源存储和资源搜索等问题。通过使用本发明提出的方法可以实现对不同类型资源的合理组织和存储,花费最合理的存储代价和搜索代价并实现最优的搜索效率。该方法具有如下优点:1)对资源类型的划分;将资源划分为datadik、informationdik和knowledgedik,便于挖掘资源之间的联系,从datadik经过抽象得到informationdik、knowledgedik,从knowledgedik进行推理得到datadik、informationdik;2)允许跨层存储资源仅仅通过资源类型无法判断出资源应存储在哪一类型图谱上,本发明提出假定资源初始存储在某一类型图谱上,根据资源搜索效率的计算和综合代价的计算确定资源的存储和搜索位置;3)存储搜索计算一体化一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,通过存储代价和搜索代价综合考虑,选择综合代价最低的存储方案,达到花费较小存储代价的同时获得高效搜索资源的目标。附图说明图1是一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法流程图。具体实施方式一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法,其特征在于以计算来决定存储,以存储来服务搜索,综合考虑资源对象的搜索方案和资源空间的存储方案。具体实施方式为:步骤1)对应于图1中操作001,对x中每个元素依次取z中的值,形成组合情形x={x1i,x2j,x3k},i,j,k∈{1,2,3};步骤2)对应于图1中操作002,对每种情形,根据公式1计算ipr中资源当前情形向每种情形转移的代价(costmt1):(1)步骤3)对应于图1中操作003,对y中每个元素依次取z中的值,形成组合情形y={y1m,y2n,y3p},m,n,p∈{1,2,3};步骤4)对应于图1中操作004,根据公式2计算在sor中搜索ipr中资源所要花费的计算代价(cost计算):(2)其中c(x1i,x2j,x3p->y1m,y2n,y3p)为在sor中查找ipr所要花费的代价,α和β分别表示图谱规模和资源类型转换代价占cost计算的权重,均可通过数据训练得出,λ表示资源是否需要转换不同类型,若需要转换,则用0表示,否则,用1表示;步骤5)对应于图1中操作005,对y中每种情形,根据公式3计算y中每种资源形态向sor中资源当前情形转移的代价(costmt2):(3)步骤6)对应于图1中操作006,根据步骤2、4、5得到的costmt1ijk、costmt2mnp和cost计算,根据公式4计算从当前ipr向x转移的代价和y中资源向sor状态转移的代价和计算代价的总和(total_cost):(4)步骤7)对应于图1中操作007,获取用户预期投入(inve0)。本发明设定一个总代价(total_cost0),对应于图1中操作008,将不同情形下total_cost的值与total_cost0进行比较,并将对应情形所需用户投入(inve)和inve0作比较,判断是否满足条件“total_costi<total_cost0&invei<inve0”。009当total_cost小于total_cost0时,令total_cost0等于当前total_cost,若total_cost大于total_cost0时,执行下一步操作,用户投入计算方法如公式5所示:(5)其中γ表示单位代价所需用户投入,可通过数据训练得出;步骤8)对应于图1中操作010,判断当x或y中的组合是否穷举完毕。若没有穷举完毕,返回步骤1继续穷举。若穷举完,对应于图1中操作011,按照当前total_cost0对应的的方案调整ipr和sor中资源的类型。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1