分布式数据库的样本索引树构建及近似计算方法和装置与流程

文档序号：35959500发布日期：2023-11-08 21:47阅读：24来源：国知局

本发明涉及数据库，尤其涉及一种分布式数据库的样本索引树构建及近似计算方法和装置。

背景技术：

1、数据库索引是数据库系统中重要的组成部分，用于加速数据的查询和检索操作。传统数据库索引通常是基于已有的数据构建，采用b树、b+树等数据结构，以支持快速的数据查找。

2、然而，随着数据量的增加和复杂查询的需求，传统数据库索引存在一些挑战，如索引构建效率低下、查询性能下降和资源利用不均衡等问题。

3、分布式数据库系统是为了解决大规模数据存储和查询问题而提出的解决方案。在分布式数据库中，数据通常分布在多个物理节点上，并且查询计划需要在这些节点上执行，以实现并行查询和分布式数据管理。为了提高分布式数据库系统的性能，需要更高效的索引构建和查询优化方法。

4、现有技术(公开号cn10877670a)中提出针对性查询的高效抽样方法，该方法通过分块抽样计算方法，利用抽样的方式来处理大数据。分块抽样计算方法的步骤如下：

5、数据分块：将原始数据按照一定的块大小进行划分，每个块包含一定数量的数据记录。

6、块内抽样：在每个数据块内进行抽样，选取一部分数据记录作为样本数据。

7、样本索引构建：对样本数据构建普通树结构的样品索引，例如二叉树或平衡树。

8、近似计算：基于样本数据和样本索引，进行近似计算操作。

9、上述技术方案在构建样本索引时需要进行全表扫描，因此可能存在较高的计算复杂度和资源消耗。另外，普通树结构的索引效率相对较低，可能对查询和检索操作的性能造成影响。最重要的，并未结合底层存储结构，索引与存储无关联，做不到高效寻址及分类。

技术实现思路

1、本发明要解决的技术问题是提高数据近似计算的准确性和效率，本发明提出一种分布式数据库的样本索引树构建及近似计算方法和装置。

2、根据本发明实施例的分布式数据库的样本索引树构建方法，包括：

3、a10，获取分布式数据库的数据库索引；

4、a20，对所述数据库索引按照预设规则进行分层抽样，构建样本索引b树。

5、根据本发明实施例的分布式数据库的样本索引树构建方法，在构建样本索引树时，通过对分布式数据库的数据库索引分层抽样，实现样本索引树的构建，无需对分布式数据库的所有数据进行扫描，提高了样本索引树的构建效率。而且，构建的样本索引树为b树索引，b树索引采用高效的平衡搜索树结构，能够快速支持数据的查询和检索操作。另外，由原数据库索引分层抽样构建的样本索引b树的数据组织方式与实际数据的物理分布相匹配，有利于资源的均衡，确保索引的高效利用。

6、根据本发明的一些实施例，步骤a10中，获取的数据库索引包括获取所述数据库索引的结构和节点信息。

7、在本发明的一些实施例中，所述数据库索引为b树索引，步骤a20中，构建的所述样本索引b树与所述数据库索引b树的叶子节点数量的比例保持一致。

8、根据本发明的一些实施例，步骤a20中，在对所述数据库索引的各层进行抽样时，所述预设规则采用以下之一：

9、随机抽样规则，水塘抽样规则，根据数据的特征、属性进行抽样。

10、根据本发明实施例的分布式数据库的样本索引树构建装置，包括：

11、获取模块，用于获取分布式数据库的数据库索引；

12、样本索引构建模块，用于对所述数据库索引按照预设规则进行分层抽样，构建样本索引b树。

13、根据本发明实施例的分布式数据库的样本索引树构建装置，在构建样本索引树时，通过对分布式数据库的数据库索引分层抽样，实现样本索引树的构建，无需对分布式数据库的所有数据进行扫描，提高了样本索引树的构建效率。而且，构建的样本索引树为b树索引，b树索引采用高效的平衡搜索树结构，能够快速支持数据的查询和检索操作。另外，由原数据库索引分层抽样构建的样本索引b树的数据组织方式与实际数据的物理分布相匹配，有利于资源的均衡，确保索引的高效利用。

14、根据本发明的一些实施例，所述获取模块获取的数据库索引包括获取所述数据库索引的结构和节点信息。

15、在本发明的一些实施例中，所述数据库索引为b树索引，所述样本索引构建模块构建的所述样本索引b树与所述数据库索引b树各节点下的叶子节点数量的比例保持一致。

16、根据本发明的一些实施例，在对所述数据库索引的各层进行抽样时，所述样本索引构建模块采用的所述预设规则为以下之一：

17、随机抽样规则，水塘抽样规则，根据数据的特征、属性进行抽样。

18、根据本发明实施例的分布式数据库的数据近似计算方法，包括：

19、s10，采用如上所述的分布式数据库的样本索引树构建方法构建样本索引b树；

20、s20，通过所述样本索引b树获取样本数据，基于所述样本数据进行近似计算。

21、根据本发明实施例的分布式数据库的数据近似计算装置，包括：

22、样本索引树构建装置，用于构建样本索引b树，所述样本索引树构建装置采用如上所述的分布式数据库的样本索引树构建装置；

23、计算模块，用于通过所述样本索引b树获取样本数据，基于所述样本数据进行近似计算。

24、根据本发明实施例的分布式数据库的数据近似计算方法及装置，通过将分层抽样与b树索引相结合，解决了大规模数据集的近似计算任务，具有以下有益效果：

25、提高样本的代表性：分层抽样是一种有效的抽样方法，基于分布式数据库的数据库索引构建的样本索引b树，可以从分布式数据库大规模数据集中选取具有代表性的样本。通过使用分层抽样，构建的样品索引能够更好地代表原始数据的分布情况，从而在近似计算任务中得到更准确的结果。

26、强关联的b树索引：通过将样本索引构建为b树索引，并且与数据物理分片强关联，可以快速定位到指定的节点进行查询和计算操作。这种强关联性使得查询过程更加高效，无需遍历全部数据，从而大大提高了计算效率。

27、高效的近似计算：由于采用了分层抽样和b树索引，构建的样本索引b树可以更快地找到近似计算的起始点，从而加速近似计算的过程。同时，通过合理的抽样算法，可以使得近似计算的值更加准确，并在满足数据查询需求的前提下，减少了索引的存储空间和构建成本。

28、计算准确性和效率的平衡：本发明在大规模数据集的近似计算任务中实现了计算准确性和效率之间的平衡。通过合理的分层抽样算法和b树索引结构，能够在保持较高计算准确性的同时，提高计算效率，适用于大规模数据和高并发查询的场景。

技术特征：

1.一种分布式数据库的样本索引树构建方法，其特征在于，包括：

2.根据权利要求1所述的分布式数据库的样本索引树构建方法，其特征在于，步骤a10中，获取的数据库索引包括获取所述数据库索引的结构和节点信息。

3.根据权利要求1所述的分布式数据库的样本索引树构建方法，其特征在于，所述数据库索引为b树索引，步骤a20中，构建的所述样本索引b树与所述数据库索引b树的叶子节点数量的比例保持一致。

4.根据权利要求1所述的分布式数据库的样本索引树构建方法，其特征在于，步骤a20中，在对所述数据库索引的各层进行抽样时，所述预设规则采用以下之一：

5.一种分布式数据库的样本索引树构建装置，其特征在于，包括：

6.根据权利要求5所述的分布式数据库的样本索引树构建装置，其特征在于，所述获取模块获取的数据库索引包括获取所述数据库索引的结构和节点信息。

7.根据权利要求5所述的分布式数据库的样本索引树构建装置，其特征在于，所述数据库索引为b树索引，所述样本索引构建模块构建的所述样本索引b树与所述数据库索引b树的叶子节点数量的比例保持一致。

8.根据权利要求5所述的分布式数据库的样本索引树构建装置，其特征在于，在对所述数据库索引的各层进行抽样时，所述样本索引构建模块采用的所述预设规则为以下之一：

9.一种分布式数据库的数据近似计算方法，其特征在于，包括：

10.一种分布式数据库的数据近似计算装置，其特征在于，包括：

技术总结
本发明提出了一种分布式数据库的样本索引树构建及近似计算方法和装置，样本索引树构建方法包括：A10，获取分布式数据库的数据库索引；A20，对数据库索引按照预设规则进行分层抽样，构建样本索引B树。本发明在构建样本索引树时，通过对分布式数据库的数据库索引分层抽样，实现样本索引树的构建，无需对分布式数据库的所有数据进行扫描，提高了样本索引树的构建效率。而且，构建的样本索引树为B树索引，B树索引采用高效的平衡搜索树结构，能够快速支持数据的查询和检索操作。另外，由原数据库索引分层抽样构建的样本索引B树的数据组织方式与实际数据的物理分布相匹配，有利于资源的均衡，确保索引的高效利用。

技术研发人员：邹仁利,万祥宾,高雪玉,苗健,吕新杰
受保护的技术使用者：瀚高基础软件股份有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹仁利万祥宾高雪玉苗健吕新杰
技术所有人：瀚高基础软件股份有限公司
我是此专利的发明人

上一篇：侏罗系砂岩含水量预测方法与流程
上一篇：基于因子分解的无监督异常检测模型选择方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。