列式文件查询方法、装置、设备及存储介质与流程

文档序号:34538093发布日期:2023-06-27 14:01阅读:17来源:国知局
列式文件查询方法、装置、设备及存储介质与流程

本发明涉及计算机,尤其涉及一种列式文件查询方法、装置、设备及存储介质。


背景技术:

1、目前,高压缩比和高读取效率的列式文件被很多大数据项目使用,列式文件中本身具有列的索引统计信息(记录数、最大值、最小值、是否有空值、求和),且在一些字符类型的字段上,虽然也有字典数据,但是,此处的字典数据是为了提供高压缩比而存在的,并不能起到提高查询效率的作用,由此导致对列式文件进行查询时若查询条件中包含字符类型的查询条件,则会导致查询速度缓慢,查询效率低。

2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本发明的主要目的在于提供一种列式文件查询方法、装置、设备及存储介质,旨在解决如何提高查询列式文件时的查询效率的技术问题。

2、为实现上述目的,本发明提供了一种列式文件查询方法,所述方法包括以下步骤:

3、在接收到数据查询语句时,对所述数据查询语句进行解析,获得目标列式文件集及若干个查询条件;

4、将所述若干个查询条件分为优化查询条件及标准查询条件;

5、根据所述优化查询条件及所述目标列式文件集对应的字典数据对所述目标列式文件集中的列式文件进行过滤,获得目标文件子集;

6、根据所述标准查询条件对所述目标文件子集进行文件筛选,获得所述数据查询语句对应的目标列式文件。

7、可选的,所述在接收到数据查询语句时,对所述数据查询语句进行解析,获得目标列式文件集及若干个查询条件的步骤之前,还包括:

8、在接收到文件存储请求时,根据所述文件存储请求确定待存储文件及目标文件空间;

9、对所述待存储文件进行解析,获取所述待存储文件中的数据存储字段;

10、从所述数据存储字段中选取预设优化字段;

11、根据所述预设优化字段及所述预设优化字段对应的待存储数据生成所述待存储文件对应的字典数据;

12、将所述字典数据存储至预设数据库,并将所述待存储文件存储至所述目标文件空间。

13、可选的,所述根据所述预设优化字段及所述预设优化字段对应的待存储数据生成所述待存储文件对应的字典数据的步骤,包括:

14、获取所述预设优化字段对应的待存储数据;

15、计算所述待存储数据对应的数据布隆值;

16、根据所述预设优化字段及所述数据布隆值生成所述待存储文件对应的字典数据。

17、可选的,所述根据所述优化查询条件及所述目标列式文件集对应的字典数据对所述目标列式文件集中的列式文件进行过滤,获得目标文件子集的步骤,包括:

18、根据所述优化查询条件构建文件过滤规则;

19、获取所述目标列式文件集中各列式文件对应的字典数据;

20、将所述目标列式文件集中所述字典数据不满足所述文件过滤规则的列式文件过滤,获得目标文件子集。

21、可选的,所述根据所述优化查询条件构建文件过滤规则的步骤,包括:

22、生成所述优化查询条件对应的布隆查询条件;

23、根据所述布隆查询条件构建文件过滤规则。

24、可选的,所述生成所述优化查询条件对应的布隆查询条件的步骤,包括:

25、获取所述优化查询条件对应的条件查询值及条件查询字段;

26、通过预设布隆算法计算所述条件查询值对应的布隆查询值;

27、根据所述布隆查询值及所述条件查询字段生成布隆查询条件。

28、可选的,所述将所述目标列式文件集中所述字典数据不满足所述文件过滤规则的列式文件过滤,获得目标文件子集的步骤,包括:

29、将所述目标列式文件集中所述字典数据不满足所述文件过滤规则的列式文件过滤,获得中间文件子集;

30、根据所述优化查询条件对所述中间文件子集进行二次文件过滤,获得目标文件子集。

31、可选的,所述在接收到数据查询语句时,对所述数据查询语句进行解析,获得目标列式文件集及若干个查询条件的步骤,包括:

32、在接收到数据查询语句时,对所述数据查询语句进行解析,获得目标空间标识及若干个查询条件;

33、根据所述目标空间标识确定目标查询空间,并根据所述目标查询空间中存储的列式文件构建目标列式文件集。

34、可选的,所述根据所述目标空间标识确定目标查询空间,并根据所述目标查询空间中存储的列式文件构建目标列式文件集的步骤之前,还包括:

35、获取所述数据查询语句对应的语句发送用户;

36、获取所述语句发送用户对应的空间访问权限;

37、根据所述空间访问权限确定所述语句发送用户是否具备访问所述目标查询空间的权限;

38、若是,则执行所述根据所述目标空间标识确定目标查询空间,并根据所述目标查询空间中存储的列式文件构建目标列式文件集的步骤。

39、可选的,所述根据所述标准查询条件对所述目标文件子集进行文件筛选,获得所述数据查询语句对应的目标列式文件的步骤之前,还包括:

40、获取所述标准查询条件与所述优化查询条件对应的逻辑关联类型;

41、若所述逻辑关联类型为交集类型,则执行所述根据所述标准查询条件对所述目标文件子集进行文件筛选,获得所述数据查询语句对应的目标列式文件的步骤。

42、可选的,所述获取所述标准查询条件与所述优化查询条件对应的逻辑关联类型的步骤之后,还包括:

43、若所述逻辑关联类型不为并集类型,则根据所述标准查询条件对所述目标列式文件集中的列式文件进行过滤,获得第二目标文件子集;

44、将所述目标文件子集与所述第二目标文件子集进行聚合,获得所述数据查询语句对应的目标列式文件。

45、可选的,所述将所述若干个查询条件分为优化查询条件及标准查询条件的步骤,包括:

46、获取各查询条件对应的查询字段类型及查询匹配类型;

47、将所述查询字段类型为预设字段类型,且所述查询匹配类型为完全匹配类型的查询条件作为优化查询条件;

48、将所述若干个查询条件中剩余的查询条件作为标准查询条件。

49、此外,为实现上述目的,本发明还提出一种列式文件查询装置,所述列式文件查询装置包括以下模块:

50、信息接收模块,用于在接收到数据查询语句时,对所述数据查询语句进行解析,获得目标列式文件集及若干个查询条件;

51、条件区分模块,用于将所述若干个查询条件分为优化查询条件及标准查询条件;

52、文件过滤模块,用于根据所述优化查询条件及所述目标列式文件集对应的字典数据对所述目标列式文件集中的列式文件进行过滤,获得目标文件子集;

53、文件筛选模块,用于根据所述标准查询条件对所述目标文件子集进行文件筛选,获得所述数据查询语句对应的目标列式文件。

54、可选的,所述信息接收模块,还用于在接收到文件存储请求时,根据所述文件存储请求确定待存储文件及目标文件空间;对所述待存储文件进行解析,获取所述待存储文件中的数据存储字段;从所述数据存储字段中选取预设优化字段;根据所述预设优化字段及所述预设优化字段对应的待存储数据生成所述待存储文件对应的字典数据;将所述字典数据存储至预设数据库,并将所述待存储文件存储至所述目标文件空间。

55、可选的,所述信息接收模块,还用于获取所述预设优化字段对应的待存储数据;计算所述待存储数据对应的数据布隆值;根据所述预设优化字段及所述数据布隆值生成所述待存储文件对应的字典数据。

56、可选的,所述文件过滤模块,还用于根据所述优化查询条件构建文件过滤规则;获取所述目标列式文件集中各列式文件对应的字典数据;将所述目标列式文件集中所述字典数据不满足所述文件过滤规则的列式文件过滤,获得目标文件子集。

57、可选的,所述文件过滤模块,还用于生成所述优化查询条件对应的布隆查询条件;根据所述布隆查询条件构建文件过滤规则。

58、可选的,所述文件过滤模块,还用于获取所述优化查询条件对应的条件查询值及条件查询字段;通过预设布隆算法计算所述条件查询值对应的布隆查询值;根据所述布隆查询值及所述条件查询字段生成布隆查询条件。

59、此外,为实现上述目的,本发明还提出一种列式文件查询设备,所述列式文件查询设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的列式文件查询程序,所述列式文件查询程序被处理器执行时实现如上所述的列式文件查询方法的步骤。

60、此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有列式文件查询程序,所述列式文件查询程序执行时实现如上所述的列式文件查询方法的步骤。

61、本发明通过在接收到数据查询语句时,对数据查询语句进行解析,获得目标列式文件集及若干个查询条件;将若干个查询条件分为优化查询条件及标准查询条件;根据优化查询条件及目标列式文件集对应的字典数据对目标列式文件集中的列式文件进行过滤,获得目标文件子集;根据标准查询条件对目标文件子集进行文件筛选,获得数据查询语句对应的目标列式文件。由于结合字典数据及优化查询条件快速过滤了目标列式文件集中大量不满足优化查询条件的列式文件,减少了需要与后续标准查询条件进行匹配的列式文件的数量,从而提高了对列式文件的查询效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1