一种数据处理方法及装置与流程

文档序号:35975310发布日期:2023-11-09 17:38阅读:23来源:国知局
一种数据处理方法及装置与流程

本技术涉及计算机,尤其涉及一种数据处理方法及装置。


背景技术:

1、存储系统通常需要满足海量数据,尤其是非结构化数据的高效存储与管理。综合考虑成本和性能两个指标,以及用户多样化的性价比要求,存储系统提供商通常构建分层存储系统。分层存储系统比如包括性能层和容量层两层,其中,性能层可以是高速存储介质,容量层可以低速大容量存储介质。性能层的存储空间通常较小,当性能层的剩余存储空间小于剩余阈值时,会将冷数据(比如访问频率较低的数据)从性能层移动到容量层,以使得性能层有足够的剩余存储空间来存储新数据。

2、在分层存储系统的查询操作中,搜索引擎在接收到查询请求之后,可先在性能层中查询,若在性能层中查询失败,则进一步在容量层中查询。

3、如此,搜索引擎在分层存储系统中查询数据时,存在查询数据慢的问题。


技术实现思路

1、本技术提供一种数据处理方法及装置,用于解决在分层存储系统中查询数据时,存在查询数据慢的问题。

2、第一方面,本技术提供一种数据处理方法,适用于分层存储系统中,分层存储系统包括第一存储层和第二存储层,第一存储层的读取速度高于第二存储层的读取速度。数据处理方法可以由分层存储系统执行,或者具体由分层存储系统中的处理设备执行。数据处理方法包括:根据第一数据,确定第一特征向量,其中,第一数据是用户在历史时段中访问的数据;根据第一特征向量和索引集合包括的多个索引中的特征向量,从多个索引中确定目标索引,其中,目标索引中的目标特征向量是根据存储在第二存储层中的目标数据确定的,第一特征向量和目标特征向量符合第一预设条件。根据目标索引中的目标存储路径,将目标数据由第二存储层复制到第一存储层中。

3、上述技术方案中,基于用户在历史时段中访问的数据,预测用户在未来时段中可能需要访问的数据(即目标数据),将目标数据从第二存储层预先复制到第一存储层中,以使得第一存储层中预先存储有目标数据。当用户需要访问该目标数据时,可直接从第一存储层中获取该目标数据,而无需进一步查询第二存储层,由于第一存储层的读取速度高于第二存储层的读取速度,因此有助于提高数据的查询速度。

4、进一步的,根据用户在历史时段中访问的数据,从索引集合中确定目标数据对应的目标索引,根据目标索引中存储的目标存储路径,从第二存储层获取目标数据。通过索引集合的方式,加快从第二存储层获取目标数据的速度,提高预取数据的效率。

5、在一种可能的实现方式中,目标索引中还包括目标关键词,目标关键词是根据目标数据中包含的词语的出现频率确定的。将目标数据由第二存储层复制到第一存储层中之前,还可根据第一数据中包含的词语的出现频率,确定第一关键词,进而确定第一关键词和目标关键词的匹配结果符合第二预设条件。

6、上述技术方案中,可进一步结合索引中数据的关键词,以及第一数据对应的第一关键词,确定目标索引,有助于提高确定目标索引的准确性。

7、在一种可能的实现方式中,在确定第一数据时,具体可以是,确定用户在历史时段中从分层存储系统中访问的内部数据,然后将该内部数据确定为第一数据;和/或,确定用户在历史时段中从外部网站中访问的外部数据,然后将该外部数据确定为第一数据。

8、上述技术方案中,结合用户访问的内外部数据的访问记录,确定第一数据,有助于提高根据第一数据预测目标数据的准确性。

9、在一种可能的实现方式中,第一数据为多个,相应的,在根据第一特征向量和索引集合包括的多个索引中的特征向量,从多个索引中确定目标索引时,具体可以是,对多个第一数据的第一特征向量进行聚类,将聚类得到的质心作为聚合特征向量,根据聚合特征向量和多个索引中的特征向量,从多个索引中确定目标索引,其中,聚合特征向量与目标索引中的目标特征向量之间的距离符合第一预设条件。

10、上述技术方案中,在获取到多个第一数据时,可先将多个第一数据对应的特征向量进行聚合,根据聚合质心从多个索引中确定目标索引,有助于提高确定目标索引的准确性。

11、在一种可能的实现方式中,还可根据存储在第一存储层中的第二数据,确定第二特征向量和第二关键词,以及确定第二数据由第一存储层迁移至第二存储层时,第二数据存储于第二存储层中的第二存储路径。根据第二特征向量、第二关键词和第二存储路径,生成第二数据的索引,将第二数据的索引存储至索引集合中。

12、上述技术方案中,还可生成第二数据的索引,将第二数据的索引存储至索引集合中。如此,可根据该索引集合中第二数据的索引,迅速从第二存储层中查找到第二数据。

13、在一种可能的实现方式中,在根据存储在第一存储层中的第二数据,确定第二特征向量和第二关键词之前,还可以确定第一存储层中的剩余存储空间符合第三预设条件,且存储在第一存储层中的第二数据被用户访问的访问情况符合第四预设条件。

14、上述技术方案中,可确定第一存储层中的剩余存储空间的容量较小,且存储在第一存储层中的第二数据为冷数据时,将该第二数据由第一存储层迁移至第二存储层,从而使得第一存储层有足够的剩余存储空间来存储新数据或者访问频率较高的数据。

15、在一种可能的实现方式中,还可以获取查询请求,其中,查询请求中包括查询词和第三数据,第三数据指示查询词的上下文。根据第三数据和查询词,从第一存储层中查询第四数据。上述技术方案中,可根据查询请求从第一存储层中获取查询请求所需要的查询的数据(即第四数据),有助于提高数据的查询速度。

16、第二方面,本技术提供一种数据处理装置,适用于分层存储系统中,分层存储系统包括数据处理装置、第一存储层和第二存储层,第一存储层的读取速度高于第二存储层的读取速度。数据处理装置具体可以是处理设备。

17、该装置包括:处理模块用于根据第一数据,确定第一特征向量,第一数据是用户在历史时段中访问的数据;根据第一特征向量和索引集合包括的多个索引中的特征向量,从多个索引中确定目标索引,其中,目标索引中的目标特征向量是根据存储在第二存储层中的目标数据确定的,第一特征向量和目标特征向量符合第一预设条件;预取模块用于根据目标索引中的目标存储路径,将目标数据由第二存储层复制到第一存储层中。

18、在一种可能的实现方式中,目标索引中还包括目标关键词,目标关键词是根据目标数据中包含的词语的出现频率确定的;处理模块还用于在预取模块将目标数据由第二存储层复制到第一存储层中之前,根据第一数据中包含的词语的出现频率,确定第一关键词;以及确定第一关键词和目标关键词的匹配结果符合第二预设条件。

19、在一种可能的实现方式中,处理模块还用于确定用户在历史时段中从分层存储系统中访问的内部数据,将内部数据确定为第一数据;和/或,确定用户在历史时段中从外部网站中访问的外部数据,将外部数据确定为第一数据。

20、在一种可能的实现方式中,第一数据为多个;处理模块在根据第一特征向量和索引集合包括的多个索引中的特征向量,从多个索引中确定目标索引时,具体用于:对多个第一数据的第一特征向量进行聚类,将聚类得到的质心作为聚合特征向量;根据聚合特征向量和多个索引中的特征向量,从多个索引中确定目标索引,其中,聚合特征向量与目标索引中的目标特征向量之间的距离符合第一预设条件。

21、在一种可能的实现方式中,处理模块还用于:根据存储在第一存储层中的第二数据,确定第二特征向量和第二关键词;确定第二数据由第一存储层迁移至第二存储层时,第二数据存储于第二存储层中的第二存储路径;根据第二特征向量、第二关键词和第二存储路径,生成第二数据的索引,将第二数据的索引存储至索引集合中。

22、在一种可能的实现方式中,处理模块还用于根据存储在第一存储层中的第二数据,确定第二特征向量和第二关键词之前,确定第一存储层中的剩余存储空间符合第三预设条件,且存储在第一存储层中的第二数据被用户访问的访问情况符合第四预设条件。

23、在一种可能的实现方式中,还包括:获取模块,用于获取查询请求,其中,查询请求中包括查询词和第三数据,第三数据指示查询词的上下文;处理模块还用于根据第三数据和查询词,从第一存储层中查询第四数据。

24、第三方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序或指令,当该计算机程序或指令被执行时,使得计算机执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

25、第四方面,本技术实施例提供一种计算机程序产品,当计算机读取并执行计算机程序产品时,使得计算机执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

26、第五方面,本技术实施例提供一种计算设备,包括处理器,处理器与存储器耦合,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得装置执行上述第一方面或第一方面的任一种可能的实现方式中的方法。

27、第六方面,本技术实施例提供一种分层存储系统,包括:处理设备、第一存储层和第二存储层;第一存储层的读取速度高于第二存储层的读取速度;处理设备用于执行上述第一方面或第一方面的任一种可能的实现方式中的方法,以实现将第二存储层中的数据复制存储到第一存储层中。

28、上述第二方面至第六方面中任一方面可以达到的技术效果可以参照上述第一方面中有益效果的描述,此处不再重复赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1