数据处理方法、数据处理系统、电子设备和可读存储介质与流程

文档序号:33932176发布日期:2023-04-22 12:17阅读:27来源:国知局
数据处理方法、数据处理系统、电子设备和可读存储介质与流程

本申请属于数据处理,具体涉及一种数据处理方法、数据处理系统、电子设备和可读存储介质。


背景技术:

1、在文本分析中,采用词频分析方法统计词汇的词频,从而通过词频来评估一个词汇对于一个文件的重要程度。但是,相关技术中的词频分析方法,存在数据读取速度慢、由于在磁盘中读写中间结果而降低计算速度等问题。当文本数据出现指数级增长时,不能保证词频统计工作在周期时间内正常完成。


技术实现思路

1、本申请实施例的目的是提供一种数据处理方法、数据处理系统、电子设备和可读存储介质,能够解决相关技术中的词频分析方案无法使计算任务正常完成的问题。

2、第一方面,本申请实施例提供了一种数据处理方法,用于数据处理系统,数据处理系统包括内存模块、调度节点和多个计算节点,该数据处理方法包括:

3、调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;

4、调度节点将多个查询语句分片分发至多个计算节点;

5、计算节点根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,并统计分词结果中的第一关键词的第一词频信息,以及将第一词频信息存储至内存模块;

6、在多个计算节点统计的第一词频信息均存储至内存模块后,计算节点将内存模块中的第一词频信息进行合并,生成第二词频信息;

7、计算节点将第二词频信息存储至目标存储器。

8、第二方面,本申请实施例提供了一种数据处理系统,包括内存模块、调度节点和多个计算节点;

9、其中,调度节点用于:获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片,以及将多个查询语句分片分发至多个计算节点;

10、计算节点用于:根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,统计分词结果中的第一关键词的第一词频信息,并将第一词频信息存储至内存模块,以及在多个计算节点统计的第一词频信息均存储至内存模块后,将内存模块中的第一词频信息进行合并,生成第二词频信息,并将第二词频信息存储至目标存储器。

11、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。

12、第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。

13、第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的方法。

14、在本申请实施例中,数据处理系统包括内存模块、调度节点、多个计算节点以及客户端,客户端接收用户输入的对待执行任务的查询语句,调度节点获取该查询语句,并将该查询语句进行划分,生成多个查询语句分片。调度节点进而将每一个查询语句分片对应发送至计算节点,利用该计算节点完成数据读取和词频计算的任务。具体地,在该计算节点上,根据查询语句分片读取查询数据,然后根据用户在客户端输入的具体的分词算法对读取到的查询数据进行分词操作,得到多个分词结果,分词结果包括多个关键词,统计分词结果中的第一关键词的第一词频信息,并将第一词频信息存储在内存模块中。需要说明的是,进行分词操作后得到第一关键词计算节点可以为一个或多个,则在该一个或多个计算节点均进行词频统计后,统计到的第一关键词的第一词频信息均被存储至内存模块中。进一步地,将内存模块中存储的第一词频信息进行合并汇总,得到第一关键词的第二词频信息,并将第二词频信息存储至目标存储器(即mysql)。通过上述方式,一方面,通过查询语句分片的形式读取查询数据,并将查询数据读入不同计算节点,从而提高了数据的读取效率。另一方面,词频统计结果内存化,使得计算节点可以根据关键词远程读取数据,避免词频统计结果写回磁盘造成的时间开销,提高了计算速度。



技术特征:

1.一种数据处理方法,其特征在于,用于数据处理系统,所述数据处理系统包括内存模块、调度节点和多个计算节点,所述数据处理方法包括:

2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:

3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述节点数量以及所述查询语句对应的查询时间段,对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:

4.根据权利要求1所述的数据处理方法,其特征在于,所述计算节点根据所述查询语句分片读取查询数据的步骤,包括:

5.根据权利要求1所述的数据处理方法,其特征在于,所述将所述第一词频信息存储至内存模块的步骤,包括:

6.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,还包括:

7.一种数据处理系统,其特征在于,包括内存模块、调度节点和多个计算节点;

8.根据权利要求7所述的数据处理系统,其特征在于,

9.根据权利要求8所述的数据处理系统,其特征在于,

10.根据权利要求7所述的数据处理系统,其特征在于,

11.根据权利要求7所述的数据处理系统,其特征在于,

12.根据权利要求7至11中任一项所述的数据处理系统,其特征在于,所述计算节点还用于:

13.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的数据处理方法的步骤。

14.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的数据处理方法的步骤。


技术总结
本申请公开了一种数据处理方法、数据处理系统、电子设备和可读存储介质。该数据处理方法用于数据处理系统,数据处理系统包括内存模块、调度节点和多个计算节点,该方法包括:调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;调度节点将多个查询语句分片分发至多个计算节点;计算节点根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,并统计分词结果中的第一关键词的第一词频信息,以及将第一词频信息存储至内存模块;在多个计算节点统计的第一词频信息均存储至内存模块后,计算节点将内存模块中的第一词频信息进行合并,生成第二词频信息;计算节点将第二词频信息存储至目标存储器。

技术研发人员:徐照淼,马斌山,曹铭斌,马国俊
受保护的技术使用者:北京字跳网络技术有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1