本发明涉及大数据,尤其涉及一种数据处理方法、系统、装置、设备和存储介质。
背景技术:
1、在大数据处理领域,多采用存储和计算相分离的计算架构,将数据的计算和存储设置在不同的节点上,且多采用列式存储格式存储数据,比如使用parquet等格式存储数据。
2、实际应用中,经常会遇到需要读取大量数据并进行某种计算(比如求平均值、加和等聚合算子运算,数值过滤、文本筛选等过滤算子运算)的实际需求,受计算侧和存储侧网络带宽的限制,传输效率和计算效率往往较低。
技术实现思路
1、本发明实施例提供一种数据处理方法、系统、装置、设备和存储介质,用以提升计算节点和存储节点的数据传输效率和计算性能。
2、第一方面,本发明实施例提供一种数据处理方法,应用于位于计算节点和存储节点之间的加速节点,所述方法包括:
3、接收计算节点发送的查询指令,所述查询指令中包括:目标数据的标识信息和需要对所述目标数据执行的计算指令;
4、根据所述目标数据的标识信息,获取所述目标数据;
5、根据所述计算指令对所述目标数据进行处理,以获取计算结果;
6、发送所述计算结果至所述计算节点。
7、第二方面,本发明实施例提供一种数据处理系统,所述系统包括:
8、计算节点集群、加速节点集群和存储节点集群,所述加速节点集群耦合于所述计算节点集群和所述存储节点集群之间;
9、所述加速节点集群中的任一加速节点,用于执行如第一方面所述的数据处理方法。
10、第三方面,本发明实施例提供一种数据处理装置,应用于位于计算节点和存储节点之间的加速节点,所述装置包括:
11、接收模块,用于接收计算节点发送的查询指令,所述查询指令中包括:目标数据的标识信息和需要对所述目标数据执行的计算指令;
12、处理模块,用于根据所述目标数据的标识信息,获取所述目标数据;根据所述计算指令对所述目标数据进行处理,以获取计算结果;
13、发送模块,用于发送所述计算结果至所述计算节点。
14、第四方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的数据处理方法。
15、第五方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的数据处理方法。
16、在本发明实施例提供的方案中,在计算节点和存储节点之间设置有加速节点,当计算节点需要从存储节点中查询目标数据并对目标数据执行相应计算(比如过滤、聚合等)时,加速节点首先接收计算节点发送的查询指令,其中查询指令中包括:目标数据的标识信息和需要对目标数据执行的计算指令;然后,根据目标数据的标识信息,获取目标数据,并根据计算指令对目标数据进行处理,以获取计算结果;最后,发送计算结果至计算节点。本方案中,将原本需要在计算节点执行的计算指令下推到加速节点执行,加速节点仅将计算结果传输给计算节点,一方面,能够减少向计算节点传输的数据量,提高数据传输效率;另一方面,还能够减少计算节点的资源使用压力,提升查询服务的响应速度。
1.一种数据处理方法,其特征在于,应用于位于计算节点和存储节点之间的加速节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述加速节点提供统一的服务调用接口,所述服务调用接口支持设定的数据传输协议;所述计算节点中部署有适配于所述计算节点的数据读取插件,以通过所述数据读取插件调用所述服务调用接口,发出所述查询指令。
3.根据权利要求1所述的方法,其特征在于,所述加速节点中包括处理器和硬件加速器;所述根据所述计算指令对所述目标数据进行处理,以获取计算结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述通过所述处理器和所述硬件加速器对所述目标数据进行所述计算指令的处理,以获取计算结果,包括:
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述目标数据的标识信息,获取所述目标数据,包括:
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述存储节点中以第二列式存储格式存储所述目标数据。
7.一种数据处理系统,其特征在于,所述系统包括:
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:控制节点,所述控制节点用于根据所述计算节点集群中目标计算节点的类型,确定与所述目标计算节点的类型匹配的数据读取插件,以部署在所述目标计算节点中。
9.一种数据处理装置,其特征在于,应用于位于计算节点和存储节点之间的加速节点,所述装置包括:
10.一种电子设备,其特征在于,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的数据处理方法。
11.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的数据处理方法。