本申请涉及计算机,尤其涉及一种数据处理方法、装置、计算机设备及介质。
背景技术:
1、随着计算机技术和人工智能的快速发展,对于计算机视觉cv与自然语言处理nlp等算法中通常存在有大量数据的数据回扫的需求,即通过离线执行大批量数据的特征提取,然后写入离线存储用于在线检索,或模型训练等。目前,常用的数据回扫方式是spark/flink方式,虽然spark/flink方式可解决大批量的任务调度并实现回扫,但在每次接入新的回扫任务时需要开发人员编写相关的spark/flink脚本,并提交到任务集群等待调度。可见,这种回扫方式需要人为编写对应的脚本代码,需要消耗大量的人力、时间等成本,导致任务处理效率低下。
技术实现思路
1、本申请实施例提供了一种数据处理方法、装置、计算机设备及介质,可提高数据回扫任务的处理效率。
2、本申请实施例第一方面公开了一种数据处理方法,所述方法包括:
3、当存在数据回扫任务时,从目标配置文件中获取所述数据回扫任务对应的目标配置信息,所述目标配置信息包括数据源的数据来源信息;所述数据回扫任务用于指示对数据进行特征提取,以得到该数据对应的特征向量;
4、基于所述数据来源信息所指示的数据存储地址获取针对所述数据回扫任务的目标数据,将所述目标数据划分为多个子数据,并基于多个子数据确定多个子任务;一个子任务用于指示对一个子数据进行特征提取,以得到该数据对应的特征向量;不同的子任务对应不同的子数据;
5、将所述多个子任务插入消息队列中;
6、从所述消息队列中拉取子任务,并对拉取到的子任务进行任务处理,将任务处理结果写入存储中;所述存储中的任务执行结果用于在线召回的数据检索任务。
7、本申请实施例第二方面公开了一种数据处理装置,所述装置包括:
8、获取单元,用于当存在数据回扫任务时,从目标配置文件中获取所述数据回扫任务对应的目标配置信息,所述目标配置信息包括数据源的数据来源信息;所述数据回扫任务用于指示对数据进行特征提取,以得到该数据对应的特征向量;
9、处理单元,用于基于所述数据来源信息所指示的数据存储地址获取针对所述数据回扫任务的目标数据,将所述目标数据划分为多个子数据,并基于多个子数据确定多个子任务;一个子任务用于指示对一个子数据进行特征提取,以得到该数据对应的特征向量;不同的子任务对应不同的子数据;
10、所述处理单元,还用于将所述多个子任务插入消息队列中;
11、所述处理单元,还用于从所述消息队列中拉取子任务,并对拉取到的子任务进行任务处理,将任务处理结果写入存储中;所述存储中的任务执行结果用于在线召回的数据检索任务。
12、本申请实施例第三方面公开了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
13、本申请实施例第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
14、本申请实施例第五方面公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括程序指令,所述程序指令被处理器执行时实现上述第一方面的方法。
15、在本申请实施例中,当存在数据回扫任务时,可以从目标配置文件中获取数据回扫任务对应的目标配置信息,该目标配置信息包括数据源的数据来源信息;则可以基于数据来源信息所指示的数据存储地址获取针对数据回扫任务的目标数据,并可以将目标数据划分为多个子数据,并基于多个子数据确定多个子任务;一个子任务用于指示对一个子数据进行特征提取,以得到该数据对应的特征向量;进一步的,可以将多个子任务插入消息队列中,还可以从消息队列中拉取子任务,并对拉取到的子任务进行任务处理,以将任务处理结果写入存储中;存储中的任务执行结果可以用于在线召回的数据检索任务。通过实施上述方式,通过配置化的数据回扫任务,可以有效降低人力等成本,并可提高任务处理的灵活性,同时也有助于提升数据回扫任务的执行效率,提升用户体验。
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述多个子任务插入消息队列中,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述反向调整信息确定对所述第一插入速率的调整规则,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标配置信息还包括:对数据进行数据格式转换的转换脚本;所述基于所述数据来源信息所指示的数据存储地址获取针对所述数据回扫任务的目标数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述目标配置信息还包括:在进行任务处理所需的模型服务以及任务编排信息;所述模型服务提供了进行任务处理所需的神经网络模型,所述神经网络模型用于进行特征提取;所述任务编排信息用于指示进行任务处理对应的处理流程;所述对拉取到的子任务进行任务处理,将任务处理结果写入存储中,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标数据包括一个或多个图像,所述存储中的任务处理结果为各个图像的特征向量;还包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.根据权利要求1所述的方法,其特征在于,还包括:
9.一种数据处理装置,其特征在于,包括:
10.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。