数据处理方法、设备、系统及存储介质与流程

文档序号:25882456发布日期:2021-07-16 18:49阅读:55来源:国知局
1.本申请涉及数据处理
技术领域
:,尤其涉及一种数据处理方法、设备、系统及存储介质。
背景技术
::2.在现今的信息化时代,对信息数据的应用与研究已成为一种趋势,数据库基于其优势,被广泛应用于数据的存储、管理、维护和查询。在实际应用中,用户为了进行测试等需求,需要从海量的数据中抽取其想要的数据。但是,现有技术需要用户编辑对应的数据抽取逻辑,人工成本高且效率低。技术实现要素:3.本申请的多个方面提供一种数据处理方法、设备、系统及存储介质,用以提高数据抽取效率,并降低人工成本。4.本申请实施例提供一种数据抽取系统,包括:用户界面层和数据处理层;其中,5.所述用户界面层,用于展示抽取模式配置组件和数据源配置组件,以及响应于针对所述抽取模式配置组件和所述数据源配置组件的配置操作,生成数据抽取任务;6.所述数据处理层,用于按照所述数据抽取任务指定的目标抽取模式,获取所述数据抽取任务指定的目标数据源指向的目标数据。7.本申请实施例还提供一种数据处理方法,包括:8.展示抽取模式配置组件和数据源配置组件;9.响应于针对所述抽取模式配置组件和所述数据源配置组件的配置操作,生成数据抽取任务;10.按照所述数据抽取任务指定的目标抽取模式,获取所述数据抽取任务指定的目标数据源指向的目标数据。11.本申请实施例还提供一种计算机设备,包括:存储器、处理器和显示器;所述存储器,用于存储计算机程序;12.所述处理器耦合至所述存储器,用于执行所述计算机程序以用于:13.通过所述显示器展示抽取模式配置组件和数据源配置组件;14.响应于针对所述抽取模式配置组件和所述数据源配置组件的配置操作,生成数据抽取任务;15.按照所述数据抽取任务指定的目标抽取模式,获取所述数据抽取任务指定的目标数据源指向的目标数据。16.本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行上述方法中的步骤。17.本申请实施例提供的数据处理系统,包括:用户界面层和数据处理层;其中,用户界面层展示抽取模式配置组件和数据源配置组件,可供用户配置目标抽取模式和待抽取数据所在的目标数据源信息,并可响应于用户的配置操作生成数据抽取任务;接着,数据处理层便可执行该数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。本申请实施例提供的数据处理系统可向用户提供自主抽取数据服务,用户可根据数据抽取需求配置数据抽取模式和待抽取数据所在的数据源信息,无需编辑数据抽取逻辑,实现了数据抽取与逻辑编程的解耦,有助于提高数据抽取效率,降低成本。附图说明18.此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:19.图1a为本申请实施例提供的一种数据处理系统的结构示意图;20.图1b-图1e为本申请实施例提供的用户交互界面的示意图;21.图1f为本申请实施例提供的另一种数据处理系统的结构示意图;22.图1g为本申请实施例提供的数据处理单元的结构示意图;23.图1h为本申请实施例提供的另一种用户交互界面的示意图;24.图2为本申请实施例提供的一种数据处理方法的流程示意图;25.图3为本申请实施例提供的一种计算机设备的结构示意图。具体实施方式26.为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。27.针对现有数据抽取技术需要用户编辑数据抽取逻辑而导致数据抽取效率较低的技术问题,本申请一些实施例提供一种数据处理系统,包括:用户界面层和数据处理层;其中,用户界面层展示抽取模式配置组件和数据源配置组件,可供用户配置目标抽取模式和待抽取数据所在的目标数据源信息,并可响应于用户的配置操作生成数据抽取任务;接着,数据处理层便可执行该数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。本申请实施例提供的数据处理系统可向用户提供自主抽取数据服务,用户可根据数据抽取需求配置数据抽取模式和待抽取数据所在的数据源信息,无需编辑数据抽取逻辑,实现了数据抽取与逻辑编程的解耦,有助于提高数据抽取效率,降低成本。28.以下结合附图,详细说明本申请各实施例提供的技术方案。29.图1a为本申请实施例提供的一种数据处理系统的结构示意图。如图1a所示,该系统包括:用户界面层11和数据处理层12。30.在本实施例中,如图1a所示,用户界面层11展示抽取模式配置组件和数据源配置组件。用户可通过抽取模式配置组件配置所需的目标抽取模式,并通过数据源配置组件配置待抽取数据所在的目标数据源。图1a中所示的抽取模式配置组件和数据源配置组件的实现形式以及页面布局仅为示例性说明,并不构成限定。31.在本实施例中,抽取模式是指抽取待抽取数据所采用的数据抽取模式。数据源可以是任何具有数据存储和管理功能的数据存储系统,例如数据存储系统可以是数据库系统、数据仓库、云存储系统等,数据存储系统也可以为对象存储服务(objectstorageservice,oss)、开放结构化数据服务(opentableservice,ots)、关系型数据库服务(relationaldatabaseservice,rds)或开放数据处理服务(opendataprocessingservice,odps)对应的数据存储系统等等。可选地,数据源也可以为数据存储系统中的存储分区、文件、表项、数据行、列等;但不限于此。相应地,数据源信息是指数据的来源信息。目标数据源信息可以为待抽取数据所在的数据存储系统、在该数据存储系统中的文件、表项、数据行、列等信息,但不限于此。32.相应地,用户界面层11响应于针对抽取模式配置组件和数据源配置组件的配置操作,生成数据抽取任务。该数据抽取任务中指定有目标抽取模式和目标数据源。具体地,用户界面层11可根据用户配置的目标抽取模式和目标数据源信息,生成数据抽取任务。其中,数据抽取任务携带有抽取模式标识和数据源标识。数据抽取模式标识为数据抽取任务指定的目标抽取模式的标识;数据源标识则为数据抽取任务指定的目标数据源的标识。可选地,数据抽取任务可采用mysql语言进行表示。进一步,用户界面层11可将数据抽取任务提供给数据处理层12。相应地,数据处理层12可执行数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。33.可选地,数据处理层12还可监测数据抽取任务的执行状态,并将执行状态提供给用户。其中,数据处理任务的执行状态包括:数据处理任务是否成功,目标数据的状态等等,但不限于此。34.可选地,数据处理层12可将数据处理任务的执行状态提供给用户界面层11进行显示,以提供给用户查看。或者,数据处理层12也可以邮件、短信、即时通信消息等形式将数据处理任务的执行状态发送给用户;等等,但不限于此。35.在本实施例提供的数据处理系统可基于thrift通讯框架实现,有助于提高数据处理性能和实时性,尤其可提高从大数据中抽取数据的效率和实时性。36.本实施例提供的数据处理系统,包括:用户界面层和数据处理层;其中,用户界面层展示抽取模式配置组件和数据源配置组件,可供用户配置目标抽取模式和待抽取数据所在的目标数据源信息,并可响应于用户的配置操作生成数据抽取任务;接着,数据处理层便可执行该数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取该数据抽取任务指定的目标数据源指向的目标数据。本申请实施例提供的数据处理系统可向用户提供自主抽取数据服务,用户可根据数据抽取需求配置数据抽取模式和待抽取数据所在的数据源信息,无需编辑数据抽取逻辑,实现了数据抽取与逻辑编程的解耦,有助于提高数据抽取效率,降低成本。37.在一些实施例中,如图1b所示,用户界面层11可提供至少一种抽取模式供用户选择。可选地,如图1b所示,用户可触发抽取模式配置组件。相应地,用户界面层11可响应于针对抽取配置组件的触发操作,展示至少一种抽取模式。这样,用户便可从至少一种抽取模式中选择所需的目标抽取模式。相应地,如图1b所示,用户界面层11可针对至少一种抽取模式的选择操作,将被选中的抽取模式作为目标抽取模式。38.在本申请实施例中,数据抽取系统提供的抽取模式可以为采样模式、时序抽取模式、顺序抽取模式、随机抽取模式以及自定义抽取模式中的至少一种,但不限于此。其中,图1b中所示的抽取模式仅为示例性说明,并不限定数据抽取系统必须提供图1b所示的全部抽取模式,也不意味着数据抽取系统只能提供图1b所示的抽取模式。可选地,数据抽取系统还可提供基于算法或模型的抽取模式,在此不再一一赘述。39.在本实施例中,采样模式是指按照设定的采样规则从目标数据源中抽取数据。其中,采样规则是指从目标数据源中抽取数据的规则,其可以为待抽取数据占目标数据源所存储数据的比例,也可以其它采样规则,例如为间隔采样、顺序采样等等,但不限于此。相应地,用户可触发采样模式,设置采样规则。可选地,如图1c所示,用户界面层11可响应于针对采样模式的触发操作,展示采样规则设置组件,以供用户设置采样规则。可选地,还可设置采样率等参数,但不限于此。相应地,数据处理层12可按照采样规则,从目标数据源中抽取满足采样规则的数据,作为目标数据。40.在本实施例中,时间抽取模式是指按照设定的时间段,从目标数据源中抽取所属时间位于设定的时间段内的数据。在本实施例中,用户可触发时序抽取模式,设置待抽取数据所属的时间段。相应地,如图1d所示,用户界面层11可响应于针对时序抽取模式的触发操作,展示时间设置组件,以供用户设置待抽取数据所属的时间段。相应地,数据处理层12可从目标数据源中抽取所属时间位于设定的时间段内的数据,作为目标数据。41.在本实施例中,顺序抽取模式是指按照自增字段的顺序从目标数据源中抽取数据。其中,自增字段可标识待抽取数据的排列顺序。可选地,自增字段可以为主关键字(primarykey)。在本实施例中,用户可触发顺序抽取模式,设置待抽取数据的先后顺序。可选地,用户可利用待抽取数据的自增字段,设置抽取的先后顺序。相应地,如图1e所示,用户界面层11可响应于针对顺序抽取模式的触发操作,展示数据抽取顺序设置组件,以供用户设置待抽取数据的先后顺序。可选地,用户界面层11可响应于针对顺序抽取模式的触发操作,展示自增字段配置组件,以供用户配置待抽取数据的。相应地,数据处理层12可按照设定的先后顺序,从目标数据源中抽取目标数据。42.在本实施例中,随机抽取模式是指从目标数据源中随机抽取设定数据量的数据。在本实施例中,用户可触发随机抽取模式,设置待抽取数据的数据量大小。相应地,用户界面层11可响应于针对随机抽取模式的触发操作,展示数据量设置组件,以供用户设置待抽取数据的数据量大小。相应地,数据处理层12从目标数据源中随机抽取设定的数据量大小的数据,作为目标数据。43.在本实施例中,数据抽取系统还可提供自定义抽取模式,用户可触发自定义抽取模式自主编辑抽取模式。相应地,用户界面层11可响应于针对自定义抽取模式,展示抽取模式编辑组件,以供用户输入自定义的抽取模式。可选地,用户可采用mysql语言编辑自定义的抽取模式。44.在本申请实施例中,用户还可通过数据源配置组件,设置待抽取数据所在的目标数据源。可选地,可设置待抽取数据所在的目标数据存储系统、目标表项、目标数据行或列等等,但不限于此。45.在本申请实施例中,用户界面层11可将抽取模式标识和数据源标识写入执行计划,其中,抽取模式标识用于指定目标抽取模式,数据源标识用于指定目标数据源;进一步,可根据该执行计划,生成数据抽取任务。其中,数据抽取任务中指定有目标抽取模式和目标数据源。可选地,数据抽取任务可采用mysql语言进行表示。46.相应地,数据处理层12可从数据抽取任务中,解析出目标抽取模式和目标数据源信息;并按照目标抽取模式,获取目标数据源信息指向的目标数据。47.在本申请实施例中,如图1f所示,数据处理层12包括:任务管理单元12a、至少一个任务处理单元12b和数据分发单元12c。48.在本申请各实施例中,若任务处理单元12b的数量为多个,多个是指2个或2个以上。任务处理单元12b可以是为提供数据处理功能的软件模块、应用程序、服务或一台实体设备。多个任务处理单元12b可以部署在不同的物理机上,也可以部署在不同容器或虚拟机(vm)中。当然,这些容器或虚拟机可以部署在同一物理机上,也可以部署在多个不同的物理机上。49.在本实施例中,任务管理单元12a可接收数据处理任务,并根据目标数据源信息将数据抽取任务拆分为至少一个子任务。其中,每个子任务对应的数据源不同。在本实施例中,子任务对应的数据源不同是指:目标存储系统、目标表项以及目标数据行或列中至少一种不同。50.进一步,任务管理单元12a可将至少一个子任务提供给对应的任务管理单元12b。可选地,可设置任务管理单元与数据源之间的对应关系,这样可将至少一个子任务按照各自对应的数据源提供给相应的任务管理单元12b。51.相应地,至少一个任务处理单元12b可按照目标抽取模式,获取接收到的子任务对应的目标数据源所指向的目标数据片段。进一步,至少一个任务处理单元12b可将获取的目标数据片段提供给数据分发单元12c。相应地,数据分发单元12c可将至少一个任务处理单元12b提供的目标数据片段进行整合,得到目标数据,并将目标数据提供给用户。52.可选地,任务管理单元12a可按照待抽取数据在目标数据源中的存储顺序,将数据抽取任务拆分成多个子任务。每个子任务携带顺序标识。53.相应地,至少一个任务处理单元12b可调用多个线程并行获取接收到的子任务对应的目标数据源所指向的目标数据片段,并将接收到的子任务携带的顺序标识添加至目标数据片段中。54.进一步,数据分发单元12c可按照至少一个任务处理单元12b提供的目标数据片段的顺序标识对目标数据片段进行整合,得到目标数据,并将目标数据提供给用户。55.可选地,数据分发单元12c可将目标数据直接提供给用户,也可将目标数据的存储路径提供给用户。相应地,数据分发单元12c可将目标数据进行持久化,并将持久化后的目标数据的存储路径提供给用户。这样,用户便可基于存储路径访问目标数据。56.可选地,如图1f所示,任务处理单元12b可包括:脚本生成器(scriptgenerator)12b1和进程生成器(processgenerator)12b2。相应地,脚本生成器12b1可用于生成自定义的配置(id,key,parttion,mode)以及下载数据的后续操作。可选地,脚本生成器12b1可采用python、php、shell等脚本语言进行操作,但不限于此。进一步,进程生成器12b2可生成本机任务进程和本地进程,并负责进程的生成、销毁和异常重试。基于此,进程生成器12b2可调用一个进程处理接收到的子任务,并在该进程中调用多个线程并行执行接收到的子任务。57.进一步,如图1f所示,任务处理单元12b还可包括:持久化处理器12b3。持久化处理器12c可将目标数据片段上传至hadoop分布式文件系统(hadoopdistributedfilesystem,hdfs)系统上,进行数据静态化和持久化保存。可选地,任务处理单元12b还可包括:执行状态监控器12b4。执行状态监控器12b4可用于监控子任务的执行状态,并将子任务的执行状态提供给用户。其中,关于执行状态以及将执行状态提供给用户的描述,可参见上述实施例的相关内容,在此不再赘述。58.在本申请实施例中,如图1g所示,任务处理单元12b可包括:用户决策层(userstrategylayer)、线程层(threadlayer)、抽取模式策略层(extractionstrategylayer)、用户层(userlayer)、网络层(networklayer)。其中,用户决策层用于根据任务处理单元12b接收到的子任务中的目标数据源信息,从可访问的数据源中选中目标数据源。其中,可访问的数据源为图1g中的数据源1-n。线程层用于从抽取模式策略层(extractionstrategylayer)选中目标抽取模式,并按照目标抽取模式从目标数据源中抽取目标数据片段。其中,目标数据片段的数据格式与目标数据源中数据的保存格式相同。即若目标数据源为开源数据处理系统(opendataprocessingservice,odps)对应的存储系统,则目标数据片段可为odps表项。可选地,可通过网络层调用并行处理中间件对子任务进行并行处理。用户层可用于配置并行处理插件。可选地,网络层可由多个阻塞套接字组成。图1g中仅以阻塞套接字的数量为n进行示出。其中,n≥2,且为整数。59.进一步,如图1f所示,数据处理系统还包括:存储层13。相应地,数据分发单元12c在将目标数据进行持久化时,可将目标数据持久化至存储层13,并将存储层13的地址提供给用户。这样,用户便可通过存储层13的地址访问目标数据。60.在本申请实施例中,不限定数据分发单元12c将目标数据进行持久化的存储格式。可选地,数据分发单元12c可以将目标数据以hdfs文件的形式持久化至存储层13。61.在一些实施例中,如图1f所示,数据处理系统还包括:分发代理层14。分发代理层14可响应于针对存储路径的访问操作,拉取目标数据,并将目标数据提供给用户。可选地,若目标数据以hdfs文件的形式持久化至存储层13,则分发代理层14可响应于针对存储层13的地址的访问操作,从hdfs文件中拉取目标数据,并将目标数据提供给用户。62.本申请实施例提供的数据处理系统不仅可用于数据抽取,还可对目标数据进行处理。相应地,如图1h所示,用户界面层11还可展示数据处理逻辑配置组件。这样,用户可通过数据处理逻辑配置组件配置目标数据处理逻辑。相应地,至少一个任务处理单元12b还可基于数据处理配置组件提供的数据处理逻辑,对获取的目标数据片段进行处理。相应地,数据分发单元12c对处理后的目标数据片段进行整合,得到目标数据。63.在本申请实施例中,对数据处理系统提供的数据处理逻辑不进行限定。数据处理系统可提供多种数据处理逻辑,例如数据的增加、删除、修改、合并、数值计算等等,但不限于此。又例如,还可提供比较复杂算法、模型等数据处理逻辑,等等。64.进一步,考虑到不同的应用场景,对数据的需求不同,所适用的数据抽取模式也就有所不同,本申请实施例提供的数据处理系统还可提供数据抽取模式推荐功能。例如,在性能测试场景中,由于数据抽取的先后顺序与系统性能有着强关联关系,因此,对于性能测试场景,可推荐时序抽取模式。又例如,对于线下回归测试场景,因为线下场景需要用尽可能少的数量覆盖尽可能全的场景,因此可推荐采样模式。对于线上冒烟测试、验收测试等线上场景,因为线上测试不关心数据量的数量级和时序,但需要更多的保证场景的覆盖,因此优先推荐随机抽取模式。65.基于上述分析,用户界面层11还可展示应用场景配置控件(图1a-图1h中未示出)。用户可通过应用场景配置组件配置所需的目标应用场景。相应地,用户界面层11响应于针对应用场景配置控件的配置操作,将目标应用场景提供给数据处理层12。相应地,数据处理层12可根据目标应用场景,确定与目标应用场景适配的候选数据抽取模式。进一步,数据处理层12可将候选数据抽取模式提供给用户界面层11,并由用户界面层11将推荐的候选数据抽取模式展示给用户,可为用户配置数据抽取模式提供参考,有助于进一步提高用户体验。66.可选地,数据处理层12可维护应用场景与数据抽取模式之间的对应关系,并将用户配置的目标应用场景在应用场景与数据抽取模式之间的对应关系中进行匹配,以确定目标应用场景适配的数据抽取模式。其中,关于应用场景与数据抽取模式之间的对应关系,可参见上述相关内容,在此不再赘述。67.值得说明的是,本申请实施例提供的数据处理系统还可对各功能模块进行解耦,实现功能模块插件化。例如,可对任务管理单元12a、任务处理单元12b和数据分发单元12c进行解耦,由用户选择是否启动数据分发单元12c对数据进行持久化处理。又例如,还可将数据处理功能进行解耦,由用户自主选择是否对目标数据进行处理等等,但不限于此。68.值得说明的是,本申请实施例提供的各功能模块,可部署在不同的物理机上,也可以部署在不同容器或虚拟机(vm)中。当然,这些容器或虚拟机可以部署在同一物理机上,也可以部署在多个不同的物理机上。69.除了上述系统实施例之外,本申请实施例还提供数据处理方法,下面结合进行示例性说明。70.图2为本申请实施例提供的一种数据处理方法的流程示意图。如图2所示,该数据处理方法,包括:71.201、展示抽取模式配置组件和数据源配置组件。72.202、响应于针对抽取模式配置组件和数据源组件的配置操作,生成数据抽取任务。73.203、按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。74.在本实施例中,可展示用户交互界面,该界面上展示抽取模式配置组件和数据源配置组件。用户可通过抽取模式配置组件配置所需的目标抽取模式,并通过数据源配置组件配置待抽取数据所在的目标数据源。其中,关于抽取模式和数据源的描述,可参见上述实施例的相关内容,在此不再赘述。75.进一步,在步骤202中,可响应于针对抽取模式配置组件和数据源配置组件的配置操作,生成数据抽取任务。可选地,可根据用户配置的目标抽取模式和目标数据源信息,生成数据抽取任务。其中,数据抽取任务携带有抽取模式标识和数据源信息标识。抽取模式标识用于指定目标抽取模式,数据源标识用于指定目标数据源。进一步,在步骤203中,可执行数据抽取任务,并在执行数据抽取任务的过程中,按照数据处理任务指定的目标抽取模式,获取该数据处理任务指定的目标数据源指向的目标数据。76.可选地,在本申请实施例中,还可检测数据抽取任务的执行状态,并将执行状态提供给用户。其中,数据处理任务的执行状态包括:数据处理任务是否成功,目标数据的状态等等,但不限于此。其中,关于将执行状态提供给用户的具体实施方式,可参见上述实施例的相关内容,在此不再赘述。77.在本实施例中,用户可通过抽取模式配置组件和数据源配置组件,配置目标抽取模式和待抽取数据所在的目标数据源信息。这样,便可响应用户的配置操作,生成数据抽取任务;接着,数据处理层便可执行该数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。本实施例提供的数据处理方式可向用户提供自主抽取数据服务,用户可根据数据抽取需求配置目标数据抽取模式和目标数据源信息,无需编辑数据抽取逻辑,实现了数据抽取与逻辑编程的解耦,有助于提高数据抽取效率,降低成本。78.在一些实施例中,如图1b所示,用户交互界面可提供至少一种抽取模式供用户选择。可选地,如图1b所示,用户可触发抽取模式配置组件。相应地,可响应于针对抽取配置组件的触发操作,展示至少一种抽取模式,进一步可针对至少一种抽取模式的选择操作,将被选中的抽取模式作为目标抽取模式。79.在本申请实施例中,数据抽取系统提供的抽取模式可以为采样模式、时序抽取模式、顺序抽取模式、随机抽取模式以及自定义抽取模式中的至少一种,但不限于此。可选地,数据抽取系统还可提供基于算法或模型的抽取模式,在此不再一一赘述。80.在本实施例中,可响应于针对采样模式的触发操作,展示采样规则设置组件,以供用户设置采样规则。或者,响应于针对时序抽取模式的触发操作,展示时间设置组件,以供用户设置待抽取数据所属的时间段;或者,响应于针对顺序抽取模式的触发操作,展示数据抽取顺序设置组件,以供用户设置待抽取数据的先后顺序;或者,响应于针对随机抽取模式的触发操作,展示数据量设置组件,以供用户设置待抽取的数据量大小;或者,响应于针对自定义抽取模式,展示抽取模式编辑组件,以供用户输入自定义的抽取模式。81.在本申请实施例中,步骤202的一种可选实施例方式为:将目标抽取模式和目标数据源信息写入执行计划,并根据该执行计划,生成数据抽取任务。可选地,数据抽取任务可采用mysql语言进行表示。82.相应地,步骤203的一种可选实施方式为:从数据抽取任务中,解析出目标抽取模式和目标数据源;并按照目标抽取模式,获取目标数据源指向的目标数据。83.进一步,可根据目标数据源将数据抽取任务拆分为至少一个子任务,并按照目标抽取模式,获取各子任务对应的目标数据源所指向的目标数据片段。其中,每个子任务对应的数据源不同。进一步,还可将目标数据片段进行整合,得到目标数据,并将目标数据提供给用户。84.可选地,可按照待抽取数据在目标数据源中的存储顺序,将数据抽取任务拆分成多个子任务。每个子任务携带顺序标识。进一步,可用多个线程并行获取接收到的子任务对应的目标数据源所指向的目标数据片段,并将接收到的子任务携带的顺序标识添加至目标数据片段中。85.相应地,可按照目标数据片段的顺序标识对目标数据片段进行整合,得到目标数据,并将目标数据提供给用户。可选地,可将目标数据直接提供给用户,也可将目标数据的存储路径提供给用户。相应地,可将目标数据进行持久化,并将持久化后的目标数据的存储路径提供给用户。这样,用户便可基于存储路径访问目标数据。86.进一步,在将目标数据进行持久化时,可将目标数据持久化至存储层,并将存储层的地址提供给用户。这样,用户便可通过存储层的地址访问目标数据。在本申请实施例中,不限定将目标数据进行持久化的存储格式。可选地,可以将目标数据以hdfs文件的形式持久化至存储层。87.在一些实施例中,还可响应于针对存储路径的访问操作,拉取目标数据,并将目标数据提供给用户。可选地,若目标数据以hdfs文件的形式持久化至存储层,则可响应于针对存储层的地址的访问操作,从hdfs文件中拉取目标数据,并将目标数据提供给用户。88.本申请实施例提供的数据处理系统不仅可用于数据抽取,还可对目标数据进行处理。相应地,用户交互界面层还可展示数据处理逻辑配置组件。这样,用户可通过数据处理逻辑配置组件配置目标数据处理逻辑。相应地,可基于数据处理配置组件提供的数据处理逻辑,对获取的目标数据片段进行处理。进一步,可对处理后的目标数据片段进行整合,得到目标数据。其中,关于数据处理逻辑的描述可参见上述实施例的相关内容,在此不再赘述。89.进一步,考虑到不同的应用场景,对数据的需求不同,所适用的数据抽取模式也就有所不同,本申请实施例提供的数据处理系统还可提供数据抽取模式推荐功能。例如,在性能测试场景中,由于数据抽取的先后顺序与系统性能有着强关联关系,因此,对于性能测试场景,可推荐时序抽取模式。又例如,对于线下回归测试场景,因为线下场景需要用尽可能少的数量覆盖尽可能全的场景,因此可推荐采样模式。对于线上冒烟测试、验收测试等线上场景,因为线上测试不关心数据量的数量级和时序,但需要更多的保证场景的覆盖,因此优先推荐随机抽取模式。90.基于上述分析,用户界面层还可展示应用场景配置控件(图1a-图1h中未示出)。用户可通过应用场景配置组件配置所需的目标应用场景。相应地,还可响应于针对应用场景配置控件的配置操作,确定用户配置目标应用场景。进一步,根据目标应用场景,确定与目标应用场景适配的候选抽取模式,并展示候选抽取模式,以向用户推荐候选数据抽取模式,可为用户配置数据抽取模式提供参考,有助于进一步提高用户体验。91.可选地,数据处理层可维护应用场景与数据抽取模式之间的对应关系,并将用户配置的目标应用场景在应用场景与数据抽取模式之间的对应关系中进行匹配,以确定目标应用场景适配的数据抽取模式。其中,关于应用场景与数据抽取模式之间的对应关系,可参见上述相关内容,在此不再赘述。92.需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201和202的执行主体可以为设备a;又比如,步骤201的执行主体可以为设备a,步骤202的执行主体可以为设备b;等等。93.另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。94.本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述数据处理方法中的步骤。95.图3为本申请实施例提供的一种计算机设备的结构示意图。如图3所示,该计算机设备包括:存储器30a、处理器30b和显示器30c。其中,存储器30a,用于存储计算机程序。96.处理器30b耦合至存储器30a,用于执行计算机程序以用于:通过显示器30c展示抽取模式配置组件和数据源配置组件;以及响应于针对抽取模式配置组件和数据源组件的配置操作,生成数据抽取任务;并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。97.可选地,目标数据源可存储于本地存储器30a中,也可存储于其它计算机设备的存储器中。98.在一些实施例中,处理器30b还用于:响应于针对抽取模式配置组件的触发操作,通过显示器30c展示至少一种抽取模式;以及响应于针对至少一种抽取模式的选择操作,将被选中的抽取模式作为目标抽取模式。99.可选地,至少一种抽取模式包括:采样模式、时序抽取模式、顺序抽取模式、随机抽取模式以及自定义抽取模式中的至少一种。100.相应地,处理器30b还用户:响应于针对采样模式的触发操作,通过显示器30c展示采样规则设置组件,以供用户设置采样规则;或者,响应于针对时序抽取模式的触发操作,通过显示器30c展示时间设置组件,以供用户设置待抽取数据所属的时间段;或者,响应于针对顺序抽取模式的触发操作,通过显示器30c展示数据抽取顺序设置组件,以供用户设置待抽取数据的先后顺序;或者,响应于针对随机抽取模式的触发操作,通过显示器30c展示数据量设置组件,以供用户设置待抽取的数据量大小;或者,响应于针对自定义抽取模式,通过显示器30c展示抽取模式编辑组件,以供用户输入自定义的抽取模式。101.在另一些实施例中,处理器30b在生成数据抽取任务时,具体用于:将抽取模式标识和数据源标识写入执行计划;抽取模式标识用于指定目标抽取模式,数据源标识用于指定目标数据源;根据执行计划,生成数据抽取任务。102.相应地,处理器30b在获取目标数据源信息指向的目标数据时,具体用于:从数据抽取任务中,解析出目标抽取模式和目标数据源;按照目标抽取模式,获取目标数据源指向的目标数据。103.在又一些实施例中,处理器30b在获取目标数据源信息指向的目标数据时,具体用于:根据目标数据源将数据抽取任务拆分为至少一个子任务;其中,每个子任务对应的数据源不同;按照目标抽取模式,获取各子任务对应的目标数据源所指向的目标数据片段;以及将获取的目标数据片段进行整合,以得到目标数据;并将目标数据提供给用户。104.可选地,处理器30b在将数据抽取任务拆分为至少一个子任务时,具体用于:按照待抽取数据在目标数据源中的存储顺序,将数据抽取任务拆分成多个子任务;其中,每个子任务携带顺序标识。105.相应地,处理器30b在获取各子任务对应的目标数据源所指向的目标数据片段时,具体用于:调用多个线程并行获取接收到的子任务对应的目标数据源所指向的目标数据片段,并将子任务携带的顺序标识添加至目标数据片段中。106.相应地,处理器30b在将获取的目标数据片段进行整合时,具体用于:按照至少一个任务处理单元提供的目标数据片段的顺序标识,整合至少一个任务处理单元提供的目标数据片段,以得到目标数据。107.可选地,处理器30b还用于:将目标数据进行持久化,并将持久化后的目标数据的存储路径提供给用户,以供用户基于存储路径访问目标数据。108.进一步,处理器30b在将述目标数据进行持久化时,具体用于:将目标数据持久化至存储层,并将存储层的地址提供给用户。可选地,存储层可为本地存储器30a,也可为其他计算机设备的存储器。109.可选地,处理器30b可将目标数据以hdfs文件的形式持久化至存储层。110.在再一些实施例中,处理器30b还可用于:响应于针对存储路径的访问操作,拉取目标数据,并将目标数据提供给用户。111.在其它一些实施例中,显示器30c还展示有数据处理配置组件。处理器30b可用于:基于数据处理配置组件提供的目标数据处理逻辑,对获取的目标数据片段进行处理。112.在本申请实施例中,处理器30b还可:监测数据处理任务的执行状态;并将执行状态提供给用户。113.在本申请实施例中,处理器30b还用于:通过显示器30c展示应用场景配置控件,并响应于针对应用场景配置控件的配置操作,确定用户配置目标应用场景;以及根据目标应用场景,确定与目标应用场景适配的候选抽取模式,并展示候选抽取模式。这样,可向用户推荐候选数据抽取模式,可为用户配置数据抽取模式提供参考,有助于进一步提高用户体验。在一些可选实施方式中,如图3所示,该计算机设备还可以包括:通信组件30d、电源组件30e、音频组件30f等可选组件。图3中仅示意性给出部分组件,并不意味着计算机设备必须包含图1b所示全部组件,也不意味着计算机设备只能包括图3所示组件。114.在本实施例中,存储器用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算机设备上的操作。其中,处理器可执行存储器中存储的计算机程序,以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。115.在本实施例中,通信组件被配置为便于计算机设备和其他设备之间有线或无线方式的通信。计算机设备可以接入基于通信标准的无线网络,如wifi,2g或3g,4g,5g或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术或其他技术来实现。116.在本实施例中,可以包括液晶显示器(lcd)和触摸面板(tp)。如果显示器包括触摸面板,显示器可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。117.在本实施例中,电源组件被配置为计算机设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。118.在本实施例中,音频组件可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(mic),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。例如,对于具有语言交互功能的计算机设备,可通过音频组件实现与用户的语音交互等。119.本实施例提供的计算机设备,包括:用户界面层和数据处理层;其中,用户界面层展示抽取模式配置组件和数据源配置组件,可供用户配置目标抽取模式和待抽取数据所在的目标数据源信息,并可响应于用户的配置操作生成数据抽取任务;接着,数据处理层便可执行该数据抽取任务,并按照数据抽取任务指定的目标抽取模式,获取数据抽取任务指定的目标数据源指向的目标数据。本申请实施例提供的数据处理系统可向用户提供自主抽取数据服务,用户可根据数据抽取需求配置数据抽取模式和待抽取数据所在的数据源信息,无需编辑数据抽取逻辑,实现了数据抽取与逻辑编程的解耦,有助于提高数据抽取效率,降低成本。120.需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。121.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。122.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。123.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。124.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。125.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。126.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。127.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。128.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。129.以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1