基于集散模型的数据采集方法及装置与流程

文档序号:24528300发布日期:2021-04-02 10:06阅读:118来源:国知局
基于集散模型的数据采集方法及装置与流程

本申请涉及数据处理领域,具体涉及一种基于集散模型的数据采集方法及装置。



背景技术:

数据采集是构建数据分析系统以及数据仓库的必要步骤,经过长期发展,业界将数据采集过程整合为etl(抽取-extract、转换-transform、加载-load)过程。etl是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

伴随着etl技术的发展,行业内产生了诸多优秀工具。如datapipeline、kettle、talend以及阿里巴巴的datax等等。它们各具特点,可在不同场景下满足数据采集以及处理的各类需求。

缺陷和不足:

(1)抽取端存在竞争和流程重复的问题

一方面,在采集数据库数据时,大部分etl工具为了保证通用性,在接入端一般采用源数据库暴露的标准驱动及api进行批量查询获取数据,例如oracle的jdbc、windows下的odbc、hive对应的hive-jdcb等,与源数据库各自业务操作存在资源竞争,另外在数据库版本不同的时,etl工具可能存在驱动冲突问题;另一方面,获取到的数据类型一般可分为批量和流式两大类,由于二者格式和传输差异性,导致采集任务流程不通用,造成流程重复配置和资源浪费的问题。

(2)转换端配置繁杂、执行成本高

由于各源数据库格式各异,所以转换端一般需要人工配置各种转换逻辑,在抽取数据的同时完成格式转换。这个过程存在两个问题:一是操作人员需要掌握各类不同数据库的数据操作函数(如oracle、mysql中的sql函数)使用方法,对每个需要转换的字段进行配置;二是转换一般在源数据库或etl工具服务器上进行,前者会在源数据库端产生额外的执行压力,后者则需要etl所在服务器提供较大的运算处理能力,均提高了转换的执行成本。

(3)加载端难以处理更新和删除数据

数据同步是很多业务系统的刚性需求,目前etl工具能较好地处理增量数据加载问题,但是对于更新数据和删除数据,由于目标系统数据库的特性差异,各工具处理方式和效果各异,有些甚至还不支持处理,这将极大限制目标系统的使用范围和效果。



技术实现要素:

针对现有技术中的问题,本申请提供一种基于集散模型的数据采集方法及装置,能够有效提高数据采集的灵活性、通用性和采集效率。

为了解决上述问题中的至少一个,本申请提供以下技术方案:

第一方面,本申请提供一种基于集散模型的数据采集方法,包括:

在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

进一步地,所述在源数据库端采用分立式接入器进行目标数据隔离采集,包括:

通过拉取式采集器根据时间戳或递增序列标识确定数据访问位置,以主动访问方式获取增量数据和更新数据;

通过推送式采集器接收外部推送的数据流或截取数据日志,得到增量数据、更新数据、删除数据。

进一步地,所述通过数据总线将目标数据传输至目标数据库端,包括:

通过数据总线中与目标表对应的通信管道接收所述分立式接入器采集到的目标数据或外部主动写入的目标数据。

进一步地,所述在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表,包括:

所述目标数据库端根据所述数据总线传输数据流时的数据标记位、数据传输时间、数据传输体量中的至少一种,从所述数据总线传输数据流中获取目标数据,并将所述目标数据加载至对应的中间表中。

进一步地,所述对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表,包括:

根据转换类型、目标数据格式、源数据格式的不同对所述中间表进行类型格式转换;

通过数据库引擎或文件操作的方式将经过所述类型格式转换后的中间表整合为目标表。

第二方面,本申请提供一种基于集散模型的数据采集装置,包括:

数据抽取模块,用于在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

数据加载模块,用于在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

转换整合模块,用于对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于集散模型的数据采集方法的步骤。

第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于集散模型的数据采集方法的步骤。

由上述技术方案可知,本申请提供一种基于集散模型的数据采集方法及装置,通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中的基于集散模型的数据采集方法的流程示意图之一;

图2为本申请实施例中的基于集散模型的数据采集方法的流程示意图之二;

图3为本申请实施例中的基于集散模型的数据采集方法的流程示意图之三;

图4为本申请实施例中的基于集散模型的数据采集装置的结构图;

图5为本申请实施例中的基于集散模型的数据采集方法的整体流程示意图;

图6为本申请实施例中的数据总线工作流程示意图;

图7为本申请实施例中的数据加载流程示意图;

图8为本申请实施例中的数据转换流程示意图;

图9为本申请实施例中的数据整合流程示意图之一;

图10为本申请实施例中的数据整合流程示意图之二;

图11为本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

考虑到现有技术中存在的问题,本申请提供一种基于集散模型的数据采集方法及装置,通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

为了能够有效提高数据采集的灵活性、通用性和采集效率,本申请提供一种基于集散模型的数据采集方法的实施例,参见图1,所述基于集散模型的数据采集方法具体包含有如下内容:

步骤s101:在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

步骤s102:在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

步骤s103:对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

从上述描述可知,本申请实施例提供的基于集散模型的数据采集方法,能够通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

在本申请的基于集散模型的数据采集方法的一实施例中,参见图2,所述在源数据库端采用分立式接入器进行目标数据隔离采集,包括:

步骤s201:通过拉取式采集器根据时间戳或递增序列标识确定数据访问位置,以主动访问方式获取增量数据和更新数据;

步骤s202:通过推送式采集器接收外部推送的数据流或截取数据日志,得到增量数据、更新数据、删除数据。

在本申请的基于集散模型的数据采集方法的一实施例中,所述通过数据总线将目标数据传输至目标数据库端,包括:

通过数据总线中与目标表对应的通信管道接收所述分立式接入器采集到的目标数据或外部主动写入的目标数据。

在本申请的基于集散模型的数据采集方法的一实施例中,所述在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表,包括:

所述目标数据库端根据所述数据总线传输数据流时的数据标记位、数据传输时间、数据传输体量中的至少一种,从所述数据总线传输数据流中获取目标数据,并将所述目标数据加载至对应的中间表中。

在本申请的基于集散模型的数据采集方法的一实施例中,参见图3,所述对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表,包括:

步骤s301:根据转换类型、目标数据格式、源数据格式的不同对所述中间表进行类型格式转换;

步骤s302:通过数据库引擎或文件操作的方式将经过所述类型格式转换后的中间表整合为目标表。

为了能够有效提高数据采集的灵活性、通用性和采集效率,本申请提供一种用于实现所述基于集散模型的数据采集方法的全部或部分内容的基于集散模型的数据采集装置的实施例,参见图4,所述基于集散模型的数据采集装置具体包含有如下内容:

数据抽取模块10,用于在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

数据加载模块20,用于在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

转换整合模块30,用于对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

从上述描述可知,本申请实施例提供的基于集散模型的数据采集装置,能够通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

为了更进一步说明本方案,本申请还提供一种应用上述基于集散模型的数据采集装置实现基于集散模型的数据采集方法的具体应用实例,具体包含有如下内容:

参见图5,方案将原etl过程重新排列并增添新环节形成elti结构:

e抽取(extract):采用分立式接入器和数据总线分别实现数据的隔离采集和传输。

l加载(load):对增量、更新、删除数据单独处理,形成中间表。

t转换(transform):对中间表完成高效数据转换,格式化数据。

i整合(integrate):将各类中间表数据以不同方式整合到目标表。

其中,e在源数据库完成,l、t、i过程均在目标数据库完成。

具体设计方案:

一、抽取环节

(1)数据采集器

本方案将采集到的数据分为三类:增量(首次采集为全量)、更新、删除。不同数据采集时增加字段标识,用于不同的后续处理流程。

根据数据采集方式不同,接入器可分为以下两种:

拉取式

拉取式采集器以主动访问的方式获取数据,如利用数据库驱动来查询数据、文件解析器读取文件等。为每一种数据源设计专用采集器,数据库类型采集器不同版本之间的驱动可以灵活切换。拉取式是最简单灵活的批量数据采集模式,但一般会增加源端的工作负载。

拉取式采集器支持使用时间戳或id(递增序列)方式标记数据访问位置,主要输出识别增量和更新数据,但一般无法获得删除数据情况。

推送式

推送式采集器主要接收外部推送的数据流或截取数据日志,例如外部消息系统推送的数据、数据库log日志分析(从中解析数据的改变情况)。

推送式是一种流式数据采集器,能够实时获得数据并且不会对数据源产生负载压力,但有一定使用条件,如源数据库配合开放特定的日志访问权限。

推送式采集器一般可提供增量、更新、删除数据。

为避免驱动和操作冲突,上述采集器每个实例均采用独立运行模式,互不影响。

为方便数据转换,接入器将采集的数据统一转为字符串格式,具体见后续章节分析。

(2)数据接入总线

参见图6,本方案采用数据接入总线模式,数据接入总线采用流式管道结构搭建,实现抽取端的数据源归一化处理。

每一个目标表(数据落地方)有一条专用管道与之相对应,写入该管道的数据最终都会通过后续环节存储到目标表中。

每一条管道可以接多个数据写入方,除系统自带的各类采集器外,还支持通过api从外部写入。因此,对于临时性或第三方数据录入任务,只要经过必要鉴权流程,无需改变当前采集任务信息即可完成。

流式数据可以借助管道与批量数据一同接入,共同进入后续的转换和加载过程,而无需其他额外的操作。

数据总线的引入让数据抽取端与后续处理环节分离开来,同时整合批量、流式数据源接入,统一了接入数据形态。

二、加载环节

参见图7,本方案将加载环节提到转换环节前面,将数据根据类别落地到目标数据库的临时表中。

(1)临时表

增量临时表:存储待增量数据,用于追加到目标表中,内容包含数据源全字段信息。

更新临时表:存储待更新数据,用于更新目标表中替换旧数据,内容包含数据源全字段信息。

删除临时表:存储待删除数据,用于删除目标表中已有数据,内容包含数据源id或联合主键字段信息。

(2)数据加载策略

由于前端采用总线接收数据,数据在管道中以流式形态存在,在加载环节需要将数据从对应管道取出并落地,系统支持三种策略满足不同数据加载需求:

标记位加载:在抽取环节,每次获得的批量数据会在开始、结束位置增加标记位,识别到前者开始进行数据写入,识别到后者结束写入开启下一环节。

超时加载:对于流式数据,可以在得到某条数据后持续一段时间无新数据,则判定本次写入结束,开启下一环节。

超量加载:对于流式数据,可以在得到指定条数数据后判定本次写入结束,开启下一环节。

三、转换环节

参见图8,该环节主要处理加载环节生成的临时表(增量数据表和更新数据表),按照需要进行数据清洗转换。

由于进入到目标系统中的临时表数据均已转化为最常见的字符串类型,因此可以灵活利用目标数据库的字符串处理函数完成转换规则中设置的转换动作。

(1)规则构建

转换规则包含以下三项内容:

转换类型:对待转换内容的分类,如时间、日期、数值、货币、科学计数等,也包括特殊的数据值,如空值、null值、特殊符号等,同时支持自定义类型转换。

目标数据格式:每种转换类型需要处理生成的标准化格式,例如日期转成yyyymmdd、null值转为空等。

源数据格式:每种转换类型支持处理的源数据格式,与标准格式为多对一关系。

(2)转换过程

转换类型识别:有两种方式:自动和手动,前者利用规则中配置的元数据格式扫描数据进行类型匹配;后者通过人工选择字段和类型的对应关系。

函数调用:利用目标库中的字符串处理函数(主要为转换类,可在系统中统一配置),结合配置的转换规则,对目标字段数据进行函数处理。

结果回写:有两种回写方式:更新和列追加。前者直接对临时表中的源字段内容进行更新;后者则追加到表中形成一个新列。具体选择何种方式需要根据目标数据库所支持的操作而定。

(3)复用与迁移

规则复用:由于绑定到待处理字段上的是转换类型而非具体逻辑代码,因此,无论是当前系统还是其他同构系统,均可在此环节直接绑定已构建规则,而无需重新配置。

规则迁移:由于字符串处理函数(特别是字符串转换相关函数)是绝大部分数据库中必备的基础组件,因此系统中的转换规则是可以复用到其他不同目标数据库的数据采集系统的,只需在规则导入后重新绑定字符串处理函数即可。

四、整合环节

本环节以不同方式将转换完成的各类中间表数据整合到目标表中,形成最终结果。由于目标数据库对于不同类型数据操作不尽相同,故在整合环节对中间表数据做区分处理:

(1)增量数据

参见图9和图10,有两种整合方式:

数据库引擎方式:利用目标库自身引擎(如oracle的sql引擎、hive等),调用插入命令追加数据到目标表。

文件操作方式:对于支持数据文件直接操作的数据库(如hive映射的hdfs文件等),可以通过追加文件的方式将增量数据填充到目标表中。

(2)更新与删除数据

与增量数据不同,更新和删除主要对已落地数据进行操作,直接操作文件的方式往往效率较低,故主要利用数据库引擎实现,有两种模式:

本地(inplace)模式

利用数据库引擎进行临时数据表和目标表的关联操作,进而实现数据更新和删除。

本地模式不需要生成新表,数据更新在原目标表上,但前提条件是目标数据库(如常见的关系型数据库)本身支持更新和删除操作。

替换(replace)模式

部分目标数据库不支持原表更新删除数据,例如基于hdfs的hive数据库等,此时可以采用替换模式。

替换模式同样借助目标数据库本身的表关联操作,由临时数据表和目标表关联生成新的结果表,然后通过替换+删除旧表操作实现目标表数据更新、删除。

替换模式会产生临时数据,但由于是替换动作是在数据准备完成后发生的,因此不会出现数据不同步现象。

有上述内容可知,本申请至少还可以实现如下技术效果:

1,提出的数据采集器设计,覆盖多种数据源和数据形态,为降低源端压力提供了条件,同时独立运行,有效屏蔽相互间的运行冲突问题。

2,提出的数据总线设计,将采集到的批量和流式数据统一管道化处理,整合数据形态的同时实现了采集与处理环节的隔离。

3,提出的基于规则的数据转换策略,屏蔽了数据源的类型差异,降低了转换工作复杂度的同时还具备良好的复用、迁移特性。

4,提出的数据转换方法,将转换过程后移到目标数据系统中进行,降低了源端压力,同时充分利用目标系统的运算资源,提升处理效率。

5,提出的数据加载和整合方法,对增量、更新和删除数据单独处理,可按目标系统特性进行分模式数据同步,有效整合数据。

从硬件层面来说,为了能够有效提高数据采集的灵活性、通用性和采集效率,本申请提供一种用于实现所述基于集散模型的数据采集方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:

处理器(processor)、存储器(memory)、通信接口(communicationsinterface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现基于集散模型的数据采集装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的基于集散模型的数据采集方法的实施例,以及基于集散模型的数据采集装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。

可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中,基于集散模型的数据采集方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。

图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图11是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。

一实施例中,基于集散模型的数据采集方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:

步骤s101:在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

步骤s102:在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

步骤s103:对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

从上述描述可知,本申请实施例提供的电子设备,通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

在另一个实施方式中,基于集散模型的数据采集装置可以与中央处理器9100分开配置,例如可以将基于集散模型的数据采集装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现基于集散模型的数据采集方法功能。

如图11所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图11中所示的所有部件;此外,电子设备9600还可以包括图11中没有示出的部件,可以参考现有技术。

如图11所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。

该存储器9140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的基于集散模型的数据采集方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的基于集散模型的数据采集方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:

步骤s101:在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;

步骤s102:在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;

步骤s103:对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表。

从上述描述可知,本申请实施例提供的计算机可读存储介质,通过在源数据库端采用分立式接入器进行目标数据隔离采集,并通过数据总线将目标数据传输至目标数据库端;在所述目标数据库端对所述目标数据进行增量、更新、删除处理,得到中间表;对所述中间表进行类型格式转换,并根据经过所述类型格式转换后的中间表整合得到目标表;本申请能够有效提高数据采集的灵活性、通用性和采集效率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1