数据采集方法、装置、设备及计算机可读存储介质与流程

文档序号:19250652发布日期:2019-11-27 20:11阅读:296来源:国知局
数据采集方法、装置、设备及计算机可读存储介质与流程

本发明主要涉及数据处理技术领域,具体地说,涉及一种数据采集方法、装置、设备及计算机可读存储介质。



背景技术:

目前,为了数据的规范管理,数据库中的各数据按照类型分类存储,相同类型的数据存储在同一数据表中,而不同的数据存储在不同的数据表中。在对数据进行采集时,所采集数据的类型无论是单种还是多种,均先将数据库中的各数据表进行关联,进而从关联的各个数据表中查找需要采集的各个数据进行采集。

但是,通过关联的各数据表进行数据查找并采集的方式,所关联的各数据表中存在与所需要的采集数据无关的数据表;同时因对无关数据表的关联,使得在进行查找操作时,还需要对该无关的数据表进行查找;对无关数据表的关联和查找操作,消耗了资源,降低了数据采集的效率。



技术实现要素:

本发明的主要目的是提供一种数据采集方法、装置、设备及计算机可读存储介质,旨在解决现有技术在数据采集时,对无关数据表的关联和查找操作,消耗了资源,降低了数据采集效率的问题。

为实现上述目的,本发明提供一种数据采集方法,所述数据采集方法包括以下步骤:

当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

优选地,所述根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表的步骤包括:

读取所述运行结果中所述需求字段信息与所述预设基础代码中全字段对比的对比结果,并根据所述对比结果,确定所述全字段中与所述需求字段信息对应的目标字段;

读取所述运行结果中各所述目标字段对应的数据表名,并根据所述数据表名,确定与各所述目标字段对应的数据表。

优选地,所述根据所述数据表的数量,将所述数据表形成目标数据表的步骤包括:

判断各所述目标字段对应的数据表名是否具有唯一性,若具有唯一性,则判定所述数据表的数量为单个,否则判定所述数据表的数量为多个;

当所述数据表的数量为单个时,则将单个所述数据表确定为目标数据表;

当所述数据表的数量为多个时,则读取多个所述数据表中存储各类数据相关性的相关标识,并将所述相关标识生成为关联标识,对多个所述数据表关联,形成目标数据表。

优选地,所述对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据的步骤包括:

读取所述需求采集文档中的筛选范围信息,并根据所述筛选范围信息对所述目标数据表进行初次筛选,生成初次筛选数据;

根据与各所述目标字段对应的数据表,对各所述初次筛选数据进行再次筛选,生成再次筛选数据,并将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

优选地,所述将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集的步骤包括:

判断所述目标数据表是否携带所述关联标识,若携带所述关联标识,则根据所述关联标识,将所述再次筛选数据关联,并将关联后的所述再次筛选数据设为与所述需求字段信息对应的数据进行采集;

若不携带所述关联标识,则将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

优选地,所述将所述需求字段信息添加到所述预设基础代码中的连接语句中,生成采集代码的步骤包括:

根据预设连接标识,确定所述预设基础代码中的连接语句,并根据预设变量标识,检测所述连接语句中的变量位置;

将所述需求字段信息添加到所述变量位置中,替换所述变量位置中的变量,并检测所述需求字段信息是否均添加到所述变量位置中;

若均添加到所述变量位置中,则将所述预设基础代码更新为采集代码。

优选地,所述控制所述采集代码运行,生成运行结果的步骤之前包括:

将所述采集代码和预设形式规则对比,判断所述采集代码中的各语句是否符合所述预设形式规则,其中,所述预设形式规则用于判断所述采集代码的正确性;

若各所述语句均符合所述预设形式规则,则执行控制所述采集代码运行,生成运行结果的步骤;

若各所述语句中存在不符合所述预设形式规则的异常语句,则基于所述异常语句输出提示修改信息。

此外,为实现上述目的,本发明还提出一种数据采集装置,所述数据采集装置包括:

读取模块,用于当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

控制模块,用于控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

采集模块,用于根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

此外,为实现上述目的,本发明还提出一种数据采集设备,所述数据采集设备包括:存储器、处理器、通信总线以及存储在所述存储器上的数据采集程序;

所述通信总线用于实现处理器和存储器之间的连接通信;

所述处理器用于执行所述数据采集程序,以实现以下步骤:

当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:

当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

本实施例的数据采集方法,当接收到需求采集文档时,先对其中的需求字段信息进行读取,再调用预设基础代码,并将需求字段信息添加到预设基础代码的连接语句中,生成采集代码;此后控制采集代码运行,生成运行结果,并根据运行结果确定与需求字段信息对应的目标字段,以及与各目标字段对应的数据表;进而根据数据表的数量,将数据表形成目标数据表,并对目标数据表进行筛选,实现对与需求字段信息对应的数据采集。本方案将需要采集的数据形成需求采集文档,且其中的需求字段信息表征了所需要采集的数据类型;将需求字段信息添加到预设基础代码中所形成的采集代码用于对需求字段信息进行查找,以确定需求字段信息所在的数据表;进而将数据表形成目标数据表进行筛选,采集与需求字段信息对应的数据。因目标数据表由需要采集的需求字段信息所在的数据表形成,避免了对与采集数据无关的数据表的关联和查找操作,节省了资源,提高了数据采集的效率;同时由预设基础代码所形成的采集代码在运行时仅对需求字段信息进行对比查找,因此对比的数据量小,查找速度快。

附图说明

图1是本发明的数据采集方法第一实施例的流程示意图;

图2是本发明的数据采集装置第一实施例的功能模块示意图;

图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种数据采集方法。

请参照图1,图1为本发明数据采集方法第一实施例的流程示意图。在本实施例中,所述数据采集方法包括:

步骤s10,当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

本发明的数据采集方法应用于服务器,适用于通过服务器对各种类型的数据进行采集。为了便于各类数据的采集,设置有文档采集机制;具有数据采集需求的采集人员设置需求采集文档,将表征所需要采集数据类型的需求字段信息,如保单号、被保人等字段;以及表征需要采集数据所在范围的筛选范围信息,如时间范围、机构范围、清单编码范围、业务员编码范围等设置到空白文档中,形成需求采集文档并上传到服务器。当服务器接收到该需求采集文档时,先对其中的需求字段信息进行读取,以通过该读取的需求字段信息确定所需要采集的数据类型。同时还预先设置预设基础代码,该预设基础代码包含有数据库中所存储的所有字段,以及各个字段所在数据表的表名称;表征数据库中具有的各字段,以及各字段所对应的数据表名。此外,预设基础代码中还设置有连接语句,在接收到需求采集文档,需要进行数据采集时,对预设基础代码进行调用,并将读取的需求字段信息添加到预设基础代码的连接语句中。该将需求字段信息添加到连接语句中之后的预设基础代码,其实质为对需求字段信息所在数据表进行查找的代码,将其作为采集代码,以对需求字段信息表征的需要采集数据进行采集。考虑到预设基础代码中所涉及到的代码语句众多,需要先从其中分辨出连接语句,该分辨操作可通过连接标识进行;具体地,将需求字段信息添加到预设基础代码中的连接语句中,生成采集代码的步骤包括:

步骤s11,根据预设连接标识,确定所述预设基础代码中的连接语句,并根据预设变量标识,检测所述连接语句中的变量位置;

预先设置表征连接语句的连接标识,并在预设基础代码开发过程中,对其中的连接语句添加该连接标识。在对需求字段信息进行添加的过程中,先检测预设基础代码中预设连接标识所在的代码语句,该所在的代码语句即为连接语句。此外连接语句中包含有多个代码,且多个代码中包含支持连接语句运行,实现其功能的常规代码,以及用于替换需求字段信息,以对需求字段信息进行查询的变量代码。常规代码具有不可替换特性,而变量代码具有可替换特性,且变量代码用预先设置的预设变量标识表征。在确定预设基础代码中的连接语句之后,再对其中具有预设变量标识的代码进行检测,该具有预设变量标识的代码即为变量代码;将变量代码所在连接语句中的位置确定为连接语句中的变量位置,以对需求字段信息进行查询。

步骤s12,将所述需求字段信息添加到所述变量位置中,替换所述变量位置中的变量,并检测所述需求字段信息是否均添加到所述变量位置中;

步骤s13,若均添加到所述变量位置中,则将所述预设基础代码更新为采集代码。

进一步地,变量位置中所具有的变量代码即为所需要进行替换的变量,在确定连接语句中的变量位置后,将需求字段信息中的各字段添加到该变量位置中,替换其中的变量。因需求字段信息所涉及到的字段众多,可预先设定用于区分各需求字段信息的间隔符,如“/”、“;”等;在添加时,先将变量位置中所具有的变量删除,再将各需求字段信息逐一添加到该变量位置中,并用间隔符进行分割,以确保需求字段信息中各字段之间的独立性。此外在添加过程中,检测需求字段信息中各字段是否均添加到变量位置中,以防止遗漏;该检测可通过需求字段信息的字段数量和字段重复性进行,即判断已添加的需求字段信息的字段数量和从需求采集文档中所读取的字段数量是否一致,以及判断所添加的需求字段信息中是否存在重复的需求字段信息。当所添加的需求字段信息中不存在重复的需求字段信息,且字段数量一致,则说明需求字段信息中的各字段均添加到变量位置中;否则若存在重复添加的需求字段信息,或者字段数量不一致,则说明存在尚未添加到变量位置中的需求字段信息,需要继续添加,直到需求字段信息中的各字段均添加到变量位置中。而在检测出需求字段信息中的各字段均添加到变量位置中后,则将添加有需求字段信息的预设基础代码更新为采集代码,以对其中需求字段信息所对应的数据表进行查询,进而从数据表中采集需求字段信息对应需要采集的数据。

步骤s20,控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

更进一步地,在生成添加有需求字段信息的采集代码后,服务器向采集代码发送运行指令,控制采集代码运行;采集代码按照其本身预先设置的逻辑运行,对需求字段信息对应的字段进行查找,生成运行结果。服务器对该运行结果进行读取,并依据其中的查找结果确定与需求字段信息对应的目标字段,以及与各目标字段所对应的数据表。预设基础代码中包含有数据库中所存储的所有字段,采集代码的运行为将需求字段信息中的各字段和该所有字段进行对比,从所有字段中查找与需求字段信息中各字段对应字段的过程;运行所生成的运行结果包括该对比的对比结果,服务器依据该对比结果即可确定与需求字段信息所对应的各目标字段;具体地,根据运行结果确定与需求字段信息对应的目标字段,以及与各目标字段对应的数据表的步骤包括:

步骤s21,读取所述运行结果中所述需求字段信息与所述预设基础代码中全字段对比的对比结果,并根据所述对比结果,确定所述全字段中与所述需求字段信息对应的目标字段;

进一步地,将预设基础代码包含的数据库中所存储的所有字段作为预设基础代码中的全字段,通过采集代码运行将需求字段信息和该全字段进行对比,查找全字段中与各需求字段信息对应的字段;此后对查找得到的各对应的字段分配查找标识,作为目标字段生成为运行结果中的对比结果。服务器在读取到运行结果后,对其中的对比结果进行读取,通过对比结果中的查找标识确定与需求字段信息对应的目标字段。

步骤s22,读取所述运行结果中各所述目标字段对应的数据表名,并根据所述数据表名,确定与各所述目标字段对应的数据表。

更进一步地,因预设基础代码中除了包含有数据库中所存储的所有字段之外,还包含有各字段所在数据表的表名称,且各字段与其各自所在数据表的表名称之间具有对应关系;如所包含的字段有w1和w2,且w1所在数据表的表名称为m1,w2所在数据表的表名称为m2,则w1与m1之间,以及w2与m2之间具有对应关系。采集代码运行所生成的运行结果中,除了包含表征各需求字段信息所对应目标字段的对比结果之外,还包含有各目标字段所对应的表名称,以表征各目标字段所在的数据表。将运行结果中与各目标字段对应的表名称读取为数据表名,并依据该数据表名确定与各目标字段对应的数据表。因不同数据表所具有的表名称不同,数据表名所表征的数据表,即为与各目标字段对应的数据表,表征各目标字段所在的数据表。

步骤s30,根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

可理解地,因需求字段信息表征的所需要采集的数据类型众多,使得与需求字段信息对应的目标字段众多,该多个目标字段可能位于同一个数据表,也可能位于多个不同的数据表;即与目标字段对应的数据表可能为单个,也可能为多个。为了便于数据的采集,将该单个或多个数量的数据表形成目标数据表,并对目标数据表进行筛选,采集与需求字段信息对应的数据,即需求采集文档中所需要采集的数据。因数据表可能为单个也可能为多个,在形成目标数据表时,需要依据数量的差异性进行不同的操作;具体地,根据数据表的数量,将数据表形成目标数据表的步骤包括:

步骤s31,判断各所述目标字段对应的数据表名是否具有唯一性,若具有唯一性,则判定所述数据表的数量为单个,否则判定所述数据表的数量为多个;

进一步地,因不同数据表之间所具有的表名称不同,可先通过数据表名的唯一性来确定数据表的数量是单个还是多个;即对各目标字段所对应的数据表名是否唯一进行判断,若对应的数据表名只有一个,即具有唯一性,则说明数据表的数量为单个;而若对应的数据表名有多个,即不具有唯一性,则说明数据表的数量为多个。

步骤s32,当所述数据表的数量为单个时,则将单个所述数据表确定为目标数据表;

更进一步地,当经判断数据表名具有唯一性,数据表的数量为单个时,说明需求采集文档所需要采集的数据均在该单个数据表中;即通过该单个数据表即可采集到所有需要采集的数据,从而将该包含所需要采集的所有数据的单张数据表作为目标数据表。

步骤s33,当所述数据表的数量为多个时,则读取多个所述数据表中存储各类数据相关性的相关标识,并将所述相关标识生成为关联标识,对多个所述数据表关联,形成目标数据表。

而若判断出数据表名不具有唯一性,目标字段所对应的数据表为多个时,则说明需求采集文档所需要采集的数据存在于多张不同的数据表中,需要从多张数据表中分别采集所需要的各种数据。此时读取多个数据表之间的相关标识,该相关标识表征了各数据表中所存储的各类数据之间的相关性。如对应的数据表包括投保人信息表和投保金额表,其中投保人信息表包括投保人所投保的保单编号,而投保金额为针对各个保单所投保的金额,与各个保单的保单编号具有相关性;从而保单编号即为投保人信息表和投保金额表之间的相关标识。将读取的相关标识生成为关联标识,并用该关联标识对多个数据表进行关联,生成目标数据表;即对各对应的数据表分配该关联标识,以在多个数据表之间建立关联关系,形成表征需求采集文档需要采集的各项数据所在的目标数据表。如需求采集文档中的需求字段信息为a1、a2和a3,若经确定a1、a2、a3所在的数据表分别为a、b、c,则对数据表a、b、c分配关联标识,将三者关联形成目标数据表,以从三者中采集所需求的各个字段数据;而若经确定a1、a2、a3所在的数据表为d,则直接将d设定为目标数据表,以从其中采集所需求的各个字段数据。

可理解地,目标数据表中所涉及到的数据众多,其中包括需求采集文档所需要采集的各类数据,也包括其他类型的数据;如需求采集文档所需求采集的数据为2018年1月1日之后所存储的数据,而目标数据表中可能包括此日期之前的数据。从而为了采集到满足需求的数据,需要依据需求采集文档中表征需要采集数据所在范围的筛选范围信息,对目标数据表进行筛选;具体地,对目标数据表进行筛选,采集与需求字段信息对应的数据的步骤包括:

步骤s34,读取所述需求采集文档中的筛选范围信息,并根据所述筛选范围信息对所述目标数据表进行初次筛选,生成初次筛选数据;

进一步地,先对需求采集文档中的筛选范围信息进行读取,以通过该读取的筛选范围信息确定需要采集的数据对应的范围;再依据该读取的筛选范围信息对目标数据表进行初次筛选,从目标数据表中筛选出满足筛选范围信息对应要求的初次筛选数据。其中初次筛选所得到的初次筛选数据依据筛选范围信息的不同而不同,如当筛选范围信息为时间范围,则所筛选出的初次筛选数据为目标数据表中在该时间范围内所生成的所有数据;而当筛选范围信息为业务员编码,则所筛选出的初次筛选数据为目标数据表中与该业务员编码所对应的所有数据。

步骤s35,根据与各所述目标字段对应的数据表,对各所述初次筛选数据进行再次筛选,生成再次筛选数据,并将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

更进一步地,因初次筛选所得到的初次筛选数据中为满足筛选范围信息要求的所有数据,该所有数据中包括与各目标字段对应的数据,也包括与各目标字段不对应的数据;从而需要依据各目标字段对初次筛选数据进行再次筛选,以从其中筛选出与各目标字段对应的数据。因各目标字段和需求字段信息之间具有对应关系,再次筛选所筛选出的与各目标字段对应的数据,其实质为与需求字段信息所对应的数据,即为需求采集文档所需要采集的数据。因各目标字段所对应的数据表可能单个,也可能多个,而该单个或多个数据表形成为目标数据表,对目标数据表进行初次筛选所得到初次筛选数据同样的可能来源于单个数据表米业可能来源于多个数据表。当各目标字段对应的数据表为单个时,则该单个数据表直接形成目标数据表,初次筛选数据则来源于该单个数据表;当各目标字段对应的数据表为多个时,则多个数据表关联形成目标数据表,初次筛选数据则来源于该多个数据表。

在依据各目标字段对初次筛选数据进行再次筛选时,需要依据各目标字段所对应的数据表进行;当各目标字段所对应的数据表为单个数据表,初次筛选数据来源于该单个数据表时,则直接依据各目标字段对初次筛选数据进行再次筛选,得到再次筛选数据。当各目标字段所对应的数据表为多个数据表,初次筛选数据来源于该多个数据表时,则依据各个目标字段所对应的各数据表,对各数据表进行再次筛选,得到再次筛选数据。如目标字段包括投保人姓名和投保金额两类,所对应的数据表分别为投保人信息表和投保金额表,筛选范围信息为2018年7月1号到2018年12月31号之间的数据;从而向依据需求字段信息,对投保人信息表和投保金额表进行初次筛选,得到时间范围在2018年7月1号到2018年12月31号之间的初次筛选数据。进而依据各目标字段与各数据表之间的对应关系,对来源于投保人信息表中的初次筛选数据进行再次筛选,得到与投保人姓名对应的再次筛选数据;同时对来源于投保金额表中的初次筛选数据进行再次筛选,得到与投保金额对应的再次筛选数据。因再次筛选数据为满足需求采集文档中需求字段信息和筛选范围信息要求的数据,即为所需要采集的数据;从而将该再次筛选数据设为与需求字段信息所对应的数据进行采集,以满足需求采集文档的采集需求。

考虑到当各目标数据表由多个数据表形成时,再次筛选所得到的再次筛选数据同样来源于多个数据表;在对该再次筛选数据进行采集时,需要先对来源于多个数据表的再次筛选数据进行关联。具体地,将再次筛选数据设为与需求字段信息对应的数据进行采集的步骤包括:

步骤s351,判断所述目标数据表是否携带所述关联标识,若携带所述关联标识,则根据所述关联标识,将所述再次筛选数据关联,并将关联后的所述再次筛选数据设为与所述需求字段信息对应的数据进行采集;

可理解地,在对来源于多个数据表的再次筛选数据进行关联时,需要先判断再次筛选数据是否来源于多个数据表;若来源于多个数据表则进行关联,否则不进行关联。因目标数据表在由多个数据表形成时,各个数据表均分配有关联标识;从而可通过关联标识来判断目标数据表是否由多个数据表形成,进而判断再次筛选数据是否来源于多个数据表。具体地,判断目标数据表是否携带有关联标识,若携带有关联标识则说明目标数据表由多个数据表形成,对目标数据表初次筛选所得到的初次筛选数据来源于多个数据表,使得对初次筛选数据再次筛选所得到的再次筛选数据也来源于多个数据表。对该来源于多个数据表的再次筛选数据依据关联标识进行关联,即对来源于各个数据表的再次筛选数据分配关联标识,以建立各再次筛选数据之间的关联关系;以依据各关联标识对各再次筛选数据进行采集,实现对需求采集文档中所需求的各项数据的采集。

步骤s352,若不携带所述关联标识,则将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

进一步地,当判断出目标数据表不携带有关联标识时,则说明目标数据表由单个数据表形成,对目标数据表初次筛选所得到的初次筛选数据来源于单个数据表,使得对初次筛选数据再次筛选所得到的再次筛选数据也来源于单个数据表。将来源于单个数据表的再次筛选数据直接设为与需求字段信息对应的数据,并对该数据进行采集,满足需求采集文档的采集需求。

本实施例的数据采集方法,当接收到需求采集文档时,先对其中的需求字段信息进行读取,再调用预设基础代码,并将需求字段信息添加到预设基础代码的连接语句中,生成采集代码;此后控制采集代码运行,生成运行结果,并根据运行结果确定与需求字段信息对应的目标字段,以及与各目标字段对应的数据表;进而根据数据表的数量,将数据表形成目标数据表,并对目标数据表进行筛选,实现对与需求字段信息对应的数据采集。本方案将需要采集的数据形成需求采集文档,且其中的需求字段信息表征了所需要采集的数据类型;将需求字段信息添加到预设基础代码中所形成的采集代码用于对需求字段信息进行查找,以确定需求字段信息所在的数据表;进而将数据表形成目标数据表进行筛选,采集与需求字段信息对应的数据。因目标数据表由需要采集的需求字段信息所在的数据表形成,避免了对与采集数据无关的数据表的关联和查找操作,节省了资源,提高了数据采集的效率;同时由预设基础代码所形成的采集代码在运行时仅对需求字段信息进行对比查找,因此对比的数据量小,查找速度快。

进一步地,在本发明数据采集方法另一实施例中,所述控制所述采集代码运行,生成运行结果的步骤之前包括:

步骤s40,将所述采集代码和预设形式规则对比,判断所述采集代码中的各语句是否符合所述预设形式规则,其中,所述预设形式规则用于判断所述采集代码的正确性;

可理解地,采集代码需要在逻辑规则正确的情况下,才能运行并生成对应的运行结果。为了确保采集代码逻辑规则的正确性,本实施例预先设置有表征正确逻辑规则的预设形式规则;该预设形式规则包含用于对采集代码中字符大小写、符号使用等进行规范的多项子规则,如对符号使用进行规范的子规则为:各代码语句中所存在的符号均单独出现,连续出现的符号为异常的代码语句。在控制采集代码运行之前,将采集代码中的各语句逐一和预设形式规则对比,判断采集代码中的各语句是否均符合预设规则。

步骤s50,若各所述语句均符合所述预设形式规则,则执行控制所述采集代码运行,生成运行结果的步骤;

步骤s60,若各所述语句中存在不符合所述预设形式规则的异常语句,则基于所述异常语句输出提示修改信息。

进一步地,若经对比确定各语句均符合预设规则,则说明采集代码的逻辑规则正确,而控制采集代码运行,以生成运行结果。而若经对比确定各语句中存在不符合预设形式规则的语句,该不符合的语句为逻辑规则异常的异常语句,需要进行修正;将该异常语句所在的代码行号添加到提示修改信息中输出,以提示开发人员对该异常语句进行修改。在采集代码的各语句中所存在的异常语句均经过修改,采集代码中的各语句均与预设形式规则对应后,控制采集代码运行,生成运行结果;以通过运行结果确定目标字段以及与目标字段所对应的数据表,进而将数据表形成目标数据表,从中采集需求采集文档所需要采集的数据。

此外,请参照图2,本发明提供一种数据采集装置,在本发明数据采集装置第一实施例中,所述数据采集装置包括:

读取模块10,用于当接收到需求采集文档时,读取所述需求采集文档中的需求字段信息,并调用预设基础代码,将所述需求字段信息添加到所述预设基础代码的连接语句中,生成采集代码;

控制模块20,用于控制所述采集代码运行,生成运行结果,并根据所述运行结果确定与所述需求字段信息对应的目标字段,以及与各所述目标字段对应的数据表;

采集模块30,用于根据所述数据表的数量,将所述数据表形成目标数据表,并对所述目标数据表进行筛选,采集与所述需求字段信息对应的数据。

本实施例的数据采集装置,当接收到需求采集文档时,读取模块10先对其中的需求字段信息进行读取,再调用预设基础代码,并将需求字段信息添加到预设基础代码的连接语句中,生成采集代码;此后控制模块20控制采集代码运行,生成运行结果,并根据运行结果确定与需求字段信息对应的目标字段,以及与各目标字段对应的数据表;进而采集模块30根据数据表的数量,将数据表形成目标数据表,并对目标数据表进行筛选,实现对与需求字段信息对应的数据采集。本方案将需要采集的数据形成需求采集文档,且其中的需求字段信息表征了所需要采集的数据类型;将需求字段信息添加到预设基础代码中所形成的采集代码用于对需求字段信息进行查找,以确定需求字段信息所在的数据表;进而将数据表形成目标数据表进行筛选,采集与需求字段信息对应的数据。因目标数据表由需要采集的需求字段信息所在的数据表形成,避免了对与采集数据无关的数据表的关联和查找操作,节省了资源,提高了数据采集的效率;同时由预设基础代码所形成的采集代码在运行时仅对需求字段信息进行对比查找,因此对比的数据量小,查找速度快。

进一步地,在本发明数据采集装置另一实施例中,所述控制模块还包括:

读取单元,用于读取所述运行结果中所述需求字段信息与所述预设基础代码中全字段对比的对比结果,并根据所述对比结果,确定所述全字段中与所述需求字段信息对应的目标字段;

第一确定单元,用于读取所述运行结果中各所述目标字段对应的数据表名,并根据所述数据表名,确定与各所述目标字段对应的数据表。

进一步地,在本发明数据采集装置另一实施例中,所述采集模块还包括:

判断单元,用于判断各所述目标字段对应的数据表名是否具有唯一性,若具有唯一性,则判定所述数据表的数量为单个,否则判定所述数据表的数量为多个;

第二确定单元,用于当所述数据表的数量为单个时,则将单个所述数据表确定为目标数据表;

关联单元,用于当所述数据表的数量为多个时,则读取多个所述数据表中存储各类数据相关性的相关标识,并将所述相关标识生成为关联标识,对多个所述数据表关联,形成目标数据表。

进一步地,在本发明数据采集装置另一实施例中,所述采集模块还包括:

生成单元,用于读取所述需求采集文档中的筛选范围信息,并根据所述筛选范围信息对所述目标数据表进行初次筛选,生成初次筛选数据;

采集单元,用于根据与各所述目标字段对应的数据表,对各所述初次筛选数据进行再次筛选,生成再次筛选数据,并将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

进一步地,在本发明数据采集装置另一实施例中,所述采集单元还用于:

判断所述目标数据表是否携带所述关联标识,若携带所述关联标识,则根据所述关联标识,将所述再次筛选数据关联,并将关联后的所述再次筛选数据设为与所述需求字段信息对应的数据进行采集;

若不携带所述关联标识,则将所述再次筛选数据设为与所述需求字段信息对应的数据进行采集。

进一步地,在本发明数据采集装置另一实施例中,所述读取模块还包括:

检测单元,用于根据预设连接标识,确定所述预设基础代码中的连接语句,并根据预设变量标识,检测所述连接语句中的变量位置;

添加单元,用于将所述需求字段信息添加到所述变量位置中,替换所述变量位置中的变量,并检测所述需求字段信息是否均添加到所述变量位置中;

更新单元,用于若均添加到所述变量位置中,则将所述预设基础代码更新为采集代码。

进一步地,在本发明数据采集装置另一实施例中,所述数据采集装置还包括:

对比模块,用于将所述采集代码和预设形式规则对比,判断所述采集代码中的各语句是否符合所述预设形式规则,其中,所述预设形式规则用于判断所述采集代码的正确性;

执行模块,用于若各所述语句均符合所述预设形式规则,则执行控制所述采集代码运行,生成运行结果的步骤;

输出模块,用于若各所述语句中存在不符合所述预设形式规则的异常语句,则基于所述异常语句输出提示修改信息。

其中,上述数据采集装置的各虚拟功能模块存储于图3所示数据采集设备的存储器1005中,处理器1001执行数据采集程序时,实现图2所示实施例中各个模块的功能。

参照图3,图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明实施例数据采集设备可以是pc(personalcomputer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。

如图3所示,该数据采集设备可以包括:处理器1001,例如cpu(centralprocessingunit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram(randomaccessmemory,随机存取存储器),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,该数据采集设备还可以包括用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi(wirelessfidelity,无线宽带)模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

本领域技术人员可以理解,图3中示出的数据采集设备结构并不构成对数据采集设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图3所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及数据采集程序。操作系统是管理和控制数据采集设备硬件和软件资源的程序,支持数据采集程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与数据采集设备中其它硬件和软件之间通信。

在图3所示的数据采集设备中,处理器1001用于执行存储器1005中存储的数据采集程序,实现上述数据采集方法各实施例中的步骤。

本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述数据采集方法各实施例中的步骤。

还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1