大数据抽取方法、装置、计算机设备和存储介质与流程

文档序号:29569197发布日期:2022-04-09 03:24阅读:163来源:国知局
大数据抽取方法、装置、计算机设备和存储介质与流程

1.本技术涉及数据存储技术领域,特别是涉及一种大数据抽取方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着数据存储技术的发展,为了实现海量数据的转移存储,例如将各业务系统的业务数据存储到大数据平台上,出现了大数据抽取技术。
3.传统技术中,大数据平台在接入目标业务系统时,通常在需求调研时,从运维厂家调研确定目标业务系统的数据库类型,根据目标业务系统的数据库类型,编写对应的数据采集脚本,大数据平台在执行该对应的数据采集脚本时,从目标业务系统数据库中抽取对应的数据。
4.然而,传统方法,当大数据平台每接入一个不同数据库类型的目标业务系统,需要分别编写与各数据库类型对应的数据采集脚本,才能实现大数据平台抽取各不同类型的目标业务系统数据库中的数据,因此在一定程度上降低了数据抽取的效率。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高数据抽取效率的大数据抽取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种大数据抽取方法。所述方法包括:
7.获取目标业务系统的系统类别和表信息;
8.根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型;
9.根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
10.根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
11.通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
12.在其中一个实施例中,根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型,包括:
13.根据预设的数据库字段类型与目标数据库字段类型之间的映射关系,以及所述目标业务系统的字段类型,确定所述目标业务系统的目标数据库字段类型。
14.在其中一个实施例中,通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据,包括:
15.获取所述目标业务系统的连接账号密码和连接地址;
16.对所述目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码;
17.根据预设的数据库类型与驱动配置之间的第二对应关系,以及所述目标业务系统
的数据库类型,确定所述目标业务系统的驱动配置;
18.根据所述目标业务系统的数据字典和所述解密后的连接账号密码,通过所述目标业务系统的驱动配置驱动所述数据采集脚本执行,连接到所述连接地址读取所述目标业务系统中的数据。
19.在其中一个实施例中,获取所述目标业务系统的连接账号密码,包括:
20.根据所述目标业务系统的系统类别,和预设的系统类别和连接账号密码之间的第三对应关系,确定所述目标业务系统的连接账号密码。
21.在其中一个实施例中,对所述目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码,包括:
22.获取所述目标业务系统通过密钥对所述连接账号密码进行加密后得到的密文;
23.将所述密文通过所述密钥进行解密,得到所述解密后的连接账号密码。
24.在一个实施例中,所述方法还包括:
25.获取各不同数据库类型的业务系统的字段类型;
26.根据各所述业务系统中表的字段类型,分别生成映射到目标数据库的字段类型,得到预设的数据库字段类型与目标数据库字段类型之间的映射关系。
27.第二方面,本技术还提供了一种大数据抽取装置。所述装置包括:
28.业务系统信息获取模块,用于获取目标业务系统的系统类别和表信息;
29.数据库类型获取模块,用于根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型;
30.字段类型确定模块,用于根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
31.数据字典确定模块,用于根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
32.数据读取模块,用于通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
33.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34.获取目标业务系统的系统类别和表信息;
35.根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型;
36.根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
37.根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
38.通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
39.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
40.获取目标业务系统的系统类别和表信息;
41.根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统
的系统类别,确定所述目标业务系统的数据库类型;
42.根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
43.根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
44.通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
45.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
46.获取目标业务系统的系统类别和表信息;
47.根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型;
48.根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
49.根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
50.通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
51.上述大数据抽取方法、装置、计算机设备、存储介质和计算机程序产品,获取目标业务系统的系统类别和表信息,根据目标业务系统的系统类别和第一对应关系确定目标业务系统的数据库类型,并根据目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型,从而根据目标业务系统的目标数据库字段类型和目标业务系统的表信息,通过数据字典脚本进行抽取,进而生成目标业务系统的数据字典,根据目标业务系统的数据字典和预设的数据采集脚本,可以读取目标业务系统中的数据,进而完成大数据平台对目标业务系统的数据抽取。对于任一目标业务系统,即使数据库类型不同,也无需分别编写与各数据库类型对应的数据采集脚本,即可实现大数据平台抽取各不同类型的目标业务系统数据库中的数据,因此在一定程度上提高了大数据平台从业务系统中抽取数据的效率。
附图说明
52.图1为一个实施例中大数据抽取方法的应用环境图;
53.图2为一个实施例中大数据抽取方法的流程示意图;
54.图3为另一个实施例中大数据抽取方法的流程示意图;
55.图4为一个实施例中大数据抽取装置的结构框图;
56.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
57.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
58.本技术实施例提供的大数据抽取方法,可以应用于如图1所示的应用环境中。其中,包括大数据平台10和若干业务系统20,大数据平台10作为企业级服务器使用,大数据平
台10可以是hadoop分布式文件系统,各业务系统20是存储不同业务场景数据的数据库,包含特定业务场景下的数据。例如销售业务系统20,所产生的是大量的销售数据。目标业务系统20是大数据平台10进行数据分析时需要抽取数据的业务系统20。当响应于用户操作的数据分析指令时,则大数据平台10根据数据分析指令确定目标业务系统20,继而根据目标业务系统20的系统类别确定对应的数据库类型和目标数据库字段类型。根据目标数据库字段类型和目标业务系统20的表信息,通过数据字典抽取脚本进行抽取,从而生成目标业务系统20的数据字典。最后通过预设的数据采集脚本和目标业务系统20的数据字典,读取该目标业务系统20中的数据。
59.在一个实施例中,如图2所示,提供了一种大数据抽取方法,以该方法应用于图1中的大数据平台为例进行说明,包括以下步骤:
60.步骤202,获取目标业务系统的系统类别和表信息。
61.其中,业务系统是用于存储相关业务操作的数据库,根据业务场景的不同,业务系统所产生的数据是不同的。业务系统的系统类别是业务系统的业务场景类别,业务场景根据具体存储的业务数据进行划分。同一业务场景可以有多个业务系统,对应的各业务系统的系统类别相同,且各同一系统类别的业务系统的数据库结构一致。目标业务系统是大数据平台需要抽取数据进行业务分析的业务系统,目标业务系统包括新接入大数据平台的业务系统和数据有更新的业务系统。对于各业务系统分别有各自的数据源,数据源根据大量用户在不同业务场景下,进行相应操作所产生。以电力企业为例,其业务系统包括电力销售业务系统和配电业务系统,电力销售业务系统包括居民的电力销售数据。其中,居民的电力销售数据是居民在购买电力时所产生的销售数据。配电业务系统包括居民的电表编号和电表安装地址。当电力企业存在业务分析需求时,通过向大数据平台输入业务请求,大数据平台响应于该业务请求,从各业务系统中确定目标业务系统,以及目标业务系统的系统类别和表信息。在一个实施例中,获取用户输入的业务请求,业务请求中包括a地区和居民用电量的关键词,大数据平台响应于该业务请求确定目标业务系统包括配电业务系统和电力销售业务系统,并获取配电业务系统和电力销售业务系统的系统类别和表信息。
62.在一个大数据平台上,与之传输数据的业务系统可能是由多种数据库语言编译得到的,各数据库语言可以是mysql、oracle、sqlserver等。
63.对于各种数据库语言,均以表形式存储数据。业务系统的表信息是指当前业务系统所使用的数据库语言所对应的表的基本信息。可选地,表信息包括表名称。且,各业务系统通常包括大量的表结构,通常,在大数据平台抽取业务系统的数据之前,需要确定目标业务系统的表名称。
64.步骤204,根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型。
65.其中,系统类别与数据库类型之间存在第一对应关系,大数据平台在抽取数据之前已经预先存储了该第一对应关系。在抽取目标业务系统的数据时,需要根据第一对应关系和目标业务系统的系统类别,确定目标业务系统的数据库类型。此处将第一对应关系预存于大数据平台,在后续每次抽取数据时,大数据平台可以在确定目标业务系统的系统类别时,即确定目标业务系统的数据库类型。业务系统的数据库类型是指编译得到当前业务系统所使用的数据库语言类别。
66.步骤206,根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型。
67.其中,各种类型的数据库都有对应的字段类型,业务系统的字段类型为编译得到当前业务系统所使用的数据库所对应的字段类型。大数据平台上创建有外部表,创建该外部表的字段类型称为目标数据库字段类型。为了将目标业务系统中的数据存储于大数据平台,需要将目标业务系统的字段类型转换为目标数据库字段类型。例如当大数据平台以hive创建外部表时,目标业务系统的字段类型在抽取时需要转换为hive数据库字段类型。
68.字段类型是数据库中的数据类型,包括二进制数据类型、字符串类型和unicode数据类型,其中,二进制数据类型例如binary、varbinary、image等,字符数据类型包括char,varchar和text,unicode数据类型包括包括nchar,nvarchar和ntext等。
69.在一个实施例中,根据目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型。即,根据目标业务系统的数据库类型确定目标业务系统的字段类型,根据目标业务系统的字段类型确定目标数据库字段类型。
70.步骤208,根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典。
71.其中,数据字典抽取脚本即数据字典生成脚本,数据字典抽取脚本根据目标业务系统的目标数据库字段类型和目标业务系统的表信息,可以生成目标业务系统的数据字典。目标业务系统的数据字典是指对目标业务系统中数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述。目标业务系统的数据字典包括目标业务系统中数据项、数据结构、数据存储和处理逻辑等的描述和定义内容。可选地,数据结构包括目标数据库字段类型。
72.在一个实施例中,表信息包括归属模式和表名称,通过数据字典抽取脚本抽取的归属模式、表名称和目标业务系统的目标数据库字段类型,从而生成目标业务系统的数据字典,目标业务系统的数据字典包括归属模式、表名称和目标数据库字段类型。
73.归属模式、表名称作为目标业务系统的基本信息,需要大数据平台每次通过数据字典根据目标业务系统实时获取。预设的数据库字段类型与目标数据库字段类型之间的映射关系存储于大数据平台上,大数据平台不需要每次根据目标业务系统实时获取,而是在每次需要抽取数据时,根据目标业务系统的基本信息进行查询,从而得到目标业务系统的数据字典。
74.步骤210,通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
75.其中,数据采集脚本是用于抽取各数据库中数据的抽取脚本,包括sqoop数据抽取脚本。数据采集脚本预设于大数据平台上,当大数据平台需要抽取目标业务系统数据库中的数据时,数据采集脚本通过目标业务系统的数据字典所展示的数据信息,抽取目标业务系统数据库的数据。抽取数据时,大数据平台执行数据采集脚本,数据采集脚本在执行过程中,根据输入的目标业务系统的数据字典自动抽取相应的数据。
76.上述大数据抽取方法中,大数据平台获取目标业务系统的系统类别和表信息,根据目标业务系统的系统类别和第一对应关系确定目标业务系统的数据库类型,并根据目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型,从而根据目标业务系统
的目标数据库字段类型和目标业务系统的表信息,通过数据字典脚本进行抽取,进而生成目标业务系统的数据字典,根据目标业务系统的数据字典和预设的数据采集脚本,可以读取目标业务系统中的数据,进而完成大数据平台对目标业务系统的数据抽取。对于任一目标业务系统,即使数据库类型不同,也无需分别编写与各数据库类型对应的数据采集脚本,即可实现大数据平台抽取各不同类型的目标业务系统数据库中的数据,因此在一定程度上提高了大数据平台从业务系统中抽取数据的效率。
77.在一个实施例中,根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型,包括:根据预设的数据库字段类型与目标数据库字段类型之间的映射关系,以及所述目标业务系统的字段类型,确定所述目标业务系统的目标数据库字段类型。
78.其中,归属模式是数据库中表的模式,一个数据库,可以有多个归属模式;一个归属模式,可以有0个或多个表。例如,配电业务系统包括居民的电表编号和工业电表编号,均为电表编号,其区别在于一个归属模式为居民,另一个的归属模式为工业。表名称是指数据库中各个表的名称,各表的名称应该保持不同,方便后续根据表的名称进行查表。
79.在大数据平台预存有数据库字段类型与目标数据库字段类型之间的映射关系,映射关系是指业务系统的数据库字段类型与目标数据库字段类型之间对应的转换关系。大数据平台在确定目标业务系统的数据库类型时,在预设的数据库字段类型与目标数据库字段类型之间的映射关系中,查找对应该目标业务系统的字段类型的目标数据库字段类型。例如,当大数据平台确定目标业务系统中的数据库字段类型为整数型数据时,在该映射关系中,查找到该目标业务系统的数据库字段类型为字节型时,将数据库字段类型为整数型的目标业务系统中的数据,转换成为目标数据库对应的字节型数据。
80.本实施例中,通过预设的数据库字段类型与目标数据库字段类型之间的映射关系,和目标业务系统的字段类型,从而确定目标数据库字段类型。
81.在一个实施例中,通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据,包括:获取所述目标业务系统的连接账号密码和连接地址;对所述目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码;根据预设的数据库类型与驱动配置之间的第二对应关系,以及所述目标业务系统的数据库类型,确定所述目标业务系统的驱动配置;根据所述目标业务系统的数据字典和所述解密后的连接账号密码,通过所述目标业务系统的驱动配置驱动所述数据采集脚本执行,连接到所述连接地址读取所述目标业务系统中的数据。
82.其中,各业务系统均设置有连接账号密码,连接账号密码是获取业务系统中大量实际数据的前提条件。各连接账号密码通常为加密状态,只有解密后的连接账号密码才能正常过获取业务系统中的数据。大数据平台在抽取目标业务系统中的数据时,先获取目标业务系统的连接账号密码和连接地址,由于连接账号密码处于加密状态,因此需要先解密,得到解密后的连接账号密码。
83.大数据平台还预设有数据库类型与驱动配置之间的第二对应关系,第二对应关系包括各数据库类型、各数据库类型对应的驱动配置以及二者之间的匹配/对应关系。驱动配置是驱动数据抽取的引擎,用于驱动数据采集脚本从目标业务系统中抽取数据。大数据平台在抽取目标业务系统的连接账号密码时,同时还需要根据目标业务系统的数据库类型,在第二对应关系中查找目标业务系统对应的驱动配置。
84.预设的数据采集脚本根据目标业务系统的数据字典,可以确定目标业务系统的数据架构。
85.之后,大数据平台根据解密后的连接账号密码、目标业务系统的数据字典、连接地址和对应的驱动配置,将数据采集脚本连接到目标业务系统,并通过驱动配置驱动数据采集脚本执行,数据采集脚本执行的过程中,即不断读取目标业务系统中的数据。
86.本实施例中,大数据平台通过对获取的目标业务系统的连接账号密码进行解密、连接地址以及驱动配置,从而驱动数据采集脚本抽取目标业务系统中的数据,将目标业务系统的数据抽取到大数据平台中。
87.在一个实施例中,获取所述目标业务系统的连接账号密码,包括:根据所述目标业务系统的系统类别,和预设的系统类别和连接账号密码之间的第三对应关系,确定所述目标业务系统的连接账号密码。
88.其中,各业务系统均有对应的连接账号密码,各业务系统和对应的连接账号密码以第三对应关系存储在大数据平台上,在未进行解密之前,存储在第三对应关系中的连接账号密码是处于加密状态的。大数据平台在执行数据采集脚本之前,从第三对应关系中查找目标业务系统对应的连接账号密码。
89.本实施例中,通过从第三对应关系中获取目标业务系统对应的连接账号密码,此时得到的连接账号密码是加密的,因此在数据抽取时避免了将密码明文配置在数据采集脚本上,有利于提高数据抽取的安全性。
90.在一个实施例中,对所述目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码,包括:获取所述目标业务系统通过密钥对所述连接账号密码进行加密后得到的密文;将所述密文通过所述密钥进行解密,得到所述解密后的连接账号密码。
91.其中,目标业务系统采用对称加密方式进行加密,先通过密钥对目标业务系统的连接账号密码进行加密,得到加密后的密文。当大数据平台通过数据采集脚本获取到目标业务系统处于加密状态的连接账号密码时,利用同一把密钥对连接账号密码进行解密,得到解密后的连接账号密码。数据采集脚本根据解密后的连接账号密码,可以抽取目标业务系统中的实际数据。
92.本实施例中,通过密钥对连接账号密码的密文进行解密,从而得到解密后的连接账号密码,便于大数据平台根据数据采集脚本抽取目标业务系统中的数据。
93.在一个实施例中,大数据抽取方法,包括:获取各不同数据库类型的业务系统中的字段类型;根据各所述业务系统中的字段类型,分别生成映射到目标数据库的字段类型,得到预设的数据库字段类型与目标数据库字段类型之间的映射关系。
94.其中,在获得预设的数据库字段类型与目标数据库字段类型之间的映射关系之前,先获取各不同数据库类型的业务系统中表的字段类型,根据各业务系统中表的字段类型,分别生成映射到目标数据库中表的字段类型,得到各业务系统的目标数据库字段类型。生成映射到目标数据库中表的字段类型,是指根据业务系统中表的字段类型和目标数据库中表的字段类型进行分析,确定业务系统中表的字段类型存储于目标数据库中需转换的数据类型,得到预设的数据库字段类型与目标数据库字段类型之间的映射关系,并将该映射关系预存储于大数据平台中。
95.本实施例中,通过将各不同数据库类型的业务系统的字段类型,将其分别生成映
射到目标数据库的字段类型,得到预设的数据库字段类型与目标数据库字段类型之间的映射关系,从而方便大数据平台后续生成目标业务系统的数据字典。
96.在一个实施例中,如图3所示,大数据抽取方法,包括步骤s10-s40,其中:
97.s10:获取配置基本信息,配置基本信息包括目标业务系统的系统类别和表信息,表信息包括归属模式和表名称。
98.s20:根据固化配置内容、配置基本信息和数据字典抽取脚本,动态生成目标业务系统的数据字典。
99.其中,固化配置内容包括预设的系统类别与数据库类型之间的第一对应关系以及预设的数据库字段类型与目标数据库字段类型之间的映射关系、预设的数据库类型与驱动配置之间的第二对应关系和预设的系统类别和连接账号密码之间的第三对应关系。在生成目标业务系统的数据字典时,仅读取了固化配置内容中的第一对应关系和映射关系。
100.s30:根据目标业务系统的系统类别在第二对应关系和第三对应关系中查找,确定对应的目标业务系统的驱动配置以及连接账号密码,对目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码;根据解密后的连接账号密码和目标业务系统的数据字典,通过所述目标业务系统的驱动配置驱动所述数据采集脚本执行,连接到所述连接地址读取所述目标业务系统中的数据。
101.s40:数据采集脚本执行时,将目标业务系统的数据抽取到大数据平台上。
102.将目标业务系统的数据抽取到大数据平台上时,即实现了数据落地,完成数据的抽取工作。
103.本实施例中,大数据平台获取目标业务系统的系统类别和表信息,根据目标业务系统的系统类别和第一对应关系确定目标业务系统的数据库类型,并根据目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型,从而根据目标业务系统的目标数据库字段类型和目标业务系统的表信息,通过数据字典脚本进行抽取,进而生成目标业务系统的数据字典,根据目标业务系统的数据字典和预设的数据采集脚本,可以读取目标业务系统中的数据,进而完成大数据平台对目标业务系统的数据抽取。对于任一目标业务系统,即使数据库类型不同,也无需分别编写与各数据库类型对应的数据采集脚本,即可实现大数据平台抽取各不同类型的目标业务系统数据库中的数据,因此在一定程度上提高了大数据平台从业务系统中抽取数据的效率。
104.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
105.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的大数据抽取方法的大数据抽取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个大数据抽取装置实施例中的具体限定可以参见上文中对于大数据抽取方法的限定,在此不再赘述。
106.在一个实施例中,如图4所示,提供了一种大数据抽取装置,包括:业务系统信息获取模块301、数据库类型获取模块302、字段类型确定模块303、数据字典确定模块304和数据读取模块305,其中:
107.业务系统信息获取模块301,用于获取目标业务系统的系统类别和表信息;
108.数据库类型获取模块302,用于根据预设的系统类别与数据库类型之间的第一对应关系,以及所述目标业务系统的系统类别,确定所述目标业务系统的数据库类型;
109.字段类型确定模块303,用于根据所述目标业务系统的数据库类型确定目标业务系统的目标数据库字段类型;
110.数据字典确定模块304,用于根据所述目标业务系统的目标数据库字段类型和所述目标业务系统的表信息,通过数据字典抽取脚本进行抽取,生成目标业务系统的数据字典;
111.数据读取模块305,用于通过预设的数据采集脚本和所述目标业务系统的数据字典,读取所述目标业务系统中的数据。
112.在一个实施例中,字段类型确定模块,还用于根据预设的数据库字段类型与目标数据库字段类型之间的映射关系,以及所述目标业务系统的字段类型,确定所述目标业务系统的目标数据库字段类型。
113.在一个实施例中,数据读取模块,包括账号地址获取模块、账号解密模块、驱动配置确定模块和数据连接模块,其中:
114.账号地址获取模块,用于获取所述目标业务系统的连接账号密码和连接地址;
115.账号解密模块,用于对所述目标业务系统的连接账号密码进行解密,得到解密后的连接账号密码;
116.驱动配置确定模块,用于根据预设的数据库类型与驱动配置之间的第二对应关系,以及所述目标业务系统的数据库类型,确定所述目标业务系统的驱动配置;
117.数据连接模块,用于根据所述目标业务系统的数据字典和所述解密后的连接账号密码,通过所述目标业务系统的驱动配置驱动所述数据采集脚本执行,连接到所述连接地址读取所述目标业务系统中的数据。
118.在一个实施例中,账号地址获取模块,还用于根据所述目标业务系统的系统类别,和预设的系统类别和连接账号密码之间的第三对应关系,确定所述目标业务系统的连接账号密码。
119.在一个实施例中,账号解密模块,包括密文获取模块和解密账号获取模块,其中:
120.密文获取模块,用于获取所述目标业务系统通过密钥对所述连接账号密码进行加密后得到的密文;
121.解密账号获取模块,用于将所述密文通过所述密钥进行解密,得到所述解密后的连接账号密码。
122.在一个实施例中,大数据抽取装置,还包括字段类型获取模块和映射关系获取模块,其中:
123.字段类型获取模块,用于获取各不同数据库类型的业务系统的字段类型;
124.映射关系获取模块,用于根据各所述业务系统的字段类型,分别生成映射到目标数据库的字段类型,得到预设的数据库字段类型与目标数据库字段类型之间的映射关系。
125.上述大数据抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
126.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种大数据抽取方法。
127.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
128.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
129.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
130.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
131.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
132.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
133.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
134.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1