1.本说明书一个或多个实施例涉及数据提取技术领域,尤其涉及一种跨数据库数据提取方法、装置、电子设备及存储介质。
背景技术:2.目前,数据提取都不能实现跨物理库进行数据抽取,常规方式是通过etl数据抽取工具,将不同数据源的数据进行先期抽取、归并汇总到单一的数据库中,然后在单库中进行关联查询加工,将满足条件的数据进行导出。
3.etl:extract-transform-load,将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
4.发明人发现,现有技术中,通过etl数据提取工具进行数据提取,至少存在如下缺陷:每次提数(提取数据)的前期准备工作量大,需要提前在归并数据库建一些列数据表承接其物理数据库的表数据;且数据需要先期数据归并集中,加工链路长,从而导致效率低下。
技术实现要素:5.有鉴于此,本说明书一个或多个实施例的目的在于提出一种跨数据库数据提取方法、装置、电子设备及存储介质,以解决现有技术中的技术问题。
6.基于上述目的,本说明书一个或多个实施例提供了一种跨数据库数据提取方法,包括:
7.获取原始提数任务信息;
8.基于原始提数任务信息输出提数任务列表;
9.响应于用户从所述提数任务列表中选择的目标提数任务信息及数据提取参数,依据所述目标提数任务信息中的sql脚本分别从不同的数据库中加载满足查询条件的查询结果子集,将所述查询结果子集存入数据库并输出。
10.作为一种可选的实施方式,所述基于原始提数任务信息输出提数任务列表,包括:
11.从所述原始提数任务信息中提取特征词;
12.基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表;
13.输出所述提数任务列表。
14.作为一种可选的实施方式,基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表,包括:
15.选取包含所述特征词的标准提数任务信息作为待选提数任务信息;
16.针对每个待选提数任务信息,计算其匹配度;
17.按照匹配度从高到低的顺序,将全部待选提取任务信息排序,获得提数任务列表。
18.作为一种可选的实施方式,所述将所述查询结果子集存入数据库,包括:
19.将所述查询结果子集存入高斯数据库。
20.作为本发明的第二个方面,提供了一种跨数据库数据提取装置,包括:
21.获取模块,用于获取原始提数任务信息;
22.第一输出模块,用于基于原始提数任务信息输出提数任务列表;
23.计算与输出模块,用于响应于用户从所述提数任务列表中选择的目标提数任务信息及数据提取参数,依据所述目标提数任务信息中的sql脚本分别从不同的数据库中加载满足查询条件的查询结果子集,将所述查询结果子集存入数据库并输出。
24.作为一种可选的实施方式,所述第一输出模块包括:
25.提取单元,用于从所述原始提数任务信息中提取特征词;
26.计算单元,用于基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表;
27.输出单元,用于输出所述提数任务列表。
28.作为一种可选的实施方式,所述计算单元包括:
29.选取子单元,用于选取包含所述特征词的标准提数任务信息作为待选提数任务信息;
30.计算子单元,用于针对每个待选提数任务信息,计算其匹配度;
31.排序子单元,用于按照匹配度从高到低的顺序,将全部待选提取任务信息排序,获得提数任务列表。
32.作为一种可选的实施方式,所述将所述查询结果子集存入数据库,包括:
33.将所述查询结果子集存入高斯数据库。
34.作为本发明的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
35.作为本发明的第四个方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述方法。
36.从上面所述可以看出,本说明书一个或多个实施例提供的一种跨数据库数据提取方法、装置、电子设备及存储介质,针对跨物理库的数据集市的关联查询提数,采用数据库间会话级的关联查询实现自动归并数据、跨库联合查询,省去不同数据库的数据抽取、归并过程,提高开发效率,减少链路流程。
附图说明
37.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1为本说明书一个或多个实施例的提取方法的逻辑示意图;
39.图2为本说明书一个或多个实施例的提取方法的获取提数任务列表的逻辑示意图;
40.图3为本说明书一个或多个实施例的提取方法的基于匹配度构建提数任务列表的逻辑示意图;
41.图4为本说明书一个或多个实施例的提取装置的逻辑示意图;
42.图5为本说明书一个或多个实施例的提取装置的第一输出模块的逻辑示意图;
43.图6为本说明书一个或多个实施例的提取装置的计算单元的逻辑示意图;
44.图7为本说明书一个或多个实施例的电子设备的逻辑示意图。
具体实施方式
45.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
46.需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。
47.为实现上述发明目的,本发明提供了一种跨数据库数据提取方法,包括:
48.获取原始提数任务信息;
49.基于原始提数任务信息输出提数任务列表;
50.响应于用户从所述提数任务列表中选择的目标提数任务信息及数据提取参数,依据所述目标提数任务信息中的sql脚本分别从不同的数据库中加载满足查询条件的查询结果子集,将所述查询结果子集存入数据库并输出。
51.本发明实施例中,针对跨物理库的数据集市的关联查询提数,采用数据库间会话级的关联查询实现自动归并数据、跨库联合查询,省去不同数据库的数据抽取、归并过程,提高开发效率,减少链路流程。
52.图1示出了一种跨数据库数据提取方法,包括:
53.s100、获取原始提数任务信息。
54.s200、基于原始提数任务信息输出提数任务列表。
55.其中,如图2所示,s200包括:
56.s210、从所述原始提数任务信息中提取特征词;
57.s220、基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表;
58.可选的,如图3所示,基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表,包括:
59.s221、选取包含所述特征词的标准提数任务信息作为待选提数任务信息;
60.s222、针对每个待选提数任务信息,计算其匹配度;
61.s223、按照匹配度从高到低的顺序,将全部待选提取任务信息排序,获得提数任务列表。
62.s230、输出所述提数任务列表。
63.s300、响应于用户从所述提数任务列表中选择的目标提数任务信息及数据提取参数,依据所述目标提数任务信息中的sql脚本分别从不同的数据库中加载满足查询条件的
查询结果子集,将所述查询结果子集存入数据库并输出。
64.可选的,所述将所述查询结果子集存入数据库,包括:
65.将所述查询结果子集存入高斯数据库。
66.为了进一步的便于理解,下面结合实施例对本发明实施例进行说明:
67.实施例
68.获取原始提数任务信息,例如用户输入的原始提数任务信息是:“提取个险保单首年期缴保费信息”;
69.从上述原始提数任务信息中提取特征词:“个险”、“保单”及“首年期缴保费”;
70.选取包含“个险”、“保单”及“首年期缴保费”中的任意一个的标准提数任务信息作为待选提数任务信息;
71.针对每个待选提数任务信息,计算其匹配度;
72.按照匹配度从高到低的顺序,将全部待选提取任务信息排序,获得提数任务列表,并向用户输出,供用户选择;
73.用户选择要执行的任务,此处假设用户选择了“提取首年期缴保费业务数据”,并输入数据提取参数,例如机构号、时间段、对应渠道(例如场景用户选择:个险);
74.依据提数目标提数任务信息中的sql脚本分别从不同的数据库中加载满足查询条件的查询结果子集;
75.将所述查询结果子集存入高斯数据库;
76.此处数据提取从
‘
个险’、
‘
客户’两个数据集市中分别提取个险保单相关信息、用户相关信息。
77.将存入到高斯数据库的数据信息以excel文本的形式导出提供给用户。
78.可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
79.需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
80.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
81.与所述跨数据库数据提取相对应的,如图4所示,本发明还提供了一种跨数据库数据提取装置,包括:
82.获取模块10,用于获取原始提数任务信息;
83.第一输出模块20,用于基于原始提数任务信息输出提数任务列表;
84.计算与输出模块30,用于响应于用户从所述提数任务列表中选择的目标提数任务信息及数据提取参数,依据所述目标提数任务信息中的sql脚本分别从不同的数据库中加
载满足查询条件的查询结果子集,将所述查询结果子集存入数据库并输出。
85.本发明实施例中,针对跨物理库的数据集市的关联查询提数,采用数据库间会话级的关联查询实现自动归并数据、跨库联合查询,省去不同数据库的数据抽取、归并过程,提高开发效率,减少链路流程。
86.作为一种可选的实施方式,如图5所示,所述第一输出模块20包括:
87.提取单元21,用于从所述原始提数任务信息中提取特征词;
88.计算单元22,用于基于所述特征词进行分词匹配计算信息权重,选取匹配度较高的标准提数任务信息构成提数任务列表;
89.输出单元23,用于输出所述提数任务列表。
90.作为一种可选的实施方式,如图6所示,所述计算单元22包括:
91.选取子单元22a,用于选取包含所述特征词的标准提数任务信息作为待选提数任务信息;
92.计算子单元22b,用于针对每个待选提数任务信息,计算其匹配度;
93.排序子单元22c,用于按照匹配度从高到低的顺序,将全部待选提取任务信息排序,获得提数任务列表。
94.作为一种可选的实施方式,所述将所述查询结果子集存入数据库,包括:
95.将所述查询结果子集存入高斯数据库。
96.为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
97.与所述跨数据库数据提取相对应的,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
98.图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
99.处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
100.存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
101.输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
102.通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信
交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
103.总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
104.需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
105.与所述跨数据库数据提取相对应的,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行所述方法。
106.本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
107.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
108.尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
109.本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。