本发明涉数据处理
技术领域:
,具体而言,涉及一种数据映射方法及装置。
背景技术:
数据映射是指将源数据通过某种数据加工步骤映射为目标数据的过程。通常而言,源数据以及目标数据都是数据表的字段,而数据加工步骤则使用结构化查询语言(structuredquerylanguage,sql)语句来表示。用于描述数据映射的数据称为数据映射逻辑,基于数据映射逻辑可以生成用于实现数据映射的代码。然而,在现有技术中,数据映射逻辑通常采用文字描述的方式,从而将数据映射逻辑转化为对应的代码过程往往需要开发人员通过手工编写,或在部分自动生成的基础上结合大量的手工修改才能完成,效率低下,并且可能导致代码与数据映射逻辑不一致的情况。技术实现要素:有鉴于此,本发明实施例提供一种数据映射方法及装置,以解决上述技术问题。为实现上述目的,本发明提供如下技术方案:第一方面,本发明实施例提供一种数据映射方法,包括:解析第一结构化数据中的逻辑段,获得用于组成sql语句的sql片段,其中,第一结构化数据为用于表示数据映射中的数据加工步骤的结构化数据,逻辑段为用于表示sql片段的结构化数据;基于sql片段拼接生成与数据加工步骤对应的sql语句。在该数据映射方法中,由于事先将数据映射逻辑表示为第一结构化数据,因此能够很容易地通过解析结构化数据获得sql片段,进而还原出与数据加工步骤对应的sql语句,这一代码生成过程能够完全自动执行,从而可以显著提高数据映射的执行效率,同时由于避免了代码生成过程中人为因素的干扰,能够确保生成的sql语句与数据映射逻辑的一致性。结合第一方面,在第一方面的第一种可能的实施方式中,解析第一结构化数据中的逻辑段,获得用于组成结构化查询语言sql语句的sql片段,包括:解析逻辑段的段名称,获得逻辑段对应的sql语句中的操作关键词;解析逻辑段中的参数字段,获得与操作关键词关联的操作参数;基于操作关键词以及操作参数拼合生成sql片段。根据sql的语法定义,每个sql语句均由若干个操作关键词,例如select、from、join、where等以及相应的操作参数,例如表名、运算符、条件关系等构成。在第一结构化数据中将操作关键词表示为逻辑段的段名称、将操作参数表示为逻辑段中的参数字段,相当于将sql语句分解为了若干基本元素的集合。这样结构化的表达方式便于数据映射逻辑的配置,也大大简化了sql语句的生成过程,同时也便于后续对数据映射逻辑进行分析和处理。结合第一方面的第一种可能的实施,在第一方面的第二种可能的实施方式中,基于操作关键词以及操作参数拼合生成sql片段之前,方法还包括:解析逻辑段中的附加文本字段,获得附加文本;基于操作关键词以及操作参数拼合生成sql片段,包括:基于操作关键词、操作参数以及附加文本拼合生成sql片段。附件文本的内容直接以原封不动的方式拼合到sql片段中,主要用于某些特殊需求的场景,使得生成sql语句的方式更加灵活,便于满足不同的数据映射需求。结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,解析第一结构化数据中的逻辑段之前,方法还包括:解析第二结构化数据中的加工步骤段,并基于获得的数据加工步骤与第一结构化数据的对应关系获得第一结构化数据,其中,第二结构化数据为用于表示数据映射的结构化数据。第二结构化数据用于从整体上结构化地表示数据映射,而数据映射中的每个数据加工步骤则用与该数据加工步骤对应的第一结构化数据表示,利用第二结构化数据中的加工步骤段,能够快速定位到与每个数据加工步骤对应的第一结构化数据,从而快速完成对数据映射逻辑的解析。结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第四种可能的实施方式中,基于sql片段拼接生成与数据加工步骤对应的sql语句,包括:获得数据库平台信息;基于sql片段以及数据库平台信息生成与数据加工步骤对应的sql语句,sql语句能够在与数据库平台信息对应的数据库平台上运行。运行于不同的数据库平台上的sql语句在细节上会有所不同,因此可以基于数据库平台信息生成与具体数据库平台适配的sql语句。结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第五种可能的实施方式中,基于sql片段拼接生成与数据加工步骤对应的sql语句之后,方法还包括:生成嵌入有sql语句的数据映射脚本,数据映射脚本用于在被执行时,实现数据映射。结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,生成嵌入有sql语句的数据映射脚本,包括:获得包括数据映射脚本的公用部分的模板文件;将sql语句嵌入模板文件以生成数据映射脚本。数据映射脚本存在大量公用部分,例如开始时的启动事务、结束时的提交事务等,可以将这些公用部分配置为模板文件,将sql语句嵌入到模板文件中就可以快速生成数据映射脚本,提高处理效率。结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第七种可能的实施方式中,第一结构化数据为预先配置好的excel表格。excel表格作为一种表格,自身已经具有结构化的特征,因此作为实现数据映射逻辑的载体十分方便,可以简化结构化数据的定义过程。此外,excel表格在数据统计等领域已经使用多年,其技术成熟度高,稳定可靠,展现效果良好,也有很多可以对其进行解析的工具,因此非常有利于本发明实施例提供的数据映射方法的实施。第二方面,本发明实施例提供一种数据映射装置,包括:解析模块,用于解析第一结构化数据中的逻辑段,获得用于组成结构化查询语言sql语句的sql片段,其中,第一结构化数据为用于表示数据映射中的数据加工步骤的结构化数据,逻辑段为用于表示sql片段的结构化数据;sql语句生成模块,用于基于sql片段拼接生成与数据加工步骤对应的sql语句。结合第二方面,在第二方面的第一种可能的实施方式中,解析模块包括:第一解析单元,用于解析逻辑段的段名称,获得逻辑段对应的sql语句中的操作关键词;第二解析单元,用于解析逻辑段中的参数字段,获得与操作关键词关联的操作参数;sql片段拼合单元,用于基于操作关键词以及操作参数拼合生成sql片段。第三方面,本发明实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。第四方面,本发明实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了一种可应用于本发明实施例中的终端设备的结构框图;图2示出了数据映射的流程图;图3示出了本发明实施例提供的数据映射方法的流程图;图4示出了本发明实施例提供的数据映射装置的功能模块图。具体实施方式下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。图1示出了一种可应用于本发明实施例中的终端设备的结构框图。参照图1,终端设备100包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、音频模块112、显示模块114等。这些组件通过一条或多条通讯总线/信号线116相互通讯。存储器102可用于存储软件程序以及模块,如本发明实施例中的数据映射方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,如本发明实施例提供的数据映射方法及装置。存储器102可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。处理器106可以是一种集成电路芯片,具有信号的处理能力。具体可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、微控制单元(microcontrollerunit,mcu)、网络处理器(networkprocessor,np)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuits,asic)、现场可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。外设接口108将各种输入/输出装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。射频模块110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。音频模块112向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。显示模块114在终端设备100与用户之间提供一个显示界面。具体地,显示模块114向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频及其任意组合。可以理解,图1所示的结构仅为示意,终端设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中,终端设备100可以是服务器、个人计算机、智能移动设备、智能穿戴设备以及智能车载设备等具有运算处理能力的设备。第一实施例图2示出了数据映射的流程图。参照图2,数据映射通常包括如下步骤:步骤s1:配置数据映射逻辑。数据映射逻辑通常由用户根据数据映射的实际需求进行配置。在现有技术中,数据映射逻辑通常采用非结构化的数据的方式进行标识,例如文字描述或者文字描述结合部分表格。而在本发明实施例提供的数据映射方法中,所要解析的数据映射逻辑则采用结构化数据的方式进行标识,便于数据的展现和自动解析。本发明实施例中的数据映射逻辑可以包括第一结构化数据以及第二结构化数据,在本发明实施例中,仅限定结构化数据的内容,但并不限定其具体组织形式。例如,在常见的实施方式中,第一结构化数据以及第二结构化数据均可以采用由微软公司开发的office办公软件制作的excel表格。excel表格自身已经具有结构化的特征,只需要对单元格内容进行定义即可构成结构化数据,实现起来非常方便,可以简化结构化数据的定义过程。此外,excel表格作为一种在计算机领域广泛使用的表格,其技术成熟度高,使用门槛较低,有利于普通用户使用。同时,目前已经存在很多现有的软件工具可以对excel表格进行解析,使得本发明实施例提供的数据映射方法便于实施。在后文中举例阐述时,为简单起见,均以数据映射逻辑采用excel表格实现的方式进行阐述,但可以理解的,数据映射逻辑还可以采用其他的结构化数据的形式实现,例如金山公司开发的wps办公软件制作的wps表格,数据库编辑软件制作的数据库表格,xml文档,json字符串或者其他自定义的结构化数据对象等。数据映射通常包括至少一个数据加工步骤,可以通过第二结构化数据从整体上对数据映射进行结构化的表示。表1示出了第二结构化数据的一种可能的实现方式:表1其中,步骤序号、临时目标表、语句类型、加工说明以及映射字段构成第二结构化数据中的加工步骤段,加工步骤段用于简要地描述数据映射的各个数据加工步骤。以表1为例,该数据映射包括3个数据加工步骤,分别通过步骤序号字段加以区别,在进行数据映射时各数据加工步骤按照序号依次执行。每个数据加工步骤对应一条sql语句,语句类型字段描述了该sql语句的类型,其取值可以是select、insert、update或delete,分别对应sql中的select语句、insert语句、update语句以及delete语句。临时目标表字段描述了执行该sql语句生成的结果的表名。加工说明字段则是对该数据加工步骤的文字性描述,便于用户理解。每条sql语句的内容可以通过第一结构化数据进行表示,在具体实施时,为使数据映射逻辑的层次更加清晰,可以将第二结构化数据保存到一个单独的excel工作表(在excel中也称为sheet),而将每个数据加工步骤对应的第一结构化数据保存到一个单独的excel工作表,并在第二结构化数据中存储数据加工步骤与第一结构化数据的保存位置的对应关系,以使在后续对第二结构化数据进行解析时能够根据该对应关系获得第一结构化数据的保存位置并进行解析。在表1示出的实施方式中,使用映射字段描述上述对应关系,其中,“criteria1”“criteria2”“unionall”分别为3个数据加工步骤各自对应的第一结构化数据所在的excel工作表的名称,整个数据映射逻辑可以存储于一个excel文件中,从而后续在解析时根据excel工作表的名称即可以找到相应的excel工作表并解析存储于该excel工作表中的第一结构化数据。可以理解,上述仅为一种示例,第一结构化数据以及第二结构化数据的具体存储方式以及存储位置并不构成对本发明保护范围的限制,例如,第一结构化数据也可以和第二结构化区域存储于同一个excel工作表,而映射字段的内容则是第一结构化数据在该excel工作表中的所在的表格区域。显然的,第二结构化数据中还可包括其他用于描述数据映射的字段,例如表1中的目标表中文名称、目标表英文名称以及目标表描述3个字段,用于描述源数据经数据映射之后生成的目标数据,即名为wtdk的数据表。需要指出,表1中的字段的名称、单元格的内容均为示例性的,并不构成对发明保护范围的限制,对于后文中出现的其他表格亦是如此。发明人经长期研究发现,如果将整条sql语句直接以纯文本的方式写入到数据映射逻辑,要对其进行解析并还原出真正的数据映射逻辑会十分复杂,涉及到编译原理的相关内容。但如果将sql语句拆分为多个具有一定含义的sql片段,在数据映射逻辑中以sql片段为单位进行表示sql语句,在解析数据映射逻辑时时复杂度将会大大降低。基于上述发现,本发明实施例中,在使用第一结构化数据表示数据加工步骤对应的sql语句时,在第一结构化数据中设置多个逻辑段,每个逻辑段对应表示至少一个sql片段。在后续解析时,解析每个逻辑段获得相应的sql片段,然后将获得的多个sql片段拼合起来即可还原出需要执行的sql语句。在本发明实施例中,并不限定按照何种规则将sql语句拆分为sql片段。但作为一种可选的实施方式,可以结合sql本身的语言特性以及结构进行拆分,这种拆分方式更容易为人所理解,也使得用户在配置数据映射逻辑时较为方便。具体而言,根据sql的语法定义,每个sql语句均由若干个操作关键词,例如select、from、join、where等,以及相应的操作参数,例如表名、运算符、条件关系等构成,操作关键词总是与一个或多个操作参数相关联,构成sql语句中具有一定含义的sql片段。例如,sql语句“selectt1.a,t1.bfromt1wheret1.a>5”,可以拆分为3个sql片段“selectt1.a,t1.b”、“fromt1”以及“wheret1.a>5”,其中第一个sql片段对应操作关键词select,其操作参数为t1、a以及b,第二个sql片段对应操作参数from,其操作参数为t1,第三个sql片段对应操作参数where,其操作参数为t1、a以及>5。在使用第一结构化数据表示sql语句时,每个逻辑段均为对应的sql片段的结构化表示,例如,对于上面的例子,可以设置mapping段、from段以及where段3个逻辑段,分别对应上面的第一个sql片段、第二个sql片段以及第三个sql片段。每个逻辑段都是结构化的数据,例如excel表格,每个逻辑段均包括多个字段对应sql片段中的操作关键词以及操作参数。下面举例介绍几种常见的逻辑段,可以理解,在实际实施时,第一结构化数据中还可以根据具体的sql语句设置比这些例子中更多的或更少的逻辑段。同时,第一结构化数据中的各逻辑段中的参数字段也不限于例子中所列出的参数字段,还可以包括更多或更少的参数字段。from段:用于描述参与数据映射的数据表,以及各数据表之间的关联方式。该逻辑段对应sql中的from操作关键词以及与其关联的操作参数,具体结构可以如表2所示:表2其中,最左侧为段名称,即from,对应于from操作关键词。右侧的每列为一个参数字段,右侧的每行可以用于描述一个数据表,共有3行,分别描述tbccppr0_h、tbcccus0_v1以及tbcccus0_v2共3个数据表。最右侧的关联关系字段表明个数据表与主表之间的具体关联方式,其取值可以包括左关联(对应sql中的leftjoin)、右关联(对应sql中的rightjoin)、内关联(对应sql中的innerjoin)、嵌入关联(对应sql中的嵌套查询)等。表2对应的sql片段为:fromtbccppro_htt1leftjointbccus0_v1tt2leftjointbccus0_v2tt3,即可以通过表2拼合出对应的sql片段。join段:用于描述数据表的关联字段间的关系,from段主要描述的是哪些数据表应该关联以及采用何种方式进行关联,而join段则描述的是各数据表进行关联时的具体条件,即关联字段之间应当满足的约束关系。该逻辑段对应sql中的join操作关键词以及与其关联的操作参数,具体结构可以如表3(包括续表3)所示:表3续表3其中,最左侧为段名称,即join,对应于join操作关键词。右侧的每列为一个参数字段,右侧的每行可以用于表示一项关联字段间的约束关系。每项约束关系涉及两个关联字段,分别是左表中的一个关联字段以及右表中的一个关联字段,具体的约束关系则通过条件关系字段进行定义。and&or字段表示各个约束关系之间的连接逻辑,可以是和关系(and)或者或关系(or)。此外,某些约束关系中还涉及到对关联字段的加工,即加工后的关联字段满足某种约束关系。在表3中,字段变换字段用于描述对字段进行加工的函数,例如对字符串取子串函数、大小写转换函数等。运算符字段用于描述对字段进行加工的运算符类型,例如+、-、*、÷等。表3对应的sql片段为:tt1jointt2ontt1.scdy_org_id=tt2.org_idandtt2.data_dt=cast('¥{txndate}'asdate)以及tt1jointt2ontt1.prim_org_id=tt3.org_idandtt3.data_dt=cast('¥{txndate}'asdate)即可以通过表3拼合出对应的sql片段。再结合表2以及表3,实际上二者共同描述了如下sql片段:fromtbccppro_htt1leftjointbccus0_v1tt2ontt1.scdy_org_id=tt2.org_idandtt2.data_dt=cast('¥{txndate}'asdate)leftjointbccus0_v2tt3ontt1.prim_org_id=tt3.org_idandtt3.data_dt=cast('¥{txndate}'asdate)即不同逻辑段对应的sql片段最终可以相互拼合,最终组成用于实现数据加工步骤的sql语句。where段:用于描述数据表中的字段过滤方法。该逻辑段对应sql中的where操作关键词以及与其关联的操作参数,具体结构可以如表4(包括续表4)所示:表4字段变换运算符条件关系='0135001'<=cast('¥{txndate}'asdate)>=cast('¥{txndate}'asdate)续表4其中,最左侧为段名称,即where,对应于where操作关键词。右侧的每列为一个参数字段,右侧的每行可以用于描述一个被过滤的字段,共有3行,分别描述ip_ip_rel_tpcd、rel_stdt以及rel_eddt共3个tt1表中的字段。表4中各字段的含义可以通过表4直观地理解或者之前已经解释,不再具体阐述。表4对应的sql片段为:wherett1.ip_ip_rel_tpcd='0135001'andtt1.rel_stdt<=cast('¥{txndate}'asdate)andtt1.rel_eddt>=cast('¥{txndate}'asdate)即可以通过表4拼合出对应的sql片段。mapping段:用于描述源数据与目标数据之间的映射关系。该逻辑段对应sql中的select操作关键词以及与其关联的操作参数,具体结构可以如表5所示:表5其中,最左侧为段名称,即mapping,对应于操作关键词select。右侧的每列为一个参数字段,右侧的每行可以用于表示一项源字段到目标字段的映射关系。其中,赋值函数字段用于对目标字段进行赋值,其余字段的含义可以通过表5直观地理解或者之前已经解释,不再具体阐述。表5对应的sql片段为:selecttb1.f1asbm,tb2.f2asrq,‘1’ascd即可以通过表5拼合出对应的sql片段。表6表6示出了mapping段的另一个例子,表6对应的sql片段为:selectsubstr(tb1.f1,3)asbm,tb2.f2asrq,‘1’ascd其中,符号@用源字段英文名进行替换。表7表7示出了mapping段的另一个例子,表7对应的sql片段为:select(tb1.f1+tb1.f2)*tb2.f3asqx其中,当一行没有配置目标字段时(如上面的第一行或第二行),表明该行并不能获得目标字段,需要和下一行通过运算符结合运算,依次类推,直至出现配置有目标字段的行(如上面的第三行)。前面在介绍from段时提到,from段中的关联关系字段的值可以取嵌入关联,如表8所示:表8此时mapping端对应的sql片段在生成方法上有所不同,假设此时mapping段的内容如表9所示:表9在from段中的sys表对应的关联关系字段的值不是嵌入关联时,mapping段对应的sql片段为:selectsys.serialnoasno即为普通查询。在from段中的sys表对应的关联关系字段的值是嵌入关联时,mapping段对应的sql片段为:select(selectsys.serialnofromsystemsys)asno即为嵌套查询,其中子查询的内容为mapping段所定义。在一种可选的实施方式中,mapping段还可以包括映射条件字段,如表10(包括续表10)所示:表10续表10映射字段对应于select语句中存在case语句的情况,映射字段下属的各个子字段的含义可以通过表8直观地理解或者之前已经解释,需要指出的是此时赋值函数字段用于在不同case分支下对目标字段进行赋值。表8对应的sql片段为:select(casewhentb1.clsresultin('e1')then'损失'whentb1.clsresultin('d1','e2')then'可疑'elsetb.f1end)asdkwjfl上述为第一结构化数据中常见的几个逻辑段,其他可以包括的逻辑段还有orderby段、groupby段、having段、verbatim段等。其中,orderby段对应sql中的orderby操作关键词以及与其关联的操作参数、groupby段对应sql中的groupby操作关键词以及与其关联的操作参数、having段对应sql中的having操作关键词以及与其关联的操作参数。其具体结构可以参考上述逻辑段设置,不再具体阐述。verbatim段为第一结构化数据中的附加段,其内容是事先配置好的附加文本,在基于操作关键词以及操作参数拼合生成sql片段的过程中,附加文本的内容直接以原封不动的方式拼合到sql片段中,主要用于实现一些特殊场景下的需求,使得生成sql片段的方式更加灵活。可见,本发明实施例中的数据映射逻辑是完全结构化的数据,同时也是与平台无关的,意味着该数据映射逻辑在任何平台上都可以通过相应的工具进行解析,适用范围较广泛。步骤s2:解析数据映射逻辑,生成数据映射代码。本发明实施例提供的数据映射方法即为实现步骤s2的具体方法。其执行主体可以是图1示出的终端设备100中的处理器106。在数据映射方法采用软件方式实现时,可以实现为具有跨平台特性的java程序。图3示出了本发明实施例提供的数据映射方法的流程图。参照图3,该数据映射方法包括:步骤s20:处理器106解析第一结构化数据中的逻辑段,获得用于组成sql语句的sql片段。步骤s21:处理器106基于sql片段拼接生成与数据加工步骤对应的sql语句。下面将步骤s20以及步骤s21结合进行阐述:关于第一结构化数据的具体实现方式,在数据映射的步骤s1中已经阐述,在已知第一结构化数据的具体结构的情况下,对其进行解析时是容易实现的。仍然采用之前的例子,某一数据加工步骤对应的sql语句为“selectt1.a,t1.bfromt1wheret1.a>5”,在第一结构化数中包括mapping段、from段以及where段3个逻辑段,其中,解析mapping段的段名称,可以获得对应的操作关键词select,解析mapping段的中的参数字段,可以获得操作参数t1、a以及b,拼合可得mapping段对应的sql片段“selectt1.a,t1.b”。解析from段的段名称,可以获得对应的操作关键词from,解析from段的中的参数字段,可以获得操作参数t1,拼合可得from段对应的sql片段“fromt1”。解析where段的段名称,可以获得对应的操作关键词where,解析where段的中的参数字段,可以获得操作参数t1、a以及>5,拼合可得where段对应的sql片段“wheret1.a>5”,再将上述三个sql片段拼合在一起,即可还原出sql语句“selectt1.a,t1.bfromt1wheret1.a>5”。在解析第一结构化数据的过程中,如果解析到有附加字段的,将其对应的附加文本直接拼合到对应的sql片段中。步骤s20以及步骤s21针对的是数据映射逻辑中具体数据加工步骤的解析。根据步骤s1中的阐述,数据映射逻辑还可以进行层次化的表示,即通过第二结构化数据对各个数据加工步骤对应的第一结构化数据进行索引。关于第二结构化数据的具体实现方式,在数据映射的步骤s1中已经阐述。在步骤s20之前,通过解析第二结构化数据,基于其中的数据加工步骤与第一结构化数据的对应关系,获得各个数据加工步骤对应的第一结构化数据的保存位置,从而能够快速解析并获得各个数据加工步骤对应的sql语句。在实际中,虽然sql有统一的标准,但不同数据库平台的上运行的sql语句在细节上还是存在一定的区别,因此作为一种具体的实施方式,步骤s21中在生成sql语句时,可以将数据库平台考虑在内,以使生成的sql语句能够在具体的数据库平台上执行,使得该数据映射方法具备良好的实用性。可以在配置文件或者其他地方实现配置好用于表征数据库平台的数据库平台信息,并在生成sql语句时获取该信息,以使生成的sql语句能够对应于某种指定的数据库平台。其中,数据库平台可以是,但不限于td、greenplum等平台。通常,也将最终解析获得的一条或多条顺序执行的sql语句称为sql脚本,sql脚本也是实现数据映射的实体。但是,sql脚本通常并不能直接执行,需要嵌入到相应的批处理脚本中执行,嵌入有sql脚本的批处理脚本也称为数据映射脚本。数据映射脚本可以为,但不限于perl脚本。数据映射脚本也就是步骤s2中所称的数据映射所对应的数据映射代码。对于不同的数据映射,对应不同的数据映射脚本,但实际上,各个数据映射脚本之间除了sql脚本的部分,其他很多部分,例如开始时的启动事务、结束时的提交事务等均是完全相同的,因此为加快数据映射脚本的生成效率,在一种可选的实施方式中,可以将数据映射脚本的公用部分事先配置为模板文件,在生成数据映射脚本时只需要读取模板文件,将sql脚本嵌入到模板文件中即可。步骤s3:执行数据映射代码,实现数据映射。步骤s2中生成的数据映射脚本就是一个批处理作业,可以由作业调度平台调度运行,从而实现数据映射。综上所述,由于在步骤s1中将数据映射逻辑完全采用结构化数据进行了表示,因此在步骤s2中采用了本发明实施例提供的数据映射方法对其进行解析时,可以实现完全自动化的解析,无需人工介入即可生成sql脚本以及数据映射脚本,从而可以显著提高数据映射的执行效率。同时由于避免了数据映射代码生成过程中人为因素的干扰,能够确保生成的数据映射代码与数据映射逻辑的一致性,使得执行数据映射能够获得预期的结构。此外,将数据映射逻辑进行结构化的表示,即方便用户理解、查看、修改、展示,也方便用户在结构化的基础上对数据映射逻辑进行分析处理,例如基于数据映射逻辑快速生成设计文档、模型文档、作业调度文档等。还需要指出,由于sql语句在数据处理
技术领域:
的很多方面都存在应用,因此本发明实施例中的将sql语句进行结构化表示以及解析的方法,并不限于应用在数据映射中。第二实施例图4示出了本发明实施例提供的数据映射装置200的功能模块图。参照图4,该装置包括解析模块210以及sql语句生成模块220。解析模块210用于解析第一结构化数据中的逻辑段,获得用于组成结构化查询语言sql语句的sql片段,其中,所述第一结构化数据为用于表示数据映射中的数据加工步骤的结构化数据,所述逻辑段为用于表示所述sql片段的结构化数据;sql语句生成模块220用于基于所述sql片段拼接生成与所述数据加工步骤对应的所述sql语句。进一步的,在第二实施例的一种实施方式中,解析模块210可以包括第一解析单元、第二解析单元以及sql片段拼合单元。其中,第一解析单元用于解析所述逻辑段的段名称,获得所述逻辑段对应的所述sql语句中的操作关键词;第二解析单元用于解析所述逻辑段中的参数字段,获得与所述操作关键词关联的操作参数;sql片段拼合单元用于基于所述操作关键词以及所述操作参数拼合生成所述sql片段。本发明第二实施例提供的数据映射取装置200,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。第三实施例本发明第三实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行本发明实施例提供的数据映射方法。该计算机存储介质可以实现为,但不限于图1示出的存储器102。第四实施例本发明第四实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明提供的数据映射方法。该电子设备可以实现为,但不限于图1示出的终端设备100。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域:
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。当前第1页12