可视化治理数据的方法及系统与流程

文档序号:24640764发布日期:2021-04-09 20:53阅读:63来源:国知局
本发明属于治理数据的方法领域,具体涉及一种可视化治理数据的方法及系统。
背景技术
::结构化数据治理是大型数据平台或数据中台中的重要一环,广泛应用于各类项目或数据平台中。通常有几个主要环节:1、数据源接入环节2、数据治理环节3、治理结果输出环节而数据治理环节,通常会有几种常见场景:1、表结构的转换来自不同的业务系统中,对于人的数据记录内容不同,表结构也有很大差异(如下图所示的表a和表b),我们在进入平台应用时,需要构建出一张新的表c,或者平台中已经存在表c,将a和b的数据融合到表c中;2、数据格式的转换例如表a的日期格式是yyyy-mm-dd,表b的日期格式是yyyy/mm/dd,整合到表c中的时候,就存在格式差异,需要在数据进入到表c之前,基于表c需要的格式,分别对表a和表b的数据格式分别做转换,我们称为【规则】;数据治理产品核心需要解决上述问题,能够支持批量或实时的数据治理需求,治理过程自动化完成。【现有方案一】:不使用任何工具产品,根据数据治理需求,casebycase技术开发;【现有方案二】:一部分工具类产品,将治理环节封装成算子进行可视化配置;(每个算子都是一个技术处理单元)。【现有方案一】:治理流程不透明,没有复用性,且开发成本高,只有代码,不便于确认业务逻辑,不做赘述更多缺点;【现有方案二】:全流程是算子的级联,技术处理难度高,且中间结果不落地,如果出现问题,不容易修改;算子级联类似于算子a=〉算子b=〉算子c;如果算子b的环节出错,后续全部不能运行,且中间结果不落地,逐一排查问题后,需要全流程重跑数据,实际业务中会很耗时或处理量会很大;区别于此,当前方案是:数据源表1=〉算子a=〉表2=〉算b=〉表3=〉算子c=〉表4;这种方式,即便算子b的环节出错,算子b之前的表2数据是保留的,只需要排查问题后修改治理逻辑,从表2向后,重跑算子b之后的流程即可,重跑数据量不大,且更快。技术实现要素:本申请实施例提供了一种可视化治理数据的方法、系统、计算机存储设备,以至少解决相关技术中主观因素影响的问题。本发明提供了一种可视化治理数据的方法,其中,包括:数据接入步骤:通过数据类接入算子接入数据库;数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过nest输出算子定向写入nest数据库;画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。上述方法,其中,所述数据接入步骤包括:jdbc输入步骤:通过jdbc输入算子接入支持jdbc的数据库;externalhive输入步骤:通过externalhive输入算子接入hive数据。上述方法,其中,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。上述方法,其中,所述知识图谱数据融合步骤包括:实体融合步骤:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶步骤:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重步骤:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。上述方法,其中,所述画布的可视化配置步骤包括:从数据源中抽取数据,经过jdbc接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述nest数据库中。本发明还包括一种可视化治理数据的系统,其中,包括:数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过nest输出算子定向写入nest数据库;画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。上述系统,其中,所述数据接入模块包括:jdbc输入单元,所述jdbc输入单元通过jdbc输入算子接入支持jdbc的数据库;externalhive输入单元,所述externalhive输入单元通过externalhive输入算子接入hive数据。上述系统,其中,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。上述系统,其中,所述知识图谱数据融合模块包括:实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。上述系统,其中,所述画布的可视化配置模块包括:从数据源中抽取数据,经过jdbc接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述nest数据库中。本发明的有益效果在于:1、降低数据治理门槛:用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求。2、可视化、透明:治理流程通过血缘图的形式呈现和配置,治理全链路清晰透明。3、中间结果落地、可见,实用性强::治理过程需要使用【中间表】将治理的每个环节数据落地,数据可落地、问题好排查、降低治理难度和应用效率。4、扩展性强:治理能力封装成独立算子,将来治理场景扩展时,只需要做算子级开发和扩展即可,治理框架不变,例如,需要增加一种数据源介入,只需要开发一种支持该数据源介入的算子即可。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是可视化治理数据的方法的流程图;图2是图1中步骤s1的分步骤流程图;图3是图1中步骤s3的分步骤流程图;图4是本发明的治理数据的系统的结构示意图;图5是根据本发明实施例的计算机设备的框架图;图6是画布的可视化配置描述示意图;图7是数据治理演示示意图之一;图8是数据治理演示示意图之一;图9是数据治理演示示意图之一;图10是数据治理演示示意图之一;图11是数据治理演示示意图之一;图12是数据治理演示示意图之一;图13是数据治理演示示意图之一;图14是数据治理演示示意图之一;图15是数据治理演示示意图之一;图16是数据治理演示示意图之一;图17是数据治理演示示意图之一;图18是数据治理演示示意图之一;图19是数据治理演示示意图之一;图20是数据治理演示示意图之一;图21是数据治理演示示意图之一;具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
技术领域
:内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。请参照图1,图1是可视化治理数据的方法的流程图。如图1所示,本发明的通过平台建模的可视化治理数据的方法包括:数据接入步骤s1:通过数据类接入算子接入数据库;数据治理步骤s2:通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合步骤s3:通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出步骤s4:将治理完成的数据结果,输入到指定的业务数据库,通过nest输出算子定向写入nest数据库;画布的可视化配置步骤s5:通过表将上述算子处理好的数据进行落地。请参照图2,图2是图1中步骤s1的分步骤流程图。如图2所示,所述数据接入步骤s1包括:jdbc输入步骤s11:通过jdbc输入算子接入支持jdbc的数据库;externalhive输入步骤s12:通过externalhive输入算子接入hive数据。还包括数据治理步骤,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。请参照图3,图3是图1中步骤s3的分步骤流程图。如图3所示,所述知识图谱数据融合步骤s3包括:实体融合步骤s31:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶步骤s32:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重步骤s33:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。其中,所述画布的可视化配置步骤s5包括:从数据源中抽取数据,经过jdbc接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述nest数据库中。以下,列举实施例具体说明本发明的设备间用户识别方法如下。实施例一:数据接入类的算子:jdbc输入算子:用于接入支持jdbc的数据库,例如oracle、mysql等,作用是拉取远端数据复制一份到本地的中间表中;externalhive输入算子:用于接入hive数据这种算子数据无需落地对应输出的中间表是一种视图;数据治理算子:规则映射算子:用于配置治理过程中的表结构转换、数据格式转换等;知识图谱数据融合算子:实体融合算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据,主要处理的是数据融合;关系对偶算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据,主要处理的是数据的对偶关系排序;事件去重算子:用于将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据,主要处理的是事件数据的去重;数据输出类算子:nest输出算子:用户将治理完成的数据结果,输入到指定的业务数据库,该算子用于定向写入nest数据库(nest是一个自有数据库名称)上述算子类型和每个环节的算子数量不固定,均可以基于业务治理需要在当前框架基础上进行开发和扩展。画布的可视化配置描述,如图6所示:【矩形】表示一张落地的表表分为3种:数据源表、中间表、目标表,使用不同的icon便于区分;【实线框】表示“数据源表”和“目标表”;“数据源表”即待治理的原始数据表,例如前面所述提到的oracle或mysql中的表;“目标表”即治理后数据的表,例如前面所述,nest中的表;上图最左边表表示数据源表,右边表表示目标表;【虚线框】表示“中间表”,“中间表”仅存在于当前dag中,作为算子加工结果的暂存;【圆形】表示一个算子算子的个数不固定,支持插件式扩展,可由用户自定义开发;算子能力参见上文描述;【算子】的两端均为【表】,分别表示数据的来源和去向举例来说,图6中表示从数据源的【table1(父亲)】中抽取数据,经过jdbc接入后,落地到【表1中】,将表1的字段映射到【表5】中;从数据源的【table1(母亲)】中抽取数据,经过jdbc接入后,落地到【表2】中,将【表2】的数据也映射到【表5】中;再将【表5】的数据按照知识图谱的实体表要求做实体融合,落地到目标表【人】中;最后将目标表【人】的数据输出写入好nest数据库中。在画布中选中表或算子,页面右侧弹出抽屉,展示具体的配置项,进行具体配置:点击数据源表,抽屉中可展示表级详情和字段级详情,如图7所示;点击目标表,抽屉中可以展示目标表的表详情和字段详情,如图8所示;如果是治理过程中的中间表,需要在画布中创建,抽屉中可命名表名称并向创建字段,如图9和图10所示:数据接入算子,抽屉中可给算子命名一个画布中的名称,并配置算子的输入表和输出表,该算子仅支持一个输入表和一个输出表,如图11所示:规则映射算子抽屉中可给算子命名一个画布中的名称,并配置算子的输入表和输出表,该算子仅支持一个输入表和一个输出表,如图12所示:如果需要将多张表映射到同一张表中,需要配置多个规则映射算子,如图13所示:上述过程为表级映射,在抽屉中点击【详细配置】可切换画布到字段级配置页面,可以配置字段的映射关系,以及具体的字段级数据处理规则(规则可通过内置的规则引擎进行接入和扩展,非本专利内容,不赘述),如14图所示:实体融合算子在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图15所示:上述过程为表级配置,在抽屉中点击【详细配置】可切换画布到字段级配置页面,可以配置具体的融合要求,例如表级血缘的优先级、字段血缘的优先级、去重标志列、溯源信息等,具体的配置项都是该算子能力的独特有功能,这里不展开,视具体情况开发即可,如图16所示:关系对偶算子在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图17所示:在抽屉中点击详细配置后,切换到具体的字段配置页面,该算子在可配置具体的对偶排序规则,如图18所示;事件去重算子在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在仅支持一个输入表和一个输出表,如图19所示:在抽屉中点击详细配置后,切换到具体的字段配置页面,该算子在可配置具体的去重规则,如图20所示;nest输出算子,在右侧抽屉中命名算子名称,定义算子的输入表和输出表,该算子在只需要配置输入表,无需选择输出表,输出方向仅为nest数据库,如图21所示:实施例二:请参照图4,图4是本发明的治理数据的系统的结构示意图。如图4所示本发明的可视化治理数据的系统,其中,包括:数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过nest输出算子定向写入nest数据库;画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。上述系统,其中,所述数据接入模块包括:jdbc输入单元,所述jdbc输入单元通过jdbc输入算子接入支持jdbc的数据库;externalhive输入单元,所述externalhive输入单元通过externalhive输入算子接入hive数据。上述系统,其中,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。上述系统,其中,所述知识图谱数据融合模块包括:实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。上述系统,其中,所述画布的可视化配置模块包括:从数据源中抽取数据,经过jdbc接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述nest数据库中。实施例三:结合图5所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本申请实施例的一个或多个集成电路。其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(non-volatile)存储器。在特定实施例中,存储器82包括只读存储器(read-onlymemory,简称为rom)和随机存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为eprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory,简称为eeprom)、电可改写rom(electricallyalterableread-onlymemory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory,简称sdram)等。存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种治理数据的方法。在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(databus)、地址总线(addressbus)、控制总线(controlbus)、扩展总线(expansionbus)、局部总线(localbus)。举例来说而非限制,总线80可包括图形加速接口(acceleratedgraphicsport,简称为agp)或其他图形总线、增强工业标准架构(extendedindustrystandardarchitecture,简称为eisa)总线、前端总线(frontsidebus,简称为fsb)、超传输(hypertransport,简称为ht)互连、工业标准架构(industrystandardarchitecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(lowpincount,简称为lpc)总线、存储器总线、微信道架构(microchannelarchitecture,简称为mca)总线、外围组件互连(peripheralcomponentinterconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serialadvancedtechnologyattachment,简称为sata)总线、视频电子标准协会局部(videoelectronicsstandardsassociationlocalbus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。该计算机设备可以基于治理数据的方法,从而实现结合图1-图3描述的方法。另外,结合上述实施例中治理数据的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的一种治理数据的方法。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。综上所述,基于本发明的有益效果在于,本专利提供了一种治理数据的方法,该方法能够降低数据治理门槛:用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求;该方法的优点是可视化、透明:治理流程通过血缘图的形式呈现和配置,治理全链路清晰透明;该方法的中间结果落地、可见,实用性强::治理过程需要使用【中间表】将治理的每个环节数据落地,数据可落地、问题好排查、降低治理难度和应用效率;该方法的优点是扩展性强:治理能力封装成独立算子,将来治理场景扩展时,只需要做算子级开发和扩展即可,治理框架不变,例如,需要增加一种数据源介入,只需要开发一种支持该数据源介入的算子即可;以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1