一种血缘数据挖掘识别方法和装置与流程

文档序号:32983217发布日期:2023-01-17 22:21阅读:19来源:国知局
1.本发明涉及计算机
技术领域
:,特别涉及人工智能
技术领域
:,尤其涉及一种血缘数据挖掘识别方法和装置。
背景技术
::2.数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。数据治理中常用到血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析可以实现数据处理的可追溯。相关技术中,主要通过解析查询语句(sql语句)中的连结(join)条件获取字段级的关联关系,部分方案可以依照聚合函数获取字段级的融合路径。但在底层数据血缘的挖掘任务中,由于受限于数据库开发规范以及其他研发习惯,仅依赖sql做数据查询插入的功能极少,sql语句中的join条件也不能覆盖全部的潜在数据血缘,无法得到完整的数据血缘关系,不能满足底层数据血缘关系挖掘的需求。技术实现要素:3.本发明的一个目的在于提供一种血缘数据挖掘识别方法,可以自动化从数据库中挖掘出底层血缘数据,得到完整的数据血缘关系,满足底层数据血缘关系挖掘需求。本发明的另一个目的在于提供一种血缘数据挖掘识别装置。本发明的再一个目的在于提供一种计算机可读介质。本发明的还一个目的在于提供一种计算机设备。4.为了达到以上目的,本发明一方面公开了一种血缘数据挖掘识别方法,包括:5.获取数据库的元数据信息,元数据信息包括元数据和元数据属性;6.根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;7.根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据。8.优选的,在根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度之前,还包括:9.通过直方图抽样算法,根据元数据的数据行数,得到样本容量;10.按照样本容量,对元数据信息中的元数据进行抽样,得到抽样后的元数据。11.优选的,根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度,包括:12.根据元数据属性,对待挖掘元数据和候选血缘数据的属性进行相似度计算,得到属性相似度,属性相似度包括列名相似度、列注释相似度和表名相似度;13.根据列名相似度、列注释相似度和表名相似度,生成命名相似度;14.根据元数据,对待挖掘元数据和候选血缘数据的数据进行相似度计算,得到数据相似度;15.根据命名相似度和数据相似度,得到待挖掘元数据和候选血缘数据之间的最终相似度。16.优选的,根据元数据属性,对待挖掘元数据和候选血缘数据的属性进行相似度计算,得到属性相似度,包括:17.若预先生成的通用短语集合包括元数据属性,通过杰卡德相似系数算法对待挖掘元数据和候选血缘数据的元数据属性进行相似度计算,得到属性相似度;18.若预先生成的通用短语集合不包括元数据属性,通过词向量模型对待挖掘元数据和候选血缘数据的元数据属性分别进行词向量转换,得到待挖掘向量集合和候选血缘向量集合;19.通过词移距离算法,对待挖掘向量集合和候选血缘向量集合进行相似度计算,得到属性相似度。20.优选的,根据列名相似度、列注释相似度和表名相似度,生成命名相似度,包括:21.通过归一化函数和预设的属性权重,对列名相似度、列注释相似度和表名相似度进行计算,得到命名相似度。22.优选的,根据元数据,对待挖掘元数据和候选血缘数据的数据进行相似度计算,得到数据相似度,包括:23.根据元数据,对待挖掘元数据的数据进行容纳信息量计算,得到第一修正参数;24.根据元数据,对待挖掘元数据的数据进行数据选择,得到第二修正参数;25.根据元数据,对待挖掘元数据和候选血缘数据的数据进行关联程度计算,得到数据关联度;26.通过归一化函数,根据第一修正参数、第二修正参数和数据关联度进行计算,得到数据相似度。27.优选的,根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据,包括:28.根据最终相似度,选取出目标相似度;29.将目标相似度对应的候选血缘数据确定为待挖掘元数据的血缘数据。30.优选的,根据最终相似度,选取出目标相似度,包括:31.对最终相似度进行排序;32.根据排序后的最终相似度,选取出指定序列的目标相似度。33.本发明还公开了一种血缘数据挖掘识别装置,包括:34.获取单元,用于获取数据库的元数据信息,元数据信息包括元数据和元数据属性;35.相似度计算单元,用于根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;36.确定单元,用于根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据。37.本发明还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。38.本发明还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。39.本发明还公开了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如上所述方法。40.本发明获取数据库的元数据信息,元数据信息包括元数据和元数据属性;根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据,可以自动化从数据库中挖掘出底层血缘数据,得到完整的数据血缘关系,满足底层数据血缘关系挖掘需求。附图说明41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。42.图1为本发明实施例提供的一种血缘数据挖掘识别方法的流程图;43.图2为本发明实施例提供的又一种血缘数据挖掘识别方法的流程图;44.图3为本发明实施例提供的一种血缘数据挖掘识别装置的结构示意图;45.图4为本发明实施例提供的一种计算机设备的结构示意图。具体实施方式46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。47.需要说明的是,本技术公开的一种血缘数据挖掘识别方法和装置可用于人工智能
技术领域
:,也可用于除人工智能
技术领域
:之外的任意领域,本技术公开的一种血缘数据挖掘识别方法和装置的应用领域不做限定。48.为了便于理解本技术提供的技术方案,下面先对本技术技术方案的相关内容进行说明。广义的数据血缘包含了在大数据架构中数据逐步聚合的路径,体现为表级甚至列级的层次关系。一般大数据研发体系细分明确,这类层次关系容易随研发过程登记标明。但源数据(或贴源数据)范围内的数据血缘关系则依赖于产品业务研发部门面向功能实现的设计,缺乏数据管理职能部门的介入,除常规数据库逻辑外键的存在外,还有很多出于功能研发方便或性能提升考虑的数据冗余设计,在现行业务数据库的共识开发规范下,外键参照技术已基本被禁用,产品快速迭代下也难保证文档的完整性,所以源数据(或贴源数据)范围内的数据血缘关系逐步成为埋藏于研发人员记忆中的信息,难以作为数据资产助力产品发展。这类数据血缘在本文中被称为底层数据血缘。49.数据血缘在企业数据治理中的价值体现在:50.一是在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致数据质量问题。基于数据血缘可以在各环节对数据质量做检测和处理,可用的数据血缘也方便建立运营、产品、数据研发工程师等各个角色间在数据逻辑、数据需求、最终数据结果维度的互信,降低数据服务研发的沟通成本;二是运营分析人员可能对于数据有多样的取数需求,在自助分析的工作流程下,数据血缘可以作为一项重要数据资产呈现给分析师,方便寻数溯源,此外也可以作为一类项目资产为系统设计提供重要参考,有助于判断数据冗余、复用等设计的合理性。51.综上,数据血缘是一项极具价值的数据资产,同时也是数据建设的重要组成部分。本发明可自动化地在业务数据库中提取底层数据血缘关系,从而解决底层数据血缘挖掘难的问题。52.下面以血缘数据挖掘识别装置作为执行主体为例,说明本发明实施例提供的血缘数据挖掘识别方法的实现过程。可理解的是,本发明实施例提供的血缘数据挖掘识别方法的执行主体包括但不限于血缘数据挖掘识别装置。53.图1为本发明实施例提供的一种血缘数据挖掘识别方法的流程图,如图1所示,该方法包括:54.步骤101、获取数据库的元数据信息,元数据信息包括元数据和元数据属性。55.步骤102、根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度。56.步骤103、根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据。57.值得说明的是,本技术中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本技术实施例中的用户信息均是通过合法合规途径获得,并且对用户信息的获取、存储、使用、处理等经过客户授权同意的。58.本发明实施例提供的技术方案中,获取数据库的元数据信息,元数据信息包括元数据和元数据属性;根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据,可以自动化从数据库中挖掘出底层血缘数据,得到完整的数据血缘关系,满足底层数据血缘关系挖掘需求。59.图2为本发明实施例提供的又一种血缘数据挖掘识别方法的流程图,如图2所示,该方法包括:60.步骤201、通过直方图抽样算法,根据元数据的数据行数,得到样本容量。61.本发明实施例中,各步骤由血缘数据挖掘识别装置执行,元数据为底层数据,本发明实施例提供的血缘数据挖掘识别方法可以应用于底层数据血缘关系的挖掘场景。62.具体地,通过对抽样参数和元数据的数据行数进行计算,得到样本容量,其中,抽样参数包括直方图大小(histogramsize)k、最大相对误差(maximumrelativeerrorinbinsize)f和错误率(errorprobabilitygamma)γ,抽样参数可以根据实际需求进行设置,本发明实施例对此不作限定;n为元数据的数据行数,r为样本容量。63.步骤202、按照样本容量,对元数据信息中的元数据进行抽样,得到抽样后的元数据。64.具体地,样本容量为r,对元数据信息中的元数据进行随机抽样,抽取r行的元数据。65.本发明实施例中,可以预先统计数据库中的数据表的数据行数,若数据行数大于设置的行数阈值,表明数据库中的数据量较大,执行步骤201至步骤202,对元数据进行抽样。由于后续的挖掘过程的计算涉及全表遍历,这在一定程度上会导致较大的性能压力,为了节约数据库的计算资源且保证挖掘的准确性,可以通过抽样的方式抽取部分元数据进行后续计算。其中,行数阈值是按照实际需求进行设置的,本发明实施例对此不作限定,数据量能保证挖掘的准确性即可。66.值得说明的是,若按照样本容量进行元数据抽样,则对于后续挖掘过程中的计算公式,令n=r。67.步骤203、获取数据库的元数据信息,元数据信息包括元数据和元数据属性。68.本发明实施例中,从数据库中获取元数据信息,以元数据列为单位,元数据属性包括但不限于列名、列注释和表名,其中,表名为该元数据列所属的数据表的表名。69.进一步地,对元数据属性进行分词预处理,得到预处理后的元数据属性,并通过预处理后的元数据属性继续执行后续步骤。表名和列名受限于技术,一般仅支持英文,按照实际含义,以英文单词(或缩略语)的组合形式呈现,注释则一般为中文短语。具体地,基于特定策略和配置的停用词库对元数据属性进行分隔和过滤。其中,特定策略可以根据实际需求进行设置,本发明实施例对此不作限定。作为一种可选方案,对于表名和列名,通过指定分隔符进行分隔处理;对于列注释,通过中文分词技术进行分隔处理。70.步骤204、根据元数据属性,对待挖掘元数据和候选血缘数据的属性进行相似度计算,得到属性相似度,属性相似度包括列名相似度、列注释相似度和表名相似度。71.本发明实施例中,在项目管理、研发管理成熟度较高的组织内,针对常用的技术、业务对象有统一的通用称谓,例如:对于支付,统一英文短语为“pay”,而非“payment”、“spend”等同义近义词,因此一般能够整理出一个通用短语集合,属性中所使用的词与缩略语均包含在这个集合中,整体属性规范化程度高。对于属性管理规范、全部属性来自通用短语集合的数据库,采用针对集合的相似度算法计算相似性;对于存在至少一个属性不存在于通用短语集合的数据库中,采用基于开源预训练词向量并采用自然语言处理的算法计算短文本相似性。72.具体地,步骤204具体包括:73.步骤2041、判断预先生成的通用短语集合是否包括元数据属性,若是,执行步骤2042;若否,执行步骤2043。74.本发明实施例中,若每个元数据属性均存在于通用短语集合中,表明元数据属性命名规范,继续执行步骤2042;若存在至少一个元数据属性不存在于通用短语集合中,表明元数据属性命名不规范,继续执行步骤2043。75.步骤2042、通过杰卡德相似系数算法对待挖掘元数据和候选血缘数据的元数据属性进行相似度计算,得到属性相似度,继续执行步骤205。76.具体地,统计待挖掘元数据和候选血缘数据的元数据属性的交集的元素个数和并集的元素个数;将交集的元素个数除以并集的元素个数,得到属性相似度。77.值得说明的是,这种计算方式前期需要预处理:对于英文的表名和列名,可基于命名中通用的分隔符(比如表名“user_info”,分隔符是下划线“_”)完成分词得到短语集合;对于没有分隔符的中文列注释可使用jieba等业界常用的分词器进行分词得到短语集合。78.本发明实施例中,若元数据属性包括列名、列注释和表名,则对应计算出列名相似度、列注释相似度和表名相似度。79.步骤2043、通过词向量模型对待挖掘元数据和候选血缘数据的元数据属性分别进行词向量转换,得到待挖掘向量集合和候选血缘向量集合。80.本发明实施例中,当属性管理没有统一的通用语集时,定名者依照自己对于业务的理解,基于自身英文水平确定命名短语及组合,这时同一业务或技术对象在不同表中的命名可能不同,比如对于申请业务,申请的英文短语可能被选用为“application”、“contract”等,而在中文注释中,也可能出现“申办”、“请求”等近义字样。这种情况下,粗暴地将近义词视作完全不同的短语是不合适的,必须考虑其语义近似程度及词语依存关系来计算相似度,这就需要用到自然语言处理(nlp)相关技术的协助。将词语依照依存关系及含义转化为结构化向量,两个词语对应向量的欧几里得距离能够代表词语间的相异度,这类转化算法已经成熟,本发明不再另行训练词向量,而是直接采用了现有的词向量模型进行词向量转换。81.具体地,将待挖掘元数据的元数据属性输入词向量模型进行词向量转换,输出待挖掘向量集合;将候选血缘数据的元数据属性输入词向量模型进行词向量转换,输出候选血缘向量集合。82.步骤2044、通过词移距离(wordmover’sdistance,简称:wmd)算法,对待挖掘向量集合和候选血缘向量集合进行相似度计算,得到属性相似度。83.本发明实施例中,元数据属性包括列名、列注释和表名,则对应的待挖掘向量集合包括待挖掘列名向量集、待挖掘列注释向量集和待挖掘表名向量集,对应的候选血缘向量集合包括候选血缘列名向量集、候选血缘列注释向量集和候选血缘表名向量集,对应的属性相似度包括列名相似度、列注释相似度和表名相似度。84.具体地,将待挖掘列名向量集和候选血缘列名向量集合输入wmd算法进行相似度计算,得到列名相似度;将待挖掘列注释向量集和候选血缘列注释向量集合输入wmd算法进行相似度计算,得到列注释相似度;将待挖掘表名向量集和候选血缘表名向量集合输入wmd算法进行相似度计算,得到表名相似度。85.步骤205、根据列名相似度、列注释相似度和表名相似度,生成命名相似度。86.本发明实施例中,通过归一化函数和预设的属性权重,对列名相似度、列注释相似度和表名相似度进行计算,得到命名相似度。其中,属性权重包括列名权重、列注释权重和表名权重,属性权重是根据实际需求设置的,本发明实施例对此不作限定。87.具体地,以列名权重为0.4、列注释权重为0.4、表名权重为0.2为例,通过n_sim=0.4×norm(coln_sim)+0.4×norm(comment_sim)+0.2×norm(tablen_sim),对列名相似度、列注释相似度和表名相似度进行计算,得到命名相似度,其中,norm是指采用最大最小归一化函数,归一后的区间为[0,1];n_sim为命名相似度;coln_sim为列名相似度;comment_sim为列注释相似度;tablen_sim为表名相似度。[0088]步骤206、根据元数据,对待挖掘元数据和候选血缘数据的数据进行相似度计算,得到数据相似度。[0089]本发明实施例中,步骤206具体包括:[0090]步骤2061、根据元数据,对待挖掘元数据的数据进行容纳信息量计算,得到第一修正参数。[0091]本发明实施例中,容纳信息量衡量该列保存数据样式的丰富程度,仅对待挖掘元数据单列进行计算,主要目的是用来修正数据关联程度,以得到最终的数据相似度。当一列保存的数据形式很单一,比如1位十进制数字,另一个与之无关的列可能因为也保存了1位十进制数字而与该列有较高的数据关联程度(因为两列的可取值范围都是0-9)。为了修正这种情况,本发明认为数据形式越单一,即:容纳信息量越小,数据关联程度代表数据相似度的程度越低。[0092]具体地,通过对待挖掘元数据的数据进行容纳信息量计算,得到第一修正参数。其中,ic为第一修正参数,即:容纳信息量,cntcat指对应类字符的总出现次数,ccat指对应字符能够取值的个数,n为数据行数,cat的取值范围包括大写字母、小写字母、数字和中文。[0093]例如:col_a列保存的一个四位id,其中前两位统一为大写字母,后两位统一为十进制数字,依照上述公式,col_a列的容纳信息量为lg(26)×2/4+lg(10)×2/4约为2.78。计算容纳信息量时,大写字母、小写字母的ccat为26,汉字默认为100000,其他标点及特殊字符依照数据实际情况拟定ccat的值。[0094]步骤2062、根据元数据,对待挖掘元数据的数据进行数据选择,得到第二修正参数。[0095]本发明实施例中,数据选择性衡量一列数据中数据重复的程度,同样用来修正数据关联程度,得到数据相似度。考虑一个极端情况,当两列保存的数据值只有一个值,比如存了100万条数据,但取值都是1,这时依照下述公式计算数据关联程度为1(最大值),但这并不一定意味着两列有血缘关系,此时计算数据相似性时,应当使用数据选择性降低数据关联程度的权重。[0096]具体地,通过对待挖掘元数据的数据进行数据选择,得到第二修正参数。其中,cd为第二修正参数,count(col)为该列保存的数据总个数,count(distinct_col)为该列保存的数据去重后不用取值的个数。[0097]例如:该列保存的数据为3个a和4个b,则依照上述公式,第二修正参数cd为5/7。[0098]步骤2063、根据元数据,对待挖掘元数据和候选血缘数据的数据进行关联程度计算,得到数据关联度。[0099]本发明实施例中,通过测定两列数据值交集的大小,来计算二者的数据关联程度。交集越大,其中一列的数据来自另一列的可能性越大。即:对待挖掘元数据和候选血缘数据的数据进行关联程度计算,得到的数据关联度越大,表明待挖掘元数据列来自候选血缘数据列的可能性越大。[0100]具体地,通过对待挖掘元数据和候选血缘数据的数据进行关联程度计算,得到数据关联度。其中,rt为数据关联度;card是指集合的基数,即:集合中元素的数量;a是指待挖掘元数据列保存的数据集合,b是指候选血缘数据列列保存的数据集合。[0101]步骤2064、通过归一化函数,根据第一修正参数、第二修正参数和数据关联度进行计算,得到数据相似度。[0102]具体地,通过d_sim=norm(ic×cd)×rt,第一修正参数、第二修正参数和数据关联度进行计算,得到数据相似度。其中,d_sim为数据相似度,ic为第一修正参数,cd为第二修正参数,rt为数据关联度,norm是指采用最大最小归一化函数(对每个待挖掘元数据列的数据行做计算),归一后的区间为[0,1]。[0103]步骤207、根据命名相似度和数据相似度,得到待挖掘元数据和候选血缘数据之间的最终相似度。[0104]本发明实施例中,数据权重β是根据实际需求设置的,本发明实施例对此不作限定。[0105]具体地,以数据权重β为0.1为例,通过对命名相似度和数据相似度进行计算,得到待挖掘元数据和候选血缘数据之间的最终相似度。其中,β为数据权重,sim为最终相似度,d_sim为数据相似度,n_sim为命名相似度。[0106]步骤208、根据最终相似度,选取出目标相似度。[0107]作为一种可选方案,对最终相似度进行排序;根据排序后的最终相似度,选取出指定序列的目标相似度。可以选取出排序最高的最终相似度作为目标相似度,也可以选取出降序排列后的前m名最终相似度作为目标相似度,其中,m为整数,取值可以根据实际需求确定。[0108]步骤209、将目标相似度对应的候选血缘数据确定为待挖掘元数据的血缘数据。[0109]本发明实施例中,目标相似度对应的候选血缘数据是与待挖掘元数据最相似的至少一个数据列,即为待挖掘元数据的血缘数据,待挖掘元数据与血缘数据之间存在血缘关系。[0110]本发明主要基于权重指标体系,因此可以通过调整不同相似性度量组分的权重,来适配不同的研发规范/习惯,比如,当数据库数据定义语言(ddl)语句管理较好,对于数据库对象的命名有严格规范的话,可以适当调高命名相似性的权重数值,使得算法更倾向于将命名相似的数据列认为具有血缘关系。类似的参数调整,使得本发明具有较高的定制化潜力,能够适应的场景更广泛。[0111]值得说明的是,本技术中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本技术实施例中的用户信息均是通过合法合规途径获得,并且对用户信息的获取、存储、使用、处理等经过客户授权同意的。[0112]本发明实施例提供的血缘数据挖掘识别方法的技术方案中,获取数据库的元数据信息,元数据信息包括元数据和元数据属性;根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据,可以自动化从数据库中挖掘出底层血缘数据,得到完整的数据血缘关系,满足底层数据血缘关系挖掘需求。[0113]图3为本发明实施例提供的一种血缘数据挖掘识别装置的结构示意图,该装置用于执行上述血缘数据挖掘识别方法,如图3所示,该装置包括:获取单元11、相似度计算单元12和确定单元13。[0114]获取单元11用于获取数据库的元数据信息,元数据信息包括元数据和元数据属性。[0115]相似度计算单元12用于根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度。[0116]确定单元13用于根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据。[0117]本发明实施例中,该装置还包括:生成单元14和抽样单元15。[0118]生成单元14用于通过直方图抽样算法,根据元数据的数据行数,得到样本容量。[0119]抽样单元15用于按照样本容量,对元数据信息中的元数据进行抽样,得到抽样后的元数据。[0120]本发明实施例中,相似度计算单元12具体用于根据元数据属性,对待挖掘元数据和候选血缘数据的属性进行相似度计算,得到属性相似度,属性相似度包括列名相似度、列注释相似度和表名相似度;根据列名相似度、列注释相似度和表名相似度,生成命名相似度;根据元数据,对待挖掘元数据和候选血缘数据的数据进行相似度计算,得到数据相似度;根据命名相似度和数据相似度,得到待挖掘元数据和候选血缘数据之间的最终相似度。[0121]本发明实施例中,相似度计算单元12具体用于若预先生成的通用短语集合包括元数据属性,通过杰卡德相似系数算法对待挖掘元数据和候选血缘数据的元数据属性进行相似度计算,得到属性相似度;若预先生成的通用短语集合不包括元数据属性,通过词向量模型对待挖掘元数据和候选血缘数据的元数据属性分别进行词向量转换,得到待挖掘向量集合和候选血缘向量集合;通过词移距离算法,对待挖掘向量集合和候选血缘向量集合进行相似度计算,得到属性相似度。[0122]本发明实施例中,相似度计算单元12具体用于通过归一化函数和预设的属性权重,对列名相似度、列注释相似度和表名相似度进行计算,得到命名相似度。[0123]本发明实施例中,相似度计算单元12具体用于根据元数据,对待挖掘元数据的数据进行容纳信息量计算,得到第一修正参数;根据元数据,对待挖掘元数据的数据进行数据选择,得到第二修正参数;根据元数据,对待挖掘元数据和候选血缘数据的数据进行关联程度计算,得到数据关联度;通过归一化函数,根据第一修正参数、第二修正参数和数据关联度进行计算,得到数据相似度。[0124]本发明实施例中,确定单元13具体用于根据最终相似度,选取出目标相似度;将目标相似度对应的候选血缘数据确定为待挖掘元数据的血缘数据。[0125]本发明实施例中,确定单元13具体用于对最终相似度进行排序;根据排序后的最终相似度,选取出指定序列的目标相似度。[0126]本发明实施例的方案中,获取数据库的元数据信息,元数据信息包括元数据和元数据属性;根据元数据属性和元数据,对待挖掘元数据和候选血缘数据进行相似度计算,得到最终相似度;根据最终相似度,从候选血缘数据中确定出待挖掘元数据的血缘数据,可以自动化从数据库中挖掘出底层血缘数据,得到完整的数据血缘关系,满足底层数据血缘关系挖掘需求。[0127]上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。[0128]本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述血缘数据挖掘识别方法的实施例的各步骤,具体描述可参见上述血缘数据挖掘识别方法的实施例。[0129]下面参考图4,其示出了适于用来实现本技术实施例的计算机设备600的结构示意图。[0130]如图4所示,计算机设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的工作和处理。在ram603中,还存储有计算机设备600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。[0131]以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶反馈器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。[0132]特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。[0133]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。[0134]为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。[0135]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0136]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0137]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0138]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。[0139]本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。[0140]本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0141]本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。[0142]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0143]以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1