一种数据检索方法及装置与流程

文档序号:26938355发布日期:2021-10-12 13:37阅读:70来源:国知局
一种数据检索方法及装置与流程

1.本发明涉及数据安全技术领域,具体涉及一种数据检索方法及装置。


背景技术:

2.随着科学技术的不断进步,大数据技术被机构和组织广泛接纳和应用,以面对高速增长的数据量和用户需求。大数据生态系统中的服务类型包括数据的存储、检索、计算、分析、协调等,大数据生态系统的分布式部署理念和主从结构决定了数据应用的灵活性和高效性,但是也增加了数据质量管理的分散性和复杂性。大数据质量管理的关键在于数据的发现和跟踪。数据发现是指对于大数据平台中的组件上所存储的数据具有自动识别、分类和整理的能力,而数据跟踪则是指对于这些组件中的已发现数据具有溯源和追踪的能力。
3.目前,面对复杂的大数据生态系统和庞杂的海量异构数据,用于对这些数据进行质量管理的技术手段非常有限,有些技术只具备数据溯源的能力,而缺乏数据审计的能力;有些技术只满足部分组件的管理需求,而缺乏全面的大数据平台管理能力,无法实现对海量数据的全面管理。


技术实现要素:

4.为此,本发明提供一种数据检索方法及装置,以解决现有技术中由于用于数据质量管理的技术存在片面性而导致的无法实现对海量数据的全面管理的问题。
5.为了实现上述目的,本发明第一方面提供一种数据检索方法,方法包括:响应于数据资产管理方发送的检索请求,获取检索信息;依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件;对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据;其中,第一数据资产包括第一数据资产的属性信息;依据第一数据资产对应的图谱数据和第一数据资产的属性信息,生成并发送检索响应给数据资产管理方。
6.在一些具体实现中,对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据,包括:对数据节点信息进行分析,获得第一数据资产和第一数据资产对应的关系信息,其中,第一数据资产对应的关系信息至少包括第一数据资产与其他数据资产之间的数据关联关系信息、数据血缘关系信息和数据派生关系信息中的任一种信息;对操作流程文件中的操作信息进行审计,若确定审计通过,则依据操作信息和第一数据资产对应的关系信息,构造数据追踪模型;依据数据追踪模型和第一数据资产,生成第一数据资产对应的图谱数据。
7.在一些具体实现中,依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件,包括:检索信息包括检索条目信息;依据检索条目信息查找当前关系图谱,获得压缩文件,其中,压缩文件是经过序列化处理的数据节点信息和操作流程文件;对压缩文件进行反序列化处理,获得数据节点信息和操作流程文件。
8.在一些具体实现中,在响应于数据资产管理方发送的检索请求,获取检索信息步骤之前,还包括:获取数据资产管理方发送的创建图谱消息,创建图谱消息包括自定义类型模板;从大数据集群用户导入的第二数据资产中,依据自定义类型模板,筛选获得初始数据资产;依据初始数据资产,生成初始关系图谱;依据初始关系图谱和大数据集群用户导入的第三数据资产,生成当前关系图谱。
9.在一些具体实现中,依据初始关系图谱和大数据集群用户导入的第三数据资产,生成当前关系图谱,包括:获取第三数据资产对应的关系信息;若确定第三数据资产对应的关系信息与初始关系图谱存在交集,则依据第三数据资产对应的关系信息更新初始关系图谱,获得当前关系图谱。
10.在一些具体实现中,创建图谱消息还包括敏感数据策略;在获取第三数据资产对应的关系信息步骤之后,还包括:对第三数据资产进行解析,获得第三数据资产中的敏感数据;依据敏感数据策略,对第三数据资产中的敏感数据进行拦截或限制访问。
11.在一些具体实现中,敏感数据策略至少包括访问时间限制策略、访问用户限制策略和敏感信息标记策略中的任一种策略。
12.在一些具体实现中,自定义类型模板包括数据类型模板和业务类型模板;其中,数据类型模板是数据资产管理方根据大数据集群用户存储的数据资产的属性信息进行创建、更新或删除的模板;业务类型模板是数据资产管理方根据大数据集群用户的业务需求信息进行创建、更新或删除的模板。
13.在一些具体实现中,检索信息还包括检索类型,检索类型至少包括节点检索、边界检索和全文检索中的任一项。
14.为了实现上述目的,本发明第二方面提供一种数据检索装置,包括:获取模块,用于响应于数据资产管理方发送的检索请求,获取检索信息;查询模块,用于依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件;分析模块,用于对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据,第一数据资产包括第一数据资产的属性信息;生成模块,用于依据第一数据资产对应的图谱数据和第一数据资产的属性信息,生成并发送检索响应给数据资产管理方。
15.为了实现上述目的,本发明第三方面提供一种电子设备,其包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现第一方面中的方法。
16.为了实现上述目的,本发明第四方面提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现第一方面中的方法。
17.本发明具有如下优点:通过检索信息查找当前关系图谱,可以对待检索的数据做初步筛查,确定要查找的数据的操作流程文件,通过该操作流程文件中所记载的流程信息,能够真实地反映数据采集、利用、延续和销毁的全过程,使得对第一数据资产的操作能够被完整的记录下来,进而获得该检索信息对应的数据节点信息;然后再对数据节点信息和操作流程文件进行分析处理,获得第一数据资产及其对应的图谱数据;依据第一数据资产对应的图谱数据和第一数据资产的属性信息生成并发送检索响应给数据资产管理方后,使得数据资产管理方能够依据第一数据资产对应的图谱数据对第一数据资产进行溯源,追踪到第一数据资产对应的初始数据,保护了数据的不可篡改性,降低了数据管理的复杂性。
附图说明
18.附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其它特征和优点对本领域技术人员将变得更加显而易见,在附图中:
19.图1为本技术实施例一中的一种数据检索方法流程图。
20.图2为本技术实施例二中的一种数据检索方法流程图。
21.图3为本技术实施例三中的一种数据检索装置方框图。
22.图4为本技术实施例四中的一种数据检索系统的组成方框图。
23.图5为本技术实施例四中的一种数据检索系统中的各个主要模块的逻辑结构图。
24.图6为本技术实施例四中的数据检索系统的工作方法流程图。
25.图7为本技术实施例五中的可以实现根据本技术实施例的数据检索方法和装置的电子设备的示例性硬件架构的结构图。
具体实施方式
26.以下结合附图对本技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本技术,并不用于限制本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
27.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
29.实施例一
30.本技术实施例提供了一种数据检索方法,该方法可应用于数据检索装置。图1是本实施例中的数据检索方法流程图,包括:
31.步骤110,响应于数据资产管理方发送的检索请求,获取检索信息。
32.需要说明的是,检索请求包括检索信息,该检索信息包括检索条目信息,该检索条目信息可以是数据的特征属性,例如,某数据库中存储的某个数据列表中的一个或几个字段信息,以及与该字段信息相关联的属性信息等。
33.在一些具体实现中,检索信息还包括检索类型,检索类型至少包括节点检索、边界检索和全文检索中的任一项。例如,仅检索某些节点的数据,或依据某些限定条件进行检索,或对要检索的信息进行全文检索等。
34.步骤120,依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件。
35.需要说明的是,其中的数据节点信息可以是检索信息对应的数据的存储位置信息。例如,检索信息对应的数据存储在数据库中的第一列表中或第二列表中;当数据存储在
多个服务器上时,该数据节点信息也可以是该检索信息对应的数据存储的服务器的名称或位置信息等。其中的操作流程文件是将对数据的操作信息及操作过程进行记录的文件,例如,将对数据进行增加操作、修改操作、删除操作、查找操作等操作信息及操作过程记录到该操作流程文件中。
36.在一些具体实现中,检索信息包括检索条目信息;依据检索条目信息查找当前关系图谱,获得压缩文件,其中,压缩文件是经过序列化处理的数据节点信息和操作流程文件;对压缩文件进行反序列化处理,获得数据节点信息和操作流程文件。
37.具体地,当前关系图谱中包含有各个数据资产之间的关系信息,依据检索条目信息查找当前关系图谱,能够获知该检索条目信息所对应的。为了保护数据的保密性,在存储这些数据节点信息和操作流程文件(例如,将操作流程文件存储在某个服务器的磁盘上)时,都需要对这些待存储的数据进行压缩处理,然后再对压缩文件进行序列化处理,以防止数据信息的泄露。只有具有一定权限的数据资产管理方,才能获取到解压缩之后的原始的数据节点信息和操作流程文件。
38.步骤130,对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据。
39.其中,第一数据资产包括第一数据资产的属性信息。例如,一数据资产的属性信息可以是第一数据资产的类型,也可以是该第一数据资产的生成时间等。以上对于第一数据资产的属性信息仅是举例说明,可根据具体实现进行具体设置,其他未说明的属性信息也在本技术的保护范围之内,在此不再赘述。
40.在一些具体实现中,对数据节点信息进行分析,获得第一数据资产和第一数据资产对应的关系信息,其中,第一数据资产对应的关系信息至少包括第一数据资产与其他数据资产之间的数据关联关系信息、数据血缘关系信息和数据派生关系信息中的任一种信息;对操作流程文件中的操作信息进行审计,若确定审计通过,则依据操作信息和第一数据资产对应的关系信息,构造数据追踪模型;依据数据追踪模型和第一数据资产,生成第一数据资产对应的图谱数据。
41.需要说明的是,数据追踪模型可以是关联关系追踪模型,也可以是数据血缘追踪模型,还可以是据派生关系追踪模型,具体可根据第一数据资产与其他数据资产之间的关系信息进行具体设定,以上仅是举例说明,其他未举例的数据追踪模型也在本技术的保护范围之内,在此不再赘述。
42.其中,数据关联关系信息是数据与数据之间的联系信息。例如,顾客与其需要购买的商品之间的关系,搜集顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯,通过了解哪些商品频繁地被顾客同时购买,即可获得顾客与商品之间的关联关系信息。
43.数据血缘关系信息是数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系;数据血缘关系信息具体可包括有以下特征:归属性,特定的数据归属特定的组织或者个人,例如,某职员与其所在公司之间的关系等;多源性,例如,同一个数据可以有多个来源,或,一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个;可追溯性,因数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性;层次性,对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
44.数据派生关系信息是指数据的源头产生出分支数据,即从一个主要数据的发展中分化出来的数据。例如,界面设计中,定义了一个窗口类,随着客户的需求不断变化,该窗口类可能分化派生出图形窗口类、数据列表窗口类等多种子类。
45.步骤140,依据第一数据资产对应的图谱数据和第一数据资产的属性信息,生成并发送检索响应给数据资产管理方。
46.需要说明的是,第一数据资产对应的图谱数据体现了第一数据资产与其他数据资产之间的关系,通过该图谱数据能够清晰快速的查看到该第一数据资产的来源、具体经过了哪些操作等,方便数据资产管理方对数据进行分析和利用。
47.在本实施例中,通过检索信息查找当前关系图谱,可以对待检索的数据做初步筛查,确定要查找的数据的操作流程文件,通过该操作流程文件中所记载的流程信息,能够真实地反映数据采集、利用、延续和销毁的全过程,使得对第一数据资产的操作能够被完整的记录下来,进而获得该检索信息对应的数据节点信息;然后再对数据节点信息和操作流程文件进行分析处理,获得第一数据资产及其对应的图谱数据;依据第一数据资产对应的图谱数据和第一数据资产的属性信息生成并发送检索响应给数据资产管理方后,使得数据资产管理方能够依据第一数据资产对应的图谱数据对第一数据资产进行溯源,追踪到第一数据资产对应的初始数据,保护了数据的不可篡改性,降低了数据管理的复杂性。
48.实施例二
49.本技术实施例提供了一种数据检索方法,该方法可应用于数据检索装置。本实施例与实施例一的区别在于:在获取到数据资产管理方发送的检索请求之前,还需要建立初始关系图谱,以及根据大数据集群用户导入的第三数据资产与初始关系图谱之间的关系,更新生成当前关系图谱,以方便数据资产管理方对数据资产的查询和检索。
50.图2是本实施例中的数据检索方法流程图,该数据检索方法具体可包括如下步骤。
51.步骤210,获取数据资产管理方发送的创建图谱消息。
52.需要说明的是,创建图谱消息包括自定义类型模板。该自定义类型模板包括数据类型模板和业务类型模板;其中,数据类型模板是数据资产管理方根据大数据集群用户存储的数据资产的属性信息进行创建、更新或删除的模板;业务类型模板是数据资产管理方根据大数据集群用户的业务需求信息进行创建、更新或删除的模板。
53.步骤220,从大数据集群用户导入的第二数据资产中,依据自定义类型模板,筛选获得初始数据资产。
54.具体地,当第二数据资产是与业务需求相关的数据时,数据检索装置会根据业务类型模板对该第二数据资产进行数据筛查,获得业务类型、业务特征、业务的执行方式或业务的产生时间等关联信息;当第二数据资产是与数据结构、属性信息等相关的数据时,数据检索装置会根据数据类型模板对该第二数据资产进行数据筛查,获得该第二数据资产的具体的属性信息以及数据结构信息等,例如,该第二数据资产是以字符串类型的结构存储的数据等等。根据以上筛选获得的信息,生成初始数据资产。
55.步骤230,依据初始数据资产,生成初始关系图谱。
56.需要说明的是,初始数据资产包含有数据之间的关系信息,依据该关系信息可生成初始关系图谱,该初始关系图谱表征了初始数据资产内的各个数据之间的关联关系。
57.步骤240,依据初始关系图谱和大数据集群用户导入的第三数据资产,生成当前关
系图谱。
58.需要说明的是,第三数据资产是大数据集群用户在对数据库中存储的各个数据表进行更新操作时,产生的数据资产。对该第三数据资产进行分析,若获知第三数据资产对应的关系信息中,有部分信息或全部信息与初始关系图谱有关,则会根据该第三数据资产对应的关系信息更新初始关系图谱,生成当前关系图谱。
59.在一些具体实现中,获取第三数据资产对应的关系信息;若确定第三数据资产对应的关系信息与初始关系图谱存在交集,则依据第三数据资产对应的关系信息更新初始关系图谱,获得当前关系图谱。
60.例如,第三数据资产对应的关系信息与初始关系图谱之间有重叠的关系,即第三数据资产与服务器a有关系,并且在初始关系图谱中也能查找到该服务器a,则确定第三数据资产对应的关系信息与初始关系图谱存在交集,可以根据该服务器a的位置信息、存储内容以及服务器a的名称等属性信息,更新初始关系图谱,获得当前关系图谱。
61.在一些具体实现中,在获取第三数据资产对应的关系信息步骤之后,还包括:对第三数据资产进行解析,获得第三数据资产中的敏感数据;依据敏感数据策略,对第三数据资产中的敏感数据进行拦截或限制访问。其中的敏感数据策略是通过解析创建图谱消息获得的。
62.例如,通过解析第三数据资产,获得了某客户的身份证信息,则该客户的身份证信息即为敏感数据。通过敏感数据策略,使得该客户的身份证信息不能被没有访问权限的第三方获知,保证了客户的隐私。
63.在一些具体实现中,敏感数据策略至少包括访问时间限制策略、访问用户限制策略和敏感信息标记策略中的任一种策略。
64.例如,某些敏感数据只能在特定的时间段内可以访问;某些敏感数据只能被特定的用户访问到;当敏感数据中包含有特定的标记信息时,只有能够对该标记信息进行解析的访问者,才可以访问到该敏感数据,极大限度的保证了敏感数据的安全。
65.步骤250,响应于数据资产管理方发送的检索请求,获取检索信息。
66.步骤260,依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件。
67.步骤270,对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据。
68.步骤280,依据第一数据资产对应的图谱数据和第一数据资产的属性信息,生成并发送检索响应给数据资产管理方。
69.需要说明的是,其中的步骤250~步骤280与实施例一中的步骤110~步骤140相同,在此不再赘述。
70.通过获取到的数据资产管理方设定的自定义类型模板,对大数据集群用户导入的第二数据资产进行筛选,建立初始关系图谱;然后当大数据集群用户导入的第三数据资产与初始关系图谱之间存储关联关系时,更新生成当前关系图谱,使得数据资产管理方在进行检索时,能够快速的查找到所需要的数据资产,依据检索到的数据资产所对应的关系信息,方便了数据资产管理方对数据资产的查询和检索;使得数据资产管理方能够依据检索获得的第一数据资产对应的图谱数据对第一数据资产进行溯源,追踪到第一数据资产对应
的初始数据,保护了数据的不可篡改性,降低了数据管理的复杂性。
71.实施例三
72.图3为本技术实施例提供的一种数据检索装置的结构示意图,该装置的具体实施可参见实施例一或实施例二的相关描述,重复之处不再赘述。值得说明的是,本实施方式中的装置的具体实施不局限于以上实施例,其他未说明的实施例也在本装置的保护范围之内。
73.如图3所示,该数据检索装置具体包括:获取模块301用于响应于数据资产管理方发送的检索请求,获取检索信息;查询模块302用于依据检索信息查找当前关系图谱,获得检索信息对应的数据节点信息和操作流程文件;分析模块303用于对数据节点信息和操作流程文件进行分析处理,获得第一数据资产和第一数据资产对应的图谱数据,第一数据资产包括第一数据资产的属性信息;生成模块304用于依据第一数据资产对应的图谱数据和第一数据资产的属性信息,生成并发送检索响应给数据资产管理方。
74.在本实施方式中,通过查询模块依据检索信息查找当前关系图谱,可以对待检索的数据做初步筛查,确定要查找的数据的操作流程文件,通过该操作流程文件中所记载的流程信息,能够真实地反映数据采集、利用、延续和销毁的全过程,使得对第一数据资产的操作能够被完整的记录下来,进而获得该检索信息对应的数据节点信息;然后使用分析模块对数据节点信息和操作流程文件进行分析处理,获得第一数据资产及其对应的图谱数据;使用生成模块依据第一数据资产对应的图谱数据和第一数据资产的属性信息生成并发送检索响应给数据资产管理方后,使得数据资产管理方能够依据第一数据资产对应的图谱数据对第一数据资产进行溯源,追踪到第一数据资产对应的初始数据,保护了数据的不可篡改性,降低了数据管理的复杂性。
75.不难发现,本实施方式为与实施例一或实施例二相对应的装置实施例,本实施方式可与实施例一或实施例二互相配合实施。实施例一或实施例二中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在实施例一或实施例二中。
76.值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本技术的创新部分,本实施方式中并没有将与解决本技术所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
77.实施例四
78.本技术实施例提供了一种数据检索系统,如图4是该数据检索系统的组成方框图。该系统具体包括数据资产管理方410、数据检索装置420和大数据集群用户430;其中,数据检索装置420的功能可以使用多个服务器联合实现,例如,数据检索装置420包括:数据发现与跟踪管理平台421、关系图谱分析服务器422、数据存储服务器423、索引分析服务器424、敏感数据策略引擎425、秘钥管理服务器426、消息队列服务器427和数据发现与跟踪代理装置428。
79.具体实现时,该数据检索系统可以是海杜普(hadoop)生态系统中用于存储、通信、计算、分析等功能的大数据组件的集合。其中,以hadoop分布式文件系统和资源管理器为基
础,包含了非结构化存储数据库、结构化数据查询工具、数据批量计算引擎和数据协调管理器等组件。
80.其中,数据资产管理方410是对大数据平台组件中的数据实施策略管理和有效决策的管理者。其主要功能是根据业务需求设置数据类型,对敏感数据配置敏感数据策略,以限制敏感数据的被访问时间和访问人员等。并且,数据资产管理方410还需要监管数据资产,对数据结构、属性、关系、审计等关键信息进行定期的检查和处理,以保证数据资产的可靠性和完整性。
81.大数据集群用户430是大数据环境中大数据平台各类组件的使用者,也是数据发现与跟踪事件的触发者,当大数据集群用户430在平台上对数据库表进行增加、删除、修改、查找等操作时,就会触发数据资产的更新。大数据集群用户430在数据检索装置420中对数据资产进行数据操作和运算时,首先由植入到每个大数据组件上的数据发现与跟踪代理装置428对该数据资产、该数据资产对应的操作信息和该数据资产的更新信息进行记录和传送;数据发现与跟踪代理装置428将所记录的数据资产及其操作信息通过消息队列服务器427进行接收和发送,并由密钥管理服务器426进行数据完整性校验。其次,由关系图谱分析服务器422对数据资产及其操作信息进行关系图谱分析,生成该数据资产对应的图谱数据,然后由索引分析服务器424进行分词索引分析,依据索引将该数据资产及其对应的图谱数据存储在数据存储服务器423中。
82.数据资产管理方410根据自定义类型模板429,从大数据集群用户430导入的第二数据资产中筛选获得初始数据资产,然后依据该初始数据资产生成初始关系图谱,并将该初始关系图谱输出给关系图谱分析服务器422,以方便关系图谱分析服务器422对后面输入的数据资产进行图谱分析。其中,自定义类型模板429规定了数据资产的名称、结构和属性等关键信息。当数据资产管理方410发出对数据资产及其图谱数据的检索请求时,由数据发现与跟踪管理平台421从数据存储服务器423中获得检索到的数据资产及其图谱数据,并展示给数据资产管理方410。
83.具体地,图5是数据检索系统中的各个主要模块的逻辑结构图。
84.其中,数据发现与跟踪代理装置428用于根据大数据组件的配置项解析文件名等元数据信息,同时对敏感数据信息进行比对和标记,以便之后将接收到的数据资产导入到消息队列服务器427中。针对大数据平台上的不同组件,该数据发现与跟踪代理装置对应的处理机制也有所不同。数据发现与跟踪代理装置428主要包括:数据导入模块4282用于读取组件配置文件中具体的配置项(例如,元数据存储位置等信息),并将这些配置项保存至缓存文件中;数据解析模块4281用于对数据导入模块4282导入的缓存文件进行解析,获得解析后的信息(例如,文件名称、数据库名称、表名称、用户名、时间、存储位置、请求语句等信息),并将这些信息分类存储到消息队列服务器427中。
85.消息队列服务器427主要包括:事件封装模块4272用于根据数据发现与跟踪代理装置428中数据解析模块4281的分类情况,对数据资产进行封装。其中,由大数据集群用户430触发的数据更新事件封装到代理主题下;由数据资产管理方410触发的敏感数据策略更新事件封装到类型主题之下;敏感数据发现拦截模块4273用于根据敏感数据策略,在封装前对解析后的数据资产中的敏感数据进行拦截(例如,对敏感数据进行标记或限制访问等);事件发送模块4271用于根据对不同主题的需求情况,将封装好的事件发送到数据发现
与跟踪管理平台421中的各个模块中。
86.密钥管理服务器426用于存储各个服务器的密钥信息,验证查询者的身份,根据检索请求者的公钥对解密密钥进行加密。密钥管理服务器426主要包括:数据完整性校验模块4261用于比对加解密前后的数据信息,获得对比结果,并根据该对比结果对数据完整性进行校验。
87.关系图谱分析服务器422用于对消息队列服务器427发送的主题事件进行关系图谱分析。关系图谱分析服务器422具体包括:第一通信模块4223用于响应各个服务器的访问请求;图引擎模块4221用于将数据资产对应的数据更新事件以图形数据结构的形式加以保存;关系分析模块4222用于记录数据资产的更新过程和相关操作信息,例如,用户名和数据更新所使用的访问语句等,并将关联数据节点的流程以图数据结构中的指针形式进行存储。
88.数据存储服务器423用于以非结构化的形式存储数据,负责将接受到的数据进行压缩和序列化,再将序列化后的数据存储到指定的文件系统目录中;负责响应关系图谱分析服务器422和索引分析服务器424所需提取的文件。数据存储服务器423主要包括:数据缓存模块4231用于缓存未压缩的数据文件;数据压缩模块4232用于定期将缓存中的数据进行压缩处理,释放有效空间,清除缓存;序列化模块4233用于将压缩后的数据文件序列化,并将序列化后的数据资产存入分布式文件系统中的特定目录中。当需要响应其他服务器(例如,关系图谱分析服务器422和索引分析服务器424)的文件提取请求时,再对分布式文件系统中的特定目录中的数据进行反序列化,发送原始的数据资产给关系图谱分析服务器422或索引分析服务器424。
89.索引分析服务器424用于接收来自数据资产管理方410的检索请求,依据检索请求中包括的检索信息查找数据存储服务器423,获得需要的数据资产及其图谱数据。具体地,其中的检索信息包括检索类型(例如,节点检索、边界检索或全文检索等)。该索引分析服务器424主要包括:搜索模块4241根据检索类型对数据资产进行检索;将检索成功的数据资产存储至存储模块4242中;存储模块4242用于存储检索模块输入的检索成功的数据资产;第二通信模块4243用于响应各个服务器的访问请求。
90.自定义类型模板429主要包括:数据类型模块4291用于数据资产管理方410根据大数据集群用户430存储的数据资产的属性信息和数据结构创建数据类型模板,也可由数据资产管理方410更新或删除该数据类型模板;业务类型模块4292用于数据资产管理方410根据大数据集群用户430的不同的业务需求信息创建业务类型模板,也可由数据资产管理方410更新或删除该业务类型模板。
91.敏感数据策略引擎425用于接收来自数据资产管理方410对敏感数据的敏感数据策略,并下发到数据发现与跟踪代理装置428中。以方便对消息队列服务器427输出的数据资产中所包括的敏感数据进行检测。敏感数据策略引擎425具备多种属性定义(例如,访问时间限制,关键字标记等)。敏感数据策略引擎425主要包括:敏感数据接收模块4251用于负责接收敏感数据策略;敏感数据标记模块4252用于负责将敏感数据策略与其他数据类型进行关联。
92.数据发现与跟踪管理平台421是对大数据平台组件的数据和相关业务进行统一管理的用户界面。数据发现与跟踪管理平台421主要包括:数据发现展示模块4212用于根据数
据资产管理方410的请求向关系图谱分析服务器422调取大数据组件的数据相关信息(例如,数据名称、创建时间、数据拥有者、数据大小、存储位置等),并以表格的形式展示在用户界面上;数据跟踪展示模块4211用于根据数据资产管理方410的请求向关系图谱分析服务器422调取数据关系图谱(例如,数据血缘关系信息、数据关联关系信息、数据派生关系信息等),并以图形的形式直观地展示在用户界面上;审计信息展示模块4213用于根据数据资产管理方410的请求向索引分析服务器424调取大数据组件的数据审计信息(例如,操作用户、操作时间、操作概要和操作详情等),并以表格的形式展示在用户界面上;敏感数据设置模块4214用于根据大数据集群用户430的业务需求,由数据资产管理方410制定敏感数据策略,依据该敏感数据策略对敏感数据的操作进行设置(例如,访问时间限制、访问用户限制、敏感信息标记等);词条检索模块4215用于根据数据资产管理方410的请求向索引分析服务器424调取数据检索信息(例如,可通过关键字检索、类别检索、全文检索、属性过滤等操作调取数据检索信息),并以表格的形式将数据检索信息显示在用户界面上。
93.图6是该数据检索系统的工作方法流程图,具体包括如下步骤。
94.步骤601,数据资产管理方410发送创建图谱消息给数据检索装置420。
95.其中,创建图谱消息包括自定义类型模板,该自定义类型模板可以是数据类型模板,也可以是业务类型模板。数据类型模板是数据资产管理方410根据大数据集群用户430存储的数据资产的属性信息进行创建、更新或删除的模板;业务类型模板是数据资产管理方410根据大数据集群用户430的业务需求信息进行创建、更新或删除的模板。
96.需要说明的是,数据资产管理方410是通过数据发现与跟踪管理平台421快速的生成创建图谱消息的,然后通过数据发现与跟踪管理平台421将该创建图谱消息发送给数据检索装置420。具体实现时,该数据发现与跟踪管理平台421可以包含在数据检索装置420内部,也可以独立实现,可根据具体需求进行具体设置。
97.步骤602,数据检索装置420中的消息队列服务器427接收到数据资产管理方410发送的创建图谱消息,获取其中的自定义类型模板,并从大数据集群用户430导入的第二数据资产中,依据自定义类型模板,筛选获得初始数据资产,依据该初始数据资产,生成初始关系图谱。
98.具体的,可根据初始数据资产的类型主题的不同,将该初始关系图谱缓存在对应的类型主题下。
99.步骤603,消息队列服务器427将缓存的初始关系图谱进行封装,获得对应的关系图谱文件,并发送该关系图谱文件给数据存储服务器423进行存储。
100.步骤604,大数据集群用户430对结构型数据库中的表进行更新操作,获得第三数据资产,并将该第三数据资产导入到数据检索装置420中。
101.步骤605,当数据检索装置420中的数据发现与跟踪代理装置428获取到第三数据资产时,会对第三数据资产进行解析,获得并发送该第三数据资产对应的关系信息给关系图谱分析服务器422。
102.步骤606,关系图谱分析服务器422接收到第三数据资产对应的关系信息,若确定第三数据资产对应的关系信息与数据存服务器423中存储的初始关系图谱存在交集,则依据第三数据资产对应的关系信息更新初始关系图谱,获得当前关系图谱。
103.步骤607,关系图谱分析服务器422发送当前关系图谱给消息队列服务器427。
104.步骤608,消息队列服务器427将接收到的当前关系图谱进行封装,获得并发送封装后的图谱数据文件到数据存储服务器423中。
105.需要说明的是,数据存储服务器423根据系统设置,会定期将缓存中的文件进行压缩并序列化,将压缩后的文件存储到数据存储服务器423的磁盘中。
106.步骤609,数据资产管理方410通过数据发现与跟踪管理平台421,下发检索请求给数据检索装置420。
107.其中,检索请求包括检索信息,该检索信息包括检索条目信息和检索类型,具体地,检索类型可以是节点检索、边界检索和全文检索中的任一项。
108.例如,数据资产管理方410希望依据某公司的职员姓名列表,以及这些职员姓名与其他属性信息之间的数据关联关系信息(例如,某职员的入职时间、职位、以及工资级别等信息),生成检索条目信息,进而检索到其他相关联的信息,例如数据血缘关系信息(例如,职员与公司之间的关系)、数据派生关系信息(例如,某职员与其历史工作经历相关的信息)等等。具体地,其中的数据血缘关系信息是数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系;数据派生关系信息是指数据的源头产生出分支数据,即从一个主要数据的发展中分化出来的数据。
109.数据血缘关系信息具体可包括有以下特征:归属性,例如,特定的数据归属特定的组织或者个人;多源性,例如,同一个数据可以有多个来源,或,一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个;可追溯性,因数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性;层次性,对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
110.步骤610,数据检索装置420中的消息队列服务器427在接收到检索请求后,会对该检索请求进行解析,获得其中的检索条目信息以及检索类型,然后将检索条目信息和检索类型发送给索引分析服务器424。
111.步骤611,索引分析服务器424接收到检索条目信息和检索类型后,会进行索引分析,生成便于检索的索引值。
112.例如,依据检索条目信息,构建索引主键值,该索引主键值用于在数据存储服务器上进行检索。
113.步骤612,索引分析服务器424发送其生成的索引主键值给数据存储服务器423。
114.步骤613,数据存储服务器423在接收到索引分析服务器424发送的索引主键值后,会先发送提取请求给关系图谱分析服务器422,以获取关系图谱分析服务器422中的当前关系图谱。
115.步骤614,关系图谱分析服务器422接收到提取请求后,反馈当前关系图谱给数据存储服务器423。
116.步骤615,数据存储服务器423接收到当前关系图谱后,依据该当前关系图谱和索引分析服务器424发送的索引主键值,对存储在磁盘中的数据进行检索,获得第一数据资产及其对应的图谱数据,并依据第一数据资产及其对应的图谱数据,生成并发送检索响应给数据资产管理方410。
117.需要说明的是,数据存储服务器423上存储的数据资产都是以压缩文件的形式存
储的,并且该压缩文件是经过序列化处理的。当数据存储服务器423检索到对应的压缩文件后,需要先对压缩文件进行反序列化处理,然后再进行解压缩,才能获取到最终的第一数据资产及其对应的图谱数据。
118.最终检索到的第一数据资产及其对应的图谱数据,还需要经过敏感数据策略引擎425的审核,在确定通过审核时,即第一数据资产及其对应的图谱数据中没有包含敏感信息,才能依据审核通过的第一数据资产及其对应的图谱数据,生成并发送检索响应给数据发现与跟踪管理平台421,以数据图形的形式展现给数据资产管理方410,以方便数据资产管理方410能够清晰快速的获取到检索结果。
119.在本实施例中,通过检索信息查找当前关系图谱,可以对待检索的数据做初步筛查,确定要查找的数据的操作流程文件,通过该操作流程文件中所记载的流程信息,能够真实地反映数据采集、利用、延续和销毁的全过程,使得对第一数据资产的操作能够被完整的记录下来,进而获得该检索信息对应的数据节点信息;然后再对数据节点信息和操作流程文件进行分析处理,获得第一数据资产及其对应的图谱数据;依据第一数据资产对应的图谱数据和第一数据资产的属性信息生成并发送检索响应给数据资产管理方后,使得数据资产管理方能够依据第一数据资产对应的图谱数据对第一数据资产进行溯源,追踪到第一数据资产对应的初始数据,保护了数据的不可篡改性,降低了数据管理的复杂性。数据资产管理方可通过数据发现与跟踪管理平台规定数据结构的自定义模板,制定并下发敏感数据策略给数据检索装置,从而更切合实际地对特定数据进行有效治理和利用。
120.实施例五
121.本技术实施例提供了一种电子设备。图7为可以实现根据本技术实施例的数据检索方法和装置的电子设备的示例性硬件架构的结构图。
122.如图7所示,电子设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中,输入接口702、中央处理器703、存储器704、以及输出接口705通过总线707相互连接,输入设备701和输出设备706分别通过输入接口702和输出接口705与总线707连接,进而与电子设备700的其他组件连接。
123.具体地,输入设备701接收来自外部(例如,大数据集群用户)的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备706;输出设备706将输出信息输出到计算设备700的外部供用户使用。
124.在一个实施例中,图7所示的电子设备700可以被实现为一种网络设备,该网络设备可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的任意一种数据检索方法。
125.根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或从可拆卸存储介质被安装。
126.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,
在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其它存储器技术、cd-rom、数字多功能盘(dvd)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
127.可以理解的是,以上实施方式仅仅是为了说明本技术的原理而采用的示例性实施方式,然而本技术并不局限于此。对于本领域内的普通技术人员而言,在不脱离本技术的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1