本技术涉及金融科技,应用于金融大数据治理场景中,尤其涉及一种数据治理方法、装置、设备及其存储介质。
背景技术:
1、随着金融行业的快速发展,金融公司涉及到的业务范围越来越宽泛,随着大数据的发展,越来越多的金融公司建立了自己独有的大数据处理平台,集合了数仓、数据湖、业务库等源数据库。
2、在目前金融公司内,随着时间的流逝,数据标签、模型特征的数据规模越来越庞大,占用的存储资源越来越大,数据规模的增长提升了数据治理的难度,大数据平台的数据治理和传统数据库的数据治理在数据清理、数据归档、数据压缩、任务优化等方面有很大的区别。如果仍然采用传统数据库的治理方式,由于金融业务大数据平台涉及的数据较为冗杂,无法有效减小数据存储压力,且无法保证数据的可用性和金融业务系统的稳定性。
技术实现思路
1、本技术实施例的目的在于提出一种数据治理方法、装置、设备及其存储介质,以解决现有技术在进行大数据治理时,无法有效减小数据存储压力,且无法保证数据的可用性和金融业务系统的稳定性的问题。
2、为了解决上述技术问题,本技术实施例提供数据治理方法,采用了如下所述的技术方案:
3、一种数据治理方法,包括下述步骤:
4、识别预设的数据统一访问入口地址,并在所述访问入口地址处进行埋点;
5、基于所述埋点,获得预设采集周期内被访问数据的访问记录;
6、根据预设的元数据信息表,获得目标大数据平台内所有数据的表征信息;
7、基于所述访问记录和所述表征信息,进行综合分析,获得综合分析结果;
8、通过所述综合分析结果,确定所述被访问数据的访问类别;
9、根据所述表征信息、所述访问类别和预设的治理机制,对所述目标大数据平台内所有数据进行治理。
10、进一步的,所述预设采集周期包括采集起始时间和采集结束时间,所述基于所述埋点,获得预设采集周期内被访问数据的访问记录的步骤,具体包括:
11、识别系统当前时间,作为第一时间;
12、若所述第一时间达到所述采集起始时间,则触发启动所述埋点;
13、根据所述埋点,获得所述被访问数据的访问用户标识、访问用户类型、访问开始时间、访问持续时间以及访问路径,并根据所述访问开始时间生成所述访问记录;
14、识别系统当前时间,作为第二时间;
15、若所述第二时间达到所述采集结束时间,则触发关闭所述埋点,并获取所述访问记录作为预设采集周期内被访问数据的访问记录。
16、进一步的,所述元数据信息表中记录了所述目标大数据平台内所有数据的存储文件库、存储文件名、存储文件类型、数据存储路径、有效时限、入库时间以及访问权限,所述表征信息包括存储表征信息、时效表征信息和安全表征信息,所述根据预设的元数据信息表,获得目标大数据平台内所有数据的表征信息的步骤,具体包括:
17、通过所述元数据信息表,识别所述目标大数据平台内所有数据的存储文件库、存储文件名、存储文件类型、数据存储路径、有效时限、入库时间以及访问权限;
18、获得所述存储文件库、存储文件名、存储文件类型、数据存储路径作为所述存储表征信息;
19、获得所述有效时限以及入库时间作为所述时效表征信息;
20、获得所述访问权限作为所述安全表征信息;
21、在执行所述获得所述有效时限以及入库时间作为所述时效表征信息的步骤之后,所述方法还包括:
22、识别系统当前时间,作为第三时间;
23、根据所述第三时间和所述时效表征信息,识别出已过有效时效的数据,作为目标数据;
24、根据所述目标数据的存储表征信息以及预设的数据暂存文件,将所述目标数据转移到所述数据暂存文件,
25、或者,根据所述目标数据的存储表征信息更新所述目标数据的时效表征信息。
26、进一步的,所述基于所述访问记录和所述表征信息,进行综合分析,获得综合分析结果的步骤,具体包括:
27、根据所述访问记录和所述表征信息,分析出所述被访问数据的存储表征信息、时效表征信息、安全表征信息、以及被访问次数;
28、基于所述访问用户标识、访问用户类型以及所述安全表征信息,识别所述访问用户是否具有访问权限;
29、基于所述访问开始时间、访问持续时间以及所述时效表征信息,识别所述被访问数据是否已过访问有效时限;
30、基于所述存储表征信息,识别所述访问路径是否为有效路径;
31、基于所述被访问次数和预设的次数阈值,识别所述被访问数据是否为高频访问数据;
32、基于预设的隐私字段表,识别所述被访问数据是否为隐私数据;
33、所述访问类别包括有效类别和无效类别,所述通过所述综合分析结果,确定所述被访问数据的访问类别的步骤,具体包括:
34、若所述访问用户具有访问权限、所述被访问数据未过访问有效时限,且所述访问路径为有效路径,则所述访问类别为有效类别,否则,所述访问类别为无效类别。
35、进一步的,所述根据所述表征信息、所述访问类别和预设的治理机制,对所述目标大数据平台内所有数据进行治理的步骤,具体包括:
36、识别所述被访问数据的访问类别是否为无效类别;
37、若所述访问类别为无效类别,则获得无效原因,其中,所述无效原因包括所述访问用户不具有访问权限、所述被访问数据已过访问有效时限、所述访问路径为无效路径;
38、若所述无效原因为所述访问用户不具有访问权限,则识别所述被访问数据的存储表征信息,发送所述存储表征信息至目标维护端;
39、若所述无效原因为所述被访问数据已过访问有效时限,则将所述被访问数据作为目标数据,根据所述目标数据的存储表征信息以及预设的数据暂存文件,将所述目标数据转移到所述数据暂存文件,
40、或者,根据所述目标数据的存储表征信息更新所述目标数据的时效表征信息;
41、若所述无效原因为所述访问路径为无效路径,则根据所述被访问数据的存储表征信息,获得所述被访问数据,存储所述被访问数据至所述访问路径下,
42、或者,根据所述被访问数据的存储表征信息调整所述访问路径。
43、进一步的,所述根据所述目标数据的存储表征信息以及预设的数据暂存文件,将所述目标数据转移到所述数据暂存文件的步骤,具体包括:
44、获取所述数据暂存文件的地址信息;
45、根据所述目标数据的存储表征信息和所述数据暂存文件的地址信息,创建数据转移路径;
46、根据所述数据转移路径,将所述目标数据转移到所述数据暂存文件,并获取系统当前时间,作为第四时间;
47、在执行所述根据所述目标数据的存储表征信息以及预设的数据暂存文件,将所述目标数据转移到所述数据暂存文件的步骤之后,所述方法还包括:
48、识别系统当前时间,作为第五时间;
49、根据所述第五时间和所述第四时间,识别所述目标数据是否达到预设的清理时限;
50、若所述目标数据达到预设的清理时限,则删除所述目标数据;
51、若所述目标数据未达到预设的清理时限,则继续缓存所述目标数据。
52、进一步的,所述元数据信息表中还记录了存储数据的文件内数据量,在执行所述根据所述表征信息、所述访问类别和预设的治理机制,对所述目标大数据平台内所有数据进行治理的步骤之后,所述方法还包括:
53、若所述被访问数据为高频访问数据,则识别所述被访问数据的存储表征信息,根据所述存储表征信息对所述被访问数据进行标记处理;
54、若所述被访问数据为隐私数据,则对所述被访问数据进行加密处理,识别所述被访问数据的存储表征信息,并根据所述存储表征信息创建所述被访问数据的溯源路径;
55、根据所述元数据信息表,识别出所有数据存储文件,以及每个文件内数据量;
56、判断目标文件内数据量是否超过预设的数据量阈值;
57、若所述目标文件内数据量超过预设的数据量阈值,则根据预设的分区策略,对所述目标文件内数据进行分区处理。
58、为了解决上述技术问题,本技术实施例还提供数据治理装置,采用了如下所述的技术方案:
59、一种数据治理装置,包括:
60、埋点设定模块,用于识别预设的数据统一访问入口地址,并在所述访问入口地址处进行埋点;
61、访问记录获得模块,用于基于所述埋点,获得预设采集周期内被访问数据的访问记录;
62、表征信息获得模块,用于根据预设的元数据信息表,获得目标大数据平台内所有数据的表征信息;
63、综合分析模块,用于基于所述访问记录和所述表征信息,进行综合分析,获得综合分析结果;
64、访问类别确定模块,用于通过所述综合分析结果,确定所述被访问数据的访问类别;
65、数据治理模块,用于根据所述表征信息、所述访问类别和预设的治理机制,对所述目标大数据平台内所有数据进行治理。
66、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
67、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的数据治理方法的步骤。
68、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
69、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的数据治理方法的步骤。
70、与现有技术相比,本技术实施例主要有以下有益效果:
71、本技术实施例所述数据治理方法,通过识别预设的数据统一访问入口地址,并在所述访问入口地址处进行埋点;基于埋点,获得预设采集周期内被访问数据的访问记录;根据预设的元数据信息表,获得目标大数据平台内所有数据的表征信息;基于访问记录和表征信息,进行综合分析,获得综合分析结果;通过综合分析结果,确定被访问数据的访问类别;根据表征信息、访问类别和预设的治理机制,对目标大数据平台内所有数据进行治理。本技术对被访问数据进行治理,保证了被访问数据的可用性;对目标大数据平台内所有数据进行治理,保证了对于准备移除或者不准备再使用的数据,通过转移,减小了数据存储库的存储压力;通过识别高频访问数据,对其进行标记处理,便于快速识别出金融业务中的高频访问数据;对隐私数据创建溯源路径,便于在金融业务大数据架构下,快速进行隐私数据溯源;根据目标文件内数据量对目标文件内数据进行分区处理,避免了单个文件内数据量过大,通过定期处理,减小了金融业务大数据架构下的数据存储压力,保证了金融业务系统稳定性。