本技术涉及数据管理,尤其涉及一种基于数据价值的数据生命周期管理方法、系统、终端及计算机可读存储介质。
背景技术:
1、由于企业的数字化转型、各种新兴技术的发展以及业务需求的增长等多方面原因,公司的数据规模急剧增加,数据成本同样随之增加,成本管理变得尤为重要。数据生命周期管理对成本管控具有重要意义,能从存储资源、运维、合规性、业务效率以及能源消耗等多个维度帮助企业降低成本,提高资源利用率,实现可持续发展。
2、因此,现有技术还有待于改进和发展。
技术实现思路
1、本技术的主要目的在于提供一种基于数据价值的数据生命周期管理方法、系统及终端,旨在解决现有技术中仅依据数据活跃度来对数据表进行数据生命周期管理时,未考虑数据多维度属性以及数据活跃度可能由于波动导致数据管理的精确性较低的问题。
2、本技术第一方面实施例提供一种基于数据价值的数据生命周期管理方法,包括以下步骤:获取训练集,根据所述训练集对数据生命周期预测模型进行训练,得到训练好的所述数据生命周期预测模型;获取管理数据的特征向量,将所述特征向量输入至训练好的所述数据生命周期预测模型,得到生命周期预测值;当所述生命周期预测值审批生效时,若所述管理数据的实际存储时间超过所述生命周期预测值,则根据所述管理数据的重要性等级对所述管理数据进行清除审批,得到审批结果;当所述审批结果为审批删除时,对所述管理数据进行删除,得到操作管理信息。
3、根据上述技术手段,本技术实施例通过将管理数据的特征向量输入已训练好的数据生命周期预测模型中得到考虑到数据活跃度可能波动的更为准确的生命周期预测值,在数据实际存储时间超过生命周期预测值时,通过考虑数据的重要性等级(重要性、敏感性等关键属性),来判断是否将该不活跃的管理数据进行保留或删除,以避免重要数据被误删的风险,保证数据的安全性,提高了数据管理的精确性。
4、可选地,在本技术的一个实施例中,所述根据所述训练集对数据生命周期预测模型进行训练,得到训练好的所述数据生命周期预测模型,具体包括:获取所述训练集中数据样本的预设特征信息,其中,所述预设特征信息包括业务相关性、数据质量、访问情况、合规性与安全性以及经济价值中的任意一种;对所述预设特征信息进行特征提取,得到训练特征向量;获取所述训练集中数据样本设置的生命周期标签值;根据所述训练特征向量和所述生命周期标签对所述数据生命周期预测模型进行训练,得到训练好的所述数据生命周期预测模型。
5、根据上述技术手段,本技术实施例通过选择合适的数据样本作为训练集,这些样本应具有验证过的合理性和明确的生命周期,以确保训练数据的质量和相关性,从而提高模型的准确性和可靠性,通过提供了高质量的训练数据,为生成精确的预测模型打下基础;通过提取影响数据生命周期的关键特征,如业务相关性、数据质量等,涵盖数据多维度的属性,以便于全面评估数据的价值和重要程度,从而增强模型的预测能力,使生命周期的推荐更为准确和有根据;将获取的特征信息转换为可用于机器学习的数值形式,标准化数据格式,便于算法处理和分析,确保了数据一致性,提高了处理效率;使用回归类机器学习算法,基于特征向量和标签值训练模型,建立能够准确预测数据生命周期的模型,实现了自动化和科学化的数据生命周期预测,减少了人为判断的不确定性。
6、可选地,在本技术的一个实施例中,所述根据所述管理数据的重要性等级对所述管理数据进行清除审批,得到审批结果,具体包括:获取所述管理数据的重要性等级,其中,所述重要性等级为高价值级别或普通价值级别;若所述重要性等级为高价值级别,则采用人工审核方式对所述管理数据进行清除审批,得到审批结果;若所述重要性等级为普通价值级别,则所述审批结果为审批删除。
7、根据上述技术手段,本技术实施例通过经过管理员审批数据生命周期预测值后生效,加入人工监督,确保预测结果的准确性和数据的安全管理,增强了数据管理的安全性和可控性,防止误操作导致的数据丢失;根据数据的等级,实行不同的删除策略,对高风险或高价值的数据增加一层安全网,避免误删,既保证了数据的经济效益,又维护了企业的数据安全。
8、可选地,在本技术的一个实施例中,所述根据所述管理数据的重要性等级对所述管理数据进行清除审批,得到审批结果,之后还包括:若所述审批结果为数据保留,则阻止对所述管理数据的删除操作,以避免所述管理数据的误删。
9、根据上述技术手段,本技术实施例通过多维度属性考量,不仅考虑数据的活跃度,还结合数据的重要性、敏感性等关键属性,为不同类型的数据提供更合适的生命周期管理策略;通过精确的数据生命周期管理,企业可以降低存储不必要数据的成本,同时确保重要数据的安全和可访问性。
10、可选地,在本技术的一个实施例中,所述操作管理信息包括操作时间、操作理由和操作人员;所述当所述审批结果为审批删除时,对所述管理数据进行删除,得到操作管理信息,具体包括:对所述审批删除对应的所述管理数据进行标记,得到标记的管理数据;将标记的所述管理数据进行删除操作,记录所述删除操作对应的操作时间、操作理由和操作人员。
11、根据上述技术手段,本技术实施例通过在数据生命周期推荐模块提出删除建议后,数据管理员会进行审核,确保所有删除操作都是经过严格审查的,防止误删或未适时更新的数据被删除,提高了操作的安全性,保护了关键数据资产;经管理员确认后,符合删除条件的数据会被标记并从系统中删除,清除不再需要或已过期的数据,优化存储资源使用,降低成本,实现了数据的高效存储管理,节约了存储空间和相关成本;删除过程中,会自动记录每项删除操作的详细信息,如操作时间、操作者、删除理由等,为了审计跟踪和满足合规要求,确保数据操作的透明性和可追溯性,增强了企业的数据治理能力,满足了法规和内部政策的要求。
12、可选地,在本技术的一个实施例中,所述当所述审批结果为审批删除时,对所述管理数据进行删除,得到操作管理信息,之后还包括:将所述管理数据存入回收站中,获取所述管理数据在所述回收站中的当前保留时间;当所述当前保留时间在预设时间范围内时,响应所述管理数据的数据恢复操作,将在所述回收站中的所述管理数据进行数据恢复;当所述当前保留时间超过预设时间范围时,将所述管理数据彻底删除。
13、根据上述技术手段,本技术实施例通过将删除的数据首先移至回收站,并不立即彻底删除,提供一段时间的缓冲期,供用户恢复因误操作或其他原因错误删除的数据,增加了数据操作的安全性,减少了因误删造成的数据丢失风险;如果在回收站中的数据超过设定的保留期限(如7天),则这些数据将被自动永久删除,确保不再需要的数据最终被清除,以释放存储空间,完成了数据生命周期的末端管理,确保资源的最大化利用和数据安全。
14、可选地,在本技术的一个实施例中,所述特征向量包括数据完整率、数据有效率和数据及时率。
15、根据上述技术手段,本技术实施例通过基于数据质量的特征向量,建立能够准确预测数据生命周期的模型,实现了自动化和科学化的数据生命周期预测,减少了人为判断的不确定性。
16、本技术第二方面实施例提供一种基于数据价值的数据生命周期管理系统,其中,所述基于数据价值的数据生命周期管理系统包括:模型训练模块,用于获取训练集,根据所述训练集对数据生命周期预测模型进行训练,得到训练好的所述数据生命周期预测模型;周期预测模块,用于获取管理数据的特征向量,将所述特征向量输入至训练好的所述数据生命周期预测模型,得到生命周期预测值;审批模块,用于当所述生命周期预测值审批生效时,若所述管理数据的实际存储时间超过所述生命周期预测值,则根据所述管理数据的重要性等级对所述管理数据进行清除审批,得到审批结果;数据管理模块,用于当所述审批结果为审批删除时,对所述管理数据进行删除,得到操作管理信息。
17、可选地,在本技术的一个实施例中,模型训练模块包括特征获取单元、特征提取单元、标签获取单元和模型训练单元;其中,特征获取单元,用于获取所述训练集中数据样本的预设特征信息,其中,所述预设特征信息包括业务相关性、数据质量、访问情况、合规性与安全性以及经济价值中的任意一种;特征提取单元,用于对所述预设特征信息进行特征提取,得到训练特征向量;标签获取单元,用于获取所述训练集中数据样本设置的生命周期标签值;模型训练单元,用于根据所述训练特征向量和所述生命周期标签对所述数据生命周期预测模型进行训练,得到训练好的所述数据生命周期预测模型。
18、可选地,在本技术的一个实施例中,审批模块包括等级获取单元、高价值审批单元和普通价值审批单元;其中,等级获取单元,用于获取所述管理数据的重要性等级,其中,所述重要性等级为高价值级别或普通价值级别;高价值审批单元,用于若所述重要性等级为高价值级别,则采用人工审核方式对所述管理数据进行清除审批,得到审批结果;普通价值审批单元,用于若所述重要性等级为普通价值级别,则所述审批结果为审批删除。
19、可选地,在本技术的一个实施例中,审批模块还包括高价值数据保留单元,用于若所述审批结果为数据保留,则阻止对所述管理数据的删除操作,以避免所述管理数据的误删。
20、可选地,在本技术的一个实施例中,所述操作管理信息包括操作时间、操作理由和操作人员;数据管理模块包括数据标记单元和数据删除记录单元:数据标记单元,用于对所述审批删除对应的所述管理数据进行标记,得到标记的管理数据;数据删除记录单元,用于将标记的所述管理数据进行删除操作,记录所述删除操作对应的操作时间、操作理由和操作人员。
21、可选地,在本技术的一个实施例中,基于数据价值的数据生命周期管理系统还包括:数据回收模块、数据恢复模块和数据彻底删除模块;其中,数据回收模块,用于将所述管理数据存入回收站中,获取所述管理数据在所述回收站中的当前保留时间;数据恢复模块,用于当所述当前保留时间在预设时间范围内时,响应所述管理数据的数据恢复操作,将在所述回收站中的所述管理数据进行数据恢复;数据彻底删除模块,用于当所述当前保留时间超过预设时间范围时,将所述管理数据彻底删除。
22、可选地,在本技术的一个实施例中,所述特征向量包括数据完整率、数据有效率和数据及时率。
23、本技术第三方面实施例提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于数据价值的数据生命周期管理程序,所述基于数据价值的数据生命周期管理程序被所述处理器执行时实现如上述实施例所述的基于数据价值的数据生命周期管理方法的步骤。
24、本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于数据价值的数据生命周期管理程序,所述基于数据价值的数据生命周期管理程序被处理器执行时实现如上述实施例所述的基于数据价值的数据生命周期管理方法的步骤。
25、本技术的有益效果:
26、(1)本技术实施例通过将管理数据的特征向量输入已训练好的数据生命周期预测模型中得到考虑到数据活跃度可能波动的更为准确的生命周期预测值,在数据实际存储时间超过生命周期预测值时,通过考虑数据的重要性等级(重要性、敏感性等关键属性),来判断是否将该不活跃的管理数据进行保留或删除,以避免重要数据被误删的风险,保证数据的安全性,提高了数据管理的精确性。
27、(2)本技术实施例通过经过管理员审批数据生命周期预测值后生效,加入人工监督,确保预测结果的准确性和数据的安全管理,增强了数据管理的安全性和可控性,防止误操作导致的数据丢失;根据数据的等级,实行不同的删除策略,对高风险或高价值的数据增加一层安全网,避免误删,既保证了数据的经济效益,又维护了企业的数据安全。
28、(3)本技术实施例通过在数据生命周期推荐模块提出删除建议后,数据管理员会进行审核,确保所有删除操作都是经过严格审查的,防止误删或未适时更新的数据被删除,提高了操作的安全性,保护了关键数据资产;经管理员确认后,符合删除条件的数据会被标记并从系统中删除,清除不再需要或已过期的数据,优化存储资源使用,降低成本,实现了数据的高效存储管理,节约了存储空间和相关成本;删除过程中,会自动记录每项删除操作的详细信息,如操作时间、操作者、删除理由等,为了审计跟踪和满足合规要求,确保数据操作的透明性和可追溯性,增强了企业的数据治理能力,满足了法规和内部政策的要求。
29、(4)本技术实施例通过将删除的数据首先移至回收站,并不立即彻底删除,提供一段时间的缓冲期,供用户恢复因误操作或其他原因错误删除的数据,增加了数据操作的安全性,减少了因误删造成的数据丢失风险;如果在回收站中的数据超过设定的保留期限(如7天),则这些数据将被自动永久删除,确保不再需要的数据最终被清除,以释放存储空间,完成了数据生命周期的末端管理,确保资源的最大化利用和数据安全。
30、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。