本发明涉及一种基于热力学变换的数据脱敏方法,主要应用于流程行业,特别是化工等领域。
背景技术:
1、由于高度机密,生产数据在发布用作模拟与优化前必须经过必要的数据脱敏,以确保获取数据的第三方无法通过数据了解实际生产状况。常用的数据脱敏方案有:
2、匿名化(anonymization):将敏感数据转换成无法识别个体身份的匿名数据,通常使用哈希函数或加密算法实现;
3、伪装化(masking):用通用符号或随机字符替换部分敏感数据,以保持数据格式不变,如使用“x”或“*”替代部分字符;
4、加密(encryption):对敏感数据进行加密,只有授权的用户才能解密并访问原始数据;
5、擦除/切除(truncation):截取敏感数据的一部分,只保留必要的信息,而非完整的敏感数据;
6、随机化(randomization):对敏感数据进行随机化处理,使得原始数据和脱敏后的数据不再关联;
7、差异化脱敏(differential privacy):通过添加噪声或扰动来保护个体数据,确保在统计分析中不会泄露个人信息。
8、流程行业因数据以连续性的数值为主,除了数据加密,其他方案都会影响到数据本真的准确性。
9、现有技术中,采用不同的加密算法对数据进行加密,如专利cn 106649587 b采用复合分层式脱敏算法模型。但加密算法带来的问题是,进行大数据分析与优化时,输入模型的数据还是加密后的数据。流程行业的数据间有基于物理与化学原理的耦合关系,传统的基于信息学的加密方式无法保证加密后的数据仍然保持一致性和业务的关联性。因此,需要将原始数据输入模型。如果是一次性输入,即在开始计算前将数据解密输入模型,此方式带来极大的原始数据泄露风险。若在每次迭代都进行解密与加密,则带来极大的额外计算量。
技术实现思路
1、本发明的目的是克服现有技术的不足,提供一种基于热力学变换的数据脱敏方法,经过特定方式脱敏后,数据不再具有原先的意义,即无法通过该数据获取或推测出生产状况,同时脱敏后数据仍保留脱敏前的变化规律以及与业务的关联性,无需处理输入模拟与优化模型后,能够获取与原始数据同样的结果,无需额外的加密、解密过程。
2、为达到上述目的,本发明采用的技术方案是:一种基于热力学变换的数据脱敏方法,应用于流程行业,包含以下步骤:
3、s1,获取生产数据;
4、s2,对生产数据进行热力学分析;
5、s3,列出可行的变换方式,所述变换方式包括对比性质替代、变量替换或变量组合;
6、s4,选择合适的变换方式;
7、s5,进行数据脱敏;
8、s6,发布脱敏后的数据。
9、作为一种具体的实施方式,步骤s1中所获取的生产数据包括温度、压力及组分在内的待脱敏数据。
10、作为一种具体的实施方式,步骤s2中,所述热力学分析所建立的模型为:
11、m=o[s(t,p,x1,x2,.....)]
12、其中,m为目标函数值,o(s)为求解的模型,s(t,p,x1,x2,.....)为体系当前状态,是待脱敏数据的函数。
13、作为一种具体的实施方式,步骤s3中的变量替换方式如下:
14、根据热力学原理,体系当前状态采用不同的物理量进行描述,即:
15、s(t,p,x1,x2,…)=s(h,v,y1,y2,.....)用h,v,y物理量来替换t,p,x,而不影响目标函数o的求解。这个替换的过程,即为对数据的脱敏过程。
16、由于上述技术方案的运用,本发明与现有技术相比具有下列优点:本发明的基于热力学变换的数据脱敏方法,用物理化学原理替代传统的信息学加密方法,对流程行业核心数据进行脱敏的方法,经过该方法脱敏后的数据具有以下特点:
17、1、不再具有原先的物理意义,无法通过其获取或推测原始数据;
18、2、仍保留了原始数据的特征与变化规律,能够直接输入模型进行计算,而无需额外的解密、加密操作,大大提高了计算效率;
19、3、对同一批数据,可以采用不同的热力学方法进行变换,从而以不同的形式进行多次披露。
1.一种基于热力学变换的数据脱敏方法,应用于流程行业,其特征在于,包含以下步骤:
2.根据权利要求1所述的基于热力学变换的数据脱敏方法,其特征在于,步骤s1中所获取的生产数据至少包括温度、压力、组分、流量、功率在内的待脱敏数据。
3.根据权利要求1所述的基于热力学变换的数据脱敏方法,其特征在于,步骤s2中,所述热力学分析所建立的模型为:
4.根据权利要求3所述的基于热力学变换的数据脱敏方法,其特征在于,步骤s3中的变量替换方式如下: