本发明属于计算机,具体涉及一种基于全同态加密的逻辑回归方法、装置及系统。
背景技术:
1、随着云计算的飞速发展,其强大的计算能力和巨大的存储空间为大数据的计算和处理提供了强有力的支持,因此大数据通常与云计算相结合。云计算对大数据的分析有重要影响,云计算提供了一个可配置的计算环境,可以有效地管理和快速部署。通过将数据的计算卸载到云端,云客户可以轻松、方便地使用计算资源,而不受资源设备的限制。
2、尽管云计算具有各种优势,但在隐私保护方面仍存在许多挑战,在云端保存与大数据相关的数据受到越来越多的关注。在收集大数据的过程中,可能会包含一些敏感或专有信息,一旦泄露,将导致灾难性的后果。因此,对参与云计算的数据进行加密是必要的。然而,机器学习算法不能直接访问加密数据。如果解密密钥被提供给云服务器,数据隐私就无法保证。因此,利用运行在云上的机器学习算法处理加密数据是一个具有挑战性的问题。
3、作者kim在其发表论文“ensemble method for privacy-preserving logisticregression based on homomorphic encryption”(ieee access,2018)中用全同态加密技术可以对密文执行任意计算这一特性,构造了一种隐私保护的逻辑回归算法。该方法存在的不足之处是:随着迭代次数的增加,密文的计算深度也随之增加,为了避免噪声影响解密必须设置很大的加密参数。而加密参数越大,加解密和密文运算的所需时间越长,导致整体方案的效率低下;并且该方案仅适用于小型数据集,对大型数据集训练结果较差。
4、作者fan在其发表论文“privacy preserving based logistic regression onbig data”(journal of network and computer applications,2020)中提出在云服务器每轮迭代后将密文发送给数据拥有者,后者解密后进行梯度下降,之后再将新的模型参数加密后发送给云服务器进行新一轮迭代。通过数据拥有者解密后重加密的操作,可以减少密文的计算深度,从而无需设置kim和song方案中的极大加密参数,以此提高了方案的效率。该方法存在的不足之处是:数据拥有者在整个模型训练过程中都需要在线。并且该方案对于大型数据集来说计算量大,效率较低,通信复杂度较高。
技术实现思路
1、为了解决现有技术中存在的效率不高,训练大维数数据集效果较差的问题,本发明提供了一种基于全同态加密的逻辑回归方法、装置及系统。本发明要解决的技术问题通过以下技术方案实现:
2、第一方面,本发明提供了一种基于全同态加密的逻辑回归方法,应用于研究机构,包括:
3、s11:基于全同态ckks密码算,法生成公私钥对;
4、s12:响应于接收到协方差矩阵密文cx,对其进行解密,并基于解密得到的协方差矩阵x计算降维矩阵p;
5、s13:对所述降维矩阵p进行加密得到密文向量cp,并将其传送至云服务器;
6、s14:响应于接收到第j次迭代的梯度密文向量对其进行解密,并根据解密得到的明文梯度向量gj修正模型参数;对修正后的模型参数进行加密得到第j+1次迭代的参数密文并传送至云服务器;
7、s15:持续接收梯度密文向量,并重复步骤s14,直至达到最大迭代次数,得到最终的模型参数。
8、第二方面,本发明提供了一种基于全同态加密的逻辑回归方法,应用于云服务器,包括:
9、s21:获取用户上传的密文向量c和标签密文cl;其中,所述密文向量c为特征数据对应的密文向量,所述密文cl为标签数据对应的密文,且所述密文向量c和标签密文cl均是基于全同态ckks密码算法加密得到的;
10、s22:对所述密文向量c进行预处理,得到新的密文向量cz和协方差矩阵密文cx,并将所述协方差矩阵密文cx发送给研究机构;
11、s23:响应于接收到密文向量cp,基于所述密文向量cz和所述密文向量cp计算经过标准化和降维后的密文向量cy;
12、s24:基于密文向量cy和当前第j次迭代的参数密文求解损失函数的梯度密文向量并将其发送给研究机构;
13、s25:响应于接收到参数密文重复步骤s24,直至达到最大迭代次数。
14、第三方面,本发明提供了一种基于全同态加密的逻辑回归装置,应用于研究机构,包括:
15、密钥生成模块,用于基于全同态ckks密码算法生成公私钥对;
16、第一降维模块,用于响应于接收到协方差矩阵密文cx,对其进行解密,并基于解密得到的协方差矩阵x计算降维矩阵p;
17、加密模块(13),用于对所述降维矩阵p进行加密得到密文向量cp,并将其传送至云服务器;
18、第一计算模块,用于响应于接收到第j次迭代的梯度密文向量对其进行解密,并根据解密得到的明文梯度向量gj修正模型参数;对修正后的模型参数进行加密得到第j+1次迭代的参数密文并传送至云服务器。
19、第四方面,本发明提供了一种基于全同态加密的逻辑回归装置,应用于云服务器,包括:
20、数据获取模块,用于获取用户上传的密文向量c和标签密文cl;其中,所述密文向量c为特征数据对应的密文向量,所述密文cl为标签数据对应的密文,且所述密文向量c和标签密文cl均是基于全同态ckks密码算法加密得到的;
21、预处理模块,用于对所述密文向量c进行预处理,得到新的密文向量cz和协方差矩阵密文cx,并将所述协方差矩阵密文cx发送给研究机构;
22、第二降维模块,用于响应于接收到密文向量cp,基于所述密文向量cz和所述密文向量cp计算经过标准化和降维后的密文向量cy;
23、第二计算模块,用于基于密文向量cy和当前第j次迭代的参数密文求解损失函数的梯度密文向量并将其发送给研究机构。
24、第五方面,本发明提供了一种基于全同态加密的逻辑回归系统,包括上述实施例提供的应用于研究机构端的基于全同态加密的逻辑回归装置和应用于云服务器端的基于全同态加密的逻辑回归装置。
25、本发明的有益效果:
26、1、本发明采用的隐私保护逻辑回归方案在进行迭代前对加密后的金融数据集进行了降维处理,减少了数据维数,降低了无关特征项的干扰,从而减少了计算量,同时提高了效率和准确率,对大型数据集具有很好的训练效果;且该方法采用了金融领域的双云模型,使得数据拥有者上传自身数据后便可离线,既保证了客户数据的安全性,又无需实时在线,提高了便捷性,而做到了真正的云计算;
27、2、本发明在进行迭代前对加密后的金融数据集进行了预处理,由于加密时使用批处理技术来按列加密数据集,在计算均值、方差和协方差时可以做到同时对n条数据计算,从而提升了效率;
28、3、本发明在进行迭代前对加密后的金融数据集进行了预处理,对数据集进行标准化处理,将原值减去均值后除以标准差,使得得到的特征满足均值为0,标准差为1的正态分布;从而让不同维度之间的特征在数值上有一定比较性,得出的参数大小可以反应出不同特征对样本的贡献度,可以大大提高准确性。