基于垂直分布隐私数据保护的logistic回归分析系统的制作方法

文档序号:9350213阅读:399来源:国知局
基于垂直分布隐私数据保护的logistic回归分析系统的制作方法
【技术领域】
[0001] 本发明涉及一种隐私保护的分布式数据挖掘方案,具体是一种基于垂直分布隐私 数据保护的logistic回归分析系统
【背景技术】
[0002] 大数据时代的来临对实验科学产生了重大影响。当前,生物医药领域里科学研 究的一个重要发展趋势就是数据驱动,即通过对海量数据的研究来探索其中的规律,可以 直接提出假设或得出可靠的结论。开源与数据共享已经成为生物学研究重要的驱动力量。 但是,大数据隐私问题是不容回避的现实挑战。随着人们对隐私问题特别是基因组隐私 (genomic privacy)问题的关注,研究人员对一些重要信息的访问可能会受到限制,例如个 人基因组数据。因此如何在保证患者数据共享的同时保证患者的原始数据没有泄漏是急需 解决的问题。例如,当医疗机构A想要对某种特定的疾病建立一个预测模型,基于此,A需 要来自保险公司B的数据。同时,保险公司B可以通过计算A所持有的电子医疗数据(譬 如一些临床的实验测试结果)以提供给顾客更好的服务来获利。但是医疗机构A不能把自 己的原始数据发给B,B只能把自己的数据保存在自己的服务器中,因此也不能共享其原始 数据给A。在这种情况下,机构A和B可以通过联合数据分析框架来获得各自需要的信息。 也就是说,A和B都保持自己的原始数据在本地但是同时他们允许共享各自局部进行分析 后的结果。当机构A和机构B的数据是共同病人的不同类型协变量数据时,我们说这种数 据是垂直分布式的。
[0003]Logistic回归分析是一种常用的机器学习方法,主要用于寻找危险因素、预 测和判别。对于垂直分布式的数据,建立一种精确又实用的Logistic回归模型是非 常困难的。基于经过对现有技术的文献检索发现,Slavkovic等人在2007年的《IEEE InternationalConferenceonDataMiningWorkshops))(IEEEICDMWorkshops)会议上 发表的'"Secureflogisticregressionofhorizontallyandverticallypartitioned distributeddatabases" 一文中提出了一种方法,它通过一种加密的多机构计算协议(如 安全加法和安全矩阵乘积)来累加不同分布机构的信息(如Hessian矩阵中的非对角子块 矩阵),但是这种协议会带来非常大的计算开销,而且当机构数量比较大时不具有良好的适 应性。Nardi等人在 2012 年的《JournalofPrivacyandConfidentiality》期刊上发表 的"Achievingbothvalidandsecurelogisticregressionanalysisonaggregated datafromdifferentprivatesources" 一文中针对垂直分布式的logistic回归分析提 出了一种泛化的模型。这种模型近似logistic回归而且计算复杂度很高,通信代价很大, 因此不具备实用性。这些不足促使申请人针对垂直分布式的隐私数据,找到一种高效实用 的数据分析方法。

【发明内容】

[0004] 本发明针对现有技术的不足,提供了一种基于垂直分布隐私数据保护的logistic 回归分析系统,可以提供数据共享挖掘的同时还保证了垂直分布式的原始隐私数据的安全 性。
[0005] 本发明是通过以下技术方案实现的:
[0006] 本发明所述的基于垂直分布隐私数据保护的logistic回归分析系统,包括:隐私 数据处理模块、数据挖掘学习模块和分析应用模块,其中:
[0007] 所述隐私数据处理模块对垂直分布在各局部的原始隐私数据,利用线性核函数生 成对应的核训练集,并将这些局部的核训练集输出到数据挖掘学习模块的输入端;
[0008] 所述数据挖掘学习模块首先累加各个局部核训练集,得到总体核训练集,然后对 总体核训练集进行logistic回归分析得到全局模型向量,并将该全局模型向量输出到分 析应用模块的输入端;
[0009] 所述分析应用模块接收所述数据挖掘学习模块输出的全局模型向量,对待分析的 隐私数据进行判断分析。
[0010] 优选地,所述的隐私数据处理模块中垂直分布式隐私数据,是指存储在不同机构 中的相同样本的不同类型的协变量数据。
[0011] 优选地,所述的数据挖掘学习模块,解决logistic回归的对偶问题,通过该对偶 问题的解,即全局模型向量,可计算得到logistic回归主问题的解。
[0012] 优选地,所述的隐私数据处理模块,通过计算和发送其局部隐私数据的线性核矩 阵来实现原始数据的加密和共享。由于点积的结果为单值,而一个病人的数据是由许多协 变量所组成,因此只要数据集中有足够多的协变量特征,由所得的单值反求出这些隐私数 据是不可能的,即进行了加密保护。
[0013] 优选地,所述的隐私数据处理模块,通过牛顿-拉弗森方法(Newton-Raphson method)求解logistic回归的对偶问题。
[0014] 优选地,所述的分析应用模块,通过发送全局模型向量到各个机构,并汇总各机构 反馈的局部分析参数,对待分析隐私数据进行判断预测。
[0015] 本发明中采用的基于垂直分布隐私数据保护的logistic回归分析技术为垂直分 布隐私数据的数据挖掘分析提供了进行logistic回归分析的解决方案。本发明隐私数据 处理模块所使用的线性核函数可以对各个不同分布机构的原始数据进行加密保护不泄漏, 计算快速。总体核训练集等于各部分核训练集的累加的性质,与logistic回归对偶问题相 契合,从而实现安全的联合数据分析。
[0016] 与现有技术相比,本发明具有如下的有益效果:
[0017] 本发明提供数据共享挖掘的同时,还保证了垂直分布式的原始隐私数据的安全 性,求解全局模型向量的方法也提升了学习求解的效率。本发明采用服务器-客户模式的 辐射式结构,其中隐私数据、隐私数据处理模块位于各个客户端,数据挖掘学习模块和分析 应用模块位于服务器云端,具备良好的安全性、实用性和扩展性。
【附图说明】
[0018] 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:
[0019] 图1为本发明系统一实施例的结构框图;
[0020] 图2为垂直分布式隐私数据的示意图。
【具体实施方式】
[0021] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术 人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术 人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明 的保护范围。
[0022] 如图1所示,本发明一实施例的结构框图,包括:隐私数据处理模块、数据挖掘学 习模块和分析应用模块,其中:隐私数据处理模块对各局部
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1