本发明涉及数据处理,尤其涉及一种基于数据网格的跨域数据产品生成方法。
背景技术:
1、数据网格是一种新兴的分布式数据架构设计与开发方法,与传统数据架构不同,数据网格遵循四个基本原则分别是:基于领域的所有权,数据作为产品,自助数据服务平台以及联合计算治理。数据网格将专注于创建数据产品的功能数据域和专注于技术能力的平台团队之间的职责分开,使得数据由最贴近业务侧的领域负责并构建相关数据产品,加速业务交付并提供更具洞察性的数据产品。
2、数据产品的实现将分析数据的指向更加细化,即每一个数据产品针对业务洞察进行深入的分析,不同领域之间的交互逐渐变得更加灵活和高效。然而,尽管数据网格在促进数据领域内的创新和业务敏捷性方面取得了显著进展,但在跨域数据处理方面仍然存在一些重要的挑战。因为数据面向领域自治,因此不同领域之间跨域数据的语义、结构不一致,以及质量参差不齐;此外,针对跨域联合计算的数据隐私保护方案设计没有统一方法论;针对联合计算需求的最终展现形式需要具体定义和实现。
技术实现思路
1、本发明提供了一种基于数据网格的跨域数据产品生成方法,实现数据网格中跨域隐私数据的联合计算,扩展数据产品的单一数据提供功能,针对联合计算需求实现具体的隐私保护和计算。
2、为了实现本发明的目的,所采用的技术方案是:基于数据网格的跨域数据产品生成方法,包括如下步骤:
3、s1:多方领域初始化,通过进行数据网格中联合计算参与方的正常领域注册并记录必要id信息完成初始化;
4、s2:构建联合计算领域,构建保证各领域方的数据隐私不被泄露、多方共享的可信领域;
5、s3:基于可信领域进行跨域数据联合计算;
6、s4:基于自助数据平台的联合计算数据产品发布,进行数据网格的联合计算数据产品发布。
7、作为本发明的优化方案,在步骤s1中,领域注册包括的注册信息为领域id、负责人id、工程师id、领域划分、领域名称、领域描述。
8、作为本发明的优化方案,在步骤s2中,可信领域在数据网格中以领域节点的方式注册进入数据网格,提供可信执行环境,在此基础上确认多方参与领域,并构建多方合约,基于多方签名确认的合约进行多方隐私数据的联合计算,具体实现方法为:
9、s2-1、某领域进行联合领域注册,联合领域与通用领域的基本性质一致,成为领域成员a,作为该领域目前的唯一负责人;
10、s2-2、领域成员a向具有联合属性数据的多方领域发起邀请;
11、s2-3、被邀请领域同意或拒绝,同意则成为该联合领域的共同负责人b、c或d;
12、s2-4、领域由多方参与者协同管理,形成小型联邦治理,任何参与者均可以针对领域提出修改,但需要确认方确认才生效;
13、s2-5、领域参与方能随时选择退出该联合领域。
14、作为本发明的优化方案,通过具有联合领域多方共同遵守和执行的原则与规则的多方合约进行联合计算约束实现,多方合约包含联合领域的声明和联合计算模型的声明。
15、作为本发明的优化方案,针对多方合约,当被邀请领域用户同意进入该联合领域时参与方信息自动更新;当某参与方退出时,对应用户信息自动删除,联合计算模型的声明部分对所有参与方开放权限,每个参与方皆可添加新的规则,具体的执行方法如下:
16、1)某参与方在系统中提出一条关于联合计算的新规则或者模型;
17、2)系统将该新规则广播给所有参与方;
18、3)所有参与方在指定时间如24h内给出同意或者拒绝选项,超时默认拒绝;
19、4)若有超过半数参与方同意,则该规则加入到多方合约;
20、5)多方合约中的属性和模型即为多方参与者可以共同调用的模型;
21、6)如果有参与方反对通过的模型,则选择退出联合领域。
22、作为本发明的优化方案,在步骤s3中,基于可信领域进行跨域数据联合计算保证多方在不透漏隐私数据的情况下完成联合计算,进行基于数据网格的跨域联合训练,具体步骤为:
23、s3-1、联合领域自动生成系统非对称秘钥,包括公钥sys_publickey和私钥sys_privatekey;
24、s3-2、可信计算环境启动,同步系统公钥和私钥;
25、s3-3、系统属性基函数启动,包括用户访问控制和对通过用户的秘钥生成;
26、s3-4、参与方注册登录,通过abf校验的生成对应操作秘钥abf_key;
27、s3-5、参与方在联合领域内构建各自数据产品,数据产品的输出为各方联合跨域隐私数据;
28、s3-6、参与方请求通过可信计算环境执行实时计算返回结果。
29、作为本发明的优化方案,属性基函数主要完成用户的访问控制和密钥生成,访问控制基于数据网格的联合计算治理原则实现,访问控制包括注册和登录,针对数据网格的联合领域,参与方注册的属性基函数策略至少包括角色和领域id,通过注册的用户在后续登录到联合领域中abf针对本次登录生成秘钥session,用于多方沟通的数据加密和验证。
30、作为本发明的优化方案,针对数据网格,多方参与者在联合领域中的数据提供形式是注册数据产品,数据产品提供的是多方需要的联合数据,也就是说各方数据依然由各参与方自行控制,数据产品的输出是各方根据多方合约中的属性规则加密或者特征提取后的数据,原数据不外流,保证隐私和安全。
31、作为本发明的优化方案,跨域隐私数据联合计算的具体方法,参与方b需要参与方a的某id数据进行联合计算,实现方法为:
32、(1)系统公钥加密参与方a的数据产品输出;
33、(2)使用参与方b的abf公钥加密数据;
34、(3)发送数据到参与方b并使用参与方b的abf私钥解密数据;
35、(4)使用系统公钥加密参与方b的自身数据;
36、(5)使用参与方b的abf私钥加密双方数据;
37、(6)加密数据发送到可信计算平台,解密数据;
38、(7)可信计算平台完成联合计算;
39、(8)计算结果进行系统私钥加密、进行参与方b公钥加密发送结果到参与方b解码。
40、作为本发明的优化方案,在步骤s4中,针对联合领域对自助数据服务平台进行功能适配,联合计算的结果仍以数据产品的形式展现,具体的,数据网格的联合计算数据产品发布方法如下:
41、s4-1、联合领域需求方确定数据属性需求和计算模型;
42、s4-2、数据属性需求与计算模型广播到被需求方进行确认;
43、s4-3、需求方在本领域开发数据产品注册到联合领域;
44、s4-4、联合领域abf校验通过进行发布并自动运转。
45、本发明具有积极的效果:针对数据网格中联合计算场景进行深入分析,对数据网格如何保证多方联合计算的数据隐私和安全给出了具体的解决方法,具有如下优势:
46、(1)没有破坏数据网格的基础架构原则,是一种通用联合计算方法,具有通用联合计算的诸多优点,可以有效地提高计算效率和速度,适用于不同的场景和设备;
47、(2)通过构建多方合约的方式维护联合领域,公开透明,对多方参与者有重大益处;
48、(3)联合领域为通用领域的变体,重点维护多方合约以及可信计算平台,其内部的多方数据产品为多方自治领域产品的映射,减少资源消耗;
49、(4)增加abf属性基函数进行多方校验和密钥生成,且具有数据属性层面校验的扩展性;
50、(5)双层加密技术保证多方数据在流转过程中的隐私和安全;
51、(6)通过自助数据平台进行联合计算产品的构建与发布,高效、直观。