所属的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。在一些可能的实施例中,根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的文件安全获取方法中的步骤。例如,所述处理单元可以执行如图3中所示的文件安全获取方法的执行步骤,包括:步骤s310,获取请求方针对待训练模型发起的关于预设任务的模型训练请求,模型训练请求中携带有训练配置参数;步骤s320,对模型训练请求进行验证,在验证通过后确认与训练配置参数对应的容器组和资源访问密钥;步骤s330,分配容器组需要的算力资源和数据资源,数据资源中含有训练语料;步骤s340,在容器组中根据资源访问密钥访问数据资源中的训练语料,以根据算力资源和训练语料对待训练模型进行预设任务的训练;步骤s350,若待训练模型满足训练完成要求,则将待训练模型作为目标模型,并将目标模型的文件反馈给请求方。下面参照图13来描述根据本公开的示例实施例的电子设备1300。图13所示的电子设备1300仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图13所示,电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于:上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1310执行,使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。存储单元1320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)1321和/或高速缓存存储单元1322,还可以进一步包括只读存储单元(rom)1323。存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324,这样的程序模块1325包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。总线1330可以包括数据总线、地址总线和控制总线。电子设备1300也可以与一个或多个外部设备1370(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(i/o)接口1350进行。并且,电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。应当注意,尽管在上文详细描述中提及了文件安全获取装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
背景技术:
1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、联邦学习(federated machine learning/federated learning)是一种新的机器学习范式,在进行机器学习的过程中,各方参与者可借助于其它方数据进行联合建模,且各方无需共享数据资源,即在数据不出本地的情况下进行联合训练。
3、联邦学习需要各个训练节点(可以代表个人或机构)将训练后的模型进行加密后,传输至中心服务器进行聚合,其增加了额外的计算成本,且当模型较大时,难以满足数据传输需要的网络带宽和网络稳定性,同时存在各个训练节点的训练环境、训练方法难以统一等问题。
技术实现思路
1、为此,本公开提出一种文本安全获取方法,以通过容器化技术对各集群的数据资源以及算力资源进行分配,并通过控制数据的访问权限保证数据安全,达到在不变更数据归属的前提下,提供安全可控的数据读取、模型训练、模型共享环境。
2、在本上下文中,本公开的实施方式期望提供一种文本安全获取方法、文本安全获取装置、计算机可读存储介质及电子设备。
3、在本公开实施方式的第一方面中,提供了一种文件安全获取方法,包括:获取请求方针对待训练模型发起的关于预设任务的模型训练请求,所述模型训练请求中携带有训练配置参数;对所述模型训练请求进行验证,在验证通过后确认与所述训练配置参数对应的容器组和资源访问密钥;分配所述容器组需要的算力资源和数据资源,所述数据资源中含有训练语料;在所述容器组中根据所述资源访问密钥访问所述数据资源中的训练语料,以根据所述算力资源和所述训练语料对所述待训练模型进行所述预设任务的训练;若所述待训练模型满足训练完成要求,则将所述待训练模型作为目标模型,并将所述目标模型的文件反馈给所述请求方。
4、在本公开实施方式的第二方面中,提供了一种文件安全获取装置,包括:请求获取模块,用于获取请求方针对待训练模型发起的关于预设任务的模型训练请求,所述模型训练请求中携带有训练配置参数;容器组及密钥确认模块,用于对所述模型训练请求进行验证,在验证通过后确认与所述训练配置参数对应的容器组和资源访问密钥;资源分配模块,用于分配所述容器组需要的算力资源和数据资源,所述数据资源中含有训练语料;训练模块,用于在所述容器组中根据所述资源访问密钥访问所述数据资源中的训练语料,以根据所述算力资源和所述训练语料对所述待训练模型进行所述预设任务的训练;文件反馈模块,用于若所述待训练模型满足训练完成要求,则将所述待训练模型作为目标模型,并将所述目标模型的文件反馈给所述请求方。
5、在本公开实施方式的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的文件安全获取方法。
6、在本公开实施方式的第四方面中,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的文件安全获取方法。
7、根据本公开实施方式的技术方案,一方面,通过容器组实现模型训练任务的调度实现模型训练,以通过容器组规范统一模型的训练环境和训练方式等,提高模型的效果。另一方面,通过将模型训练需要的数据资源和算力资源分配给容器组,并通过资源访问密钥控制数据资源的访问权限,保证了各集群的数据安全,达到在不变更数据归属的前提下,提供安全可控的数据读取、模型训练、模型共享环境。再一方面,由于摒弃了传统联邦训练的中心服务器,因此不需要对模型进行加密传输,减少了计算成本。