一种基于联邦学习机制的数据识别方法及其系统

文档序号:33530915发布日期:2023-03-22 07:53阅读:48来源:国知局
一种基于联邦学习机制的数据识别方法及其系统

1.本技术涉及数据通信领域,具体地,涉及一种基于联邦学习机制的数据识别方法及其系统。


背景技术:

2.近年来,社会计算技术的不断发展推动了各个工业领域的深刻变革。典型的应用领域之一是健康管理,由此产生了“智慧健康”的概念。一种典型的产品在于医疗物联网。现代社会,随着公众对健康生活的日益关注,各国的医疗系统面临着越来越多的业务量。在这种情况下,迫切需要利用社会计算来减少从业人员的工作量,进一步提高医疗系统的运行效率。如今,许多嵌入了社会计算算法的医疗传感器或医疗诊断设备得到了广泛应用,它们可以自动执行一些健康管理任务,而不是专家经验。目前关于智能健康管理的研究工作主要采用数据驱动的视角。这种方法虽然在理论上能够表现出良好的性能,但难以投入实际应用。一个非常重要的障碍在于用户的隐私和安全。这是因为这种基于机器学习的智能算法试图在中央服务器上训练一个成熟的模型,然后分析所有用户的电子医疗数据。一旦中央服务器存在安全漏洞或侵犯隐私,用户的敏感个人电子数据信息将很容易暴露给外界。
3.为了解决这个问题,现有技术引入了一种称为联邦学习的可信计算架构来保护数据挖掘算法背后的隐私。联邦学习是一种特定的机器学习框架,可以在满足隐私保护需求的同时对数据使用和机器学习进行建模。与传统的中央计算框架不同,联邦学习采用分布式计算的模式。通过将社交计算的操作安排在用户侧,避免了将用户数据上传到中心服务器。客户端的分布式计算终端可以通过与中心服务器交换参数来更新模型参数和训练模型。在实际应用中,用户可以在本地收集自己的生物信息,然后利用本地计算能力直接执行处理任务,而不用将数据上传到中央服务器。但是在上述方法中,他们都试图在中央服务器上训练一个成熟的模型,然后分析识别所有用户的电子医疗数据。一旦中央服务器存在安全漏洞或侵犯隐私,用户的敏感个人信息将很容易暴露给外界。
4.因此,如何提供一种能够在保护用户隐私和安全的前提下,仍能进行良好的数据识别从而保证识别结果的准确性的方法,是本领域技术人员急需解决的问题。


技术实现要素:

5.本技术提供了一种基于联邦学习机制的数据识别方法,具体包括以下子步骤:确定识别模型的骨干网络;响应于确定识别模型的骨干网络后,对识别模型进行联邦学习,完成识别模型的训练;将电子数据输入至训练完成的识别模型,进行电子数据的识别。
6.如上的,其中,确定识别模型的骨干网络,具体包括以下子步骤:确定骨干网络中的基础残差模块;响应于确定骨干网络中的基础残差模块,确定骨干网络的网络结构。
[0007] 如上的,其中,骨干网络的网络结构包括,子部分 a、子部分b和子部分c;子部分a为两个独立的卷积层,子部分b为一组16个基础残差块,子部分c为两个全连接层。
[0008]
如上的,其中,将输入数据输入至子部分a中,在卷积层中进行如下操作:
,其中表示新得到的电子数据的尺度,表示初始电子数据的尺度,表示填充操作的尺度,表示卷积核的尺度,表示步长;通过执行上述操作,得到张量。
[0009]
如上的,其中,在子部分a中,还包括,对张量进行卷积运算;其中卷积运算具体表示为:,其中表示卷积后的结果,*表示卷积运算,和为参数,表示relu激活函数。
[0010] 如上的,其中,得到的转移到规模为3、步长为2、填充长度为1的池化核中,从而得到另一个大小为64
×
56
×
56的张量 im
(a)
,即子部分a的输出。
[0011] 如上的,其中,将张量 im
(a)
输入至子部分b中,进行电子数据的特征提取,得到提取的特征im
(b)
后,将张量 im
(b)
输入到子部分c中,规模为7
×
7 的池化核中,产生另一个大小为2048
×1×
1的变量im
(c1)
。对im
(c1)
进行转置操作,使其大小变为1
×1×
2048,然后,将转置后的im
(c1)
输入到全连接层,得到最终的输出结果。
[0012]
如上的,其中,将转置后的im
(c1)
输入到全连接层后,得到最终的输出结果,得到的具体表达式为:,其中w
c2
和b
c2
是参数,表示 sigmoid 激活函数。
[0013] 如上的,其中,sigmoid 激活函数具体表示为:,e表示自然常数。
[0014]
一种基于联邦学习机制的数据识别系统,包括确定单元、训练单元以及识别单元;确定单元,用于确定识别模型的骨干网络;训练单元,用于对识别模型进行联邦学习,完成识别模型的训练;识别单元,用于将电子数据输入至训练完成的识别模型,进行电子数据的识别。
[0015]
本技术具有以下有益效果:本技术重点考虑对用户数据的的隐私保护,通过对联邦学习机制以及残差网络算法的研究和学习,解决了目前其他模型安全性不足的缺陷,设计出了在做到保护用户隐私和安全的前提下,仍能保持对数据进行良好的识别的模型,从而达到对用户提供的电子数据进行良好识别的目的。
附图说明
[0016]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0017]
图1是根据本技术实施例提供的基于联邦学习机制的数据识别方法的流程图;图2是根据本技术实施例提供的残差单元示意图;图3是根据本技术实施例提供的基础残差块示意图;图4是根据本技术实施例提供的基于联邦学习机制的数据识别系统的结构示意图。
具体实施方式
[0018]
下面结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0019] 本发明选择基于“resnet-50”结构的卷积神经网络模型作为基础医学图像处理单元,部署在中央服务器上。在每一轮训练中,终端将本地预训练中的模型参数上传到中央服务器,并借助中央服务器中的样本更新参数。然后将更新后的参数返回给中央服务器,开始下一次迭代。经过多轮双上下文交互训练,有望训练出更好的识别模型。最后,在真实的医学图像数据集上验证了所提方法的有效性。
[0020]
实施例一如图1所示,为本技术提供的一种基于联邦学习机制的数据识别方法,具体包括以下步骤:步骤s110:确定识别模型的骨干网络。
[0021]
其中识别模型的骨干网络包括基础残差模块和骨干网络的网络结构,根据基础残差模块和骨干网络的网络结构能够确定识别模型的构成。
[0022]
步骤s110具体包括以下子步骤:步骤s1101:确定骨干网络中的基础残差模块。
[0023]
本技术使用的骨干网络是何凯明等人在2015年提出的resnet-50。因为在很多情况下,神经网络的性能通常会随着处理层数的增加而呈现下降趋势。对这种现象的一个可能的解释在于,深层网络的信息传播不可避免地会导致一些信息丢失。一个潜在的解决方案是添加一些可以在信息传播过程中学习一些信息丢失的部分。因此,引入了残差单元来平衡堆叠神经计算层带来的误差,其中基础残差单元可以理解为现有技术惯常使用的基础残差单元,基础的残差单元如图2所示。
[0024] 本实施例所用的骨干网络resnet-50它对于每个基础残差块如图3所示,它的输入是一个256通道的张量 x,它的输出是另一个 256 通道的张量 f(x) + x。显然,f(x) 是三个堆叠卷积层的组合。在这样一组三个卷积层中,第一个是64通道的卷积核,规模为 1
×
1,第二个是64通道的卷积核,规模为 3
×
3,第三个是256通道尺寸为 1
×
1 的卷积核。尺寸
为 1
×
1 的卷积核可以在不改变初始比例的情况下改变通道数量。对于尺度为 3
×
3 的卷积核,进一步添加尺度为2的填充,以保留初始特征尺度。因此,基础残差块中的三个卷积层都只负责尺度变化。基础残差块中的输入变量会发生通道变化为:256

64

256,这将显着减少神经网络模型中的参数量。 resnet-50 内部有多个基础残差块,它们之间的主要区别在于输入变量和输出变量的通道数。在特征提取过程中,通道数将上升。
[0025]
骨干网络中的基础残差模块即上述所述基础残差块。
[0026]
步骤s1102:响应于确定骨干网络中的基础残差模块,确定骨干网络的网络结构。
[0027]
对于resnet-50来说,它的实际意义是它内部有50层卷积操作。这部分负责呈现resnet-50的整个结构细节。
[0028] 骨干网络resnet50网络的架构,主要包括三个字部分:子部分 a、子部分b和子部分c。
[0029]
其中子部分a是两个独立的卷积层,负责初步的特征转换。子部分b是一组16个基础残差块,负责主要特征提取,其中这些基础残差块具有多个不同的尺度。子部分c是两个全连接层,负责输出最终数据识别结果。
[0030] 其中以下分别对子部分 a、子部分b和子部分c的功能做具体介绍。
[0031] 其中将输入数据输入至子部分a中,其中输入数据可为图像,假设输入数据的大小为“3
×
224
×
224”,其中3表示通道数,224表示输入数据的平面图的边长。在子部分a中,将初始数据(具体为初始图像)输入到一个卷积核中,其通道数为64,卷积核的大小为7
×
7,卷积核移动步长为2,扩充边界的大小为3,则卷积操作中卷积核的大小变换的计算表达式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中表示新得到的图像的尺度,表示初始图像的尺度,表示填充操作的尺度,表示卷积核的尺度,表示步长。根据上式,可以得到一个新的张量,大小为 64
×
112
×
112。对张量进行卷积运算的表达式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中表示卷积后的结果,*表示卷积运算,和为参数,c1表示子部分a中的参数,表示relu激活函数,表示如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)然后将得到的转移到规模为3、步长为2、填充长度为1的池化核中,从而得到另一个大小为64
×
56
×
56的张量 im
(a)
。im
(a)
是子部分a的输出。
[0032]
得到子部分a的输出后,将张量 im
(a)
输入至子部分b进行电子数据的进一步的特征提取。子部分b的输出表示为 im
(b)
,其大小为 2048
ꢀ×ꢀ7ꢀ×ꢀ
7。
[0033] 子部分c由一个池化层和一个全连接层组成。得到子部分b的输出后,将张量 im
(b)
输入到规模为7
×
7 的池化核中,产生另一个大小为2048
×1×
1 的变量im
(c1)
。对im
(c1)
进行转置操作,使其大小变为1
×1×
2048,然后,将转置后的im
(c1)
输入到全连接层,识别模型输出最终的识别结果。
[0034] 在本实施例的研究的场景中,图像识别在医学领域中是一种二元分类问题。因此子部分c全连接操作的主要表达式可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中w
c2
和b
c2
是参数,c2表示子部分c中的参数,表示sigmoid激活函数,表示如下: (5)其中e表示自然常数,是个固定值约等于2.7。
[0035]
步骤s120:响应于确定识别模型的骨干网络后,对识别模型进行联邦学习,完成识别模型的训练。
[0036]
具体地,其中联邦学习主要由两个实体组成:边缘终端和中央服务器。在每一轮中,边缘终端(用户端)负责对中央服务器的识别模型的局部进行预训练,从而初步获取一组参数。中央服务器设法更新在边缘终端中获得的该组参数。在这种模式下,每个边缘终端保持独立,从而可以在不共享私人用户数据的情况下完成识别模型模型训练。中央服务器只是调度自己与边缘终端之间的参数变化过程。
[0037] 其中训练的场景假设为:使用的数据集是一个名为ichallenge-pm的公开可用数据集。考虑到样本量有限,只考虑一个中央服务器和一个边缘终端。互动培训将在中央服务器和一个边缘终端之间进行。200张图片分配给中央服务器,600张图片分配给边缘终端。在边缘终端的600张图片中,训练样本的比例分别设置为50%、55%和60%。也就是说,边缘终端中的训练样本有三个数量值:300、330和360。假设测试阶段发生在边缘终端,其余样本用于测试。公式中(6)中的τ设置为0.5,公式(7)中的δ设置为1e-08,公式(8)中的设置为0.9,公式(9)中的设置为 0.999。预训练y中的优化轮数设置为5,联邦学习t中的交互轮数设置为8。
[0038]
其中步骤s120具体包括以下子步骤:步骤s1201:进行识别模型的预训练。
[0039] 在这个阶段,主要任务是实现机器学习模型的常规训练过程。此过程的主要目标是求解以下公式的最优参数解:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中τ表示惩罚系数,表示 f-范数,φ表示要学习的参数集。表示子部分c输出的真实结果,表示子部分c输出的预计结果。
[0040]
上述公式实际上是经验误差最小化的典型格式。需要注意的是,这里使用了 l2 规则来构建惩罚项。它的主要功能是限制模型空间以避免过拟合。为了实现这样的优化过程,为此选择了自适应动量算法(adam)作为优化工具。 adam 指导的优化过程需要经过一些迭代轮次,其中迭代轮次的索引数表示为y,范围从1到y。
[0041] 在第 y 轮中,通过以下数学表达式更新所有参数:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)(8)(9)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)其中
µ
是优化过程中的学习率,和是调谐参数。 表示第y轮的识别模型参数,及都是超参数,具体数值范围由工作人员进行限定,和均表示第y轮更新的超参数,表示第y-1轮更新的超参数,表示第y-1轮更新的超参数,α2、β2与α1、β1的关系如公式(8),(9)所示,α2、β2更新规则如公式(10),(11)所示。
[0042]
更新上述参数后,完成识别模型的预训练。
[0043]
步骤s1202:响应于完成识别模型的预训练,进行识别模型的交互训练。
[0044]
具体地,其中在每一轮中,首先在边缘终端上训练识别模型以获得一组新的参数。该组参数形成参数集。然后,这些参数被传输到中央服务器中,并根据中央服务器内部的数据进行重新训练。从而将该组参数将转化为另一组新的参数,并传送到用户终端本身,开始新一轮的交互训练。新一轮的交互训练具体是将更新后的另一组新的参数返回给中央服务器,开始下一次迭代。
[0045]
在这部分,将参数集用字母θ表示。假设在交互过程中有多个中央服务器联合训练。中央服务器的索引号记为r,取值范围为1~r。t表示交互过程的轮次索引号,t取值范围为1~t。
[0046] 令pret (
·
)表示单个预训练的算子,表示第t轮中来自第r个边缘终端的预训练参数。自然地,表示为:(12)表示第t-1轮中来自第r个边缘终端的预训练参数,表示中央服
务器第t-1轮更新后传回第r个边缘的参数。
[0047] 在第t轮中,来自所有t终端的参数聚合在一起并传输到中央服务器。此过程通过以下公式控制:
ꢀꢀꢀꢀ
(13)
ꢀꢀ
(14)其中表示第t轮所有t终端的聚合参数集,表示关于第r个边缘终端的局部训练数据的比例。表示第r个边缘终端的训练样本数量,r表示中央服务器的总数量。
[0048] 被输入到中央服务器中进行下一轮训练。在中央服务器中,一轮训练以参数集 开始,这一轮根据预训练的程序运行。这可以通过以下公式计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)然后,将获得的中心作为更新参数传回所有r个用户终端。显然,r个不同的用户终端对应r个不同的参数组。对于第r个用户终端,其更新后的参数组表示为: (16)上式表示从到的映射。得到的到是第t轮第r终端的中央服务器的输出,也是第(t+1)轮第r终端的输入。
[0049]
根据上述方法不断进行交互训练,直至识别模型收敛至指定精度,完成训练。
[0050]
步骤s130:将电子数据输入至训练完成的识别模型,进行电子数据的识别。
[0051]
具体将电子数据(电子数据具体为图像信息)输入至训练完成的识别模型中,从而完成数据的识别。
[0052]
优选地,将本技术提出的基于联邦学习机制的数据识别方法与现有技术中的三种方法进行进行比较。
[0053]
现有技术中的三种方法简述如下:vggnet:全称是visual geometry group of oxford。它是一种基于卷积的神经网络模型,具有16个处理层,于2014年首次提出用于图像分类任务。
[0054] googlenet:2014年由google co. ltd的一个研究团队提出。该模型引入了多视图学习的思想,结构比vggnet复杂。
[0055] resnet:它作为本技术提出的基于联邦学习机制的数据识别方法中的骨干网络,已在上述中描述。同样,这里使用resnet-50的版本进行对比。
[0056] 上述三种方法的训练样本数分别设置为500、530、560。这里的评价指标由两部分组成。第一部分包含四个通常用于评估分类效果的指标。它们分别被命名为“precision”、“recall”、“f-score”和“accuracy”。这四个指标有一定的内在联系,都是正指标,这意味着
更高的值表示更好的性能。而第二部分是一个专门提出的指标,它结合了分类效果和隐私保护效果。专门开发的度量被命名为“性能-安全联合系数”,在下面的实验中缩写为“psjc”。psjc 计算如下: (17)其中q是调整参数,表示性能值,表示隐私保护索引值。性能值对应于这些指标的值,而隐私保护指标值可以衡量为对自己用户数据的保护程度。对于本技术,它采用联邦学习的模式,其隐私保护指标值可以用下式来衡量:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)其中表示终端的样本数量,表示中央服务器的样本数量。上式表示局部样本量与总量的比值。换句话说,这样的表达式描述了保存用户数据的程度。对于其他三种方法,他们从不使用联邦学习的模式,其隐私保护指标值可以衡量如下:,其中表示终端的样本数量,表示中央服务器的样本数量。
[0057]
通过上述“precision”、“recall”、“f-score”、“accuracy”和“psjc”这几个指标衡量每种方法的性能。并且对于每组比较,进行十次实验并计算平均值。相关结果将在本部分中使用图和表进行展示。最终证明本技术所提出的方法具有更优秀的安全性能。
[0058]
设训练样本数为分别500、530、560,学习率分别为0.001、0.002,得到的主要结果如表1、2、3所示。
[0059] 具体表1利用训练样本数为500,学习率分别为0.001、0.002得出。表2利用训练样本数为530,学习率分别为0.001、0.002得出。表3利用训练样本数为560,学习率分别为0.001、0.002得出。
[0060]
表1
[0061] 表2
[0062]
表3
[0063]
其中本技术所提出方法的安全值与其他方法的安全值的比较如表4所示。
[0064]
表4
[0065]
为了更清晰地可视化度量值的整体趋势,选择了两个典型的度量作为示例,并以曲线图的形式显示了它们的值。表5 为学习率设置为 0.001 下的 pscj结果,和表6为学习率设置为0.002 下的 pscj 结果。它们都有两个子图,对应于 q=0.5 和 q=0.6 下的结果。从这两个表中可以看出,在任何情况下本技术提出的方法的 psjc 值总是远大于其他三种方法。
[0066] 表5 pscj 在学习率为 0.001 下的结果
[0067] 表6 pscj 在学习率为 0.002 下的结果
[0068]
实施例二如图4所示,本实施例提供了一种基于联邦学习机制的数据识别系统,包括确定单元410、训练单元420、识别单元430。
[0069]
确定单元410用于确定识别模型的骨干网络。
[0070]
其中确定单元410具体可以包括中央服务器,选择基于“resnet-50”结构的卷积神经网络模型作为基础医学图像处理单元,部署在中央服务器上。
[0071]
其中确定单元410具体包括以下模块:残差确定模块以及网络结构确定模块。
[0072]
其中残差模块用于确定骨干网络中的基础残差模块。
[0073]
网络结构确定模块与残差模块连接,用于确定骨干网络的网络结构。
[0074]
训练单元420与确定单元410连接,用于对识别模型进行联邦学习,完成识别模型的训练。
[0075]
其中训练单元420包括中央服务器,在每一轮训练中,终端将本地预训练中的模型参数上传到中央服务器,并借助中央服务器中的样本更新参数。然后将更新后的参数返回给中央服务器,开始下一次迭代。经过多轮双上下文交互训练,有望训练出更好的识别模型。
[0076]
其中训练单元420具体包括以下模块:预训练模块、交互训练模块。
[0077]
其中预训练模块用于进行识别模型的预训练;交互训练模块与预训练模块连接,用于进行识别模型的交互训练。
[0078]
识别单元430与训练单元420连接,用于将电子数据输入至训练完成的识别模型,进行电子数据的识别。
[0079]
本技术具有以下有益效果:本技术重点考虑对用户数据的的隐私保护,通过对联邦学习机制以及残差网络算法的研究和学习,解决了目前其他模型安全性不足的缺陷,设计出了在做到保护用户隐私和安全的前提下,仍能保持对数据进行良好的识别的模型,从而达到对用户提供的电子数据进行良好识别的目的。
[0080]
虽然当前申请参考的示例被描述,其只是为了解释的目的而不是对本技术的限制,对实施方式的改变,增加和/或删除可以被做出而不脱离本技术的范围。
[0081]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1