数据标准化方法和装置与流程

文档序号:35017848发布日期:2023-08-04 08:32阅读:29来源:国知局
数据标准化方法和装置与流程

【】本技术涉及机器学习领域,尤其涉及一种数据标准化方法和装置。

背景技术

0、
背景技术:

1、在当前的信息推送过程中,一般通过联邦学习技术根据用户的操作数据确定用户画像,并训练相应的用户画像标签模型,从而通过用户画像标签模型为用户推送感兴趣的内容或信息。

2、其中,在利用联邦学习技术确定用户画像时,首先需要对用户的操作信息进行标准化处理。由于标准化需要通过大量数据进行,无法针对当前用户的单一操作数据进行,所以需要获取与当前用户关联度较大的特定群体的操作数据,并通过这些数据实现标准化处理。

3、但是随着用户隐私意识的不断增强,越来越多的用户开始限制对终端设备上相关操作数据的采集。这样会导致无法采集到与当前用户相关的特定用户群体的操作数据,进而导致无法对当前用户的操作数据进行标准化处理,无法准确获取用户画像,无法精准的为用户投放感兴趣的内容或信息。

4、在相关技术中,为解决上述问题,可以采集其他用户群体,如隐私意识相对薄弱,并未限制相关操作数据采集的用户群体的操作数据。并利用这些数据对当前用户的操作数据进行标准化处理。

5、但是,由于采集到操作数据的用户群体与特定用户群体并非同一群体,所以采集到的操作数据与特定用户群体的实际操作数据间会存在较大偏差,通过这些数据对当前用户数据所进行的标准化会存在偏差,影响最终确定出的用户画像和用户画像标签模型,从而无法实现准确的推送。


技术实现思路

0、
技术实现要素:

1、针对现有技术中,难以获取目标群体所持目标终端设备上的原始用户数据,从而导致数据标准化结果不准确的问题,本技术提供了一种数据标准化方法和装置。本技术还提供了一种计算机可读存储介质。

2、第一方面,本技术提供一种数据标准化方法,该方法应用于终端设备,该方法包括:

3、获取原始用户数据;

4、根据原始用户数据建立分布拟合模型;

5、通过原始用户数据对分布拟合模型进行模型训练,得到训练结果;

6、发送训练结果至联邦学习服务器;

7、获取联邦学习服务器根据训练结果所确定的分布参数;

8、根据分布参数对原始用户数据进行标准化处理。

9、根据本技术提供的数据标准化方法,克服了现有技术中无法有效获取用户原始数据,以及获取到的样本数据偏见过大、数量太少、质量不高对下游联邦学习模型所造成影响,提高了模型性能。

10、进一步的,为了确定训练结果,通过原始用户数据对分布拟合模型进行模型训练,得到训练结果,包括:

11、通过原始用户数据对分布拟合模型进行训练,以将分布拟合模型的初始权重改变为第一权重,分布拟合模型的权重为分布拟合模型对应分布类型的参数;

12、将第一权重确定为训练结果。

13、进一步的,为了在上传训练结果至联邦学习服务器时保护用户数据隐私,发送训练结果至联邦学习服务器,包括:

14、基于原始用户数据,以及分布拟合模型对应的分布类型,分别确定初始权重在分布拟合模型损失函数中的第一训练损失,以及第一权重在分布拟合模型损失函数中的第二训练损失,其中,分布拟合模型损失函数为分布拟合模型对应分布类型的概率密度函数pdf的负值;

15、根据第一训练损失以及第二训练损失,确定本次训练的第一梯度;

16、发送第一梯度至联邦学习服务器。

17、进一步的,获取联邦学习服务器根据训练结果所确定的分布参数,包括:

18、获取联邦学习服务器根据训练结果确定出的第二权重;

19、当第二权重满足预设条件时,将第二权重确定为分布参数。

20、进一步的,为了确定联邦学习服务器下发的第二权重是否可以确定为分布参数,第二权重满足预设条件,包括:

21、基于原始用户数据,以及分布拟合模型对应的分布类型,确定第二权重在分布拟合模型损失函数中的第三训练损失;

22、根据第三训练损失和第二训练损失确定联邦学习服务器的第二梯度;

23、当第二梯度小于预设的第一阈值时,确定第二权重满足预设条件;或,

24、当第三训练损失与第二训练损失间的差值小于预设的第二阈值时,确定第二权重满足预设条件。

25、进一步的,为了确定联邦学习服务器下发的第二权重是否可以确定为分布参数,当所述第三训练损失与所述第二训练损失间的差值小于预设的第二阈值之后,所述方法还包括:

26、确定所述第三训练损失是否小于预设的第三阈值;

27、当所述第三训练损失小于预设的第三阈值时,确定所述第二权重满足所述预设条件;

28、当所述第三训练损失大于或等于预设的第三阈值时,重新根据原始用户数据建立分布拟合模型。

29、进一步的,所述通过所述原始用户数据对所述分布拟合模型进行训练,以将所述分布拟合模型的初始权重改变为第一权重,包括:

30、通过预设的学习率将所述分布拟合模型的初始权重调节为第一权重。

31、进一步的,为了在上传训练结果至联邦学习服务器时保护用户数据隐私,发送第一梯度至联邦学习服务器,包括:

32、对第一梯度进行差分隐私处理;

33、将差分隐私处理后的第一梯度上传至联邦学习服务器。

34、进一步的,为了确定模型训练是否完成,当第二权重满足预设条件时,将第二权重确定为分布参数,方法还包括:

35、当第二权重不满足预设条件时,重新通过预设的学习率对分布拟合模型的第二权重进行调节,直至确定出满足预设条件的第三权重;

36、将第三权重确定为分布参数。

37、进一步的,根据原始用户数据建立分布拟合模型,包括:

38、当存在至少两种类型的原始用户数据时,分别对各不同类型的原始用户数据建立分布拟合模型;

39、将各用户原始数据的分布拟合模型确定为分布拟合模型集。

40、进一步的,为了实现数据标准化处理,根据分布参数对原始用户数据进行标准化处理,包括:

41、当建立的分布拟合模型是正态分布模型时,根据分布参数确定原始用户数据标准化后的数值;

42、当建立的分布拟合模型不是正态分布模型时,根据分布参数,以及分布拟合模型的累计分布函数cdf确定原始用户数据标准化后的数值。

43、第二方面,本技术提供一种数据标准化方法,该方法应用于联邦学习服务器,该方法包括:

44、接收各目标终端设备所上报的第一梯度,目标终端设备为预先确定的,包含相同特征的若干终端设备,第一梯度由各目标终端设备根据原始用户数据、分布拟合模型对应的分布类型、分布拟合模型的初始权重,以及由对初始权重改变得到的第一权重确定;

45、对各目标终端设备上报的第一梯度取均值,以确定平均梯度;

46、根据平均梯度确定出第二权重;

47、将第二权重发送至目标终端设备。

48、根据本技术提供的数据标准化方法,联邦学习服务器不采集原始用户数据的条件下,仍可以获取全体目标终端设备上所记录的数据分布特征,从而确定出分布参数实现标准化。

49、第三方面,本技术提供一种数据标准化装置,该装置应用于终端设备,该装置包括:

50、第一获取模块,获取原始用户数据;

51、建立模块,根据原始用户数据建立分布拟合模型;

52、训练模块,通过原始用户数据对分布拟合模型进行模型训练,得到训练结果;

53、发送模块,发送训练结果至联邦学习服务器;

54、第二获取模块,获取联邦学习服务器根据训练结果所确定的分布参数;

55、标准化模块,根据分布参数对原始用户数据进行标准化处理。

56、第四方面,本技术提供一种电子设备,电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当计算机程序指令被该处理器执行时,触发电子设备执行如第一方面中任一项的方法步骤。

57、第五方面,本技术提供一种数据标准化装置,该装置应用于联邦学习服务器,该装置包括:

58、接收模块,接收各目标终端设备所上报的第一梯度,目标终端设备为预先确定的,包含相同特征的若干终端设备,第一梯度由各目标终端设备根据原始用户数据、分布拟合模型对应的分布类型、分布拟合模型的初始权重,以及由对初始权重改变得到的第一权重确定;

59、第一确定模块,对各目标终端设备上报的第一梯度取均值,以确定平均梯度;

60、第二确定模块,根据平均梯度确定出第二权重;

61、发送模块,将第二权重发送至目标终端设备。

62、第六方面,本技术提供一种电子设备,电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当计算机程序指令被该处理器执行时,触发电子设备执行如第二方面中任一项的方法步骤。

63、第七方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或第二方面中任一项的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1