数据处理方法、客户端、装置及计算机可读存储介质与流程

文档序号：24335377发布日期：2021-03-19 12:15阅读：来源：国知局

技术特征：

1.一种数据处理方法，包括：

从云端下载联邦学习模型和注有标签的公有数据；

利用所述公有数据及所述公有数据的标签，对本地存储的私有数据进行标注；

利用注有标签的所述私有数据训练联邦学习模型，得到联邦学习模型的参数；

将所述参数上传至云端。

2.如权利要求1所述的数据处理方法，其中，所述利用所述公有数据及所述公有数据的标签，对本地存储的私有数据进行标注包括：

利用联邦学习模型的卷积层提取所述私有数据的特征向量；

对所述私有数据的特征向量进行聚类，并根据聚类结果为所述私有数据标注伪标签；

利用注有伪标签的所述私有数据训练联邦学习模型，得到联邦学习模型的卷积层参数；

利用训练后的联邦学习模型重新提取所述私有数据的特征向量，并提取所述公有数据的特征向量；

根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离，为所述私有数据标注标签。

3.如权利要求2所述的数据处理方法，其中，所述利用注有标签的所述私有数据训练联邦学习模型，得到联邦学习模型的参数包括：

利用注有标签的所述私有数据训练联邦学习模型的分类器，得到联邦学习模型的分类器参数；

将所述卷积层参数和所述分类器参数作为联邦学习模型的参数。

4.如权利要求2所述的数据处理方法，其中，对所述私有数据的特征向量进行聚类时，聚类的类别数量与所述公有数据的标签的类别数量相同。

5.如权利要求2所述的数据处理方法，其中，所述根据聚类结果为所述私有数据标注伪标签包括：

若任意的第一私有数据的特征向量与任意的第二私有数据的特征向量属于相同的聚类类别，则为所述第一私有数据和所述第二私有数据标注相同的伪标签；

若所述第一私有数据的特征向量与所述第二私有数据的特征向量属于不同的聚类类别，则为所述第一私有数据和所述第二私有数据标注不同的伪标签。

6.如权利要求2所述的数据处理方法，其中，所述根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离，为所述私有数据标注标签包括：

确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量；

将所述一个公有数据的特征向量所对应公有数据的标签，作为所述第三私有数据的标签；

或者，

确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量；

从所述多个公有数据的特征向量所对应公有数据的标签中，选择出现次数最多的标签作为所述第三私有数据的标签。

7.一种客户端，包括：

数据下载模块，被配置为从云端下载联邦学习模型和注有标签的公有数据；

数据标注模块，被配置为利用所述公有数据及所述公有数据的标签，对本地存储的私有数据进行标注；

参数获取模块，被配置为利用注有标签的所述私有数据训练联邦学习模型，得到联邦学习模型的参数；

数据上传模块，被配置为将所述参数上传至云端。

8.如权利要求7所述的客户端，其中，所述数据标注模块被配置为：

利用联邦学习模型的卷积层提取所述私有数据的特征向量；

对所述私有数据的特征向量进行聚类，并根据聚类结果为所述私有数据标注伪标签；

利用注有伪标签的所述私有数据训练联邦学习模型，得到联邦学习模型的卷积层参数；

利用训练后的联邦学习模型重新提取所述私有数据的特征向量，并提取所述公有数据的特征向量；

根据重新提取的所述私有数据的特征向量与所述公有数据的特征向量之间的距离，为所述私有数据标注标签。

9.如权利要求8所述的客户端，其中，所述参数获取模块被配置为：

利用注有标签的所述私有数据训练联邦学习模型的分类器，得到联邦学习模型的分类器参数；

将所述卷积层参数和所述分类器参数作为联邦学习模型的参数。

10.如权利要求8所述的客户端，其中，所述数据标注模块被配置为：对所述私有数据的特征向量进行聚类时，聚类的类别数量与所述公有数据的标签的类别数量相同。

11.如权利要求8所述的客户端，其中，所述数据标注模块被配置为：

若所述第一私有数据的特征向量与所述第二私有数据的特征向量属于不同的聚类类别，则为所述第一私有数据和所述第二私有数据标注不同的伪标签。

12.如权利要求8所述的客户端，其中，所述数据标注模块被配置为：

确定与任意的第三私有数据的特征向量距离最近的一个公有数据的特征向量；

将所述一个公有数据的特征向量所对应公有数据的标签，作为所述第三私有数据的标签；

或者，

确定与任意的第三私有数据的特征向量距离最近的多个公有数据的特征向量；

从所述多个公有数据的特征向量所对应公有数据的标签中，选择出现次数最多的标签作为所述第三私有数据的标签。

13.一种数据处理装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的数据处理方法。

14.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至6中任一项所述的数据处理方法。

技术总结
本公开提供了一种数据处理方法、客户端、装置及计算机可读存储介质，涉及人工智能技术领域。其中数据处理方法包括：从云端下载联邦学习模型和注有标签的公有数据；利用公有数据及公有数据的标签，对本地存储的私有数据进行标注；利用注有标签的私有数据训练联邦学习模型，得到联邦学习模型的参数；将参数上传至云端。本公开能够对本地存储的私有数据进行自动标注，提高了联邦学习模型的训练效率和分类性能。

技术研发人员：丘海华;庞涛;潘碧莹;陈学亮;张笛
受保护的技术使用者：中国电信股份有限公司
技术研发日：2019.09.19
技术公布日：2021.03.19

完整全部详细技术资料下载

当前第2页1 2