乱序处理方法、模型训练方法、装置和计算设备与流程

文档序号：25858917发布日期：2021-07-13 16:13阅读：来源：国知局

技术特征：

1.一种乱序处理方法，包括：

将数据集拆分为多个第一子数据集；

对第一子数据集中的记录进行乱序处理；

将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；

对第二子数据集中的记录进行乱序处理；

将乱序后的第二子数据集合成为乱序后的数据集。

2.如权利要求1所述的方法，所述将数据集拆分为多个第一子数据集，包括：

根据自身的资源，确定第一子数据集能够容纳的记录数；

根据第一子数据集能够容纳的记录数，将所述数据集拆分为多个第一子数据集。

3.如权利要求1所述的方法，每个第一子数据集对应有随机种子；

所述对第一子数据集中的记录进行乱序处理，包括：

根据随机种子，对第一子数据集中的记录进行乱序处理。

4.如权利要求3所述的方法，所述对第一子数据集中的记录进行乱序处理，包括：

根据随机种子，为第一子数据集中的记录生成随机数；

根据记录所对应随机数的大小，对第一子数据集中的记录进行排序。

5.如权利要求1所述的方法，每个第二子数据集对应有随机种子；

所述对第二子数据集中的记录进行乱序处理，包括：

根据随机种子，对第二子数据集中的记录进行乱序处理。

6.如权利要求5所述的方法，所述对第二子数据集中的记录进行乱序处理，包括：

根据随机种子，为第二子数据集中的记录生成随机数；

根据记录所对应随机数的大小，对第二子数据集中的记录进行排序。

7.如权利要求1所述的方法，所述数据集为特征集或者标签集；

所述特征集包括多条记录，每条记录包括训练数据的特征和训练数据的标识；所述标签集包括多条记录，每条记录包括训练数据的标签和训练数据的标识。

8.一种模型训练方法，包括：

将乱序后的数据集拆分为多个子数据集，所述乱序后的数据集根据权利要求1-7中任一项所述方法获得，所述多个子数据集被存储在外存储器中；

在需要训练模型时，从所述外存储器中读取子数据集，根据读取的子数据集训练模型。

9.如权利要求8所述的方法，所述数据集为特征集或者标签集；

10.如权利要求8所述的方法，所述根据读取的子数据集训练模型，包括：

根据读取的子数据集与合作方联合训练模型。

11.如权利要求10所述的方法，所述根据读取的子数据集与合作方联合训练模型，包括：

从所述外存储器中读取一个子数据集，采用梯度下降法根据读取的子数据集与合作方联合训练模型；迭代执行以上步骤，直至所述外存储器中的子数据集被读取完毕。

12.如权利要求10所述的方法，所述根据读取的子数据集与合作方联合训练模型，包括：

从所述外存储器中读取子数据集，根据读取的子数据集与合作方秘密分享损失函数的子梯度和子海森矩阵，得到子梯度的分片和子海森矩阵的分片；

在获得多个子海森矩阵的分片以后，将所述多个子海森矩阵的分片相加，得到海森矩阵的分片，所述多个子海森矩阵的分片根据所述外存储器中的多个子数据集获得；

根据海森矩阵的分片与合作方秘密分享海森矩阵的逆矩阵，得到逆矩阵的分片；

在获得多个子梯度的分片以后，将所述多个子梯度的分片相加，得到损失函数的梯度的分片，所述多个子梯度的分片根据所述外存储器中的多个子数据集获得；

根据逆矩阵的分片和损失函数的梯度的分片与合作方秘密分享模型参数，得到模型参数的分片。

13.如权利要求12所述的方法，所述从所述外存储器中读取子数据集，根据读取的子数据集与合作方秘密分享损失函数的子梯度和子海森矩阵，包括：

采用并行的方式，从所述外存储器中读取多个子数据集，根据读取的多个子数据集与合作方秘密分享损失函数的多个子梯度和多个子海森矩阵，得到多个子梯度的分片和多个子海森矩阵的分片。

14.一种乱序处理装置，包括：

拆分单元，用于将数据集拆分为多个第一子数据集；

第一乱序单元，用于对第一子数据集中的记录进行乱序处理；

分配单元，用于将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；

第二乱序单元，用于对第二子数据集中的记录进行乱序处理；

合成单元，用于将乱序后的第二子数据集合成为乱序后的数据集。

15.一种模型训练装置，包括：

拆分单元，用于将乱序后的数据集拆分为多个子数据集，所述乱序后的数据集根据权利要求1-7中任一项所述方法获得，所述多个子数据集被存储在外存储器中；

训练单元，用于在需要训练模型时，从所述外存储器中读取子数据集，根据读取的子数据集训练模型。

16.一种计算设备，包括：

至少一个处理器；

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-13中任一项所述方法的指令。

技术总结
本说明书实施例公开了一种乱序处理方法、模型训练方法、装置和计算设备。所述乱序处理方法包括：将数据集拆分为多个第一子数据集；对第一子数据集中的记录进行乱序处理；将乱序后的第一子数据集中的记录分配到多个第二子数据集中，每个第二子数据集包括乱序后的各第一子数据集中记录；对第二子数据集中的记录进行乱序处理；将乱序后的第二子数据集合成为乱序后的数据集。本说明书实施例可以在资源有限的情况下，对大规模的数据集进行乱序处理，还可以使用乱序后的大规模的数据集训练模型。

技术研发人员：周亚顺;王华忠;赵原
受保护的技术使用者：支付宝(杭州)信息技术有限公司
技术研发日：2021.03.08
技术公布日：2021.07.13

完整全部详细技术资料下载

当前第2页1 2