样本数据处理方法及装置、模型训练方法及设备与流程

文档序号：18257921发布日期：2019-07-24 10:26阅读：来源：国知局

技术特征：

1.一种用于样本数据扩充处理的方法，所述样本数据包括用户特征数据和标签数据，所述方法包括：

获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据，所述关联关系数据用于反映各个数据节点之间的关联关系强度；以及

针对所述样本数据集中的各个非完备样本数据，至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据，对该非完备样本数据进行数据扩充，

其中，所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。

2.如权利要求1所述的方法，其中，在所述非完备样本数据的标签数据中存在维度缺失时，至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据，对该非完备样本数据进行数据扩充包括：

针对该非完备样本数据的标签数据中的各个维度缺失数据，基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据，确定该标签数据的维度缺失数据。

3.如权利要求2所述的方法，其中，所述标签数据的维度缺失数据是基于下述公式确定出的：

其中，yi表示数据节点i的标签数据的维度缺失数据，α是传播衰减系数，N(i)表示所述数据节点的关联数据节点集合，j表示N(i)中的第j个关联数据节点，aij表示数据节点i与第j个关联数据节点之间的关联关系强度，yj表示数据节点j的标签数据中与所述缺失维度对应的维度数据，以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。

4.如权利要求1所述的方法，其中，在所述非完备样本数据的特征数据存在维度缺失时，至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据，对该非完备样本数据进行数据扩充包括：

针对该非完备样本数据的特征数据中的各个维度缺失数据，基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的对应维度数据，确定该数据节点的特征数据的维度缺失数据；以及

将该数据节点的特征数据与所确定出的维度缺失数据进行拼接，以得到该数据节点的经过扩充处理后的特征数据。

5.如权利要求4所述的方法，其中，所述特征数据的维度缺失数据是按照以下等式确定出的：

其中，表示所述数据节点的维度缺失数据，xn表示所述数据节点的特征数据，N(i)表示所述数据节点的关联数据节点集合，j表示N(i)中的第j个关联数据节点，aij表示数据节点i与第j个关联数据节点之间的关联关系强度，x～j表示第j个关联数据节点的特征数据中的与缺失维度对应的维度数据，以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和，W1是所述数据节点的特征数据的加权因子，以及W2是与关联数据节点相关的维度缺失数据的加权因子。

6.一种用于训练模型的方法，包括：

在样本数据集中存在至少一个非完备样本数据时，使用如权利要求1到5中任一所述的方法来对所述至少一个非完备样本数据进行扩充处理；以及

使用经过扩充后的样本数据集来训练模型。

7.一种用于样本数据处理的装置，所述样本数据包括特征数据和标签数据，所述装置包括：

关联关系数据获取单元，被配置为获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据，所述关联关系数据用于反映各个数据节点之间的关联关系强度；以及

样本数据扩充单元，被配置为针对所述样本数据集中的各个非完备样本数据，至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的特征数据和/或标签数据，对该非完备样本数据进行数据扩充，

其中，所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。

8.如权利要求7所述的装置，其中，所述样本数据扩充单元包括：

标签数据扩充模块，被配置为在所述非完备样本数据的标签数据中存在维度缺失时，针对该非完备样本数据的标签数据中的各个维度缺失数据，基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据，确定该标签数据的维度缺失数据。

9.如权利要求8所述的装置，其中，所述标签数据的维度缺失数据是基于下述公式确定出的：

10.如权利要求7所述的装置，其中，所述样本数据扩充单元包括：

特征数据扩充模块，被配置为在所述非完备样本数据的特征数据中存在维度缺失时，至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据，对所述数据节点的特征数据进行数据扩充。

11.如权利要求10所述的装置，其中，所述特征数据扩充模块包括：

维度缺失特征数据确定子模块，被配置为针对该非完备样本数据的特征数据中的各个维度缺失数据，基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的与缺失维度对应的维度数据，确定该数据节点的特征数据的维度缺失数据；以及

拼接子模块，被配置为针对各个非完备样本数据，将该非完备样本数据的特征数据与所确定出的维度缺失数据进行拼接，以得到经过扩充处理后的特征数据。

12.如权利要求11所述的装置，其中，所述特征数据的维度缺失数据是按照以下等式确定出的：

其中，表示所述数据节点的特征数据中的维度缺失数据，xn表示所述数据节点的特征数据，N(i)表示所述数据节点的关联数据节点集合，j表示N(i)中的第j个关联数据节点，aij表示数据节点i与第j个关联数据节点之间的关联关系强度，x～j表示第j个关联数据节点的特征数据中的与缺失特征维度对应的维度数据，以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和，W1是所述数据节点的特征数据的加权因子，以及W2是与关联数据节点相关的维度缺失数据的加权因子。

13.一种用于训练模型的设备，包括：

样本数据处理装置，被配置为在样本数据集中存在至少一个非完备样本数据时，使用如权利要求1到5中任一所述的方法来对所述至少一个非完备样本数据进行数据扩充；以及

训练装置，被配置为使用经过数据扩充后的样本数据集来训练模型。

14.一种计算设备，包括：

至少一个处理器；以及

存储器，其上存储有计算机可执行指令，所述计算机可执行指令当被执行时使得所述至少一个处理器执行权利要求1-5中的任意一个所述的方法。

15.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令当被执行时使得计算机执行权利要求1-5中的任意一个所述的方法。

完整全部详细技术资料下载

当前第2页1 2 3