获取特征排序模型的装置和方法以及特征排序方法与流程

文档序号：12601643阅读：来源：国知局

技术特征：

1.一种获取特征排序模型的方法，所述方法基于N个原始样本组进行学习，所述N个原始样本组各自包括多个原始样本，并且每个原始样本具有多个特征，其中，N为大于1的自然数，所述方法包括：

针对每个原始样本组，基于该组中的原始样本，获取所述多个特征的排序标签；

针对每个原始样本组，基于该组中的原始样本，提取所述多个特征中的每个特征的子特征；以及

基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征，通过学习获得所述特征排序模型。

2.如权利要求1所述的方法，其中，通过学习获得所述特征排序模型包括：

针对每个原始样本组，基于该组中的原始样本，获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本；

针对每个原始样本组，对于所述多个特征当中的每个两个特征，基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率；

基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率，计算所述特征排序模型的损失函数；以及

通过使所述损失函数最小化，确定所述特征排序模型。

3.如权利要求1所述的方法，其中，

针对一个原始样本组获取所述多个特征的排序标签包括：为该组中的原始样本构建分裂点与所述多个特征相关的回归树，并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。

4.如权利要求3所述的方法，其中，

针对一个原始样本组提取一个特征的子特征包括：基于为该组中的原始样本构建的回归树中与该特征相关的分裂点，为该特征划分多个特征区域，并提取该特征的、基于所述多个特征区域的子特征。

5.如权利要求2所述的方法，其中，

在计算两个特征的比较概率时，使用该两个特征的子特征之间的差的Sigmoid函数，作为该两个特征的子特征的函数，以及

通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算所述比较概率。

6.如权利要求1所述的方法，其中，

所述N个原始样本组是通过从T个原始样本中进行带放回的随机抽取而得到的，并且每个原始样本组包括k个原始样本，其中T、k均为自然数，并且k<<T。

7.一种特征排序方法，其基于通过如权利要求1所述的方法获得的特征排序模型来对多个待测样本的特征进行排序，所述多个待测样本中的每一个均具有多个特征，该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应，所述特征排序方法包括：

基于所述多个待测样本，提取所述多个特征中的每个特征的子特征；以及

利用从所述多个待测样本提取的子特征，根据所述特征排序模型，确定所述多个待测样本的所述多个特征的排序。

8.一种获取特征排序模型的装置，所述装置基于N个原始样本组进行学习，所述N个原始样本组各自包括多个原始样本，并且每个原始样本具有多个特征，其中，N为大于1的自然数，所述装置包括：

排序标签获取单元，其针对每个原始样本组，基于该组中的原始样本，获取所述多个特征的排序标签；

子特征提取单元，其针对每个原始样本组，基于该组中的原始样本，提取所述多个特征中的每个特征的子特征；以及

学习单元，其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征，通过学习获得所述特征排序模型。

9.如权利要求8所述的装置，其中，所述学习单元包括：

交换成本获取子单元，其针对每个原始样本组，基于该组中的原始样本，获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本；

比较概率计算子单元，其针对每个原始样本组，对于所述多个特征当中的每个两个特征，基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率；

损失函数计算子单元，其基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率，计算所述特征排序模型的损失函数；以及

模型确定子单元，其通过使所述损失函数最小化，确定所述特征排序模型。

10.如权利要求8所述的装置，其中，

所述排序标签获取单元被配置为通过下述方式针对一个原始样本组获取所述多个特征的排序标签：为该组中的原始样本构建分裂点与所述多个特征相关的回归树，并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。

完整全部详细技术资料下载

当前第2页1 2 3