预测用户收入的方法、装置及计算机可读存储介质与流程

文档序号：15617015发布日期：2018-10-09 21:37阅读：177来源：国知局

本公开涉及计算机技术领域，特别涉及一种预测用户收入的方法、装置及计算机可读存储介质。

背景技术：

消费金融为消费者提供消费信贷服务。众所周知，金融的核心是风控，消费金融首要任务是要做好用户风险评估与管理，在用户准入以及后续风险额度定价等相关环节，都需要对用户的信用风险做审核评估，而收入与个人信用风险有很高的关联性，因此在互联网消费金融场景下，如何较为准确地预测用户个人收入，对风控管理和应用至关重要。

技术实现要素：

发明人研究发现，目前相关技术中更多是使用历史时间的收入序列预测未来收入，预测准确性较差，缺乏针对用户收入水平连续值域的准确预测。

本公开解决的一个技术问题是，如何更加准确的预测用户的收入。

根据本公开实施例的一个方面，提供了一种预测用户收入的方法，包括：利用待预测用户的与收入相关的基本信息以及行为数据，生成待预测用户的收入特征向量；将待预测用户的收入特征向量输入预先训练的用户收入预测模型，获得待预测用户的收入。

在一些实施例中，利用待预测用户的与收入相关的基本信息以及行为数据，生成待预测用户的收入特征向量包括：对基本信息进行独热编码，基本信息为分类型变量；对行为数据进行z分数标准化，行为数据为连续型变量；将独热编码后的基本信息与z分数标准化的行为数据级联，生成待预测用户的收入特征向量。

在一些实施例中，将独热编码后的基本信息与z分数标准化的行为数据级联，生成待预测用户的收入特征向量包括：将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理，得到降维后的待预测用户的收入特征向量。

在一些实施例中，用户收入预测模型为梯度提升树模型或深度学习神经网络模型。

在一些实施例中，该方法还包括：利用样本数据中的样本基本信息、样本行为数据，生成样本用户的收入特征向量；将样本用户的收入特征向量作为输入训练参数，将样本数据中的样本用户收入作为输出训练参数，对用户收入预测模型进行训练，使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。

在一些实施例中，在生成样本用户的收入特征向量之前，该方法还包括：若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值，则对缺失的信息数据进行默认值填充；若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值，则删除样本数据；若样本用户收入高于第二阈值或低于第三阈值，则删除样本数据。

在一些实施例中，该方法还包括：在生成样本用户的收入特征向量之前，对样本行为数据预先进行缩尾处理，样本行为数据包括样本用户的网络消费数据以及金融理财数据。

根据本公开实施例的另一个方面，提供了一种预测用户收入的装置，包括：特征向量生成模块，被配置为利用待预测用户的与收入相关的基本信息以及行为数据，生成待预测用户的收入特征向量；用户收入预测模块，被配置为将待预测用户的收入特征向量输入预先训练的用户收入预测模型，获得待预测用户的收入。

在一些实施例中，特征向量生成模块被配置为：对基本信息进行独热编码，基本信息为分类型变量；对行为数据进行z分数标准化，行为数据为连续型变量；将独热编码后的基本信息与z分数标准化的行为数据级联，生成待预测用户的收入特征向量。

在一些实施例中，特征向量生成模块被配置为：将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理，得到降维后的待预测用户的收入特征向量。

在一些实施例中，用户收入预测模型为梯度提升树模型或深度学习神经网络模型。

在一些实施例中，特征向量生成模块还被配置为利用样本数据中的样本基本信息、样本行为数据，生成样本用户的收入特征向量；装置还包括预测模型训练模块，被配置为将样本用户的收入特征向量作为输入训练参数，将样本数据中的样本用户收入作为输出训练参数，对用户收入预测模型进行训练，使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。

在一些实施例中，该装置还包括样本数据预处理模块，被配置为：若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值，则对缺失的信息数据进行默认值填充；若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值，则删除样本数据；若样本用户收入高于第二阈值或低于第三阈值，则删除样本数据。

在一些实施例中，该装置还包括行为数据预处理模块，被配置为：在生成样本用户的收入特征向量之前，对样本行为数据预先进行缩尾处理，样本行为数据包括样本用户的网络消费数据以及金融理财数据。

根据本公开实施例的又一个方面，提供了一种预测用户收入的装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的预测用户收入的方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的预测用户收入的方法。

本公开能够更加准确的预测用户的收入，有利于为用户更加准确的划定信用风险等级。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开训练梯度提升树模型的流程示意图。

图2示出了本公开一个实施例的预测用户收入的方法的流程示意图。

图3示出了本公开一个实施例的预测用户收入的装置的结构示意图。

图4示出了本公开另一个实施例的预测用户收入的装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

本公开以样本数据中的样本基本信息、样本行为数据以及样本用户收入，采用梯度提升树机器学习算法构建用户收入预测模型为例，描述如何更加准确的预测用户收入。

首先描述收入预测模型的训练过程，该过程主要分为三个部分。

(一)获取样本数据

样本数据具体包括样本基本信息、样本行为数据以及样本用户收入。例如，可以抽取缴纳公积金用户的缴纳基数作为样本用户收入，依托于商城和金融大数据，相应抽取样本用户的样本基本信息、样本行为数据。

样本基本信息具体可以包括性别，年龄，户籍地、常驻地等；样本行为数据具体可以包括网购信息以及金融理财信息。其中，网购信息具体可以包括：(1)综合消费信息，即网购总消费额或笔数、月均消费或笔数、客单价、消费月份数或天数、消费月份账龄比等；(2)优惠信息，即总优惠金额或笔数及其占比、优惠券优惠金额、笔数及其占比等；(3)品类消费信息，即商城各一级类目消费金额、笔数及其占比、最大最小金额、客单价、金额或笔数稳定性(如变异系数、标准差、最大最小差)、各一级类目消费月份数、月消费情况等；(4)浏览信息，即商城各一级类目浏览次数、天数、月数、sku数，各一级类目浏览价格平均、最大、最小、变异系数、最后一次浏览距今天数、最后一次浏览价位、浏览下单转化率、浏览下单平均金额比等。金融理财信息具体可以包括基金、保险理财、券商理财、黄金等是否持有、持有金额、持有天数或月数、持有金额稳定性、各金融理财产品交易频次等。

(二)预处理样本数据

(1)异常样本数据剔除

若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值，则对缺失的信息数据进行默认值填充；若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值，则删除样本数据。若样本用户收入高于第二阈值或低于第三阈值，则删除样本数据。

例如，针对样本用户收入，去除1％分位数以下样本和99％分位数以上样本，避免过大或过小的离群点样本数据点对模型结果造成干扰。对样本基本信息、样本行为数据缺失比例超过一定阈值(如80％)的样本予以剔除，缺失比例过大的样本提供信息较少，同时可能造成模型较大偏差。

(2)样本数据处理

对于样本基本信息等分类型变量，缺失值填充默认类别标签并做one-hot独热编码，例如性别缺失值填充为-2含义为无此信息，常住地填充为-1含义为无此信息，以便为后续one-hot编码做准备)。

因为很多机器学习算法只能处理数值型变量，对分类型变量不可直接处理。one-hot编码后将分类型变量需要数值化，如果每个变量有k个取值，就有k个0-1变量标识，如果数值缺失则k个标识变量全为0，可以起到控制分类型变量各个标签是否出现的开关作用。

对于样本行为数据等连续型变量，可以对1％分位数以下和99％分位数以上样本做winsorized缩尾处理，消除变量异常值带来的模型不稳定，然后对缺失值处理做样本均值填充或零填充。

(3)特征归一化处理

对于连续型变量可以做z分数变换标准化，避免由于量纲带来模型偏差，并加速模型训练时的收敛速度。

(4)特征降维主成分提取

由于连续型变量较多，针对样本行为数据可以做pca主成分分析，通过变量旋转得到旋转后的主成分特征，从而在尽可能保留特征表达信息的基础上，简化特征维度，抽取和聚合出较少特征变量，便于下一步建模训练使用。实验表明，pca主成分分析后数据变量维度从700维左右降至400维左右。

(5)生成样本用户的收入特征向量

利用预处理后的样本基本信息、样本行为数据，可以生成样本用户的收入特征向量。

(三)构建收入预测模型

收入预测模型的具体形式可以有多种，下面以梯度提升树为例进行描述。梯度提升树是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。梯度提升树的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合，它在被提出之初就和支持向量机一起被认为是泛化能力较强的算法。

为获得特征与收入之间的预测关系f(x)，使用xgboost思想原理训练梯度提升树模型。图1示出了本公开训练梯度提升树模型的流程示意图。训练过程简要介绍如下：

(1)设置模型训练参数：迭代学习率(即迭代步长)η，模型训练树棵数(即迭代次数)num_trees，最大树深度max_depth，最小节点分割样本数min_split_sample，样本采样比sample_ratio，特征采样比col_ratio，学习函数选取gbtree，损失函数选取rmse，正则化惩罚项参数γ。

(2)初始化回归树：使用样本收入的均值初始化为只有一个节点(即根节点)的回归树。

(3)每一轮优化目标函数，迭代更新回归树。

目标函数可以定义为为其中，回归树预测函数为即为k棵回归树相加而成的树模型，每棵树的树结构为qk:叶子节点数为tk，叶子节点权重为目标函数包含两部分，一个是损失项为对于收入预测回归树的平方损失函数，另一个是正则项为对于回归树模型复杂度的量度，用于惩罚模型复杂性，增强模型泛化能力。

计算目标函数关于上一轮回归树的目标函数值，及其一阶梯度和二阶梯度，由此获得当前回归树下，目标函数关于上一轮回归树的二阶泰勒展开近似，其为一个二次型函数，在假设给定当前回归树的树结构q下，得到最优化目标函数的结构得分函数其中gi，hi分别为目标函数在上一轮回归树的一阶梯度和二阶梯度。该得分函数含义为，每给定一种树结构q下，对于多种不同的叶子节点权重而言，所能达到的最小化的目标函数值即为score(q)，该树结构得分可以理解为度量树结构的不纯度使用。

然后，遍历特征构造回归树，基于此结构得分函数score(q)，得到迭代更新的回归树。具体通过逐步遍历特征以及特征变量取值，来获得当前迭代轮的最优树结构，即为本轮迭代优化更新的回归树

(4)多轮迭代获得最终收入预测回归树模型。

将样本用户的收入特征向量作为输入训练参数，将样本数据中的样本用户收入作为输出训练参数，对用户收入预测模型进行训练，使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。

上述实施例通过抽取样本数据、筛选建模样本以及处理特征数据，进一步训练梯度提升树模型并调优参数获得最优模型结果，能够对收入连续型目标变量进行准确预测。除了梯度提升树模型之外，还可以尝试其它预测方法，如回归方法、支持向量机线性核方法或者深度学习神经网络模型。

下面结合图2描述本公开一个实施例的预测用户收入的方法。

图2示出了本公开一个实施例的预测用户收入的方法的流程示意图。如图2所示，该实施例中的预测用户收入的方法包括步骤s202～步骤s204。

在步骤s202中，利用待预测用户的与收入相关的基本信息以及行为数据，生成待预测用户的收入特征向量。

例如，可以对基本信息进行独热编码，基本信息为分类型变量；对行为数据进行z分数标准化，行为数据为连续型变量；将独热编码后的基本信息与z分数标准化的行为数据级联，生成待预测用户的收入特征向量。可选的，可以将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理，得到降维后的待预测用户的收入特征向量。

在步骤s204中，将待预测用户的收入特征向量输入预先训练的用户收入预测模型，获得待预测用户的收入。

其中，收入预测模型具体可以为梯度提升树模型或深度学习神经网络模型。

在使用收入预测模型预测用户收入时，对输入数据的预处理与样本数据的预处理步骤类似，在此不做赘述。

上述实施例中提供了一种基于梯度提升树的用户收入预测方法。该方法能够针对用户收入这种连续型目标变量进行预测，能够更加准确的预测用户收入，对用户收入水平进行更加准确的刻画，进而根据不同用户收入对用户划定不同信用风险等级，有助于更好的防范和管理消费信贷用户信用风险，为风控和营销业务提供不同的风险和消费能力评估维度，提高风险防范能力和营销效果。

下面结合图3描述本公开一个实施例的预测用户收入的装置的结构。

图3示出了本公开一个实施例的预测用户收入的装置的结构示意图。如图3所示，该实施例的预测用户收入的装置30包括：

特征向量生成模块303，被配置为利用待预测用户的与收入相关的基本信息以及行为数据，生成待预测用户的收入特征向量；

用户收入预测模块304，被配置为将待预测用户的收入特征向量输入预先训练的用户收入预测模型，获得待预测用户的收入。

在一些实施例中，特征向量生成模块303被配置为：对基本信息进行独热编码，基本信息为分类型变量；对行为数据进行z分数标准化，行为数据为连续型变量；将独热编码后的基本信息与z分数标准化的行为数据级联，生成待预测用户的收入特征向量。

在一些实施例中，特征向量生成模块303被配置为：将独热编码后的基本信息与z分数标准化的行为数据级联后做主成分分析处理，得到降维后的待预测用户的收入特征向量。

在一些实施例中，用户收入预测模型为梯度提升树模型或深度学习神经网络模型。

在一些实施例中，特征向量生成模块303还被配置为利用样本数据中的样本基本信息、样本行为数据，生成样本用户的收入特征向量；装置30还包括预测模型训练模块302，被配置为将样本用户的收入特征向量作为输入训练参数，将样本数据中的样本用户收入作为输出训练参数，对用户收入预测模型进行训练，使用户收入预测模型能够根据输入的待预测用户的收入特征向量获得待预测用户的收入。

在一些实施例中，装置30还包括样本数据预处理模块300，被配置为：若样本基本信息或样本行为数据中缺失的信息数据少于第一阈值，则对缺失的信息数据进行默认值填充；若样本基本信息或样本行为数据中缺失的信息数据不少于第一阈值，则删除样本数据；若样本用户收入高于第二阈值或低于第三阈值，则删除样本数据。

在一些实施例中，装置30还包括行为数据预处理模块301，被配置为：在生成样本用户的收入特征向量之前，对样本行为数据预先进行缩尾处理，样本行为数据包括样本用户的网络消费数据以及金融理财数据。

图4示出了本公开另一个实施例的预测用户收入的装置的结构示意图。如图4所示，该实施例的预测用户收入的装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一个实施例中的预测用户收入的方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(bootloader)以及其他程序等。

预测用户收入的装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430，440，450以及存储器410和处理器420之间例如可以通过总线460连接。其中，输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口440为sd卡、u盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一个实施例中的预测用户收入的方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张瑞军;程建波;彭南博;敖滨
技术所有人：北京京东金融科技控股有限公司
我是此专利的发明人

上一篇：一种磁力辅助成型3D打印成型装置及方法与流程
上一篇：一种重力盐水净化装置和热回收装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。