一种用户设备鉴别方法、装置和计算机设备与流程

文档序号:27260897发布日期:2021-11-05 21:54阅读:90来源:国知局
一种用户设备鉴别方法、装置和计算机设备与流程

1.本发明涉及计算机信息处理领域,具体而言,涉及一种用户设备鉴别 方法、装置和计算机设备。


背景技术:

2.风险控制(简称为风控)是指风险管理者采取各种措施和方法,消灭 或减少风险案件发生的各种可能性,或风险控制者减少风险案件发生时造 成的损失。风险控制一般应用于互联网行业,如对公司的交易、商家的交 易或个人交易等进行风险控制。
3.在互联网风控领域,随着监管整改措施的实施以及互联网资源使用人 违约意识的加强,在互联网服务中违约样本较少,尤其在特定场景下(例 如首次逾期的场景下)场景下的欺诈识别,存在着较严重的类别不平衡问 题。而这实质上是指正负样本类别的不平衡和样本识别难易程度的不平衡 等两方面。如果从整体来看,大量负样本通常是容易识别样本,大量正样 本通常是较难识别样本,因此,两种不平衡可归结为属性不平衡(或者类 别不平衡),进而导致因属性不平衡或者类别不平衡(即不平衡样本数据 集)引起的采样过拟合问题、模型参数不精确、模型精度低等问题。
4.现有技术中,针对不平衡样本数据集的建模问题,通常使用如下方式 解决:1)数据层面,从原始的数据集入手,运用一定的抽样方法(如过 采样、欠采样、混合随机抽样等方法)来改变数据集的样本分布,从而改 变不同类别样本之间的不平衡度。2)基于算法层面,在不改变样本分布 的前提下,通过设置样本权重、改变现有的分类器使算法对小样本更加敏 感,通常有boosting集成算法、代价敏感法等。3)判别准则方面,不平 衡样本数据集评估通常使用混淆矩阵、灵敏度、特异度、auc等指标进 行评估。此外,在用户关联设备的风险预测、模型参数估计、模型计算精 度、特征提取、数据更新方面仍存在很大改进空间。
5.因此,有必要提供一种改进了的用户设备鉴别方法。


技术实现要素:

6.为了解决如下问题:更精确地筛选特征,提高模型预测精度、精确量 化用户设备的风险大小,对新用户设备进行有效风险鉴别,以及减少互联 网服务平台的损失等。
7.本发明的第一方面提供了一种互联网服务的用户设备鉴别方法,包括: 获取历史用户设备的设备数据和设备互联网服务表现数据,筛选变量特征 数据,确定正、负样本,以建立第一风险模型的第一训练数据集d1和测试 数据集d3;对所述第一风险模型进行验证训练,以建立第二训练数据集d2; 使用梯度调和机制方法,并使用所述第二训练数据集d2对第二风险模型进 行训练;使用训练好的所述第二风险模型,对申请所述互联网服务的新用 户设备进行鉴别处理。
8.根据本发明的可选实施方式,所述使用梯度均衡机制方法,并使用所 述第二训练数据集d2对第二风险模型进行训练包括:根据所述第二训练数 据集d2,拟合所述第二训练数据集d2的样本分布图形,以计算梯度密度调 和参数β
i

9.根据本发明的可选实施方式,所述使用梯度均衡机制方法,并使用所 述第二训练数据集d2对第二风险模型进行训练包括:根据梯度密度调和参 数β
i
,使用如下表达式计算每个训练样本的损失梯度,即为预测值和真值 的差距:
[0010][0011]
其中,n是指第二训练数据集的训练样本的总量;p
i
∈[0,1]是使用所 述第二风险模型计算的预测概率;是指用于确定用户设备是否 是风险设备的类标签;是指各训练样本的交叉熵损失;gd(g)是 指第二训练数据集的训练样本的梯度密度,其物理含义为单位梯度模长g部分的样本个数;δ
ε
(g
k
,g)是指训练样本中 梯度模长分布在范围内的样本个数;l
ε
(g)是指区间的梯度模长。
[0012]
根据本发明的可选实施方式,包括:当所述第二训练数据集中训练样 本的损失梯度大于设定值的训练样本占比在所述第二训练数据集的样本 总量的指定比率以上时,结束对所述第二风险模型的训练。
[0013]
根据本发明的可选实施方式,所述对所述第一风险模型进行验证训练 包括:使用k折交叉验证算法,将所述第一训练数据集d1拆分为训练集d
11
和验证集d
12
,其中,为5~10;使用训练集d
11
和验证集d
12
,对所述第一 风险模型进行验证训练。
[0014]
根据本发明的可选实施方式,对每次交叉验证中的验证集d
12
的预测 值进行拼接处理,得到用户设备相关的区别度特征和风险特征,以作为所 述第二风险模型的输入特征;使用如下至少两个特征量化生成的标签值表 征所述第二风险模型的标签值:设备的app欺诈数据、设备的逾期数据、 设备的多头特征数据和设备关联用户的关系网特征数据。
[0015]
根据本发明的可选实施方式,所述使用训练好的所述第二风险模型, 对申请所述互联网服务的新用户设备进行鉴别处理包括:当接收到所述新 用户设备向互联网服务平台的资源服务请求时,获取所述新用户设备的设 备数据,将所述设备数据输入所述第二风险模型,输出所述新用户设备的 预测值;根据所所计算的预测值,判断所述新用户设备是否为风险设备。
[0016]
此外,本发明的第二方面提供了一种互联网服务的用户设备鉴别装置, 包括:筛选处理模块,用于获取历史用户设备的设备数据和设备互联网服 务表现数据,筛选变量特征数据,确定正、负样本,以建立第一风险模型 的第一训练数据集d1和测试数据集d3;第一训练模块,用于对所述第一风 险模型进行验证训练,以建立第二训练数据集d2;第二训练模块,用于使 用梯度调和机制方法,并使用所述第二训练数据集d2对第二风险模型进行 训练;鉴别处理模块,用于使用训练好的所述第二风险模型,对申请所述 互联网服务的新用户设备进行鉴别处理。
[0017]
根据本发明的可选实施方式,还包括计算处理模块,所述计算处理模 块用于根据所述第二训练数据集d2,拟合所述第二训练数据集d2的样本分 布图形,以计算梯度密度调和参数β
i

[0018]
此外,本发明的第三方面提供了一种计算机设备,包括处理器和存储 器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处 理器执行时,所述处理器执行如本发明的第一方面所述的互联网服务的用 户设备鉴别方法。
[0019]
此外,本发明的第四方面提供了一种计算机程序产品,存储有计算机 可执行程序,所述计算机可执行程序被执行时,实现如本发明的第一方面 所述的用户设备鉴别方法。
[0020]
有益效果
[0021]
与现有技术相比,本发明通过筛选变量特征数据,建立第一风险模型 的第一训练数据集d1和测试数据集d3,能够有效筛选出覆盖率高、对目标 变量区分效果明显、信息增益大的特征集;通过第一训练数据集对所述第 一风险模型进行验证训练,建立第二训练数据集d2,能够为后续建立模型 提供精确的训练样本数据;使用梯度调和机制方法,并使用所述第二训练 数据集d2对第二风险模型进行训练,能够在模型训练过程中调整不同样本 的梯度贡献,能够提高模型对正负样本的区分能力,提高模型预测精度, 且无需调整模型超参数;使用训练好的所述第二风险模型,能够对申请所 述互联网服务的新用户设备进行有效鉴别处理,能够有效拒绝风险设备, 能够有效减少互联网服务平台的损失。
[0022]
进一步地,通过设定筛选规则,对变量特征数据进行筛选,能够筛选 出覆盖率高、对目标变量区分效果明显、信息增益大的特征集,为后续建 立模型提供精确的训练样本数据;通过使用k折交叉验证对数据进行划分 后的训练集和验证集对所述第一风险模型进行验证训练,使用所述第一风 险模型的输出结果,生成第二训练数据集d2,能够得到更精确的第二训练 数据集d2,并能够优化训练过程;采用决策树算法对各变量特征的特征重 要度进行计算,根据计算结果进行变量特征筛选,能够筛选出风险区分度 高且可解释性强的特征。
附图说明
[0023]
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果 更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是, 下面描述的附图仅仅是本发明本发明示例性实施例的附图,对于本领域的 技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其 他实施例的附图。
[0024]
图1是本发明的实施例1的互联网服务的用户设备鉴别方法的一示例 的流程图。
[0025]
图2是本发明的实施例1的互联网服务的用户设备鉴别方法的另一示 例的流程图。
[0026]
图3是本发明的实施例1的互联网服务的用户设备鉴别方法的又一示 例的流程图。
[0027]
图4是本发明的实施例2的互联网服务的用户设备鉴别装置的一示例 的示意图。
[0028]
图5是本发明的实施例2的互联网服务的用户设备鉴别装置的另一示 例的示意图。
[0029]
图6是本发明的实施例2的互联网服务的用户设备鉴别装置的又一 示例的示意图。
[0030]
图7是根据本发明的计算机设备的示例性实施例的结构框图。
[0031]
图8是根据本发明的计算机程序产品的示例性实施例的结构框图。
具体实施方式
[0032]
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性 实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实 施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更 加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标 记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
[0033]
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特 征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其 他的实施例中。
[0034]
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他 细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除 本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性 或其他细节的一个或更多。
[0035]
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操 作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以 分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能 根据实际情况改变。
[0036]
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实 体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个 硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置 和/或微控制器装置中实现这些功能实体。
[0037]
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来 描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语 乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离 本发明实质的技术方案。
[0038]
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一 或多者的所有组合。
[0039]
鉴于上述问题,本发明通过筛选变量特征数据,建立第一风险模型的 第一训练数据集d1和测试数据集d3,能够有效筛选出覆盖率高、对目标变 量区分效果明显、信息增益大的特征集;通过第一训练数据集对所述第一 风险模型进行验证训练,建立第二训练数据集d2,能够为后续建立模型提 供精确的训练样本数据;使用梯度调和机制方法,并使用所述第二训练数 据集d2对第二风险模型进行训练,能够在模型训练过程中调整不同样本的 梯度贡献,能够提高模型对正负样本的区分能力,提高模型预测精度,且 无需调整模型超参数;使用训练好的所述第二风险模型,能够对申请所述 互联网服务的新用户设备进行有效鉴别处理,能够有效拒绝风险设备,能 够有效减少互联网服务平台的损失。
[0040]
需要说明的是,本发明中,本发明的创新之处在于如何根据用户设备 与互联网服务平台之间的交互(即物与物之间的信息交互),使用户设备 的风险鉴别过程更加自动化、高效和减小人力成本。但是,为了方便起见, 本发明中以互联网服务为例说明新用户设备鉴别的实施,但是不能理解成 对本发明的限制。以下将详细描述新用户设备鉴别方法的具体过程。
[0041]
实施例1
[0042]
下面,将参照图1至图3描述本发明的互联网服务的用户设备鉴别方 法的实施例。
[0043]
图1为本发明的互联网服务的用户设备鉴别方法的一示例的流程图。 如图1所示,该用户设备鉴别方法包括如下步骤。
[0044]
步骤s101,获取历史用户设备的设备数据和设备互联网服务表现数据, 筛选变量特征数据,确定正、负样本,以建立第一风险模型的第一训练数 据集d1和测试数据集d3。
[0045]
步骤s102,对所述第一风险模型进行验证训练,以建立第二训练数据 集d2。
[0046]
步骤s103,使用梯度调和机制方法,并使用所述第二训练数据集d2对 第二风险模型进行训练。
[0047]
步骤s104,使用训练好的所述第二风险模型,对申请所述互联网服务 的新用户设备进行鉴别处理。
[0048]
为了精确地对新用户设备风险鉴别,对互联网服务期间的设备互联网 服务表现数据进行特征筛选,根据所筛选的特征(例如覆盖率高、区分度 (ks)及信息增益值大等的特征),为建立模型提供训练样本数据,以精 确对新用户设备进行有效风险鉴别,能够有效拒绝风险设备,能够减少互 联网服务平台的损失。
[0049]
需要说明的是,在本发明中,所述互联网服务包括由用户设备(或用 户关联设备)向互联网服务平台的申请而提供例如购物、乘车、地图、外 卖、共享单车等的互联网服务资源。例如,资源分配服务、资源使用服务、 资源保障服务或互助服务、资源筹集服务、拼团购买以及乘车服务等等。 其中,资源是指任何可被利用的物质、信息、时间,信息资源包括计算资 源和各种类型的数据资源。数据资源包括各个领域中的各种专用数据。用 户设备(或用户关联设备)是指在互联网服务平台上申请服务时注册用户 所关联的设备,通常使用设备id代表。
[0050]
下面将以互联网资源分配服务为示例说明本发明方法的具体过程。
[0051]
首先,在步骤s101中,获取历史用户设备的设备数据和设备互联网 服务表现数据,筛选变量特征数据,确定正、负样本,以建立第一风险模 型的第一训练数据集d1和测试数据集d3。
[0052]
作为一具体实施方式,在用户设备对互联网资源分配服务进行资源分 配申请场景下,获取历史用户设备的设备数据和设备互联网服务表现数据, 其中,所述设备数据包括设备id、设备标识码、设备名称,在资源使用期 间的关机、换号或暂停使用,卸载app以及客服电话拒接等数据;所述设 备互联网服务表现数据包括特定时间段内的互联网服务申请频率互联网 服务使用次数、互联网资源未归还数据、设备的逾期数据、设备的app 欺诈数据、设备的多头特征数据和设备关联用户的关系网特征数据、同 一设备的设备关联用户数据和设备关联用户的数量,其中,该设备的逾期 数据包括用户设备是否自资源归还时间起特定时间段内归还了互联网服 务资源。
[0053]
具体地,所述特定时间段为5~30天,例如特定时间为5天、7天、 15天、20天或30天等。
[0054]
更具体地,所述设备关联用户数据包括用户基本信息、人行征信信息、 多头信息、以及互联网资源服务app的各种操作行为信息等。
[0055]
进一步地,例如将上述信息融合,形成宽表变量,并对相关数据进行 数据清洗加工,以保证后期模型的稳定性与准确性。
[0056]
具体地,所述数据清洗加工包括以下至少两种处理:变量缺失率分析 处理、psi分
析、异常值处理、连续型变量离散化处理、woe转换处理、 离散型变量woe转换及哑变量转换、文本变量加工处理和特征衍生等。
[0057]
接下来,将具体说明筛选变量特征数据的过程。
[0058]
优选地,通过设定筛选规则,对变量特征数据进行筛选。
[0059]
具体地,所述筛选规则包括确定筛选参数,该筛选参数包括至少以下 一种参数:变量覆盖度、单一取值覆盖度、与目标变量相关性或显著性、 变量稳定性psi、对目标变量的区分度(ks)、信息增益值(iv)以及特 征重要性等。
[0060]
在一实施方式中,确定筛选参数为信息增益值(iv)、变量覆盖度和 对目标变量的区分度(ks)。所述筛选规则包括选择信息增益值最大的变 量特征,变量覆盖度大于设定值的变量特征,以及区分度(ks)大于指定 值的变量特征。
[0061]
进一步地,所述筛选规则还包括:对每个模型特征变量进行分箱处理, 并进行woe转换,以计算每个变量特征的信息增益值iv以及变量特征之 间的相关系数corr。
[0062]
例如,采用卡方分箱对每个模型特征变量进行分箱处理,并计算woe
i
值,具体计算公式如下。
[0063][0064]
其中,woe
i
为第i个分箱的woe值;#good(i)为第i个分箱中标签 为good的数量;#good(t)为所有分箱中good的总数量;#bad(i)为第i 个分箱中标签为bad的数量;#bad(t)为所有分箱中bad的总数量。
[0065]
进一步地,基于所计算的woe
i
,计算每个变量特征的信息增益值iv, 具体计算公式如下。
[0066][0067]
其中,iv是指变量特征的信息增益值;n为变量特征的数量;由于计 算公式(2)中woe
i
、#good(i)、#good(t)、#bad(i)、#bad(t)与计算 公式(1)中的woe
i
、#good(i)、#good(t)、#bad(i)、#bad(t)所表示 的物理意义相同,因此省略了对它们的说明。
[0068]
具体地,根据选择信息增益值最大的变量特征,变量覆盖度大于设定 值的变量特征,以及区分度(ks)大于指定值的变量特征等的筛选规则, 来筛选变量特征,该变量特征包括覆盖率大于指定值的第一变量特征、区 分度(ks)大于特定阈值的第二变量特征及信息增益值(iv)大于设定值 的第三变量特征。
[0069]
可选地,对筛选出的变量特征进行交叉组合运算,以扩增变量特征, 还进一步生成其他衍生变量特征。
[0070]
由此,通过设定筛选规则,对变量特征数据进行筛选,能够筛选出覆 盖率高、对目标变量区分效果明显、信息增益大的特征集,为后续建立模 型提供精确的训练样本数据。
[0071]
需要说明的是,对于变量特征的提取和筛选,在本示例中,设定筛选 规则,但是不限于此,在其他示例中,可以设定提取规则和筛选规则,或 者,也可以仅设定提取规则,或者还可以仅设定筛选规则。上述仅作为示 例进行说明,不能理解成对本发明的限制。
[0072]
接下来,确定正、负样本,以建立第一风险模型的第一训练数据集d1和 测试数据集d3,其中,所述第一风险模型为初级分类器,该初级分类器 包括xgboost模型、lightgbm
模型、和gbdt模型。
[0073]
具体地,根据所筛选的变量特征,建立第一训练数据集d1和测试数据 集d3,所述测试数据集d3用于对新提取的变量特征(例如第一变量特征、 第二变量特征和第三变量特征)进行打分预测。
[0074]
更具体,第一训练数据集d1包括标注有第一风险标签的历史用户设备 的设备数据、第一变量特征、第二变量特征和第三变量特征。
[0075]
作为一具体示例,定义好、坏样本(即正、负样本),建立第一风险 模型的第一训练数据集d1,其中,第一风险标签为0,1。该第一风险标签 是由用户设备是否在首次资源归还起特定时间段内(例如为7天内)归还 了互联网服务资源的指定概率来确定的,具体地,1表示用户设备在首次 资源归还起特定时间段内(例如为7天内)归还了互联网服务资源的归还 概率为y以上的样本,0表示用户设备未在首次资源归还起特定时间段 内(例如为7天内)归还互联网服务资源的归还概率为小于y的样本。 通常,用户设备的归还概率越高,互联网资源回收的情况越好,资金的 使用效率越好,资产的风险程度就越低,反之亦然。
[0076]
进一步地,还建立第一风险模型的测试数据集d3。
[0077]
在本示例中,坏样本(即负样本)的数量与好样本(即正样本)的数 量的比例小于1%。
[0078]
为了使好、坏样本均衡,例如使用smote算法等对坏样本(即少数 类样本)进行过采样,并且对好样本(即多数类样本)进行欠采样,以使 好样本和坏样本的数量比例达到指定比例(例如1:3~8:9),即可用于建立 训练数据集的指定比率。由此,能够精确地建立第一风险模型的第一训练 数据集d1和测试数据集d3。
[0079]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限 制。
[0080]
在步骤s102中,对所述第一风险模型进行验证训练,以建立第二训 练数据集d2。
[0081]
具体地,使用k折交叉验证算法,将所述第一训练数据集d1拆分为训 练集d
11
和验证集d
12
,使用训练集d
11
和验证集d
12
,对所述第一风险模型 进行验证训练。
[0082]
需要说明的是,由于训练集d
11
和验证集d
12
所包括的数据与第一训练 数据集d1所包括的数据相同,因此,省略了对该部分的说明。
[0083]
对于使用k折交叉验证对数据进行划分,其中,k为5~10。
[0084]
例如,k为5。具体地,采用五折交叉验证算法对所述第一训练数据 集d1进行拆分,形成训练集d
11
和验证集d
12
。换言之,对第一训练数据集 d1做cvfold=5,将第一训练数据集d1中所有的数据分成5份,使用其中4 份用作训练数据(训练集d
11
),而使用剩余的1份用作val数据(验证集d
12
)。
[0085]
例如,k为10。具体地,采用十折交叉验证算法对所述第一训练数据 集d1进行拆分,形成训练集d
11
和验证集d
12
。换言之,对第一训练数据集 d1做cvfold=10,将第一训练数据集d1中所有的数据分成10份,使用其 中9份用作训练数据(训练集d
11
),而使用剩余的1份用作val数据(验 证集d
12
)。
[0086]
因此,通过使用k折交叉验证对数据进行划分后的训练集和验证集对 所述第一风险模型进行验证训练,使用所述第一风险模型的输出结果,生 成第二训练数据集d2,由此能够得到更精确的第二训练数据集d2,并能够 优化训练过程。
[0087]
进一步地,使用所述第一风险模型的输出结果,生成第二训练数据集 d2。
[0088]
在一优选实施方式中,将步骤s102拆分成“对所述第一风险模型进 行验证训练”的步骤s102和“建立第二训练数据集d
2”的步骤s201,具 体参见图2。
[0089]
在步骤s201中,建立第二训练数据集d2。
[0090]
具体地,通过将所述第一风险模型的输出结果进行拼接处理,生成第 二训练数据集d2。
[0091]
在一实施方式中,对每次交叉验证中的验证集d
12
的预测值进行拼接 处理,得到用户设备相关的区别度特征和风险特征,以作为所述第二风险 模型的输入特征。
[0092]
具体地,使用所述测试数据集d3进行打分预测,将十次交叉验证产生 的评分取平均值,作为测试数据集中新变量特征(即,对应于本发明中的 衍生变量特征)的取值。
[0093]
例如,若有m个第一风险模型(即初级分类器),并且训练集d
11
的样 本量为n个,则生成n行m列的新变量特征(即,对应于本发明中的衍生 变量特征),以用作第二风险模型(即次级分类器)的输入特征,以生成 第二训练数据集d2。
[0094]
对于测试数据集d3的衍生变量特征的取值,则是对应于在每一次进行 交叉验证训练出一个初级分类器时对测试数据集d3的样本进行打分预测, 最终将10次交叉验证产生的初级分类器的打分进行平均,作为测试数据 集d3中衍生变量特征的取值。
[0095]
在另一实施方式中,将验证集d
12
和/或测试数据集d3所生成的衍生变 量特征与其他特征一起作为次级分类器的输入特征,以生成第二训练数据 集d2。
[0096]
在又一实施方式中,基于拼接处理结果,采用rfe递归变量筛选方法 进一步进行特征筛选,生成新的衍生变量特征作为第二风险模型的输入特 征,以作为第二训练数据集d2的一部分数据。
[0097]
具体地,所述衍生变量特征包括与表征用户设备风险性或欺诈性相关 的区别度特征、风险特征、解释性特征和补充性特征。
[0098]
因此,通过对每次交叉验证中的验证集d
12
的预测值进行拼接处理, 以作为所述第二风险模型的输入特征;基于拼接处理结果,采用rfe递归 变量筛选方法进一步进行特征筛选,生成新的衍生变量特征作为第二风险 模型的输入特征;通过将验证集d
12
和/或测试数据集d3生成衍生变量特征 作为第二风险模型的输入特征,以生成第二训练数据集d2,由此,能够得 到包含多种变量特征的第二训练数据集d2。
[0099]
在一实施方式中,所述第二训练数据集d2包括标注有第二风险标签 (例如欺诈概率或违约概率)的历史用户设备的设备数据(例如设备id、 设备标识码),其中,所述欺诈概率由如下至少两种特征量化表征:虚假 信息的资源请求数据、特定时间内同一设备重复申请次数大于设定值、设 备的app欺诈数据、设备的逾期数据、设备的多头特征数据和设备关 联用户的关系网特征数据等。
[0100]
可选地,所述欺诈概率由如下至少两种特征量化表征:设备的app 欺诈数据、设备的逾期数据、设备的多头特征数据和设备关联用户的关 系网特征数据等。
[0101]
需要说明的是,第一风险标签和第二风险标签的设定可以互换,即第 一分风险标签为欺诈概率或违约概率,而第二风险标签为用户设备是否在 首次资源归还起特定时间段内(例如为7天内)归还了互联网服务资源的 指定概率。在其他示例中,还可以使用其他特征来设定第一风险标签或第 二风险标签。上述仅作为示例进行说明,不能理解成对本发明的限制。
[0102]
为了提高模型对正负样本的区分能力,并提高模型预测精度,本发明 通过使用梯度调和机制方法,在模型训练过程中调整不同样本的梯度贡献, 目标是既不过多关注易分样本,但是也不过多关注特别难分的样本(即 outliers,离群点),通过将梯度调和机制嵌入分类损失中,以重新设计损 失函数,且无需调整模型超参数。下面将对该部分进行具体说明。
[0103]
在步骤s103中,使用梯度调和机制方法,并使用所述第二训练数据 集d2对第二风险模型进行训练。
[0104]
在一实施方式中,使用xgboost模型或lr模型,建立第二风险模型。
[0105]
例如,使用设备的app欺诈数据和设备的逾期数据量化生成的类标 签值表征所述第二风险模型的标签值,输入特征为用户设备的设备id。
[0106]
具体地,根据步骤s102所生成(或建立)的第二训练数据集d2,拟 合所述第二训练数据集d2的样本分布图形,以计算梯度密度调和参数β
i

[0107]
使用如下表达式计算梯度密度调和参数β
i

[0108][0109]
其中,β
i
是指梯度密度调和参数;n是指第二训练数据集的训练样本 的总量;gd(g
i
)是指第二训练数据集的训练样本的梯度密度,模长为g部 分的样本个数i,g=|p

p
*
|。
[0110]
进一步地,根据梯度密度调和参数β
i
,使用如下表达式计算每个训练 样本的损失梯度,即为预测值和真值的差距:
[0111][0112]
其中,n是指第二训练数据集的训练样本的总量;p
i
∈[0,1]是使用所 述第二风险模型计算的预测概率;是指用于确定用户设备是否是风险设备的类标签;是指各训练样本的交叉熵损失;gd(g)是 指第二训练数据集的训练样本的梯度密度,其物理含义为单位梯度模长g部分的样本个数;δ
ε
(g
k
,g)是指训练样本中 梯度模长分布在范围内的样本个数;l
ε
(g)是指区间的梯度模长。
[0113]
在使用所述第二训练数据集d2对第二风险模型进行训练时,根据训练 样本所计算的损失梯度,来判断是否结束训练。
[0114]
在一实施方式中,当所述第二训练数据集d2中训练样本的损失梯度大 于设定值的训练样本占比在所述第二训练数据集d2的样本总量的指定比 率以上时,结束对所述第二风险模型的训练。
[0115]
在另一实施方式中,当所述第二训练数据集d2中训练样本的损失梯度 大于设定值的训练样本占比未在所述第二训练数据集d2的样本总量的指 定比率以上时,继续训练,直到所述训练样本占比在所述第二训练数据集 d2的样本总量的指定比率以上时,才结束对所述第二风险模型的训练。
[0116]
因此,通过使用梯度调和机制方法,在模型训练过程中调整不同样本 的梯度贡
献,能够提高模型对正负样本的区分能力,并提高模型预测精度, 且无需调整模型超参数。
[0117]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限 制。
[0118]
接下来,在步骤s104中,使用训练好的所述第二风险模型,对申请 所述互联网服务的新用户设备进行鉴别处理。
[0119]
在一实施方式中,当接收到所述新用户设备向互联网服务平台的资源 服务请求时,获取所述新用户设备的设备数据,将所述设备数据输入所述 第二风险模型,输出所述新用户设备的预测值。
[0120]
具体地,根据所所计算的预测值,判断所述新用户设备是否为风险设 备。
[0121]
在一实施方式中,将所计算的预测值与设定阈值进行比较,在所计算 的预测值小于等于设定阈值时,确定向所述新用户设备提供互联网服务资 源。
[0122]
在另一实施方式中,在所计算的预测值大于设定阈值时,确定不向所 述新用户设备提供互联网服务资源。
[0123]
因此,通过使用训练好的所述第二风险模型,对申请所述互联网服务 的新用户设备进行鉴别处理,能够精确量化用户设备的风险大小,同时对 新用户设备进行风险鉴别,有效减少互联网服务平台的损失等。
[0124]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限 制。
[0125]
在另一示例中,为了能够筛选出风险区分度高且可解释性强的特征, 还采用对各变量特征的特征重要度进行计算,根据计算结果进行变量特征 筛选。即,将图1中的步骤s101拆分成步骤s101和步骤s301,具体参 见图3。
[0126]
在步骤s301中,根据所获取的历史用户设备的相关数据,使用决策 树算法,计算各特征的特征重要度。例如使用c4.5,cart等算法进行计 算。
[0127]
在第一实施方式中,使用决策树算法,建立第二风险模型。根据上述 所获取的数据中特征组(该特征组包括至少一个特征),配置风险标签, 将历史用户设备进行分组,并基于各风险标签建立多个训练数据集和多个 测试数据集。例如,训练数据集包括具有第一风险标签(用户设备是否在 首次资源归还起特定时间段内(例如为7天内)归还了互联网服务资源的 指定概率)的历史用户设备的设备数据。例如,训练数据集包括具有第二 风险标签(用户设备的欺诈概率是否大于设定值)的历史用户设备的设备 数据。
[0128]
具体地,对于每个特征组和相应的训练数据集,均执行如下步骤:
[0129]
1)根据各特征组对相应的训练数据集中样本数据进行分割,以使各 训练数据集实现用户设备分类(即用户设备分组)的过程,即生成包含类 别节点的多层类别树;2)计算各特征组的模型分类精确度,在所计算的 模型分类精确度大于指定值(例如为85%~90%)时,筛选出相应特征组, 计算所筛选出的所有变量特征的信息增益值iv以作为特征重要度,依次按 特征重要度从高到低,分别对各特征组和各特征进行排序;3)从所述排 序中选取特定数量的特征,以完成了变量特征筛选。例如选取排序排名为 前5名的特征。
[0130]
因此,采用决策树算法对各变量特征的特征重要度进行计算,根据计 算结果进行变量特征筛选,能够筛选出风险区分度高且可解释性强的特征。
[0131]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限 制。
[0132]
上述用户设备鉴别方法的过程仅用于对本发明的说明,其中,步骤的 顺序和数量没有特别的限制。此外,上述方法中的步骤还可以拆分成两个、 三个,或者有些步骤也可以
合并成一个步骤,根据实际示例进行调整。
[0133]
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现 为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被 执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以 存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、rom、 ram等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁 盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布 式存储,例如基于云计算的云存储。
[0134]
与现有技术相比,本发明通过筛选变量特征数据,建立第一风险模型 的第一训练数据集d1和测试数据集d3,能够有效筛选出覆盖率高、对目标 变量区分效果明显、信息增益大的特征集;通过第一训练数据集对所述第 一风险模型进行验证训练,建立第二训练数据集d2,能够为后续建立模型 提供精确的训练样本数据;使用梯度调和机制方法,并使用所述第二训练 数据集d2对第二风险模型进行训练,能够在模型训练过程中调整不同样本 的梯度贡献,能够提高模型对正负样本的区分能力,提高模型预测精度, 且无需调整模型超参数;使用训练好的所述第二风险模型,能够对申请所 述互联网服务的新用户设备进行有效鉴别处理,能够有效拒绝风险设备, 能够有效减少互联网服务平台的损失。
[0135]
进一步地,通过设定筛选规则,对变量特征数据进行筛选,能够筛选 出覆盖率高、对目标变量区分效果明显、信息增益大的特征集,为后续建 立模型提供精确的训练样本数据;通过使用k折交叉验证对数据进行划分 后的训练数据集和验证集对所述第一风险模型进行验证训练,使用所述第 一风险模型的输出结果,生成第二训练数据集d2,能够得到更精确的第二 训练数据集d2,并能够优化训练过程;采用决策树算法对各变量特征的特 征重要度进行计算,根据计算结果进行变量特征筛选,能够筛选出风险区 分度高且可解释性强的特征。
[0136]
实施例2
[0137]
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实 施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例 的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实 施例来实现。
[0138]
参照图4、图5和图6,本发明还提供了一种互联网服务的用户设备 鉴别装置400,该用户设备鉴别装置400包括:筛选处理模块401,用于 获取历史用户设备的设备数据和设备互联网服务表现数据,筛选变量特征 数据,确定正、负样本,以建立第一风险模型的第一训练数据集d1和测试 数据集d3;第一训练模块402,用于对所述第一风险模型进行验证训练, 以建立第二训练数据集d2;第二训练模块403,用于使用梯度调和机制方 法,并使用所述第二训练数据集d2对第二风险模型进行训练;鉴别处理模 块404,用于使用训练好的所述第二风险模型,对申请所述互联网服务的 新用户设备进行鉴别处理。
[0139]
在一实施方式中,如图5所示,所述用户设备鉴别装置400包括数据 拆分模块501,所述数据拆分模块501用于使用k折交叉验证算法,将所 述第一训练数据集d1拆分为训练集d
11
和验证集d
12
,其中,k为5~10; 使用训练集d
11
和验证集d
12
,对所述第一风险模型进行验证训练。
[0140]
进一步地,对每次交叉验证中的验证集d
12
的预测值进行拼接处理, 得到用户设备相关的区别度特征和风险特征,以作为所述第二风险模型的 输入特征;使用如下至少两个
特征量化生成的标签值表征所述第二风险模 型的标签值:设备的app欺诈数据、设备的逾期数据、设备的多头特征数 据和设备关联用户的关系网特征数据。
[0141]
在另一实施方式中,如图6所示,所述用户设备鉴别装置400还包括 计算处理模块601,所述计算处理模块601用于根据所述第二训练数据集 d2,拟合所述第二训练数据集d2的样本分布图形,以计算梯度密度调和参 数β
i

[0142]
使用如下表达式计算梯度密度调和参数β
i

[0143][0144]
其中,β
i
是指梯度密度调和参数;n是指第二训练数据集的训练样本 的总量;gd(g
i
)是指第二训练数据集的训练样本的梯度密度,模长为g部 分的样本个数i,g=|p

p
*
|。
[0145]
具体地,根据梯度密度调和参数β
i
,使用如下表达式计算每个训练样 本的损失梯度,即为预测值和真值的差距:
[0146][0147]
其中,n是指第二训练数据集的训练样本的总量;p
i
∈[0,1]是使用所 述第二风险模型计算的预测概率;是指用于确定用户设备是否 是风险设备的类标签;是指各训练样本的交叉熵损失;gd(g)是 指第二训练数据集的训练样本的梯度密度,其物理含义为单位梯度模长g部分的样本个数;δ
ε
(g
k
,g)是指训练样本中 梯度模长分布在范围内的样本个数;l
ε
(g)是指区间的梯度模长。
[0148]
在一实施方式中,当所述第二训练数据集中训练样本的损失梯度大于 设定值的训练样本占比在所述第二训练数据集的样本总量的指定比率以 上时,结束对所述第二风险模型的训练。
[0149]
具体地,所述使用训练好的所述第二风险模型,对申请所述互联网服 务的新用户设备进行鉴别处理包括:当接收到所述新用户设备向互联网服 务平台的资源服务请求时,获取所述新用户设备的设备数据,将所述设备 数据输入所述第二风险模型,输出所述新用户设备的预测值;根据所所计 算的预测值,判断所述新用户设备是否为风险设备。
[0150]
在另一示例中,为了能够筛选出风险区分度高且可解释性强的特征, 还采用对各变量特征的特征重要度进行计算,根据计算结果进行变量特征 筛选。
[0151]
具体地,使用决策树算法,计算各特征的特征重要度。例如使用c4.5, cart等算法进行计算。
[0152]
例如,使用决策树算法,建立第二风险模型。根据上述所获取的数据 中特征组(该特征组包括至少一个特征),配置风险标签,将历史用户设 备进行分组,并基于各风险标签建立多个训练数据集和多个测试数据集。 例如,训练数据集包括具有第一风险标签(由用户设备是否在首次资源归 还起特定时间段内(例如为7天内)归还了互联网服务资源的指
定概率) 的历史用户设备的设备数据。例如,训练数据集包括具有第二风险标签(用 户设备的欺诈概率是否大于设定值)的历史用户设备的设备数据。
[0153]
具体地,对于每个特征组和相应的训练数据集,均执行如下步骤:
[0154]
1)根据各特征组对相应的训练数据集中样本数据进行分割,以使各 训练数据集实现用户设备分类(即用户设备分组)的过程,即生成包含类 别节点的多层类别树;2)计算各特征组的模型分类精确度,在所计算的 模型分类精确度大于指定值(例如为85%~90%)时,筛选出相应特征组, 计算所筛选出的所有变量特征的信息增益值iv以作为特征重要度,依次按 特征重要度从高到低,分别对各特征组和各特征进行排序;3)从所述排 序中选取特定数量的特征,以完成了变量特征筛选。例如选取排序排名为 前5名的特征。
[0155]
需要说明的是,在实施例2中,省略了与实施例1相同的部分的说明。
[0156]
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述 分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或 多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分 成多个子模块。
[0157]
与现有技术相比,本发明通过筛选变量特征数据,建立第一风险模型 的第一训练数据集d1和测试数据集d3,能够有效筛选出覆盖率高、对目标 变量区分效果明显、信息增益大的特征集;通过第一训练数据集对所述第 一风险模型进行验证训练,建立第二训练数据集d2,能够为后续建立模型 提供精确的训练样本数据;使用梯度调和机制方法,并使用所述第二训练 数据集d2对第二风险模型进行训练,能够在模型训练过程中调整不同样本 的梯度贡献,能够提高模型对正负样本的区分能力,并提高模型预测精度, 且无需调整模型超参数;使用训练好的所述第二风险模型,能够对申请所 述互联网服务的新用户设备进行有效鉴别处理,能够有效拒绝风险设备, 能够有效减少互联网服务平台的损失。
[0158]
进一步地,通过使用k折交叉验证对数据进行划分后的训练集和验证 集对所述第一风险模型进行验证训练,使用所述第一风险模型的输出结果, 生成第二训练数据集d2,能够得到更精确的第二训练数据集d2,并能够优 化训练过程;采用决策树算法对各变量特征的特征重要度进行计算,根据 计算结果进行变量特征筛选,能够筛选出风险区分度高且可解释性强的特 征。
[0159]
实施例3
[0160]
下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上 述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设 备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于 在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实 施例来实现。
[0161]
图7是根据本发明的计算机设备的示例性实施例的结构框图。下面参 照图7来描述根据本发明该实施例的的计算机设备200。图7显示的计算 机设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来 任何限制。
[0162]
如图7所示,计算机设备200以通用计算设备的形式表现。计算机设 备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储 单元220、连接不同装置组件(包括存储单元220和处理单元210)的总 线230、显示单元240等。
[0163]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理 单元210执行,使得所述处理单元210执行本说明书上述计算机设备的处 理方法部分中描述的根据本
发明各种示例性实施方式的步骤。例如,所述 处理单元210可以执行如图1所示的步骤。
[0164]
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随 机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一 步包括只读存储单元(rom)2203。
[0165]
所述存储单元220还可以包括具有一组(至少一个)程序模块2205 的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、 一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一 个或某种组合中可能包括网络环境的实现。
[0166]
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总 线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多 种总线结构中的任意总线结构的局域总线。
[0167]
计算机设备200也可以与一个或多个外部设备300(例如键盘、指向 设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该计算机设 备200交互的设备通信,和/或与使得该计算机设备200能与一个或多个其 它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。 这种通信可以通过输入/输出(i/o)接口250进行。并且,计算机设备200 还可以通过网络适配器260与一个或者多个网络(例如局域网(lan), 广域网(wan)和/或公共网络,例如因特网)通信。网络适配器260可 以通过总线230与计算机设备200的其它模块通信。应当明白,尽管图中 未示出,可以结合计算机设备200使用其它硬件和/或软件模块,包括但不 限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid 系统、磁带驱动器以及数据备份存储系统等。
[0168]
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描 述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的 方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形 式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是 cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计 算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明 的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算 机程序产品能够实现本发明的上述方法。
[0169]
图8是根据本发明的计算机程序产品的示例性实施例的结构框图。
[0170]
如图8所示,所述计算机程序可以存储于一个或多个计算机程序产品 上。计算机程序产品例如可以为但不限于电、磁、光、电磁、红外线、或 半导体的系统、装置或器件,或者任意以上的组合。计算机程序产品的更 具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携 式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可 编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器 (cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0171]
所述计算机程序产品可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种 形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机 程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使 用或者与其结合使用的程序。计算机程序产品上包含的程序代码可以用任 何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上 述的任意合适的组合。
[0172]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明 操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似 的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在 用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部 分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在 涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包 括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以 连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0173]
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上 运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理 解,可以在实践中使用微处理器或者数字信号处理器(dsp)等通用数据 处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全 部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全 部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的 实现本发明的程序可以存储在计算机程序产品上,或者可以具有一个或者 多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体 信号上提供,或者以任何其他形式提供。
[0174]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置 或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅 为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和 原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1