本发明属于风险控制技术领域,涉及一种风控建模方法,尤其涉及一种特征挖掘方法、系统、设备及计算机可读介质。
背景技术:
风险控制是金融的关键,随着时代的发展,风控领域的一个总趋势是信息化、模型化、智能化的程度越来越高。针对用户通讯录信息的挖掘不够深入,还有很多可能用于挖掘的方法没有被使用。
有鉴于此,如今迫切需要设计一种新的风险控制方法,以便克服现有风险控制方法存在的上述至少部分缺陷。
技术实现要素:
本发明提供一种特征挖掘方法、系统、设备及计算机可读介质,可通过通讯录挖掘找到一些对风险有区分能力的特征,使用这些特征来构建模型能够区分出与自有特征不同的风险客户。
为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:
一种特征挖掘方法,通过对用户的通讯录信息、借款申请信息修改行为进行衍生,得到一批与自有变量有所不同的特征;
所述特征挖掘方法具体包括:
通过对备注名关键字的挖掘,将设定联系人和客户之间的关系分类,对各类的关键字细致挖掘;
通过结合设定关键数据联合挖掘,得到对应的通讯录特征;所述关键数据包括关联至黄页数据、关联客户基本信息;通过所述关联至黄页数据判别用户对功能性号码存储偏好的种类;通过关联客户基本信息得到其通讯录中设定用户的用户画像。
其中,关键字挖掘包括:根据用户通讯录中的备注名关键字挖掘出用户的上级关系、亲属关系、近亲关系、生活关系、敏感行业、高风险、自我称谓中的至少一个;
若联系人备注名中包含总或领导,判断对应联系人为用户的领导;
若联系人备注名中包含表示亲属的关键字,判断对应联系人为用户的亲属;
若联系人备注名中包含表示近亲的关键字,判断对应联系人为用户的近亲;
若联系人备注名中包含房东或快递或警官,识别出对应联系人与用户的对应关系;
若联系人备注名中包含银行或法院或保险,识别出对应敏感行业联系人与用户的对应关系;
若联系人备注名中包含高利贷或赌或狗,识别出高风险行业联系人与用户的对应关系;
若联系人备注名中包含联系人姓名或自己或新卡或副卡,判断对应联系人可能是联系人自己。
根据本发明的另一个方面,采用如下技术方案:一种特征挖掘方法,通过对用户的通讯录信息、借款申请信息修改行为进行衍生,得到一批与自有变量有所不同的特征。
作为本发明的一种实施方式,所述特征挖掘方法具体包括:
通过对备注名关键字的挖掘;将设定联系人和客户之间的关系分类,对各类的关键字细致挖掘。
作为本发明的一种实施方式,所述特征挖掘方法具体包括:
通过结合设定关键数据联合挖掘,所述关键数据包括关联至黄页数据、关联客户基本信息;通过所述关联至黄页数据判别用户对功能性号码存储偏好的种类;通过关联客户基本信息得到其通讯录中设定用户的用户画像;从而得到对应的通讯录特征。
根据本发明的又一个方面,采用如下技术方案:一种特征挖掘系统,所述特征挖掘系统包括:
备注名关键字挖掘模块,用以通过对备注名关键字的挖掘,将设定联系人和客户之间的关系分类,对各类的关键字细致挖掘;
通讯录特征获取模块,通过结合设定关键数据联合挖掘得到对应的通讯录特征。
作为本发明的一种实施方式,所述关键数据包括关联至黄页数据、关联客户基本信息;通过所述关联至黄页数据判别用户对功能性号码存储偏好的种类;通过关联客户基本信息得到其通讯录中设定用户的用户画像。
根据本发明的又一个方面,采用如下技术方案:一种特征挖掘方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。
根据本发明的又一个方面,采用如下技术方案:一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。
本发明的有益效果在于:本发明提出的特征挖掘方法、系统、设备及计算机可读介质,可通过通讯录挖掘找到一些对风险有区分能力的特征,使用这些特征来构建模型能够区分出与自有特征不同的风险客户。
附图说明
图1为本发明一实施例中特征挖掘方法的流程图。
图2为本发明一实施例中特征挖掘系统的组成示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
说明书中各个实施例中的步骤的表述只是为了方便说明,本申请的实现方式不受步骤实现的顺序限制。说明书中的“连接”既包含直接连接,也包含间接连接。
本发明揭示了一种特征挖掘方法,通过对用户的通讯录信息、借款申请信息修改行为进行衍生,得到一批与自有变量有所不同的特征。
在本发明的一实施例中,借款申请信息修改行为包括:用户在借款前会填写借款金额、借款期数、借款用途等一些借款信息,随后提交借款申请。在这个过程中,客户可能存在反复填写借款金额、和多次更改借款用途等,针对客户15分钟、1个小时、1天内修改多少次借款金额、修改多少次借款用途、修改多少次借款期数进行统计得到衍生变量。
图1为本发明一实施例中特征挖掘方法的流程图;请参阅图1,在本发明一实施例中,所述特征挖掘方法具体包括:
【步骤s1】通过对备注名关键字的挖掘,将设定联系人和客户之间的关系分类,对各类的关键字细致挖掘。在一实施例中,关键字挖掘包括:
上级关系:联系人名字含x总、领导等;
亲属关系:联系人名字含x姨、x爹、x妈等;
近亲关系:联系人名字含爸爸、x爸、爹、妈妈、娘等;
生活关系:联系人名字含房东、快递、警官等;
敏感行业:联系人名字含银行、法院、保险等;
高风险:联系人名字含高利贷、赌、狗等;
自我称谓:联系人名字含自己、新卡、副卡等。
【步骤s2】通过结合设定关键数据联合挖掘,得到对应的通讯录特征;所述关键数据包括关联至黄页数据、关联客户基本信息;通过所述关联至黄页数据判别用户对功能性号码存储偏好的种类;通过关联客户基本信息得到其通讯录中设定用户的用户画像。
在本发明的一种使用场景下,本发明特征挖掘方法包括:
通过对用户的通讯录信息、借款申请信息修改行为进行衍生得到了一批与自有变量有所不同的特征;
在此次项目中首先通过对备注名关键字的挖掘;将某些联系人和客户之间的关系分类,对各类的关键字细致挖掘;
而后,通过结合其他数据联合挖掘;比如关联至黄页数据,判别用户对功能性号码存储偏好的种类;比如关联客户基本信息,得到其通讯录中萨摩耶客户的用户画像;
最终共加工完成423个通讯录特征。在挖掘样本上,有20%的特征具有一定的风险区分度,7%的特征具有明显的风险区分度。
本发明还揭示一种特征挖掘系统,所述特征挖掘系统包括:备注名关键字挖掘模块1及通讯录特征获取模块2。备注名关键字挖掘模块1用以通过对备注名关键字的挖掘,将设定联系人和客户之间的关系分类,对各类的关键字细致挖掘;通讯录特征获取模块2通过结合设定关键数据联合挖掘得到对应的通讯录特征。
在本发明的一实施例中,所述关键数据包括关联至黄页数据、关联客户基本信息;通过所述关联至黄页数据判别用户对功能性号码存储偏好的种类;通过关联客户基本信息得到其通讯录中设定用户的用户画像。
本发明还揭示一种特征挖掘方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。
本发明进一步揭示一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。
综上所述,本发明提出的特征挖掘方法、系统、设备及计算机可读介质,可通过通讯录挖掘找到一些对风险有区分能力的特征,使用这些特征来构建模型能够区分出与自有特征不同的风险客户。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施;例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中;例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现;例如,作为与处理器配合从而执行各个步骤或功能的电路。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。