一种基于用户长期使用行为的在线信用风险评估方法
【技术领域】
[0001] 本发明涉及一种应用数学模型的信用评估方法,尤其是涉及一种基于用户长期使 用行为的在线信用风险评估方法。
【背景技术】
[0002] 随着移动互联网的猛迅发展,人们越来越习惯于利用手机进行购物、消费、娱乐。 越来越多的借贷行为也已开始向线上转移。P2P是专指个人与个人间的小额借贷交易,电子 商务专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续。为了保障出借人的利 益,平台方需要对借贷人的信用资质进行全方位评估,由于国内征信体系发展相对滞后,导 致目前各个P2P平台当中存在大量的欺诈现象。
[0003] 目前识别欺诈方法有两项缺陷:
[0004] 1.识别欺诈主要依靠用户提供的个人资料,利用这些信息提取出相应的反欺诈信 号。这些方法依赖于用户所填写的各项信息。要想降低欺诈概率,就要要求用户填写更多的 用户信息,使申请流程越来越繁琐。繁琐的申请流程会负面影响用户申请贷款的体验,会降 低公司的业绩。
[0005] 2.现有技术主要依靠的是用户主动提供的数据,这些数据造假成本低,可以轻易 伪造。
[0006] 在贷款机构和贷款用户面谈时,肢体语言和申请行为是重要反欺诈信息来源。在 线上的申请过程中,用户的申请行为可以在用户使用的软件中被捕捉并数字化,用于信用 审批决策。
[0007] 用户在输入个人信息时是有其长期形成的输入习惯,习惯的改变是困难的,同时 习惯动作是用户不加思索做出的,这样的信号真实的反应了用户自身的信息。普通人在输 入他人的信息时是需要思考的,同时需要不断校验输入内容的正确性。
【发明内容】
[0008] 本发明提供了一种基于用户长期使用行为的在线信用风险评估方法,该方法在用 户没有感知的情况下采集用户的真实行为,利用这些行为构建特征然后靠决策引擎去发现 潜在的欺诈用户。本发明所采集的数据是在用户进行贷款申请时采集,不侵犯用户的隐私 信息。其技术方案如下所述:
[0009] -种基于用户长期使用行为的在线信用风险评估方法,包括下列步骤:
[0010] (1)用户在移动平台启动移动应用App,填写表单时调用移动应用App置入的SDK, 所述SDK采集用户在填写贷款申请表单时的输入信息,包括输入时用户所处的实时地理位 置、输入时间、输入法、输入提示内容,所述SDK设置有信息采集模块,用于将输入信息发送 到服务器端;
[0011] (2)服务器端对于用户输入的内容进行分析并利用特征提取模块分别从输入信息 中提取出有效的信号,包括地理位置信号、输入法信号、行为信号、词组选择信号;
[0012] (3)所述特征提取模块将有效的信号转化为特征,分别发送到离线模型训练模块、 在线决策引擎、在线学习引擎,所述离线模型训练模块和在线学习引擎将处理后的特征发 送到在线决策引擎中的风险模型,进而利用风险模型进行分类判断。
[0013] 步骤(2)中,所述行为信号包括打字的字母、使用触屏虚拟键盘的按键位置、时间、 节奏、修改行为;所述输入法信号包括全音、双拼、五笔、九宫格、笔画、手写的方法选择;所 述词组选择信号包括特殊词组的使用频率和词组选项优先级,从而对敏感词和关键词分别 进行计分。
[0014] 进一步的,步骤(1)中,所述输入法信号能够直接获取手机的输入法类型,或者通 过输入的按键位置信息进行识别对应,所述输入的按键位置信息包括行为信号中的打字的 字母、修改行为,对于识别出的输入法信号进行打分,通过统计方法判断使用不同输入法的 人群特征,并将此特征加入离线模型训练模块、在线决策引擎、在线学习引擎进行分类判 断。
[0015] 用户在输入每个表格的时间都会记录下来,提取的输入时间信息能够转换成行为 信号的节奏信号,每次敲击键盘时的时间被记录下来,时间为毫秒级别,进而形成一个时间 序列,利用该时间序列的特征,判断用户的平均时间序列计算相似度。
[0016] 根据输入法提示内容获取词组选择信号,所述词组选择信号对于用户的输入文本 进行敏感词计分,并在后台构建一个敏感词库,用户每次的输入提示,包含提示词以及该词 的位置累计计算命中敏感词库的词的位置,得到敏感度计分。
[0017] 根据输入法提示内容获取词组选择信号,所述词组选择信号对于用户的输入文本 进行关键词计分,包括所输入词组的特殊性和实际选择优先级差异,得到关键度计分。
[0018] 步骤(3)中,所述离线模型训练模块是金融机构利用自身积累的放贷历史记录训 练出模型,所述放贷历史记录包括用户的还款行为、用户输入的内容和输入行为记录,所述 离线模型训练模块能够采用的算法包括逻辑回归、支持向量机、决策树,将选用的算法作为 风险模型,利用采集到的用户申请贷款填写表单时的表现行为再匹配上该用户在获得贷款 后的还款表现,构建出训练数据集。
[0019] 步骤(3)中,在线决策引擎使用的是离线模型训练模炔基于历史数据构建的风险 模型,以及一直积累到现在的敏感词词典和关键词词典来在线计算每一个用户的得分。
[0020] 进一步的,步骤(3)中,所述风险模型采用的算法包括逻辑回归、支持向量机、决策 树。
[0021 ]所述信息采集模块包括移动平台内的输入法模块,与输入法模块相连的特征提取 模块,与特征提取模块相连接的信息发布模块,以及在服务器端的信息接受模块,所述信息 接受模块与特征提取模块相连接。
[0022]本发明直接采集用户在进行贷款申请时的行为,有以下优势:
[0023] 1、在原有申请流程基础上,不提高申请繁琐程度,就能为反欺诈算法提供多项特 征;2、特征提取于用户的自然使用习惯,不容易伪造。
【附图说明】
[0024]图1是所述基于用户长期使用行为的在线信用风险评估方法的数据传递示意图。
【具体实施方式】
[0025] 本发明提供了一种基于用户长期使用行为的在线信用风险评估方法,能够在用户 没有感知的情况下采集用户的真实行为,利用这些行为构建特征然后靠决策引擎去发现潜 在的欺诈用户。本发明所采集的数据是在用户进行贷款申请时采集,不侵犯用户的隐私信 息。
[0026] 本发明通过采集用户在填写贷款申请表单时的输入时用户所处的实时地理位置、 输入时间、输入法、输入提示内容,分别提取出有效的信号,包括地理位置信号、行为信号、 输入法信号、词组选择信号,而信贷申请的识别是这四层特征的应用之一。实际应用需要一 整套数据科学分析框架,如图1所示,包括:移动平台101中安装的移动应用APP 102,所述移 动应用APP 10 2调用与词组库104相连接的输入法模块103、输入法模块将信号传递到特征 提取模块112、再将特征传递到信息发布模块105,进一步的,在云端服务器201中,与信息发 布模块105相连接的信息接收模块106,还包括特征提取模块107、离线模型训练模块108、在 线决策引擎109、在线决策模型110,在线学习引擎111,所述特征提取模块107将有效的信号 转化为特征,分别发送到离线模型训练模块108、在线决策引擎109、在线学习引擎111,所述 离线模型训练模块108和在线学习引擎111将处理后的特征发送到在线决策引擎109的在线 决策模型110,进而利用决策树风险模型进行分类判断。
[0027] 所述特征提取模块112用于在移动应用中对信号进行特征的提取,所述特征提取 模块107用于在服务器端进行特征提取,而所述特征提取模块107能够对特征提取模块112 进行进一步的处理。进一步的,所述特征提取模块107和特征提取模块112也可只存在一个, 如果只存在特征提取模块112时,则信息发布模块105传递的就是提取的特征内容。
[0028] 在具体的操作时,贷款申请人特指使用手机App的用户,这些用户使用某款P2P App、理财App,银行管家App,通过手机App作为媒介向信息服务平台或者金融机构申请无抵 押的信用贷款。
[0029] 所述贷款申请表单是指的金融贷款产品都需要用户主动填写一些基本信息,包括 但不限于用户的姓名、身份证号、联系电话、工作单位、月工资、借款用途、工作地址、家庭地 址、直系亲属姓名、直系亲属联系电话等等。
[0030] 移动平台中调用输入法填写表单,任何用户在填写表单时都会调用输入法进行输 入。
[0031 ]对于信息采集模块,用户填写表单时会调用App置入的SDK (全称:Software Development Kit,对应中文名称是软件开发工具包),信息采集模块就内置在该SDK中,该 SDK主要针对用户在进行表单填写时在各种输入法键盘上所产生的使用行为信号,例如用 户输入自己名字时敲击的位置(position)、时间(time)以及内容(text),以及输入产生的 提不?目息。
[0032]例如虚拟一个叫"郑秀晶"的用户,她在输入自己姓名时可能会直接输入"zxj"这 三个字母,本方法也会把用户输入"zxj"三个字母后的提示信息采集出来,生成提示队列 (hint queue)。
[0033]进一步的,所述特征提取模块对于用户输入的内容(test)进行分析并提取特征, 例如用户输入"zhengxiu jing",也有可能直接输入"zxj"这三个字母,通过用户输入自己的 姓名全拼还是姓名首字母行为的不同来提取相关特征。
[0034] 输入"zxj"这三个字母,利用拼音输入法,得到的词组提示顺序为"左下角、自己、 做自己、助学金、照相机、哲学家、郑秀晶、在新疆、在洗脚、赵小姐、张小姐、中心街、再相见、 周小姐、再相聚、找小姐"总共16个提示词的提示队列hint_q UeUe,而最后的词组"郑秀晶" (word_pos = 7)和用户输入的实际文本相匹配,贝lj关键词计分为keyword_score = l_word_ pos/size(hint_queue)〇
[0035] 对于用户输入时的提示文本,还会进行敏感词计分,后台构建一个敏感词库[彩 票、竞彩、游戏、赌博、毒品、小姐、包养……],用户每次的输入提示hint queue,包含提示词 以及该词的位置,下表中的最后提示词"找小姐"属于敏感词。 「00361
[0037] 累计计算命中敏感词库的词的位置Sum(l/word_pos) = sensitive_score,得到敏 感度计分。
[0038] 对于通过输入的按键位置(position)信息进行识别对应,将识别出对应的输入法 类型,例如拼音、五笔、手写这三种输入方式。例如,输入"zhengxiu jing"或者"udbf teb jjjf",前者是拼音输入法,后者是五笔输入法。通过统计方法来判断使用不同输入法的概 率,并将此概率值作为特征。再依据概率值高低,对