本发明涉及一种线上支付领域的风控技术,具体涉及对风险商户进行智能识别的方法。
背景技术:
1、现有金融的核心是风控,在汇付的线上支付场景中,需要快速有效的识别危害用户账户和资金安全的风险商户,其中黄赌毒是一类需要关注的风险类别。通常是通过自动特征筛选、智能决策和实时计算等技术,保证在这个场景下的商户识别的有效性和及时性。
2、主流技术来说,现在一般对于风险商户是采用黑名单的方式加以处理。通过分析商户的历史交易数据特征或者监管机构的信息,配置商户黑名单,对于黑名单的商户进行处理。
3、对于提取商户历史交易特征的工作,传统上主要是由专家设计和构造的方式完成,这里方法通常会以业务特征为出发点,按照经验来设计一些特征指标,再基于这些指标来配置规则。
4、从中可以看出,传统方式对于特征的设计是基于经验的,而基于专家经验提取的特征数量是有限的,可能会存在一些高维的无法手动生成的深度特征。同时特征的设计时间也很长,一般都是以周为单位的。
5、对于数据处理也面临两个问题,一是数据计算周期长,一般都是至少以小时为单位。二是数据延迟较高,由于数据计算时间长,会导致数据延迟至少也在小时级。
6、如何更有效率的对风险商户进行识别,是目前业界亟待解决的问题。
技术实现思路
1、以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
2、本发明的目的在于解决上述问题,提供了一种风险商户智能识别的方法,能够实现特征自动发现,降低特征工程周期,提高特征发现范围,实现离线数据和实时数据的合并,提高数据处理速度,降低数据处理延时。
3、本发明的技术方案为:本发明揭示了一种风险商户智能识别的方法,方法包括:
4、步骤1:采集数据并对采集到的数据进行清洗和转换,形成统一的数据格式;
5、步骤2:将统一格式的数据按照需求进行初步加工;
6、步骤3:对初步加工后的数据进行聚合计算和变量计算;
7、步骤4:从聚合计算和变量计算后的结果中进行自动特征提取,然后进行模型训练和模型部署;
8、步骤5:实时采集外部数据;
9、步骤6:将采集到的实时数据和离线数据进行数据合并;
10、步骤7:对合并后的数据进行特征计算,完成特征计算后的数据推送到消息队列;
11、步骤8:基于步骤4完成部署的模型,从步骤7推送的消息队列中获取特征并基于模型判断是否为风险商户。
12、根据本发明的风险商户智能识别的方法的一实施例,在步骤1中,是从业务系统的商户历史交易数据;数据清洗包括将异常数据进行清洗转化,包括剔除不合格的数据;数据转换是按照统一的数据模版和规范,将不同业务系统中的不同格式的数据转换为同一种结构。
13、根据本发明的风险商户智能识别的方法的一实施例,在步骤2中,初步加工的内容包括:比如将多个账户的交易汇总到一个营业执照号上,将各级销售、代理、渠道的交易进行计算。
14、根据本发明的风险商户智能识别的方法的一实施例,在步骤3中,聚合计算是指将明细数据按维度进行数据聚合,变量计算是按照给定的变量需求对数据进行再加工。
15、根据本发明的风险商户智能识别的方法的一实施例,步骤4进一步包括:
16、首先,从数据库中读取原始的交易数据,基于坏商户列表给读取到的数据打上标签;
17、再基于基础表中的特征进行特征的自动化生成,包括类型转换、分组、聚合、链接、衍生,其中特征生成中的操作包括:将类别特征进行转换、采用深度特征生成进行特征合成、数值类特征标准化、过滤严重缺失特征;
18、然后,将自动化生成的特征进行变量筛选,基于不同的特征选择结果分别训练不同的机器学习模型,其中先对特征进行训练并采用方差过滤的方式对特征进行组合以获得特征组合;
19、再对各种不同的特征选择算法和模型算法组合进行模型评估,获得最优分类模型;
20、最后,将模型和规则在可实时生效的规则引擎中部署上线,并通过实时监控系统监控商户客群分布和模型规则的特征变量。
21、根据本发明的风险商户智能识别的方法的一实施例,获得特征组合的方法包括:逻辑回归、梯度提升、随机森林、随机梯度下降、决策树、朴素贝叶斯。
22、根据本发明的风险商户智能识别的方法的一实施例,步骤8的判断结果通过数据接口返回,由外部的风险管控模块对商户的不同行为进行处置。
23、本发明对比现有技术有如下的有益效果:本发明一方面在自动特征方面实现高端特性的自动发现,降低特征工程周期,提高特征发现的范围。另一方面,本发明采用离线和实时相结合的处理方式,在离线模式下对于tb级别的历史数据可以有效降低存储成本扩大计算范围。在实时模式下,对于短期的热数据,可以做到快速分析、计算和提取,从而降低计算成本。
1.一种风险商户智能识别的方法,其特征在于,方法包括:
2.根据权利要求1所述的风险商户智能识别的方法,其特征在于,在步骤1中,是从业务系统的商户历史交易数据;数据清洗包括将异常数据进行清洗转化,包括剔除不合格的数据;数据转换是按照统一的数据模版和规范,将不同业务系统中的不同格式的数据转换为同一种结构。
3.根据权利要求1所述的风险商户智能识别的方法,其特征在于,在步骤2中,初步加工的内容包括:比如将多个账户的交易汇总到一个营业执照号上,将各级销售、代理、渠道的交易进行计算。
4.根据权利要求1所述的风险商户智能识别的方法,其特征在于,在步骤3中,聚合计算是指将明细数据按维度进行数据聚合,变量计算是按照给定的变量需求对数据进行再加工。
5.根据权利要求1所述的风险商户智能识别的方法,其特征在于,步骤4进一步包括:
6.根据权利要求5所述的风险商户智能识别的方法,其特征在于,获得特征组合的方法包括:逻辑回归、梯度提升、随机森林、随机梯度下降、决策树、朴素贝叶斯。
7.根据权利要求1所述的风险商户智能识别的方法,其特征在于,步骤8的判断结果通过数据接口返回,由外部的风险管控模块对商户的不同行为进行处置。