银行客户数据处理方法及装置与流程

文档序号:23006395发布日期:2020-11-20 11:58阅读:217来源:国知局
银行客户数据处理方法及装置与流程

本发明涉及数据分析技术领域,尤其涉及银行客户数据处理方法及装置。



背景技术:

为给每个客户提供更具有针对性个性化服务,商业银行需要对客户数据进行分类,分类结果可用于金融服务的多个场景,例如,基于客群的精准营销、产品推广等。

随着商业银行客户数量的增加,客户消费行为异常复杂,且数据量随着时间推移越来越大,现有的聚类算法或者人工分类方法已无法满足商业银行业务对客户数据分类结果的要求,存在分类准确性和可靠性较差的问题。

因此,亟需一种可以克服上述问题的银行客户数据处理方案。



技术实现要素:

本发明实施例提供一种银行客户数据处理方法,用以处理银行客户数据,实现高准确性及可靠性的客户数据分类,该方法包括:

获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;

根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。

本发明实施例提供一种银行客户数据处理装置,用以处理银行客户数据,实现高准确性及可靠性的客户数据分类,该装置包括:

数据获得模块,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;

数据分类模块,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行客户数据处理方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述银行客户数据处理方法的计算机程序。

相对于现有技术中通过聚类算法或者人工进行客户数据分类的方案而言,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法为每个训练好的机器学习模型设定了对应的权重值,根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值建立分类模型,从而针对不同的业务需求能够自适应调整权重值,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中银行客户数据处理方法示意图;

图2为本发明实施例中银行客户数据处理装置结构图;

图3为本发明实施例中银行客户数据处理装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

首先,对本申请实施例中涉及的名词进行介绍:

lightgbm模型:lightgbm模型是微软提出的一个梯度提升框架,使用基于树的学习算法。该模型速度快、精度高、可处理大规模数据。

客群分类:客群分类是指将客户按照某种标准,将具有相似行为特征、价值特征的客户归为同一个群体的行为。

xgboost模型:xgboost模型是一个基于树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。该方法在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。

神经网络:神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型。这种模型通过调整内部大量节点之间相互连接的关系,从而完成信息处理。

遗传算法:遗传算法是一种通过模拟自然进化过程搜索最优解的优化算法,该算法不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向。

如前所述,随着商业银行客户数量的增加,客户消费行为异常复杂,且数据量随着时间推移越来越大,现有的聚类算法或者人工分类方法已无法满足商业银行业务对客户数据分类结果的要求。基于聚类的客群方法无法挖掘数据中的隐藏特征,数据利用率低,结果可靠性、准确性差;单个算法能学习到的特征有限,故而基于单个算法的客群分类模型准确率会受到限制;基于单个模型的分类方法适用性受到算法本身限制,不能很好的适用于所有的场景。

为了处理银行客户数据,实现高准确性及可靠性的客户数据分类,本发明实施例提供一种银行客户数据处理方法,如图1所示,该方法可以包括:

步骤101、获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;

步骤102、根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。

由图1所示可以得知,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法为每个训练好的机器学习模型设定了对应的权重值,根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值建立分类模型,从而针对不同的业务需求能够自适应调整权重值,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。

具体实施时,获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合。

实施例中,个人数据可以包括:用户性别数据,年龄数据,学历数据,职业数据,开户地数据,归属地数据,手机号,首次开户时间,存款信息,理财信息,证券持仓信息,信用卡持卡数量,信用卡授信额度其中之一或任意组合。交易数据可以包括:近年信用卡交易次数,近年信用卡交易金额数据,近年转账次数,近年转账金额数据,手机银行注册时间,手机银行购物数据,缴费信息,手机银行登录次数,手机银行功能点击信息,手机银行停留时间信息其中之一或任意组合。资产负债数据可以包括贷款预授信额度信息。

实施例中,在获得银行客户数据之后对银行客户数据进行关联划分处理,利用用户id依据不同数据源提供的主键进行关联,从而实现数据整合。具体的,数据整合即为将不同来源、不容内容的数据,按照客户号进行整合。可以认为是把所有搜集到的数据具体到每一个个体。设客户为a,将客户a的银行客户数据从对应数据源中全部抽取,并将结果保存。

具体实施时,根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。

实施例中,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。xgboost机器学习模型,lightgbm机器学习模型和神经网络模型为现有技术,本领域技术人员能够通过查阅资料了解xgboost机器学习模型,lightgbm机器学习模型和神经网络模型,本发明不再进行具体说明。本领域技术人员可以理解,上述列举出的机器学习模型为示例性说明,实施时可以根据需求确定不同的机器学习模型,相关的变化例均应落入本发明的保护范围。

实施例中,所述每个训练好的机器学习模型对应的权重值按如下方式进行设定:初始化所述每个训练好的机器学习模型对应的权重值;利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。

本实施例中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新,包括:对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。

本实施例中,在训练好每个机器学习模型后,开始对权重值进行设定,每个机器学习模型对应一个权重值。开始时,随机设置一组权重值,并利用机器学习模型对数据进行处理,而后用机器学习模型输出值和目标值的差作为目标函数,利用遗传算法不断进行优化权重,得到最终的权重。本发明实施例中使用的遗传算法不同于传统遗传算法,对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。例如每一次迭代优化完成后,选择适应度最高的2个最优子代,并对这两个最优子代只进行交叉操作而产生第3个子代,将这三个子代直接复制到下一代种群中替换掉3个适应度最低的子代,最后得到最终的下一代群体,并在该群体基础上继续进行优化。不同业务需求的客群分类目标不一样,使用的特征也不一样,故而针对不同的业务需求要做到自适应分类算法选择。利用遗传算法自动调整模型的融合权重,针对不同的业务需求自适应调整权重,从而实现算法针对不同业务需求的自适应,进而扩大模型的适用场景。需要说明的是,本申请提到的自适应是指可以处理不同的任务。不同任务的数据不同,数据与结果间的关系也不相同。本发明实施例利用多个模型加权重调节结果的方式,不同模型学习的特征不同,再利用权重对结果进行调整,进而赋予了模型更大的调整空间。传统遗传算法只将适应度最高的子代复制到下一代,其余则随机产生,这样可能导致某些优质子代被丢弃,进而影响到结果和算法性能。本发明实施例则选择适应度最高的前2个子代,并交叉且不变异产生第三个子代,将该三个子代加入下一次优化的子代,直到最后优化完成。

实施例中,银行客户数据处理方法还包括:获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,包括:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。

本实施例中,获得银行客户数据之后,利用三倍标准差探测算法对银行客户数据进行异常数据的清洗处理,异常数据是指因为人为因素、偶然误差或等原因,常常会有一小部分样本数据与总体数据在特征等方面出现较大的差异。三倍标准差探测算法主要依据切比雪夫不等式,数据的离散程度,统计学上用方差来表示,当数据是服从正态分布时,数据超过三倍标准差的概率仅为0.27%。我们可以将与平均值之差的绝对值超过三倍标准差的数据称之为异常值。对于缺失信息小于20%的样本,我们采用填充缺失值的方法来补齐数据,也即利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,把缺失信息超过20%的样本直接去掉。例如,可以采用均值填充法处理数据缺失。由于用户个人信息,商户信息中的属性的存在多种表现形式,如性别取值有男,女;职业取值有教师、医生、学生等。为了便于后续数据挖掘处理,可以表示为向量空间模型(vsm),也即对空缺填充处理后的银行客户数据进行数据向量化处理。向量空间模型的基本原理是用一系列属性表示用户或者商户,将每个属性作为特征空间坐标系的一维。从而,每个用户或者商户di被表示成一个二元特征向量模式:di=(<ti1,wi1>,<ti2,wi2>,...,<tim,wim>),其中,wik表示特征属性tik的权重。向量化过程中,特征属性确定后,向量空间模型可简化为权重向量形式:di=(wi1,wi2,...,wim)。常用的属性权重计算方法有布尔权重法,布尔权重是最简单的权重定义方法,用户信息或商户信息被量化成0,1向量。布尔权重即通过布尔量0,1来标记特征属性存在与否,存在则该向量维记为1,不存在记为0,公式表达如下:

实施例中,分别对xgboost机器学习模型、lightgbm机器学习模型和神经网络模型进行特征工程处理,并利用预处理好的数据不断调整xgboost机器学习模型、lightgbm机器学习模型和神经网络模型参数,直至模型达到最优性能。考虑到单个算法单个算法能学习到的特征有限,这将导致基于单个算法的客群分类模型准确率会受到限制,影响最终的分类性能。为尽可能避免这种情况的出现,本发明实施例采用xgboost机器学习模型、lightgbm机器学习模型和神经网络这三个算法同时进行客群分类。不同算法学习到的特征侧重点不同,故而本发明可以尽可能挖掘出数据中的不同隐藏特征,进一步提升了模型性能,分类准确率更高。然后调用分类模型进行客群分类。利用调整好的权重对xgboost机器学习模型、lightgbm机器学习模型和神经网络模型输出的结果进行加权处理,并根据加权后的结果得到最终的客群分类结果。不同模型学习到的特征不同,而不同对结果影响的重要性也不同,对不同模型输出的结果加进行权侧后,可以提升重要特征对结果的影响,即实现特征重要性的自适应调整,进而进一步提升结果的准确性。例如,设xgboost机器学习模型、lightgbm机器学习模型和神经网络模型结果为x1、x2、x3,x为多维向量,权重为k1、k2、k3,则最终结果为k1×x1+k2×x2+k3×x3。

本发明实施例采用多模型融合的方式进行客群分类,可以充分挖掘数据中的隐藏特征,数据利用高,结果准确性和可靠性均大幅提高;利用多个分类模型同时对客户进行分类,不同算法学习到的特征侧重点不同,故而本发明提出的处理方法可以尽可能挖掘出数据中的隐藏特征,模型性能更优异,分类结果更准确;利用遗传算法来自动调整每个分类算法的权重,针对不同的业务需求自适应调整权重,从而实现算法针对不同业务需求的自适应。通过直接处理客户基本信息、交易历史数据的方式自动完成客群分类,用法简单、使用便捷、高效,可节约大量时间成本、人力成本;将客群分类整合为一个端到端的过程,只需更换相应数据集,该方法就可以推广到客群分类以外的其它分类问题中,适用范围广、普及成本低。

基于同一发明构思,本发明实施例还提供了一种银行客户数据处理装置,如下面的实施例所述。由于这些解决问题的原理与银行客户数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

图2为本发明实施例中银行客户数据处理装置的结构图,如图2所示,该装置包括:

数据获得模块201,用于获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;

数据分类模块202,用于根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。

一个实施例中,所述数据分类模块202进一步用于:

初始化所述每个训练好的机器学习模型对应的权重值;

利用遗传算法对所述每个训练好的机器学习模型对应的权重值进行多次迭代更新,其中,对于每次迭代更新,在该次迭代更新后获取第一预设数量的子代数据,根据所述第一预设数量的子代数据对所述权重值进行下一次迭代更新。

一个实施例中,所述数据分类模块202进一步用于:

对于每次迭代更新,在该次迭代更新后获取种群中第一预设数量的子代数据;

对所述第一预设数量的子代数据进行交叉处理,得到第二预设数量的子代数据;

利用所述第二预设数量的子代数据替换下一代种群中第二预设数量的子代数据;

根据替换后的下一代种群中的子代数据,对所述权重值进行下一次迭代更新。

一个实施例中,所述多个训练好的机器学习模型包括:xgboost机器学习模型,lightgbm机器学习模型和神经网络模型。

一个实施例中,如图3所示,图2的银行客户数据处理装置还包括:

预处理模块203,用于获得银行客户数据之后,利用三倍标准差探测算法对所述银行客户数据进行清洗处理,利用均值填充算法对清洗处理后的银行客户数据进行空缺填充处理,对空缺填充处理后的银行客户数据进行数据向量化处理;

所述数据分类模块202进一步用于:根据数据向量化处理后的银行客户数据和预先建立的分类模型,对银行客户数据进行分类。

综上所述,本发明实施例通过获得银行客户数据,所述银行客户数据包括:个人数据,交易数据,资产负债数据其中之一或任意组合;根据所述银行客户数据和预先建立的分类模型,对银行客户数据进行分类,其中,所述分类模型根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值预先建立,所述每个训练好的机器学习模型对应的权重值利用遗传算法进行设定,所述每个机器学习模型根据银行客户历史数据进行训练。本发明实施例无需人为操作,利用银行客户数据和预先建立的分类模型对客户数据进行自动分类,快速、省力、高效且低成本,此外,考虑到每个机器学习模型学习到特征的侧重点不同,本发明实施例利用遗传算法为每个训练好的机器学习模型设定了对应的权重值,根据多个训练好的机器学习模型以及设定的每个训练好的机器学习模型对应的权重值建立分类模型,从而针对不同的业务需求能够自适应调整权重值,有效提升了特征学习能力,尽可能挖掘数据隐藏特征,提高了客户数据分类结果的准确性及可靠性。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1