一种基于贝叶斯网络和互信息的客户信用评分方法

文档序号:9327704阅读:569来源:国知局
一种基于贝叶斯网络和互信息的客户信用评分方法
【技术领域】
[0001] 本发明涉及一种利用数据挖掘或机器学习技术进行客户信用评分的方法,尤其是 一种基于贝叶斯网络和互信息的客户信用评分方法。
【背景技术】
[0002] 信用评分(credit scoring)也称客户信用(或资信)评估(或评级),是近年来 兴起的一种为了保障银行等金融机构的金融安全(即降低其市场活动风险)而采用的一种 对客户资信进行分析预测的方法。
[0003] 信用评分是指根据客户的实证属性(empirical attributes)(如:客户的年龄、 学历、收入、家庭情况,等)和客户信用历史属性(如:客户的按时还款(贷)情况、骗保情 况,等)来构建一个信用评分模型(credit scoring model),然后利用该信用评分模型来预 测客户的信用分数(credit score),从而评估客户的未来信用表现。
[0004] 现有的信用评分方法主要分为四类(参见:"Nan_Chen Hsieha, Lun-Ping Hung:A data driven ensemble classifier for credit scoring analysis.Expert Systems with ApplicationsjVolume 37, Issue IjJanuary 2010, Pages 534 - 545 ;D01:10. 1016/ j.eswa. 2009. 05. 059"):支持向量机(support vector machine)方法、决策树(decision tree)方法、神经网络(neural network)方法、以及贝叶斯网络(^Bayesian network)方法D
[0005] 支持向量机方法,典型的是Kima和Ahn于2012年提出的方法(参见:aKyoung-jae Kima,Hyunchul Ahn:A corporate credit rating model using multi-class support vector machines with an ordinal pairwise partitioning approach. Computers&Operations Research, Volume 39,Issue 8,August 2012,Pages 1800 - 1811 ; DOI: 10. 1016/j. con 2011. 06. 023")。该类方法需要通过训练样本来构建信用评分模型,但 由于其难以处理大规模的训练样本,在实际中应用效果不佳。
[0006] 决策树方法,典型的是Bozsik和K^miendi于2011年提出的方法(参见:"j0zsef Bozsikj Gergely Kormendi: Decision tree-based credit decision support system. LINDI 2011_3rd IEEE International Symposium on Logistics and Industrial Informatics,Proceedings,IEEE Computer Society,2011,Pages:189-193 ;D01:10.1109/ LINDI. 2011. 6031145"h该类方法难以根据不完整的客户数据来构建信用评分模型,且预 测准确性(accuracy)与精度(precision)较低。
[0007] 神经网络方法,典型的是Hsieh于2005年提出的方法(参见:"Nan-Chen Hsieh:Hybrid mining approach in the design of credit scoring models. Expert Systems with Applications, Volume 28, Issue 4, May 2005, Pages 655 - 665; D0I:10. 1016/j.eswa. 2004. 12.022")。该类方法存在以下缺陷:(1)除了大量客户数据外, 还需很多的输入参数(如:网络拓扑结构、阈值、权重值,等)才能构建信用评分模型"2) 信用评分模型的直观性、评价结果的可解释性不够,从而影响输出结果的可信度。
[0008] 贝叶斯网络方法,典型的有Pavlenko和Chemyak于2010年提出的方法(参 见:"Tatjana Pavlenko, Oleksandr Chernyak:Credit risk modeling using bayesian networks. International Journal of Intelligent Systems, Volume 25,Issue 4, April 2010, pages 326 - 344 ;D01:10. 1002/int. 20410")以及 Leong 于最近提出的方法 (参见:''Chee Kian Leong:Credit Risk Scoring with Bayesian Network Models. Computational Economics, First online on 24June2015at http://link, springer. com/article/10. 1007/sl0614-015-9505-8 ;D01:10. 1007/sl0614-015-9505-8")。现有 研究工作表明,该类方法具有以下优点:(1)在预测准确性与精度、信用评分模型的敏感性 (sensitivity)等方面比现有模型(尤其是基于神经网络方法的信用评分模型)更佳;(2) 能处理大规模的客户数据;(3)贝叶斯网络的图结构(graph structure)和概率参数估计 (probability parameter estimate)易于根据实际情况进行合理调整。
[0009] 在客户信用评分方法的实际应用中,常常会面临这样的问题或挑战:有的客户数 据(实证属性与信用历史信息)与客户的信用表现关系不大,这就需要合理筛选有用的 客户数据,以便构建更有效的信用评分模型。然而,仅用贝叶斯网络无法解决这个问题。 在概率论和信息论中,互信息(mutual information, MI)(参见:"Wenbin Qiana, Wenhao Shu:Mutual information criterion for feature selection from incomplete data. Neurocomputing, Volume 168, 30November 2015,Pages 210 - 220 ;D01:10. 1016/ j. neucom. 2015. 05. 105")是变量之间相互依赖关系(mutual dependence)的一种度量,可 用来有效地衡量变量之间的相关性。因此,在构建基于贝叶斯网络的信用评分模型过程中, 可借助互信息机制来合理筛选有用的客户数据。正是基于这个思想,本发明提出一种基于 贝叶斯网络和互信息的客户信用评分方法。
[0010] 下面简要说明本发明技术方案中采用的若干现有计算方法或算法。
[0011] 在构建初始贝叶斯网络过程中,采用了贝叶斯信息准则(Bayesian information criterion, BIC)(参见:''Ernst Wit, Edwin van den Heuvel, Jan-ffillem Romei jn: 'All models are wrong···' : an introduction to model uncertainty.Statistica NeerlandicajVolume 66, Issue 3,August 2012,pages 217 - 236 ;D01:10. 1111/ j. 1467-9574. 2012. 00530. x")对贝叶斯网络进行评分。
[0012] 在构建初始贝叶斯网络过程中,采用了爬山(hill climbing)算法(参 见:''J. A. Gamez, J. L. Mateo, and J. M. Puerta, "Learning Bayesian networks by hill climbing:efficient methods based on progressive restriction of the neighborhood, ''Data Mining and Knowledge Discovery, vol. 22, no. I - 2, January 2011,pp. 106 - 148,D0I:10. 1007/sl0618-010-0178-6. ")基于预处理过的客户数据来创建 贝叶斯网络。
[0013] 在对客户信用评分模型的网络结构进行参数学习过程中,采用了最大似然估 计(maximum-likelihood estimation)方法(参见:"Michiel Hazewinkel(editor ):"Maximum-likelihood method", Encyclopedia of Mathematics, Springer,2001 ; ISBN978-1-55608-010-4")。
[0014] 最后,为了评价本发明技术方案(即基于贝叶斯网络和互信息的客户信用评 分方法)的性能(客户信用的预测准确性与精度),在本
【发明内容】
的【具体实施方式】中, 我们给出了一个基于基准(benchmark)客户数据集的具体实施例,并将本发明技术方 案与其他典型的客户信用评分方法(决策树方法、神经网络方法、初始贝叶斯网络方 法)进行了性能比较。在性能比较时,我们采用了常用的接受者操作特征(receiver operating characteristic, ROC)(参见:''James A. Hanley, Barbara J. McNeil: The meaning and use of the area under a receiver operating characteristic(ROC) curve. Radiology, Volume 143, Is
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1