决策树模型,大数据新算法在个人信用风险评估模型中使用效果的评估
1980年代,美国飞哲公司基于逻辑回归算法构建了飞哲信用评分系统,成为美国信用评分市场的巨头。然而,随着大数据建模技术的飞速发展,许多新算法、新技术层出不穷。本项目选择了五种新的大数据算法,包括支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost)和梯度提升决策树(GBDT)。在样本上构建个人风险评估模型,从三个方面进行评估。首先,从模型的准确性和可解释性方面,综合比较了各种算法构建的模型在个人信用风险评估中的效果。然后,
项目背景
目前,中国人民银行征信中心征信报告数字解读系统是指美国个人消费信用评估公司飞哲开发的飞哲信用评分系统。Faizhe信用评分系统建立于1980年代,其核心算法是逻辑回归。随着统计分析和大数据建模技术的进步,算法的发展日新月异,形成了包括决策树、随机森林、神经网络分析和自适应增强(AdaBoost)在内的许多新的算法和技术。新数据算法对当前征信中心数据集的准确性、稳定性和可解释性仍有待验证和评估。
为此,中国人民银行征信中心和北京智信普林科技有限公司选择了五种大数据新算法,分别是支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost ) 和 Gradient Boosting Decision Tree (GBDT),综合评估和比较上述五种算法在个人信用风险评估模型中的效果,包括稳定性、准确性和可解释性,以进一步了解相关算法在评分方面的优缺点。新评分模型的探索和实验,有助于为征信中心积累模型算法经验决策树模型,并与国际领先的建模方法接轨。经验。
算法介绍
支持向量机(SVM)是一种分类学习算法。支持向量机 (SVM) 的基本模型是在特征空间中定义的具有最大边距的线性分类器。线性支持向量机与逻辑回归类似,它们为每个变量分配一个权重因子,并以最终变量的加权和作为预测的基础。同时,支持向量机(SVM)可以利用核函数将变量映射到高维空间,从而提高模型效果。但是这种方法的主要缺点是训练速度慢,难以直接应用于大规模数据,所以本项目只测试了线性支持向量机。
决策树是一种基本的分类和回归方法。决策树模型具有树状结构,可以看作是一组“if-then”判断规则,也可以看作是定义在特征空间和类空间中的条件概率分布。它的主要优点是训练速度快,预测速度快。与线性模型相比,决策树还可以处理非线性数据。此外决策树模型,决策树模型的可解释性强,对数据的适应性强;它的缺点是单个决策树容易过拟合。
随机森林由多棵决策树组成,每棵决策树擅长特定的人群,专注于特定的变量,然后共同做出决策,做出最终判断。在构建每棵决策树时,随机森林通过样本和变量两个维度进行随机抽样。随机森林的优点是训练速度快,并行性好,可以处理大规模数据。
Adaptive Boosting(AdaBoost)的核心思想是利用同一个训练样本的不同加权版本来训练一组弱分类器(Weak Learners),然后将这些弱分类器以加权的形式整合,形成最终的强分类器. 分类器(强学习者)。在迭代过程的每一步中,被当前弱分类器错误分类的样本的权重都会相应增加,而已经被当前弱分类器配对的样本的权重会相应降低。弱分类器的权重根据当前分类器的加权错误率确定。自适应提升(AdaBoost)的优点是不易产生过拟合,预测效果好。
Gradient Boosting Decision Tree (GBDT) 在很多方面与 Adaptive Boosting (AdaBoost) 相似,也是子模型之间的合作,不同的是后者子模型纠正了前者模型的错误。梯度提升决策树(GBDT)模型预测时,对于一个输入样本实例,会先给出一个初始值,然后遍历每棵决策树。每棵树都会对预测值进行调整和修正,最终得到预测值。结果。
逻辑回归适用于处理线性数据,而实际问题往往是非线性的,尤其是在信用风险评估的背景下。支持向量机(SVM)可以通过核函数等方法处理非线性数据,但在样本量大时训练速度太慢。决策树可以处理非线性数据,但是单个决策树对数据非常敏感,容易出现过拟合问题。随机森林通过采样减少了计算量,并且可以使用并行模式进行模型训练,因此适用于处理大规模高维数据。在基本决策树模型的基础上,自适应提升(AdaBoost)和梯度提升决策树(GBDT)可以通过数据权重变换等方法将弱模型转化为强模型,
建模过程
本研究使用的数据集是征信中心数据库中存储的1265万人的个人信用数据,包括2010年7月31日的贷款记录、信用卡记录、准信用卡记录、特殊交易记录和查询记录。绩效变量是使用 2010 年 7 月 31 日至 2012 年 7 月 31 日期间的个人违约记录定义的,其值范围为 0(未逾期)和 1(逾期 90 天以上)。
项目建模过程如下:(1)首先分析原始数据,研究原始数据各个字段的含义,分析数据质量;(2)根据分析结果,确定描述个人信用的七大类统计指标,包括历史还款信息、账户类型和数量、在用和结算账户信息、信用期限、新开账户信息、查询信息和特殊交易信息;(3)用于一些连续指标 列处理采用单变量决策树的方法;(4)利用大数据算法构建个人信用风险评估模型;(5)对模型效果进行评估分析由每个算法构建。
本项目中的数据分析、处理和建模均基于Python环境。②
效果评价
本项目主要从准确性、稳定性和可解释性三个方面对模型进行评估。准确度指标包括敏感性曲线下面积(ROC_AUC)和辨别指数(Kolmogorov-Smirnov, KS),稳定性指标主要指人口迁移指数(PSI)。可解释性可以通过指标的重要性来评估,用于衡量每个解释变量对算法预测结果的影响程度。敏感性曲线下面积(ROC_AUC)、辨别指数(KS)和种群稳定性指数(PSI)的具体含义如下:
磁化率曲线下面积 (ROC_AUC)
磁化率曲线下面积(ROC_AUC)是评价模型整体准确性的指标,是磁化率曲线(ROC)与横轴之间的面积。与其他评价指标相比,感受性曲线(ROC)具有一定的稳定性,不会因为正负样本分布的变化而产生不同的曲线。接受率曲线(ROC)由两个指标绘制,真阳性率(TPR)和假阳性率(FPR)。感受性曲线(ROC)的示意图如图1所示。感受性曲线下面积(ROC_AUC)的范围为[0, 1],值越大,模型的整体精度越好。
歧视指数(KS)
判别指数(KS)是衡量特定模型下正常样本和默认样本分布之间的最大差距。首先,将样本按照信用评分或预测违约率从小到大排序决策树模型,大数据新算法在个人信用风险评估模型中使用效果的评估,然后计算每个评分或违约率下好坏样本的差值。累计比例。正常样本和默认样本的累积比例之差的最大值就是判别指数(KS)。判别指数(KS)示意图如图2所示。判别指数(KS)小于0.2表示模型精度差,大于0.75表示模型精度高。
人口稳定指数 (PSI)
模型是在特定时间点开发的,并经过稳定性测试以验证外部样本的有效性。种群稳定性指数(PSI)是最常用的模型稳定性评价指标。人口稳定指数(PSI)的计算公式为:
其中,期望比例(Expected%)和实际比例(Actual%)分别代表模型训练样本和测试样本中对应分数段或违约率段的总体比例。一般来说,种群稳定性指数(PSI)小于0.1表示模型稳定性高,种群稳定性指数(PSI)大于0.1且小于0.25表示模型中等稳定,人口稳定指数(PSI)中等稳定。稳定性指数 (PSI) 大于 0.25 表示模型稳定性较差。
2010年样品测试。我们首先以 2010 年的样本为模型来评估每个模型的准确性和可解释性。2010年样本是指2010年绩效变量为0(未逾期)和1(逾期90天以上)的人群,样本量约为1000万。选取70%的样本作为训练样本来构建模型,30%的样本作为测试样本来评估模型的效果。每个模型的敏感性曲线下面积(ROC_AUC)和辨别指数(KS)分别如图3和图4所示。
从以上结果可以看出,集成算法(随机森林、梯度提升决策树、自适应提升)建立的模型表现更好,感受性曲线下面积(ROC_AUC)指标达到0.95或者更多。支持向量机(SVM)的精度最差,这与大数据样本和项目环境中无法使用核函数有关。决策树表现一般,敏感性曲线下面积(ROC_AUC)指标为0.9477。具体来说,如果以判别指数(KS)作为衡量标准决策树模型,大数据新算法在个人信用风险评估模型中使用效果的评估,自适应提升(AdaBoost)表现最好,判别指数(KS)达到0.7803。其他模型的表现顺序为:随机森林>
在可解释性方面,每个算法都会计算指标的重要性,以帮助解释结果。综合考虑所有模型生成的指标的重要性得到的综合排名如表1所示。
从各模型指标重要性综合排名来看,对个人信用评价影响最大的因素有:逾期情况、正常还款率、无抵押贷款、授信额度利用率、授信期限等。可以看出,具有高可解释性的统计指标影响新大数据算法的预测结果。与传统的逻辑回归模型相比,大数据算法不需要太多的变量选择和变量评价工作,可以在模型构建过程中自动选择重要变量,自动评价变量的重要性。
外部时间点样本测试。为了评估模型在外部时间点样本上的性能,我们在外部时间点样本上测试了新的大数据算法模型。其中,外部时间点样本选取截至2011年3月31日的记录,样本总数约1300万条。使用2010年的训练样本训练的模型在外部时间点样本上进行了测试,并对其在外部时间点样本上的准确性和稳定性进行了分析和比较。
各模型的性能评价指标如图5和表2所示,其中2010年代表模型在2010年测试样本上的表现,2011年代表模型在2011年测试样本上的表现。
对比模型在 2010 年和 2011 年样本上的预测结果,在准确率上,决策树、随机森林和自适应提升(AdaBoost)的敏感性曲线下面积(ROC_AUC)减小,而梯度提升决策树(GBDT) ) 增加了磁化率曲线下的面积 (ROC_AUC);决策树、自适应提升(AdaBoost)的判别指数(KS)有所下降,而逻辑回归、随机森林、梯度提升决策树(GBDT)和支持向量机(SVM)的判别指数(KS)有所提高。总体而言,在准确率上,各模型在2011年测试样本上的表现与在2010年测试样本上的表现并没有显着差异,表现稳定。从人口稳定指数(PSI)来看,
总结
为评价新的大数据算法在个人信用风险评估模型中的效果,中国人民银行征信中心与北京智信普林科技有限公司对算法的建模效果进行了综合评价. 项目选取了决策树、随机森林、自适应提升(AdaBoost)、梯度提升决策树(GBDT)和支持向量机(SVM)五种新的大数据算法,对数十个大规模样本进行个体研究数百万。风险评估模型的构建与分析。
2010年对1000万个样本的分析结果表明,自适应提升(AdaBoost)、梯度提升决策树(GBDT)和随机森林三种集成算法的精度最好,其次是决策树、支持向量机(SVM)的精度。 ) 的准确度最差。同时,外部时间点样本的分析结果表明,自适应提升(AdaBoost)和支持向量机(SVM)具有较高的稳定性,在决策树和梯度提升决策树(GBDT)中,随机森林的稳定性低。在可解释性方面,所有新的大数据算法都可以评估统计指标的重要性,统计指标综合排名最高的统计指标具有更好的可解释性。总体上,
大数据算法是建模的工具,结果不是绝对的。如何根据数据特征和算法特征建立合适的模型也很关键。在实际的模型开发过程中,业务专家和数据科学团队需要在数据逻辑的理解和建模指标的选择上紧密合作。此外,数据科学团队需要对算法的核心原理有深刻的理解,以及实现快速算法的能力和强大的大规模数据处理能力,才能充分利用大数据算法开发高性能的信用风险评估模型。
①大数据评分算法研究组成员:欧高彦,普林西比科技数据科学事业部总经理;浦林科技金融事业部总经理王然然;太子,浦林科技研发中心负责人;中国人民银行征信中心增值业务部业务经理杨亮;曹硕,就职于中国人民银行征信中心增值业务部;张惠英,在中国人民银行征信中心增值业务部工作。
② Python(Python):是一种面向对象的、解释型的计算机编程语言。
评论前必须登录!
注册