基于逻辑回归的信用评分卡建模研究
- 格式:docx
- 大小:37.72 KB
- 文档页数:4
信用评分是金融领域中一个重要的课题。
通过对个人或机构的信用状况进行评估,可以帮助金融机构更好地管理风险,提供更精准的信贷服务。
逻辑回归模型是一种常用的统计分析方法,可以用来对信用评分进行建模和预测。
本文将介绍如何使用逻辑回归模型进行信用评分,并探讨其应用和局限性。
数据准备在使用逻辑回归模型进行信用评分之前,首先需要进行数据准备。
通常,我们需要收集个人或机构的各种信息,比如年龄、收入、负债情况、征信记录等。
这些信息将作为自变量,用来预测被评估对象的信用状况。
此外,我们还需要有一个标签变量,即被评估对象的信用等级或分类。
通过收集大量的数据,并进行清洗和处理,我们就可以开始建立逻辑回归模型了。
模型建立在数据准备工作完成后,接下来就是建立逻辑回归模型。
逻辑回归是一种广泛应用于分类问题的统计方法,它可以用来预测某个事件发生的概率。
在信用评分中,我们可以将逻辑回归模型应用于评估个人或机构的信用等级。
通过对历史数据进行训练,模型可以学习到不同变量对信用等级的影响,并进行预测。
模型应用建立好逻辑回归模型后,我们就可以将其应用于实际的信用评分工作中。
通过输入被评估对象的各项信息,模型可以计算出其信用等级的预测概率。
这将帮助金融机构更准确地评估风险,对不同的客户提供个性化的信贷服务。
同时,逻辑回归模型还可以帮助机构监测信用状况,及时发现风险,做出相应的应对措施。
模型评估在使用逻辑回归模型进行信用评分时,我们还需要对模型进行评估。
这包括模型的准确性、稳定性和可解释性等方面。
通过对模型进行评估,我们可以了解其对信用评分的预测能力,并进行必要的调整和优化。
在评估模型时,我们还需要注意模型的局限性,比如数据样本的不平衡、变量的缺失等问题,这些都可能影响模型的准确性和稳定性。
应用与局限逻辑回归模型在信用评分中有着广泛的应用,但也存在一定的局限性。
比如,逻辑回归模型假设自变量与因变量之间是线性关系,这在实际情况下并不一定成立。
基于逻辑回归的信用评级模型研究近年来,随着互联网金融的发展,人们越来越关注个人信用评级。
在金融业中,信用评级是非常重要的一环。
因此,金融机构一直在寻找有效的方法来评估个人的信用水平。
最近,基于逻辑回归的信用评级模型受到研究者的关注。
本文将介绍逻辑回归、信用评级以及基于逻辑回归的信用评级模型的研究。
一、逻辑回归逻辑回归是从线性回归衍生而来的一种分类算法。
在逻辑回归中,我们通过构建一个逻辑函数来将数据分为两个不同的类别。
逻辑函数通常采用Sigmoid函数:$$g(z)=\frac{1}{1+e^{-z}}$$其中,z是一个实数。
Sigmoid函数的范围在[0,1]之间,可以用来表示概率。
在逻辑回归中,我们假设将超过0.5的样本标签分类为1,将小于0.5的样本标签分类为0。
逻辑回归的决策边界是一条(n-1)维超平面,其中n是特征数量。
逻辑回归具有以下优点:1.简单易懂,易于实现2.计算速度快,可以处理大规模数据3.可以输出具有概率意义的结果逻辑回归的缺点是:1.容易受到噪声和异常值的影响2.只能处理线性可分的数据二、信用评级信用评级是一种评估个人信用水平的方法。
在金融机构中,信用评级可以用来确定借款人是否有能力偿还贷款。
信用评级中通常包括以下指标:1.个人收入和资产情况2.个人借贷历史3.个人支付记录4.个人个人身份信息信用评级的目的是为了判断个人是否能够承担特定的风险。
因此,评级与贷款利率息息相关。
通常来说,信用评级越高,利率就越低。
三、基于逻辑回归的信用评级模型基于逻辑回归的信用评级模型是一种通过逻辑回归算法来评估个人信用水平的模型。
预测个人信用水平是一个二元分类问题,所以逻辑回归模型是最适合的。
在构建模型之前,我们需要进行数据预处理。
通常采用特征筛选和特征缩放方法,去除冗余信息和缩小不同特征之间的影响。
对于筛选的特征,我们可以采用相关性和互信息等方法进行评估。
对于缩放的特征,我们可以采用标准化和归一化等方法,将所有的特征统一到相同的尺度。
基于Logistic回归模型的中小企业信用评分研究的开题报告研究背景与意义:随着科技进步和市场经济的发展,中小企业在社会经济生活中扮演着越来越重要的角色,对于推动经济社会的发展具有不可替代的作用,而这些中小企业的信用评分则是判断中小企业能否获得银行贷款、是否具备合作伙伴资格、招标标的的重要依据。
然而,当前中小企业信用评分的研究成果并不多,而且目前的评分也主要是通过经验判断和人工评估两种方式得出,这种方法带有更多主观性和不可控性,评分结果的不确定性很高。
因此,基于Logistic回归模型的中小企业信用评分研究应运而生。
研究内容:该研究将选取一些中小企业的信用评分数据,并对数据进行收集整理。
之后,将运用Logistic回归模型对这些数据进行建模研究,确定出对中小企业信用评分有影响的主要因素,例如公司的管理情况、经济状况、法律责任情况等等。
最后,将得出该模型的精确度和可靠性,并且比较该模型所得的中小企业信用评分与传统的信用评分方法的差异。
研究方法:本研究将采用文献资料调研法和问卷调查法来收集和整理中小企业的信用评分数据,并运用Logistic回归模型来建立中小企业信用评分预测模型。
文献资料调研法通过大量阅读、归纳和总结相关文献和材料,了解中小企业信用评分的状况和研究现状,反映业内对中小企业信用评分的基本认识。
问卷调查法则对企业进行实地考察,采用多个问题对企业进行访问,收集中小企业的实际情况。
通过对这些数据的分析,可以进一步提高模型的可信度,得出更精准的评分结果。
研究预期结果:本研究预计将得出一套基于Logistic回归模型的中小企业信用评分预测模型,并从各个方面来验证其准确度和可靠性。
最终,将得出一些结论和建议,以便于现实中的中小企业更好的应对信用评分的风险和挑战,同时同样可以对金融机构、政府监管机构提出一些改善和完善信用评分机制的建议。
第 42 卷第 6 期2023年 11 月Vol.42 No.6Nov. 2023中南民族大学学报(自然科学版)Journal of South-Central Minzu University(Natural Science Edition)基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比张利斌,吴宗文(中南民族大学经济学院,武汉430074)摘要分别基于逻辑回归模型和XGBoost机器学习模型构建了信用评分卡,比较了两种模型在个人信用评分上的表现,指出XGBoost机器学习模型在“AUC、KS、F1和Accuracy值”上表现更加优秀.首先,从数据的包容性、可解释性以及模型的准确性方面对两个模型进行了对比;其次,使用住房贷款违约风险预测的竞赛数据,分别构建了基于逻辑回归模型和XGBoost机器学习模型的信用评分卡,并使用了AUC、KS、F1和Accuracy来评估这两个模型的分类效果和预测准确程度;最后,通过对比两个模型的评估结果,分析了XGBoost机器学习模型相较于逻辑回归模型更加优秀的原因.结论指出:XGBoost机器学习模型在测试集上的AUC、KS、F1和Accuracy值比逻辑回归模型分别提升了19.9%、17.5%、15.4%和11.9%,其原因在于XGBoost机器学习模型纳入了更多的维度信息、更加科学的缺失值处理方式以及考虑了正则化项的算法原理.关键词逻辑回归模型;XGBoost机器学习模型;信用评分卡中图分类号TP181;F832.51 文献标志码 A 文章编号1672-4321(2023)06-0846-07doi:10.20056/ki.ZNMDZK.20230616Credit scoring card based on XGBoost machine learning modelCompared with logistic regression modelZHANG Libin,WU Zongwen(School of Economics, South-Central Minzu University, Wuhan 430074, China)Abstract A credit scoring card based on logistic regression model and XGBoost machine learning model are constructed respectively. The performance of the two models are compared in personal credit scoring,and it is pointed out that XGBoost machine learning model performs better in “AUC, KS, F1 and Accuracy values”. Firstly, a comparative analysis of the two models is made from the aspects of data inclusiveness, interpretability and model accuracy. Secondly, using the competition data of housing loan default risk prediction,credit scoring cards based on logistic regression model and XGBoost machine learning model are constructed respectively, and AUC, KS, F1 and Accuracy are used to evaluate the classification effect and prediction accuracy of the two models. Finally,by comparing the evaluation results of the two models,the reason why XGBoost machine learning model is better than logistic regression model is analyzed. The conclusion points out that the values of AUC, KS, F1 and Accuracy of XGBoost machine learning model in the test set are increased by 19.9%, 17.5%, 15.4% and 11.9% respectively compared with logistic regression model. The reason is that XGBoost machine learning model includes more dimensional information, more scientific missing value processing method and better algorithm principle considering regularization term.Keywords logistic regression model; XGBoost machine learning model; credit score card在金融风控领域,如何根据贷款客户的基本信息和行为数据等,利用一定的分类模型,将贷款客户区分为违约客户和非违约客户,从而减少贷款机构的信用风险,是金融贷款机构孜孜不倦的追求.收稿日期2022-03-15作者简介张利斌(1973-),男,教授,博士,研究方向:产业经济学,E-mail:*****************基金项目中南民族大学研究生创新基金项目资助项目(3212021sycxjj195)第 6 期张利斌,等:基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比当前有两种主流分类模型——统计学模型和机器学习模型.逻辑回归模型是最常用的统计学模型,其优点主要体现在:第一,理论基础成熟,适合二分类问题[1];第二,可解释性较强,易于理解[2];第三,模型训练时间短[3].缺点主要体现在:第一,容易产生过拟合,泛化能力弱[4];第二,特征空间很大时,分类性能不好[5].近年来,XGBoost机器学习模型在分类问题中表现优秀,受到越来越多风控人员的青睐,其优点主要体现在:第一,计算复杂度低,运行速度快,准确度高[6];第二,可处理数据量大[7].缺点主要体现在:第一,建模过程不透明,模型较难解释[8];第二,理论基础不够成熟,布置上线较困难[9].在分类模型的评价方面,当前学者主要使用AUC、KS、F1和Accuracy值等来评价逻辑回归模型和XGBoost机器学习模型的效果,并指出XGBoost 机器学习模型比逻辑回归模型在AUC、KS、F1和Accuracy值上表现更加优秀,但是并未解释更加优秀的原因.本文拟从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三方面来解释其中的原因.1 模型对比1.1 逻辑回归模型逻辑回归模型[10]是线性回归模型的改进,是一种“广义的线性回归模型”,该模型是分类问题中最常用的统计学模型.逻辑回归模型的一般形式见式(1)所示,如下:f(x)=11+e-()β0+β1x1+β2x2+⋯+βn x n,(1)其中,β0~βn为模型的估计参数,x1~x n为模型的变量.在金融风控领域,以贷款客户的违约与否作为逻辑回归模型的因变量,一般称为“非违约客户”和“违约客户”,用0或1来表示,即f(x)<0.5为0;f(x)>0.5为1.1.2 XGBoost机器学习模型XGBoost机器学习模型[11]比传统的GBDT (Gradient Boosting Decision Tree,以下简称GBDT)更加进步的原因在于:传统的GBDT只利用了一阶的导数信息,而XGBoost机器学习模型对损失函数进行了二阶的泰勒展开,求得模型最优解的效率更高.具体如下:将XGBoost机器学习模型进行t次迭代之后,此时的目标函数为:L()t=∑i=1n l()yiyit-1+f t(x i)+Ω(f t),(2)将目标函数进行泰勒二阶展开可得:L t≈∑i=1néëêêùûúúl()yi,y i(t-1)+g i f t(x i)+12h i f2t()x i+Ω(f t),(3)gi=∂y(t-1)l(y t,y∧(t-1))为每个样本的一阶导数,12h i=12∂2y(t-1)l(y i,y∧(t-1))为每个样本的二阶导数.1.3 模型优缺点逻辑回归模型和XGBoost机器学习模型的优缺点如表1所示.相较于XGBoost机器学习模型,逻辑回归模型更加方便实现,并且可解释强;XGBoost 机器学习模型在处理大数据时精度更高,并且可以有效防止过拟合.2 实证分析本文的实证分析思路如下:首先,分别运用逻辑回归模型和XGBoost机器学习模型来构建信用评分卡,并运用AUC、KS、F1和Accuracy这四个指标评估模型的效果.其次,从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三个方面对比两个模型,分析XGBoost机器学习模型比逻辑回归表1 逻辑回归模型和XGBoost机器学习模型的优缺点Tab. 1 Advantages and disadvantages of logistic regression model and XGboost machine learning model模型逻辑回归模型XGBoost机器学习模型优点适用于二分类问题简单易理解,可解释性强训练速度快精度高能有效处理缺失值能有效防止过拟合缺点对自变量的多重共线性表现敏感特征空间很大时,分类性能不好容易产生过拟合,分类精度不高建模不透明,不易理解处理低偏差、高方差的数据效果不好847第 42 卷中南民族大学学报(自然科学版)模型更加优秀的原因.2.1 逻辑回归模型2.1.1 数据介绍实验数据来自于kaggle 官网(https ://www./c/home -credit -default -risk/overview )的住房贷款违约风险预测的竞赛数据.本文的实验数据集包括20000个训练数据和5000个测试数据,其中实验数据集共有121列,包括个人基本信息、所在地区情况、借贷信息状况以及公司相关状况等.本文为更好地解释实证部分,将实验数据集的英文变量翻译为中文变量,如表2所示.2.1.2 数据预处理(1) 无效值处理原始数据表中的SK_ID_CURR 变量在实际建模中的用处不大,且包含用户的隐私信息,故需直接删除.(2) 缺失值处理根据jupyter 分析软件可得,121个变量中共有65个有缺失值.其中,共有57个变量的缺失比例大于10%,将其直接删除,对剩余的缺失变量做相应的填充处理,具体处理方式如表3所示.2.1.3 入模变量筛选对逻辑回归模型来说,入模变量的选择至关重要.本文选择WOE 分箱、IV 值筛选法以及相关性检测相结合的方法筛选入模变量,具体思路如下:首先,根据变量的阈值以及业务趋势进行WOE 分箱;其次,根据WOE 分箱计算变量的IV 值,筛选IV 值大于0.3的变量(IV 值大于0.3有较高的预测能力);最后,对IV 值大于0.3变量进行相关性检测,剔除相关性大于0.5中IV 值较小的那个变量.一般来说,建立逻辑回归模型只需选择10~12个变量[12].本文选择IV 值排名靠前且通过相关性检测的11个变量作为入模变量,具体如表4所示.2.1.4 逻辑回归模型的建立根据SPSS 软件,确定x 1~x 11各变量的估计参数,从而建立逻辑回归模型,具体表达式如(4)式所示:f (x )=11+e -()-1.132+0.535x1+0.462x 2+0.769x 3+0.713x 4+0.976x 5+0.875x 6+0.568x 7+0.760x 8+0.375x 9+0.179x 10+0.268x 11,(4)表2 变量解释表Tab. 2 Variable interpretation英文变量名称TARGETNAME_EDUCATION_TYPE AMT_INCOME_TOTAL DAYS_EMPLOYED DAYS_BIRTH FLAG_OWN_REALTYREGION_RATING_CLIENTREG_CITY_NOT_WORK_CITYFLAG_OWN_CAR FLAG_MOBILNAME_INCOME_TYPENAME_FAMILY_STATUSREGION_RATING_CLIENT_W_CITYCODE_GENDER AMT_CREDITNAME_HOUSING_TYPEDEF_30_CNT_SOCIAL_CIRCLE…DEF_60_CNT_SOCIAL_CIRCLE REG_CITY_NOT_LIVE_CITY BASEMENTAREA_AVG ORGANIZATION_TYPE中文变量名称违约情况教育程度收入就业年数年龄不动产拥有情况所在地区评级常驻地址和工作地址匹配情况车辆情况家庭电话提供情况收入类型家庭状况所在城市的评级性别贷款金额住房情况违约60天的天数…违约30天的天数常驻地址和联系地址匹配情况房屋的面积大小公司的组织情况解释0:正常还款;1:违约客户受教育程度客户的年总收入申请人就业年数客户申请贷款时的年龄Y :有;N :没有1:最高;2:中等;3:较差1:相同;0:不相同(城市级别匹配)Y :有;N :没有1:有;0:没有客户的收入类型客户的家庭状况1:最高;2:中等;3:较差F :女;M :男客户的贷款金额客户的住房情况(租房or 与父母同住)客户违约30天的次数…客户违约60天的次数1:相同;0:不相同(城市级别匹配)客户居住房屋的面积大小客户工作的组织类型848第 6 期张利斌,等:基于XGBoost 机器学习模型的信用评分卡与基于逻辑回归模型的对比其中x i (i =1⋯11)为11个入模变量;f (x )为预测结果.2.1.5 信用评分卡的建立根据传统的信用评分机制,可以制作信用评分卡,标准的信用评分卡如表5所示.表中,A 、B 为假设的基础分值,本文设为500和50,θ0~θn 为x 1~x n 的估计参数,ω11~ωnk n为x 1~x n 各分量的WOE 值.根据评分转换原理,计算出11个入模变量的各分量得分值,具体结果如表6所示.利用表6的信用评分卡对5000个测试集样本进行评分转换,得测试集样本的最终得分情况见表7.从表7的得分情况可以看出,随着用户得分的上升,高分段的坏样本占比呈现出不断下降的趋势,这也说明了信用评分卡可以较好地识别信用风险.2.1.6 模型的效果评价对于分类模型而言,可以从分类能力和预测的准确程度来评价模型的效果.一般来说,使用AUC 和KS 来评估模型的分类能力以及F1和Accuracy 来评估模型的预测准确程度[13].通过对训练集和测试集的样本测试,得到相关的评价指标如表8所示.从表8可以看出该模型在测试集上拥有0.7294的AUC 和0.5378的KS ,这表示模型具有较好的分类能力.同时该模型在测试集上拥有0.8218的F1和0.8325的Accuracy ,这表示模型具有较高的预测准确程度.2.2 XGBoost 机器学习模型2.2.1 朴素的XGBoost 机器学习模型首先,用训练数据来建立默认参数下的XGBoost 机器学习模型;其次,对所构建的XGBoost 机器学习模型进行效果评价.具体结果如表9所示.由表9可知,在没有超参数约束的情况下,XGBoost 机器学习模型在训练集上完全拟合,而在测试集上的表现相对一般,这表明该模型的泛化能力较弱.造成这种现象的原因是XGBoost 机器学习模型是基于决策树的集成模型,如果不限制其增表3 缺失变量处理表Tab. 3 Missing variable processing table 变量名称COMMONAREA_AVGCOMMONAREA_MODE COMMONAREA_MEDINONLIVINGAPARTMENTS_AVGNONLIVINGAPARTMENTS_MODE …AMT_REQ_CREDIT_BUREAU_HOUR AMT_REQ_CREDIT_BUREAU_DAYAMT_REQ_CREDIT_BUREAU_WEEK NAME_TYPE_SUITEOBS_30_CNT_SOCIAL_CIRCLE DEF_30_CNT_SOCIAL_CIRCLE OBS_60_CNT_SOCIAL_CIRCLEDEF_60_CNT_SOCIAL_CIRCLEEXT_SOURCE_2AMT_GOODS_PRICEDAYS_LAST_PHONE_CHANGE缺失比例0.699250.699250.699250.693550.69355…0.134700.134700.134700.004150.003600.003600.003600.003600.002500.000750.00005处理方式删除变量删除变量删除变量删除变量删除变量…删除变量删除变量删除变量众数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充表5 标准评分卡Table. 5 Standard score card变量基准点x 1x 2…x n WOE 分箱—12…k 112…k 2 (12)…k n分值(A -Bθ0)-(Bθ1ω11)-(Bθ1ω12)…-(Bθ1ω1k)-(Bθ2ω21)-(Bθ2ω22)-(Bθ2ω2k)…-(Bθn ωn 1)-(Bθnωn 2)…-(Bθn ωnk)表4 入模变量表Table. 4 Molding variables变量教育程度(x 1)收入(x 2)就业年数(x 3)年龄(x 4)不动产拥有情况(x 5)所在地区评级(x 6)常驻地址和工作地址匹配情况(x 7)车辆情况(x 8)家庭电话提供情况(x 9)收入类型(x 10)家庭状况(x 11)IV0.96300.92130.89760.84320.81340.75030.74180.72120.70190.68180.6745相关性检测全部变量均通过相关性检测849第 42 卷中南民族大学学报(自然科学版)长,它可以学习到适应所有训练样本的规则.但是如何提高该模型在测试集上的表现,才是我们真正所关心的,因此需要对模型进行调参优化.2.2.2 调优的XGBoost机器学习模型XGBoost的超参数可以归为三个核心部分:通用参数,Booster参数和任务参数[14].本文在通用参数、Booster参数以及学习目标参数这三类参数的具体选择如表10所示.本文使用网格搜索交叉验证得到的最优超参数为:eta为0.02,min_child_weight为2,gamma=0.2,max_depth为5,num_boost_round为110.使用该参数组合的XGBoost机器学习模型对训练数据和测试数据进行效果评价,具体结果如表11所示.从表11可以看出,该模型在测试集上拥有0.8746的AUC和0.6318的KS,这表示模型具有很好的分类能力.同时该模型在测试集上拥有0.9487的F1和0.9318的Accuracy,这表示模型具有很高的预测准确程度.将该模型与朴素的XGBoost机器学习模型在测试集上的表现进行对比,得到的结果如表12所示.从表12可知,调优的XGBoost机器学习模型相表8 模型结果评估Tab. 8 Evaluation of model results数据集训练集测试集分类能力评价AUC0.76820.7294KS0.55360.5378预测准确程度评价F10.83790.8218Accuracy0.84190.8325表9 朴素的XGBoost机器学习模型结果Tab. 9 Results of simple XGBoost machine learning model数据集训练集测试集分类能力评价AUC0.99620.8362KS0.99740.5546预测准确程度评价F10.99540.8871Accuracy0.99130.8916表6 基于逻辑回归模型的信用评分卡Tab. 6 Credit scoring card based on logistic regression model变量名称基础分值教育程度年龄常驻地址和工作地址收入类型WOE分箱—Lower secondarySecondary /secondary specialIncomplete higherHigher education20~4040~6060~80不相同相同WorkingCommercial associatePensionerState servantElse分值5576111419510133935321变量名称基础分值收入不动产拥有情况车辆情况家庭状况WOE分箱—<100000100000~200000200000~300000>300000有无无有MarriedSingle / not marriedCivil marriageSeparatedWidow分值55771013154112842431变量名称基础分值就业年数所在地区评级家庭电话提供情况WOE分箱—0~1010~2020~3030~50123否是分值5576101214491037表7 测试集样本得分情况统计Tab. 7 Statistics of sample scores of test set得分区间[599,609)[609,619)[619,629)[629,639)[639,649)[649,659)[659,669)[669,672]好样本132140645712865778712678坏样本3525535663473524总计167165698768928825747702好样本占比79%84.8%92.4%92.7%93.2%94.3%95.3%96.6%坏样本占比21%15.2%7.6%7.3%6.8%5.7%4.7%3.4%总体占比3.34%3.3%13.96%15.36%18.56%16.5%14.94%14.04%信用等级DCBA说明信用风险很高,不建议贷款有一定的信用风险,需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低,需要对贷款的流向关注后考虑贷款信用风险极低,建议贷款850第 6 期张利斌,等:基于XGBoost 机器学习模型的信用评分卡与基于逻辑回归模型的对比比于朴素的XGBoost 机器学习模型,AUC 、KS 、F1和Accuracy 都有所提升,这说明调优后的XGBoost 机器学习模型更加优秀.2.2.3 信用评分卡的构建为了更加具体地观察调优的XGBoost 机器学习模型输出结果,本文考虑引入传统的信用评分机制,进而将机器学习模型输出的概率值转换为常见的信用评分值.通过对测试集样本的信用评分统计,具体的信用评分卡如表13所示.从表13可以看出,XGBoost 机器学习模型输出的概率值可以通过信用评分机制转换为信用评分值.随着得分的提高,好样本的占比逐渐提升,坏样本的占比逐渐降低,这说明所建立的信用评分卡能够较好地识别信用风险.2.3 模型对比分析根据上文的实验结果,将逻辑回归模型和调优的XGBoost 机器学习模型在测试集上的AUC 、KS 、F1和Accuracy 进行比较,如表14所示.从表14可以看出,XGBoost 机器学习模型在测试集上的AUC 、KS 、F1和Accuracy 均高于逻辑回归模型.通过对两种建模方式的比较,XGBoost 机器学习模型更加优秀的原因主要有以下三点:(1) 维度信息损失程度更低在建立逻辑回归模型,运用WOE 分箱、IV 值筛选法以及相关性检测相结合的方法从121个原始变量中挑选出11个变量来建立逻辑回归模型,该方法损失了较多的维度信息,仅列出Ⅳ最高的11个变量.然而,在建立XGBoost 机器学习模型时,将121个变量经过数据处理后全部输入到模型中,几乎没有原始数据的信息损失.单从数据维度来看,XGBoost 机器学习模型纳入更多的维度信息是机器学习模型相对于逻辑回归模型更加优秀的原因之一.(2) 缺失值的处理方式更加科学在建立逻辑回归模型时,一般删除缺失比例超表10 XGBoost 的调参参数Tab. 10 Adjusted parameters of XGBoost超参数通用参数Booster 参数学习目标参数参数标签booster=tree etamin_child_weight gamma max_depth num_boost_roundobject=binary :logisticeval_metric :auc ,ks ,f1,accuracy参数含义决策树学习率最小叶节点样本权值gamma 值基决策树最大深度迭代轮数逻辑回归算法误差评判标准参数作用使用决策树作为基学习器控制基学习器的特征权重更新大小控制基学习器的叶子节点分裂情况控制基学习器的叶子节点总数控制基学习器的最大深度控制算法的迭代次数控制每次迭代的目标损失函数评估模型的分类性能表12 朴素的XGBoost 与调优的XGBoost 机器学习模型对比结果Tab. 12 Comparison results of simple XGboost and optimizedXGboost machine learning models模型朴素的XGBoost 机器学习模型调优的XGBoost 机器学习模型AUC0.83620.8746KS0.55460.6318F10.88710.9487Accuracy 0.89160.9318表11 调优的XGBoost 机器学习模型结果Tab. 11 Results of optimized XGboost machine learning model 数据集训练集测试集分类能力评价AUC0.88690.8746KS0.65280.6318预测准确程度评价F10.95380.9487Accuracy 0.94190.9318表13 基于XGBoost 机器学习模型的信用评分卡Tab. 13 Credit scoring card based on XGBoost machine learning model输出概率(0.0,0.5](0.5,0.6](0.6,0.7](0.7,0.8](0.8,0.9](0.9,1.0]得分区间(-∞,500](500,509](509,528](528,558](558,606](606,+∞)好样本528755876985728660坏样本12510397814715总体6538589731066775675好样本占比/%80.8688.0090.0392.4093.9497.78坏样本占比/%19.1412.009.977.606.042.22总体占比/%13.0617.1619.4621.3215.5013.50信用等级D C B A说明信用风险很高,不建议贷款有一定的信用风险,需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低,需要对贷款的流向关注后考虑贷款信用风险极低,建议贷款表14 逻辑回归模型与调优的XGBoost 机器学习模型对比结果Tab. 14 Comparison results between logistic regression model andoptimized XGboost machine learning model模型逻辑回归模型调优的XGBoost 机器学习模型AUC0.72940.8746KS0.53780.6318F10.82180.9487Accuracy 0.83250.9318851第 42 卷中南民族大学学报(自然科学版)过10%的缺失值,同时用众数填充类别型缺失变量和中位数填充连续型缺失变量,该方法有一定的人工干预,处理缺失值方式不够严谨.然而,XGBoost 机器学习模型采用内置算法处理数据的缺失值,该方法处理缺失值更加科学.单从缺失值的处理方式来看,XGBoost机器学习模型科学地处理缺失值是该模型相对于逻辑回归模型更加优秀的原因之一.(3) 模型的算法原理考虑了正则化项在建立逻辑回归模型时,没有考虑正则化项,导致该模型复杂度较高,有过拟合的风险,评估效果一般.然而,在建立XGBoost机器学习模型时,考虑了正则化项,降低了过拟合风险,评估效果得到了有效提升.单从模型的算法原理来看,XGBoost机器学习模型考虑了正则化项是该模型相对于逻辑回归模型更加优秀的原因之一.3 结论与思考本文比较了逻辑回归模型和XGBoost机器学习模型在信用评分卡构建中的具体表现,通过对比两个模型的AUC、KS、F1和Accuracy值,得出了以下结论:(1)逻辑回归模型在测试集上的分类效果以及预测准确程度不如XGBoost机器学习模型.逻辑回归模型的AUC、KS、F1和Accuracy均低于XGBoost 机器学习模型,这表明XGBoost机器学习模型在分类效果以及预测准确程度上均表现更优.(2)逻辑回归模型建模过程较XGBoost机器学习模型更易于理解.在建立逻辑回归模型时,通过特征筛选从121个变量中筛选出11个变量建立逻辑回归模型,该方法建模过程透明,易于理解.然而,XGBoost机器学习模型以编程和调整参数的形式来建立模型,具有一定的不透明性,不易于理解.(3)维度信息损失程度更低、缺失值的处理方式更加科学以及模型的算法原理更加科学(考虑了正则化项)是XGBoost机器学习模型相较于逻辑回归模型在分类效果以及预测准确程度上更加优秀的原因.如何融合逻辑回归模型和XGBoost机器学习模型,使其两者在风控领域可以优势互补,在提高模型效果的同时又增强解释能力?是值得我们下一步深入研究的问题.参考文献[1]WIGINTON,J C. A note on the comparison of logit and discriminant models of consumer credit behavior[J]. TheJournal of Financial and Quantitative Analysis, 1980, 15(3): 757-770.[2]涂艳,王翔宇. 基于机器学习的P2P网络借贷违约风险预警研究——来自“拍拍贷”的借贷交易证据[J]. 统计与信息论坛, 2018, 33(6): 69-76.[3]毛毅,陈稳霖,郭宝龙,等. 基于密度估计的逻辑回归模型[J]. 自动化学报, 2014, 40(1): 62-72.[4]COSTA S E, LOPES I C, CORREIA A, et al. A logistic regression model for consumer default risk[J]. Journal ofApplied Statistics, 2020, 47(13-15): 2879-2894.[5]周毓萍,陈官羽. 基于机器学习方法的个人信用评价研究[J]. 金融理论与实践, 2019(12): 1-8.[6]CHEN T,GUESTRIN C. XGBoost:A scalable tree boosting system[J]. IEICE Transactions on Fundamentalsof Electronics, Communications and Computer Sciences,2016:785-794.[7]严武,冯凌秉,蒋志慧,等. 基于机器学习模型的P2P 网贷平台风险预警研究[J]. 金融与经济, 2019 (9):18-25.[8]黄卿,谢合亮. 机器学习方法在股指期货预测中的应用研究——基于BP神经网络、SVM和XGBoost的比较分析[J]. 数学的实践与认识, 2018, 48(8): 297-307.[9]WANG Kui,LI Meixuan,CHENG Jingyi;et al.Research on personal credit risk evaluation based onXGBoost[J]. Procedia Computer Science Volume, 2022,199: 1128-1135.[10]洪文洲,王旭霞,冯海旗. 基于Logistic回归模型的上市公司财务报告舞弊识别研究[J]. 中国管理科学,2014,22(S1):351-356.[11]王重仁,韩冬梅. 基于超参数优化和集成学习的互联网信贷个人信用评估[J]. 统计与决策, 2019,35(1):87-91.[12]刘志惠,黄志刚,谢合亮. 大数据风控有效吗——基于统计评分卡与机器学习模型的对比分析[J]. 统计与信息论坛, 2019, 34(9): 18-26.[13]张佳倩,李伟阮,素梅. 基于机器学习的贷款违约风险预测[J]. 长春理工大学学报(社会科学版). 2021,34(4):105-111.[14]周庆岸. 基于遗传XGBoost模型的个人网贷信用评估研究[D]. 南昌:江西财经大学,2019.(责编&校对雷建云)852。
基于机器学习的个人信用评分模型研究与优化随着金融行业的发展和普及,个人信用评分模型日益重要。
准确预测个人的信用风险,对于商业机构能够更好地进行风险管控和决策制定至关重要。
因此,基于机器学习的个人信用评分模型的研究与优化成为了近年来的热点之一。
本文将介绍基于机器学习的个人信用评分模型的研究进展,并进行相关优化的探讨。
一、机器学习在个人信用评分模型中的应用个人信用评分模型的主要目的是根据个人的基本信息和历史数据,预测该个人未来的信用表现。
机器学习作为一种强大的预测建模工具,被广泛应用于个人信用评分模型中。
常见的机器学习算法包括逻辑回归、支持向量机、决策树、随机森林和神经网络等。
逻辑回归是一种广泛应用于分类问题的机器学习算法。
在个人信用评分模型中,逻辑回归可以根据个人的历史数据和基本信息,生成一个代表个人信用分数的预测模型。
支持向量机则是一种可以解决线性和非线性分类问题的机器学习算法,它可以通过构建一个最优的超平面,将不同类别的样本分开。
决策树和随机森林则是一种基于树结构的机器学习算法,它们可以根据一系列特征对个人进行分类。
神经网络则是一种模拟人脑神经网络结构的机器学习算法,可以通过训练来学习和预测个人信用。
二、个人信用评分模型的优化方法尽管机器学习在个人信用评分模型中的应用已经取得了一定的成功,但仍然面临许多挑战和问题。
为了进一步提高个人信用评分模型的准确性和效果,可以采用以下优化方法。
1. 特征工程特征工程是个人信用评分模型中的重要环节。
通过选择合适的特征,可以提高模型对于个人信用的预测能力。
在特征选择时,应该关注与个人信用相关的因素,例如个人的收入、工作稳定性、还款记录等。
同时,还可以使用统计方法或者领域经验来筛选和组合特征,构建更加有意义和有效的特征集合。
2. 数据预处理数据预处理是个人信用评分模型中的另一个关键步骤。
由于原始数据可能存在缺失值、异常值、不平衡等问题,需要对数据进行处理,以确保模型的准确性和稳定性。
logistics回归模型评分卡原理-回复Logistic回归模型评分卡原理在信用风险评估领域,评分卡是一种常见的评估工具,用于确定个体客户的信用风险等级。
而Logistic回归模型是用于预测二元因变量的统计模型,可以将这两者结合使用,构建Logistic回归模型评分卡。
本文将详细介绍Logistic回归模型评分卡的原理及其应用步骤。
一、Logistic回归模型原理Logistic回归模型是用于解决二分类问题的一种机器学习模型,其基本思想是通过拟合一个回归方程,将输入特征与输出的概率联系起来。
Logistic 回归模型使用的是Logistic函数,也称为Sigmoid函数,将线性函数的输出映射到0到1之间的概率。
二、评分卡原理评分卡是一种常见的信用评分工具,用于根据个体客户的特征来确定其信用等级。
评分卡根据变量的重要性和贡献度,为每个变量赋予一个分值,并将这些分值相加得到最终的信用评分。
三、构建Logistic回归模型评分卡步骤构建Logistic回归模型评分卡主要分为以下几个步骤:1. 数据准备:收集并整理相关数据,包括自变量和因变量。
自变量可以是客户的个人信息、财务状况、历史信用记录等。
因变量是一个二元变量,表示客户的信用风险等级。
2. 数据预处理:对数据进行预处理,包括处理缺失值、离群值、变量标准化等。
特别是对于类别型变量,还需要进行编码处理,将其转化为数值型变量。
3. 模型训练:使用Logistic回归模型对数据进行训练和拟合。
通过最大似然估计求解模型的参数,从而使模型能够准确地预测因变量。
4. 特征选择:选择对因变量有显著影响的自变量,并剔除掉对模型没有贡献的变量。
可以使用统计方法(如t检验、方差分析)或特征选择算法(如递归特征消除、L1正则化)进行特征选择。
5. 模型评估:评估模型的性能和预测准确度。
可以使用混淆矩阵、ROC 曲线、KS统计量等指标评估模型的准确性。
6. 评分卡构建:根据模型的系数,为每个自变量赋予相应的分值。
信用评估中的模型选择与建模技巧信用评估是金融领域中重要的一环,它对于银行、证券公司以及其他金融机构来说至关重要。
为了准确预测借款人的信用风险,选择合适的评估模型和运用适当的建模技巧是至关重要的。
本文将讨论在信用评估中模型选择和建模技巧的重要性,并提供一些建议。
一、模型选择在信用评估中,模型选择是关键的一步。
不同的模型可能会对结果产生不同的影响,因此需要根据特定的情况来选择适合的模型。
以下是一些常见的信用评估模型:1. 逻辑回归模型:逻辑回归是一种常用的统计模型,适用于二元分类问题。
在信用评估中,这种模型被广泛应用于预测借款人的违约概率。
2. 支持向量机模型:支持向量机是一种机器学习算法,可以用于处理二分类和多分类问题。
在信用评估中,支持向量机可以用于构建分类模型,预测借款人的信用风险。
3. 随机森林模型:随机森林是一种集成学习方法,通过构建多个决策树模型来进行分类。
在信用评估中,随机森林可以用于预测借款人的信用等级。
4. 神经网络模型:神经网络是一种模拟人脑神经元网络的算法,可以用于解决复杂的非线性分类问题。
在信用评估中,神经网络可以用于建立准确的信用评估模型。
除了以上几种模型外,还有其他一些模型可以用于信用评估。
在选择模型时,需要考虑以下因素:1. 数据质量:模型的准确性和鲁棒性很大程度上依赖于输入数据的质量。
因此,需要对数据进行清洗和处理,以确保数据的准确性和一致性。
2. 模型复杂度:模型越复杂,需要的计算资源和时间就越多。
在选择模型时,需要权衡模型的准确性和计算成本。
3. 可解释性:有些模型可能准确性较高,但难以解释,而在信用评估场景中,解释模型的结果对于风险管理和决策制定非常重要。
二、建模技巧在信用评估建模过程中,需要运用一些技巧来提高模型的准确性和鲁棒性。
以下是一些常用的建模技巧:1. 特征选择:选择合适的特征对于建立准确的信用评估模型至关重要。
可以通过特征相关性分析、特征重要性排序等方法来选择最具预测能力的特征。
信用评分是金融行业中非常重要的一环,它可以帮助金融机构更好地了解客户的信用状况,从而做出更准确的贷款决策。
逻辑回归模型是一种常用的用于信用评分的建模方法,下面我们就来探讨一下如何使用逻辑回归模型进行信用评分。
数据准备在使用逻辑回归模型进行信用评分之前,首先需要准备好相关的数据。
这些数据通常包括客户的个人信息、财务状况、以往的信用记录等。
在准备数据的过程中,需要对数据进行清洗和预处理,包括处理缺失值、异常值,进行变量的选择和变换等工作,以确保数据的质量和可用性。
建立模型在数据准备工作完成后,就可以开始建立逻辑回归模型了。
逻辑回归是一种用于处理二分类问题的模型,它可以对客户的信用情况进行分类,比如判断一个客户是否有违约的风险。
在建立模型的过程中,需要将数据分为训练集和测试集,使用训练集来训练模型,然后使用测试集来评估模型的性能。
模型评估模型评估是建立逻辑回归模型过程中非常重要的一步。
在评估模型的性能时,通常会使用一些指标来衡量模型的准确性和稳定性,比如准确率、精确率、召回率等。
在评估模型性能时,需要关注模型的泛化能力,以确保模型在新数据上的表现也能够良好。
模型应用建立好逻辑回归模型并且评估通过后,就可以将模型应用到实际的信用评分工作中了。
在应用模型时,可以将客户的个人信息输入到模型中,然后根据模型的输出来判断客户的信用情况,从而做出相应的贷款决策。
模型监控建立逻辑回归模型之后,还需要对模型进行监控和维护。
在实际应用中,客户的信用状况可能会随着时间发生变化,因此需要定期对模型进行更新和验证,以确保模型的准确性和稳定性。
总结逻辑回归模型是一种比较常用的用于信用评分的建模方法,它可以帮助金融机构更好地了解客户的信用情况,从而做出更准确的贷款决策。
在使用逻辑回归模型进行信用评分的过程中,需要进行数据准备、建立模型、模型评估、模型应用和模型监控等一系列工作,以确保模型的准确性和可靠性。
希望本文对大家了解如何使用逻辑回归模型进行信用评分有所帮助。
面向企业信用评级的数据建模及算法研究随着市场经济的不断发展和国际化的趋势,企业的信用水平逐渐成为衡量其经营实力的一个重要指标。
鉴于企业之间互联互通的特点,如何准确、客观地评价企业的信用状况,成为了当今国际金融领域普遍关注的议题之一。
本文将聚焦面向企业信用评级的数据建模算法,思考如何综合利用各类数据,运用机器学习和数据挖掘技术,以期达到更精准、可靠、高效的评级结果。
一、数据源的多样性企业信用评级的数据建模离不开数据的来源。
企业所在的行业、地域、规模等都是影响数据源的要素。
传统意义上,企业信用评级采用的数据都是该企业的资产负债表、利润表和现金流量表等财务报表数据。
这些数据对评级来说固然重要,但不足以全面反映企业的信用风险。
比如,企业在生产经营过程中的违规行为、诉讼纠纷、经济环境变化等因素对其信用评级影响也很大,但在传统数据建模中不一定能被纳入考虑的范畴。
因此,从多个角度收集、整合、分析多样化的数据来源,显得尤为重要。
除了传统财务报表数据外,可以考虑社交网络的数据、公共信用信息的数据和大数据的数据等。
其中,社交网络的数据、公共信用信息的数据和大数据的数据等都是最新的疆界和热点,其中包括知识图谱、信贷数据等,以支持评估模型的更加可靠和准确的预测。
二、机器学习的应用面向企业信用评级的数据建模离不开机器学习的应用。
机器学习是一种基于数据的算法,通过对大量数据的学习和建模,可以实现对未来可能出现数据事件的预测,同时可以加强数据分析和挖掘的能力。
在企业信用评级方面,机器学习主要应用在特征选取、建模和预测几个方面。
特征选取:在特征选取阶段,会挑选出最为能够反映企业信用状况的特征。
通常会选取30-40个特征,包括从基本面指标、财务报表等传统数据中挖掘出来的数据,以及来自于社交网络、公共信用信息的数据等。
通过对大量数据进行人工筛选和选取,即可得出高精度、全面的数据特征集。
建模:在建模阶段,机器学习技术会针对整个数据集进行学习和建模,得出适合于当前数据集的模型。
基于逻辑回归的个人信用评分卡模型研究作者:张俊丽郭双颜任翠萍马倩来源:《现代信息科技》2024年第05期收稿日期:2023-08-01基金项目:2020年陕西省教育科学“十三五”规划课题(SGH20Y1480);2022年西安欧亚学院校级项目(2022GCPY01)DOI:10.19850/ki.2096-4706.2024.05.003摘要:构建有效的个人信用风险评价系统,用以应对潜在的个人信贷风险,这对金融行业和社会公众皆有重要的现实意义。
文章首先对数据进行清洗、预处理,然后通过WOE编码分箱、IV值进行变量筛选,构建了逻辑回归模型并基于逻辑回归模型建立了个人信用评分卡模型,该模型可辅助决策者制定合理的授信政策、定价策略以及其他相关业务运营策略。
关键词:个人信用评估;评分卡;AUC中图分类号:TP39;O212.1 文献标识码:A 文章编号:2096-4706(2024)05-0012-05Research on Personal Credit Score Card Model Based on Logistic RegressionZHANG Junli1, GUO Shuangyan2, REN Cuiping1, MA Qian1(1.Xi'an Eurasia University, Xi'an 710065, China; 2.Shaanxi Branch of Bank of Communications, Xi'an 710004, China)Abstract: Building an effective personal credit risk assessment system to address potential personal credit risks is of great practical significance for the financial industry and the general public. This paper first cleans and preprocesses the data, and then uses WOE coding and binning and IV values for variable screening. A logistic regression model is constructed, and a personal credit score card model is established based on the logistic regression model. This model can assist decision-makers in formulating reasonable credit policies, pricing strategies, and other related business operation strategies.Keywords: personal credit evaluation; score card; AUC0 引言隨着经济和互联网技术的高速发展,信用消费的方式逐渐兴起,已融入人们的日常生活,如住房贷款、汽车贷款,以及个人信用卡、蚂蚁花呗、借呗、京东白条金条等小额消费贷款。
基于逻辑回归的信贷申请评估模型研究信贷申请是现代金融业中最常见的一种业务,但随着金融市场的不断发展,信贷风险也日益增高。
基于此,建立一个可靠的信贷申请评估模型是最为关键的一步,能有效的避免信贷风险和潜在损失,也可以为金融机构提供更加优质的信贷服务。
本文将通过基于逻辑回归的信贷申请评估模型研究,探究如何建立一种稳健的信贷申请评估模型。
一、模型构建基于逻辑回归的信贷申请评估模型的构建,需要先明确的是,哪些因素会对贷款的发放产生影响。
在此基础上,我们可以选择合适的变量,并将其转化为人工判断得分或数值型变量。
一般来说,贷款的发放与以下因素有关:1. 收入状况/职业类型2. 婚姻状态/家庭状况3. 信用记录4. 贷款借款期限/金额5. 其他企业创业、国籍等等在这些因素中,具体选取的变量数量和种类将取决于该模型的具体应用场景和实际需求。
一般来说,我们可能会使用人类判断的得分或机器学习中的特征重要性指标来选取变量。
通过分析选取出来的变量,我们可以使用逻辑回归的模型进行建模。
逻辑回归是一种二分类模型,根据特征对劳动者是否具有偿还能力进行预测。
在此模型中,特征变量和标签变量之间的关系可以通过损失函数来进行建模。
通常使用的损失函数是交叉熵损失函数,其目的是在损失函数达到最小的情况下,找到一组参数,使得逻辑回归的预测值最接近标签值。
因为该模型是基于统计学的方法,所以它往往可以保证模型在一定程度上的可靠性和泛化能力。
二、数据预处理数据预处理是利用逻辑回归建立信贷申请评估模型的重要组成部分,可以通过以下几个步骤来完成:1. 数据清洗数据清洗是数据预处理的第一步,根据实际情况选择删除缺失值或注释掉异常值。
在这一步之后,我们可以通过数据可视化的方法来发现数据之间的相关性,从而确定使用哪些变量来进行建模。
2. 特征标准化逻辑回归的模型应用的是线性回归中的梯度下降算法。
在梯度下降的过程中,梯度会受到样本特征值的不同大小和量级的影响,从而造成内部收敛缓慢,或导致后续分类器表现不佳。
python基于逻辑回归算法的信用风险评估模型近年来,随着金融环境的变化和信贷市场的不断发展,信用风险评估已经成为银行和金融机构不可或缺的一部分。
其中,逻辑回归算法作为一种参数化的统计模型,被广泛运用于信用风险评估领域。
通俗地说,逻辑回归算法可以将不同的因素(如收入、工作稳定性、负债情况等)以及其对应的权重进行综合评估,然后得出一个最终的信用评级。
因此,在银行和金融机构中,信用风险评估模型通常基于逻辑回归算法来进行建模。
具体而言,逻辑回归算法主要包括以下几个步骤:第一步,数据准备。
银行和金融机构需要收集借贷者的各种数据,如个人信息、工作经历、收入和支出等,以及其它可能影响贷款还款的因素,如历史还款记录、信用历史等。
第二步,特征工程。
在数据准备的基础上,银行和金融机构需要分析这些数据,找出与贷款违约风险相关的变量,并对这些变量进行处理和转换,以适应逻辑回归模型的输入要求。
第三步,建模。
银行和金融机构利用逻辑回归算法对预处理后的数据进行建模,得出一个最终的信用评级。
这个评级可以被用来预测借贷者的还款能力及潜在风险,从而确定是否进行贷款。
第四步,模型评估和优化。
在得出信用评级后,银行和金融机构需要对模型进行评估和优化,以提高模型的准确性和健壮性。
例如,他们可以利用交叉验证和AUC指标等技术来评估模型的性能,在此基础上进行模型参数调优,进一步提高模型性能。
在实际应用中,逻辑回归算法可以有效帮助银行和金融机构进行信用风险评估工作。
比如,对于一位有着良好的历史还款记录、稳定的工作和高收入的借贷者,逻辑回归算法可以给出较高的信用评级,从而提高贷款的批准率。
而对于一个信用历史差、收入不稳定或者其它存在潜在风险的借贷者,逻辑回归算法则会给出一个较低的信用评级,从而避免不必要的贷款风险,保护机构的投资和利益。
总而言之,基于逻辑回归算法的信用风险评估模型已经成为银行和金融机构不可或缺的一部分。
通过建立有效的逻辑回归模型、优化模型性能、提高模型精度和准确性,银行和金融机构可以更好地进行风险管理和控制,从而保护自身的利益和投资。
宏观经济11基于 Logistic 回归的信用评分模型构建与信用规则制定杨 帆 曲阜师范大学摘要:信用的存在与践行是市场交易的基础,现代征信行业中,以数据挖掘与数据分析为基础的信用评分技术在市场的确定与开拓中起着不可估量的作用。
关键词:Logistic;回归;信用评分;SPSS中图分类号:F830.479 文献识别码:A 文章编号:1001-828X(2018)018-0011-01引言当下互联网金融已蓬勃兴起,呈现出多种多样的业务模式和运行机制。
金融机构能够突破时间和地域的约束,在互联网上为有融资需求的客户提供更快捷的金融服务。
通过互联网技术,加快业务处理速度,带给用户更好的服务体验。
但同时存在着信用风险和用户欺诈等问题,急需通过信用评分模型提高风险控制水平。
一、材料与方法(一)建模思路根据我们所整理的文献资料以及从 FICO 与芝麻信用处所了解到的打分标准,总结影响个人履约能力的有以下主要几个要素,包括:1.违约历史,包括个人破产,断供房产被拍卖,罚款等情况。
2.债务负担,即个人杠杆率,包括信用卡信用额度利用率等。
3.信用种类,客户所用过的信用种类越多,说明其金融知识越丰富,受信方越容易对其信用历史与信用情况做出总结。
根据上述评分标准,综合比较个人信用评分的主要模型,结合所获数据特点,我们首先利用 R 语言原始数据进行清洗,基于处理后的数据确定指标变量,选取 logistic 模型进行建模,再根据 logistic 回归模型的特点,探索一种将履约能力量化的方法,并将此作为最终的信用分数,并据此进行信用评分规则的制定。
(二)数据处理及指标变量确定1.数据处理由于原始数据相对混乱且数量巨大,同时存在大量缺失值,我们首先利用 R 语言对原始数据进行清洗,并将所有表根据整理后的变量合为一张表,确认每位用户的相关的指标情况。
2.指标变量确定经过整理指标变量,总结了个人特征变量两个,包括婚姻状况 MARRY 以及教育程度 EDU;经济特征变量七个,包括贷款金额 LA、未结清贷款金额 ULA、未销户贷记卡合同金额 DCA、未销户准贷记卡合同金额 PDCA、贷款逾期笔数 ONLA、贷记卡逾期账户数 ONDC 以及准贷记卡逾期账户数 ONPDC。
基于机器学习的银行信用评分模型研究机器学习在金融领域的应用越来越广泛,其中之一就是银行信用评分模型的研究与应用。
银行信用评分是借贷业务中的重要环节,决定着银行借款审批的结果,因此研究并应用机器学习算法对银行信用评分模型进行优化具有重要意义。
本文将从机器学习的基本原理、特征工程、模型选择、模型评估等方面,探讨基于机器学习的银行信用评分模型的研究。
首先,机器学习是一种通过训练数据来获取模型并进行预测或决策的方法。
在银行信用评分模型的研究中,我们可以将客户的个人信息、财务状况、还款记录等作为训练数据,通过机器学习算法来构建信用评分模型,用于预测借款人的信用风险。
其次,特征工程在机器学习中起着至关重要的作用。
在银行信用评分模型中,特征工程包括数据清洗、特征选择和特征构建等步骤。
数据清洗主要是针对缺失值、异常值、重复值等进行处理,保证数据的准确性和完整性。
特征选择是挑选出与信用评分有关的重要特征,可以使用相关性分析、信息增益等方法进行筛选。
特征构建是通过对原始特征进行数学变换或组合,生成新的特征,提高模型的表现力。
接下来,选择合适的机器学习模型也是银行信用评分模型研究的关键。
常见的机器学习模型包括逻辑回归、支持向量机、决策树、随机森林等。
逻辑回归是一种线性分类算法,适用于二分类问题。
支持向量机则是一种非线性分类算法,适用于复杂的分类问题。
决策树和随机森林则可以处理带有非线性关系的特征,并且能够输出特征的重要性排序。
在选择模型时,需要根据具体情况选择最适合的模型,并进行参数调优,以达到最佳的模型性能。
最后,模型的评估也是十分重要的。
常见的评估指标包括准确率、召回率、精确率、F1值等。
准确率是指模型在所有样本中判断正确的比例;召回率是指模型正确识别正例的比例;精确率是指模型判断为正例中实际为正例的比例;F1值是综合考虑精确率和召回率的指标。
除了这些指标外,还可以使用ROC曲线和AUC值来评估模型的性能。
综上所述,基于机器学习的银行信用评分模型研究是金融领域的重要课题。
信用评级模型中的机器学习技术研究信用评级模型是金融行业中非常重要的一个研究领域,它可以帮助金融机构评估借款人的信用风险,从而做出相应的信贷决策。
随着机器学习技术的发展,越来越多的研究者开始探索如何将机器学习应用于信用评级模型中,以提高其预测准确性和灵活性。
本文将重点介绍几种常见的机器学习技术及其在信用评级模型中的研究应用。
首先,逻辑回归是信用评级模型中最常见的机器学习技术之一、逻辑回归是一种二分类的监督学习算法,可以根据输入特征预测出一个概率值,该概率值可以用来评估借款人的信用风险。
逻辑回归的输入特征可以包括借款人的个人信息、财务信息以及历史信用记录等。
研究者们可以通过建立逻辑回归模型来分析和挖掘这些特征与信用风险之间的关系,并基于此做出相应的信贷决策。
其次,支持向量机(SVM)也是一种常见的机器学习技术,它可以用来构建信用评级模型。
SVM能够根据数据集中的样本点在特征空间中的位置,找到一个最优的分界面,从而将正负样本分类。
对于信用评级模型来说,正样本可以表示为低信用风险的借款人,而负样本则表示高信用风险的借款人。
通过训练SVM模型,可以获得一个最优的分界面,用来预测新样本的信用风险。
此外,决策树和随机森林也是常用的机器学习技术,可以用于构建信用评级模型。
决策树通过一系列的二分问题来划分数据集,并建立一个树状结构来预测新样本的类别。
随机森林则由多个决策树组成,每棵树都独立地对数据进行划分,并最终通过投票的方式得出结果。
决策树和随机森林易于理解和解释,同时还具有较好的预测能力,因此在信用评级模型中得到了广泛的应用。
最后,深度学习是近年来备受关注的一种机器学习技术,也可以用于信用评级模型的研究。
深度学习模型具有强大的学习能力和表达能力,可以自动地从大量的数据中学习和挖掘潜在的关系。
在信用评级模型中,可以通过建立多层的神经网络,来学习输入特征与信用风险之间的复杂非线性关系。
深度学习模型的一个重要特点是端到端的学习方式,不需要人工提取特征,能够直接从原始数据中学习有价值的信息。
使⽤逻辑回归制作评分卡1、什么是评分卡?在银⾏借贷场景中,评分卡是⼀种以分数形式来衡量⼀个客户的信⽤风险⼤⼩的⼿段,⼀般来说,评分卡打出的分数越⾼,客户的信⽤越好,风险越⼩。
2、评分卡怎么使⽤?对于需要借贷的个⼈或者公司,在借贷时需要填写⼀张表格,表格内容包括年龄,收⼊,家庭⼈⼝数量等等。
评分卡将每个特征划分为⼏个区间,每个区间有⼀个分数。
根据客户所填信息对照评分卡,为客户所填的每⼀个特征赋⼀个分数,最后相加计算这个⽤户的总得分。
依据总得分评估他的信⽤程度。
3、怎么使⽤逻辑回归制作评分卡?制作评分卡需要⼤量客户所填的信息(特征矩阵X),以及该客户是否违约的信息(标签Y)。
(1)对特征矩阵X进⾏数据预处理。
包括去除重复值,填补缺失值(仅有极少数样本缺失该特征可考虑直接删除该特征,可使⽤均值填补家庭⼈数,随机森林填补收⼊等),处理异常值,处理样本不均衡问题(使⽤过采样和⽋采样的⽅法),但是我们⼀般不对数据进⾏标准化处理(这是因为我们给出的评分卡是给业务⼈员看的,⽽客户所填信息天⽣就是量纲不统⼀的)。
(2)找出每个特征最佳分箱数和箱⼦边界。
最佳分箱数就是使得该特征的IV值尽量在最佳IV值区间的箱⼦个数(尽量提⾼每个特征的重要性),并且使得该特征的箱内相似,箱间差异⼤。
因此步骤是这样的:⾸先确定⼀个较⼤的分箱数,进⾏等频分箱,计算各箱WOE值和特征的IV值,然后依据卡⽅检验值合并相似箱⼦,再次计算各箱WOE值以及该特征IV值,直到箱⼦数量变为⼀个较⼩值。
画出分箱数-IV值曲线,找出最佳分箱数和各箱边界。
(3)对各个特征依据最佳分箱边界进⾏分箱。
分箱后得到特征的各箱边界以及WOE值。
(4)处理训练集和测试集的特征矩阵X。
将特征矩阵中的值全部替换为对应箱⼦的WOE值。
(5)使⽤训练集进⾏建模,使⽤测试集计算模型得分,并且利⽤学习曲线调整正则化系数C和最⼤迭代次数max_iter提⾼模型得分。
(6)制作评分卡。
基于逻辑回归的信用评分卡建模研究
一、引言
随着金融业的发展和数据技术的飞速发展,信贷业务已经成为
银行业务中的一个重要组成部分。
而信用评估则成为了信贷业务
中的核心问题。
信用评估不仅能够为银行提供有力的决策支持,
而且还能够提高信贷业务的风险控制水平。
而在信用评估中,信
用评分卡建模是一种广泛采用的方法,其依靠客户历史数据,建
立基于逻辑回归模型的评分卡,对客户进行信用评估。
本文将深
入研究基于逻辑回归的信用评分卡建模方法。
二、信用评分卡建模基本流程
信用评分卡建模的基本流程如下:
1.数据收集:从客户历史记录中收集相关数据,包括个人基本
信息、贷款历史、还款历史等。
2.数据清洗:对数据进行清洗和处理,包括数据修正、剔除异
常值等。
3.特征工程:对数据进行变换和选择,包括变量衍生、变量选
择等。
4.模型建立:选择逻辑回归模型,并进行参数估计和模型选择。
5.模型评估:对模型进行评估,包括模型的准确率、预测能力等。
6.应用实践:将模型应用到实际业务中,对客户进行信用评估。
三、关键方法讲解
1.逻辑回归模型
逻辑回归模型是一种常用的二元分类模型,主要用于解决在二
项式分布下的分类问题。
其通过特定的函数模拟分类结果与自变
量之间的关系。
逻辑回归模型的基本形式为:
其中,P(Y=1|X)表示在给定自变量X的条件下,Y取值为1的
概率,即为模型预测的概率值。
而β0、β1、β2、……、βn则称为
模型的参数,表示每个自变量对于因变量影响的程度。
2.特征工程
特征工程是机器学习中的一个重要环节,其主要目的是对样本
数据进行变换和选择,提取出关键的特征信息供模型使用。
在信
用评分卡建模中,特征工程主要包括变量衍生和变量选择两个部分。
变量衍生:将原有数据进行变换生成新的特征,以达到更好的
建模效果。
例如,在信用评估中,我们可以通过借款人的年龄、
性别等信息计算出其还款能力、稳定性等方面的信息。
变量选择:选择有利于模型建立和评价的变量。
在信用评分卡
建模中,变量选择需要根据先验知识和数据分析的结果,选择与
违约相关性较高的特征。
同时采用正则化等方法,去除对模型贡
献较小的变量。
3.模型评估
模型评估是评价信用评分卡建模效果的重要环节。
在评估时,
主要需要从准确率、预测能力、稳定性等角度进行综合考虑。
准确率评估指标主要包括精确度和召回率等指标,预测能力指
标包括ROC曲线、KS值等指标,稳定性指标主要包括Gini系数
等指标。
四、案例分析
以某银行客户信用评估为例
1.数据收集:从银行系统中收集客户历史数据,包括贷款金额、还款记录、借款人基本信息等。
2.数据清洗:剔除异常数据、处理缺失值、异常值等,确保数
据质量。
3.特征工程:对衍生变量和选择变量进行分析,提取出贷款人的个人稳定性、信用状况、还款能力等相关特征。
4.模型建立:采用逻辑回归模型,对贷款人进行分类。
5.模型评估:通过ROC曲线、AUC、KS值等指标评估模型效果。
6.应用实践:将模型应用于实际业务中,对借款人进行信用评估。
五、结语
基于逻辑回归的信用评分卡建模是一种成熟、有效的信用评估方法。
其通过采用逻辑回归模型,对客户历史数据进行特征工程和模型建立,提高了银行对客户信用状况的评估能力。
同时,通过模型评估,可以对模型的建立和选择进行优化。
信用评分卡建模不仅可以为银行提供决策支持,而且还可以提高信贷业务的风险控制水平。