基于Probit模型的个人信用风险实证研究
- 格式:pdf
- 大小:505.39 KB
- 文档页数:5
- 73 -市 场 论 坛MARKET FORUM财税金融2020年第6期(总第195期)基于Probit 与Logistics 模型对比的信用卡逾期风险评估实证研究廖欣婷1 谢 磊 2(1.桂林理工大学 广西 桂林 5410042.桂林航天工业学院 广西 桂林 541004)【摘 要】信用卡是全球通用的、现代化的货币形式,方便了持卡人的消费,扩大了特约商户的销售,成为商业银行重要的盈利来源。
同时信用卡风险也是银行信用卡业务中面临的主要风险,随着信用卡逾期风险在逐步上升,提高我国银行信用卡信用风险管理水平刻不容缓。
本文随机抽取8371位银行信用卡客户样本数据,利用R 软件构建Probit 与Logistics 模型对其信用卡逾期风险进行评估,最终得出一些合理、有益的结论。
【关键词】逾期风险 Probit 模型 Logistics 模型【中图分类】F830.9 【文献标识码】A 【文章编号】1672—8777(2020)11—0073—05【收稿日期】2020—03—22【作者简介】廖欣婷(1999—),广西南宁人,桂林理工大学理学院应用统计学; 谢 磊(1968—),湖南宁乡人,桂林航天工业学院外语外贸学院,管理科学与工程博士, 管理学教授,研究方向:金融工程、证券投资。
从20世纪50年代第一张信用卡诞生至今,信用卡已经成为最重要的金融工具之一。
自2002年信用卡进入中国以来,我国商业银行信用卡业务保持着快速的增长趋势,截止2015年,信用卡发行量已达4.32亿张。
随着我国信用卡市场的成熟,信息卡遵照市场化和专业化的要求逐步完善发行、维护、增值服务和交易信息汇总处理等各个环节的管理,形成了一条国际化行业链接。
与此同时,信用卡业务风险也在逐步上升。
截止2016年一季度末,信用卡总额度达到历史最高7.45万亿元,同比增长了19.55%,保持着快速增长的态势;信用卡逾期半年未偿还信贷总额度达458.09亿元,环比增长了20.46%。
probit模型结构方程实证模型
Probit模型是一种常见的统计模型,在经济学和社会科学研究
中经常被用于分析二元响应变量。
该模型基于概率论,假设响应变量服从二项分布,并通过非线性的累积分布函数(正态分布的累积分布函数)来建模。
结构方程实证模型(SEM)是一种统计方法,用于评估指标、变量之间的因果关系。
它基于因果关系理论,利用观察数据来检验结构方程模型的拟合程度,并测试假设关系的显著性。
SEM可以同时估计测量模型和结构模型,对于现实世界复杂
的关系模式能够提供灵活性和解释力。
在实证研究中,可以将Probit模型与结构方程模型相结合,建立Probit结构方程实证模型。
其中,Probit模型用于建模二元
响应变量,结构方程模型用于分析变量之间的因果关系。
这种模型可以帮助研究者理解指标或变量对于二元响应变量的影响,并检验这些影响的显著性。
总结来说,Probit模型用于建模二元响应变量的概率分布,结
构方程模型用于评估指标或变量之间的因果关系。
将这两种方法结合起来可以构建Probit结构方程实证模型,用于分析复杂数据的因果关系模式。
教育文章范文基于P ROBIT模型对大学生考研动机的实证研究随着社会竞争压力的增大,很多大学生都选择了考研,中国研究生入学考试是在中国进入研究生学习必须进行的考试,类似于进入大学阶段的高考。
本文主要针对基于Probit模型对大学生考研动机的实证研究进行了一些论述,文章是一篇教育文章范文。
大学生考研不但关系到大学生的人生轨迹,还关系到我国人力资本的质量以及经济的发展。
文章根据2015年3月对重庆大学生考研原因的问卷调查结果,利用Probit模型对问卷调查得到的数据进行了分析。
经过研究,得到了影响大学生考研与否的影响因素并分清各个因素的主次关系。
最后,总结了主要结论,以期为政府及相关部门科学决策提供参考。
[关键词]大学生,考研动机,Probit模型1引言中国教育在线《2014年全国研究生招生数据调查报告》显示,1994年我国研究生入学考试报名人数为114万,2004年为945万,2014年这一数字上升为172万。
虽然在2008年和2014年报考人数虽有少量下滑,但毋庸置疑的是,从总体上看,在过去的30年里报考研究生的人数一直处于上升趋势。
因此,研究清楚影响本科生毕业后考研的因素,并分清各个影响因素的主次关系不但有利于教育部门制定合理的政策,提高研究生教育的质量,而且对实现人才强国的战略目标也有着重要意义。
故本文以2015年3月对重庆大学生考研原因的调查数据为基础,建立Probit模型对影响大学生考研的因素进行了实证分析。
后文的结构如下:第二部分为文献综述,概述了国内已有的研究成果;在第三部分中,对数据的来源作了简要说明并对数据进行了统计性描述;第四部分阐述了根据实证研究的需要建立的模型;第五部分对模型得到的结果进行了深入分析;第六部分中对上述模型进行了稳健性检验;在文章的最后一部分中,总结了研究得到的主要结论。
2文献综述在对本科生考研问题的研究中,国内涌现出了许多优秀的成果。
李静、左栋[2]运用层次分析法对大学生考研原因进行了系统的分析,其认为影响大学生是否考研的最为重要的因素依次是提高自己身价、社会对人才的高要求、经济条件的允许。
基于logit模型的P2P公司的个人信贷风险评估-经济基于logit模型的P2P公司的个人信贷风险评估陈鹿婧杨青骥孙超凡汪小燕摘要:以违约的概率作为信用评估风险衡量标准,构建P2P机构的借款人信贷风险的logit模型,并对模型进行实证分析。
结果表明,贷款金额,贷款期限,已还金额比,近期还款额这四个指标对借款人信贷违约风险的影响最为明显。
通过进一步验证,证明借款人信贷风险的logit模型在对P2P机构的借款者信贷评估上具有较高的准确性,可以作为P2P企业内部风险控制的根据。
关键词:P2P公司信用评估风险控制logit模型创新项目:上海金融学院推荐2015度年上海市大学生创新活动计划。
一、引言“ P2P ”是英文peer to peer的简写形式。
P2P的基本定义是一种依附于互联网信息平台和个体电子设备的新型金融中介服务模式。
这种借贷模式起源于英国,2005年之后迅速在全世界范围内推广.在中国,从2007年首家P2P公司拍拍贷成立,到2010年全国仅10家,再到现在全中国共有2595家P2P网络贷款公司。
随着我国P2P市场的不断壮大,问题平台的比重也随之逐步上升。
根据2015年的数据显示,全国的2595家网贷公司中有896家属于问题平台,占总数的34.5%,较2014年翻了一倍。
金融秩序也由此受到的不同程度上负面的影响,所以P2P公司内部的风险控制显得至关重要。
我国P2P公司的内部风险主要分为以下三种:由于借款者道德缺失而引发的信用风险、由于网络技术失控引发的操作风险、由于交易的局限性而导致的流动性风险。
而对内部风险影响最大的当属信用风险,信用危机的爆发与否将直接影响到P2P公司能否正常运作。
在识别和防治信用风险的过程当中,P2P企业如何对借款人进行筛选成为了重要的控制节点。
当前的P2P企业使用的借款人评估系统还很大程度上借鉴传统金融机构如银行的评估方法。
这就导致了对风险的误判,因为两者的目标客户群的信用特征存在较大差异。
收稿日期:2009-08-21作者简介:郑昱,女,现就读于清华大学经济管理学院。
本文在借鉴国内外个人信用风险评估方法的基础上,运用Probit 模型对随机抽取的自然人样本进行定量分析,以此建立相对客观和准确的个人信用风险评估模型,希望能为我国商业银行个人信用评估的方法和机制的建立和完善提供一定的借鉴。
一、Probit 模型简介Probit 模型是假设事件发生概率服从累积正态分布函数的二分类因变量模型,也称为Normit 模型。
即假设每一个体都面临两者择一的选择,且其选择依赖于可分辨的特征,旨在寻找描述个体的一组特征与该个体所做某一特定选择的概率之间的关系。
设每一个样本都存在一组变量X ,这些变量的线性组合可以使每一个样本得到一个分数Y i *:Y i *=jΣβj X ij +εi =X i B+εi假设εi ~N(0,1),故Y i *服从标准正态分布。
Y i *代表某种内在变量或是隐藏变量,在个人信用评估研究中,可代表借贷人发生违约的倾向。
当Y i *>0时,可观测变量Y 即等于1(借贷人违约);当Y i *≤0,则Y=0(借贷人未违约),用数学式表示如下:P i=E(Y i=1|X i)=P(Y i*>0)=P(-εi<X i B)=F(X i B)其中F(·)表示标准正态分布的累计分布函数,亦即F(X i B)=X i B-∞乙f(z)dz其中f(z)代表z的密度函数,z~N(0,1)。
取标准正态分布函数的逆:Y i*=F-1(P i)=X i B利用最大似然估计法估计上式中的参数。
最大似然估计法是通过迭代计算完成的,具体回归参数计算利用STATA10.0统计软件完成。
二、Probit模型评估个人信用风险的实证分析(一)数据来源本文随机抽取的样本共600份,剔除数据缺失和异常的样本以及从未使用过信贷消费的样本,共采集506份有效样本用于实证分析研究。
根据样本主体信用卡和贷款逾期状况(出现逾期的为302人,正常的为204人),将样本划分成违约组和正常组两类。
样本数据主要涵盖了个人背景基本状况、职业相关基本信息以及与个人偿债能力密切相关的收入、资产及信贷基本状况等信息。
(二)指标体系本文借鉴国内外个人信用风险评估方法中使用的有效指标,在分类、汇总、整理的基础上,同时兼顾数据的可获取原则和可量化原则,构建了模型基础指标体系(见表1)。
该指标体系包括个人背景指标、职业稳定指标,以及收入、资产和信贷状况指标,共13个待检验指标。
表1模型基础指标体系由于上述13个基础指标的大部分需要以虚拟变量的形式进行处理,因此本文根据各指标所包含的具体信息,对指标进行了细化,确立了含有16个虚拟变量和3个连续型变量的最终指标体系(见表2)。
为避免共线性,实际用于实证检验分析的变量为17个。
表2模型最终指标体系及变量说明(三)实证分析本文采用Probit Model和Stepwise Probit Model 对数据进行回归分析。
在设定显著性水平时,考虑到过高的显著性要求会导致最后进入模型的变量过少,直接影响模型预测的精度。
因此,本文在保证模型预测正确性的基础上,设定显著性水平P=0.1。
本文所有的数据分析均使用STATA10.0统计分析软件来完成。
1、Probit Model回归分析。
将17个指标自变量和表示借贷人是否逾期的分类指标(0代表正常组,1代表逾期组)数据输入STA-TA10.0,使用Probit Model进行回归分析,回归结果见表3所示。
表3Probit模型回归结果根据基础模型的回归结果,建立如下Probit模型:F-1(P)=-0.8627837-0.1636615Resident-0.3535388Sex+0.4034005Age1+0.3605586Age2+ 0.5472821Age3+0.0647854Marriage-0.1639155Education-0.1090042Job1+0.0843066Job2+ 0.5965952Job3+0.1384018Leader+0.1168458Change+ 4.33e-07Income-0.0985426House-0.1830559Guarantee+0.3064391Card+0.4866441Loan从各变量系数估计值可以看出,户籍、性别、教育、Job1(政府机关,事业单位,金融,垄断行业)、住宅数量及为他人担保状况,共计6个变量的系数值为负,其意义可解释为:①外地户籍个人较本地户籍个人发生逾期的概率小;②女性发生逾期的概率比男性小;③接受本科及以上教育的个人发生逾期概率比未接受者小;④政府机关、事业单位、金融、垄断行业从业者,发生逾期概率较低;⑤个人自有的住宅数量越多,发生逾期的概率越小;⑥为他人提供担保的个人发生逾期的概率小于未提供担保的个人。
以上6个指标变量中与常用的个人信用评估标准不一致的变量为户籍和为他人担保的情况,考虑到总共506个样本中有担保的样本数量仅为7个,这一结果显然存在很大偏差;而户籍变量的显著性水平为0.217,大于P=0.1的显著性水平临界值,不能判定为显著,且户籍这一变量有其特殊性,若用在本地居住年限代替,对于衡量借贷人的居住稳定性,效果可能更明晰。
剩余的系数值为正的变量中,包括年龄分段、婚姻、工作、职务、收入、信用卡、贷款状况,更换工作情况共11个变量,其意义可解释为:①按年龄分段,25-35岁个人发生逾期的概率最低,35-50岁个人则最大;②非单身的个人逾期的概率比单身的个人高;③一般企业员工发生逾期的概率小于个人经营者;④更换工作较多的个人发生逾期的概率也较高;⑤担任领导者的个人逾期的概率大于非领导者;⑥个人的收入越多,发生逾期的概率越高;⑦信用卡数量多于5张,或贷款金额超过50万元的个人,逾期的概率较高。
以上变量中与常用的个人信用评估标准不一致的变量包括年龄、婚姻、收入和职务状况,可能的原因包括:一是这些变量本身的显著性水平并不高;二是这些因素可能对逾期概率有双重影响,如收入较高的人一方面具有较强的偿债能力,不易发生逾期;但另一方面,使用信贷的频率较高,数额较大,发生逾期,尤其是非恶意性逾期的潜在可能性也较高。
用同样的道理也可以解释婚姻、年龄及职务状况的结果。
此外,也可能由于样本本身的数量和质量的局限性造成偏差。
即使是与常用的个人信用评估标准完全相符的变量,也需要关注其显著性水平值,再做进一步的研究。
若设定P=0.1为临界值,只有Sex,Card, Loan,Change四个变量结果显著,目前的基础模型中较多的变量不利于观测各变量的显著性水平,以下将采用Stepwise Probit Model,剔除不显著的变量,对模型进行简化。
2、Stepwise Probit Model回归分析。
设定显著性水平P=0.1作为变量选择的标准,采用Stepwise Probit Model,分别用Forward Selection和Backward Selection的方法进行逐步回归,对Probit模型回归的结果做出简化,去除显著性水平较低的变量,得到如下表4和表5所示的结果。
表4Probit模型回归结果(Forward selection方法)注:指标进入模型的顺序为Loan,Sex,Job3,Card, Job2,Age3,Change。
表5Probit模型回归结果(Backward selection方法)注:指标移出模型的顺序为Job2,Guarantee,Marriage, House,Income,Age2,Age1,Resident,Education,Leader。
根据Forward Selection方法得到的回归结果,建立如下Probit方程:F-1(P)=-0.7492922+0.4941984Loan-0.3419354Sex+ 0.7635836Job3+0.3266661Card+0.2443897Job2+ 0.2735663Age3+0.1168458Change上述模型中,个人背景状况的相关变量有Sex(性别)和Age3(35-50岁):Sex的系数为负,表明女性逾期概率比男性小,这可能与女性较保守、细心的特点有关,使用信贷消费较谨慎,多数女性较少使用大额信贷,且较少出现遗漏还款等非恶意逾期行为。
此外,在家庭需要贷款的情况下,多由男性申请,即使出现逾期,也不记入女性的记录;Age3变量显示35-50岁这一年龄段的逾期概率较高,通常这一年龄段个人的家庭和收入状况都较稳定,有较强的偿债能力,逾期风险较低,但反向来说这一年龄段个人通常使用信贷的频率较高,数额较大,发生逾期尤其是非恶意性逾期的潜在可能性也较高。
职业相关变量包括Job2(一般企业)、Job3(个人经营)以及Change(从业稳定性):其中Job3的显著性水平为模型最高,对比Job3与Job2系数可见个人经营者的逾期概率明显高于一般企业从业者,在一定上程度验证了商业银行按职业性质对申请人评分时,对个人经营者赋以低分的评估标准有其合理性;Change 变量系数为正则反映出较少更换工作,从业稳定性高的个人逾期概率较低。
信贷状况相关的变量包括Card(信用卡数量)和Loan(贷款数额):以样本的信用卡数量均值(=5)作为临界值,使用5张以上信用卡的个人发生逾期的概率大于使用信用卡数量小于均值的个人,其原因可解释为信用卡数量较多从侧面可能反映出个人的现金流不足,甚至不排除部分人通过办理多张信用卡进行恶意透支的情况,此外,过多的信用卡数量也增加了遗漏等非恶意性逾期的潜在可能;对于Loan变量的解释与Card类似,即贷款数额大于样本均值(=50万元)的个人发生逾期的概率大于贷款数额小于均值的个人,同样,贷款数量较多也可一定程度上反映现金流的不足,而如果同时存在多笔贷款,遗漏还款的可能性也会较高。
根据Backward Selection方法得到的回归结果,建立如下Probit方程:F-1(P)=-5094846+0.4959511Loan-0.3427032Sex+ 0.5230799Job3+0.3294456Card-0.2410266Job1+ 0.2730488Age3+0.1170889Change与Forward Selection方法的结果相比基本相同,唯一不同的变量是Job2被剔除,而Job1(政府机关,事业单位,金融,垄断行业)变量进入模型。
Job1变量系数为负数,反映出这类稳定性较高职业的从业者发生逾期的概率较低。
(四)模型检验以下对模型进行分类预测正确性检验。
表6Probit模型分类预测结果注:模型预测阈值设为0.4。
当p<0.4时,预测为Y=0,正常;p>0.4时,预测为Y=1,逾期。