个人征信系统数据仓库与信用评估模型的构建
- 格式:pdf
- 大小:636.22 KB
- 文档页数:5
信用评级研究与评价模型构建近年来,信用评级成为了广受关注的话题。
作为一种衡量个人、企业、机构等信用风险的工具,信用评级在市场经济中扮演着重要的角色。
本文将从信用评级的定义、研究、评价模型构建等多个方面阐述信用评级的相关知识和实践经验。
一、信用评级的定义及意义信用评级,简称“信评”,是指对借款人信用状况和偿还能力进行评估、预估、预测、预警和提示的一种评估工具。
它通常用信用等级或者信用分数来表示一个借款人的信用状况。
对借款人的信用评级可以帮助贷款方更加准确和科学地评估借款人的风险,从而制定相应的准入条件,以便更好地保障自己的资产质量和盈利水平。
同时,对于借款人来说,通过提高自己的信用评级,可以降低贷款融资的成本和获得更多的资金支持。
二、信用评级的研究信用评级的研究可以从多个方面展开,如历史数据的回顾性研究、行业和企业经济情况的分析、现代技术的应用等。
通常来说,信用评级的研究可以分为以下几个方面:1. 历史数据的回顾性研究信用评级研究的第一步就是回顾历史数据,以了解和分析过去借款人的还款表现,以此为判断未来信用风险提供参考。
这些数据可以包括借款人的还款情况、背景信息、经济情况、行业性质、市场前景等。
通过对过去数据的系统分析和建模,可以为未来借款人贷款评级提供科学和合理的依据。
2. 经济数据和行业分析在评估借款人的信用状况时,除了回顾过去的还款表现以外,还应该对借款人所处的行业和整个经济环境进行分析。
这可以包括行业的规模、发展趋势、市场竞争情况、政策影响等多方面因素。
只有了解行业的内外部环境,才能更准确地判断借款人的信用状况和未来还款能力。
3. 现代技术的应用随着现代技术的不断发展,信用评级的研究和应用也变得更加智能和高效。
例如,通过人工智能和机器学习技术,可以对历史数据和经济分析进行更加精准的建模和预测,以提高信用评级的准确性和预测能力。
另外,通过人脸识别、云计算、大数据等技术手段,可以对借款人的行为和信息进行动态监控和定期跟踪,以预警借款人的异常情况和风险。
信用风险评估模型的建立和优化随着社会经济的发展,信用风险评估已成为金融业中至关重要的一项工作。
信用风险评估模型的建立和优化,可以帮助银行、金融机构等对借款人、企业、个人等进行风险评估,降低信用风险,提高金融机构的管理效率和盈利能力。
本文将从信用评估模型的基本原理、现有模型的优缺点、优化建议等方面进行探讨,以期为金融机构的信用风险评估提供一些参考意见。
信用评估模型的基本原理信用评估模型是一种统计或经济学模型,可以通过对借款人的财务及相关资料,采用数学和统计方法建立一套量化的信用评分体系,对借款人的信用状况进行评估和预测。
信用评分通常采用0-100分的方式表示,分数越高表示借款人信用越好,分数越低则表示信用程度越差。
信用评估模型通常就是利用样本数据,通过分析和计算建立一种统计模型,然后用该模型来预测样本之外的新样本的信用情况。
在建立信用评估模型时必须要具备以下基本原则:1. 数据可靠: 数据的质量和精确度对于信用评估模型的建立具有至关重要的作用,因此必须确保收集到的数据完整、准确、真实可靠。
2. 可变规则: 信用评估模型必须随时跟进市场变化情况,不断更新适应市场需求和发展趋势,因此信用评估模型必须具备可变规则和动态更新的能力。
3. 预测能力: 信用评估模型的最终目的就是预测借款人未来的风险情况,因此信用评估模型建立时必须具备一定的预测精度。
现有模型的优缺点目前,常用的信用评估模型主要包括经验法、专家判断法和数据挖掘法。
经验法:这种方法主要是凭借专业人员丰富的经验和个人感觉对贷款申请人进行信用评估。
经验法快速、简单、适用性强,但其主要缺点是经验的主观性大、难以复制和验证。
专家判断法:这种方法是在经验法基础上进行升级,加入不同专家的判断和意见,以确保评估的客观性和准确性。
虽然专家经验丰富,但是专家的判断也容易受到主观因素的影响。
数据挖掘法:这种方法针对大量的历史数据,运用数据挖掘技术和算法,建立信用评估模型。
商业银行个人信贷信用评分模型的构建与应用
商业银行个人信贷信用评分模型是根据个人的信用历史、财务状况、就业和收入等信息,通过统计学方法和机器学习算法建立的一种评估个人信用风险的模型。
模型构建过程主要包括以下步骤:
1. 数据收集与清洗:通过银行内部和外部渠道收集个人信贷相关数据,并进行数据清洗处理,例如数据去重、缺失值处理、异常值处理等。
2. 变量筛选与衍生:通过变量相关性、信息价值等指标进行变量筛选和衍生,构建入模变量集合。
3. 模型选择与建立:选择适合的机器学习算法和统计学方法,进行模型建立和调优。
4. 模型验证和评估:将模型应用于一部分样本数据进行验证和评估,包括模型自身表现、拟合度、预测准确率等指标。
模型应用主要包括以下方面:
1. 信用申请的预审:通过分析申请人的信用历史、资产负债状况、收入和支出情况等信息,快速预判个人信用风险,为下一步审核提供参考和指导。
2. 信用审批的参考:在银行信用审批过程中,将信用评分模型的结果作为参考,结合其他因素综合判断申请人的信用风险。
3. 贷后信用风险监控:通过定期检查申请人的还款情况和财务状况,实时监控个人信用风险和做出调整。
总之,商业银行个人信贷信用评分模型是对个人信贷风险进行量化评估和预测的一个重要工具,能够提高银行信贷风险控制能力,同时也为申请人提供优质的信贷服务。
信用评估中的风险模型构建与验证信用评估是金融领域中的一个重要环节,它涉及到了对个体或机构的信用状况进行评估,以确定其偿还能力和风险水平。
在信用评估中,风险模型的构建和验证是至关重要的步骤。
本文将探讨信用评估中的风险模型构建与验证的相关问题,包括方法、流程和准确性等方面。
一、风险模型构建在信用评估过程中,风险模型的构建是首要任务。
一个好的风险模型应该能够准确预测个体或机构的违约概率,具备较高的区分能力和预测能力。
以下是风险模型构建的基本步骤:1. 数据收集与预处理为构建风险模型,首先需要收集相关的数据,这些数据可以包括个体或机构的基本信息、财务报表、信用报告等。
数据收集后还需要进行预处理,包括数据清洗、缺失值处理和异常值处理等,以确保数据的质量和可靠性。
2. 特征选择与工程特征选择是指从大量的候选特征中选择出对违约概率影响较大的几个关键特征。
特征工程则是对所选特征进行处理和转换,以提取更多有用的信息。
这些步骤旨在提高模型的准确性和解释能力。
3. 模型选择与训练在风险模型构建中,需要选择适合的模型类型,如Logistic回归、支持向量机、随机森林等。
同时,还需要利用历史数据对模型进行训练,以获取模型的参数和权重。
4. 模型评估与优化构建好模型后,需要对其进行评估,常用的评估指标包括准确率、召回率、F1值等。
如果模型效果不理想,可以考虑对模型进行优化,如调整模型参数、增加样本量等。
二、风险模型验证风险模型的验证是为了检验模型的预测准确性和鲁棒性,以保证模型的可靠性和有效性。
以下是风险模型验证的常用方法:1. 样本外验证样本外验证是利用未参与模型构建的数据对模型进行测试,以评估模型在真实情境下的性能。
通过与历史数据的对比,可以判断模型的预测能力和稳定性。
2. 交叉验证交叉验证是一种常用的验证方法,它将数据样本划分为训练集和验证集。
模型在训练集上进行训练,在验证集上进行验证。
通过多次交叉验证的结果可以评估模型的泛化能力。
信用风险评估模型的构建一、引言信用风险评估模型是金融领域中的关键技术之一,也是银行、证券、保险等金融机构在风险控制和贷款放款决策中必需的工具。
本文将从理论和应用层面,探讨信用风险评估模型的构建方法和应用价值。
二、信用风险评估模型的基础理论1. 信用风险评估模型的定义信用风险评估模型是一种基于数据分析和量化分析的模型,通过重要性分析、建模和数据挖掘技术对信用风险进行监控和评估,以提高银行的风险控制能力和决策质量。
2. 信用风险评估模型的原理作为金融领域的一项关键技术,信用风险评估模型是通过建立一个能够识别和分析客户信用风险的模型,来帮助金融机构更好地评估贷款和融资决策的可行性。
信用风险评估模型的核心是数据分析和建模,包括数据清洗、特征选择、建模方法选择以及模型优化等环节。
3. 信用风险评估模型的分类根据模型的实现方式,信用风险评估模型分为传统的统计模型和机器学习模型两种。
前者包括逻辑回归、线性判别分析、朴素贝叶斯、决策树等,后者则包括随机森林、XGBoost、LightGBM 等。
三、信用风险评估模型的构建方法1. 数据预处理数据预处理是信用风险评估模型建设流程中的重要环节,其目的是将原始数据转换为可用于模型构建的数据。
常见的数据预处理技术包括数据清洗、数据抽样、特征选择和特征编码等。
2. 特征工程特征工程是信用风险评估模型建设流程中的核心环节,其的目的是从大量的数据中挖掘出最具预测能力的特征以建立模型。
常用的特征工程技术包括基于统计假设检验的特征选择、基于模型迭代的特征选择和基于降维技术的特征选择等。
3. 模型选择和构建在特征工程完成后,需要在初始数据集上对不同的建模算法进行建模、评估和比较。
在评估和比较最终模型时,还需考虑多个评价指标的综合权衡,如准确率、召回率、F1值、ROC曲线面积等。
4. 模型优化模型优化是信用风险评估模型的重要环节。
常见的模型优化技术包括超参数优化、特征选择与参数调整、使用最优方法等。
一、引言在当今的大数据时代,个人征信评级的数据来源于人们的生活细节,最终也将用到人们的生活点滴中去。
我们日常贷款需要进行信用评级来让金融机构判断是否可以为你办理贷款业务、该以怎样的利率贷款给你、贷款的额度是多少,贷款期限是多长等等,这一系列涉及双方利益的问题都是从信用数据中找到的答案。
而在信用评级制度不健全的时候,这些数据都处于缺失状态,需要金融机构通过电话访问的方式是一项一项地了解与核实,这就大大增加了金融机构的工作量,同时信息的准确性也难以保证。
然而目前为止,我国在大数据个人征信评级实用性模型方面的探讨还不多,由此可见,建立一个短期内可行的基于大数据的个人征信评级模型具有必要性和迫切性。
二、个人征信评级模型的建立1.原始信息选择在大数据时代,获取信息的方式五花八门,几乎每个人都生产了海量的数据,这些数据可能是你的消费记录,也可能是位置信息,甚至是通话记录等等。
为选择出满足个人征信要求的信息,我们分别对识别欺诈和确定还款能力这两个方向进行探究。
2.信息筛选为了将原始信息处理成可用的征信信息,我们需要采用分布式爬虫技术进行所需有效信息的提取。
基本原理是:从数据仓库中取出URL,利用HttpClient 进行下载,对下载后的页面内容使用HtmlCleaner 和xPath 等工具进行页面解析,这时,我们解析的页面可能是列表页面,也有可能是详细页面。
如果是列表页面,则需要解析出页面中详细页面的URL,并放入Redis 数据仓库,进行后期解析;如果是详细页面,则存入我们的MySQL数据。
3.信息处理如何将我们筛选出的信息转换为最终的信用分或者信用评级呢?这就需要我们用到大数据分析的方法。
本团队在这里借鉴阿里京东等企业的风控模型,给出一个互联网金融风控的一般方法。
(1)防欺诈风控系统①根据以往的业务系统数据可以建立黑名单、白名单白名单:通过建立数据模型进行数据挖掘,并利用机器学习相关算法进行优质用户的挖掘。
基于大数据的信用评级模型构建与应用随着信息技术的迅猛发展,大数据已经成为各个领域中不可忽视的一部分。
其中,基于大数据的信用评级模型构建与应用被广泛关注和应用。
本文将从大数据的概念、信用评级模型构建方法和应用案例等方面,对基于大数据的信用评级模型进行深入探讨。
首先,我们来了解一下大数据的概念。
大数据是一种指能够处理规模巨大、种类繁多、速度快速变化以及价值密度较低的数据集合的技术和工具。
其具有“4V”特征,即Volume(数据量大)、Variety(数据种类多)、Velocity (数据处理速度快)和Value(数据价值低)。
在信用评级模型的构建中,大数据能够提供丰富的信息和更准确的预测能力。
基于大数据的信用评级模型的构建主要分为以下几个步骤:数据收集与清洗、特征选择与提取、模型构建与评估。
首先,在数据收集与清洗阶段,我们需要从各个渠道获取与信用评级相关的数据。
这些数据可以包括个人信息、财务数据、信用卡消费记录、社交网络数据等。
然后,对这些数据进行清洗和处理,去除重复数据、缺失值等,确保数据的准确性和完整性。
接下来,在特征选择与提取阶段,我们需要从收集到的大量数据中选择最相关和有价值的特征。
常用的方法有主成分分析、相关性分析、信息增益等。
通过这一步骤,我们可以从海量的数据中提取出与信用评级相关的关键特征。
然后,在模型构建与评估阶段,我们将利用机器学习和数据挖掘的方法构建信用评级模型。
常用的模型有逻辑回归、决策树、支持向量机、随机森林等。
通过对历史数据的训练和模型的评估,我们可以得到一个准确度较高的信用评级模型。
基于大数据的信用评级模型在金融领域的应用十分广泛。
一方面,它能够帮助金融机构更准确地评估个人和企业的信用风险,从而降低坏账率,提高贷款的成功率。
另一方面,它还可以帮助个人和企业优化信用记录,实现更好的贷款条件和借贷利率。
例如,在个人贷款方面,基于大数据的信用评级模型可以通过分析个人的消费行为、社交网络数据等,准确预测个人的偿还能力和信用状况。
大数据征信体系的主要模式有哪些(二)引言概述:大数据征信体系是通过采集、整合和分析大量的个人和企业数据,评估其信用状况和风险水平的一种信用评估模式。
本文将探讨大数据征信体系的主要模式。
正文:1. 基于传统信用评估模型的大数据征信体系- 由传统信用评估模型引入大数据分析技术,综合考量个人或企业的信用历史、负债情况、还款能力等信息。
- 利用大数据分析算法和技术,挖掘隐藏在海量数据中的信用潜力,提升传统信用评估模型的准确性和及时性。
2. 基于行为信用评估的大数据征信体系- 通过个人或企业在互联网平台上的行为数据,如在线购物、社交网络、手机使用记录等,进行信用评估。
- 基于行为信用评估的大数据征信体系能够准确捕捉个人或企业的消费习惯、社交关系等信息,更直观地反映其信用状况。
3. 基于社会网络的大数据征信体系- 利用社会网络平台(如微信、微博、LinkedIn等)上的数据,通过分析个人或企业在社交网络中的关系网络,进行信用评估。
- 基于社会网络的大数据征信体系将人们的社交关系纳入考量,通过社交网络中的人际关系和口碑传播等信息,反映个人或企业的信用状况。
4. 基于第三方数据的大数据征信体系- 整合来自不同数据供应商的多维度数据,包括个人或企业的交易记录、职业信息、行为习惯等,进行信用评估。
- 基于第三方数据的大数据征信体系能够利用多样化的数据源,综合考量个人或企业的信用状况,提供全面、客观的信用评估结果。
5. 基于混合模型的大数据征信体系- 将多种大数据征信模型相互结合,综合考量不同模型的优势,提高信用评估的准确性和全面性。
- 基于混合模型的大数据征信体系可以通过不同模型之间的互补和协同作用,更全面地评估个人或企业的信用状况和风险水平。
总结:大数据征信体系的主要模式包括基于传统信用模型、行为信用评估、社会网络、第三方数据和混合模型。
这些模式通过大数据分析技术,在信用评估过程中利用各种数据来源,提高评估的准确性和全面性,为个人和企业提供更可靠的信用评估结果。
信用评估模型信用评估模型是一种用于评估个人或企业信用信贷违约风险的方法。
该模型通过综合考虑多个评估指标,如个人/企业的财务状况、还款能力、信用历史等,来预测其未来的还款表现。
下面将介绍一个基于机器学习的信用评估模型。
首先,信用评估模型需要准备一个训练集。
这个训练集包含了大量标记了“正常”或“违约”的样本记录,以及每个记录对应的评估指标。
比如,训练集的一个样本可以是一个个人的财务状况(如月收入、负债情况)、个人信用历史(如有无违约记录)、工作情况(如稳定性、职业类型)、还款记录等。
接下来,需要对训练集进行特征选择和特征工程。
特征选择是指根据经验和领域知识选择与信用评估相关的特征,剔除无关或重复的特征。
特征工程是指对选择的特征进行预处理,如将连续型特征标准化、将分类型特征进行独热编码等。
然后,选择合适的机器学习算法构建信用评估模型。
常用的算法包括逻辑回归、决策树、随机森林、支持向量机等。
这些算法可以根据训练集的特点和需求进行选择。
在模型构建过程中,还需要划分训练集和测试集。
训练集用于模型的训练和参数的调整,而测试集用于评估模型的性能。
常用的评估指标包括准确率、召回率、精确率等。
最后,根据模型的输出结果估计个人或企业的信用违约风险。
具体来说,可以根据模型输出的概率值设定一个阈值,超过该阈值则判断为违约风险较高,否则判断为违约风险较低。
需要注意的是,信用评估模型的性能会受到多种因素的影响,如训练集的质量、特征选择和工程的准确性、算法的选择等。
因此,模型的建立和评估都需要考虑这些因素,以提高模型的准确性和可靠性。
综上所述,基于机器学习的信用评估模型是一种通过综合考虑多个评估指标来预测个人或企业信贷违约风险的方法。
这个模型通过对训练集进行特征选择和工程,选择合适的机器学习算法并调整参数,从而得到一个能够准确预测信贷违约风险的模型。
征信系统的原理和应用征信系统是指由金融机构或征信机构搭建的一套用于收集、储存和评估个人或企业信用信息的系统,用于帮助金融机构或企业决策、风险控制和借贷审批。
征信系统的原理和应用如下:原理:1.数据收集:征信系统通过各种渠道收集个人或企业的信用信息,包括银行、信用卡、贷款、保险、公积金、社交媒体等多个方面。
这些数据以结构化和非结构化的形式存储在系统的数据库中。
2.数据清洗和处理:系统会对收集到的数据进行清洗和处理,包括数据去重、数据整合、格式统一等操作,以确保数据的准确性和一致性。
3.信用评估模型建立:征信系统会建立一套信用评估模型,通过对数据进行统计分析和建模来评估个人或企业的信用风险。
常用的模型包括传统的评分卡模型、机器学习模型等。
4.信用评估和报告生成:根据建立的信用评估模型,征信系统会对个体进行信用评估并生成相应的信用报告,提供给金融机构或企业进行决策参考。
报告通常包括个人或企业的基本信息、信用评分、信用历史、负债情况、还款记录等。
应用:1.金融机构风控:银行、信用卡公司等金融机构可以通过征信系统评估个人或企业的信用状况,从而减少风险、防范欺诈和违约行为。
征信系统可以提供信用报告,帮助金融机构做出合理的借贷审批和授信额度决策。
2.个人信用评估:征信系统对个人信用的评估不仅影响到个人的贷款审批和信用卡申请,还影响到其他方面,如租房、购房、就业、保险等。
良好的个人信用记录可以提高个人的社会地位和信任度。
3.企业信用管理:征信系统可以对企业的信用情况进行评估,帮助金融机构、供应商、合作伙伴等评估企业的信用风险。
企业信用评估可以降低投资风险、提升商业合作的安全性。
4.反欺诈和预警:征信系统可以通过监测个人或企业的信用行为情况,及时发现欺诈行为和异常风险。
系统可以提供预警功能,在出现异常情况时及时警示相关方面。
5.政府监管:政府部门可以利用征信系统对个人和企业的信用情况进行监管。
征信系统可以帮助政府加强合规监管、防范金融风险、促进社会稳定。
ABCDE1项目本月累计本年计划占收入计划(%)21消费税32532541437.8432增值税22322326438.4443营业税24524530877.9454专项调节税33333343927.5865个人所得税26026030188.6176证券交易税17017018928.9987遗产税10610614397.3798土地增值税656563510.24109企业所得税18718721638.6511其中:集体75759028.3112私营57576378.9513其他55556248.811410城乡维护建设税207207203710.161511车船税269269188414.281612房产税16516517649.351713屠宰税13813826195.271814资源税12612618306.891915土地使用税494910804.542016印花税12012024934.812117滞纳金及补税罚款17173964.2922收入合计30053005375158.01!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1引言1.1个人征信相关概念个人征信,是指第三方中介机构(即征信机构)把分散在不同授信机构、司法机构、行政机构等社会各个方面的个人信用信息通过合法手段进行采集、加工、存储到一个或若干个数据库中,进而形成个人信用档案,让授信机构在授信决策时能方便、快捷地查询到完整、真实的信用信息和信用评分。
个人征信体系是一个庞杂的系统,它由一整套个人征信制度和方法,以及个人征信主体、手段和产品构成,是与个人征信有关的业务和活动的总称,主要包括个人信用信息基础数据库、征信相关的法律法规、征信服务机构、信用产品市场、政府监督管理和诚信教育6个方面内容。
其中建立标准化的个人信用信息基础数据库系统是个人征信体系建设的核心,开发有效可靠的信用等级评估产品、建立个人信用评估机制是个人征信体系建设的目标,这将有助于对个人进行客观、科学的信用状况分析,是降低银行信贷风险、稳定金融秩序、促进经济增长的关键所在。
1.2国内外征信业发展现状从国际经验看,征信系统的构建主要有3种模式,而这3种模式的共同特点是都建有集中管理的全国性甚至跨国性数据库。
(1)美国模式:也称市场型模式,其信用体个人征信系统数据仓库与信用评估模型的构建黄岚1,张晓晖2,殷树友2(1.吉林大学计算机科学与技术学院,长春130012;2.长春金融高等专科学校,长春130022)[摘要]建立、健全个人征信体系有助于降低信贷风险、稳定金融秩序和促进经济增长。
随着个人信用信息数据量的增多以及对数据分析需求的加大,构建个人信用信息数据仓库,利用多维数据分析和数据挖掘等技术,开发信用评估等增值产品将会是个人征信体系发展的必经之路。
[关键词]个人征信系统;数据仓库;信用评估;信贷风险决策;数据挖掘;智能算法[中图分类号]F830.589[文献标识码]A[文章编号]1673-0194(2007)06-0060-05[收稿日期]2007-03-23[基金项目]吉林省科技发展计划项目资助(20050603-2)[作者简介]黄岚(1974-),女,江西临川人,吉林大学计算机科学与技术学院副教授,博士,主要从事计算机应用研究工作。
运行上述程序得到的结果如下表4所示。
表4某市税务局税收数据汇总表中国管理信息化ChinaManagementInformationization2007年6月第10卷第6期Jun.,2007Vol.10,No.6金融与投资系中的征信系统和评级系统由独立于政府之外的民营机构构成。
美国、英国、加拿大以及北欧的部分国家采用这种模式。
(2)欧洲模式:也称公益型模式,是指依据国家和政府的力量组建公共征信机构,并由相应职能部门负责运行管理。
欧共体采用这种模式。
(3)日本模式:是以银行协会建立会员制征信机构为主体的个人信用管理模式。
我国的个人征信体系发展相对滞后,随着经济的进步与发展,国家开始重视信用建设,并借鉴国际发达国家的征信体系建设经验,探索出具有中国特色的征信体系。
2003年,政府授权中国人民银行成立国家征信管理局,开始筹建个人信用信息基础数据库(以下简称个人征信系统),并于2006年1月正式运行。
个人征信系统运行一年来,已开始发挥积极作用,该系统收录的自然人数已达5.33亿人,成为世界上最大的个人征信数据库,其中有信贷记录的约6401万人。
据中国人民银行副行长苏宁披露,目前,银行每天对该系统的查询量近24万笔,查询后因信用记录不良而拒绝的个人贷款笔数占个人申请贷款笔数的10%。
1.3系统建设目标根据个人征信业务的现状与发展需要,我国的个人征信系统的建设目标分为三期:一期目标是采集个人在商业银行发生的信用信息,向商业银行提供个人信用报告查询服务;利用全国公民身份证号码查询服务中心的数据,为商业银行提供个人身份信息服务。
二期目标是在完成一期目标的基础上,采集个人的其他社会信用信息,如司法、税务、社保等,逐步完善个人信用信息数据库,逐步提供个人信用评分和咨询服务,逐步向社会各方面(包括个人)提供服务。
三期目标是在不断充实数据库的基础上,利用数据挖掘技术对数据进行深度分析,不断开发深层次的增值服务与产品,如风险预警、决策支持、市场分析等。
目前一期目标已实现,完成了应用系统基本功能的设计和开发,完成了数据中心、客服中心和接入网络的基本建设。
而二期建设还没有全面开始,二期建设的主要目的之一是采集个人的其他社会信用信息。
据报道,央行与信息产业部已联手将手机欠费记录纳入征信系统;央行还与劳动和社会保障部等积极配合,研究将个人参加社保和住房公积金等信息纳入征信系统中;另外,大学生贷款逾期不还的记录、法院判决信息、电话、水电气费缴纳情况等涉及个人信用的其他信息将逐步纳入该系统中。
二期建设的另一目的是数据库升级,建设数据仓库,提供简单的信用评分服务,为三期利用数据挖掘技术、开发信贷风险评估产品的目标奠定基础。
国内外关于这方面的研究很不充分,许多领域还有待深入探讨。
2系统功能与总体框架2.1系统功能根据系统的建设目标,并充分考虑到业务扩展的灵活性,个人征信系统包括数据采集、信用报告查询、异议处理、统计分析、运行管理等主要功能模块。
(1)数据采集是个人信用数据库系统的基本功能,是将分散在各商业银行和其他社会机构的个人信用信息,按标准收集到个人信用数据库的过程。
系统对收到的信息进行校验后存入数据库,对校验不合格的信息形成错误反馈报文反馈给原上报机构并要求重报。
(2)信息查询是各授信机构获取个人信用信息的过程,是个人信用数据库系统的核心业务,也是各授信机构当前最为迫切需求的服务,分为单笔信用报告查询和批量信息查询。
(3)异议处理是当用户认为本人信用报告中的数据有误时,可以向征信服务中心提出异议。
(4)统计分析则是系统为特定部门提供必要的统计报表,生成各类重要指标的总量和分类统计数据。
(5)运行管理主要内容是在系统日常运行过程中进行相应的维护和管理,包括数据管理、系统管理、运行监控和费用结算等。
2.2系统框架个人征信系统的总体框架如图1所示,数据中心(DataCenter)作为个人征信系统的数据采集中心和信息提供中心;其他社会机构包括公安、工商、税务、社保、建设、教育、法院等相关部门;商业银行和其他社会机构既是个人信用信息的来源机构,又是个人信用信息的使用机构;公安部身份认证中心为系统数据库提供个人身份信息;社会个人可以查询信用报告,若认为本人信用报告中的内容与事实不符时,可向数据中心提出异议申请。
3数据仓库设计由于采集到个人征信系统中数据的大量存在和迅速增长,如何从这些海量数据中提炼出具有指导意义的信用评估信息已成当务之急,因此可以利用高效能的面向主题的数据仓库来组织数据,数据仓库能够为用户提供辅助决策的综合信息以及随时间变化的趋势分析信息等。
个人征信数据仓库系统结构由数据仓库、仓库管理和分析工具3部分组成,如图2所示。
数据仓库的数据来源于多个数据源,包括各商业银行上报的银行卡和个人消费信贷数据,以及司法、税务、社保等其他社会机构提供的有关信用的图1个人征信系统框架器使用CGI脚本、Web服务器API、应用API和数据库API等实现客户浏览器与OLAP服务器、数据仓库系统之间的通信连接,是个人信用信息的发布平台;OLAP服务器将数据仓库的分析工具独立出来,负责将从数据仓库中抽取出来的数据转换成客户端用户要求的多维视图,并进行多维数据分析,将分析结果传送给Web服务器发布。
4信用评估模型构建个人信用评估作为个人征信体系建设中的重要环节,能够利用所获得的关于个人信用的信息,通过使用科学严谨的方法,综合考察影响个人及家庭的内存和外在的主客观环境因素,对个人履行各种承诺的能力和信誉程度进行全面评价,确定信用等级的一种方法。
个人信用评估可作为信贷风险决策的依据,从而使信贷决策自动化、科学化。
4.1个人信用评估指标体系的建立个人信用评估的指标体系是对个人信用进行综合评价的依据和标准,是综合反映个人本身和环境所构成的复杂系统的不同属性的指标。
根据国际标准和国内外银行经验,从数据仓库中抽取具有信用评估意义的条目,建立科学合理的个人信用指标体系是准确评价个人信用的基础和前提。
表1是一个包含3个一级指标和16个二级指标的信用评估体系。
表1个人信用指标体系一级指标个人基础信息指标经济指标历史信用指标二级指标年龄本人月均收入贷存比性别家庭月均收入不良信用记录婚姻状况易变现资产信用记录查询次数文化程度其他资产司法记录行业/职业家庭负债率职务/职称工作年限数据,源数据可以是关系数据库、数据文件或其他数据形式。
仓库管理包括数据建模、数据抽取/转换/装载(ETL)、元数据和系统管理等4部分内容。
数据仓库包括综合数据、当前数据和历史数据3类。
分析工具包括查询工具、多维数据分析(OLAP)工具、数据挖掘(DM)工具和客户/服务器工具(C/S)等。
常用的多维数据仓库模型有星型、雪花、星网和第三范式(3NF)等,实现多维数据模型的方法包括基于关系数据库的ROLAP、基于多维数据库的MOLAP和基于混合数据库的HOLAP。
个人征信系统模型可采用HOLAP方法实现,如图3所示,先以3NF模型存储个人信用基础数据,然后面向分析主题进行不同程度的汇总聚合,形成以客户为中心的轻度汇总星型模型和以信贷发放事实、金融机构查询等分析主题为中心的中度汇总星型模型,最后利用O-LAP工具(如Cognos)形成多维立方体(Cube)进行存储。