个人信用信息数据仓库设计
- 格式:pdf
- 大小:180.95 KB
- 文档页数:4
1、数据仓库基本概念1.1、主题(Subject)主题就是指我们所要分析的具体方面。
例如:某年某月某地区某机型某款App的安装情况。
主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如App安装量。
1.2、维(Dimension)维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level 都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成:以时间维为例,时间维一般会包含年、季、月、日这几个Level,每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性,这几个公共属性不仅适用于时间维,也同样表现在其它各种不同类型的维。
1.3、分层(Hierarchy)OLAP需要基于有层级的自上而下的钻取,或者自下而上地聚合。
所以我们一般会在维的基础上再次进行分层,维、分层、层级的关系如下图:每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天周年),如下图所示:1.4、量度量度就是我们要分析的具体的技术指标,诸如年销售额之类。
它们一般为数值型数据。
我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。
1.5、粒度数据的细分层度,例如按天分按小时分。
1.6、事实表和维表事实表是用来记录分析的内容的全量信息的,包含了每个事件的具体要素,以及具体发生的事情。
事实表中存储数字型ID以及度量信息。
维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角度去观察这个内容的。
事实表和维表通过ID相关联,如图所示:1.7、星形/雪花形/事实星座这三者就是数据仓库多维数据模型建模的模式上图所示就是一个标准的星形模型。
雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规范化。
雪花模式可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联结操作会降低性能,所以一般不用雪花模式设计数据仓库。
第1篇一、引言随着大数据时代的到来,数据分析已成为企业提高竞争力、优化业务流程的重要手段。
银行业作为我国金融体系的核心,其业务数据量庞大,涉及客户信息、交易记录、风险控制等多个方面。
通过对银行数据的深入分析,可以挖掘潜在价值,提升银行运营效率,优化客户服务。
本报告以某大型银行为例,对其数据分析实践进行详细阐述。
二、银行数据分析背景1. 数据来源本案例所涉及的银行数据主要来源于以下几个方面:(1)客户信息:包括客户基本信息、账户信息、信用评级等。
(2)交易记录:包括存款、贷款、理财、信用卡等业务交易记录。
(3)风险控制数据:包括不良贷款率、风险预警数据等。
(4)市场数据:包括宏观经济数据、行业数据、竞争对手数据等。
2. 数据分析目的通过对银行数据的分析,实现以下目标:(1)了解客户需求,提升客户满意度。
(2)优化业务流程,提高运营效率。
(3)控制风险,降低不良贷款率。
(4)挖掘潜在价值,实现业务增长。
三、数据分析方法1. 数据清洗对原始数据进行清洗,包括去除重复数据、处理缺失值、修正错误数据等,确保数据质量。
2. 数据集成将不同来源的数据进行整合,构建统一的数据仓库,为后续分析提供数据基础。
3. 数据分析采用多种数据分析方法,包括描述性统计、相关性分析、聚类分析、预测分析等,挖掘数据价值。
4. 数据可视化利用图表、地图等形式展示数据分析结果,便于理解和决策。
四、数据分析实例1. 客户需求分析通过对客户交易记录、账户信息等数据的分析,发现以下客户需求:(1)客户偏好理财业务,希望银行提供更多理财产品。
(2)客户对信用卡业务需求较高,希望银行提高信用卡额度。
(3)客户对线上银行服务满意度较高,希望银行继续优化线上渠道。
针对以上需求,银行可以调整业务策略,推出更多理财产品,提高信用卡额度,并优化线上银行服务。
2. 业务流程优化通过对交易记录、业务流程等数据的分析,发现以下问题:(1)部分业务流程复杂,导致客户体验不佳。
中国建设银行信用卡数据仓库的设计与实现作者:董捷来源:《消费电子·理论版》2013年第03期摘要:随着我国经济高速的增长以及消费转型的加快,国内信用卡业务始终保持良好的快速发展态势。
本文分析建设银行信用卡业务及数据挖掘的基本理论以及数据仓库中的客户特征分布情况进行分析,通过了解每个客户特征变量在不同的取值情况下属于好客户或是坏客户的概率大小,利用SAS数据挖掘工具的决策树模型进一步挖掘,得出影響客户信用状况的各因素及每个因素的重要程度。
关键词:信用卡;数据仓库;数据挖掘;个人信用评分中图分类号:TP399 文献标识码:A 文章编号:1674-7712 (2013) 06-0099-01对于建设银行来说,首先需要建立可以全面、完整地适应与涵盖个人信用信息数据的信用卡数据仓库,信息涵盖个人基本信息、结算账户开立信息、银行信贷信息和住房公积金缴存信息等,基本实现为每一个有经济活动的个人建立一套信用档案的目标。
在建立数据仓库的基础上,通过数据挖掘分析、数据探索、数据挖掘和分类,得到建行的个人信用评分模型。
一、数据挖掘技术概述(一)数据仓库。
所谓数据仓库[1],就是一个面向主题的、集成的、稳定的、不同时期的数据集合,用以支持银行经营管理中的决策过程。
它提供集成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发展和历史的角度来组织和存储数据,以供信息化和分析化处理之用。
(二)数据挖掘技术。
数据挖掘(Data Mining)[2]就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
二、银行数据仓库的建设方法(一)银行建立数据仓库的必要性。
第一章平台总体框架1.1系统总体架构图 1系统逻辑架构图如上图所示,在安全保护体系、运行机制及相关标准体系的支持下,系统共包括基础设施层、数据管理层、服务支撑层、应用服务层及用户层五大层。
其中基础设施层使用市信息资源管理中心现有的硬件及网络体系,主要包括网络、服务器及数据库相关硬件设备;数据层主要用于合肥市公共信用信息共享平台相关数据分类存储和管理,主要包括法人信息数据库、企业信用信息数据库和自然人信用信息数据库,另外包括系统管理等数据库;支撑层为系统的应用提供必要的应用服务支持,在此之上搭建各类应用,提供数据转换、数据清洗、用户管理、日志管理、权限管理等业务功能。
应用层主要由信用监督服务系统、公共服务系统(包括PC端门户服务和APP端服务)、数据交换系统、征集管理系统、支撑管理系统和其他业务系统。
在应用层之上构建用户服务层,以提供用户与平台之间的交互。
1.2应用系统设计1.2.1应用系统功能架构图 2系统功能架构图总体功能架构如上图,说明如下:1、信用监管服务系统:为政府部门的监管工作提供支持,主要包括信用查询、信用报告、信用跟踪预警、信用评价、专题数据库应用系统和统计分析系统等。
2、公共服务系统:在PC端门户网站“信用合肥网”上提供信用查询、信用公示、信用动态等服务;在移动客户端开发支持android、ios和微信版服务,公众可通过移动APP 了解信用工作动态、查看信用公示信息及查询信用报告等服务。
3、征集管理系统:实现各部门信用信息加工整理,信用信息经过清洗、比对、转换等过程,借助ETL等技术将工商、税务、质监和法院等各部门的原始数据按照一定的标准转化至信息信息库中的标准数据。
4、交换管理系统:基于合肥市政务信息资源共享交换平台建设,将拥有信用数据的成员单位纳入信用信息交换共享体系。
并实现与信用中国、安徽省信用平台、其他省市平台和第三方信用服务机构的对接。
5、支撑管理系统:为上述系统的正常运行提供管理功能,包括统一身份管理、统一授权管理、统一日志审计、分类编码配置、信用目录管理、基准表管理等。
个人客户标签体系—线营销人员缺少客户开发的工具。
以往一线客户经理进行客户拓展和产品营销时,常常依赖于现有客户的转介,或者基于一些简单的变量进行筛选(如客户金融资产、客户层级等)。
由于一线人员获取有效客户名单的途径有限,影响了银行客户开拓、产品营销、业务提升的效果和效率。
高潜客户的识别手段有限。
就常规而言,商业银行通过客户金融资产或交易结算量对存量客户进行分类管理。
有关高价值潜力客户的识别手段非常有限。
客户的一些属性或标签,例如是否有房、是否有车、是否住在高档小区、是否出过国、是否是他行贵宾客户、是否有收藏工艺品的倾向和爱好等,都能够凸现客户的资产实力。
我们常常会发现,某个客户的金融资产层级比较低,但是通过对客户的信用卡消费摘要分析表明,该客户经常出入高档场所,经常出国,实际消费能力很强。
这类客户就是所谓的“高潜力-低资产”客户,也就是说客户并没有把该银行作为“主办行”。
因此,如果我们通过对相关消费摘要的分析,给客户打上“高潜力”标签,这有助于一线营销人员找到精准营销线索,实现相关优质客户在银行的金融资产提升。
传统模型开发结果变量的离散化使用需求。
如何将常规开发的诸多营销模型落地应用,对一线营销人员产生实际价值,是一个迫切需要解决的问题。
通过将模型结果(如资产提升概率)离散化,转换为五档或七档的标签结果,这样一线营销人员就可以直接调用相关结果。
例如,对于流失预警模型,将客户流失的概率值离散化为标签很卩流失概率高、中高、中、中低、低五档,从而提升一线标签使用的体验。
商业银行需要构建360度客户画像。
商业银行目前普遍缺少一个较为完整的、具有较强应用价值的客户画像体系。
通过整合消费附言、客户地址、营销建模、数据仓库基础数据等客户信息,从而勾勒出客户360度视图的画像体系(如房车类标签、手机类标签、生活方式类标签、活跃度类标签、投资类标签等),以此提升一线人员对客户的精准服务与管理提升能力。
在银行一线人员访谈、相关文献归纳整理和专家经验总结的基础上,我们的理解零售客户标签是指以零售客户的资产信息、负债信息和交易结算流水等信息为基础,根据客户的人口统计特征、重要属性变量、资产变化、动账交易、消费附言、客户地址信息、建模预测信息等,综合运用数据挖掘分析、关系网络分析、客户行为轨迹分析、文本挖掘分析等技术方法,搭建的以客户为中心的画像体系。
一、引言在当今的大数据时代,个人征信评级的数据来源于人们的生活细节,最终也将用到人们的生活点滴中去。
我们日常贷款需要进行信用评级来让金融机构判断是否可以为你办理贷款业务、该以怎样的利率贷款给你、贷款的额度是多少,贷款期限是多长等等,这一系列涉及双方利益的问题都是从信用数据中找到的答案。
而在信用评级制度不健全的时候,这些数据都处于缺失状态,需要金融机构通过电话访问的方式是一项一项地了解与核实,这就大大增加了金融机构的工作量,同时信息的准确性也难以保证。
然而目前为止,我国在大数据个人征信评级实用性模型方面的探讨还不多,由此可见,建立一个短期内可行的基于大数据的个人征信评级模型具有必要性和迫切性。
二、个人征信评级模型的建立1.原始信息选择在大数据时代,获取信息的方式五花八门,几乎每个人都生产了海量的数据,这些数据可能是你的消费记录,也可能是位置信息,甚至是通话记录等等。
为选择出满足个人征信要求的信息,我们分别对识别欺诈和确定还款能力这两个方向进行探究。
2.信息筛选为了将原始信息处理成可用的征信信息,我们需要采用分布式爬虫技术进行所需有效信息的提取。
基本原理是:从数据仓库中取出URL,利用HttpClient 进行下载,对下载后的页面内容使用HtmlCleaner 和xPath 等工具进行页面解析,这时,我们解析的页面可能是列表页面,也有可能是详细页面。
如果是列表页面,则需要解析出页面中详细页面的URL,并放入Redis 数据仓库,进行后期解析;如果是详细页面,则存入我们的MySQL数据。
3.信息处理如何将我们筛选出的信息转换为最终的信用分或者信用评级呢?这就需要我们用到大数据分析的方法。
本团队在这里借鉴阿里京东等企业的风控模型,给出一个互联网金融风控的一般方法。
(1)防欺诈风控系统①根据以往的业务系统数据可以建立黑名单、白名单白名单:通过建立数据模型进行数据挖掘,并利用机器学习相关算法进行优质用户的挖掘。