当前位置:文档之家› 风控建模—行为评分卡(B卡)简单记录

风控建模—行为评分卡(B卡)简单记录

风控建模—行为评分卡(B卡)简单记录

最近在做行为评分卡,查阅网上各种资料,发现大多都是介绍准入模型的,对于B卡的介绍很少,而且具体的取样方法及观察点的确定说的也模糊不清。今天简单记录一下我做的行为模型过程,着重介绍观察点及取样的方法,以作备忘。

行为卡主要在用户申请提现之后,依据其在账户使用期间所产生的各种行为来预测未来风险的一种评分模型。

本文以小额信贷分期产品为例,介绍一下B卡的开发流程。

1. B卡模型的业务背景

a.小额信贷产品场景介绍

b.B卡适用产品和客群

c.B卡适用的场景

2.B卡模型的设计

3.模型特征开发

4.模型开发流程

1. B卡模型的业务背景

1.1 小额信贷产品场景介绍

在小额分期场景中,用户的生命管理周期可分为贷前、贷中、贷后三个阶段,每家公司对于这三个阶段的定义稍有不同,本文定义如下:

— 1 —

贷前:机构对新注册的用户进行授信审批,给予一个初始信用额度(授信阶段),之后用户进行第一次金额支用,机构对其进行支用审批,这笔支用订单包含了金额,利率,期限等属性。用户支用成功后会生成一张还款计划表,该还款方式如果为等额本息,则每月还相同的本息。此阶段的用户被称为新客,很多机构将新客的授信,距授信3个月内用信订单环节称为贷前。

贷中:新客转化为老客后,就进入到了贷中阶段,每家机构对老客的定义不同,有些把复贷的作为老客,有些则要求新客还款N期后才转为老客。小额信贷分期属于循环贷产品,即在额度允许的范围内,用户可支用申请多笔订单,用户申请新的一笔订单之前,机构会参考其历史账单的还款行为,若存在在逾未还账单,则用户势必会被拒绝,该决策考虑的因素有两个:一是及时止损,老订单的损失还未挽回,新订单大概率会造成进一步损失,二是用户未还清账单还来借款,说明其现金流出现问题,很可能在借新钱还旧债。老客的支用,额度管理,营销转化、流失预警和挽回都属于贷中阶段。

贷后:新老客的账单出现逾期,即进入贷后的催收管理,催收员会根据不同的逾期程度,采取不同的催收措施。

1.2 B卡适用产品及客群

a. B卡适用于还款周期长的产品(单笔单贷或循环贷),如果周期过短如(714/单期产品)其实并不适合,因为周期过短,用户风险变化并不大,可以直接用A卡进行衡量用户风险。对于周期长单笔单贷或循环贷产品,我们可以根据用户的还款行为,逾期表现对用户进行贷中监控或提降额(循环贷)的处理。

— 2 —

b. B卡的适用客群为老客,老客是具有足够长的还款行为。本文中老客的定义为:至少有一笔支用订单有三期还款表现。

1.3 B卡适用的场景

a. 贷中监控场景(离线模型):特征都是离线计算好的,每天/每月固定时点跑B卡模型,对用户进行监控,评估下一个时间周期的风险,及时发现风险,尽早做催收介入或额度冻结(针对循环贷)等操作;

b. 支用审批场景:特征是实时的,老客每次支用申请时实时计算特征调用支用模型模型进行审批,用来评估未来逾期风险,可对用户做支用是否通过及额度提降等动作。

2. B卡模型的设计

B卡模型的设计可根据其适用场景来设计:贷中监控场景和用信审批场景。

a.建模样本维度的确定(主要针对循环贷,单笔单贷人和订单都是一笔):

i.订单维度:每个订单就是一个样本,订单的提现申请时点就是观察点,观察点前N天为观察期,取观察期内该用户的行为特征。观察点之后的N天为表现期。这种方法就是样本量充足,但缺点就是样本之间不满足独立同分布。

ii.用户维度:一个用户就是一个样本,一个用户如果有多笔订单则将多笔订单规约到一个用户上面,这种方法的难点时观察点比较难确定。本文在下面详细介绍此观察点的确定。

— 3 —

iii.用户

+时间周期维度:这种方式就是假设一个用户在不

同时间点的表现和风险是不一样的,代表不同的样本。

b.观察点、表现期、观察期及标签y的确定:

建模样本的维度确定好之后,就要确定观察点,以便于取建模样本。

i.订单维度:对老客的每笔订单都取出来作为样本,其中用信时间为观察点,再对每笔订单进行打表现处理;

ii.用户层面: 首先对所有老客样本进行打标签;然后针对有坏订单的用户进行找出其第一笔坏订单的支用时间点作为观察点;最后全部是好订单的企业随机找出一笔支用订单的支用时间作为观察点。

iii.用户+时间周期(主要针对贷中监控模型):观察点可以定义在某几个固定的日期(如2022-06-15,2022-07-15两个月),在对用户+时间维度进行打标签处理。

3. 模型特征开发

以时间切⽚,1,3,6,12等观察期截取相应数据,进⽚特征衍⽚,构造

— 4 —

— 5 —

— 6 —

评分卡模型

评分卡模型 0 引言 信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。 信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。 信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。 1 基于Logistic回归分析的客户信用评价卡模型 本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。 1.1 建模的准备 1.1.1 目标变量的定义 研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。 1.1.2 定量指标的筛选方法 第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。 第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。 第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。 第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。 第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。 1.1.3 定性指标的筛选方法 定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是Information Value,

风控建模—行为评分卡(B卡)简单记录

风控建模—行为评分卡(B卡)简单记录 最近在做行为评分卡,查阅网上各种资料,发现大多都是介绍准入模型的,对于B卡的介绍很少,而且具体的取样方法及观察点的确定说的也模糊不清。今天简单记录一下我做的行为模型过程,着重介绍观察点及取样的方法,以作备忘。 行为卡主要在用户申请提现之后,依据其在账户使用期间所产生的各种行为来预测未来风险的一种评分模型。 本文以小额信贷分期产品为例,介绍一下B卡的开发流程。 1. B卡模型的业务背景 a.小额信贷产品场景介绍 b.B卡适用产品和客群 c.B卡适用的场景 2.B卡模型的设计 3.模型特征开发 4.模型开发流程 1. B卡模型的业务背景 1.1 小额信贷产品场景介绍 在小额分期场景中,用户的生命管理周期可分为贷前、贷中、贷后三个阶段,每家公司对于这三个阶段的定义稍有不同,本文定义如下: — 1 —

贷前:机构对新注册的用户进行授信审批,给予一个初始信用额度(授信阶段),之后用户进行第一次金额支用,机构对其进行支用审批,这笔支用订单包含了金额,利率,期限等属性。用户支用成功后会生成一张还款计划表,该还款方式如果为等额本息,则每月还相同的本息。此阶段的用户被称为新客,很多机构将新客的授信,距授信3个月内用信订单环节称为贷前。 贷中:新客转化为老客后,就进入到了贷中阶段,每家机构对老客的定义不同,有些把复贷的作为老客,有些则要求新客还款N期后才转为老客。小额信贷分期属于循环贷产品,即在额度允许的范围内,用户可支用申请多笔订单,用户申请新的一笔订单之前,机构会参考其历史账单的还款行为,若存在在逾未还账单,则用户势必会被拒绝,该决策考虑的因素有两个:一是及时止损,老订单的损失还未挽回,新订单大概率会造成进一步损失,二是用户未还清账单还来借款,说明其现金流出现问题,很可能在借新钱还旧债。老客的支用,额度管理,营销转化、流失预警和挽回都属于贷中阶段。 贷后:新老客的账单出现逾期,即进入贷后的催收管理,催收员会根据不同的逾期程度,采取不同的催收措施。 1.2 B卡适用产品及客群 a. B卡适用于还款周期长的产品(单笔单贷或循环贷),如果周期过短如(714/单期产品)其实并不适合,因为周期过短,用户风险变化并不大,可以直接用A卡进行衡量用户风险。对于周期长单笔单贷或循环贷产品,我们可以根据用户的还款行为,逾期表现对用户进行贷中监控或提降额(循环贷)的处理。 — 2 —

风控工作案例

风控工作案例 风控工作案例: 1. 信用卡风控 在信用卡风控中,银行通过分析客户的信用记录和消费行为,建立风险评估模型。根据模型结果,银行可以设定合适的信用额度,以及对不同客户采取不同的风控措施,如设定交易限额、实施实名制等,以减少信用卡风险。 2. 支付安全风控 支付安全风控主要针对在线支付平台和电子商务平台。通过分析用户的支付行为、设备信息、地理位置等数据,系统可以判断是否存在异常交易行为,如盗刷、虚假交易等,从而采取相应的风控措施,如拦截风险交易、设定支付密码等,以保障用户的资金安全。 3. 网络借贷风控 网络借贷平台通过风控手段来评估借款人的信用风险,以及项目本身的风险。通过借款人的个人信息、征信记录、还款能力等进行评估,同时对借款项目的风险进行评估,如项目背景、还款来源等。基于这些评估结果,平台可以设定借款额度、利率,并采取相应的风险管理措施,如风险准备金、抵押担保等。 4. 保险风控 保险公司通过风险评估来确定保险费率,并采取相应的风控措施来

减少保险欺诈行为。通过分析被保险人的个人信息、保险历史、理赔记录等,保险公司可以评估被保险人的风险水平,并设定合适的保险费率。同时,保险公司还会通过反欺诈系统来检测保险欺诈行为,如虚假理赔、保险骗案等。 5. P2P风控 P2P平台通过风险评估来确定借款人的信用风险,并采取相应的风控措施来保障出借人的资金安全。通过分析借款人的个人信息、征信记录、还款能力等,平台可以评估借款人的风险水平,并设定合适的借款利率。同时,平台还会采取风险管理措施,如风险准备金、担保机构等,以应对可能的风险事件。 6. 手机APP风控 手机APP风控主要针对移动应用程序,通过分析用户的行为数据、设备信息、地理位置等,可以判断是否存在异常行为,如恶意软件、篡改APP等。通过设定风险规则和监测系统,可以及时发现异常行为,并采取相应的风险控制措施,如拦截风险APP、设定安全策略等,以保护用户的手机和个人信息安全。 7. 虚拟货币交易风控 虚拟货币交易所通过风险评估来确定交易用户的信用风险,并采取相应的风险控制措施来保障交易的安全性。通过分析用户的交易行为、资金来源、身份验证等,交易所可以评估用户的风险水平,并

评分卡模型时间外样本选择标准

评分卡模型时间外样本选择标准 评分卡(Scoring Card)模型是风控领域应用广泛的一种评估信用违约风险的方法。评分卡模型的建立离不开样本选择,而样本选择又分为训练样本和时间外样本,其中,对于时间外样本的选择对于评估模型的准确性至关重要。本文将介绍评分卡模型时间外样本的选择标准。 1. 时间外样本的定义 时间外样本(Out-of-Time Sample)指的是在模型训练完成之后,按照一定的时间点或时间段将数据划分为训练样本和试验样本两部分,试验样本即为时间外样本。时间外样本的目的是验证模型在新样本上的稳定性和预测能力。 (1) 独立性原则:时间外样本必须与训练样本相互独立。这意味着时间外样本的分布和训练样本的分布应该是相似或相同的,避免出现对模型的过度拟合或欠拟合。 (2) 时间一致性原则:时间外样本的数据应该是在模型建立过程之后采集的新数据,而且在建模期与时间外样本之间不存在因变量Y的相关性。 (3) 数据可用性原则:时间外样本的数据应该是可获取的,而且在实际应用中也会出现的。如果数据不可用,就不能保证时间外样本的结果与实际情况的一致性。 (1) 简单随机抽样法:从全部数据样本中随机抽取一部分作为时间外样本,这样做的好处是可以保证随机性和平均性,但抽样比例不能过大,否则可能会影响模型的稳定性。 (2) 时间序列法:按时间顺序划分出一段时间作为训练样本,而后面的时间作为时间外样本。这种方法在时序模型中应用比较广泛,可以有效的避免模型对未来的过拟合。 (3) 分层抽样法:根据数据的特征属性(如年龄、职业,收入等)将样本分层,分别选取一部分样本作为时间外样本,这种方法可以保证样本的特点在时间上的一致性。 在完成时间外样本的选取之后,需要对模型的稳定性和预测能力进行检验,这里介绍两个主要的指标: (1) KS值:KS指标是评估分类模型好坏的一种重要指标,它根据正负样本的累积比例曲线,判断两者之间的距离是否越大,则说明模型的预测能力越好。 (2) AUC值:AUC指标是ROC曲线下的面积,可以衡量模型的分类性能,它的取值范围在0.5到1之间,取值越大说明模型的分类性能越好。

个人信用评分模型的构建与应用

个人信用评分模型的构建与应用 一、引言 随着金融行业的发展,人们对个人信用评分模型的需求也越来 越高。个人信用评分对于贷款、信用卡、保险等金融产品的审批 和定价起着至关重要的作用。因此,构建一个准确、可靠的个人 信用评分模型变得尤为重要。 本文将介绍个人信用评分模型的构建与应用,主要涵盖以下几 个方面:模型基础概念、数据清洗、特征工程、模型选择与评估、模型应用。 二、个人信用评分模型基础概念 个人信用评分模型,是指根据一系列个人信息和历史数据,对 一个人进行信用评估的一种数学模型。其目的在于对个人的信用 能力进行评级,从而降低金融机构的信用风险。 个人信用评分模型的构建离不开两个基本概念:正负样本和特征。 正负样本是基于历史数据进行构建的,正样本是指历史上具有 良好信用记录的用户,而负样本则是指那些出现违约行为的用户。 特征是指可以反映个人信用能力的各种因素,包括但不限于: 个人基本信息、财务状况、职业情况、历史信用记录等。

三、数据清洗 数据清洗是模型构建的第一步,它的主要目的是去除数据中的 噪声和异常值,确保数据的可靠性和准确性。 数据清洗的过程主要包括以下几个方面: 1. 数据缺失处理:对于缺失的数据,可以选择删除或者填充。 删除的目的是去除无用信息,填充的目的是保留有用信息。填充 方法有多种,如均值填充、中位数填充等。 2. 数据异常值处理:异常值是指数据集中的明显偏离其它数据 的数据点。处理异常值的方法有:直接删除、统一转换、标准化 或离群值处理等。 3. 数据重复处理:数据重复可以影响模型的准确性与稳定性。 直接删除或者合并处理都是可行的方法。 四、特征工程 特征工程是指通过对原始特征进行预处理、衍生和组合,生成 与目标变量相关性更大的特征,从而提高模型的准确性和稳定性。 特征处理的过程包含以下几个步骤: 1. 特征选择:选择特征是挑选对目标变量(如违约)具有显著 影响的特征。常见的特征选择方法有线性回归特征选择、基于树 的特征选择等。

统计建模在金融风控中的应用研究

统计建模在金融风控中的应用研究第一章统计学在金融风控中的重要性 随着金融业的不断发展,风险管理变得越来越重要。但是,由 于金融事务的复杂性和大规模性,在管理风险方面还存在很多挑战。传统的风险管理方法已经不能再满足金融业对风险管理的需要。因此,统计学在金融风控中显得尤为重要。 统计学方法可以帮助金融机构更好地管理风险,因为统计学方 法可以帮助金融机构进行风险预测并制定更有效的风险管理策略。统计学方法也可以帮助金融机构更好地了解客户需求,根据客户 需求制定新产品并对其进行风险评估。 因此,统计学在金融风控中具有重要的应用价值。 第二章统计建模与风险评估 统计建模是指通过从历史数据中提取规律并进行预测来帮助进 行风险评估。在金融风控中,统计建模可以用于预测客户的还款 能力以及对投资组合的风险进行评估,以便于投资者能够更好地 进行决策。 比如,在个人信用评分方面,通过将历史数据归纳整理和对其 进行建模,银行可以更准确地预测一个人的信用分值,从而更好 地判断其还款能力。这样,银行就可以更好地给予客户贷款,并 且降低了风险。

金融领域还有一种叫做统计建模的技术叫做马尔可夫链蒙特卡罗(MCMC)。这种技术可以用于对投资组合的风险进行评估。通过许多历史数据来进行模拟,这可以帮助投资者了解和估算风险的分布和资产组合的回报。 此外,还有一种叫做时间序列分析的统计建模方法,可以用于预测未来市场波动性。这对于风险管理极为重要,因为它提供了对市场的深入理解。 因此,统计建模在风险评估中具有重要的应用价值。 第三章统计建模与欺诈检测 金融机构必须保护自己的利益,因此欺诈检测是非常重要的。统计学方法可以用于检测欺诈行为。通过建模销售数据、客户的个人信息和交易历史,金融机构可以早期发现欺诈行为并带来重大损失。除此之外,还能用于防止洗钱。 统计建模还可以用于检测信用卡欺诈。通过学习借记卡或信用卡交易的样本,以及交易时涉及的地理位置和交易金额,统计建模可以检测到增加的欺诈风险。当潜在欺诈案例被发现时,银行可以立即阻止不正当的交易和账户行为。 因此,统计建模在欺诈检测和防止洗钱方面具有重要的应用价值。 第四章统计建模与投资决策

基于深度学习的风控模型分析与研究

基于深度学习的风控模型分析与研究 一、绪论 随着网络技术的不断发展,互联网金融业的迅速崛起,金融风 险管理成为金融机构必须面对的重要问题。传统的风险管理手段 具有一定的局限性,比如统计模型、规则引擎等,由于对数据特 征的依赖较强,而难以区分正常和欺诈交易,且需要不断手动调 整规则,增加了管理成本。同时,新型的欺诈行为多样化、复杂化,使得传统的风险管理手段无法满足需求。随着深度学习技术 的出现和广泛应用,发展出一系列基于深度学习的风险管理模型,可以更好地解决上述问题,为金融机构提供强有力的风险管理保障。 二、基于深度学习的风险管理模型 1.传统风险管理模型的局限性 传统的风险管理模型是基于规则和统计模型构建的,需要对数 据特征进行人工选择,并不适合数据特征复杂多变的金融领域。 同时,这种模型在对欺诈行为进行识别时,存在误判率高、漏判 率高的问题,无法区分正常客户和欺诈客户。 2.基于深度学习的风险管理模型的优势

基于深度学习的风险管理模型可以自动学习数据特征,无需手 动选择。同时,深度学习模型可以利用大规模数据训练,提高模 型准确性,降低误判率和漏判率,从而提高风险管理能力。 3.基于深度学习的风险管理模型的应用 深度学习技术已经广泛应用于金融风险管理领域,比如利用卷 积神经网络(CNN)对信用卡欺诈进行识别,利用长短时记忆网 络(LSTM)对交易风险进行预测,利用深度置信网络(DBN)对个人信用评分进行评估等。这些应用都取得了圆满成功,并且这 些应用可以进一步推广到其他领域。 三、基于深度学习的风险管理模型的发展趋势 1.多模态数据融合 在金融领域,涉及到的数据类型十分复杂,比如包括交易数据、行为数据、社交数据等,这些数据也不光是单一的文本或者图像,而需要多种数据模态进行融合处理,这也给深度学习模型的设计 带来了一定的挑战。 2.联邦学习的应用 由于金融数据具有敏感性,数据隐私保护是金融机构必须要面 对的问题。交叉设备模型联合学习(Federated Learning)由于可 以实现在不泄露敏感数据的前提下协同建模,成为近年来的一大 研究热点。

银行行为评分M3

银行行为评分M3 一、行为评分的历史背景 传统意义上,申请评分模型评估特定的违约风险。最常见的风险是申请者在获得贷款后12个月内出现90天逾期。这种评价体系不考虑申请者在其他时间段的表现或者贷款机构从消费者那里的获利情况。最终接受多少个或多少比例的申请者是贷款机构管理上的决策,要权衡各项业务指标如期望利润、期望损失和市场份额(这三个指标也是银行等信贷机构的核心目标)等。决定接受申请者的合格分数是较为主观的选择,或者只是根据经验历史数据,比如申请者的边际好坏比率。 20世纪80年代早期,行为评分革新了信用评分的应用场景,它是申请评分时效为的延伸。这个模型使用消费者最近一段时间的支付和购买行为信息。这一时期称为观察期,通常是过去的年。另外它也可以利用外部提供的信息和申请评分中使用过的数据。所有这些数据都用于预测借贷者在接下来12个月内或其他未来确定时间段的违约风险。贷款机构通常每个月都会更新这类行为分数。大多数情况下,最新的信贷行为信息和当前信贷数据都比申请时的资料有效得多。甚至,有人认为行为评分才是真正革命性的创新,个人认为这比较夸张。 举个简单的例子:申请评分只是将申请者的静态特征与未来固定时期后的静态状态的好坏标签进行比较,所以只是一个分类问题。而行为评分则是对借贷者刚过去的一段时间内的动态行为表现与未来的时间内的一些状态做对比,当然行为评分使用方法和申请评分基本无

差别,都是将借贷者的在观察期的数据转化成一组组统计变量。例如行为评分中:平均余额,逾期次数,信用额度等行为指标。 二、行为评分的应用 行为评分关注点不再是风险测度,行为评分可以决定是否进一步增加客户额度或者额度调整的条件,及要不要尝试向客户交叉销售其他产品或者升级现有产品或者改变营销模式来留住客户来获取最大的客户利润,只对有贷款余额的借贷者在给定时间短内的违约可能性排序,一般使用方法行为评分结合客户的支用还款情况来进行客户的额度调整。 比如信用卡场景下的行为评分,通常用于对现有客户的各种管理决策。行为评分模型根据客户过去的行为评估其信用程度,从而准确评价账户风险,并对账户风险等级进行月度跟踪分析,已批准的账户进行管理,并实施各类账户管理策略,例如:额度管理等 三、行为评分的建立 通常主要开发过程包括以下六个步骤,但因为项目的不同,需包括的步骤会有差距: 步骤一:数据分析/数据评估 步骤二:模型设计阶段 步骤三:建模数据准备 步骤四:细分分析 步骤五:模型建立 步骤六:模型验证

风控相关系统及建设方法介绍

风控相关系统及建设方法介绍 一、风控相关系统介绍 1. 相关系统介绍 风险相关系统建设总体思路为搭建统一的风险管控平台,以风险数据集市为基础,集成信用风险等计量,提供统一入口、统一系统架构、统一管理和统一风险视图的风控平台。风险管理类系统一般包含:风险数据集市、内评系统(含评分卡及评级模型等)、风险监测预警系统、资产风险减值系统、模型实验室等。具体介绍如下:作为整个风险相关系统的数据基础,集合所有风险管控所需数据,以企业级数据仓库为基础,建立风险应用领域数据模型,支撑上层各个风险应用。 风险集市模型: 应用架构: 通过自身数据,应用相关模型估算PD、LGD、EAD等风险参数,通过自身数据构建申请评分卡、行为评分卡和催收评分卡,分别对贷前准入、贷中监控以及贷后调整进行定量风险估算。内评建模模型需要一定时间的违约数据积累,同时需要依靠内部客户相关数据和引入一定外部征信数据以及其他相关数据完成对客户评级建模。 基于风险管理平台及数据集市,实现风险指标的监测和动态预警,对指标进行分类管理和预警及处置流程,从预警信号发生、识别、排查认定、处置、信号解除以及反响等,建立完善的预警体系及处理流程。 监控信号从最初的简单业务指标信号逐步优化扩充为由预警模型经过数据分析筛选的预警因子,从识别单一客户预警信号到关联客户预警等。

负责资产的五级分类,并进行资产减值准备计提计算。目前的IFRS9下的减值模型优化。 进行大数据分析建模的平台,基于数据仓库和数据集市,可进行评分卡模型的建模优化以及返回检验等。实现数据处理,准备,变量筛选,变量分析,建模,检验,模型指标分析以及模型监控等得统一平台,实现大数据风控的基础平台工具。 3. 风控与业务系统的关系 目前风险相关系统应用主要为被动接收外部业务系统数据,分析计量风险,将风险结果和指标等进行展示和提示。 局部应用以及嵌入到业务流程各个环节中,甚至对业务流程有强制影响。如: 申请评分在客户准入环节的应用,当客户评分低于某个值时,自动拒绝客户; 客户评分的值对客户授信额度的影响; 客户的行为评分对客户授信额度的自动调整; 业务人员在做单笔业务时可以进行违约率单笔测算,来考虑是否要进行该笔业务; 风险系统应当不仅进行事后的反响统计,应该逐步嵌入业务流程,更多进行事前、事中的预警和管控,表达风险管理的价值。 二、金融科技前沿技术应用介绍 大数据能够通过分析蕴含在大量历史数据中不容易被直观发现的规律及关系来预测未来一定概率下某些情况的发生。 越来越多的金融机构认识到数据的重要性,逐步开始建立企业级的数据仓库以及基于仓库的面向具体应用领域的数据集市。通过制定

智能风控评分卡试题

智能风控评分卡试题 一、多选题(每题5分,共40分) 1.以下属于业务敏感数据信息的是:(A) A.绩效数据。 B.员工处罚信息。 C.满意度数据。 D.公司名称:阿里巴巴。 2.以下哪些属于可识别客户身份的客户保密数据:(C) A.客户的成交情况。 B.小二排班。 C.客户的竞价信息。 D.仅内部可见的客户举证材料。 3.关于数据传播以下说法正确地是:(B) A.双11成交额任何小二不可随意对外公布,需以阿里集团官网公布数据为准。 B.将客户会员名、咨询的问题及解决方案在朋友圈中进行分享,让更多地人知道怎么处理此类问题。 C.亲朋好友见面时候透露业务数据,如电话接听量、满意度等 D.转发阿里集团官网公布的双11活动玩法信息。 4.为便于业务巩固学习,以下说法错误的是?(A) A.将KBS重点知识拷贝并保存在自己的u盘中,带回家继续去学习。 B.截图给家人的阿里旺旺小号存档,回家可以看。

C.截图保存到百度文库私人存档,回家可以看。 D.内部保密信息,只学习和阅读。 5.在工作电脑上安装一些软件,以下说法错误的是?(B) A.只要没有病毒,都可以安装 B.随便给主管说一下,即可安装使用。 C.非工作用途软件也可以安装于工作电脑。 D.阿里未取得使用许可的软件,或未经阿里同意安装使用的软件禁止安装于工作电脑。 6.以下做法错误的是:(B) A.处理自己或亲友等关联人士的任务 B.提前完结应持续跟进的CASE C.每次和会员沟通后都及时备注服务记录 D.登陆客户的账户 7.敏感数据的脱敏,有什么方法?(A) A.隐藏局部数据令该数据无法完整显示,如旺旺名字由 “hello1234”,变为“he*****34” B.分析客户时,可以把客户的名称用数字化代替,如“张三”,代替为“001” C.具体人名模糊化,比如“张三”,代替为“张某” D.手机号码由“***”,模糊化为“18*******78” 8.公司账号密码存储和使用方式不正确的是?(C) A.记录在便签条上,并贴在电脑显示器上。

产品经理风控之术:策略和模型

编辑导语:风控之本,是策略和模型。如今市场变化多端,策略和模型都是需要快速迭代不断调整的,本文作者讨论了策略和模型之间的联系。策略和模型该怎么做?作者对此进行了通俗易懂的描述,话不多说,跟着作者的思路走吧! 风控之术是什么呢?很多人都知道,策略规则和模型呗。其实这个问题很简单,风险管理部门就是在做策略和模型,自然这就是术。大数据风控怎么做,本质就是大数据怎么用的问题,两个用法。 简单地用,是策略规则;复杂地用,是模型。 简单规则是策略,模型规则其实也是策略。这里我们按照惯例,把模型组和策略组的工作分开来。 实际上,初进入一个领域,是不需要建模型的。政策和运营就可以进行冷启动了,做什么客群,怎么去触达,设置什么额度和息费,这些问题一开始跟模型都没关系。 另外,有些时候也来不及做模型,策略可能就会使用一些变量来做强规则或者软规则。那么,后续做模型变量筛选时,就要考虑到策略因素的影响,尽量不使用同类变量,避免策略调整对模型稳定性产生强干扰。 有时你会发现,策略往往选用区分度强的变量,而其他变量不足以让模型有一个好的表现。策略用变量毕竟只用极端,通常是这样,为了追求更好的效果,模型往往还是会什么都用。 因此,如何协调和改善模型策略构建流程,是我们需要思考的业务问题,同时也是技术问题。 一般来说,金融机构会先制定准入规则,可以是基于经验的规则,也可以是基于数据的可变规则。经验规则很少调整,可变规则则需要定期分析动态调整。 通过分析各类数据源的变量对风险的排序性,挑出其中 IV 值高风险区分性好的,设置合适的阈值作为准入标准。或者通过组合多个变量,采用决策树进行最优组合的查找,可得到多变量组合规则。这些都是可变规则。 在大数据的背景下,有时简单的规则并不能很好地区分借款人的好坏,通过建立机器学习模型减少误判越来越重要。尤其是当客群逐渐下沉,策略已经很难找出高收益客群,必须依赖模型从矮个里面拔高个。 可变规则,因为用到的变量少,规则简单可解释,一般都会比较稳。即使数据发生波动,分箱处理天然就进行了缓释。 大数据模型,变量少说上百个,多则上千上万维,更不要说他们的交叉组合,可以更精准地对好坏用户区分。数据的波动基本都会反应到模型分的波动。 风控在于应用简单或复杂技术从多个视角对用户进行风险排序,策略和模型分属这两类。 策略的三板斧:客群细分、触达客户、额度息费。 我不是做策略的,但我常想,策略做的事情到底是在干什么呢?想来想去,就上面 12 个字。 客群细分说的是不同的人走的策略肯定是不一样的。那第一步就是把相同的人分在一起,不同的人不分在一起。

消费贷风控

消费金融的门槛核心在于风控系统,面向C端客群的线上产品线,如消费分期、现金贷及信用卡代偿等业务方向,其需实时支持大量业务的自动化处理,风控系统将承担贷前、贷中和贷后的风控评估、处理及预警的角色,极大地解放人工处理的瓶颈与效率。 1风控规则 风控决策引擎是一堆风控规则的集合,通过不同的分支、层层规则的递进关系进行运算。而既然是组合的概念,则在这些规则中,以什么样的顺序与优先级执行便额外重要。 风控系统的作用在于识别绝对风控与标识相对风险,如果是绝对风控,则整套风控的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的风控规则,而主要单条触发“拒绝”即可停止剩余规则的校验。因为所有规则的运行,是需要大量的时间、金钱与性能成本的。 所以,整套风控决策引擎的搭建设计思路,基于规则优先级运算的注意要点如下: (1)自有规则优先于外部规则运行 举例说明:自有本地的黑名单库优先于外部的黑名单数据源运行,如果触发自有本地的黑名单则风控结果可直接终止及输出“拒绝”结论。

(2)无成本或低成本的规则优先于高成本的规则运行 举例说明:借款用户的身份特定不符合风控要求的,诸如低于18岁的用户,则可优先运行。而一些通过对接外部三方征信的风控规则,需支出相关查询费用的,则靠后运行。此外,在外部三方征信的规则中,命中式收费的风控规则(如黑名单与反欺诈)又可以优先于每次查询式收费的风控规则(如征信报告)运行。 (3)消耗低性能的规则优先于高性能消耗的规则运行 举例说明:直接基于用户现有属性的数值,如当前用户的民族是否非少数民族,则可优先运行。而一些风控规则,需借助爬虫接口,且需待将爬取到的数据经过二次加工与汇合之后,再对汇合的总值进行判断,如手机运营商账单中的月总通话分钟时长,则此类风控规则应后置运行。 2风控可调整 风控的核心思路是基于大量真实的样本数据,将逾期用户的身份、行为与数据特征进行提炼,从概率学的角度上进行剔除,从而保障到剩余用户群的逾期概率处于一个相对较低的区间。而对数据的提炼与作用过程,将使用到“参数”的定义。“参数”决定了区间和上下限范围,一条风控规则通常作用于某一数据类型,依据此数值是否满足“参数”的定义范围,得出是否可通过风控的结论。

信贷风控模型架构

风控业隽背景 互联网金融相对于传统金融出现更多机遇和挑战。如何将机器学习、深度学习等前沿人工智能技术赋能于金融风控领域,打造金融科技(FINTECH ),已经成为大家关注的焦点。高性能、高可靠、易维护的风控模型是支持风控策略迭代的基础。本文主要探讨一种适用于大数据风控的建模框架,并尝试分析功能模块设计、优势与不足、解决方案。 目录 Part 1.大数据风控的特点和挑战 Part 2.传统评分卡的优势和不足 Part 3.机器学习的优势和不足 Part 4.大数据信贷风控模型架构 Part 5.总结 1 Parti.大数据风控的特点和挑战互联网金融相对于传统金融在业务模式上具有诸多不同点:传统金融的订单数少、订单金额高、贷款期限长、客群资质好、风控预算高。 互联网金融订单数多、订单金额低、贷款期限短、客群资质差、风控预算低。互联网金融相对于传统金融在风控上具有更多挑战,这包括:・长尾劣质客群更加不稳定,这容易导致样本波动,加大风控建模难度。 ・互金市场波动剧烈,需加快模型迭代更新周期。例如,2018年6、

7月份的“P2P暴雷潮”。 ・数据源采集上种类更多,弱相关数据更多,处理难度更大。这就需要人工智能技术。 ・政策合规要求,数据采集和使用更加规范化。例如,近期国家对数据非法爬取的集中整治。 随着监管趋严和行业愈加规范化,大数据风控,尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞争力。数据是风控的基础,只有对借款人全方位的理解,我们才能做好风控。一般可将风控数据分为四部分: ・资质类数据:包括真实的身份信息、学历(大专、本科、研究生等)、收入、职业(白领、蓝领等)、人脉信息等。 ・信贷类数据:包括央行征信报告、内部信贷历史(申请、还款、催收)、第三方征信数据、第三方多头借贷数据等。 ・消费类数据:包括电商消费记录、信用卡账单、借记卡流水等。 ・行为类数据:包括埋点行为(前端、后端)、设备App、活动轨迹、内容偏好(浏览商品、新闻)等。 自上而下,这些数据与逾期信用风险的相关性逐渐降低。通常,我 们也称为强金融属性和弱金融属性数据。 2 Part 2.传统评分卡的优势和不足传统评分卡一直在银行信贷业务中成功实践了几十年,禁得起时间的检验。因此,我们必然要取其精华。传统评

大型电商平台消费贷产品风控模型的构建

大型电商平台消费贷产品风控模型的构建作者:汪晓曦马颖 来源:《武汉理工大学学报(社会科学版)》2021年第05期

摘要:信用评分模型的构建及应用实施是学术界及工业界不断研究创新的重要课题。从机器学习模型的构建出发,从建模指标、模型构建、模型上线后预期表现几个角度说明了模型

应用策略。在建模指标处理方面,采用原始变量woe变换作为XGBoost等模型的输入变量,并验证了模型效果提升;在模型构建上,创新采用多种算法单独建模,用XGBoost算法拟合各单模型输出结果,证明复合模型效果有明显提升;在模型上线后预期表现方面,提出了确定模型切分点的方法,即从授信额度、风险级别以及群体分布三个维度,预测即将进件群体的坏账率。本研究最后结合模型表现及业务模式给出实施建议,即对于部署难度高的复合模型可采用预授信的模式,而LR评分卡模型部署可延用申请-授信的模式。 关键词:信用评分; 风控模型; XGBoost; 机器学习; 模型应用策略 中图分类号: F832.39 文献标识码: A DOI: 10.3963/j.issn.1671-6477.2021.05.004 近6年来,随着电商平台的迅猛发展,消费金融产品层出不穷。这些产品依托电商平台的天然流量优势迅猛发展,从商城内扩展到商城外,不断拓展使用场景抢占市场。在版图的不断扩张中,信贷审批模型、模型在具体商业模式中的应用也随着用户流量的扩张、业务场景的拓展不断更新迭代[1]。目前,在信贷审批模型中,算法Logistic Regression(简称LR)依然是最为普及的,在一些特定的用户群体和场景下依然有难以替代的地位,依据该算法建立的评分模型规则简单、逻辑清晰、解释性强,便于用户理解。然而,LR模型并不能保证在各种场景、用户群体中都有良好表现。比如从模型稳定性考虑,LR模型用到的变量维度一般不超过15个,在整体自变量与因变量相关性都不高的情况下,有限的变量数量难以达到较好的模型表现。模型表现不够理想直接影响到通过率及日后坏账风险,会对商城信贷收益产生直接影响。在本研究项目中,商城平台主要信贷模型算法采用的就是LR模型,当前LR模型的应用在风控能力及通过率表现方面能基本达成一个平衡,但客户仍然希望尝试新的模型算法,通过提升模型效果达到保证坏账率不增长的前提下提高模型通过率的目的;此外,客户尤其强调好的模型需要应用于生产线产生实际效益,若一个模型太过复杂导致部署周期长、出错率高而难以实施也是没有意义的。根据用户的上述2个要求,项目组从模型构建出发,提出确定模型切分点预测坏账率的方法,并针对平台实际不同业务场景及业务要求确立模型应用的方法。 首先,在信贷风控模型构建上,笔者参考了如下学者提出的方法并将该方法应用在商城平台上,再根据平台数据特点以及模型表现作数据特征提取及模型算法的改善。近年来,信贷风控领域较受青睐的分类算法模型包括Decision Tree(决策树)[2]、SVM(支持向量机)[3-4]、Random Forest(随机森林)、GBDT(梯度提升决策树)、XGBoost(极度梯度提升算法)、神经网络算法(Neural Networks)[5-7]等。2014年,萧超武等在实证分析中将随机森林组合分类算法与KNN、SVM等单分类器模型以及组合模型GBDT比较,发现前者具有更高的精确度及稳定性[8]。2017年,Bequé将神经网络极限学习算法(ELM)用于消费信贷风险管理,通过实验发现该算法有计算量小、精准度高的特点[9]。2017年,Luo Cuicui采用LR、SVM、深度信念网络(DBN)算法进行信贷违约预测,发现DBN具有最好的预测效果[10]。2019年,陈秋华等探讨了不同连接函数下广义线性模型的分类问题,将线性模型评价指标与RF、SVM、XGBoost等模型进行分析比对,发现广义线性模型中LR模型与SVM预测效果最

30题风控算法岗位常见面试问题含HR问题考察点及参考回答

风控算法岗位面试真题及解析 含专业类面试问题和高频面试问题,共计30道 一、描述一下您所熟悉的机器学习算法,并说明其在风控领域的应用场景? 考察点及参考回答:风控算法岗位面试问题 一、考察点: 1. 知识理解深度:面试者对机器学习算法的理解程度,包括算法的基本原理、应用场景、优缺点等。 2. 知识迁移能力:面试者是否能将机器学习算法应用到风控领域,描述其在风控领域的应用场景,以及如何解决风控问题。 3. 逻辑思维与分析能力:面试者是否能通过分析机器学习算法的特点,结合风控领域的实际情况,提出合理的解决方案。 二、参考回答: 对于机器学习算法,我熟悉的主要有逻辑回归、决策树、随机森林、神经网络等。其中,神经网络在风控领域的应用场景非常为广泛。 首先,神经网络是一种高度复杂的数学模型,它可以模拟任意复杂的映射关系,因此在预测复杂风控指标(如信用风险)方面具有很高的精度。其次,神经网络可以处理大量的非结构化数据,如交易记录、征信报告等,通过对这些数据的处理和分析,可以提取出影响风控的关键因素。最后,神经网络具有自学习的特点,可以通过不断的学习和调整,不断提高模型的预测精度和稳定性。 在风控领域,我们可以利用神经网络来建立信用评分模型,通过对借款人的历史数据进行分析,预测其未来的信用风险。同时,我们还可以利用神经网络对借款人的信贷申请进行分类,根据不同的风险等级采取不同的信贷政策。此外,神经网络还可以用于反欺诈模型的构建,识别异常交易和欺诈行为,提高风控效果和客户体验。 二、能否详细解释一下决策树在信贷审批中的应用? 考察点及参考回答:决策树在信贷审批中的应用

一、考察点 1. 算法理解能力:面试者对决策树算法的理解程度,是否能准确阐述决策树在信贷审批中的应用原理。 2. 算法应用能力:面试者是否能结合实际场景,描述决策树在信贷审批中的应用策略和流程。 3. 问题解决能力:面试者是否能针对信贷审批中的问题,提出有效的决策树应用方案,并解释方案的可行性。 二、参考回答: 讨论决策树在信贷审批中的应用,我们可以从以下几个方面进行: 1. 算法理解能力:决策树是一种常用的机器学习算法,通过构建树状结构进行分类或回归。在信贷审批中,决策树可以通过对借款人的信用风险进行评估,为信贷决策提供依据。决策树的每个内部节点代表一个特征属性上的一个划分,分支代表属性值,叶子节点代表类别。通过构建决策树,可以逐步识别借款人的信用风险特征,从而为信贷审批提供依据。 2. 算法应用能力:在信贷审批中,决策树可以应用于信用评分模型。首先,收集借款人的各种信用数据,如收入、负债、信用历史等。然后,使用这些数据训练决策树模型,通过不断剪枝优化模型性能。最后,将决策树应用于信贷审批,根据借款人的特征属性进行划分,并为其分配相应的信用风险等级。这样,信贷审批人员可以根据模型结果,对不同信用风险的借款人采取不同的审批策略。 3. 问题解决能力:决策树在信贷审批中可以有效地识别借款人的信用风险特征。但是,在实际应用中,还需要考虑其他因素,如审批流程、风险控制政策等。因此,在构建决策树模型时,需要结合实际场景,对模型进行优化和调整。同时,还需要对决策树的性能进行评估和调整,以确保模型能够准确预测信用风险,并提高信贷审批的效率和准确性。 综上所述,讨论决策树在信贷审批中的应用需要对接算法理解、算法应用和问题解决能力等方面。

风控建模之决策引擎解析

风控建模之决策引擎解析 决策引擎对很多风控从业者来说都是绕不开的必学知识点,每一个与金融业务相关的技术框架,都需要一个成熟稳定的决策引擎组件来支持,而目前,只有15%左右的互联网产品,配置了这一工具。本文旨在帮助大家认识决策引擎,包括前台规则配置与后台技术搭建,另外提供几个比较不错的轻量级开源引擎供大家进一步学习。 全文分四部分: 1.决策引擎介绍(适用人员:还没使用决策引擎的老板) 1.1 决策 1.2 决策引擎 1.3 应用场景 1.4 功能需求 2. 前台规则管理(适用人员:业务、分析、模型、决策) 2.1 平台介绍 2.2 功能介绍 2.3 使用流程 2.4 规则设置建议 3. 后台引擎框架(适用人员:模型、开发、架构) 3.1 引擎框架 3.2 核心组件 3.3 扩展组件

3.4 执行流程 4. 决策引擎调研(适用人员:有开发需求或者学习需求) 4.1 开源决策引擎 4.2 商用决策引擎 4.3 决策引擎项目 drools、radar、urule、sparkling logic 本着对读者负责的态度,笔者行文时尽可能做到以下几点:结构完整、内容真实、逻辑清晰、重点突出、删繁就简,用关键词、数据、配图和案例体现决策引擎的定义优势、应用方法、框架流程等。from正阳 1.决策引擎介绍 1.1 什么是决策 决策,指做决定时所用的策略或方法,是人们为各种事件出主意、做决定的过程。它是一个复杂的思操作过程,是信息搜集、加工、整合最后作出判断、得出结论的过程。在消费金融业务场景中,决策主要指技术人员、业务人员、管理人员共同参与制定的面向整个用户信贷生命周期各环节的策略规则。 1.2 什么是决策引擎 1.2.1 早期规则模型 传统的风控规则模型主要内嵌在后台代码中,直接用硬编码的方式实现数据的获取、规则的定义、风险的判断。

相关主题
文本预览
相关文档 最新文档