SPSS Modeler 支持向量机模型评估银行客户信用
- 格式:pdf
- 大小:1.37 MB
- 文档页数:15
基于机器学习的客户信用评分模型及信贷决策技术研究随着金融科技的迅速发展和普及,信贷行业面临着越来越多的挑战和机遇。
为了有效管理风险、提高信贷决策的准确性和效率,金融机构采用基于机器学习的客户信用评分模型成为了一种趋势。
本文将研究基于机器学习的客户信用评分模型及信贷决策技术,探讨其优势、挑战和应用。
一、基于机器学习的客户信用评分模型1. 传统信用评分模型传统的信用评分模型主要基于统计学方法,依赖人工选择和设计的特征,如借款人的年龄、性别、婚姻状况、收入等。
这种模型具有较低的预测准确性和灵活性。
2. 机器学习在信用评分中的应用机器学习是一种从数据中学习和预测的方法,其在信用评分领域可以利用大量的历史数据进行模型训练和预测。
通过分析借款人的行为数据、社交网络数据、消费数据等多种数据源,机器学习可以自动地识别出潜在的关联和模式,提高信用评分的准确性。
3. 常见的机器学习算法在基于机器学习的客户信用评分模型中,常见的机器学习算法包括逻辑回归、决策树、支持向量机、随机森林等。
这些算法可以根据借款人的特征和历史数据进行训练,并生成用于评估客户信用的模型。
4. 数据预处理和特征选择在构建客户信用评分模型之前,需要对原始数据进行预处理和特征选择。
预处理包括数据清洗、缺失值处理等,特征选择则是选择对信用评分有贡献的特征。
通过这些步骤,可以提高信用评分模型的准确性和鲁棒性。
二、信贷决策技术研究1. 基于机器学习的信贷决策技术基于机器学习的信贷决策技术可以根据客户信用评分模型生成的信用评分,辅助金融机构做出信贷决策。
这种技术可以通过自动化的方式对大量的客户进行信贷评估,提高信贷决策的效率,并减少人工的主观因素。
2. 建立风险预警模型在信贷决策中,风险预警模型起到了非常重要的作用。
通过机器学习技术,可以根据历史数据和客户行为特征,建立风险预警模型,发现潜在的风险客户并及时采取措施,减少信贷违约的风险。
3. 优化信贷流程传统的信贷流程通常需要借款人填写大量的表格和提供各种证明材料,申请过程繁琐且耗时。
Modeler 决策树之银行行销预测应用分析本文将通过SPSS Modeler 介绍决策树(Decision tree) 演算法于银行行销领域的应用实例。
通过使用网路公开电销资料建立不同决策树模型,分析、解释并讨论模型结构,您将会了解各种决策树演算法及其不同之处,针对不同资料特征选择合适的决策树模型引言随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。
而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用IBM SPSS Modeler 进行实作,介绍决策树(Decision tree) 演算法于银行行销领域的应用实例。
IBM SPSS Modeler 包含多种决策树模型,包括C5.0、C&R Tree、Quest、CHAID。
首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据(网路公开电销数据) 进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。
通过本文,您将会了解各种决策树演算法及其不同之处,针对不同数据特征选择适当决策树模型决策树演算法(Decision Tree) 简介决策树演算法的原理决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。
一个决策树的架构,是由三个部分所组成:叶节点(Leaf Node)、决策节点(Decision nodes) 以及分支。
决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。
决策树演算法的比较决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。
在IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及C&R Tree 四种。
使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。
基于支持向量机集成的电子商务环境下客户信用评估模型【摘要】本文针对电子商务环境下客户信用评估的问题,提出了基于支持向量机集成的模型。
首先介绍了支持向量机在客户信用评估中的应用,然后探讨了集成学习方法在该领域中的优势。
接着详细描述了基于支持向量机集成的客户信用评估模型框架,并解析了特征选择和模型训练过程。
最后进行了性能评估和结果分析,验证了模型在电子商务环境中的实用性和有效性。
也探讨了模型的局限性,并提出了未来研究方向。
本文的研究为电子商务企业提供了一种有效的客户信用评估方法,有望在实际应用中发挥重要作用。
【关键词】支持向量机、集成学习、客户信用评估、电子商务、特征选择、模型训练、性能评估、结果分析、实用性、有效性、局限性、未来研究、结论总结。
1. 引言1.1 研究背景电子商务的快速发展使得客户信用评估成为一项至关重要的工作。
随着互联网的普及和电子商务市场的不断扩大,客户的信用评估对于电子商务企业来说变得尤为关键。
传统的信用评估方法已经不能满足实际需求,因此需要借助先进的技术手段来提高客户信用评估的准确性和效率。
本文将探讨基于支持向量机集成的客户信用评估模型,结合集成学习方法的优势,构建一个全面而有效的信用评估框架。
通过特征选择和模型训练过程的讨论,分析性能评估结果,来验证该模型在电子商务环境下的实用性和有效性。
也会探讨模型的局限性和未来研究方向,为进一步完善客户信用评估模型提供参考。
1.2 研究意义客户信用评估在电子商务环境中具有重要意义。
通过客户信用评估模型,电子商务平台可以更好地识别高风险客户和低风险客户,从而降低欺诈风险,提高交易安全性,并优化用户体验。
客户信用评估模型还可以帮助电子商务平台提高市场竞争力,通过精准的个性化推荐和定价策略,吸引更多客户并提高用户忠诚度。
通过对客户信用评估模型的研究和实践,可以为电子商务平台提供更可靠的风险管理工具,降低经营风险,提升商业价值。
将支持向量机集成应用于客户信用评估领域,有助于推动机器学习技术在电子商务领域的应用和发展,为构建安全、高效、智能的电子商务环境提供有力支撑。
信用评估两种评估方法信用评估是金融领域中的一项重要工作,它通过对个人或企业的信用记录和相关信息进行分析,评估其还款能力和信用风险,以便金融机构和其他合作伙伴能够更准确地判断借款人的信用状况。
本文将介绍两种常见的信用评估方法,包括基于统计模型的评估方法和基于机器学习的评估方法。
一、基于统计模型的评估方法1.1 信用评分模型信用评分模型是一种常见的基于统计模型的信用评估方法。
它通过对历史数据的分析,建立一个数学模型,根据借款人的个人信息、财务状况和信用记录等因素,给出一个信用评分。
这个评分可以帮助金融机构判断借款人的信用等级和还款能力。
常见的信用评分模型包括德国信用评分模型、FICO信用评分模型等。
1.2 逻辑回归模型逻辑回归模型是一种常用的基于统计模型的信用评估方法。
它通过对借款人的个人信息和信用记录等因素进行建模,预测借款人的违约概率。
逻辑回归模型可以将各个因素的权重进行量化,从而更准确地评估借款人的信用风险。
在建模过程中,需要对数据进行预处理、特征选择和模型训练等步骤。
1.3 判别分析模型判别分析模型是一种常见的基于统计模型的信用评估方法。
它通过对借款人的个人信息和信用记录等因素进行分析,建立一个判别函数,根据借款人的特征向量,判断其属于哪个信用等级。
判别分析模型可以通过最大化分类的准确性来评估借款人的信用状况,常见的方法包括线性判别分析和二次判别分析等。
二、基于机器学习的评估方法2.1 决策树算法决策树算法是一种常见的基于机器学习的信用评估方法。
它通过对借款人的个人信息和信用记录等因素进行分析,构建一个决策树模型,根据不同的特征判断借款人的信用等级。
决策树算法可以根据数据的特点进行自动分支,从而更准确地评估借款人的信用风险。
2.2 随机森林算法随机森林算法是一种常用的基于机器学习的信用评估方法。
它通过对借款人的个人信息和信用记录等因素进行分析,构建多个决策树模型,并通过投票的方式综合评估借款人的信用等级。
支持向量机在信用评分中的应用方法支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,它在信用评分中的应用方法备受关注。
信用评分是金融领域中的一个重要任务,它用于评估个人或企业的信用风险,帮助金融机构做出信贷决策。
本文将介绍支持向量机在信用评分中的应用方法,包括数据预处理、特征选择和模型训练等方面。
在信用评分中,数据预处理是一个关键的步骤。
首先,需要收集大量的借款人信息,包括个人背景、职业状况、财务状况等。
然后,对这些数据进行清洗和整理,去除异常值和缺失值,确保数据的质量和完整性。
接下来,可以对数据进行标准化处理,将各个特征的取值范围统一到一定的区间内,以避免某些特征对模型的影响过大。
特征选择是信用评分中的另一个重要环节。
在支持向量机中,选择合适的特征可以提高模型的预测性能。
传统的特征选择方法包括相关系数分析、卡方检验和互信息等。
此外,还可以利用支持向量机自身的特征选择能力,通过计算特征的权重或重要性,选择对模型有贡献的特征。
特征选择的目标是保留对信用评分有预测能力的特征,同时去除冗余和无关的特征,以提高模型的泛化能力。
在进行模型训练之前,需要将数据集划分为训练集和测试集。
训练集用于模型的参数估计和调优,而测试集用于评估模型的性能。
支持向量机是一种监督学习算法,它通过构建一个超平面来划分不同类别的样本。
在信用评分中,可以将好坏客户作为两个类别,利用支持向量机学习一个分类模型。
为了提高模型的性能,可以使用交叉验证的方法选择合适的超参数,如惩罚系数和核函数类型。
模型训练完成后,可以使用测试集评估模型的性能。
常用的评估指标包括准确率、召回率、精确率和F1值等。
准确率表示模型正确预测的样本比例,召回率表示模型正确预测为正样本的比例,精确率表示模型预测为正样本的样本中真正为正样本的比例,F1值是综合考虑准确率和召回率的指标。
通过对模型的评估,可以判断模型的预测能力和稳定性,从而为信用评分提供参考依据。
第7卷 第8期 2007年4月1671 1819(2007)08 1624 04科 学 技 术 与 工 程Sc i ence T echno logy and Eng i neer i ngV o l 7 N o 8 A pr 20072007 Sc i T ech Engng支持向量机在银行客户信用评估中的应用汪晓玲(西北工业大学软件与微电子学院 西安710065)摘 要 贷款业务是银行极为重要的资产业务,构建一个适用的客户信用评估模型十分重要。
由于近年来在智能学习系统领域发展起来的新理论,并引入小样本学习的通用学习算法 支持向量机(Support V ec tor M ach i nes,简称SVM),建立银行客户信用评估模型。
由于在统计学习理论中的结构风险最小化的S VM算法,克服了传统信用评估模型中的过拟合和局部最优的缺点。
同时,通过在模型中采用核函数,有效地解决了线性不可分问题。
因此,使得基于这种技术的评估模型具有较强的实用性。
通过与神经网络模型的比较,证实了该方法用于风险评估的有效性及优越性。
关键词 银行客户信用评估 支持向量机 分类中图法分类号 TP301 6; 文献标识码 B客户信用评价问题本质上是一个模式识别问题,一般将客户按是否能够按期还本付息分为两类:即不违约者 好!客户和违约者 坏!客户。
根据历史上若干客户的资信信息提取违约及不违约者的特征,总结分类规则,建立数学模型,以实现对客户模式识别的目的。
国外对于信用评估的研究约有50多年的历史,发展了统计评估和非统计评估两大类方法。
统计评估方法主要包括判别分析(MDA)、线性回归、非线性回归、Log it模型[1]以及非参数统计中的k-近邻判别分析方法等。
非统计评估方法包括线性规划、整数规划、人工神经网络、进化算法、专家系统等[2]。
MDA最大优点是具有较好的解释性和简明性,但需满足实际中难以满足的正态、等协方差的条件。
尽管二次判别分析(ODA)模型可解决等协方差阵问题,但却不满足正态性假定;并且,当数据样本少、维数高时ODA的性能明显下降;而样本少、维数高是目前信用数据的显著特点。
83000 电子商务论文基于支持向量机集成的电子商务环境下客户信用评估模型在电子商务飞速发展的今天,参与到电子商务活动中的人也越来越多。
为了能够给电子商务活动的开展营造一个良好的氛围,国家相关部门对与电子商务相关的配套设施和法律法规等进行了不断优化与完善,但由于执行力度不够,从而导致仍有很多问题制约了电子商务的发展,信用问题就是其中最主要的一项。
通过对基于支持向量机集成的电子商务环境下客户信用评估模型的研究,可以为日后电子商务客户信用的评价工作提供一定的参考依据,进而更好的促进我国电子商务行业的可持续发展。
1 基于模糊积分支持向量机集成1.1 Bagging个体生成Bagging个体生成主要是以可重复采样为基础,对训练集的选取通常是在原始训练集中随机抽取产生的,训练集的规模与原始训练集相当,训练集允许重复选取。
这样一来,同一示例就会在不同的训练集中出现,同样也会有一部分示例没有出现的情况。
随着训练集选取内容的不断增加,Bagging分类器集成的差异度也会随之增加,从而促进了泛化能力的进一步提升。
1.2 基于模糊积分的结论生成模糊积分基本理论是基于支持向量机集成的客户信用评价模型的基本理论。
所谓模糊积分理论,主要指的是设X 为一有限集合,若集合函数g:2X→[0,1]满足g(X)=1、g(A)≤g(B),那么我们便将g视为一个模糊测度。
如果g在满足上述条件的基础上,还满足等式g (AUB)=g(A)+g(B)+λg(A)g(B),那么我们就将其称为测度或Sugeno,记为gλ。
在模糊积分理论下,对模糊积分的计算,首先需要明确模糊密度。
通常情况下,模糊密度的产生是由专家设定的,也可以通过训练数据产生。
2 模糊密度确定方法通过模糊积分理论的介绍我们能够看出,在基于模糊积分的多分类集成中,对于各个子支持向量分类器重要性的模糊密度值的确定是非常重要的。
鉴于此,本文采用混淆矩阵的方法来对评估模型中所涉及的模糊密度值进行确定,用子分类器各自的训练集对各个子分类器进行测试,进而得到与之相对应的混淆矩阵。
支持向量机在企业信用评级中的应用方法支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,它在企业信用评级中有着广泛的应用。
本文将探讨支持向量机在企业信用评级中的应用方法,并讨论其优势和局限性。
首先,支持向量机通过将数据映射到高维空间中,找到一个最优的超平面来分隔不同类别的数据。
在企业信用评级中,我们可以将企业的各种指标作为特征,例如财务指标、经营指标等,然后使用支持向量机来构建一个分类模型,对企业进行信用评级。
其次,支持向量机在企业信用评级中的应用方法包括特征选择、模型训练和模型评估。
在特征选择方面,我们需要从众多指标中选择出最具代表性的特征,以提高模型的准确性和可解释性。
可以使用相关性分析、主成分分析等方法来进行特征选择。
在模型训练方面,我们需要选择适当的核函数和参数,以确保模型能够对不同类型的企业进行准确分类。
在模型评估方面,我们可以使用交叉验证、混淆矩阵等方法来评估模型的性能,并对模型进行调优。
支持向量机在企业信用评级中的应用具有一定的优势。
首先,支持向量机能够处理高维数据,并且在处理小样本数据时表现出较好的泛化能力。
这对于企业信用评级来说非常重要,因为企业的财务数据通常是高维的,并且可用的数据样本往往有限。
其次,支持向量机能够处理非线性问题,通过使用核函数将数据映射到高维空间中,可以更好地处理非线性关系。
这对于企业信用评级来说也非常重要,因为企业的信用状况通常受到多种因素的影响,这些因素之间可能存在复杂的非线性关系。
然而,支持向量机在企业信用评级中也存在一些局限性。
首先,支持向量机的计算复杂度较高,特别是在处理大规模数据时。
这可能会导致模型训练和预测的时间较长。
其次,支持向量机对参数的选择较为敏感,需要进行反复调优。
这对于一些非专业人士来说可能会带来一定的困扰。
因此,在使用支持向量机进行企业信用评级时,需要谨慎选择模型参数,并结合实际情况进行调整。
基于SVM的信用风险评估模型构建一、介绍随着金融业的迅速发展和信用卡市场的壮大,银行和金融机构需要对信用风险进行准确评估,以保证自身的健康和稳健。
不同于传统的评估方法,基于支持向量机(Support Vector Machine,SVM)的信用风险评估模型,通过从大量的客户数据中学习特征和模式,实现对信用风险的准确预测,并对金融机构的信贷业务提供重要的决策支持。
本文将介绍基于SVM的信用风险评估模型的构建方法。
二、数据预处理在构建和训练SVM模型前,需要对原始数据进行预处理。
首先,需要对原始数据进行清洗和去噪,去掉一些无用和重复的数据。
其次,需要对数据进行特征工程,确定评估所需的关键特征。
通常,信用评估的特征包括客户的基本信息、信用历史、收入和支出情况、财务状况和债务信息等。
在特征工程过程中,可以使用统计学方法和数据挖掘技术,如主成分分析(PCA)和因子分析,减少特征的维度和冗余信息。
三、模型训练SVM是一种基于学习理论的分类器,其核心思想是通过构造一个最优的超平面(即能够将不同分类的数据点分割开的平面),对数据进行分类。
在信用风险评估中,SVM可以将客户的信用分为好坏两类,从而帮助银行和金融机构做出更为准确的决策。
SVM模型的训练通常可以通过以下几个步骤实现。
1. 样本数据选择首先需要选择合适的样本数据,通常需要数据集具有代表性和多样性,充分反映不同类型的客户和信用状况。
2. 核函数选择SVM模型的最终分类效果受到核函数的选择影响较大。
常见的核函数有线性核、多项式核和径向基函数(RBF)核等。
不同的核函数适用于不同类型的数据集和分类问题。
3. 模型参数选择SVM模型中存在一些参数,如惩罚系数C和核函数参数γ,需要在模型训练前进行调优。
通常可以使用交叉验证方法和网格搜索算法等技术,对参数进行自动选择和优化。
4. 模型训练和评估模型训练与评估通常需要采用分割样本集和训练集的方式进行。
将数据集按一定比例分为训练集和测试集,分别用于模型的训练和测试,以评估模型的性能。
Modeler 支持向量机模型评估银行客户信用本文要介绍的预测分析模型是“支持向量机模型”,我们将为大家简要介绍支持向量机模型的理论,然后结合IBM SPSS Modeler 产品详细讲述如何利用支持向量机模型来解决客户的具体商业问题—银行如何评估客户信用银行典型案例商业银行个人信用评估就是根据个人信息和借贷记录等历史数据,判断个人信用,它是保证信贷安全的重要一环。
但是商业银行用于信用评估的数据往往具有特性不稳定,历史样本容量较小,指标较多,呈明显的非正态分布。
这些特点导致很难利用一般的统计技术进行有效的评估。
支持向量机模型( 简称SVM) 能够很好的处理此类数据,进行有效的信用评估。
本文介绍了SVM 的基本概念以及Modeler 中使用SVM 进行信用评估的基本步骤和方法,并对结果进行分析和应用支持向量机模型简介支持向量机(Support Vector Machine, 简称SVM) 是一项功能强大的分类和回归技术,可最大化模型的预测准确度。
与其他常用模型不同,SVM 一个优势就是能很好的处理小样本,高维数,非正态的数据。
SVM 的工作原理是将原始数据通过变换映射到高维特征空间,这样即使数据不是线性可分,也可以对该数据点进行分类。
之后,使用变换后的新数据的进行预测分类。
例如,图 1 中的数据点落到了两个不同的类别中,可以用一条曲线分隔这两个类别。
对数据使用某种数学函数变换后,可以用超平面定义这两个类别之间的边界。
图 1. 数据变换后线性可分示意图用于变换的数学函数称为核函数。
IBM SPSS Modeler 中的SVM 支持下列核函数类型:∙线性∙多项式∙径向基函数(RBF)∙Sigmoid如果数据的线性分隔比较简单,则建议使用线性核函数。
在其他情况下,应当使用其他核函数。
在所有情况下,最好尝试使用不同的核函数,才能从中找出最佳模型,因为每一个函数均使用不同的算法和参数。
回页首使用IBM SPSS Modeler 支持向量机模型评估客户信用IBM SPSS Modeler 中的SVM 提供了可视化的操作方法,具有界面友好,操作方便的特点。
此节,介绍如何使用IBM SPSS Modeler SVM 评估客户信用。
操作步骤分为:∙创建基本流(Modeler Stream),建立模型;∙测试模型,分析结果;∙用不同的核函数建模,比较并选择合适的模型;∙运用选定的模型来评估客户信用。
我们使用UCI Machine Learning Repository 上公开的商业银行客户信用记录作为数据集进行演示。
该数据集由1000 条个人信用记录组成,每条记录均包含一组个人信息值,其中包括对客户信用的评估结果。
1000 条记录保存在CreditData.csv 文件中,从1000 条记录中抽出一部分用于演示用选定的模型评估客户信用,将这部分数据保存到CreditData4Estimate.csv 文件中。
创建基本流(Modeler Stream),建立模型图 2. 基本流建模图基本流如图 2 所示,创建步骤如下1) 添加源数据—选择合适的数据创建新流,命名为SVM.str。
从“源”选项卡中添加一个“可变文件”节点到SVM.str,从“输出”选项卡中添加一个“表”节点到流,并将“表”节点连接到“可变文件”节点。
打开“可变文件”节点,导入客户信用数据CreditData.csv。
运行“表”节点,显示源文件中数据,如图3 所示。
数据有22 个字段,1000 条记录。
ID 字段为客户标志符。
每个客户的信息包含在从StatusChkAccount到Foreigner的字段中。
Class字段表示信用评级,取值为良( 值=1) 或者差( 值=2)。
图 3. 源数据图2) 设置类型—选择用作预测的变量和目标变量从“字段选项”选项卡中添加一个“类型”节点到SVM.str, 并将它连接到“可变文件”节点之后,打开“类型”节点,并单击[ 读取值] 按钮。
获得数据集描述,如图4 所示。
图 4. 源数据类型描述图本模型,希望预测Class的值( 此字段只有 2 个值,即良(=1) 还是差(=2))。
在“类型”设置界面中,单击Class字段的“测量”列,将其改为“标志”,将Class的角色设置为“目标”;ID字段作为个人标识符,不会对建模和预测产生影响,不会用作预测变量或模型的目标,将其角色设置为“无”; 其他字段作为特征字段用作预测变量,因此将其角色设置为“输入”。
3) 添加分区—选择建模的数据和测试模型的数据为了建立模型( 即训练模型),同时测试模型,需要把数据集CreditData.csv 分为两部分,一部分用于建立模型,另一部分用于测试新建模型。
分区节点通过在源数据表中添加一个字段,根据字段的不同取值,将数据分区。
“分区”节点最多可以将数据分为三部分,分别用于训练、测试和验证。
从“字段选项”选项卡中添加“分区”节点到流,将其连接到“类型”节点,打开“分区”节点,使用默认设置。
默认分为“训练”和“测试”两个分区,大小分别50%。
选择“设置随机种子数”表示分区是随机分区的。
图 5. 分区节点图添加“表”节点并连接到“分区”节点之后。
运行“表”节点,如图 6 所示,“分区”字段被加入到表中。
图 6. 添加分区字段的数据图4) 添加“建模”节点—建模从“建模”选项卡中添加“SVM”节点,并连接到“分区”节点之后。
双击“SVM”节点,设置属性。
“字段”选项卡默认选中“使用类型节点设置”。
在“模型”选项卡中,如图7 左所示,选中“自定义”选项,在相邻的文本字段中键入class-rbf 作为“模型名称”;默认选中“使用分区数据”和“为每个分割构建模型”,流中没有添加“分割”节点,这个选项没有实际作用,关于其功能这里不介绍,有兴趣的读者可以参考帮助文档。
在专家选项卡中,如图7 右所示,将“模式”设为“专家”以获得可靠性,“内核类型”(即核函数)默认设为RBF,其他选项使用默认值,这些选项是建模参数,这里不介绍,有兴趣的读者可以参考帮助文档。
在“简单”模式下所有选项均为不可设置。
图7. 模型设置图在“分析”选项卡上,选中“计算变量重要性”复选框,其他两个选项“计算原始的趋向得分”和“计算调整倾向得分”默认不选中,关于这两个选项功能,这里不介绍,有兴趣的读者可以参考帮助文档。
“注解”选项卡不作额外设置。
单击运行。
运行成功表示建模完成,创建模型块被添加到流中。
至此,流基本建立完毕,如上面图 2 所示。
测试模型,分析结果双击建模生成的模型块class-rbf。
如图8 所示,在“模型”选项卡上,预测变量重要性图显示了不同变量对预测的影响程度,从上到下预测变量的重要程度依次降低,其中StatusChkAccount和SavingAccounts的对预测的影响度最大。
“设置”选项卡指定在查看结果时显示的附加字段。
“汇总”选项卡显示了分析( 包含记录数,分析准确性)、字段、构建设置、训练汇总等信息。
这两个选项卡的详细功能,本文不介绍,请参考帮助文档。
图8. 模型图模型块class-rbf 之后添加“表”节点,运行表节点,使用创建的class-rbf 模型对源数据中数据进行测试,获得图9 所示结果。
图9. 训练评估结果图图9 的结果中,class-rbf 模型创建了两个新字段。
向右滚动表输出可看到这两个字段:表 1.带表头、所有列左对齐的样式新字段名描述$S-Class由模型预测的Class 值。
$SP-Class此预测值的倾向得分(即此预测值正确的可能性,其值介于0.0 到 1.0 之间)。
表示预测值的准确程度,值越高,越说明预测值准确性越高查看上表,看到大多数记录的倾向得分($SP-Class 列)都相当高,即预测的准确度相当高。
但是也存在一些明显的例外情况, 例如图9 位于第98 和99 行的记录,其倾向得分为0.539 和0.535。
比较这两行的Class 和$S-Class,可以看到此模型对这两行记录做出了不正确的预测。
因此,在实际使用模型预测时,选择相信倾向得分大于预设值的预测结果。
为了统计表中的预测信息,添加“分析”节点并连接到class-rbf 模型块,运行“分析”节点,获得预测汇总结果, 如图10 左所示。
根据汇总结果,class-rbf 模型对于“1_ 训练”分区,预测正确率是99.59%;对于“2_ 测试”分区,预测正确率是71.93%。
如果选择相信倾向得分大于0.95 的预测结果,那么预测正确率更高。
添加“选择”节点,将其连接至class-rbf 模型块之后,再将“分析”节点连接至“选择”节点之后( 在警告对话框上选择替换),在“选择”节点中设置只包含$SP-Class>=0.95 的记录。
再运行“分析”节点,得到图10 右所示结果。
可以看到class-rbf 模型对于“2_ 测试”部分的预测正确率达到81.39%图10. 模型测试结果图使用不同的核函数,选择最合适模型为了比较不同的核函数创建的模型,添加第二个“SVM”建模节点并连接到“分区”节点之后,打开新“SVM”节点,在“模型”选项卡上选择“自定义”并将class-poly 作为模型名称;在“专家”选项卡上,将模式设置为专家;将内核类型设置为多项式并单击运行,class-poly 模型块被成功创建。
将class-poly 模型块连接到class-rbf 模型块之后(在警告对话框上选择替换),将class-poly 模型连接到“分析”节点( 在警告对话框上选择替换), 在class-poly 模型块之后添“表”节点。
最终建立的流如图11 所示。
我们还可以看到class-rbf 模型块和class-poly 模型块被添加到屏幕右上角的“模型”选项板。
图11. 多核函数建模图运行连接到class-poly 模型的表节点,如图12 所示, 为class-poly 模型生成的预测值和倾向得分字段分别命名为$S1-Class 和$SP1-Class。
可以对比对每条记录两个模型预测结果。
图12. 两模型评估结果图为了比较两个模型各自的预测准确度,运行分析节点,获得图13 所示结果。
图13. 两模型评估分析图上图中,“单独模型”下面的“比较$S-Class 与Class”表示模型Class-rbf 的预测结果,它与上面图10 左的结果是一致的。
“比较$S1-Class 与Class”表示Class-poly 模型预测结果,该模型对于487 条“1_ 训练”记录,全部预测正确;对于513 条“2_ 测试”记录,有360 条记录预测正确,正确率为70.18%.“$S-Class$S1-Class 之间的一致性”表示对所有的记录,两个模型预测结果相同的记录的统计信息。