第2章数据挖掘建模方法

格式：ppt
大小：407.00 KB
文档页数：28

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(1) 数据筛选 (2) 数据清理 (3) 数据构建 (4) 数据整理合并 (5) 规范化数据 (6) 准备建模数据集 (7) 选择建模技术和训练模型
9/27
2014-10-15
2.4 数据准备 (2)
(1) 数据筛选数据筛选的任务是确定数据挖掘分析过程中所必须的数据，即选择有用的特征和记录。
2014-10-15 资料来源： ) Michael J.A. Berry (美) Gordon S.Linoff 著. 数据挖掘技术：市场营销、销Baidu Nhomakorabea与客户关系管理领域应用. 4/27 (美机械工业出版社.2006.7
2.2 业务理解

业务理解是数据挖掘的第一个阶段，从业务的角度了解项目的要求和最终目的是什么，并将这些目的与数据挖掘的定义以及结果结合起来。具体任务包括：

为了评估模型，一般将建模数据集分成三个部分，即训练集、测试集和评估集。将数据的训练集作为最初用于建立模型的数据，用测试集和评估集来精化模型和评估模型。
14/27
2014-10-15
2.5 建模 (1)
2.5.1 成功建立预测模型的注意要点 2.5.2 如何建立有效的预测模型
15/27
2014-10-15
(4) 数据质量检测

检验数据质量，列举有关问题。例如数据是否完整、正确，是否存在缺失值，数值型变量的范围是否落在允许的范围内，变量的含义与变量值是否一致等质量问题。
8/27
2014-10-15
2.4 数据准备 (1)

数据准备阶段的工作是对可用的原始数据进行一系列的组织以及清洗等预处理，使之达到建模需求，而这些数据将是模型工具的输入值。数据准备阶段的任务有可能执行多次，并且没有任何规定的顺序。这个阶段其任务包括：

2/27
2014-10-15
2.1 概述 (2)

业务理解(Business Understanding) 数据理解(Data Understanding) 数据准备(Data Preparation) 建模(Modeling) 评估(Evaluation) 部署(Deployment)

在选择数据的时候，首先要考虑的问题是数据要符合解决企业问题的需要。再者，由于用于建模的数据应尽可能地完整，数据量尽可能多。当开发预测模型时，资料中也应该包括想要的输出。
10/27
2014-10-15
2.4 数据准备 (3)
(2) 数据清洗数据挖掘过程是否成功，得出的结果模型是否可靠，取决于数据质量的好坏。清理数据的任务恰恰是清理数据中包含的噪声和与数据挖掘主题明显无关的数据，从而提高数据的质量。清理数据通常包括：
2.5 建模 (2)

一个模型的好坏依赖于所选择的算法和使用的工具。一些工具可以生成许多不同的模型，而且可以自动从中选出最好的模型。可以选择多种不同的数据挖掘技术，每一种技术都有它的优缺点。实际应用时，需要根据数据挖掘的目的以及数据的特点选择数据挖掘的算法。数据挖掘中的建模是针对问题的特定对象，为了特定的数据挖掘目的，做出假设，运用适当的数据挖掘工具和其他科学工具建立模型，利用模型解释特定的现象和预测对象的未来状况。
12/27
2014-10-15
2.4 数据准备 (5)
(4) 数据整合数据整合的主要任务是将来自多数据源(例如数据库、文件等)的相关数据组合到一起，即把不同来源、格式、特点性质的数据在逻辑上或者物理上有机地集合在一起，使之更加有利于数据挖掘过程的实现。 (5) 数据规范化规格化数据就是将有关属性数据按比例缩放，使之落入一个特定的小范围内，以消除数值型数据因大小不一而造成的数据挖掘结果的误差。常用的规格化数据方法有三种：
(2) 数据描述

描述数据主要是熟悉数据，理解数据的内涵，检验数据的“总的”或者“表面的”特征。例如从商业的角度理解每个变量及其值的含义，变量的含义是否始终一致，变量是否与具体的数据挖掘目标相关联等。
7/27
2014-10-15
2.3 数据理解（3）
(3) 数据探索

探索数据主要是详细分析引人注目的变量特征，识别潜在的特征，思考和评估在描述数据过程中的信息和发现，提出假设并确定方案，阐明数据挖掘的目标。例如，电信公司想挖掘出移动业务之间的关联规则，那么，在描述数据后，根据数据的特征，选择各种可能相关的业务进行挖掘，对于显而易见的规则，则可以不作考虑。比如说开通上网功能的客户中绝大部分客户也开通了飞信业务，则在探索数据时，不需要考虑这两个业务之间的关联。

最大最小规格化 z-score规格化小数定标规格化
13/27
2014-10-15
2.4 数据准备 (6)
(6) 准备建模数据集

数据准备是在数据建模前对数据的最后一步进行处理，对数据进行上述处理后，还不能直接用于数据建模，还需要考虑到数据的稀疏程度。通常，对于稀疏的数据，最好选用15%~30%的比例来建模，例如：在建立欺诈检测模型时，欺诈记录的数据占比例很小。如果直接用这样的数据进行建模，那么，成功预测没有欺诈的可能性将会很高。但是这样得到的模型用处不大甚至完全无用。
3/27
2014-10-15
商业数据挖掘案例
某一家银行存在一个业务难题，他们的特别商业产品——家庭抵押贷款额度，不能吸引好的客户，家庭抵押贷款业务量低。为此，美国消费者资产协会决定与Hyperparallel 公司合作，采取数据挖掘方法来解决这个问题。根据CRISP-DM建模体系，第一阶段是业务理解。从这个案例来看，主要的业务问题是解决家庭抵押贷款的业务量。从业务角度上看，是否存在一些客户群体对家庭抵押贷款这项业务感兴趣，而这些客户群体又有什么共同的特征，客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见，他们认为可能使用家庭贷款业务的人群有两种：一种是有孩子上大学的家长，想通过家庭抵押贷款支付学费，另一种是高收入但收入不稳定的人，想通过家庭抵押贷款事、使其收入削峰填谷。经过上述的业务理解后，需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来，美国银行一直将数百万的零售客户数据存储在一个巨大的关系数据库中。关系数据库中的数据共有42个字段，每个记录保存了客户的详细信息。收集到原始数据后，需要根据问题识别数据有用的特征，检验数据的质量，对缺失的字段、数值型变量的取值范围等质量问题进行检验并作处理。然后，对这些数据进行筛选，转换，调整，规范化后，输入到公司数据仓库中。美国银行利用这个系统，能参透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征，然后采用Hyperparallel 公司的数据挖掘工具进行分析。经过数据挖掘工具的决策树功能，按照现有银行划分客户的规则，将客户分成两类，即可能或者不可能对提供家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据，决策树最终获得判定不同类型客户之间差别的规则。一旦发现规则，利用得到的模型可以给每个潜在客户记录增加一个属性，即好的潜在客户标志，就是由数据挖掘模型生成的。接着使用模式的查找工具，确定客户什么时候最有可能需要这种贷款。最后，使用聚类工具将具有相似属性的客户分成不同的组。在某一点上，数据挖掘工具发现了14个客户簇，其中很多簇似乎没有什么特别的发现。但是，有一个簇具有两个令人费解的特点：一是这个簇的39%的人不同时拥有企业和个人账户，二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者，上述簇中的客户有可能使用家庭抵押贷款来从事商业活动。利用数据挖掘的结果，美国消费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点，例如响应者并不能代表全部的人口，有些客户并非诚实对待调查等等，但是与现有客户和以前的客户进行面谈的时候，也可以深入了解其他方式无法得到的情况。对由数据挖掘产生的结果进行评估之后，美国银行制定部署运用方案，并且按照方案采取了相应的措施，最终，家庭抵押贷款的响应率从0.7%上升到了7%。
16/27
2014-10-15
2.5.1 成功建立预测模型的注意要点（1）
对于预测模型而言，当预言与结果相一致时，才能说明预言是有效的然而，要成功建立预测模型，需要注意以下三点： (1)预测模型的时间范围

在建立模型的过程中，首先需要训练模型，即用历史数据构建模型，进行预测，然后将模型应用于新的数据中从而生成结果，这个过程称为得分，它是用最新的数据来预测未来的结果。具体如图所示：

填补空缺的数据值。例如忽略有空缺值的记录；人工填写空缺值；使用一个全局变量填写空缺值；使用属性的均值填写空缺值。清理噪声数据。对于噪声数据有以下几种处理方法：一是分箱，二是聚类方法，通过聚类发现孤立点。三是计算机与人工相结合的方法，四是回归分析，建立回归方程。解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、含义不一致。可以通过对数据的统一调整进行解决。
(1) 业务梳理 (2) 业务描述 (3) 业务特征研究 (4) 业务关联分析
5/27
2014-10-15
2.3 数据理解（1）

数据理解阶段是从收集数据开始，通过一些活动的处理，目的是熟悉数据，识别数据的质量问题，首次发现数据的内部属性，或是探测引起兴趣的自己去形成隐含信息的假设。其任务包括：
商务数据挖掘与应用案例分析
0/27
2014-10-15
第2章数据挖掘建模方法
2.1 概述>> 2.2 业务理解>>
2.3 数据理解>>
2.4 数据准备>>
2.5 建模>>
2.6 评估>>
2.7 部署>>
1/27
2014-10-15
2.1 概述 (1)

成功的数据挖掘是让数据有商业价值，数据挖掘分析师需要知道什么对商业有价值，并且知道为了获得巨大收益如何整理数据。为了成功运用数据挖掘，对数据挖掘技术层面的理解至关重要，尤其是应该了解如何将数据变成有用信息的过程。本章主要介绍跨行业标准流程CRISP-DM(crossindustry standard process for data mining)。该模型将一个数据挖掘项目的生命周期分为业务理解、数据理解、数据准备、建模、评估和部署等6个阶段，这个流程为我们提供了一个数据挖掘所需步骤的完整概括。
17/27
2014-10-15
2.5.1 成功建立预测模型的注意要点（2）
(2)模型的使用有效期在建立预测模型的时候，还需要考虑模型的使用有效期问题，即模型使用有效期和模型预测有效期。

模型使用有效期是指在业务环境、技术手段、客户基础等相对稳定的条件下，可以继续使用之前建立的预测模型。但是随着时间的推移，这些条件可能会发生变化，因此，必须用新的数据构建新的模型，而不能用之前建立的模型进行预测。模型预测有效期是指预测结果应该在特定的时间内才有效。例如电信行业中预测某个特定季度或者特定月份的客户流失率。在这种情况下，需要对不同季度或者月份使用不同的预测。
(1) 数据收集 (2) 数据描述 (3) 数据探索 (4) 数据质量检测
6/27
2014-10-15
2.3 数据理解（2）
(1) 数据收集

在收集数据之前，需要根据业务问题明确数据挖掘过程需要哪些信息，哪些变量是必需的，哪些变量与数据挖掘目标不相关，然后根据选择的标准收集数据，检查是否所有的信息都确实可以利用来实现数据挖掘的目标。
11/27
2014-10-15
2.4 数据准备 (4)
(3) 数据构建数据构建包括建设性的数据准备工作，例如属性构造，多维数据组织(聚集)，数据泛化处理。

属性构造是指构造新的属性并添加到属性集中，以帮助提高数据挖掘的过程。多维数据组织(聚集)是指对数据进行汇总和聚集，采用切片、旋转等操作将原始数据按照多维立体形式组织成为不同层次、不同粒度、不同维度的聚集。数据泛化处理是指使用高层次的概念替换低层次的概念。例如短信业务替换各种不同种类的短信业务，使用国家替换城市。

第2章数据挖掘建模方法

相关主题

文档推荐

最新文档