数据挖掘原理与实践蒋盛益版期末复习

格式：docx
大小：872.61 KB
文档页数：26

下载文档原格式

汕头大学数据挖掘期末复习

汕头大学2019数据挖掘期末复习资料（浩军老师班）考试范围：数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型：简答题，复习请以实验相关内容为主数据挖掘课程的主要内容：1.数据挖掘概述2.数据预处理3.数据挖掘算法－关联分析4.数据挖掘算法－分类与预测5.数据挖掘算法－聚类分析一、数据挖掘概述什么是数据挖掘？数据挖掘概念：从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术（机器学习）的综合。

数据挖掘定义：数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据的特征：大容量、含噪音（不完全、不正确）、异质数据（多种数据类型混合的数据源，来自互联网的数据是典型的例子）数据挖掘有哪些步骤？1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型（分类、聚类、关联分析、离群点挖掘、标记等）5.分析模型的准确率6.找出影响模型准确率的因素，回到第3步迭代直到模型足够完美。

二、数据预处理数据预处理有哪些步骤？1.数据清理2.数据集成3.数据归约4.数据变换与数据离散化为什么要进行数据预处理？现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。

低质量的数据将导致低质量的挖掘结果。

1)现实世界的数据一般是脏的、不完整的和不一致的。

2)数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。

3) 高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。

数据的质量涉及的三个要素是？准确性，完整性和一致性。

现实世界的数据一般是脏的不完整的不一致的。

数据预处理技术可以改善数据的质量。

如何填充数据中存在的缺失值？1.忽略元组（删除）2.使用一个全局常量填充空缺值（例如NULL）3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值：使用属性的中心度量（如均值或者中位数或者众数（频率度量出现单峰）填充缺失值。

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策.2、聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘：文本数据挖掘（Text Mining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1：OLAP是针对特定问题的联机数据访问和分析。

通过对信息（维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。

定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

)7、概念描述：就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述8、信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?（1）区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”（B）A、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果B、在电子病历数据中，每一个样本有八个检测指标，每个样本还有一个医生诊断结果C、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果；算法自动得到这些样本的诊断结果D、在电子病历数据中，每一个样本有八个检测指标，医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”（C）A、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果B、在电子病历数据中，每一个样本有八个检测指标，每个样本还有一个医生诊断结果C、在电子病历数据中，每一个样本有八个检测指标，但是没有医生诊断结果；算法自动得到这些样本的诊断结果D、在电子病历数据中，每一个样本有八个检测指标，医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”（C）A、搜索引擎返回的文档中，将相似的文档聚合成一类B、电子商务网站数据中，购物历史相似的用户自动聚合成一组C、电子商务网站数据中，分析出用户常常一起购买的商品，组合到一起促销D、在电子病历数据中，将体检指标相似的样本自动聚合成一组4、在MATLAB语言中，以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括（D）A、记录B、样本C、向量D、特征6、属性的别名不包括（B）A、特征B、样本C、字段D、维7、下列说法不正确的是（C）A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中，同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为：标称、序数、区间、比率这四种8、某办公自动化系统中，采用出生年份表示雇员的年龄，这是什么类型属性（C）A、标称B、序数C、区间D、比率9、某学籍管理系统中，采用百分制表示学生分数，这是什么类型属性（D）A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括（A）A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是（D）A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因，可能是信息没有收集到，或者属性不适用于所有情况。

数据挖掘期末复习整理

50.监督学习（185）：分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行。
51.无监督学习（185）：又称为“聚类”，每个训练元组的类标号是未知的，并且要学习的类的个数或集合也可能事先不知道。
52.如何评价学习算法（187）：从以下几个方面评价：准确率、速度、鲁棒性、可升缩性、可解释性。
2.决策树（P189）:信息增益（192）例6-1；增益率（184）例6-2；
3.贝叶斯分类（P200）;贝叶斯定理（201）；朴素贝叶斯分类（202）；例6-4 P203
四．综合
1.数据挖掘产生的背景
答：随着信息科技的进步以及电子化时代的到来，人们以更快捷、更容易、更廉价的方式获取和存储数据，使得数据及信息量以指数方式增长。据粗略估计，一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数量以TB来计算。人们搜集的数据越来越多，剧增的数据背后隐藏着许多重要的信息，人们希望对其进行更高层次的分析，以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能，但无法发现数据背后隐藏的知识手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”，并且开始考虑：如何才能不被信息淹没？如何从中及时发现有用的知识、提高信息利用率？如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息？这给我们带来了另一些头疼的问题：
结果=（1-0.5）*6+0.5*7=6.5
25.五数概况（35）：由中位数，四分位数Q1和Q3,最小和最大观·测值组成，按一下序列写为：Minimun,Q1,Median,Q3,Maximum.
26.方差、标准差（35）：
N个观测值x1,x2………Xn的方差是：

数据挖掘期末复习

《数据挖掘》总复习题1．数据挖掘系统可以根据什么标准进行分类？挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类2．知识发现过程包括哪些步骤？数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3．什么是概念分层？一个概念分层定义一个映射序列，将底层概念到更一般的高层概念。

4．多维数据模型上的OLAP操作包括哪些？上卷、下钻、切片和切块、转轴、其它OLAP操作5．OLAP服务器类型有哪几种？关系OLAP(ROLAP)服务器、多维OLAP（MOLAP）服务器、混合OLAP(HOLAP)服务器、特殊的SQL服务器6．数据预处理技术包括哪些？数据清理、数据集成、数据变换、数据归约7．什么是数据清理？数据清理例程可以用于填充遗漏的值，平滑数据，找出局外者并纠正数据的不一致性8．什么是数据集成？数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储，如数据仓库中。

这些源可能包括多个数据库、数据方或一般文件。

9．什么是数据归约？数据归约技术，如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示，而使得信息内容的损失最小。

10．数据清理的内容包括哪些？遗漏值、噪音数据、不一致数据11.将下列缩略语复原OLAP——on-line analytical processingDM——data miningKDD——knowledge discovery in databasesOLTP——on-line transaction processingDBMS——database management systemDWT——discrete wavelet transform12．什么是数据挖掘？数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的人们事先不知道的，但又有潜在有用的信息和知识的过程。

13．什么是关联规则？什么是强关联规则？强关联规则都是有趣的吗?关联规则：关联规则挖掘寻找给定数据集中项之间的有趣联系。

数据挖掘期末复习提纲(整理版)

1.熟悉数据挖掘的流程：提示：1）业务理解2）数据理解3）数据准备4）建立模型5）模型评估6）模型发布2.数据库系统与数据仓库系统的区别：数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合，支持管理部门的决策过程：而数据库是面向具体操作的、单一的、实时的、更新的数据集合，支持管理机构日常操作的。

数据库系统的主要任务是执行联机事务和查询处理，这种系统称为OLTP系统，涵盖了组织机构的大部分日常操作；另一方面，数据仓库在数据分析和决策方面为用户和知识工人提供服务。

3. 数据聚合需考虑的问题;4. 利用免费商品做促销的关联规则挖掘问题：1）找到免费商品的频繁1—项集，记为S1。

2）使用FP增长算法生成那些价格不少于$200的频繁项集，记为S2。

这是一个单调约束，因此不必要在每一步使用“生成—测试”过程，这样能节省一些不必要的计算开销。

如果我们有一个频繁项价格至少￥200，则没必要对这个频繁项的任何超集进行测试。

这是因为任何其他商品加到这个频繁项里，价格肯定会增多。

需要检验的是超集是否是频繁的。

这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。

这样导致了将不能够发现满足约束条件的频繁项集。

FP增长算法不会有这样的问题，因为它保留了关于数据库的完整信息在一个树结构中。

3）从S1S2中找到频繁项集。

4）生成满足最小置信度且形如2S 的规则。

1S5.分布式数据的关联规则挖掘方法：第一．在每一个站点挖掘局部频繁项集，设CF为四个站点的局部频繁项集的并集；第二．计算CF中每个频繁项集在各个站点的支持度计数；第三．计算CF中每个项集的全局支持度计数，可以通过将它在四个站点的局部支持度计数累加起来；那些全局支持度大于支持度阀值的项集为频繁项集；第四．从全局频繁项集里导出强规则。

6.急切分类、惰性分类的优缺点：急切分类比惰性分类在速度上要更快。

因为它在接受新的待测数据之前已经构造了一个概括的模型。

数据挖掘期末复习资料

数据挖掘期末复习资料2009-02-21 20:38:37| 分类：读书笔记 | 标签： |字号大中小订阅题型：填空（20空）、判断（20分）、简答（5个：预处理方法、决策树、朴素贝叶斯过程、其他一些知识内容）、大题（算法：关联分析、分类、决策树、ID3算法、贝叶斯方法、A神经网络、聚类回归占得比较小）概述一、数据挖掘是一个多学科领域，具体涉及到哪些相关学科？数据库及相关领域知识。

二、什么是数据挖掘，产生的背景，典型的数据挖掘系统的主要成分？数据挖掘定义：数据挖掘是从存放在数据库，数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。

典型的数据挖掘系统的主要成分：1.数据库，数据仓库或其他信息库；2.数据库或数据仓库服务器：3.知识库；4.数据挖掘引擎；5.模式评估模块；6.图形用户界面。

三、数据挖掘的功能有哪些？数据挖掘功能-可以挖掘什么类型的模式。

数据挖掘任务：描述和预测。

描述性挖掘任务刻划数据库中数据的一般特性；预测性挖掘任务在当前数据上进行推断。

数据挖掘的功能——用于指定数据挖掘任务中要找的模式类型。

其模式类型介绍如下：（1）、概念/类描述：特征化和区分。

用汇总的、简洁的、精确的方式描述每个类和概念，称这种描述为类/概念描述，通过三种方式得到：1）数据特征化 2）数据区分 3）数据特征化和比较。

(2)关联分析：发现规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件。

关联规则的含义为：满足X中条件的数据库元组多半也满足Y中条件。

包括多维关联规则和单维关联规则。

(3)分类和预测：分类与预测是两种数据分析形式，它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。

分类是找出描述并区分数据类或概念的模型或函数，以便能用模型预测类标记未知的对象类。

如：可以构造一个分类模型来对银行贷款进行风险评估（安全或危险）；也可建立一个预测模型以利用顾客收入与职业（参数）预测其可能用于购买计算机设备的支出大小。

数据挖掘期末考试复习题(精).doc

1数据挖掘来源于机器学习2数据仓库是面向主题的集成的稳定的不同时间的数据集合，用于支持经营管理中决策制定过程；3元素据描述了数据仓库的数据和环境，遍及数据仓库的所有方面，是整个数据仓库的核心，4Codd将数据分析模型分为四类绝对模型解释模型思考模型或公式化；5数据立方体是在所以可能组合的维上进行分组聚集运算的总和；6 （数据质量）是（|数据仓库|）的成败关键; 7概括分析是探索者分析过程的第一步。

8.数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。

9.自组织网络以ART模型，Kohonen模型为代表，用于聚集类。

10.预测是利用历史数据找出变化规律，建立模型。

并用此模型来预测未来数据的种类，特征等；11调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

12 S Q L Server ssas提供了所以业务数据的同意整合试图，可以作为传统报表和数据挖掘，在线分析处理，关键性能指示器记分卡的基础13数据仓库的概念模型定义通常采用信息包括图法来进行设计；14关联规则的经典算法包括()()15分类关联规则16分类器设计阶段包含划分数据集，分类器构造，分类器测试；16雪花模型是对星型模型式维表的进一步层次化和规范化来消除冗余的数据；17数据处理通常分为两大类，联机事务处理，联机分析处理。

18数据抽取的两个常见类型是静态抽取和增量抽取；19维度表一般由主键,分类层次和描述属性组成。

20 ROLAp是基于关系数据库的OLAP实现，而MO L AP是基于多维数据机构组织的OLAP实现。

21数据仓库按照其开发过程，其关键环节包括数据抽取，数据存储，数据管理，数据表现。

2 2 KD D是从数据集中识别出有效的新颖的潜在有用的以及最终可理解的模式的高级处理过程。

2 3 遗传算法的基本要素问题编码：初始群体的设定：适应值函数的设计：遗传操作设计；控制参数设定：24数据集市数据集市是指具有特定应用的数据仓库，主要针对某个具有应用战与意义的应用或者具体部门级的应用，支持用户利用自己有的数据获得重要竞争的优势。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支，它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说，掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘，简单来说，就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储，更重要的是通过一系列的技术和方法，对数据进行深入分析和挖掘，以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中，我们根据已知的类别标签，将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组，而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系，例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段，需要对原始数据进行清理、转换和集成，以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法，对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型，并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能，如准确率、召回率、F1 值等。

最后，将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习，常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值，逻辑回归用于分类问题，决策树可以生成易于理解的规则，支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构，例如聚类算法（如 KMeans 聚类、层次聚类）和主成分分析（PCA）等。

数据挖掘原理与实践蒋盛益答案

习题参考答案第1 章绪论数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。

答：数据挖掘处理的对象是某一专业领域中积累的数据，对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。

数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据信息。

实际生活的例子：①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。

②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。

③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。

④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。

给出一个例子，说明数据挖掘对商务的成功是至关重要的。

该商务需要什么样的数据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？答：例如，数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。

随着各个电子商务网站的建立，企业纷纷地从“产品导向”转向“客户导向”，如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值，一直都是电子商务企业重要任务。

但是，传统的数据分析处理，如数据查询处理或简单的统计分析，只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作，却无法从现有的大量数据中挖掘潜在的价值。

而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法，对数据库中庞大的数据进行挖掘分析，然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等，从而使电子商务更好地进行客户关系管理，提高客户的忠诚度和满意度。

假定你是Big-University 的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。

《数据挖掘》复习

《数据挖掘》复习一、题型1、判断题15分2、单选题15分3、简单题15分4、综合题20分5、计算题35分（C5.0算法、感知机算法、Apriori算法，见练习题）二、考试大纲三、实验/作业评讲在教学过程的各个环节，从学生的出勤、日常表现、作业、测试、项目完成情况及完成质量、TOPCARES能力目标的实现情况等方面，对学生进行全方位的考核。

说明：四、知识点梳理，重点教学内容串讲名词解释数据挖掘(P6）、算法（P10）、MODELER中的节点(P13）、MODELER中的数据流(P14）、MODELER中的超节点（P18）、决策树分析(P104）、人工神经网络分析（P157）、关联分析（P207）、知识发现KDD（P6）主要概念DW产生的基础（P3）DW的基本过程包括(P6）DW能做什么(P7）DW得到的知识形式（P8）DW的算法分类（P10）MODELER的主窗口由哪几部分组成（P13）MODELER中数据流中的节点主要可实现哪些功能（P15)MODELER中数据流的操作主要包括哪几步（P15）MODELER中节点工具箱含由八大选项卡组织（P15）MODELER中通常数据挖掘的基本思路包括哪些过程（P19）MODELER中从数据挖掘角度看变量有哪7大类型（P26)，通过TYPE节点可以说明变量什么内容（P42）什么是“有指导学习”（P12、P104）？举例说明;决策树算法的核心问题有哪些（P106）？什么是信息熵（P57、P109）?（信息熵是连续型变量分箱ＭＤＬＰ算法和决策树C5。

0算法的核心）人工神经网络中主要有哪些网络种类（P156）神经网络中处理单元的内部结构图（P158）什么是感知机模型（P162）什么是Ｂ－Ｐ反向传播网络模型，由什么特点（P164)Apriority关联分析算法主要包括哪两大部分技术（P213)（产生频繁集、依据频繁集产生关联规则）决策树分析(P104)、人工神经网络分析（P157）、关联分析（P207）等数据挖掘方法主要用来解决什么问题（分类、预测、关联等）３、算法决策树C5.0算法、人工神经网络B—P感知机算法、关联分析Apriori算法五、典型例题分析（一)判断题，在每题后面正确打勾，错误打叉有高质的原始数据，才可能有高质量的数据挖掘结果。

汕头大学数据挖掘期末复习

汕头大学2019数据挖掘期末复习资料（浩军老师班）考试范围：数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型：简答题，复习请以实验相关内容为主数据挖掘课程的主要内容：1.数据挖掘概述2.数据预处理3.数据挖掘算法－关联分析4.数据挖掘算法－分类与预测5.数据挖掘算法－聚类分析一、数据挖掘概述什么是数据挖掘数据挖掘概念：从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术（机器学习）的综合。

数据的特征：大容量、含噪音（不完全、不正确）、异质数据（多种数据类型混合的数据源，来自互联网的数据是典型的例子）数据挖掘有哪些步骤1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型（分类、聚类、关联分析、离群点挖掘、标记等）5.分析模型的准确率6.找出影响模型准确率的因素，回到第3步迭代直到模型足够完美。

二、数据预处理数据预处理有哪些步骤1.数据清理2.数据集成3.数据归约4.数据变换与数据离散化为什么要进行数据预处理现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。

低质量的数据将导致低质量的挖掘结果。

1)现实世界的数据一般是脏的、不完整的和不一致的。

2)数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。

3) 高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。

数据的质量涉及的三个要素是准确性，完整性和一致性。

现实世界的数据一般是脏的不完整的不一致的。

数据预处理技术可以改善数据的质量。

如何填充数据中存在的缺失值1.忽略元组（删除）2.使用一个全局常量填充空缺值（例如NULL）3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值：使用属性的中心度量（如均值或者中位数或者众数（频率度量出现单峰）填充缺失值。

数据挖掘复习提纲

《数据挖掘》复习提纲第一章数据挖掘概述1、什么是数据挖掘从大量数据中挖掘有用的知识2、数据挖掘的动机数据丰富，信息贫乏3、数据挖掘的同义词从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等4、知识发现的过程1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示5、数据挖掘和知识发现是一回事吗？数据挖掘是知识发现过程的一个步骤6、数据挖掘可以挖掘的两类模式？描述性的数据挖掘，预测性的数据挖掘7、常用的数据挖掘技术？概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点（孤立点）分析,趋势和演变分析8、什么是离群点？离群点总是被抛弃的吗？离群点:一些与数据的一般行为或模型不一致的孤立数据。

通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论9、挖掘的所有模式都是有趣的吗？什么样的模式是有趣的？如何度量模式的有趣度？一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的易于理解，在某种必然程度上，对于新的或检验数据是有效的，是潜在有用的，是新颖的，符合用户确信的某种假设客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等.10、数据挖掘原语类型？任务相关的数据，挖掘的知识类型，背景知识，模式相关度度量，发现模式的可视化第二章数据预处理1、现实世界中的数据是“脏”的，主要体现在哪几个方面？数据为什么脏？不完整、含噪声和不一致不完全数据源于：数据收集时未包含，数据收集和数据分析时的不同考虑.，人/硬件/软件问题噪音数据源于：收集数据的设备可能出现故障，数据输入时人为录入错误，数据传输错误不一致数据源于：不同的数据源，数据代码不一致（日期格式）2、为什么要进行数据预处理？现实世界的数据一般是脏的、不完整的和不一致的。

数据挖掘期末考试重点

1·元数据：是关于数据仓库中数据的数据。

2·数据仓库中的元数据可以分为四类1) 关于数据源的元数据：对不同平台上的数据源的物理结构和含义的描述；2) 关于数据模型的元数据：描述了数据仓库中有什么数据以及数据之间的关系，它们是用户使用管理数据仓库的基础；3) 关于数据仓库映射的元数据：反映数据仓库中的数据项是从哪个特定的数据源填充的，经过哪些转换，变换和加载过程；4) 关于数据仓库使用的元数据：数据仓库中信息的使用情况描述，这类元数据能帮助用户到数据仓库查询所需要的信息，用于解决企业问题。

3·数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题（如顾客、商品、销售、资产和人员）信息，因此是企业范围的。

对于数据仓库，通常使用星座模式，因为它能对多个相关的主题建模。

数据集市是数据仓库的一个部门子集，它针对选定的主题，因此是部门范围的。

对于数据集市，流行星型或雪花模式，因为它们都适合对单个主题建模。

4·数据集市主要有两种结构：从属数据集市 (数据直接来自于中央数据仓库)独立数据集市 (数据直接来源于各生产系统)5·数据库与数据仓库的联系与区别?联系：数据仓库的出现，并不是要取代数据库。

可以说，数据库、数据仓库相辅相成、各有千秋。

区别：出发点不同（面向事物/面向主题）、存储的数据不同（实时数据/历史数据）、设计规则不同（范式/反范式）、提供的功能不同（捕获数据/分析数据）、基本元素不同（事实表/维表）、容量不同（GB/TB）、服务对象不同（业务处理人员/高层决策人员）。

6·粒度的作用：粒度越小，数据的综合程度越低，存储的数据越详细，需要的索引项越多，存储的数据量越大；回答查询的种类越多。

粒度越高，数据综合程度越高，需要的索引项越少，存储的数据量越小,查询的效率也越高7·数据集市（data marts）通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。

数据挖掘考试重点复习

1.了解商务智能的定义与大数据的四个基本特征；答：商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征： 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层：也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层：也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层：该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层：该层是数据存储和前端分析工具的桥梁⑤前端展现层：用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注：我觉得写括号里的会好一点四方面特征：①面向主题：主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性：在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性：数据仓库随时间变化不断增加新的数据..④相对稳定性：数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备：从各种数据源中选取和集成用于数据挖掘的数据；2规律寻找：用某种方法将数据中的规律找出来；3规律表示：用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离；L2norm当r=2;欧几里得距离；L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注：那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质：越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质：熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0；当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述：点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件：训练集存在内存中；给定距离度量指标；给定K值分类过程：1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因（1）噪声导致的过分拟合（2）决策树的复杂程度超过了需要的程度;会产生过度拟合（3）训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合（4）没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例；置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义：如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项：1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意：{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意：不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤：1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度：N2倍空间复杂度：N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类：中心点：中心点领域范围内的点的个数≥临界值MinPts边界点：边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点：既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章数据挖掘定义技术层面：数据挖掘就是从大量数据中，提取潜在有用的信息和知识的过程。

商业层面：数据挖掘就是一种商业信息处理技术，其主要特点是对大量业务数据进行抽取、转换、分析和建模处理，从中提取辅助商业决策的关键性数据。

数据挖掘任务预测任务根据其它属性的值预测特定属性的值，如分类、回归、离群点检测。

描述任务寻找概括数据中潜在联系的模式，如聚类分析、关联分析、演化分析、序列模式挖掘。

(1) 分类(Classification)分析分类分析，通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用此分类规则对其它数据库中的记录进行分类。

分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。

(2) 聚类(Clustering)分析“物以类聚，人以群分”。

聚类分析技术试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类中。

聚类可以帮助决定哪些组合更有意义，广泛应用于客户细分、定向营销、信息检索等等。

(3) 回归(Regression )分析回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。

其可应用于风险分析、作文自动评分等领域。

(4) 关联(Association)分析关联分析，发现特征之间的相互依赖关系，通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

关联分析广泛用于市场营销、事务分析等领域。

聚类与分类的主要区别聚类与分类是容易混淆的两个概念，聚类是一种无指导的观察式学习，没有预先定义的类。

而分类问题是有指导的示例式学习，预先定义的类。

数据挖掘过程数据挖掘和知识发现紧密相连。

知识发现是从数据中发现有用知识的整个过程⏹知识发现的主要步骤：⏹数据清洗。

其作用是清除数据噪声和与挖掘主题明显无关的数据。

⏹数据集成。

其作用是将来自多数据源中的相关数据组合到一起。

⏹数据转换。

其作用是将数据转换为易于进行数据挖掘的数据存储形式。

⏹数据挖掘。

其作用是利用智能方法挖掘数据模式或规律知识。

⏹模式评估。

其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。

⏹知识表示。

其作用是利用可视化和知识表达技术，向用户展示所挖掘的相关知识从商业的角度看，数据挖掘过程可分为三个阶段数据收集：数据收集容易且不引人注意，但却是数据挖掘的基础。

知识是从海量数据里提取出来的，因此要挖掘知识必须得收集一定量的数据。

收集到的原始数据一般存在缺失值、错误值等问题，不能直接用作知识提取的数据源，需要进行数据预处理。

知识提取：基于经过预处理的数据，使用各种数据挖掘方法(如分类、聚类、关联分析等)进行知识提取，这是数据挖掘的核心部分。

知识辅助决策：数据挖掘技术已被广泛地应用于各领域，其提取出来的知识可以很好地辅助决策者做出良好的决策第二章数据统计特征数据的中心度量1数据集“中心”的最常用、最有效的数值度量是(算术)均值(mean)。

2设x1, x2,…, x N是N个值的集合，则该值集的均值定义为：截断均值：指定0和100间的百分位数p，丢弃高端和低端(p/2)%的数据，然后用常规方法计算均值，所得的结果即是截断均值。

中位数是p=100%时的截断均值，而标准均值是对应于p=0%的截断均值。

例：计算{1,2,3,4,5,90}值集的均值，中位数和p=40%的截断均值.解：均值是17.5，中位数是3.5，p=40%时的截断均值也是3.5数据预处理⏹数据清理⏹数据集成⏹数据变换⏹数据归约⏹数据离散化数据清理——噪声数据的平滑方法⏹目前噪声数据的平滑方法包括：⏹分箱：分箱方法通过考察“邻居”(即周围的值)来平滑有序数据的值。

⏹聚类：聚类将类似的值组织成群或“簇”。

⏹回归：让数据适合一个函数来平滑数据。

数据平滑实例⏹一组排序后的数据(单位：元)：4，8，15，21，21，24，25，28，34⏹划分为等深的箱❑箱1：4，8，15❑ 箱2：21，21，24 ❑ 箱3：25，28，34⏹ 用箱平均值进行平滑❑ 箱1：9，9，9（下同）⏹ 用箱的边界进行平滑❑ 箱1：4，4，15 ❑ 箱2：21，21，24 ❑ 箱3：25，25，34数据变换——规范化⏹ 最小-最大规范化：aa av vmin max min '--=，优点：计算简单⏹ Z -score 规范化: aadev d s mean v v （）_tan '-=, a mean 是均值，a dev d s _tan 为标准差⏹ 小数定标规范化: 的最小整数1|)v (| max 是使j 其中，,10''<=jvv离散属性间的相关性计算❑ 离散型数据间相关性计算（互信息）⏹ 特征x 的信息熵⏹ 已知变量y 后x 的条件信息熵⏹ 信息增益数据对象之间的相异度⏹ 距离：❑ 欧几里得距离∑=-=nkk k y x y x d 12)(),(其中，n 的维数（总特征数），X k 和Y k 分别表示X 和Y 的第k 个分量❑ 闵可夫斯基(Minkowski )距离xnk x k k q p dist 11)||(∑=-=❑ x =1,城市块（曼哈顿）距离 ❑ x =2,欧几里得距离❑ x =∞,切比雪夫(Chebyshev)距离二值属性⏹ 二元数据相似性度量 M 01 = x 取0并且y 取1的属性的个数 M 10 = x 取1并且y 取0的属性的个数 M 00 = x 取0并且y 取0的属性的个数 M 11 = x 取1并且y 取1的属性的个数⏹ 简单匹配系数(Simple Matching Coefficient,SMC)： SMC = 值匹配的属性个数 /属性个数 = (M 11 + M 00) / (M 01 + M 10 + M 11 + M 00)⏹ Jaccard 系数 J = 匹配的个数 /不涉及0-0匹配的属性个数 = (M 11) / (M 01 + M 10 + M 11)例子X = （1 0 0 0 0 0 0 0 0 0） Y = （ 0 0 0 0 0 0 1 0 0 1）M 01 = 2 (x 取0并且y 取1的属性的个数) M 10 = 1 (x 取1并且y 取0的属性的个数) M 00 = 7 (x 取0并且y 取0的属性的个数) M 11 = 0 (x 取1并且y 取1的属性的个数)SMC = (M 11 + M 00)/(M 01 + M 10 + M 11 + M 00) = (0+7) / (2+1+0+7) = 0.7 J = M 11 / (M 01 + M 10 + M 11) = 0 / (2 + 1 + 0) = 02.18 以下表格包含了属性name ，gender ，trait -1，trait -2，trait -3，及trait -4，这里的name 是对象的id ，gender 是一个对称的属性，剩余的trait 属性是不对称的，描述了希望找到的笔友的个人特点。

假设有一个服务是试图发现合适的笔友。

对不对称的属性的值，值P 被设为1，值N 被设为0。

假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。

(a)计算对象间的简单匹配系数；SMC(Keavn,Caroline)=(2+2)/(0+0+2+2)=1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b)计算对象间的Jaccard 系数；Jaccard(Keavn,Caroline)=2/(2+0+0)=1Jaccard(Keavn,Erik)=0/(0+2+2)=0Jaccard(Caroline,Erik)=0/(0+2+2)=0(c)你认为哪两个人将成为最佳笔友？哪两个会是最不能相容的？根据属性的匹配程度，Keavn和Caroline将成为最佳笔友，Caroline和Erik会是最不能相容的（d）假设我们将对称变量gender包含在我们的分析中。

基于Jaccard系数，谁将是最和谐的一对？为什么？若将对称变量gender包含在分析中，设值M被设为1，值F被设为0，Jaccard(Keavn,Caroline)=2/(2+1+0)=2/3Jaccard(Keavn,Erik)=1/(1+2+2)=1/5Jaccard(Caroline,Erik)=0/(0+2+3)=0因为Jaccard(Keavn,Caroline)最大，因此，Keavn和Caroline是最和谐的一对。

第三章分类的定义❑分类是数据挖掘中的一种主要分析手段❑分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，如：分类与回归的区别❑分类和回归都有预测的功能，但是：⏹分类预测的输出为离散或标称的属性；⏹回归预测的输出为连续属性值；❑分类与回归的例子：⏹预测未来某银行客户会流失或不流失，这是分类任务；⏹预测某商场未来一年的总营业额，这是回归任务。

分类与聚类的区别❑分类因为使用了类标号属性，属于有监督的学习方法❑聚类，事先没有使用任何类标号信息，属于无监督的学习方法决策树的基本概念⏹决策树(Decision Tree)是一种树型结构，包括：决策节点(内部节点)、分支和叶节点三个部分。

⏹其中：❑决策节点代表某个测试，通常对应于待分类对象的某个属性，在该属性上的不同测试结果对应一个分支。

❑ 叶节点存放某个类标号值，表示一种可能的分类结果。

❑ 分支表示某个决策节点的不同取值。

❑ 决策树可以用来对未知样本进行分类，分类过程如下：从决策树的根节点开始，从上往下沿着某个分支往下搜索，直到叶结点，以叶结点的类标号值作为该未知样本所属类标号。

决策树的属性选择⏹ 虽然可以采用任何一个属性对数据集进行划分，但最后形成的决策树会差异很大。

需要寻找合适的属性选择方法。

⏹ 属性选择是决策树算法中重要的步骤，常见的属性选择标准包括信息增益和Gini 系数。

❑ 信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。

❑ Gini 系数是一种不纯度函数，用来度量数据集的数据关于类的纯度。

获得大小合适的树⏹ 决策树学习的目的是希望生成能够揭示数据集结构并且预测能力强的一棵树，在树完全生长的时候有可能预测能力反而降低，为此通常需要获得大小合适的树。

⏹ 一般来说有两种获取方法:❑ 一种为定义树的停止生长条件,常见条件包括最小划分实例数、划分阈值和最大树深度等。

❑ 另一种方法是对完全生长决策树进行剪枝，方法是对决策树的子树进行评估，若去掉该子树后整个决策树表现更好，则该子树将被剪枝。

ID3分类算法⏹ 它使用信息增益(information gain)作为属性的选择标准。

数据挖掘原理与实践蒋盛益版期末复习

合集下载

汕头大学数据挖掘期末复习

数据挖掘考试复习资料

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

数据挖掘期末复习整理

数据挖掘期末复习

数据挖掘期末复习提纲(整理版)

数据挖掘期末复习资料

数据挖掘期末考试复习题(精).doc

数据挖掘与机器学习复习资料

数据挖掘原理与实践蒋盛益答案

《数据挖掘》复习

汕头大学数据挖掘期末复习

数据挖掘复习提纲

数据挖掘期末考试重点

数据挖掘考试重点复习

文档推荐

最新文档