数据挖掘期末复习整理
- 格式:pdf
- 大小:548.33 KB
- 文档页数:9
数据挖掘复习知识点整理超详细必考知识点:信息增益算法/ ID3决策树(计算) (详细见教材)使⽤朴素贝叶斯分类预测类标号(计算)FP-TREE(问答) (详细见教材)数据仓库的设计(详见第⼆章)(问答) (见PPT)数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材)BUC (这个也要考,但不记得怎么考的了)后向传播神经⽹络(名词解释)K-平均,K-中⼼点,DBSCAN解析特征化(这个也要考)总论数据挖掘:是从⼤量数据中发现有趣(⾮平凡的、隐含的、先前未知、潜在有⽤)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。
挖掘流程:(1)学习应⽤域(2)⽬标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展⽰(9)使⽤挖掘的知识概念/类描述:⼀种数据泛化形式,⽤汇总的、简洁的和精确的⽅法描述各个类和概念,通过(1)数据特征化:⽬标类数据的⼀般特性或特征的汇总;(2)数据区分:将⽬标类数据的⼀般特性与⼀个或多个可⽐较类进⾏⽐较;(3)数据特征化和⽐较来得到。
关联分析:发现关联规则,这些规则展⽰属性-值频繁地在给定数据集中⼀起出现的条件,通常要满⾜最⼩⽀持度阈值和最⼩置信度阈值。
分类:找出能够描述和区分数据类或概念的模型,以便能够使⽤模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经⽹络、贝叶斯、(遗传、粗糙集、模糊集)。
预测:建⽴连续值函数模型,预测空缺的或不知道的数值数据集。
孤⽴点:与数据的⼀般⾏为或模型不⼀致的数据对象。
聚类:分析数据对象,⽽不考虑已知的类标记。
训练数据中不提供类标记,对象根据最⼤化类内的相似性和最⼩化类间的原则进⾏聚类或分组,从⽽产⽣类标号。
第⼆章数据仓库数据仓库是⼀个⾯向主题的、集成的、时变的、⾮易失的数据集合,⽀持管理部门的决策过程。
数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
定义1:OLAP是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。
定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。
信息熵也称信源熵、平均自信息量。
二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。
数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。
数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。
数据挖掘期末笔记总结数据挖掘是一门研究如何通过大规模数据进行知识发现和模型构建的学科。
它是人工智能、机器学习和数据库技术的交叉学科,涉及数据预处理、特征选择、模型建立和模型评估等方面。
数据挖掘的任务包括分类、聚类、关联规则挖掘、异常检测和时序预测等。
本次期末笔记总结将从数据预处理、特征选择、聚类、分类和模型评估等方面进行概括。
1. 数据预处理数据预处理是数据挖掘的第一步,目的是将原始数据转化为适合进行挖掘的数据。
数据预处理包括数据清洗、数据集成、数据转换和数据规约。
数据清洗主要是处理缺失值、噪声和异常值;数据集成是将多个数据源合并成一个一致的数据集;数据转换是将数据转化为适合挖掘算法的形式;数据规约是简化数据,提高计算效率。
2. 特征选择特征选择是从所有可能的特征中选择出有用的特征,用于构建模型或进行数据分析。
特征选择的方法包括过滤法、包裹法和嵌入法。
过滤法是通过计算特征与目标变量之间的相关性来选择特征;包裹法是通过构建模型来评估特征的重要性;嵌入法是将特征选择嵌入到模型训练过程中,根据特征的权重来选择特征。
3. 聚类聚类是将相似的数据对象分组到同一个簇中的过程。
聚类可以用于数据的探索性分析、异常检测和市场细分等任务。
常用的聚类算法包括K均值聚类、层次聚类和密度聚类。
K均值聚类是一种基于距离度量的聚类算法,将数据点划分到K个簇中,使得每个数据点到所属簇的质心的距离最小化;层次聚类是一种通过不断地合并和拆分簇来构建聚类层次结构的算法;密度聚类是一种通过计算数据点的密度来进行聚类的算法。
4. 分类分类是基于已有的类别标签训练模型,然后预测新样本的类别标签。
分类是监督学习的一种形式,常用的分类算法包括决策树、朴素贝叶斯、支持向量机和神经网络。
决策树通过将数据集划分为不同的子集来构建一个预测模型;朴素贝叶斯通过计算事件发生的先验概率和条件概率来进行分类;支持向量机通过寻找一个超平面来将不同类别的数据分隔开;神经网络通过多个神经元的连接和激活函数的计算来进行分类。
【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”(B)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”(C)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”(C)A、搜索引擎返回的文档中,将相似的文档聚合成一类B、电子商务网站数据中,购物历史相似的用户自动聚合成一组C、电子商务网站数据中,分析出用户常常一起购买的商品,组合到一起促销D、在电子病历数据中,将体检指标相似的样本自动聚合成一组4、在MATLAB语言中,以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括(D)A、记录B、样本C、向量D、特征6、属性的别名不包括(B)A、特征B、样本C、字段D、维7、下列说法不正确的是(C)A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为:标称、序数、区间、比率这四种8、某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性(C)A、标称B、序数C、区间D、比率9、某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性(D)A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括(A)A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是(D)A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。
数据挖掘复习要点数据挖掘1.数据挖掘:从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中,提取隐含在其中的、⼈们事先不知道的,但⼜是潜在有⽤的信息和知识的过程。
(商业定义)按企业即定业务⽬标,对⼤量的企业数据进⾏探索和分析,揭⽰隐藏的、未知的或已知的规律,并进⼀步将其模型化的先进的有效⽅法。
2.数据挖掘的功能:描述和预测。
描述:刻画了数据库数据的⼀般特性;预测:在当前数据上进⾏分析,以此进⾏推断。
1)概念描述:通过对某类对象关联数据的汇总、分析和⽐较,对此类对象的内涵进⾏描述,并概括这类对象的有关特征。
2)多层次概念描述:将低层次概念集映射到⾼层次概念集的⽅法。
3)关联分析:⽬的是找出数据库中隐藏的关联⽹。
4)聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的⽅法。
5)分类:从数据库对象中发现共性,并将数据对象分成不同类别的⼀个过程。
6)偏差检测:偏差检测的基本⽅法是寻找观测结果与参照值之间有意义的差别。
7)孤⽴点分析:对于数据的⼀般⾏为或模型不⼀致的数据进⾏分析。
8)⾃动预测趋势和⾏为:针对具有时序属性的数据或者是序列项⽬的数据。
9)时序演变分析:寻找事件或对象⾏为随事件变化的规律或趋势,并以此来建⽴模型。
10)信息摘要:⼀种⾃动编制⽂摘的技术,即利⽤计算机将⼀篇⽂章浓缩成⼀篇短⽂的过程。
11)信息抽取:根据⼀个事先定义好的、描述所需信息规格的模板,从⾮结构化的⽂本中抽取相关信息的过程。
12)元数据挖掘,对元数据进⾏挖掘。
3.数据挖的掘步骤:1)确定业务对象;2)数据准备c)数据的转换a)数据的选择b)数据的预处理3)数据挖掘,对所得到的经过转换的数据进⾏挖掘。
4)结果分析,解释并评估结果;5)知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去。
4.数据挖掘的⼈员:1)业务分析⼈员,要求精通业务,能够解释业务对象,并根据各业务对象确定⽤于数据定义和挖掘算法的业务需要;2)数据分析⼈员,精通数据分析技术,并对统计学有较熟练的掌握,有能⼒把业务需求转化为数据挖掘的各步操作选择合适的技术;3)数据管理⼈员,精通数据管理技术,并从数据库仓库中收集数据。
数据挖掘课程复习提纲(4+0)有关考试题型:一、选择题(每题2 分,共16 分)二、判断题(每题1 分,共10 分)三、填空题(每空1 分,共19 分)四、简答题(每题5 分,共15 分)五、计算题(每题10 分,共40 分)基本要求:掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。
算法重点掌握k-means、一趟聚类、Appriori 及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、KNN分类的基本思想,基于聚类的离群点检测方法的思想。
第一章绪论1 数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
●聚类(Clustering)分析“物以类聚,人以群分”。
聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。
●分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。
分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。
聚类与分类的区别聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
●关联(Association)分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
第一章1.数据挖掘的定义?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?关系数据库数据仓库事务数据库高级数据3.数据挖掘的常用方法?聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?5.数据挖掘与数据仓库的关系?(联系和区别)联系:数据仓库为数据挖掘提供了更好的、更广泛的数据源;数据仓库为数据挖掘提供了新的支持平台;数据仓库为更好地使用数据挖掘工具提供了方便;数据挖掘为数据仓库提供了更好的决策支持;数据挖掘对数据仓库的数据组织提出了更高的要求;数据挖掘为数据仓库提供了广泛的技术支持。
区别:数据仓库是存数据,数据挖掘是用数据。
第二章1.数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策制定过程2.数据仓库数据的四大基本特征:面向主题的集成的不可更新的随时间变化的3.数据仓库体系结构有3个独立的数据层次:信息获取层、信息存储层、信息传递层4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多;(2) 影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为死哥级别:早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库涉及步骤概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
数据挖掘课程复习提纲(4+0 )有关考试题型:一、选择题(每题2 分,共16 分)二、判断题(每题1 分,共10 分)三、填空题(每空1 分,共19 分)四、简答题(每题5 分,共15 分)五、计算题(每题10 分,共40 分)基本要求:掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。
算法重点掌握k-means 、一趟聚类、Appriori及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、KNN 分类的基本思想,基于聚类的离群点检测方法的思想。
第一章绪论1 数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
聚类(Clustering)分析“物以类聚,人以群分”。
聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。
分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。
分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。
聚类与分类的区别聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
关联(Association) 分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。
对于学习者来说,掌握这两个领域的知识至关重要。
以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。
一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。
它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。
数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。
在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。
聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。
关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。
异常检测则是识别出与大多数数据不同的异常值。
数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。
在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。
数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。
模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。
模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。
最后,将性能良好的模型部署到实际应用中。
二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。
它可以分为监督学习、无监督学习和强化学习三大类。
监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。
线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。
无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。
《数据挖掘》总复习题1.数据挖掘系统可以根据什么标准进行分类?挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类2.知识发现过程包括哪些步骤?数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?一个概念分层定义一个映射序列,将底层概念到更一般的高层概念。
4.多维数据模型上的OLAP操作包括哪些?上卷、下钻、切片和切块、转轴、其它OLAP操作5.OLAP服务器类型有哪几种?关系OLAP(ROLAP)服务器、多维OLAP(MOLAP)服务器、混合OLAP(HOLAP)服务器、特殊的SQL服务器6.数据预处理技术包括哪些?数据清理、数据集成、数据变换、数据归约7.什么是数据清理?数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性8.什么是数据集成?数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。
这些源可能包括多个数据库、数据方或一般文件。
9.什么是数据归约?数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。
10.数据清理的内容包括哪些?遗漏值、噪音数据、不一致数据11.将下列缩略语复原OLAP——on-line analytical processingDM——data miningKDD——knowledge discovery in databasesOLTP——on-line transaction processingDBMS——database management systemDWT——discrete wavelet transform12.什么是数据挖掘?数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的,但又有潜在有用的信息和知识的过程。
13.什么是关联规则?什么是强关联规则?强关联规则都是有趣的吗?关联规则:关联规则挖掘寻找给定数据集中项之间的有趣联系。
数据挖掘知识点(考点)复习第6章的知识点 1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)2.数据挖掘的定义(P69)数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
第7章的知识点1.数据挖掘步骤(P74)确定目标、数据准备、数据挖掘、结果分析2.数据选择的内容(包括哪两部分)(P75)属性选择和数据抽样3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。
小规模数据:人工清理大数据集:自动清理(测定→识别→ 纠正)4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。
① 分类模式(用于离散值)② 回归模式(用于连续值)③ 聚类模式④ 关联模式⑤序列模式即将数据间的关联性事件发生的顺序联系起来。
⑥时间序列模式根据数据随时间变化的趋势预测将来的值。
5.模式的精确度(P79)训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。
训练和测试模式需将数据分成:一是训练数据,主要用于模式训练;另一个是测试数据,主要用于模式测试。
模式准确性的测试方法:封闭测试:测试集即训练模式的训练数据。
可测试模式的稳定性,但无法验证其推广能力。
开放测试:测试模式的数据是模式先前未见的数据。
可以很好地度量模式的准确度。
6.数据预处理的任务有哪些?(P83-89)数据清理、数据集成和转换7.空缺值的处理方法(P83-84)忽略该条记录(不很有效)、手工填补遗漏值(可行性差)、利用缺省值填补遗漏值(不推荐)数据库理论 数据仓库数据统计 机器学习 人工智能 数据挖掘利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值(较常用)8.分箱技术(P84-86) 分箱之前要做的工作?P84 分箱之前需要对记录按目标属性值的大小进行排序(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。
1·元数据:是关于数据仓库中数据的数据。
2·数据仓库中的元数据可以分为四类1)关于数据源的元数据:对不同平台上的数据源的物理结构和含义的描述;2)关于数据模型的元数据:描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础;3)关于数据仓库映射的元数据:反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换,变换和加载过程;4)关于数据仓库使用的元数据:数据仓库中信息的使用情况描述,这类元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。
3·数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题(如顾客、商品、销售、资产和人员)信息,因此是企业范围的。
对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模。
数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。
对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。
4·数据集市主要有两种结构:从属数据集市(数据直接来自于中央数据仓库)独立数据集市(数据直接来源于各生产系统)5·数据库与数据仓库的联系与区别?联系:数据仓库的出现,并不是要取代数据库。
可以说,数据库、数据仓库相辅相成、各有千秋。
区别:出发点不同(面向事物/面向主题)、存储的数据不同(实时数据/历史数据)、设计规则不同(范式/反范式)、提供的功能不同(捕获数据/分析数据)、基本元素不同(事实表/维表)、容量不同(GB/TB)、服务对象不同(业务处理人员/高层决策人员)。
6·粒度的作用:粒度越小,数据的综合程度越低,存储的数据越详细,需要的索引项越多,存储的数据量越大;回答查询的种类越多。
粒度越高,数据综合程度越高,需要的索引项越少,存储的数据量越小,查询的效率也越高7·数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
1.熟悉数据挖掘的流程:提示:1)业务理解2)数据理解3)数据准备4)建立模型5)模型评估6)模型发布2.数据库系统与数据仓库系统的区别:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。
数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。
3. 数据聚合需考虑的问题;4. 利用免费商品做促销的关联规则挖掘问题:1)找到免费商品的频繁1—项集,记为S1。
2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。
这是一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能节省一些不必要的计算开销。
如果我们有一个频繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。
这是因为任何其他商品加到这个频繁项里,价格肯定会增多。
需要检验的是超集是否是频繁的。
这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。
这样导致了将不能够发现满足约束条件的频繁项集。
FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。
3)从S1S2中找到频繁项集。
4)生成满足最小置信度且形如2S 的规则。
1S5.分布式数据的关联规则挖掘方法:第一.在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;第二.计算CF中每个频繁项集在各个站点的支持度计数;第三.计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;第四.从全局频繁项集里导出强规则。
6.急切分类、惰性分类的优缺点:急切分类比惰性分类在速度上要更快。
因为它在接受新的待测数据之前已经构造了一个概括的模型。
数据挖掘_复习总汇一名词解释1 . 数据挖掘:从大型数据库的数据中提取人们感兴趣的知识。
2.决策树:一个类似于流程图的树结构,内部节点表示一个属性(取值)上的测试,其分支代表每个结果;其每个叶子节点代表一个类别,树的最高节点就是根节点。
3.聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
4.数据分类:从数据库中发现数据对象的共性,并将数据对象分成不同的几类的一个过程。
5. 维:透视或关于一个组织想要记录的实体。
6. 多层次关联规则:一个关联规则的内容涉及不同抽象层次的内容。
7. 单层次关联规则:一个关联规则的内容涉及单一个层次的内容。
8.局外者:数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。
9. 数据仓库:一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决策制定。
10. 数据集市:数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。
11. 数据区别:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。
12. 数据特征化:目标类数据的一般特征或特性的汇总。
13. 噪声数据:指数据中存在错误、异常(偏离期望值)的数据。
14. 不完整数据:感兴趣的属性没有值。
15. 不一致数据:数据内涵出现不一致的情况。
16. 数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误。
17. 数据集成:将来自多个数据源的数据合并到一起构成一个完整的数据集。
18. 数据消减:通过删除冗余特征或聚类消除多余数据。
19. 数据转换:将一种格式的数据转换为另一种格式的数据。
20.分类:预测分类标号(或离散值),在分类属性中的训练样本集和值(类标号)的基础上分类,数据(建立模型)并使用它分类新数据。
21. 簇:是一组数据对象的集合(是由聚类所生成的)。
22. 数据源:是表明数据地址的联机字符串23. 数据源视图:是一个抽象层们能够让用户修改查看数据的方式,或者定义一个图表并在稍后转换实际的源。