数据挖掘复习题纲
- 格式:doc
- 大小:1.72 MB
- 文档页数:11
《数据挖掘》复习提纲第一章数据挖掘概述1、什么是数据挖掘从大量数据中挖掘有用的知识2、数据挖掘的动机数据丰富,信息贫乏3、数据挖掘的同义词从数据中挖掘知识,知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获、资料勘探等等4、知识发现的过程1.数据清理2.数据集成3.数据选择4.数据变换5.数据挖掘6.模式评估7.知识表示5、数据挖掘和知识发现是一回事吗?数据挖掘是知识发现过程的一个步骤6、数据挖掘可以挖掘的两类模式?描述性的数据挖掘,预测性的数据挖掘7、常用的数据挖掘技术?概念/类描述: 特性化和区分,挖掘频繁模式、关联和相关,分类和预,聚类分析,离群点(孤立点)分析,趋势和演变分析8、什么是离群点?离群点总是被抛弃的吗?离群点:一些与数据的一般行为或模型不一致的孤立数据。
通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论9、挖掘的所有模式都是有趣的吗?什么样的模式是有趣的?如何度量模式的有趣度?一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的易于理解,在某种必然程度上,对于新的或检验数据是有效的,是潜在有用的,是新颖的,符合用户确信的某种假设客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性等.10、数据挖掘原语类型?任务相关的数据,挖掘的知识类型,背景知识,模式相关度度量,发现模式的可视化第二章数据预处理1、现实世界中的数据是“脏”的,主要体现在哪几个方面?数据为什么脏?不完整、含噪声和不一致不完全数据源于:数据收集时未包含,数据收集和数据分析时的不同考虑.,人/硬件/软件问题噪音数据源于:收集数据的设备可能出现故障,数据输入时人为录入错误,数据传输错误不一致数据源于:不同的数据源,数据代码不一致(日期格式)2、为什么要进行数据预处理?现实世界的数据一般是脏的、不完整的和不一致的。
数据挖掘技术算数计算4*10’简答4*10‘(共四套试题共16个简答)五、谈谈你对DM技术及应用的看法●类知识(Class)刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。
●有两个基本的方法来挖掘类知识:分类:分类是数据挖掘中的一个重要的目标和任务,是目前的研究和应用最多的分支之一。
∙分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。
∙分类技术是一种有指导的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。
聚类:数据挖掘的目标之一是进行聚类分析。
∙聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。
∙聚类属于无指导学习(Unsupervised Learning)),当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇(Cluster)。
聚类分析生成的类标识刻画了数据所蕴涵的类知识。
⏹定义(项目集的支持度). 给定一个全局项目集I和数据库D,一个项目集I1⊆I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support(I1)=|| {t∈D | I1⊆t}|| / || D||。
⏹定义(频繁项目集).给定全局项目集I和数据库D ,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。
在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集:)或最大大项目集(Maximum Large Iitemsets)。
k m-1support 规则(是否是强规则)1 235 23 100% 50% 23⇨5(是)2 235 2 67% 50% 2⇨35(否)3 235 3 67% 50% 3⇨25(否)4 235 25 67% 50% 25⇨3(否)5 235 5 67%50% 5⇨23(否)100%50%35⇨2(是)因此生成的决策树完全与训练例子拟合。
数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
定义1:OLAP是针对特定问题的联机数据访问和分析。
通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。
定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。
信息熵也称信源熵、平均自信息量。
二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。
数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。
一、1.2 数据仓库与数据库有何不同?它们有哪些相似之处?简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合式的规则来设计,数据仓库在设计是有意引入冗余,采用反式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段所有的有效数据。
这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。
华南理工大学《数据挖掘》复习资料【英文缩写】BI(商务智能): Business IntelligenceOLAP(联机分析处理): Online Analytical ProcessingOLTP(联机事务处理): Online Transaction ProcessingETL(提取/变换/装入): Extraction/Transformation/Loading KDD(数据中的知识发现):Knowledge Discovery in DatabasesLecture 1.【知识发现的主要过程】(1)数据清理(消除噪声和不一致的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作)(5)数据挖掘(基本步骤,使用只能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别表示只是的真正有趣的模式)(7)知识表示(使用可视化和只是表示技术,向用户提供挖掘的知识)【挖掘的知识类型】(1)概念描述:特征划与区分(概化、摘要、以及对比数据特征)(2)关联(相关性或者因果关系)(3)分类与预测:对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析:类标识符是未知的,把数据分成不同的新类,使得同一个类中的元素具有极大的相似性,不同类元素的相似性极小。
(5)趋势与偏差分析:序列模式挖掘(6)孤立点分析:孤立点,不符合该类数据的通用行为的数据,不是噪声或异常。
【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘(Web日志挖掘):在分布式信息环境下捕获用户访问模式(2)权威Web页面分析:根据Web页面的重要性、影响和主题,帮助对Web页面定秩(3)自动Web页面聚类和分类:给予页面的内容,以多维的方式对Web页面分组和安排(4)Web社区分析:识别隐藏的Web社会网络和社团,并观察它们的演变Lecture 2.【为什么需要数据预处理】现实世界中的数据很“脏”,具有以下特性:(1)不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据(2)含噪声的: 包含错误或存在孤立点(3)不一致的: 在名称或代码之间存在着差异数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
数据挖掘基础题库
以下是一些关于数据挖掘基础的常见问题,可以用作题库的一部分。
这些问题涵盖了数据挖掘的基本概念、技术和应用。
可以根据需要进行修改或扩展。
1.数据挖掘的定义是什么?它在实际应用中起到什么作用?
2.请解释数据挖掘的主要任务和目标。
3.什么是数据预处理,为什么在数据挖掘中它是一个重要的步骤?
4.解释数据挖掘中的特征选择和特征提取的区别。
5.什么是关联规则,在数据挖掘中如何应用关联规则?
6.解释聚类和分类在数据挖掘中的用途,并提供它们之间的区别。
7.什么是决策树,如何使用决策树进行分类?
8.请解释支持向量机(SVM)在数据挖掘中的作用。
9.数据挖掘中常用的评估指标有哪些,它们分别用于什么场景?
10.什么是异常检测,为什么在数据挖掘中它是一个重要的任务?
11.解释交叉验证在数据挖掘中的作用。
12.数据挖掘与机器学习的关系是什么?它们有哪些相似之处和区别?
13.什么是时间序列分析,在数据挖掘中如何应用时间序列分析?
14.请解释朴素贝叶斯分类器的基本原理。
15.解释深度学习在数据挖掘中的作用,并提供一些常见的深度学习模型。
这些问题旨在涵盖数据挖掘的基础知识和技术。
数据挖掘课程复习提纲(4+0)有关考试题型:一、选择题(每题2 分,共16 分)二、判断题(每题1 分,共10 分)三、填空题(每空1 分,共19 分)四、简答题(每题5 分,共15 分)五、计算题(每题10 分,共40 分)基本要求:掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。
算法重点掌握k-means、一趟聚类、Appriori 及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、KNN分类的基本思想,基于聚类的离群点检测方法的思想。
第一章绪论1 数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
●聚类(Clustering)分析“物以类聚,人以群分”。
聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。
●分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。
分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。
聚类与分类的区别聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
●关联(Association)分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
第一章数据挖掘概论1.什么是数据挖掘?数据挖掘(Data Mining DM)从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识数据挖掘的替换词数据库中的知识挖掘、知识发现(KDD)知识提炼、数据/模式分析数据考古数据捕捞、信息收获等等2.KDD的步骤数据清理: (这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示3.体系结构:典型数据挖掘系统4.数据挖掘的主要功能概念/类描述: 特性化和区分归纳,总结和对比数据的特性。
关联分析发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。
分类和预测通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。
聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。
孤立点分析通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
趋势和演变分析描述行为随时间变化的对象的发展规律或趋势5.数据挖掘系统与DB或DW系统的集成方式不耦合松散耦合半紧密耦合紧密耦合概念P23第三章数据仓库和OLAP技术1.什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义.“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库构造方面的领头设计师)2.数据仓库关键特征数据仓库关键特征一——面向主题数据仓库关键特征二——数据集成数据仓库关键特征三——随时间而变化数据仓库关键特征四——数据不易丢失3.数据仓库与异种数据库集成传统的异种数据库集成:在多个异种数据库上建立包装程序和中介程序采用查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器缺点:复杂的信息过虑和集成处理,竞争资源数据仓库: 采用更新驱动将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析高性能.4.从关系表和电子表格到数据立方体数据仓库和数据仓库技术基于多维数据模型。
第一章1.数据挖掘的定义?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?关系数据库数据仓库事务数据库高级数据3.数据挖掘的常用方法?聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?5.数据挖掘与数据仓库的关系?(联系和区别)联系:数据仓库为数据挖掘提供了更好的、更广泛的数据源;数据仓库为数据挖掘提供了新的支持平台;数据仓库为更好地使用数据挖掘工具提供了方便;数据挖掘为数据仓库提供了更好的决策支持;数据挖掘对数据仓库的数据组织提出了更高的要求;数据挖掘为数据仓库提供了广泛的技术支持。
区别:数据仓库是存数据,数据挖掘是用数据。
第二章1.数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策制定过程2.数据仓库数据的四大基本特征:面向主题的集成的不可更新的随时间变化的3.数据仓库体系结构有3个独立的数据层次:信息获取层、信息存储层、信息传递层4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多;(2) 影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为死哥级别:早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库涉及步骤概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
数据挖掘课程复习提纲(4+0 )有关考试题型:一、选择题(每题2 分,共16 分)二、判断题(每题1 分,共10 分)三、填空题(每空1 分,共19 分)四、简答题(每题5 分,共15 分)五、计算题(每题10 分,共40 分)基本要求:掌握数据预处理、分类、聚类、关联分析、离群点检测的基本方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。
算法重点掌握k-means 、一趟聚类、Appriori及基于密度的离群点检测方法;掌握决策树分类(C4.5、CART)、KNN 分类的基本思想,基于聚类的离群点检测方法的思想。
第一章绪论1 数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。
商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。
描述任务:寻找概括数据中潜在联系的模式,如关联分析、聚类分析、序列模式挖掘。
聚类(Clustering)分析“物以类聚,人以群分”。
聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
聚类分析可以帮助判断哪些组合更有意义,聚类分析已广泛应用于客户细分、定向营销、信息检索等领域。
分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其它记录进行分类。
分类分析已广泛应用于用户行为分析(受众分析)、风险分析、生物科学等领域。
聚类与分类的区别聚类问题是无指导的:没有预先定义的类。
分类问题是有指导的:预先定义有类。
关联(Association) 分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
数据仓库与数据挖掘复习题1、什么是数据仓库?数据仓库的特点有哪些?2、简述数据仓库的四种体系结构的异同点及其适用性。
3、什么是数据仓库的三层结构?什么是数据ETL过程?星型模式的定义与特征是什么?4、什么是信息包图法?请画出Adventure Works Cycles公司销售情况的信息包图法。
(1)获取各个业务部门对业务数据的多维特性分析结果,确定影响销售额的维度,包括时间、区域、产品和客户等维度。
(2)对每个维度进行分析,确定维度与类别之间的传递和映射关系,如在Adventure Works业务数据库中,时间维有年度,季度,月和日等级别,而区域分为国家、省州、城市和具体的销售点。
(3)确定用户需要的度量指标体系,这里以销售情况作为事实依据确定的销售相关指标包括实际销售额、计划销售额和计划完成率等。
5、设定,使用Aprori算法完成下表所示的数据集关联规则的挖掘。
交易号TID 商品ItemsT1 A B CT2 A CT3 A DT4 B E F6、对于下表所示的数据集,利用决策树ID3算法构造决策树。
Age Salary Class<=40 High C1<=40 High C1<=40 Low C241~50 High C1<=40 Low C2>50 Low C1>50 Low C1>50 High C241~50 High C17、给定训练集为,其中,每个训练样本是一个二维特征微量;为类标号,即训练集中的数据样本包含两个类别。
现有:+1+1+1-1-1-1-1分别用最近邻分类方法、k—近邻分类方法(k=3)对x8进行分类。
8样本序号描述属性1 描述属性2x1 6 4X2 7 5X3 6 3X4 4 6X5 3 89、计算有酒精味、头疼、X射线检查呈阳性时,患脑瘤的概率,也就是计算P(BT|SA,HA,PX)。
10对象x 属性1 属性2 属性31 1 1 32 1 1 33 2 1 14 3 2 2P(PT) P(BT)True 0.2 0.001False 0.8 0.999P(HO|PT) PT=T PT=FTrue 0.7 0False 0.3 1P(SA|HO) HO=T HO=FTrue 0.8 0.1False 0.2 0.9 P(PX|BT) BT=T BT=FTrue 0.98 0.01False 0.02 0.99P(HA|HO,BT) HO=T HO=FBT=T BT=F BT=T BT=FTrue 0.99 0.7 0.9 0.02False 0.01 0.3 0.1 0.985 3 2 16 2 1 2令,求:(1)由分别形成的等价划分。
数据挖掘考试题库及答案一、单项选择题1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-均值D. 神经网络答案:C3. 在数据挖掘中,哪个指标用于衡量分类模型的性能?A. 准确率B. 召回率C. F1分数D. 所有以上答案:D4. 以下哪个不是数据挖掘中的聚类算法?A. K-均值B. DBSCANC. AprioriD. 层次聚类答案:C5. 在关联规则挖掘中,哪个算法是最著名的?A. AprioriB. FP-GrowthC. EMD. K-均值答案:A二、多项选择题6. 数据挖掘过程中可能需要进行的预处理步骤包括哪些?A. 缺失值处理B. 异常值检测C. 数据标准化D. 特征选择答案:ABCD7. 以下哪些是监督学习算法?A. 线性回归B. 逻辑回归C. 决策树D. K-均值答案:ABC8. 在数据挖掘中,以下哪些是评估模型性能的指标?A. 精确度B. 召回率C. 混淆矩阵D. ROC曲线答案:ABCD9. 以下哪些是无监督学习算法?A. K-均值B. 主成分分析C. 自动编码器D. 支持向量机答案:ABC10. 在数据挖掘中,以下哪些是特征工程的步骤?A. 特征提取B. 特征选择C. 特征转换D. 特征降维答案:ABCD三、填空题11. 数据挖掘中的________是指从大量数据中提取模式或知识的过程。
答案:知识发现12. 在分类问题中,________是指模型预测正确的样本数量占总样本数量的比例。
答案:准确率13. 在聚类分析中,________是一种基于密度的聚类算法,它将具有足够高密度的区域划分为一个簇。
答案:DBSCAN14. 在关联规则挖掘中,________算法通过减少候选项集来提高挖掘效率。
答案:FP-Growth15. 在数据挖掘中,________是指通过算法自动从数据中学习并构建模型的过程。
数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-meansD. 神经网络答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现以下哪种类型的模式?A. 频繁项集B. 异常检测C. 聚类D. 预测答案:A4. 以下哪个指标用于评估分类模型的性能?A. 准确率B. 召回率C. F1分数D. 以上都是答案:D5. 在数据挖掘中,过拟合是指模型:A. 过于复杂,无法泛化到新数据B. 过于简单,无法捕捉数据的复杂性C. 无法处理缺失值D. 无法处理异常值答案:A6. 以下哪个算法是用于异常检测的?A. AprioriB. K-meansC. DBSCAND. ID3答案:C7. 在数据挖掘中,哪个步骤是用于减少数据集中的噪声和不相关特征?A. 数据预处理B. 数据探索C. 数据转换D. 数据整合答案:A8. 以下哪个是时间序列分析中常用的模型?A. 线性回归B. ARIMAC. 决策树D. 神经网络答案:B9. 在数据挖掘中,哪个算法是用于处理高维数据的?A. 主成分分析(PCA)B. 线性回归C. 逻辑回归D. 随机森林答案:A10. 以下哪个是文本挖掘中常用的技术?A. 词袋模型B. 决策树C. 聚类分析D. 以上都是答案:D二、多项选择题(每题3分,共15分)11. 数据挖掘过程中可能涉及的步骤包括哪些?A. 数据清洗B. 数据转换C. 数据探索D. 模型训练答案:ABCD12. 以下哪些是数据挖掘中常用的数据预处理技术?A. 缺失值处理B. 特征选择C. 特征缩放D. 数据离散化答案:ABCD13. 在数据挖掘中,哪些因素可能导致模型过拟合?A. 训练数据量过少B. 模型过于复杂C. 训练数据噪声过多D. 训练数据不具代表性答案:ABCD14. 以下哪些是评估聚类算法性能的指标?A. 轮廓系数B. 戴维斯-邦丁指数C. 兰德指数D. 互信息答案:ABCD15. 在数据挖掘中,哪些是常用的特征工程方法?A. 特征选择B. 特征提取C. 特征构造D. 特征降维答案:ABCD三、简答题(每题10分,共30分)16. 简述数据挖掘中的“挖掘”过程通常包括哪些步骤。
1.熟悉数据挖掘的流程:提示:1)业务理解2)数据理解3)数据准备4)建立模型5)模型评估6)模型发布2.数据库系统与数据仓库系统的区别:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。
数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。
3. 数据聚合需考虑的问题;4. 利用免费商品做促销的关联规则挖掘问题:1)找到免费商品的频繁1—项集,记为S1。
2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。
这是一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能节省一些不必要的计算开销。
如果我们有一个频繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。
这是因为任何其他商品加到这个频繁项里,价格肯定会增多。
需要检验的是超集是否是频繁的。
这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。
这样导致了将不能够发现满足约束条件的频繁项集。
FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。
3)从S1S2中找到频繁项集。
4)生成满足最小置信度且形如2S 的规则。
1S5.分布式数据的关联规则挖掘方法:第一.在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;第二.计算CF中每个频繁项集在各个站点的支持度计数;第三.计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;第四.从全局频繁项集里导出强规则。
6.急切分类、惰性分类的优缺点:急切分类比惰性分类在速度上要更快。
因为它在接受新的待测数据之前已经构造了一个概括的模型。
《数据挖掘》复习一、题型1、判断题15分2、单选题15分3、简单题15分4、综合题20分5、计算题35分(C5.0算法、感知机算法、Apriori算法,见练习题)二、考试大纲三、实验/作业评讲在教学过程的各个环节,从学生的出勤、日常表现、作业、测试、项目完成情况及完成质量、TOPCARES 能力目标的实现情况等方面,对学生进行全方位的考核。
页脚内容1说明:四、知识点梳理,重点教学内容串讲名词解释数据挖掘(P6)、算法(P10)、MODELER中的节点(P13)、MODELER中的数据流(P14)、MODELER中的超节点(P18)、决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)、知识发现KDD (P6)主要概念页脚内容2DW产生的基础(P3)DW的基本过程包括(P6)DW能做什么(P7)DW得到的知识形式(P8)DW的算法分类(P10)MODELER的主窗口由哪几部分组成(P13)MODELER中数据流中的节点主要可实现哪些功能(P15)MODELER中数据流的操作主要包括哪几步(P15)MODELER中节点工具箱含由八大选项卡组织(P15)MODELER中通常数据挖掘的基本思路包括哪些过程(P19)MODELER中从数据挖掘角度看变量有哪7大类型(P26),通过TYPE节点可以说明变量什么内容(P42)什么是“有指导学习”(P12、P104)?举例说明;决策树算法的核心问题有哪些(P106)?什么是信息熵(P57、P109)?(信息熵是连续型变量分箱MDLP算法和决策树C5.0算法的核心)人工神经网络中主要有哪些网络种类(P156)神经网络中处理单元的内部结构图(P158)页脚内容3什么是感知机模型(P162)什么是B-P反向传播网络模型,由什么特点(P164)Apriority关联分析算法主要包括哪两大部分技术(P213)(产生频繁集、依据频繁集产生关联规则)决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)等数据挖掘方法主要用来解决什么问题(分类、预测、关联等)3、算法决策树C5.0算法、人工神经网络B-P感知机算法、关联分析Apriori算法五、典型例题分析(一)判断题,在每题后面正确打勾,错误打叉有高质的原始数据,才可能有高质量的数据挖掘结果。
数据挖掘期末复习资料2009-02-21 20:38:37| 分类:读书笔记 | 标签: |字号大中小订阅题型:填空(20空)、判断(20分)、简答(5个:预处理方法、决策树、朴素贝叶斯过程、其他一些知识内容)、大题(算法:关联分析、分类、决策树、ID3算法、贝叶斯方法、A神经网络、聚类回归占得比较小)概述一、数据挖掘是一个多学科领域,具体涉及到哪些相关学科?数据库及相关领域知识。
二、什么是数据挖掘,产生的背景,典型的数据挖掘系统的主要成分?数据挖掘定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。
典型的数据挖掘系统的主要成分:1.数据库,数据仓库或其他信息库;2.数据库或数据仓库服务器:3.知识库;4.数据挖掘引擎;5.模式评估模块;6.图形用户界面。
三、数据挖掘的功能有哪些?数据挖掘功能-可以挖掘什么类型的模式。
数据挖掘任务:描述和预测。
描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。
数据挖掘的功能——用于指定数据挖掘任务中要找的模式类型。
其模式类型介绍如下:(1)、概念/类描述:特征化和区分。
用汇总的、简洁的、精确的方式描述每个类和概念,称这种描述为类/概念描述,通过三种方式得到:1)数据特征化 2)数据区分 3)数据特征化和比较。
(2)关联分析:发现规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。
关联规则的含义为:满足X中条件的数据库元组多半也满足Y中条件。
包括多维关联规则和单维关联规则。
(3)分类和预测:分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。
分类是找出描述并区分数据类或概念的模型或函数,以便能用模型预测类标记未知的对象类。
如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。
数据挖掘期末考试题及答案一、选择题(每题2分,共20分)1. 数据挖掘中的关联规则挖掘主要用来发现数据项之间的什么关系?A. 因果关系B. 相关性C. 线性关系D. 依赖关系答案:B2. 决策树算法中,哪个指标用于选择分裂节点?A. 信息增益B. 支持度C. 置信度D. 精确度答案:A3. 聚类分析中,K-means算法的K值表示什么?A. 聚类中心的数量B. 聚类半径C. 聚类成员的最小数量D. 聚类成员的最大数量答案:A4. 在数据挖掘中,哪个算法常用于分类问题?A. Apriori算法B. K-means算法C. KNN算法D. ID3算法答案:C5. 数据挖掘中的异常检测通常用于哪些领域?A. 市场分析B. 客户细分C. 欺诈检测D. 趋势预测答案:C6. 朴素贝叶斯分类器属于哪种类型的学习算法?A. 监督学习B. 非监督学习C. 半监督学习D. 强化学习答案:A7. 在关联规则挖掘中,支持度是指什么?A. 规则出现的频率B. 规则的置信度C. 规则的覆盖度D. 规则的强度答案:A8. 神经网络在数据挖掘中通常用于解决什么问题?A. 聚类B. 分类C. 回归D. 所有上述问题答案:D9. 哪个算法是数据挖掘中用于特征选择的算法?A. 主成分分析(PCA)B. 线性判别分析(LDA)C. 独立成分分析(ICA)D. 随机森林答案:D10. 数据挖掘中的时间序列分析通常用于哪些领域?A. 股票市场预测B. 销售预测C. 天气预报D. 所有上述领域答案:D二、简答题(每题10分,共30分)1. 简述数据挖掘中的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘、异常检测、趋势预测等。
2. 描述决策树算法的基本原理。
答案:决策树算法是一种监督学习算法,它通过从数据特征中选择最优特征来构建决策树,从而实现对数据的分类或回归。
算法通过递归地选择最优分裂节点,构建树状结构,直到满足停止条件。
一、1。
2 数据仓库与数据库有何不同?它们有哪些相似之处?简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计.数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID.单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据.比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段内所有的有效数据.这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库"。
那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H。
Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。
也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息.数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性.决策中,时间属性很重要。
同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的.数据仓库的出现,并不是要取代数据库.目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大.为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案.1.效率足够高。
客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。
由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1—3日才能给出数据,显然不行的。
2.数据质量.客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3.扩展性。
之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3—5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。
主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了.1.3 定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离君点分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。
特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是.。
. 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”)⇒ owns(X,“personal computer”)[support=12%, confidence=98%]其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
. 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
形成的每一簇可以被看作一个对象类。
聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析二、2。
2假设所分析的数据包括属性age,它在数据元组中的值(以递増)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A)该数据的均值是多少?中位数是什么?B)该数据的众数是什么?讨论数据的模态(即二模,三模等).C)该数据的中列数是多少D)你能(粗略地)找出该据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?E)给出该数据的五数概括。
F)绘制出该数据的盒图。
G)分位数-—分位数图与分位数图有何不同?解答:(a) 该数据的均值是什么?中位数是什么?(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。
这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰众数。
(c)数据的中列数是什么?数据的中列数是最大术和最小是的均值。
即:midrange=(70+13)/2=41.5。
(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7 处.所以:Q1=20.而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。
所以:Q3=35(e) 给出数据的五数概括.一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。
它给出了分布形状良好的汇总,并且这些数据是:13、20、25、35、70。
(f) 画出数据的盒图。
略。
(g) 分位数-分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。
这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。
两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。
一条线(y=x)可画到图中,以增加图像的信息。
落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。
反之,对落在该线以下的点则低.2。
3设给定的数据集已经分组到区间。
这些区间和对应频率如下所示:Age frequency1—5 2006-15 45016-20 30021—50 150051-80 70080—110 44计算该数据的近似中位数.2.4假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:Age 23 23 27 27 39 41 47 49 50Fat 9。
5 26.5 7。
8 17。
8 31。
4 25.9 27。
4 27。
2 31。
2Age 52 54 54 56 57 58 58 60 61Fat 34.6 42.5 28.8 33.4 30。
2 34.1 32.9 41。
235.7A)计算age和%fat的均值,中位数和标准差.B)绘制age和%fat的盒图。
C)绘制基于这两个变量的散点图和q—q图。
三3.3在习题2.2中,age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
A)使用蒌3的箱,用箱均值光滑以上数据。
说明你的步骤,讨论这种技术对缎带定数据的效果.B)如何确定该数据中的离群点?C)还有什么其他方法来光滑数据?(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果.用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:步骤1:对数据排序。
(因为数据已被排序,所以此时不需要该步骤。
)步骤2:将数据划分到大小为3 的等频箱中。
箱1:13,15,16 箱2:16,19,20 箱3:20,21,22箱4:22,25,25 箱5:25,25,30 箱6:33,33,35箱7:35,35,35 箱8:36,40,45 箱9:46,52,70步骤3:计算每个等频箱的算数均值.步骤4:用各箱计算出的算数均值替换每箱中的每个值。