数据挖掘离线作业精选文档
- 格式:docx
- 大小:243.62 KB
- 文档页数:23
《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
《数据挖掘》在线作业( )很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。
A:人工填写缺失值方法B:全局常量填充C:自动填充D:删除参考选项:A数据仓库和OLAP工具基于多维数据模型。
该模型将数据看作( )形式。
A:数据立方体(data cube)B:整数C:离散D:不同参考选项:ADBSCAN在最坏情况下的时间复杂度是( )。
A:O(m)B:O(m2)C:O(log m)D:O(m*log m)参考选项:B( )可以用来把数据变换到多个粒度层。
例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。
A:概念分层B:聚类C:数据变换D:数据归约参考选项:A以下属于可伸缩聚类算法的是( )。
A:CUREB:DENCLUEC:CLIQUED:OPOSSUM参考选项:A只有非零值才重要的二元属性被称作( )。
A:计数属性B:离散属性C:非对称的二元属性D:对称属性参考选项:C( )用替代的、较小的数据表示形式替换原数据。
A:维归约B:数量归约C:离散D:聚集参考选项:B下列( )不是将主观信息加入到模式发现任务中的方法。
A:与同一时期其他数据对比B:可视化C:基于模板的方法D:主观兴趣度量参考选项:A( )是KDD。
A:数据挖掘与知识发现B:领域知识发现C:文档知识发现D:动态知识发现参考选项:A( )通常以可变长度的字节串存储,并且为便于数据的引用,数据片段要相互链接或建立多维方式的索引。
A:文本数据B:多媒体数据C:时间数据D:空间数据参考选项:B设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。
A:4B:5C:6D:7参考选项:C假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46 ,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
网络教育学院《数据挖掘》课程大作业题目:题目一:Knn算法原理以及python实现姓名:报名编号:学习中心:层次:专升本专业:计算机科学与技术第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
数据挖掘是指从大量的数据中通过一些算法寻找隐藏于其中重要实用信息的过程。
这些算法包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
在商务管理,股市分析,公司重要信息决策,以及科学研究方面都有十分重要的意义。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术,从大量数据中寻找其肉眼难以发现的规律,和大数据联系密切。
如今,数据挖掘已经应用在很多行业里,对人们的生产生活以及未来大数据时代起到了重要影响。
第二大题:完成下面一项大作业题目。
2019秋《数据挖掘》课程大作业注意:从以下5个题目中任选其一作答。
题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可。
主要内容必须包括:(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名奥鹏卡号学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )答:KNN算法介绍KNN是一种监督学习算法,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判(投票法)或者回归。
若K=1,新数据被简单分配给其近邻的类。
KNN算法实现过程(1)选择一种距离计算方式, 通过数据所有的特征计算新数据与已知类别数据集中的数据点的距离;(2)按照距离递增次序进行排序,选取与当前距离最小的k个点;(3)对于离散分类,返回k个点出现频率最多的类别作预测分类;对于回归则返回k个点的加权值作为预测值;算法关键(1)数据的所有特征都要做可比较的量化若是数据特征中存在非数值的类型,必须采取手段将其量化为数值。
数据挖掘第二次作业第一题:1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案:a)因为class分为两类:C0和C1,其中C0的频数为10个,C1的频数为10,所以class元组的信息增益为Info(D)==11.按照Gender进行分类:Info gender(D)==0.971Gain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info carType(D)==0.314 Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类:Info shirtSize(D)==0.988Gain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大,所以决策树为:第二题:2. (a) Design a multilayer feed-forward neural network (one hidden layer) for thedata set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after oneiteration of the back propagation algorithm, given the training instance “(M, Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)x 11x 12x 21x 22x 23x 31x 32x 33x 34输入层隐藏层输出层b) 由a 可以设每个输入单元代表的属性和初始赋值由于初始的权重和偏倚值是随机生成的所以在此定义初始值为:净输入和输出:每个节点的误差表:10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新: W 1,10 W 1,11 W 2,10 W 2,11 W 3,10 W 3,11 W 4,10 W 4,11 W 5,10 W 5,11 0.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W 6,10 W 6,11 W 7,10 W 7,11 W 8,10 W 8,11 W 9,10 W 9,11 W 10,12 W 11,12 0.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10 θ11 θ12 -0.287 0.1790.344第三题:3.a) Suppose the fraction of undergraduate students who smoke is 15% and thefraction of graduate students who smoke is 23%. If one-fifth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student?b) Given the information in part (a), is a randomly chosen college student morelikely to be a graduate or undergraduate student?c) Suppose 30% of the graduate students live in a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live in a dorm and those who smoke.答:a) 定义:A={A 1 ,A 2}其中A 1表示没有毕业的学生,A 2表示毕业的学生,B 表示抽烟则由题意而知:P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由()166.0)()|B ()()|B (B 2211=+=A P A p A P A P P则()277.0166.02.023.0)()()|(|222=⨯=⨯=B P A P A B P B APb) 由a 可以看出随机抽取一个抽烟的大学生,是毕业生的概率是0.277,未毕业的学生是0.723,所以有很大的可能性是未毕业的学生。
数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括:分类、聚类、关联规则、统计回归、偏差分析等等。
(1)分类:分类在数据挖掘中是一项非常重要的任务。
分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个。
(2)聚类:聚类是把一组个体按照相似性归成若干类别。
即“物以类聚”。
它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。
这种方法可以用来对客户进行细分,根据客户的特征和属性把客户分成不同客户群,根据其不同需求,制订针对不同客户群的营销策略。
(3)关联规则:它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里大量数据进行挖掘,可以从中发现有趣的关联关系。
(4)回归分析:回归分析反映的是事务数据库中属性值在时间上的特征.主要用于预测,即利用历史数据自动推出对给定数据的推广描述.从而对未来数据进行预测。
它可应用于商品销售趋势预测、客户赢利能力分析和预测等。
(50偏差分析:偏差分析侧重于发现不规则和异常变化,即与通常不同的事件。
在相类似的客户中,对客户的异常变化要给予密切关注。
例如某客户购买行为发生较大变化,购买量较以前大大减少,就要对客户的这种原因进行调查,避免客户流失。
2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。
使得顾客的资料及购买信息得以贮存。
在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。
商家面临以下问题是:真正有价值的信息是哪些。
这些信息有哪些关联等等。
因此,需要从大量的数据中, 经过深层分析,从而获得有利商业运作提高企业争力的信息。
数据挖掘期末试题及答案完整版本文档为数据挖掘课程的期末试题及答案完整版,共分为两部分:试题1. 简述数据挖掘的含义,及其在实际应用中的主要应用场景。
2. 数据挖掘的分类有哪些?分别说明其特点和应用场景。
3. 什么是关联规则挖掘?具体方法是什么?4. 简述聚类分析的含义,及其在实际应用中的主要应用场景。
5. 什么是K-means算法?其具体流程是什么?如何确定K值?6. 什么是分类算法?具体有哪些分类算法?举例说明其应用场景。
7. 什么是决策树?它的构建方法是什么?8. 什么是人工神经网络?具体的工作原理是怎样的?9. 什么是支持向量机?简述其分类原理及构建方法。
10. 集成研究是什么?其主要有哪些方法?答案1. 数据挖掘定义:是从大量数据中自动提取未知、隐含的且潜在有用的信息和模式的计算技术,主要应用场景包括:金融风险控制、市场营销、医学诊断和电子商务等领域。
2. 数据挖掘的分类:基于任务分类、基于数据挖掘方法分类、基于应用领域分类等。
其中基于数据挖掘方法的分类包括:分类、聚类、关联规则挖掘、时序挖掘、离群点检测和特征选择等,它们分别对应不同类型的数据挖掘任务和数据类型。
3. 关联规则挖掘:是一种在数据集中发现有趣关系的方法。
具体方法包括:设定最小支持度和最小置信度阈值、频繁集生成、生成关联规则等。
4. 聚类分析:是一种常用的数据挖掘技术,主要应用场景包括:图像分割、生物信息学、无监督研究等领域。
5. K-means算法:是一种基于划分的聚类算法,具体流程包括:选择初始聚类中心、计算数据点到聚类中心的距离、分组聚类、重新计算聚类中心等。
确定K值有多种方法,常用的有肘部法和轮廓系数法。
6. 分类算法:是一种重要的数据挖掘技术,主要包括决策树、朴素贝叶斯、神经网络、支持向量机等方法。
不同的算法适用于不同类型的数据和任务场景。
7. 决策树:是一种基于树结构的分类方法,具体构建方法包括:选择最优特征、树的生长、剪枝等。
数据挖掘大作业1. 简介数据挖掘是一项重要的技术,它通过挖掘大型数据集中的隐藏信息和模式,帮助我们发现有价值的知识和洞察力。
本文档将介绍数据挖掘大作业的目标、背景和方法。
2. 目标本次数据挖掘大作业的目标是从给定的数据集中分析和提取有关某项主题的相关信息。
我们将利用数据挖掘技术来发现隐藏在数据中的模式和规律,并通过数据可视化的方式呈现出来。
3. 背景数据挖掘是一项复杂而多样化的领域,它可以应用于各种领域和行业。
通过数据挖掘,我们可以从海量数据中获得有用的洞察力,以便做出更好的决策和预测。
4. 方法在进行数据挖掘大作业时,我们将采取以下步骤:- 数据收集:收集与主题相关的数据,并确保数据的质量和准确性。
- 数据预处理:对数据进行清洗、去重、填充缺失值等预处理操作,以保证后续分析的准确性。
- 特征工程:根据问题的需要,对数据进行特征选择、转换和抽取,以提取最有用的特征。
- 模型选择:选择适当的数据挖掘模型,如聚类、分类、预测等,以实现我们的目标。
- 模型评估:对选定的模型进行评估和优化,确保模型的性能和准确性。
- 结果展示:将挖掘到的信息和洞察力进行可视化展示,以便更好地理解和传达。
5. 结论本次数据挖掘大作业将通过上述步骤来实现我们的目标,并且我们将采用合适的数据挖掘技术和方法来发现隐藏在数据中的知识和模式。
通过这次作业,我们将进一步提升我们的数据分析和挖掘能力,并为未来的决策和预测提供有价值的支持。
以上是关于数据挖掘大作业的简介,希望能对您有所帮助。
如有任何问题,请随时与我们联系。
谢谢!注:此文档为简要介绍,具体细节和步骤将根据实际情况进一步规划和执行。
第4章聚类分析4.1 什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。
为每类方法给出例子。
4.2 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为三个簇。
A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。
距离函数是Euclidean 函数。
假设初始我们选择A1,B1和C1为每个簇的中心,用k-means 算法来给出(a) 在第一次循环执行后的三个簇中心;(b) 最后的三个簇中心及簇包含的对象。
4.3 聚类被广泛地认为是一种重要的数据挖掘方法,有着广泛的应用。
对如下的每种情况给出一个应用例子:(a) 采用聚类作为主要的数据挖掘方法的应用;(b) 采用聚类作为预处理工具,为其它数据挖掘任务作数据准备的应用。
4.4 假设你将在一个给定的区域分配一些自动取款机以满足需求。
住宅区或工作区可以被聚类以便每个簇被分配一个ATM。
但是,这个聚类可能被一些因素所约束,包括可能影响A TM 可达性的桥梁,河流和公路的位置。
其它的约束可能包括对形成一个区域的每个地域的A TM 数目的限制。
给定这些约束,怎样修改聚类算法来实现基于约束的聚类?4.5 给出一个数据集的例子,它包含三个自然簇。
对于该数据集,k-means(几乎总是)能够发现正确的簇,但二分k-means不能。
4.6 总SSE是每个属性的SSE之和。
如果对于所有的簇,某变量的SSE都很低,这意味什么?如果只对一个簇很低呢?如果对所有的簇都很高?如果仅对一个簇高呢?如何使用每个变量的SSE信息改进聚类?4.7 使用基于中心、邻近性和密度的方法,识别图4-19中的簇。
对于每种情况指出簇个数,并简要给出你的理由。
注意,明暗度或点数指明密度。
如果有帮助的话,假定基于中心即K均值,基于邻近性即单链,而基于密度为DBSCAN。
图4-19 题4.7图4.8 传统的凝聚层次聚类过程每步合并两个簇。
第5章关联分析5.1 列举关联规则在不同领域中应用的实例。
5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。
(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。
5.3 数据集如表5-14所示:(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?5.4 关联规则是否满足传递性和对称性的性质?举例说明。
5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。
证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。
5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。
(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。
(b)写出经过剪枝后的所有候选4-项集5.7 一个数据库有5个事务,如表5-15所示。
数据挖掘离线作业精选文档TTMS system office room 【TTMS16H-TTMS2A-TTMS8Q8-浙江大学远程教育学院《数据挖掘》课程作业姓名:皇甫旭丹学号:7年级:2015秋学习中心:奉化学习中心—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。
(3)Web挖掘包括哪些步骤?答:数据清理:(这个可能要占全过程60%的工作量);数据集成(数据存入数据仓库建立数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果(将模式或者知识应用或者存入知识库)。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
第二章认识数据一、填空题(1)两个文档向量d1和d2的值为:d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为: 5/13(2)数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四分卫数或低于第一个四分卫数×IQR处的值。
二、单选题(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:A、中位数=平均值=众数;B中位数>平均值>众数;C、平均值>中位数>众数;D;众数>中位数>平均值答:C。
(2)下面的散点图显示哪种属性相关性?A不相关;B正相关;C负相关;D 先正相关然后负相关;答:C。
三、简答题(1)什么是基于像素的可视化技术它有什么缺点答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。
记录的m个维值映射到这些窗口对应位置上的m个像素。
像素的颜色反映对应的值。
基于像素的可视化技术特点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。
对称的二元属性可以使用简单匹配系统评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。
第三章数据预处理一、填空题(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换和数据规约(2)数据概化是指:沿概念分层向上概化(3)数据压缩可分为:有损压缩和无损压缩两种类型。
(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)请描述主成份分析(PCA)算法步骤答:1)规范化输入的数据:所有属性落在相同区间内;2)计算k个标准正交向量,即主成分;3)每个输入数据的向量都是这k个主成分向量的线性组合;4)主成分按照重要程度降序排列。
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
答:处理空缺值的方法有:1)忽略元祖。
当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
2)人工填写空缺值。
这种方法工作量大,可行性低。
3)使用一个全局变量填充空缺值:比如使用unknown或-∞。
4)使用属性的平均值填充空缺值。
5)使用与给定元祖属同一类所有样本的平均值。
6)使用最可能的值填充空缺值。
如使用像Bayesian公式或判定树这样的基于推断的方法。
(4)常见的数据归约策略包括哪些?答:数据归约策略包括:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)离散化和概念分层产生第六—七章挖掘频繁模式、关联和相关一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度(2)Aprior算法包括连接和剪枝两个基本步骤(3)项集的频率是指包含项集的事务数(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。
缺点:最小支持度值设置困难,太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
(2)如何提高Apriori算法的有效性有哪些常见方法答:可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。
常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。
第八章分类一、填空题(1)数据分类模型的常用表示形式包括分类规则、决策树和数学公式等。
(2)朴素贝叶斯分类是基于类条件独立假设。
二、简答题(1)在判定树归纳中,为什么树剪枝是有用的?答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并减去这种分枝,以提高对未知数据分类的准确性。
(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。
答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。
朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。
他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。
(3)分类方法的常用评估度量都有哪些?答:精度(Precision):标记为正类的元祖实际为正类所占的百分比。
召回率:正元祖标记为正的百分比。
F度量:精度和召回率调和评估指标。
准确率(accuracy),识别率:测试数据中被正确分类的元祖所占的百分比。
灵敏度(Sensitivity):真正例(识别)率。
特效性(Specifictiy):真负例率。
(4)简述数据分类的两步过程。
答:第一步建立模型,建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。
三、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair 和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age<18的顾客:Gain(income)=,Gain(student)=,Gain(credit_rating)=对age>23的顾客:Gain(income)=,Gain(student)=,Gain(credit_rating)=请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。
第十章聚类分析一、填空题(1)在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
(2)聚类分析常作为一个独立的工具来获得数据分布的情况(3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度和低类间相似度(4)许多基于内存的聚类算法所常用的两种数据结构是数据矩阵和相似度矩阵(5)基于网格的聚类方法的优点是:处理速度快二、简答题(1)简述基于划分的聚类方法。
划分的准则是什么?答:基于划分的聚类方法:给定一个n个对象或元祖的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。
划分方法要求每个组至少包含一个对象并且每个对象属于且仅属于一个组。
聚类目标可以是最优化某种度量,比如最小化数据点与类中心的距离平方和等。
划分准测是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能的原理或不同。
(2)列举离群点挖掘的常见应用。
答:离群点检测应用有:1、欺诈检测;2、网络入侵;3、故障诊断;4、可疑金融交易监控等等。
第四章数据仓库和OLAP技术一、填空题(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式(2)给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化(3)着名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。
(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)(8)求和函数sum()是一个分布的函数。