数据挖掘考试题目聚类
- 格式:docx
- 大小:18.31 KB
- 文档页数:3
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘期末考试题库
进行数据挖掘期末考试前,老师通常会准备一份题库,供学生参考复习。
这个题库包含了一系列的问题,涵盖了数据挖掘的各个方面。
以下是一个示例的数据挖掘期末考试题库,供同学们参考:
1. 什么是数据挖掘?数据挖掘的主要目标是什么?
2. 请简要介绍数据挖掘的主要过程。
3. 数据挖掘中常用的数据预处理方法有哪些?请分别进行介绍。
4. 数据挖掘中常用的特征选择方法有哪些?请分别进行介绍。
5. 数据挖掘中常用的分类算法有哪些?请分别进行介绍。
6. 数据挖掘中常用的聚类算法有哪些?请分别进行介绍。
7. 数据挖掘中常用的关联规则挖掘算法有哪些?请分别进行介绍。
8. 什么是异常检测?数据挖掘中常用的异常检测方法有哪些?请分别进行介绍。
9. 数据挖掘中的交叉验证是什么?请简要说明。
10. 数据挖掘中如何评估分类算法的性能?请简要说明评估指标。
11. 数据挖掘中如何评估聚类算法的性能?请简要说明评估指标。
12. 数据挖掘中如何评估关联规则挖掘算法的性能?请简要说明评估指标。
13. 数据挖掘在实际应用中的案例有哪些?请分别进行介绍。
14. 在数据挖掘过程中,如何选择适当的算法和技术?请简要说明。
15. 数据挖掘存在哪些挑战和限制?请分别进行介绍。
以上题目是一个简要的示例,涵盖了数据挖掘的基本概念、主要过程、常用方法和评估指标等方面。
同学们可以根据这些问题来进行复
习和准备,加深对数据挖掘的理解和掌握。
希望以上题库对同学们的期末考试有所帮助。
祝大家考试顺利!。
数据挖掘考试题数据挖掘考试题⼀.选择题1. 当不知道数据所带标签时,可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是⼀种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward⽅法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应⽤了( )数据挖掘⽅法。
A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的⽐较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,⽽DBSCAN⼀般聚类所有对象。
B.K均值使⽤簇的基于原型的概念,DBSCAN使⽤基于密度的概念。
C.K均值很难处理⾮球形的簇和不同⼤⼩的簇,DBSCAN可以处理不同⼤⼩和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度⽐较⼩B.擅长处理球状的簇C.对于Ward⽅法,两个簇的邻近度定义为两个簇合并时导致的平⽅误差D.当两个点之间的邻近度取它们之间距离的平⽅时,Ward⽅法与组平均⾮常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化⽬标函数B.Group Average擅长处理球状的簇C.可以处理不同⼤⼩簇的能⼒D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.⼀旦两个簇合并,该操作就不能撤销B.算法的终⽌条件是仅剩下⼀个簇C.空间复杂度为()2m O D.具有全局优化⽬标函数8.规则{⽜奶,尿布}→{啤酒}的⽀持度和置信度分别为:( ) TID项集 12345{⾯包,⽜奶} {⾯包,尿布,啤酒,鸡蛋} {⽜奶,尿布,啤酒,可乐} {⾯包,⽜奶,尿布,啤酒} {⾯包,⽜奶,尿布,可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的⽅法。
数据挖掘试题1. 解释什么是数据挖掘(Data Mining)。
答:数据挖掘是通过应用统计学、机器学习和模式识别等技术,从大量数据中发现隐藏在其中的模式、关联和规律的过程。
它可以帮助人们从原始数据中提取有价值的信息,以支持决策、预测和优化等任务。
2. 请说明数据挖掘的主要任务。
答:数据挖掘的主要任务包括以下几个方面:- 分类:根据已有的数据标签和特征构建分类模型,将新的数据实例分到预定义的类别中。
- 聚类:根据数据的相似性将其分组,以发现隐藏的数据群体和类别。
- 关联规则挖掘:发现数据项之间的关联和依赖关系,如购物篮分析中发现常一起购买的商品。
- 预测分析:通过已有的数据建立预测模型,用于预测未来的趋势、结果或行为。
- 回归分析:根据数据的特征和标签之间的关系建立回归模型,用于预测连续值的结果。
- 异常检测:发现与正常模式不符的异常数据点,如欺诈检测。
- 文本挖掘:从大量的文本数据中提取有意义的信息和知识,如情感分析、主题提取等。
- 图像和视频挖掘:从图片和视频数据中提取有价值的信息和特征。
3. 请列举常用的数据挖掘算法。
答:常用的数据挖掘算法包括:- 决策树算法(Decision Tree)- 支持向量机算法(Support Vector Machine)- 贝叶斯分类算法(Naive Bayes)- 逻辑回归算法(Logistic Regression)- 人工神经网络算法(Artificial Neural Networks)- 随机森林算法(Random Forest)- 聚类算法(K-means,DBSCAN等)- 关联规则挖掘算法(Apriori,FP-Growth等)- 主成分分析算法(Principal Component Analysis)- 线性回归算法(Linear Regression)4. 数据预处理在数据挖掘中的作用是什么?答:数据预处理是数据挖掘的一个重要步骤,其作用主要有以下几个方面:- 数据清洗:处理缺失值、异常值和噪声,以确保数据的完整性和质量。
一、请简述关联规则的基本概念和 Apriori 算法的基本原理(10 分)答:1.关联规则:设I={i1,i2,…,i n}是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T⊆I。
假设事务A、B,A⊆D,B⊆D,关联规则是形如A→B,且A∩B=∅。
即有A存在,可判断B也存在。
支持度:P(A∪B),即A和B两个项集在事务集D中同时出现的概率。
置信度:P(B|A),在出现项集A的事务集中,B也出现的概率。
2. Apriori 算法基本原理Apriori算法的基本原理是用支持度表示关联规则的强度,把具有关联规则的商品看做一个集合。
从最小的集合开始,筛选出支持度大于某个值的集合,然后合并集合,再循环,直到找不集合为止。
步骤:1.先计算1项集的支持度,筛选出频繁1项集。
2.然后排列组合出2项集,计算出2项集的支持度,筛选出频繁2项集。
3.然后通过连接和剪枝计算出3项集,计算出3项集的支持度,筛选出频繁3项集。
4.然后依次类推处理K项集,直到没有频繁集出现。
二、请说明 ROC 在机器学习中的基本作用(20 分)ROC在机器学习中用于判断分类器的好坏。
ROC曲线是根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值(TPR、FPR),分别以它们为横、纵坐标作图。
一个好的分类器,ROC曲线应凸向(0,1)点,如下图。
说明能找到一个合适的阈值使得预测结果有一个不错的正确率。
三、举例说明过度拟合对数据挖掘结果和模型的影响,讨论避免过度拟合的三种方法。
(20 分)当所建的模型产生一个较小的训练均方误差但却有一个较大的测试均方误差,就称该数据被过拟合。
过拟合使得模型过于复杂,将噪声也学习为特征,使得模型在样本内预测结果很好,在样本外预测很差。
过拟合例子:如下图,黑色实线是原始函数,白色散点是加了噪声之后产生的数据,灰色直线是线性模型拟合的模型(没有过拟合),灰色曲线是过拟合的结果。
数据挖掘试题(150道)单选题1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(a)a.关联规则辨认出b.聚类c.分类d.自然语言处理2.以下两种叙述分别对应哪两种对分类算法的评价标准?(a)(a)警员抓小偷,叙述警员揪的人中存有多少个就是小偷的标准。
(b)叙述存有多少比例的小偷给警员揪了的标准。
a.precision,recallb.recall,precisiona.precision,rocd.recall,roc3.将原始数据展开内置、转换、维度规约、数值规约就是在以下哪个步骤的任务?(c)a.频密模式发掘b.分类和预测c.数据预处理d.数据流发掘4.当不晓得数据所带标签时,可以采用哪种技术使得拎同类标签的数据与拎其他标签的数据相分离?(b)a.分类b.聚类c.关联分析d.隐马尔可夫链5.什么是kdd?(a)a.数据挖掘与科学知识辨认出b.领域科学知识辨认出c.文档科学知识辨认出d.动态科学知识辨认出6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(a)a.探索性数据分析b.建模描述c.预测建模d.寻找模式和规则7.为数据的总体原产建模;把多维空间分割成组等问题属数据挖掘的哪一类任务?(b)a.探索性数据分析b.建模叙述c.预测建模d.找寻模式和规则8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(c)a.根据内容检索b.建模叙述c.预测建模d.寻找模式和规则9.用户存有一种感兴趣的模式并且期望在数据分散找出相近的模式,属数据挖掘哪一类任务?(a)a.根据内容检索b.建模描述c.预测建模d.找寻模式和规则11.下面哪种不属于数据预处理的方法?(d)a变量赋值b线性化c涌入d估算遗漏值12.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。
数据挖掘考试题一.选择题1。
当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?( )A.分类B、聚类 C.关联分析D。
主成分分析2. ( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。
A。
MIN(单链) B。
MAX(全链) C、组平均 D.Ward方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( )数据挖掘方法、A 分类B 预测C关联规则分析D聚类4。
关于K均值与DBSCAN得比较,以下说法不正确得就是( )A.K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇得基于原型得概念,DBSCAN使用基于密度得概念。
C。
K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇D.K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇5、下列关于Ward'sMethod说法错误得就是:( )A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C。
对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D。
当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在得问题说法正确得就是:( )A.具有全局优化目标函数B.GroupAverage擅长处理球状得簇C.可以处理不同大小簇得能力D.Max对噪声点与离群点很敏感7。
下列关于凝聚层次聚类得说法中,说法错误得事:( )A。
一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C.空间复杂度为D。
具有全局优化目标函数8。
规则{牛奶,尿布}→{啤酒}得支持度与置信度分别为:( )TID 项集12345{面包,牛奶}{面包,尿布,啤酒,鸡蛋}{牛奶,尿布,啤酒,可乐}{面包,牛奶,尿布,啤酒}{面包,牛奶,尿布,可乐}A。
A,无序规则B,穷举规则C,互斥规则D,有序规则58.如果规则集中的规则按照优先级降序排列,则称规则集是(D)A,无序规则B,穷举规则C,互斥规则D,有序规则59.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)A,无序规则B,穷举规则C,互斥规则D,有序规则60.考虑两队之间的足球比赛:队0和队1。
假设65%的比赛队0胜出,剩余的比赛队1获胜。
队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。
如果下一场比赛在队1的主场进行队1获胜的概率为(C)A,B,C,D,61.以下关于人工神经网络(ANN)的描述错误的有(A)A,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征C,训练ANN是一个很耗时的过程D,至少含有一个隐藏层的多层神经网络62.通过聚集多个分类器的预测来提高分类准确率的技术称为(A)A,组合(ensemble)B,聚集(aggregate)C,合并(combination)D,投票(voting)63.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类64.在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。
A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度65.(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点B、质心C、离群点D、核心点66.BIRCH是一种(B)。
A、分类器B、聚类算法C、关联分析算法D、特征选择算法67.检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。
A、统计方法B、邻近度C、密度D、聚类技术68.(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
数据挖掘期末试卷一、简答题(共5题,每题10分)1.数据挖掘的定义和目标是什么?2.数据预处理的步骤有哪些?请详细描述。
3.请简述交叉验证在数据挖掘中的作用。
4.请解释什么是聚类分析,并举例说明其在实际应用中的作用。
5.请解释关联规则挖掘的概念,并说明其在市场篮子分析中的应用。
二、计算题(共2题,每题20分)1.假设有一个包含100个数据样本的数据集D,其中80个样本属于类别A,20个样本属于类别B。
现给定一个新的数据样本x,请根据给定的数据集D和数据样本x,使用K近邻算法来确定x的类别,并说明你的推理过程。
2.给定一个包含1000个样本的数据集D,每个样本包含5个特征。
现在希望通过主成分分析(PCA)来对数据集进行降维处理。
请根据给定的数据集D,使用PCA算法来完成降维处理,并说明你的推理过程。
三、编程题(共1题,40分)对于给定的数据集D,其中包含1000个数据样本,每个样本包含5个特征。
请编写Python代码来实现基于K均值算法的聚类分析,并对数据集D进行聚类。
请在代码注释中详细描述你的算法实现过程,并附带代码运行结果截图。
四、应用题(共1题,20分)假设你是一家电商平台的数据分析师,现在希望通过关联规则挖掘来分析用户的购物行为。
请根据给定的购物篮数据集,使用关联规则挖掘算法来发现频繁项集和关联规则,并解释你的挖掘结果。
五、思考题(共1题,10分)数据挖掘技术在当今社会的各个领域中起到了重要的作用。
请从你所了解的领域中选择一个,并说明数据挖掘在该领域中的应用场景和作用。
同时,对于这个领域中可能出现的挑战和问题,你认为采用数据挖掘技术能够解决哪些问题,又有哪些限制?以上为《数据挖掘期末试卷》的题目列表,包括了简答题、计算题、编程题、应用题和思考题。
希望能够通过这些题目来测试学生对于数据挖掘知识的理解和应用能力。
祝大家成功完成试卷!。
Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分R输出结果。
> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。
数据挖掘考试题目——聚类
一、填空题
1、密度的基于中心的方法使得我们可以将点分类为:__________、________ 、_________。
2、DBSCAN算法在最坏的情况下,时间复杂度是__________、空间复杂度是__________。
3、DBSCAN算法的优点是_______、__________________________。
4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。
5、DBSCAN算法的参数有:___________、____________。
6、簇的有效性的非监督度量常常可以分为两类:__________、__________,它常采用的指标为__________。
7、簇的有效性的监督度量通常称为___________,它度量簇标号与外部提供的标号的匹配程度主要借助____________。
8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是__________。
9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。
10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于__________技术。
答案:
1、核心点边界点噪声点
2、O(n2) O(n)
3、耐噪声能够处理任意大小和形状的簇
4、高维数据变密度的
5、EPS MinPts
6、簇的凝聚性簇的分离性均方差(SSE)
7、外部指标监督指标的熵
8、块对角的
9、点到它的第K个最近邻的距离(K-距离)
10、非监督
二、选择题
1、DBSCAN算法的过程是(B)。
①删除噪声点。
②每组连通的核心点形成一个簇。
③将所有点标记为核心点、边界点和噪声点。
④将每个边界点指派到一个与之关联的核心点的簇中。
⑤为距离在Eps之内的所有核心点之间赋予一条边。
A:①②④⑤③
B:③①⑤②④
C:③①②④⑤
D:①④⑤②③
2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)。
A O(m)
B O(mlogm)
C O(m2)
D O(logm)
3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数(B)。
A Eps
B MinPts
C 质心
D 边界
4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为(A)。
A 噪声
B 核心簇
C 边界簇D以上都不对
5、如果处理以下形状的数据时,适宜采用DBSCAN的是(B)
A 球形
B SS形
C 椭球形
D 方形
6、DBSCAN之所以难以有效处理高维数据,其主要原因是(D)
A 数据的形状太复杂
B 簇的大小未知
C 噪声点过多
D 开销过大
7、簇评估能够做到(D)
①确定数据集的聚类趋势。
②确定正确的簇个数。
③比较两个簇集,确定那个更好。
④不引用附加信息,评估聚类分析结果对数据拟合情况
A ①②
B ②③④
C ①②③D①②③④
8、如果不考虑外部信息,聚类结构的有良性度量应当采用(A)。
A 均方差
B 方差
C 中位数
D 均值
9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同的聚类或簇。
A SSE或熵
B 簇的大小
C 簇的形状
D 簇的密度
10、对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致(B)
A 能很好的区分各类簇
B 只有高密度的点的聚集区划为簇,其余划为噪声
C 低密度的点的聚集区划为簇,其余的划为噪声
D 无影响
三、判断题
1、DBSCAN的参数Eps固定时,MinPts的值越大越好。
(错)
2、DBSCAN会把所有点划分到各自的簇中。
(错)
3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。
(对)
4、SSE在无监督的簇评估中能起到很好的作用。
(对)
5、在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇(对)。
6、DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。
(对)
7、判断簇的个数不属于簇评估。
(错)
8、在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。
(对)
9、DBSCAN的空间复杂度始终都是O(m)。
(对)
10、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
(对)
四、简答题
1、描述DBSCAN的算法过程。
①将所有点标记为核心点、边界点和噪声点。
②删除噪声点。
③为距离在Eps之内的所有核心点之间赋予一条边。
④每组连通的核心点形成一个簇。
⑤将每个边界点指派到一个与之关联的核心点的簇中。
2、简答DBSCAN的优点与不足。
答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇,
缺点:当簇的密度变化过大时,DBSCAN就很难敏感的发现数据集中的簇。
同时,DBSCAN 在处理高维数据时,会有很大的开销。
3、简述DBSCAN算法的核心思想。
DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包含不少于PinPts个数据点,这样的点称为核心点。
4、确定DBSCAN参数的基本的方法是什么。
答:观察点到它的K个最近邻的距离的特性。
对于某个K,计算所有点的K距离,以递增的次序排序,绘制排序后的值。
在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值为Minpts。
簇评估的主要任务是什么。
答:①确定数据集的聚类趋势。
②确定正确的簇个数。
③不引用附加的信息,评估聚类分析结果对数据的拟合情况。
④将聚类分析结果与已知的客观结果比较。