聚类分析习题及答案
- 格式:pdf
- 大小:222.01 KB
- 文档页数:5
SPSS_16_实⽤教程习题答案第⼀章1-1答:SPSS的运⾏⽅式有三种,分别是批处理⽅式、完全窗⼝菜单运⾏⽅式、程序运⾏⽅式。
1-2 答:与⼀般电⼦表格处理软件相⽐,SPSS的“Data V iew”窗⼝还有以下⼀些特性:(1)⼀个列对应⼀个变量,即每⼀列代表⼀个变量(V ariable)或⼀个被观测量的特征;(2)⾏是观测,即每⼀⾏代表⼀个个体、⼀个观测、⼀个样品,在SPSS中称为事件(Case);(3)单元包含值,即每个单元包括⼀个观测中的单个变量值;(4)数据⽂件是⼀张长⽅形的⼆维表。
第⼆章2-1 答:SPSS中输⼊数据⼀般有以下三种⽅式:(1)通过⼿⼯录⼊数据;(2)可以将其他电⼦表格软件中的数据整列(⾏)的复制,然后粘贴到SPSS中;(3)通过读⼊其他格式⽂件数据的⽅式输⼊数据。
2-2 答:选择“Transform”菜单的Replace Missing V alues命令,弹出Replace Missing V alues 对话框。
先在变量名列中选择1个或多个存在缺失值的变量,使之添加到“New V ariable(s)”框中,这时系统⾃动产⽣⽤于替代缺失值的新变量。
最后选择合适的替代⽅式即可。
2-3 答:选择“Data”菜单中的Weight Cases命令,出现如图2-22所⽰的Weight Cases对话框。
其中,Do not weight cases项表⽰不做加权,这可⽤于取消加权;Weight cases by 项表⽰选择1个变量做加权。
2-4 答:变量的⾃动赋值可以将字符型、数字型数值转变成连续的整数,并将结果保存在⼀个新的变量中。
具体操作的过程如下:选择“Transform”菜单中的Automatic Recode命令,在出现的对话框中,从左边的变量列表中选择需要⾃动赋值的变量,将它添加到V ariable -> New Name框中,然后在下⾯New Name右边的⽂本框中输⼊新的变量名称,单击New Name按钮,将新的变量名添加到上⾯的框中。
数据挖掘概念与技术_课后题答案数据挖掘⼀⼀概念概念与技术Data MiningConcepts andTechniques习题答案第1章引⾔1.1什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给岀每种数据挖掘功能的例⼦。
解答:特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提岀,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA: Grade point aversge)的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA的学⽣的⼀般特性可被⽤来与具有低GPA的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:major(X, Computi ng scie nee” S own s(X, personalcomputer ” [support=12%, confid en ce=98%]其中,X是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12% (⽀持度)主修计算机科学并且拥有⼀台个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98% (置信度,或确定度)。
分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或功能),⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
一、单选题1、下列哪位是人工智能之父?()A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。
A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是()。
A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。
A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指()。
A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
多元统计分析部分章节知识点以及习题总结§1多元统计分析课堂讲题选择§1.1第二章:课后习题2-3(1)、2-3(2)、2-6(1)、2-6(2)、2-7((1),(3),(5))、2-13(1);课外补充题中的1,4(1)、4(2)、9;§1.2第三章课后习题3-6;课外补充题:总结一下单总体、两总体、多总体均值向量假设检验时不同情形下的统计量选取(作业题)。
课外补充题中的1,2,3,4,5.§1.3第五章5-2,5-4(2);课外补充题:2,3,4,11.§1.4第六章课后题6-3;课外补充题:1;§1.5第七章课后题7-2(1),7-2(3),7-5;课外补充题:3;§2多元统计分析简介知识要点:•Kendall在《多元分析》一书中将多元统计分析研究内容和方法分为哪些?对应教材那些章节?•多元统计分析的起源:20C初,1988年,Wishart发表论文《多元总体样本协方差正的精确分布》代表了多元统计分析的开端。
•20世纪,多元统计分析的主要代表人物有哪些?•多元统计数据有哪些主要的图表示法?1§3多元正态分布及其参数估计知识要点:2.1随机向量–分布,边缘分布,独立性定义;–数字特征:均值向量,协方差阵,相关阵的定义和计算;–数字特征的性质:性质1–性质4(掌握内容,会用)。
2.2多元正态分布的定义和性质–定义2.2.1–性质2及其推论,(会根据性质2证明其推论),这两个结论说明了什么?–多元正态分布的密度函数(性质5)。
2.3条件分布和独立性–定理2.3.1及其推论,掌握会用!–了解条件分布。
2.4-2.5多元正态分布的参数估计–掌握多元正态总体的数字特征:样本均值、样本离差阵、样本协方差阵样本相关阵(掌握会计算)。
–掌握定理2.5.1和定理2.5.2的内容。
会求µ和Σ的极大似然估计,无偏估计。
知道均值向量的分布。
第一章练习题一、名词解释人员素质测评;素质(广义)二、填空题(可出选择题)1.素质包括以下三大类:、、;2.心理素质包括:与;3.人员素质测评的方法包括:、、、;4.人员素质测评的主体包括:、;5.心理测量测查的对象具有、、等特点;6.人员素质测评的对象是及;7.人才测评的三个功能是、、;8.人才测评的作用包括对和对所起的作用;9.人才测评对组织所起的作用包括、、;10.人才测评对个人所起的作用包括、、。
三、简答题1.阐述评价(评定)与测量的联系与区别?2.简述人员素质测评的特点?3.简述人员素质测评与人才素质测评的联系与区别?第二章练习题一、名词解释察举;九品中正制;科举制二、填空题1.中国古代人才选拔制度包括:、、;2.察举制度用来测评人才的方法有许多,仅两汉就有常科:、、、四行,后来规定岁举的科目以、为主;3.九品中正制,又称,是的一种选拔人才的举官制度;4.九品中正制中选拔人才的标准有三:、、;5.科举制是以后历代封建王朝常常采用的通过考试选拔官吏的一种制度;6.科举制度考试有、、三级;7.唐代科举从种类上讲只有和两种;8.三国时魏人所著的《人物志》对人才测评作了较为系统完整的论述;9.春秋时期,就对人的“才能”的观点加以了论述;10.战国时期,提出了“察能予官”,“以德就列”的原则;11.战国时期的把“德才”标准具体化为忠诚、谨慎、才能、智力、信用、廉洁、节守、仪态、行为等指标;12.古代人才测评用、、、以判断人才;13.我国古代使用的测评技术有、、;14.纸笔测验的典型形式有、、、;15.《吕氏春秋》提出了对内用“”,对外用“”的方法识别人才;16.实践鉴别法的核心是根据“”来作为选拔衡量使用人才的标准;17.文官考绩因素包括10项:、、、、、、、、、;18.文官接受培训的形式有、、、、、等;19.西方现代人才测评思想与技术发端于,开始于,最初源于教育实践中的需要;20.19世纪80年代至20世纪前10年,西方心理测验逐渐兴起,最有名的是测量智商的,这一量表是世界上第一个标准化的心理测验,由法国心理学家和医生于年提出,被称为是心理测验的鼻祖;21.美国最著名的比奈西蒙量表修订本是斯坦福大学教授在年指导修订的,即著名的量表;22.美国学者斯特朗于1927年编制出版的世界上第一个职业兴趣测验“”;23.“评价中心”技术综合运用了、和,使测评效果比原来更加可靠和有效;三、简答题1.试述察举制、九品中正制和科举制的特点?2.试述古代人才测评机制的缺点?第三章练习题一、名词解释职业;地位;角色;工作角色;二、填空题1.个人素质差异表现为两个方面,一是个性差异,如、和及其组合;二是个体的差异,如、、、、及等;2.以人员配置所凭借的方法为标准,大致可将人员配置原型划分为和;3.人员配置的经验原型的主要特征是和;4.以经验原型为指导进行人员配置,一般采用两种方法:一是,二是;5.在经验原型中,、是人员配置的核心;6.人员配置的测评原型最显著的两大特征是和;7.美国约翰·霍普金斯大学心理学教授约翰·霍莱特认为人的个性素质基本类型有六种:、、、、、;8.人员素质测评的必要条件是、与的客观存在,充分条件是对个体素质与的探索;9.、、三大主指标及其数十个子指标,是当前比较流行的人员素质测评指标体系;10.职业能力测试子指标包括、、;11.职业人格子指标包括、、、;12.职业兴趣子指标包括、、、;13.人员素质测评应向与的方向发展,应把人员素质测评作为一种重要手段贯穿于整个的组织管理过程之中;14.借助,可以充分发挥素质测评在人力资源开发与管理中的优化作用;15.行为管理科学启示我们,通过素质测评对个体差异的揭示,按;按;16.著名的心理学家马斯洛理论把需求分成、、、、五类;17.提高人员素质测评效用的六大原则:、、、、、;18.人员素质测评的八个主要原则是:、、、、、、、;19.人员素质测评的主要理论依据有、、等学科的知识;20.个性心理品质中的能力特征的两个方面是指和;21.人员素质测评所使用的各类人员的素质量表,是由、、、、五个方面的素质组成的一个复杂的系统,它包括分系统、分系统、分系统、分系统、分系统等;22.模糊数学被广泛应用于、、、等具有模糊现象的学科中;23.1965年美国控制论专家、加利福尼亚大学教授,对大量不确切现象进行了认真的分析,提出了原理;24.查德的模糊集合论原理用二句话概括就是、;25.查德借助经典数学这一工具,创立了用来定量表示模糊概念的模糊数学;26.当刺激情景是以文字或图形设计呈现时,测评即是形式;当刺激情景是经过精心设计,且以面对面的问答或谈话形式出现时,测评则是形式;当各种刺激情景是以自然的实际情形出现时,测评则是形式;三、简答题2.简述人员配置的经验原型的弊端?3.简述人员配置的测评原型与经验原型相比的优势表现在哪几个方面?6.简述素质测评待解决的几个问题?10.为了控制施测者主观性的消极影响,一般采取哪些方法?第四章练习题一、名词解释职业适应性测评的定义、内容;职业能力测评的定义、内容、领导人才测评的定义、内容、管理人才测评的定义、内容、科技人才测评的定义、内容。
《空间分析与应用》复习题一、名词解释1、空间分析:是以地理事物的空间位置和形态特征为基础,以空间数据运算、空间数据与属性数据的综合运算为特征,提取与产生新的空间信息的技术和过程。
2、空间聚类分析:是将地理空间实体或地理单元集合依照某种相似性度量原则划分为若干个类似地理空间实体或地理单元组成的多个类或簇的过程。
类中实体或单元彼此间具有较高相似性,类间实体或单元具有较大差异性。
3、坡长:是指在地面上一点沿水流方向到其流向起点间的最大地面距离在水平面上的投影长度,是水土保持的重要因子,水力侵蚀的强度依据坡长来决定,坡面越长,汇集的流量越大,侵蚀力就越强。
4、平面曲率:是过地面上某点的水平面沿水平方向切地形表面所得到曲线在该点的曲率值,它描述的是地表曲面沿水平方向的弯曲、变化情况。
5、地表粗糙度:反映地表的起伏变化和侵蚀程度的指标,一般定义为地表单元的曲面面积与其在水平面上的投影面积之比,公式:R = S 曲面/S水平,实际应用中,当分析窗口为3*3时,可采用近似公式求解:R = 1/cos(S),其中S- 坡度。
6、地理空间分析:是以地理事物的空间位置和形态特征为基础,以空间数据运算、空间数据与属性数据的综合运算为特征,提取与产生新的空间信息的技术和过程。
7、地理空间认知:是指在在日常生活中,人类如何逐步理解地理空间,进行地理分析和决策,主要包括地理信息的知觉、编码、存储、以及和解码等一系列心理过程。
8图论中的路径:一个图的路径是顶点vi和边ei的交替序列卩=v0e1v1e2 , vn-1envn如果v0 = vn ,称路径是闭合的,否则称为开的;路径中边的数据称为路径的长;若路径卩的边e1,e2, en均不同,则卩称为链;若它的所有顶点都不同,称为路;一条闭合的路称为回路。
9、增广链:设f是一个可行流,卩是从vs到vt的一条链,若卩满足前向弧都是非饱和弧,反向弧都是都是非零流弧,则称卩是(可行流f的)一条增广链。
第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
第三章 聚类分析
一、填空题
1.在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型: 间隔尺度 、 顺序尺度 和 名义尺度 。
2.Q 型聚类法是按___样品___进行聚类,R 型聚类法是按_变量___进行聚类。
3.Q 型聚类统计量是____距离_,而R 型聚类统计量通常采用_相似系数____。
4.在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。
常用的变换方法有以下几种:__中心化变换_____、__标准化变换____、____规格化变换__、__ 对数变换 _。
5.距离ij d 一般应满足以下四个条件:对于一切的i,j ,有0≥ij d 、 j i =时,有
0=ij d 、对于一切的i,j ,有ji ij d d =、对于一切的i,j,k ,有kj ik ij d d d +≤。
6.相似系数一般应满足的条件为: 若变量i x 与 j x 成比例,则1±=ij C 、 对一
1≤ij 和 对一切的i,j ,有ji ij C C =。
7.常用的相似系数有 夹角余弦 和 相关系数 两种。
8.常用的系统聚类方法主要有以下八种: 最短距离法 、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。
9.快速聚类在SPSS 中由__K-mean_____________过程实现。
10.常用的明氏距离公式为:()p
k q jk ik ij x x q d 11⎥
⎦
⎤⎢⎣⎡-=∑=,当1=q 时,它表示 绝
对距离 ;当2=q 时,它表示 欧氏距离 ;当q 趋于无穷时,它表示 切比雪夫距离 。
11.聚类分析是将一批 样品 或 变量 ,按照它们在性质上 的 亲疏、相似程度 进行分类。
12.明氏距离的缺点主要表现在两个方面:第一 明氏距离的值与各指标的量纲有关 ,第二 明氏距离没有考虑到各个指标(变量)之间的相关性 。
13.马氏距离又称为广义的 欧氏距离 。
14,设总体G 为p 维总体,均值向量为()'
p μμμμ,,
,= 21,协差阵为∑,则样品
()
'
=p X X X X ,,,21 与总体G 的马氏距离定义为
()()()μμ-∑'
-=-X X G X d 12,。
15.使用离差平方和法聚类时,计算样品间的距离必须采用 欧氏距离 。
16.在SPSS 中,系统默认定系统聚类方法是 类平均法 。
17.在系统聚类方法中, 中间距离法和 重心法 不具有单调性。
18.离差平方和法的基本思想来源于 方差分析 。
19.最优分割法的基本步骤主要有三个:第一,定义类的直径 ;第二, 定义目标函数 ;第三, 求最优分割 。
20.最优分割法的基本思想是基于 方差分析的思想 。
二、判断题
1.在对数据行进中心化变换之后,数据的均值为0,而协差阵不变,且变换后后的数据与变量的量纲无关。
( ) 2.根据分类的原理,我们可以把聚类分为样品聚类和变量聚类。
( ) 3.兰氏距离不仅克服了明氏距离与各指标的量纲有关的缺点,而且也考虑了变量间的相关性。
( ) 4.当各变量之间相互独立时,马氏距离就退化为欧氏距离。
( ) 5.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差平方和法都具有单调性,只有中间距离法不具有单调性。
( ) 6.重心法比离差平方和法使空间扩张。
( ) 7.离差平方和法的思想来源于方差分析.如果类分得比较合理,同类样品之间的离差平方和应当较大,类与类之间的离差平方和应当较小. ( ) 8.使用离差平方和法时,计算样品间的距离必须采用欧氏距离. ( ) 9.快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法大得多的数据组. ( ) 10.明氏距离的优点在于考虑了各个指标之间的相关性,而缺点在于它的值与各指标的量纲有关。
( ) 11.马氏距离考虑了便了之间观测变量之间的相关性。
( ) 12.兰氏距离对大的奇异值不敏感,适合高度偏倚的数据,但是它没有克服与各指标的量纲有关的缺点。
( ) 三、简答题
1.简述聚类分析的基本思想和基本步骤? 2.系统聚类法的基本思想是什么? 3.系统聚类法的基本步骤是什么? 4.简述最长聚类法的聚类步骤。
5.简述快速聚类的基本思想及主要步骤。
6.简述最优分割法的步骤
7.简述Ward 离差平方和法的基本思想.
8.在数据处理时,为什么通常要进行标准化处理? 9.简述最优分割法的基本思想和基本步骤。
四、计算题
1.假设有一个二维正态总体,它的分布为:⎥⎦⎤
⎢⎣⎡⎪⎪⎭⎫ ⎝
⎛⎪⎪⎭⎫ ⎝⎛19.09.01,002N ,并且还已知
有两点()'=1,1A 和()'
-=1,1B ,
要求分别用马氏距离和欧氏距离计算这两点A 和B 各自到总体均值点()'
=0,0μ的
距离.
2.设有5个样品,已知各样品之间的距离矩阵为:
54
3
2
1G G G G G
⎥⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎢⎣⎡06
5
.32
7
05.24105.15.305054321G G G G G 试分别用最短距离法和最长距离法聚类。
3.为研究全国31个省区城镇居民生活消费的分布规律,根据2003年统计资料利用SPSS 软件中的系统聚类法做类型划分,其谱系图如下,你认为从全国各省区的消费情况看,分为几类较合适,结合我国区域社会及经济发展情况,对分类结果作简要分析。
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 青海 29 宁夏 30 河南 16 甘肃 28 河北 3 四川 23 陕西 27 湖北 17 湖南 18 内蒙古 5
新疆 31 吉林 7 黑龙江 8
山西
4 辽宁 6
云南 25 安徽 12 贵州 24 江西 14 江苏 10
重庆 22 山东 15
福建 13 广西 20
海南 21 天津 2 西藏 26 浙江 11 广东 19 上海 9 北京 1
4.下面给出了八个样品的两个指标数据
试用中间距离法进行聚类,样品间的距离采用欧氏距离。
五、SPSS 操作题
1.某校从高中二年级女生中随机抽取16名,测得身高和体重数据如下表:
试分别利用最短距离法、最长距离法、重心法、类平均法、中间距离法将它们聚类(分类统计量采用绝对距离),并画出聚类图。
2.从不同地区采集了七块花岗岩,测其部分化学成分如下:
试作如下分析:
(1)样本间用欧氏距离,并用系统聚类的诸方法对样本进行聚类。
(2)将数据标准化后,仍用欧氏距离,然后用系统聚类的诸方法对样本进行聚类。
(3)对五个变量进行聚类。